近日,IEEE ISI 2019國際大數據分析競賽結果出爐,深蘭科技DeepBlueAI團隊利用自研的AutoML系統,分別取得了一項冠軍和一項季軍的優異成績。從學術層面來看,了解AutoML技術強在哪里固然重要;但這項技術的領先對AI產業應用的落地更具有實踐意義。
憑著這把自研AutoML利劍,榮登 IEEE ISI “鐵王座”。
自谷歌2017年重磅推出AutoML,這個深度學習領域的新一代王者便成了AI界競相熱捧的重要技術。
近日,IEEE ISI 2019 世界杯大賽結果出爐。來自國內 AI 獨角獸深蘭科技的 DeepBlueAI 團隊,便憑借著自研AutoML技術,斬獲一個冠軍、一個季軍的好成績!
這是一項國際性的大數據分析競賽,共有來自中國、美國、英國、德國等 7 個國家,來自華為、京東、滴滴等知名企業,以及知名高校和研究機構的三百余支隊伍參賽,其中包括在AI學術領域實力卓越的中科院、清華大學和北京大學等。
深蘭科技從逾千名參賽選手中脫穎而出,在其中一個賽題以較大領先優勢獲得了冠軍。
今年 IEEE ISI 大賽分為兩個賽題:
投資價值評估;
法律訴訟類型預測。
在企業投資價值評估賽題中,深蘭科技 DeepBlueAI 團隊以 3.2585 的好成績奪冠,以絕對優勢領先第二名(成績 3.3626)。
排名如下:
在 “企業投資價值評估” 賽題中,深蘭科技 DeepBlueAI 團隊以較大領先優勢獲得冠軍
值得一提的是,這不是深蘭科技 AutoML 第一次奪冠。在不久前的PAKDD (亞太知識發現和數據挖掘會議) 2019 挑戰賽上,深蘭科技團隊應用 AutoML,從 130 多支隊伍中脫穎而出,也同樣斬獲了第一名。
國內AI獨角獸如何憑借自研AutoML斬獲冠軍?
今年 IEEE ISI 大賽主要的難點包括數據維度廣、信息復雜、數據特征類型豐富、數據量小。
深蘭科技團隊成員基于以上難點,采用了自研的 AutoML 系統進行建模,該系統包括:自動數據清洗、自動特征工程、自動特征選擇、自動模型調參、自動模型融合等步驟,能極大的提高任務建模的效率,并且在此次競賽中也大大提升了效果,最終結果取得了較大領先優勢。
在自動化數據清洗方面,由于此次競賽提供的數據是真實的工業界應用數據,含有大量的不規范字段。因此,深蘭的自動化數據清洗模塊,對不同類型的數據采用了不同的清洗方法,能夠有效的清洗不規范數據。
在特征工程方面,深蘭的技術包含兩個階段:AutoML 自動特征工程階段和業務特征強化階段。
在 AutoML 自動特征工程階段,將原始數據清洗成 AutoML 系統可處理的格式后,進行自動特征生成,然后進行特征選擇迭代。
AutoML 自動特征工程
在自動特征工程階段,參賽人員發現專利和資質認證兩個信息對模型效果提升較大。使用 AutoML 幫助他們快速地捕捉到了這一重要信息,從而進一步構建業務特征。
在模型融合方面,為了增強最終結果的穩定性,參賽人員采用了Stacking+Bagging 的方式進行模型融合。
融合的主體方法是 Stacking,第一層采用過的模型有 LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTreesRegressor。每個模型采用交叉驗證的方式進行線下驗證。
模型結果
在 Stacking 的第二層中采用了基于約束的線性模型,在實驗中發現效果好于其他線性和非線性模型。
在 Bagging 中使用了不同 seed 以及隨機微調了一些參數分別生成 10 個 LightGBM 和 10 個 XGBoost 模型。
最后將 Stacking 的結果與 Bagging 結果進行簡單線性加權融合作為最終預測結果。
模型融合
在這次競賽中模型融合提升并不是很大,從榜單來看,單模型結果就能獲得冠軍,因此AutoML 自動特征工程部分是深蘭科技制勝的關鍵。
AI“兵家必爭”之技:將深度學習最難的一環自動化
在 2017 年谷歌 I/O 大會上,谷歌首席執行官 Sundar Pichai 首次公布了名為 “AutoML” 的項目,Pichai 說:“AutoML 可以自動化設計深度學習軟件最難的一環:為神經網絡選擇正確的架構。”
即使是有經驗的 AI 研究人員,通常也需要花費大量時間來構建合適的神經網絡,有了 AutoML,研究人員可以更高效地找到合適的網絡架構,構建 AI 系統來處理任何他們想做的任務。
機器學習流程的各個部分都可以通過 AutoML 實現自動化,包括數據預處理、特征工程、模型選擇、參數調節等,從而降低構建機器學習模型的門檻。
AutoML旨在將設計AI的環節自動化
UC Berkeley 教授Jitendra Malik曾經說:
“我們以前是手工調算法,現在是手工調網絡架構,如果囿于這種模式,那人工智能無法進步。”
Caffe 作者、AI 大神賈揚清也對 AutoML 技術特別關注:
“即使在科研方向,我們的挑戰也剛剛開始:如何走出手工調參的老路,用智能提升智能,是個非常有意思的問題。最開始的 AutoML 系統依然停留在用大量算力暴力搜索模型結構的層面上,但是現在各種更高效的 AutoML 技術開始產生,這是值得關注的。”
而在AI發展的大浪潮下,人工智能人才的缺口已達“百萬”的量級,各企業已然到達了求賢若渴的狀態,甚至可以說是重金難求。
除了能夠節省大量人力物力財力,AutoML還能更加快速和安全地搭建出一個優于大多數算法工程師搭建的機器學習系統。
因此,對有意嘗試或導入 AI 的企業來說,“讓機器學習得以自動化”具有很大的吸引力。
目前 AutoML 已經廣泛應用在精準營銷、金融風控、自動駕駛、疾病預測等業務場景中,做出了接近甚至超過數據科學家的模型效果,決策精準度超過人類專家規則數倍。
落地才是硬道理,我們需要怎樣的AutoML?
正如上文所提到的,AutoML具有門檻低、成本低、泛用性強等諸多優點,被越來越多的企業使用,也成為產品落地過程中使用的一項重要技術。
作為真正關注日常人工智能場景落地化應用的企業,通過AutoML推動社會發展、幫助到更多的人已成為越來越多AI公司的愿景。
但目前市面上的AutoML平臺,大多只是試驗性甚至偏娛樂化的,缺乏對于產業應用場景的深入適配,而深蘭科技則站在產業的高度看問題。
在自動駕駛領域,AutoML起著重要的作用,因為機器學習可以說是在自動駕駛系統的大部分環節都扮演著關鍵角色。
無人車“老大”谷歌旗下公司Waymo也已將AutoML應用于智能駕駛。Waymo需要將自動駕駛技術應用到不同的城市與環境中,這就需要針對不同的場景快速優化Waymo的模型。
AutoML可以在此過程中連續且高效地提供ML解決方案。
而深蘭科技的AutoML技術在自動化數據清洗以及特征工程方面都有較大優勢,這更有利于賦能自動駕駛領域。
同時,深蘭科技也在自動駕駛領域不斷探索并收獲,例如今年推出的熊貓智能公交車。
熊貓智能公交是一款大型人工智能、智能駕駛交通運輸車輛,總長約12米, 以新能源磷酸鐵鋰電池為驅動,無人駕駛技術等級介于L3~L4之間。
今年5月,中新天津生態城引入的三輛熊貓智能公交車并拿到正式牌照上路運營,這也是全球首批自動駕駛公交車投入商用運營。此外,6月20日廣州正式發布首批自動駕駛路測牌照,深蘭科技成為首批獲得廣州市智能網聯汽車道路測試資格的企業,也是唯一獲得大型客車路測資格的人工智能企業。
除了智能駕駛領域,深蘭科技對于產業落地的探索并未止步。
深蘭也相繼推出一系列 AI 產品方案,包括AI智能掃路機、智能零售移動商用車、AI自販柜、吸塵機器人、兜售機器人、手脈閘機等,將技術真正落地到現實生活中。在未來的AI產品方案中,AutoML技術可起到強大的助力作用。
正如深蘭科技創始人兼CEO陳海波所言:
“人工智能服務民生就是要提供能夠讓人們看得見摸得著的產品和服務。”
深蘭科技也正在一步步踐行這句話。
從AutoML出發,來看一家成功AI公司的必備基因:科研自立
對AutoML技術投入研究并取得成績,窺一斑而知全豹,這家AI公司所走的路線也非常明確:做強技術為堅實基礎,同時重視實用性,大力實現落地應用。
深蘭科技創始人兼CEO陳海波在一次演講中,曾經將其商業模式概況為八個字:“做強兩端,打通鏈路”,“兩端”分別指技術和市場,打出“企業+研究院”的混合牌。
其中在技術方面,深蘭科技有著龐大且完善的研發體系。
所謂“龐大”,深蘭科技在全球擁有眾多博士和博士后團隊,據悉,深蘭科學院及聯合研究機構擁有博士及博士后學位的學術帶頭人超百位。
此外,作為人工智能企業,深蘭一直致力于人工智能基礎研究和應用開發。深蘭科技與多個國內外知名企業、院校等,建立了智能駕駛技術、智能和精密制造、數據和金融安全、人工智能、AIoT智聯網、人機交互、AI芯片等多個相關領域的聯合實驗室,共同構筑了深蘭系全球性的研發科研體系。
所謂“完善”,即這家AI公司的研究并未只限定一個領域,其核心技術集中在計算機視覺、自動駕駛、生物智能、語義智能四個方面。
而多領域、國際化的研究布局、對技術的大力投入,為這家AI公司快速實現AI賦能提供支撐力量。
依托自主知識產權的深度學習架構、機器視覺、生物智能識別等人工智能算法,不斷孵化項目,實現人工智能從技術到產品的快速落地,搭建了以領先技術和創新產品為核心的應用生態圈。
同時,通過人工智能應用生態平臺的大數據積累,深蘭進一步優化了算法、細分行業產品的標準化和成熟度。技術與應用之間已形成完整的閉環。
從深蘭科技的成長經歷來看,它無疑是一個“幸運”的公司。年輕有為,既早早做到了AI落地產品、服務民生,也由于多次取得國際賽事的冠軍也有了“中國自主研發”的標簽。
幸運的背后正是擁有所有成功公司都有的基因——看重技術,并愿意為之投入巨大精力。
在如今的國際局勢下,中國AI企業走上“科技自立”的道路已是必然,“中國自主研發”的標簽更應該貼牢。
-
AI
+關注
關注
87文章
31841瀏覽量
270625 -
深度學習
+關注
關注
73文章
5521瀏覽量
121645 -
獨角獸
+關注
關注
0文章
189瀏覽量
26597
原文標題:憑著這把AutoML利劍,這家AI公司榮登 IEEE ISI “鐵王座”
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
浙江AI最強陣容出爐,中之杰智能躋身前列
![浙江<b class='flag-5'>AI</b><b class='flag-5'>最強</b>陣容出爐,中<b class='flag-5'>之</b>杰智能躋身前列](https://file1.elecfans.com//web3/M00/08/32/wKgZO2etsRuAMp1UAACezC8mh04452.jpg)
全球的AI+EDA(電子設計自動化)創新項目
軟銀攜手英偉達打造日本最強AI超算
SensiML開源了Analytics Studio AutoML引擎
![SensiML開源了Analytics Studio <b class='flag-5'>AutoML</b>引擎](https://file1.elecfans.com/web1/M00/F4/64/wKgaoWcqyGKAGA5BAAAb6xGR32U822.png)
英偉達地表最強AI芯片GB200 NVL72服務器遭搶購
天璣9400生成式AI技術太牛了!打造最強AI體驗
![天璣9400生成式<b class='flag-5'>AI</b>技術太牛了!打造<b class='flag-5'>最強</b><b class='flag-5'>AI</b>體驗](https://file1.elecfans.com//web2/M00/09/6B/wKgZomcMtPeAR57GAAEWNe0dLjM71.jpeg)
SensiML開源AutoML解決方案-Piccolo AI發布
百億光模塊市場!光芯片加速國產化,國內廠商深挖高速光芯片潛力
![百億光模塊市場!光芯片加速國產化,國內廠商深挖高速光芯片潛力](https://file1.elecfans.com/web2/M00/E8/D2/wKgZomZQZOaAHpaMAAHvnTzHLSE438.png)
英偉達發布最強AI加速卡Blackwell GB200
今日看點丨英偉達發布最強 AI 加速卡--Blackwell GB200;三星面臨罷工 存儲市場供需引關注
海信發布電視行業最強中文大模型,開啟電視AI新時代
【ALINX 技術分享】AMD Versal AI Edge 自適應計算加速平臺之 Versal 介紹(2)
![【ALINX 技術分享】AMD Versal <b class='flag-5'>AI</b> Edge 自適應計算加速平臺<b class='flag-5'>之</b> Versal 介紹(2)](https://file1.elecfans.com/web2/M00/C4/01/wKgaomXpc4CAdotmAAESc7mijLA820.png)
新火種AI|谷歌深夜炸彈!史上最強開源模型Gemma,打響新一輪AI之戰
![新火種<b class='flag-5'>AI</b>|谷歌深夜炸彈!史上<b class='flag-5'>最強</b>開源模型Gemma,打響新一輪<b class='flag-5'>AI</b>之戰](https://file1.elecfans.com//web2/M00/C1/98/wKgaomXXUZGAQG8uAACoBfQX4bI124.jpg)
評論