回顧2018,人工智能正在成為手機發(fā)展的“新引擎”。2018年商湯在手機業(yè)務碩果累累,“3D人臉識別、人臉3D重建及微整形、人臉解鎖、AI智慧雙攝、超分辨率、3D人體實時追蹤、3D虛化、AI人像光效、Animoji、美體、SLAM、AR相機、AR導航、AR測量”等諸多技術在OPPO、vivo、小米、華為、魅族、OnePlus等手機產品中紛紛落地,廣受用戶歡迎。商湯手機的AI功能覆蓋了全部的頭部客戶和80%的長尾客戶。
那么,商湯為何能夠獲得手機廠商的高度認可?這兩年手機硬件與AI軟件的角色又有哪些轉變?商湯從創(chuàng)立之初就選擇并堅持產學研一體化模式,根本原因是什么?如何培養(yǎng)和管理一支富有創(chuàng)造力的人工智能團隊?2019年的AI手機行業(yè)又有哪些趨勢?為解答這些疑問,近日,商湯君與商湯科技聯(lián)合創(chuàng)始人、研究院院長王曉剛教授進行了一次深度對話。
王曉剛教授是商湯科技聯(lián)合創(chuàng)始人、研究院院長、杰出科學家,同時亦為香港中文大學電子工程系副教授。王曉剛教授畢業(yè)于中國科技大學少年班,于2001年獲得電子工程與信息科學學士學位;2004年獲得香港中文大學信息工程碩士學位;2009年獲得麻省理工學院人工智能實驗室獲得計算機博士學位。
王曉剛教授的研究領域包括計算機視覺和機器學習,他曾在頂級的國際期刊和會議發(fā)表超過200篇論文,其論文在GoogleScholar上的引用次數超過17000次。他還是國際頂級計算機視覺會議CVPR 2017, ICCV 2011,ICCV 2015, ICCV 2017, ECCV 2014, ECCV2016, ACCV 2014和ACCV 2015的領域主席。
總結2018:優(yōu)異成績單源自積累、體系和格局
Q:2018年商湯AI技術在手機上有很多應用,包括AI雙攝虛化、人臉3D重建、超分辨率、3D人體實時追蹤等等,并與OPPO、vivo、小米、華為等手機廠商都有合作,您覺得商湯在手機業(yè)務獲得優(yōu)異成績的原因有哪些?
A(王曉剛):首先非常感謝我們的客戶和產業(yè)鏈的合作伙伴一直以來對商湯的信任與支持。我覺得商湯能夠獲得客戶認可有幾個因素,第一是積累,商湯是比較早地把AI帶到手機,我們有比較深厚的積累。比如2014年商湯就在學術界首次提出了基于深度學習的超分辨率技術,并且擁有最早一批相關專利。經過四年打磨,2018年終于在vivo X23手機上落地。比如體感游戲中的人體關鍵點技術我們也已經有了數年的積累。再如AR的SLAM,我們和浙江大學-商湯三維視覺聯(lián)合實驗室有十幾年的積累。深厚的積累是源源不斷創(chuàng)新的保障。
應用于vivo X23幻彩版的SensePhoto超分辨率技術
其次是體系。比如SLAM,我們從視覺SLAM到基于雙攝的SLAM和基于多傳感器融合的SLAM,是一整套的SLAM技術體系。在SLAM技術基礎上,我們還有導航、重建、AR測量、AR 相機等多種應用。完整的技術和產品體系可以更好地滿足客戶需求,為客戶創(chuàng)造價值。未來,這些手機上打磨的技術還可以應用于互聯(lián)網和IOT,構造一個更大的AI生態(tài)。
另外,這歸功于商湯的格局,我們看問題著眼未來。比如商湯SenseAR平臺是對標谷歌的ARCore,蘋果的ARKit,還要體現出差異化。很多人覺得商湯難以和國際巨頭抗衡,但商湯的目標是要在手機上做長遠的規(guī)劃,這就要從最基礎夯實我們的技術。如今商湯SenseAR平臺支撐了非常多的應用,將來還會更多。
OPPO發(fā)布與商湯合力打造的OPPO AR開發(fā)者平臺
Q:關于人體識別,商湯其實在安防領域也有應用,那么在安防領域的應用和手機領域運用有什么不同嗎?
A:手機上對準確性和實時性的要求會更高,因為它直接關系到用戶的體驗。比如我們在手機上做的3D體感游戲是通過肢體動作控制游戲里面的人物,這些控制必須非常準確。
SensePosture3D人體骨架檢測算法正在為OPPO R17 Pro體感游戲帶來支持,圖片源自ColorOS官方社區(qū)
安防領域主要是識別,但手機除了識別,還有重構、合成,比如美體中的應用,如果對人體的關鍵點定位和人體分割出現微小的偏差,就會出現背景和人物的扭曲。從這個意義上講,手機對技術的要求更苛刻、更嚴格。
AI角色轉變,從彌補硬件不足到硬件專門為AI設計
Q:近兩年手機AI軟件已經逐漸影響硬件研發(fā)方向,您怎么看這種轉變?
A:手機硬件和AI的關系有三個階段:第一個階段是AI彌補硬件的不足;第二個階段是硬件推動AI的創(chuàng)新;第三個階段是部分硬件專門為AI設計,AI和硬件聯(lián)合創(chuàng)新。
一開始AI是彌補硬件的不足,比如由于物理條件的限制手機拍不出單反的效果,我們可以嘗試通過AI的方式實現某些功能。再如手機用兩個攝像頭估計深度,然后做人像和人體分割。2016年商湯第一個在OPPOR9s上通過AI算法實現單個攝像頭的人像分割,從而進行背景虛化,彌補了硬件的不足,降低了成本。
隨之硬件又推動了AI的創(chuàng)新,比如手機上隨著深度攝像頭的出現,可以做3D人臉解鎖、3D人臉重建、AR測量和一系列的體感游戲。另外,NPU最初的出現把原來手機芯片對神經網絡的處理能力提升了很多倍,為AI提供了更多的算力。
SenseMatrix AR測量幫助OPPO R17 Pro打造AR尺子功能
如今,一些硬件是專門為AI設計的,AI和硬件聯(lián)合創(chuàng)新。新一代的3D攝像頭和NPU(嵌入式神經網絡處理器)這些硬件的創(chuàng)新就是圍繞AI,需要和AI的算法融合在一起為消費者帶來價值,這些變化大大促進了AI技術提供商和產業(yè)鏈合作伙伴之間更緊密的配合,并提升服務客戶的能力。
去年12月,高通發(fā)布了全球首款商用5G移動平臺——驍龍855,擁有強大的AI能力,其中就包括商湯的SenseID 3D ToF人臉認證、SensePhoto AI超分辨率、SensePhoto AI夜景和SensePhoto AI雙攝虛化等多項創(chuàng)新技術。
同樣于去年12月發(fā)布的聯(lián)發(fā)科新一代移動平臺Helio P90擁有旗艦級AI算力,也搭載了商湯SenseColor人像留色技術,可以實時識別、分割出所拍攝人物輪廓與外在環(huán)境邊界。
作為人工智能的重要推動者,未來商湯科技的創(chuàng)新將更進一步,與合作伙伴一起推動整個行業(yè)的發(fā)展,更好的服務廣大用戶。
切忌涸澤而漁,產學研一體化是創(chuàng)新的源泉
Q:商湯一直堅持產學研一體化的模式,它的優(yōu)勢具體體現在哪些方面?
A:產學研一體化是商湯創(chuàng)新的源泉。一項技術應用到手機上可能是3到6個月,但這項技術的積累可能已經花了幾年時間。
現在很多公司邀請大學的AI教授加入工業(yè)界,一段時間后他們會把之前積累的學術成果轉化為落地的技術,然后工業(yè)界馬上會問下一個新技術是什么?工業(yè)界對AI的需求是非常迫切的。一些教授進入工業(yè)界后就失去了繼續(xù)創(chuàng)造的源泉,他們需要持續(xù)培養(yǎng)學生,才能夠有一個土壤提供源源不斷的創(chuàng)新。如果切斷了這樣的源泉就會產生涸澤而漁的結果。產學研一體化需要不斷汲取各種各樣的新技術來刺激它,推進它,僅通過商湯一家公司是很難完成的,要建立學術界和工業(yè)界共贏的生態(tài)。
商湯科技在世界人工智能大會上聯(lián)合15所高校發(fā)起“全球高校人工智能學術聯(lián)盟”
Q:產對研有沒有反過來的促進?
A:有的,我們從實驗室出來的東西大多是一個雛形,真正應用到手機里面還要經過深度的打磨,經過手機廠商打磨之后會變得非常強大,它會再次返回到學術端。例如商湯SenseAR平臺就是從實驗室出來并經歷了深度打磨的過程,它不但會開放給開發(fā)者,其中一些模塊也會開放給我們的學術聯(lián)盟。我們的學術聯(lián)盟相當于站在SenseAR這個巨人的肩膀上再往前走。等他們有一些成果的時候會貢獻到SenseAR的一些模塊中,使得這個平臺得以持續(xù)提升。
另外,產也會對研提供一些新的研究課題,比如3D技術的研發(fā),手機上3D傳感器的出現必然帶來3D數據的極大豐富,原來互聯(lián)網圖像和視頻數據以2D為主,有了海量的3D數據,就可以做更多新的研究課題。
Q:如果未來3D數據大量涌現可能又會衍生出新的、不一樣的生態(tài)。
A:對,這會刺激更多的研究創(chuàng)新,創(chuàng)新不能是憑空的,一定要有土壤,產業(yè)界可以給他們提供這樣的土壤。
一個團隊一定要經歷“涅磐”,才能夠成長
Q:您在培養(yǎng)團隊方面有沒有一些心得和體會可以分享一下?
A:從學術研究到產業(yè)落地有一個比較大的距離,商湯的一些研究員是從大學實驗室出來的。我們團隊一定要經過一個“鳳凰涅磐”的過程才能走向成熟。很多項目我們是覺得已經不行了,快絕望了,最后一口氣堅持下來,取得了成功。
我們手機上一項技術的落地像是“十月懷胎”,到最后關頭是非常痛苦的過程。落地之后這個團隊就成熟了,下一次他們就知道怎么經歷這樣的過程,就可以承擔更重大的責任。
另外,一項技術開始的時候可能有比較強的新鮮感,之后會遇到很多細節(jié)的問題,面對客戶提出的各種各樣需求,而這時候團隊的新鮮感已經消失了。在這種情況下如何繼續(xù)保持團隊戰(zhàn)斗力至關重要。
2018年初我們給手機團隊提的要求第一是敬畏客戶,第二是追求極致。我們需要先認真傾聽客戶的需求,再在產品上追求極致體驗,每一個邊邊角角,每一個瑕疵都要解決。現在用了商湯算法的手機超過4億臺,商湯的產品和技術最終要走進千家萬戶,要給大眾一個最極致的體驗。
商湯成長很快,原來商湯好比是一輛自行車,如果沒有剎車(質量控制)頂多把自己摔得鼻青臉腫;現在是跑車,如果沒有剎車破壞力會非常強。當商湯給市場提供越多價值的時候,我們的責任就越大,這就是我們?yōu)槭裁匆次房蛻簦非髽O致的體驗。
展望2019:從2D到3D,5G帶來更多視頻處理需求
Q:您怎么看2019年AI手機發(fā)展趨勢?
A:2019年有幾個趨勢,NPU的出現會充分釋放AI算力的優(yōu)勢,發(fā)揮AI的潛力;隨著5G的落地,云和端會更緊密的結合;我們正在快速邁向3D的新時代,擁抱海量3D數據給生活帶來的巨大變化;隨著AI和AR平臺能力的開放,將進一步賦能開發(fā)者,推動整個生態(tài)的進步;另外多傳感器融合、手機與IoT的結合、智能語音助手都會有更多云+端的應用。
Q:AI和5G有哪些融合嗎?5G對手機行業(yè)會有哪些影響?
A:5G可以充分運用云上的算力,它有更少的延時和更大的帶寬。我們目前看到手機上的AI功能是對圖像處理比較多,有了5G之后會有更多對視頻的處理和對3D數據的處理。
Q:最近艾瑞咨詢聯(lián)合商湯發(fā)布了《2018年中國人工智能手機行業(yè)研究報告》,艾瑞通過調研發(fā)現,中國手機用戶下次更換手機時95.9%都更愿意選擇AI手機。您覺得AI手機對消費者的吸引力為何會這么大?
A :很欣喜看到消費者對AI價值的認可,這是手機廠商、硬件廠商和AI技術提供商共同努力的結果。AI手機為用戶帶來了更好的體驗和諸多新的應用,例如超分辨率、人臉解鎖和3D應用,這些AI軟件的創(chuàng)新給人們帶來很多的驚喜。其次AI技術提供商和手機廠商的合作也在逐漸深入,能夠使AI更好地服務手機客戶,進而使整個用戶的體驗得到提升,這是最根本的。另外一個就是創(chuàng)新的速度,AI手機迭代非常快。
用AI為用戶創(chuàng)造價值、為開發(fā)者賦能是商湯的使命,相信在我們客戶以及合作伙伴的共同努力下,2019年的AI手機一定會有更加豐富多彩的體驗。
-
AI
+關注
關注
87文章
33941瀏覽量
274837 -
人臉識別
+關注
關注
76文章
4066瀏覽量
83552
發(fā)布評論請先 登錄
工信部辛國斌到訪上海車展商湯絕影展臺
商湯科技與上海徐匯區(qū)文旅局達成合作
商湯大裝置SenseCore 2.0全新升級
商湯絕影王曉剛亮相NVIDIA GTC 2025并發(fā)表主題演講
商湯科技這兩款產品接入DeepSeek
鯤云科技與中國工業(yè)互聯(lián)網研究院成立AI+安全生產聯(lián)合實驗室
商湯科技全鏈條布局AI云標準
商湯科技完成戰(zhàn)略組織架構重組
商湯醫(yī)療與上海臨床創(chuàng)新轉化研究院簽署戰(zhàn)略合作協(xié)議
商湯絕影在行業(yè)率先實現原生多模態(tài)大模型的車端部署

評論