云知聲專注物聯(lián)網(wǎng)人工智能服務(wù), 通過 AI 芯、AIUI、AI Service 三大解決方案支撐核心技術(shù)的落地和實現(xiàn),目前已經(jīng)在家居、汽車、醫(yī)療和教育等領(lǐng)域有廣泛應(yīng)用,形成了完整的「云端芯」生態(tài)閉環(huán)。
機(jī)器之心于近期對云知聲 CEO 黃偉進(jìn)行了專訪,黃偉介紹了云知聲的技術(shù)研究、「云端芯」產(chǎn)品戰(zhàn)略、在車載和醫(yī)療行業(yè)的應(yīng)用,以及對人工智能看法。
云知聲 CEO 黃偉
一、云知聲的技術(shù)研究
2012年底,我們把深度學(xué)習(xí)應(yīng)用到了語音識別。我們今天的技術(shù)架構(gòu)都在使用增強(qiáng)學(xué)習(xí)。
機(jī)器之心:這幾年深度學(xué)習(xí)帶來了語音識別的巨大進(jìn)步,云知聲是何時開始這方面研究的?
黃偉:2012 年 12 月底,我們把深度學(xué)習(xí)應(yīng)用到了語音識別里,而且把它開放出來提供給第三方。這源于 2011 年,我去佛羅倫薩參加國際語音會議 Interspeech,當(dāng)時和微軟研究員俞棟就深度學(xué)習(xí)的交流給了我很大信心,后來,云知聲在 2012 年 6 月份成立,9 月份我們發(fā)布語音識別平臺,之后緊跟著 10 月份我們就開始做深度學(xué)習(xí)。
那時,幾乎很少有創(chuàng)業(yè)公司敢于嘗試這個領(lǐng)域,而且我們當(dāng)時的資源也很匱乏,我們自己用了一個普通的服務(wù)器,然后又買了幾塊 GeForce 顯卡,其實我們很早就開始用 GPU 了。2012 年年底,我們的深度學(xué)習(xí)系統(tǒng)將當(dāng)時的識別準(zhǔn)確率從 85% 提升到了 91% 。隨后在 2013 年 2 月份,我們做了微信上的第一個語音輸入插件,由于我們使用深度學(xué)習(xí)帶來了準(zhǔn)確率的明顯提升,所以這款插件的用戶體驗非常好。
雖然我們很早把深度學(xué)習(xí)用于語音識別,但其實只是一個起步,當(dāng)時公司剛剛成立幾個月,不可能積累很多數(shù)據(jù),所以當(dāng)時我們的訓(xùn)練數(shù)據(jù)只有 800 小時,后來隨著我們不斷增加訓(xùn)練數(shù)據(jù),今天我們的識別準(zhǔn)確率已經(jīng)能達(dá)到 97% ,屬于業(yè)內(nèi)一流水平,在噪音和口音等情況下性能也比以前更好。
機(jī)器之心:云知聲近期主要在做哪方面的研究?比如說自然語言處理方面?
黃偉:我們還是有些超前意識的,今年 1 月份,就在 AlphaGo 火爆之前,我們就成立了 AI Lab,為什么可以做?首先,2012 年我們開始做深度學(xué)習(xí),今天我們?nèi)斯ぶ悄芩械膽?yīng)用層面,圖像識別、人臉識別、語音識別、機(jī)器翻譯和語音合成,所有的技術(shù)框架都基于深度學(xué)習(xí),只是數(shù)字信號不一樣而已。所以對我們來說,我們要從語音拓展到其他領(lǐng)域沒有任何問題,但只是說我們現(xiàn)在要意識到人工智能是未來,現(xiàn)在我們要做這樣的布局,這種布局不光是指你意識方面的改變,同時圍繞這個目標(biāo)你還要做人才儲備和資源投入。從這方面來說,從去年開始我們一直對研發(fā)投入非常重視,每年在研發(fā)上的投入占到了 50% ,今年我們的研發(fā)投入預(yù)算和去年比超過了3倍。今年公司規(guī)模和團(tuán)隊規(guī)模也在擴(kuò)大,我們還會在硅谷設(shè)立辦公室,同時還會在一些新的技術(shù)方向進(jìn)行儲備和投入。
關(guān)于自然語言處理,我們在 2013 年 9 月份就發(fā)布了語義云平臺,到目前為止我們在語言理解方面支持的領(lǐng)域超過 50 個,從 2013 年開始我們就在做這個事情。包括給樂視及其他廠商提供的解決方案里,都會包含信號處理的降噪部分、語音識別部分、語言理解部分、用于用戶反饋的語音合成部分、以及用戶畫像和聲紋識別等,我們提供的是完整的解決方案。
只是說,今天的語言理解我們還需要做的更好一些,比如以前做一些簡單對話,那后面你會做一些復(fù)雜對話或者多種對話,這個需要我們不斷投入。從技術(shù)來看,我們在語言理解方面,以及我們今天的技術(shù)架構(gòu)都在使用增強(qiáng)學(xué)習(xí)。因為我們平臺每天會產(chǎn)生大量數(shù)據(jù),我們會對這些歷史數(shù)據(jù)進(jìn)行總結(jié)。但增強(qiáng)學(xué)習(xí)可以對未來數(shù)據(jù)進(jìn)行預(yù)測。對于一個人工智能系統(tǒng),你不能總是等犯錯之后再去糾正。從這個角度來講,增強(qiáng)學(xué)習(xí)是對未來一種行為的預(yù)測。這大大提升了我們對數(shù)據(jù)的利用效率。
二、云知聲的發(fā)展模式和產(chǎn)品思路
未來一切智能都是從芯片開始的,芯片的智能化一定是通過云端實現(xiàn)的,云端智能滲透到用戶里也一定是通過芯片實現(xiàn)。
機(jī)器之心:云知聲自一開始就堅持平臺策略,這種發(fā)展模式背后主要有哪些思考?
黃偉:我們是做公司,而非研究院,所以說技術(shù)指標(biāo)只是 KPI 之一,我們還需要一些商業(yè)模式和產(chǎn)品模式的探索。
我們早在 2013 年就確定了平臺戰(zhàn)略,因為我認(rèn)為人工智能的前提是感知智能,你一定要先完成數(shù)據(jù)的感知,那我們的平臺就是一種最好的收集數(shù)據(jù)的方式。當(dāng)年 App 大行其道,我需要非常費力的去給很多投資機(jī)構(gòu)解釋為什么我要做平臺,而不是 App 。原因在于:1)用語音識別技術(shù)去做 App 意味著我要有 80% 甚至更多時間精力放在和產(chǎn)品有關(guān)的事情上,但任何一個公司在初創(chuàng)期精力都是有限的,你不可能同時有研究院、工程院,還有產(chǎn)品部門。2)做 App 之前要明確語音在手機(jī)上是不是剛性需求?其實直到今天,我本人也都依然對此持懷疑態(tài)度,我認(rèn)為手機(jī)是以觸碰為主,語音為輔的。3)我們認(rèn)為平臺戰(zhàn)略的 B2B2C 方式是一種最快到達(dá)用戶的方式,既然語音在手機(jī)端不是剛性需求,那你不要指望它有多少自然下載量和活躍用戶,更不能指望它給你貢獻(xiàn)多少有用數(shù)據(jù)。但 B2B2C 這個方式就可以幫你和應(yīng)用場景結(jié)合,產(chǎn)品由你的合作方來做,用戶由產(chǎn)品渠道來獲取。這樣的話,你就可以盡快的把用戶規(guī)模和基數(shù)擴(kuò)大。
在采取了平臺戰(zhàn)略后,我們的發(fā)展非常快,2013 年時已經(jīng)積累了接近 10,000 家合作伙伴,和搜狗、樂視、華為等國內(nèi)眾多知名公司建立了合作關(guān)系。如果不是靠平臺而是自己做 App 的話,我們是不可能達(dá)到這樣一個量級的。
機(jī)器之心:云聲音的產(chǎn)品思路是怎樣的?是如何提出「云端芯」產(chǎn)品戰(zhàn)略的?
黃偉:上面講的是云知聲關(guān)于未來發(fā)展模式的探索,在產(chǎn)品方面我們也一直在思考。最近你會發(fā)現(xiàn),包括出門問問的李志飛、Face++的印奇等,這些做了3-4年公司以上的創(chuàng)始人都不會再過分強(qiáng)調(diào)技術(shù)了。所以我要講的是,公司怎樣在產(chǎn)品方面找到一個適合自己的通道。
其實我們在 2013-2014 年往外走時發(fā)現(xiàn)了一些問題。首先,并不是所有用戶的場景都是聯(lián)網(wǎng)的,聯(lián)網(wǎng)不能解決所有問題;其次,SDK 的粘性比較弱,用戶的切換成本較低。也無法為用戶提供一種非常好的體驗,因為軟件能實現(xiàn)的功能畢竟是有限的,它可以模擬,但有時候必須要用硬件,甚至芯片級的去支持,軟件是做不到的?;谶@個問題,我們在 2014 年開始思考,未來的語音智能,甚至是人工智能是從哪兒開始的,以前我們的想法是把它放在云端,用戶的數(shù)據(jù)回傳然后在云端進(jìn)行識別,麥克風(fēng)和傳感器等都是用戶的,但后來發(fā)現(xiàn)這中間是很容易割裂的。所以,經(jīng)過這樣的思考我們認(rèn)為,未來一切的智能其實都是從芯片端開始的,芯片的智能化一定是通過云端實現(xiàn)的,云端智能滲透到用戶里也一定是通過芯片實現(xiàn)。芯片既像一個耳朵(收集信息)同時也承擔(dān)了大腦的一部分功能。如果我們用 CPU 來模擬大腦功能的話,那我覺得大腦一定是由不同功能的 CPU 組合在一起的。從這個角度來講,那人工智能也應(yīng)該留在某種芯片上面實現(xiàn)一部分智能,這個芯片既像傳感器(Camera和麥克風(fēng)等),同時它也是大腦的一部分。
這就是我們在 2014 年上半年確定的事情,在業(yè)內(nèi)最早提出了云端芯的產(chǎn)品戰(zhàn)略,云是智能,端是交互,芯片就是傳感器和一部分智能。
其實在那之前我對此也不是特別清晰,在 2014 年之前,我更多的還是想說怎么把技術(shù)做好,后來從 2012 年到 2014 年差不多兩年多的時間里,我們的基礎(chǔ)語音識別引擎已經(jīng)步入正軌,后面只是算法的調(diào)試和數(shù)據(jù)的積累,把平均識別準(zhǔn)確率繼續(xù)提升,還有語音識別應(yīng)用領(lǐng)域的拓展。這些都沒有太多不確定性了。
這時對公司來說,最大的考驗就是如何確定你的商業(yè)模式和產(chǎn)品模式,如何把你的壁壘建造起來。2014 年之后我們就想的比較清楚了,那就是我們堅定的做「云端芯」這種產(chǎn)品戰(zhàn)略,所以在 2014 年我們在 B 輪融資中引入了高通作為戰(zhàn)略投資方,也給我們帶來了很多推動。
具體到「云端芯」,我們的服務(wù)是有「云端芯」三種,1)我們的技術(shù)有芯片級技術(shù),比如說冷喚醒和打斷等;2)到一個終端軟件的交互層面,比如開車時萬一網(wǎng)絡(luò)不好,我們還有純離線的方案;3)還有一些復(fù)雜的請求是走云端。所以,我們給客戶提供的解決方案都是芯端云,并不是只賣一個芯片或者云端 SDK 之類,我們是把這個產(chǎn)品體系打通的。
機(jī)器之心:在確定了「云端芯」的產(chǎn)品戰(zhàn)略后,首先選擇了哪幾個重點應(yīng)用方向?
黃偉:確定了云端芯戰(zhàn)略后,就基本確定了幾個應(yīng)用方向,云知聲要做一個IoT領(lǐng)域的人工智能服務(wù)商,我們結(jié)合市場進(jìn)度確定了幾個細(xì)分方向,智能家居和車載、醫(yī)療、教育。2015 年我們開始重點對這些方向進(jìn)行研發(fā)和資源投入。
1)智能家居和車載
IoT 的交互看起來很簡單,但實際上面臨著很多難以解決的問題,這是在手機(jī)端做語音識別所接觸不到的,因為手機(jī)經(jīng)過多年進(jìn)化語音設(shè)備已經(jīng)比較成熟,都是麥克風(fēng)陣列,降噪也做的比較好,而且都是近場通話。對于智能家居來說,1)家庭中的冰箱空調(diào)等設(shè)備離用戶比較遠(yuǎn),存在聲波衰減的問題。2)客廳臥室是封閉環(huán)境,會因為聲波多次反射產(chǎn)生混響。如何在這種復(fù)雜的情況下,依然能夠有很好的信號捕捉能力和環(huán)境噪音抑制能力。此外,如果考慮要在產(chǎn)業(yè)中落地,那就一定要考慮功耗和成本等,在資源消耗和你想達(dá)到的表現(xiàn)之間永遠(yuǎn)是不匹配的。
要解決其中的每一個點都面臨著非常大的挑戰(zhàn),比如亞馬遜 Echo 上多麥克傳感器的供應(yīng)商,那家公司只做這個就是一家獨角獸公司了。云知聲付出了巨大努力,花了一年多時間去重點解決這些問題,在 2015 年回顧時已經(jīng)做得很不錯了。
去年上半年,我們和樂視合作了第三代智能交互電視,用戶可以用只有一個按鈕的語音遙控器來代替?zhèn)鹘y(tǒng)遙控器,我們把 AI 芯片放在了電視機(jī)里,上面還包含了麥克風(fēng)陣列,一般客廳的正常范圍有 3-5 米,你可以把它想象成一個遠(yuǎn)講的 Siri ,這是國內(nèi)第一家推出來的?,F(xiàn)在,除了樂視,我們的 AI 芯片和格力、美的、華帝、海爾、海信等都進(jìn)行了合作,海信發(fā)布的智能空調(diào)三大標(biāo)準(zhǔn)中的智能語音交互部分用的也是我們的方案。今年家博會上,格力、美的等六家較大家電廠商有五家?guī)е褂梦覀?AI 芯片的樣機(jī)來參展。
另外,車載也是一個很重要的方向,它是家庭環(huán)境的延展,如果說在家居里面我們考慮更多跟硬件相關(guān)的東西,包括穩(wěn)定性和功耗等,那么在車載場景下我們考慮更多的是交互性,因為開車的場景很特殊,雙手被占用,如何在這種情況下把交互做到流暢就非常重要了。我們在 2014 年底確定做車載后,在 2015 年初我們開始大力投入研發(fā),6 月份正式小批量出貨,截止到去年 12 月份,在整個中國的車載后裝市場,比如像行車記錄儀、導(dǎo)航儀、后視鏡和 HOD 等,我們的設(shè)備超過了100萬臺,在車載后裝市場上擁有 60% 以上的市場份額。
2)醫(yī)療
首先,醫(yī)療是個很大的市場;其次,中國很多疑難雜癥沒有攻克有一部分原因是我們的病例本身沒有電子化。雖然現(xiàn)在醫(yī)院有 HIS 系統(tǒng),內(nèi)科有電子病歷模板,但外科等多個科室是沒有病例電子模板的,依然需要醫(yī)生去打字。那更不用說一些需要操作設(shè)備的情況,比如說我在做手術(shù),那我的術(shù)中診斷誰來記錄?此外,中國醫(yī)院還承擔(dān)著科研任務(wù),這需要數(shù)據(jù),但現(xiàn)在很多病例都沒有數(shù)據(jù)化。我們現(xiàn)在就在和國內(nèi)頂尖醫(yī)院合作,完成對醫(yī)療數(shù)據(jù)的感知問題。我們做的系統(tǒng)是醫(yī)生和病患對話的實時轉(zhuǎn)寫,從醫(yī)患之間的病癥交流到醫(yī)生最后的處方病歷,醫(yī)生可以全部口述,我們系統(tǒng)的完成對整個醫(yī)療行為的記錄和存儲。
我們這方面投入了很多研發(fā)資源來做,醫(yī)療有它的技術(shù)難點,語音識別是分領(lǐng)域的,你的引擎之前在日常對話、交通和音視頻搜索里面做得非常好,但你放到醫(yī)學(xué)領(lǐng)域就一團(tuán)糟。因為醫(yī)學(xué)里有太多專有名詞,很多名詞非常拗口。我們在引擎上做了很多方面的優(yōu)化,到今天為止,我們的準(zhǔn)確率達(dá)到 95% ,因為你達(dá)不到這個指標(biāo),轉(zhuǎn)錄之后還要醫(yī)生花很多時間去糾正的話,醫(yī)生就會抵觸。此外還有其他方面,比如專門定了醫(yī)療麥克風(fēng),滿足醫(yī)院場景的專業(yè)需求,在產(chǎn)品設(shè)計的細(xì)節(jié)方面也需要考慮,比如麥克風(fēng)位置怎么放?如何不干擾它?是移動式的還是放在桌子上?
從未來價值來看,這套系統(tǒng)有助于以后做醫(yī)療大數(shù)據(jù)挖掘等其他很多工作。同時它在當(dāng)前也擁有很大的經(jīng)濟(jì)價值。去年第四季度,這套系統(tǒng)在協(xié)和醫(yī)院四個重點科室上線試用了一個季度,最后協(xié)和醫(yī)院的評估報告顯示平均每天每個醫(yī)生節(jié)約兩個小時。目前每個病人的平均就診時間是幾分鐘,那兩個小時就意味著協(xié)和的醫(yī)生每天能多看幾個病人。這套系統(tǒng)今年會在協(xié)和醫(yī)院全院推廣。
3)教育
我們推出了語音評測服務(wù)云,針對國內(nèi)常見的啞巴英語現(xiàn)象,我們開發(fā)了一套口語評測引擎,它不僅會對你的整體打分,還能指出某句話中的哪個單詞發(fā)音不準(zhǔn),并告訴你準(zhǔn)確發(fā)音。這套系統(tǒng)可以作為學(xué)校和英語教育培訓(xùn)中的一個很重要的輔助工具。我們的教育云上線半年,每天的調(diào)用量超過六千萬次,按照每個學(xué)生每天 10-20 次的使用頻率,那幾本上每天的活躍用戶是幾百萬以上。目前,在教育領(lǐng)域,拓維、全通、滬江、好未來、一起作業(yè)等都是我們客戶。
總之,我們確定了「AI 服務(wù)」和「AI 芯」,將人工智能與硬件和芯片相結(jié)合,目前我們的云服務(wù)覆蓋全國 470 個城市和 1.8 億用戶,超過九千萬終端,每天我們的平臺調(diào)用量是以億為單位,那這個是真正的大數(shù)據(jù)。其實回過頭來看的話,這就是為什么說當(dāng)年我們做平臺的一個很重要原因。數(shù)據(jù)是未來,那今天我們通過技術(shù)和產(chǎn)品結(jié)合,讓我們獲得收益支持公司走得更遠(yuǎn)更快,這個基本上就是云知聲的發(fā)展軌跡和路徑。
三、對語音識別和人工智能的看法
真正的人工智能需要進(jìn)化,通過代理(Agent)的方式從環(huán)境中獲取數(shù)據(jù),然后再用這些數(shù)據(jù)來幫助系統(tǒng)來提高自身。
機(jī)器之心:如你上面所說,語音識別和應(yīng)用場景密切相關(guān)。那你覺得,除了車載和智能家居這類非常明確的語音交互需求,還是說它和其他交互方式是相互補(bǔ)充?
黃偉:是相互補(bǔ)充的。在手機(jī)端,攝像頭是以拍照為主,很少用它去做交互;麥克風(fēng)主要是以打電話和發(fā)語音信息為主。但當(dāng)我們逐步進(jìn)入 IoT 時代,一切設(shè)備都是聯(lián)網(wǎng)和需要提供智能服務(wù)的,但有些設(shè)備需要在沒有屏幕的情況下進(jìn)行交互,攝像頭成本比較高,而且還存在一個最大的擔(dān)憂是,你不知道它(攝像頭)是不是在看,也會涉及隱私問題。所以,用攝像頭進(jìn)行交互的設(shè)備可能不會太多,除非它有明確需求。但基于麥克風(fēng)的語音交互是一種主動形式。所以在 IoT 設(shè)備里面麥克風(fēng)可能會是一種主要的交互方式,但它可能不是唯一的,也許它會跟圖像、手勢、體感及其他東西組合在一起。而且人工智能一定是一個綜合智能,就是像我們?nèi)祟愖陨淼拇竽X和智能。
機(jī)器之心:如果具體到手機(jī)端這個場景,目前語音識別在手機(jī)端的應(yīng)用主要是語音助手,但我們發(fā)現(xiàn)它們的作用非常有限,如果接下來在手機(jī)端出來一個消費級的非常好用的產(chǎn)品,那它有可能是一個怎樣的產(chǎn)品?或者說手機(jī)端根本就不會出現(xiàn)這樣的產(chǎn)品?
黃偉:比如前面提到的 Siri ,它一直不溫不火的原因有兩點,一個是目前的技術(shù)其實還沒達(dá)到那種很完善的狀態(tài)。第二點是它沒有跟服務(wù)打通。最近又看到另外一種現(xiàn)象,大家很關(guān)注 Echo 。第一是它擺脫手機(jī)了,它是家居里的一個音箱或者其他聯(lián)網(wǎng)設(shè)備,而且這個設(shè)備是可以遠(yuǎn)距離交互的,它和亞馬遜電商是打通的,這就是把語音交互和服務(wù)直接打通了。那這樣在家里你可以進(jìn)行信息查詢,也可以下單買東西,這就跟以前完全不一樣了,所以我相信以 Echo 為代表的這種模式是未來一種非常重要的方式,它有可能會獲得成功。
我覺得即便是 IoT 到來,手機(jī)也不會消失。至少 3-5 年內(nèi),我們每個人還會用手機(jī),那么語音助手就會有存在的必要性,因為我畢竟也要通過手機(jī)去做交互,所以這個方向是要一直往前發(fā)展。蘋果給了我們很好的啟示,并且他們一直沒有放棄 Siri 。首先,在軟件技術(shù)方面一直在升級,同時把很多關(guān)于 Siri 的技術(shù)往芯片里做,比如 iPhone 6s 就把語音喚醒和身份識別做到了芯片里,無需接上電源就可以通過「Hey Siri」來喚醒手機(jī)。第二點是它往后會把服務(wù)打通,技術(shù)不僅讓我跟設(shè)備去交互,而且還需要讓我們得到想要的服務(wù),比如說能夠通過 Siri 呼叫 Uber 、訂票、訂餐。其實 Siri 這種交互模式與之前的搜索引擎那種方式完全不同,它要打通的鏈條更多,可能會需要一些時間。
機(jī)器之心:你認(rèn)為接下來人工智能應(yīng)該如何發(fā)展?
黃偉:第一,我們一直強(qiáng)調(diào)感知,感知是基礎(chǔ),就比如人類的進(jìn)化,我們出生時攜帶的遺傳基因可以理解成人類幾百萬年進(jìn)化史留下的數(shù)據(jù)。如果說你沒有感知,沒有大量數(shù)據(jù)來做一個基石的話,你不可能有一個非常好的初始系統(tǒng)。第二,人工智能系統(tǒng)是需要進(jìn)化的。比如你買個設(shè)備回來,第一天它只能做這個,一年之后它還是只能做這個,十年之后依然如此。如果這是個兒童陪伴機(jī)器人,那第一年小孩跟它玩,第二年就不跟它玩了,因為我早就會了,這就說明它沒有進(jìn)化。
所以真正的人工智能系統(tǒng)應(yīng)該是個進(jìn)化系統(tǒng)。那進(jìn)化怎么來的?進(jìn)化就是通過代理(Agent)的方式從環(huán)境中獲取數(shù)據(jù),然后再用這些數(shù)據(jù)來幫助系統(tǒng)提高自身。只有這樣的話,人工智能才是真正的人工智能。當(dāng)然這就會帶來另外一個問題,包括像霍金等人提出的人工智能威脅論,但我覺得這就是發(fā)展路徑的問題了,是往好的地方進(jìn)化還是往壞的地方進(jìn)化?但如果說要是不進(jìn)化,那就不是人工智能。首先這是「是與非」的問題,其次才是你往左走還是往右走的問題。其實在后面我們可以進(jìn)行方向的控制,如果數(shù)據(jù)是一種教育資源的話,我們可以給它提供一些好的教育資源去引導(dǎo)它往好的方向進(jìn)化。
-
芯片
+關(guān)注
關(guān)注
457文章
51337瀏覽量
428113 -
語音識別
+關(guān)注
關(guān)注
38文章
1745瀏覽量
112995 -
人工智能
+關(guān)注
關(guān)注
1796文章
47864瀏覽量
240729
發(fā)布評論請先 登錄
相關(guān)推薦
評論