人工智能的熱潮驅(qū)動(dòng)了整個(gè)行業(yè)的發(fā)展,智能語(yǔ)音作為最天然的交互手段,自然備受關(guān)注。在語(yǔ)音交互引起傳統(tǒng)交互變革的今天,智能車(chē)載領(lǐng)域成為了變革的先鋒,尤其是后裝市場(chǎng),智能語(yǔ)音似乎已經(jīng)成為了車(chē)載場(chǎng)景交互的標(biāo)配。
國(guó)內(nèi)專(zhuān)注智能語(yǔ)音的企業(yè)競(jìng)爭(zhēng)越來(lái)越膠著。阿里,語(yǔ)音客服儼然已成為剛需;百度,強(qiáng)大的搜索資源庫(kù)成為了百度語(yǔ)音的后備力量;科大訊飛,依托政府項(xiàng)目,在教育、醫(yī)療、智慧城市等領(lǐng)域也占據(jù)著市場(chǎng)優(yōu)勢(shì);樂(lè)視推出樂(lè)樂(lè)語(yǔ)音,改變著樂(lè)視超級(jí)電視的交互方式;愛(ài)奇藝、360、等也都在紛紛涉足語(yǔ)音技術(shù)。專(zhuān)業(yè)的語(yǔ)音公司更是憑借著特色的解決方案,風(fēng)頭正盛。在這其中,交互方式的簡(jiǎn)單便捷,成為幾乎所有語(yǔ)音交互方案追求的一大效果。
講到語(yǔ)音交互的簡(jiǎn)單與便捷,思必馳于2016年10月20日升級(jí)版的AIO3.1新增的one-shot功能吸引了行業(yè)極大的關(guān)注。AIOS For Car是思必馳于2015年10月針對(duì)智能車(chē)載后裝市場(chǎng)推出的一款對(duì)話(huà)操作系統(tǒng),主要應(yīng)用在車(chē)機(jī)、智能后視鏡、HUD,以及互聯(lián)網(wǎng)汽車(chē)等產(chǎn)品上。2016年6月,思必馳將其升級(jí)至AIOS3.0版本,新增7大功能, 10月20日,思必馳再次發(fā)力,升級(jí)至AIOS3.1版本,積淀許久的one-shot功能也終于揭開(kāi)神秘面紗。
one-shot一語(yǔ)即達(dá)
思必馳將one-shot功能描述為“一把說(shuō)”,這一描述也十分的生動(dòng)形象,貼近實(shí)際。
圖1 思必馳one-shot一把說(shuō)
one-shot一把說(shuō),采用“喚醒詞+語(yǔ)音語(yǔ)義識(shí)別”一體化方式,實(shí)現(xiàn)喚醒詞與語(yǔ)音操控之間零間隔、零延遲、無(wú)縫對(duì)接,摒棄傳統(tǒng)的一問(wèn)一答的形式,極大減少用戶(hù)語(yǔ)音操控的步驟,實(shí)現(xiàn)信息反饋,化繁為簡(jiǎn),實(shí)現(xiàn)簡(jiǎn)便操作,但這樣的簡(jiǎn)便在設(shè)計(jì)之初卻并不簡(jiǎn)單。
one-shot的一大特點(diǎn)是識(shí)別喚醒與語(yǔ)義理解一體化,保證語(yǔ)音交互的統(tǒng)一性與連貫性,完成操控。舉個(gè)簡(jiǎn)單的例子來(lái)講,過(guò)去智能語(yǔ)音的交互方式為一問(wèn)一答,用戶(hù)發(fā)出喚醒詞指令,需要設(shè)備反饋待機(jī)信息,然后才能開(kāi)始交互,例如:
用戶(hù):你好小馳(喚醒詞指令)
設(shè)備:有什么可以幫您?(設(shè)備反饋,表示處于信息接收狀態(tài))
用戶(hù):我要去機(jī)場(chǎng)
設(shè)備:開(kāi)始為您導(dǎo)航去機(jī)場(chǎng)
one-shot功能卻可以一語(yǔ)即中,實(shí)現(xiàn)“喚醒詞+語(yǔ)音語(yǔ)義識(shí)別”一體化,比如實(shí)現(xiàn)這樣的交互:
用戶(hù):你好小馳,我要去機(jī)場(chǎng)
設(shè)備:開(kāi)始為您導(dǎo)航去機(jī)場(chǎng)
相比傳統(tǒng),這樣的體驗(yàn)似乎更具效率。或許未來(lái),在人機(jī)交互中,機(jī)器通過(guò)采集用戶(hù)的行為習(xí)慣數(shù)據(jù),追蹤用戶(hù)意圖,實(shí)現(xiàn)如下的對(duì)話(huà),也并非不可能:
甲:我一直有個(gè)問(wèn)題想問(wèn)你
乙:愛(ài)過(guò)….
系統(tǒng)響應(yīng)速度及精準(zhǔn)度始終是用戶(hù)關(guān)心的一大問(wèn)題。AIOS3.1中的one-shot功能采用本地+云端混合引擎模式。語(yǔ)音喚醒和常用的語(yǔ)音指令識(shí)別存儲(chǔ)在本地,系統(tǒng)接收反應(yīng)靈敏,語(yǔ)音識(shí)別能夠準(zhǔn)確及時(shí)的響應(yīng)。與此同時(shí),連續(xù)語(yǔ)音識(shí)別和語(yǔ)義理解進(jìn)行云端處理,基于場(chǎng)景,收集用戶(hù)習(xí)慣數(shù)據(jù),通過(guò)深度學(xué)習(xí),分析并追蹤用戶(hù)意圖,保證語(yǔ)義理解精準(zhǔn)性。本地加云端的混合引擎處理,既保證了響應(yīng)速度也確保了交互的精準(zhǔn),即使在沒(méi)有網(wǎng)絡(luò)的情況下,依然可以使用基本語(yǔ)音交互功能。
GUI圖形交互界面必然會(huì)繼續(xù)前進(jìn)變革,VUI語(yǔ)音交互界面是一大發(fā)展趨勢(shì)。思必馳one-shot功能的發(fā)布,展示了其在VUI產(chǎn)品交互設(shè)計(jì)的深度思考。相信,通過(guò)不斷的提升語(yǔ)音交互體驗(yàn),VUI必然會(huì)在未來(lái)IOT行業(yè)的人機(jī)交互中引起越來(lái)越多的變革。
用技術(shù)說(shuō)話(huà):研發(fā)實(shí)力是關(guān)鍵
很多車(chē)載后裝產(chǎn)品用戶(hù)反映一個(gè)問(wèn)題,就是使用車(chē)載語(yǔ)音時(shí),說(shuō)“我要去天安門(mén)”,系統(tǒng)可以響應(yīng),但是說(shuō)“去天安門(mén)”時(shí),系統(tǒng)無(wú)反應(yīng),這是為什么呢?實(shí)際上,這是因?yàn)橐恍┱Z(yǔ)音方案商將“我要去”三個(gè)字固化為喚醒詞,而“去”、“我想去”這類(lèi)詞與“我要去”不完全匹配,所以系統(tǒng)自然無(wú)法識(shí)別。這種交互方式,表面上被宣傳為“免喚醒”,實(shí)際上恰恰相反,系統(tǒng)通過(guò)采用大量喚醒詞來(lái)實(shí)現(xiàn),這樣做導(dǎo)致誤喚醒率極高、增加系統(tǒng)資源占用、可擴(kuò)展性差,同時(shí)強(qiáng)迫用戶(hù)記憶,為用戶(hù)的安全駕駛帶來(lái)隱患。
就此問(wèn)題,思必馳產(chǎn)品總監(jiān)雷雄國(guó)表示“思必馳用one-shot功能來(lái)解決這一問(wèn)題,用戶(hù)想怎么說(shuō)系統(tǒng)都可以理解,基于對(duì)應(yīng)用場(chǎng)景的深度學(xué)習(xí),系統(tǒng)能夠通過(guò)后臺(tái)用戶(hù)數(shù)據(jù)采集,分析用戶(hù)行為習(xí)慣,準(zhǔn)確追蹤用戶(hù)意圖,克服刻板的關(guān)鍵詞識(shí)別,通過(guò)大詞匯數(shù)據(jù),實(shí)現(xiàn)場(chǎng)景的流暢交互”。
實(shí)然,語(yǔ)音技術(shù)企業(yè)的核心競(jìng)爭(zhēng)力在語(yǔ)音技術(shù)研發(fā)實(shí)力、產(chǎn)品化落地及市場(chǎng)應(yīng)用著陸,成為企業(yè)生存之道。一些企業(yè)堅(jiān)持自主研發(fā),一些企業(yè)善于使用國(guó)際開(kāi)源工具,比如,Google開(kāi)源深度學(xué)習(xí)系統(tǒng)Tensor Flow。該系統(tǒng)支持支持CNN、RNN和LSTM算法等流行的深度神經(jīng)網(wǎng)絡(luò)模型,大大降低深度學(xué)習(xí)的應(yīng)用難度,提升開(kāi)發(fā)速度。但通用的開(kāi)源工具有其效率和權(quán)限上的局限性,既無(wú)法滿(mǎn)足特定的前沿算法需求,也常常無(wú)法滿(mǎn)足用戶(hù)基于場(chǎng)景的個(gè)性化需求,不同專(zhuān)業(yè)領(lǐng)域的算法、數(shù)據(jù)、架構(gòu)等都要依托實(shí)際應(yīng)用進(jìn)行搭建及優(yōu)化。
目前國(guó)內(nèi)智能語(yǔ)音行業(yè)中,深耕技術(shù)研發(fā)的企業(yè)并不多,比如在深度學(xué)習(xí)方面,百度研究院推出Deep Speech系統(tǒng),科大訊飛推出FSMNN算法模型,思必馳與上海交大聯(lián)合實(shí)驗(yàn)室則獨(dú)立擁有VDCNN算法模型和PSD解碼架構(gòu)。擁有獨(dú)立自主研發(fā)實(shí)力,才能結(jié)合產(chǎn)品特性、應(yīng)用場(chǎng)景,深度定制交互方案。
圖2 思必馳one-shot一語(yǔ)即達(dá)
無(wú)論是新奇的one-shot功能,還是說(shuō)傳統(tǒng)的語(yǔ)音交互,在人工智能時(shí)代,只有技術(shù)落地轉(zhuǎn)化為良好的產(chǎn)品體驗(yàn)才能更好的繪出未來(lái)智能生活的景象,我們期待著更多新技術(shù)的發(fā)布,也期待著新技術(shù)給我們帶來(lái)的驚喜。
-
人工智能
+關(guān)注
關(guān)注
1804文章
48436瀏覽量
244743 -
智能車(chē)載
+關(guān)注
關(guān)注
0文章
61瀏覽量
9227 -
語(yǔ)音交互
+關(guān)注
關(guān)注
3文章
298瀏覽量
28391
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
[分享]揭開(kāi)zzz 手機(jī)神秘面紗
【AWorks試用體驗(yàn)】+揭開(kāi)AWorks神秘面紗(開(kāi)箱貼)
【MiCOKit試用體驗(yàn)】開(kāi)箱——千喚萬(wàn)呼始出來(lái), 神秘的面紗終于揭開(kāi)
請(qǐng)問(wèn)采樣保持芯片AD783的ONE-SHOT是什么電路
如何使用思必馳的方案做語(yǔ)音識(shí)別功能并且不影響普通的麥克風(fēng)錄音功能?
蘋(píng)果iPhone手機(jī)神秘面紗被揭開(kāi)
揭開(kāi)vivo APEX全面屏的神秘面紗
Duskers - 揭開(kāi)科幻生存游戲中的神秘面紗
一個(gè)單路徑One-Shot模型,以解決訓(xùn)練過(guò)程中面對(duì)的主要挑戰(zhàn)

思必馳“聲象”揭開(kāi)了神秘面紗
揭開(kāi)數(shù)字健康應(yīng)用的AI和機(jī)器學(xué)習(xí)的神秘面紗
揭開(kāi)快充芯片的神秘面紗
用智能DAC揭開(kāi)醫(yī)療報(bào)警設(shè)計(jì)的神秘面紗

評(píng)論