電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)所謂“模態(tài)”,英文是modality,用通俗的話說,就是“感官”,多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來人工智能領(lǐng)域的一項(xiàng)重要?jiǎng)?chuàng)新。隨著語音識(shí)別技術(shù)的發(fā)展,采用多種模態(tài)(聲學(xué)、語言模型、視覺特征等)進(jìn)行聯(lián)合建模,基于深度學(xué)習(xí)的多模態(tài)語音識(shí)別取得了新進(jìn)展。
多模態(tài)交互的原理及優(yōu)勢(shì)
多模態(tài)交互技術(shù)融合了多種輸入方式,包括語音、手勢(shì)、觸摸和眼動(dòng)等,使用戶可以根據(jù)自己的喜好和習(xí)慣選擇最方便的交互方式。多模態(tài)交互通過將不同輸入方式的數(shù)據(jù)進(jìn)行融合和處理,實(shí)現(xiàn)更準(zhǔn)確、智能的交互響應(yīng),提高用戶體驗(yàn)。
上周在星宸科技2023開發(fā)者大會(huì)暨產(chǎn)品發(fā)布會(huì)論壇上,科大訊飛企業(yè)數(shù)字化副總裁盧堯談到,人工智能有三個(gè)層次,1、運(yùn)算智能:能存會(huì)算;2、感知智能:能聽會(huì)說,能看會(huì)認(rèn);3、認(rèn)知智能:能理解會(huì)思考。而感知智能典型的進(jìn)展是多模態(tài)交互。
從盧堯的介紹來看,融合了視覺和語音的多模態(tài)免喚醒系統(tǒng)具有明顯優(yōu)勢(shì)。如下圖:這套多模態(tài)免喚醒交互系統(tǒng),同時(shí)采用視覺檢測(cè)和語音識(shí)別交互,誤喚醒率僅為0.01%,交互響應(yīng)成功率相較于僅基于語音識(shí)別交互系統(tǒng)大幅提升。
早在今年5月,科大訊飛AI研究院副院長(zhǎng)高建清博士就在某論壇上介紹過公司在多模態(tài)語音交互技術(shù)方面的最新進(jìn)展。據(jù)高建清介紹,科大訊飛依托語音與視覺方面的多年積累,打造了一套語音、視覺多模態(tài)融合的免喚醒多模態(tài)交互系統(tǒng)。
通過將麥克風(fēng)提供的空間信息和音視頻提供的說話人相關(guān)信息進(jìn)行融合綁定,實(shí)現(xiàn)高準(zhǔn)確度的說話人分離;通過多模態(tài)VAD與端到端意圖技術(shù)的結(jié)合,實(shí)現(xiàn)無喚醒詞的自然人機(jī)交互,具有可靠、自然、魯棒的特點(diǎn)。
具體來看,基于多模態(tài)多通道的語音分離系統(tǒng),將語音信號(hào)、麥克風(fēng)陣列提供的空間信息以及主說話人的唇形輸入分離模型,系統(tǒng)最終輸出視頻說話人的語音,抑制背景噪聲及干擾說話人語音。在多人同時(shí)講話、車載音樂情況下,語音識(shí)別效果相比單模分離系統(tǒng)有50%以上性能提升。不僅解決了傳統(tǒng)麥克風(fēng)陣列方法無法有效區(qū)分同向干擾的問題,還可提升非同向干擾分離場(chǎng)景的性能。
多模態(tài)交互技術(shù)的應(yīng)用
語音識(shí)別是人工智能技術(shù)的一個(gè)重要分支,近些年來,智能語音也在多項(xiàng)技術(shù)難點(diǎn)上取得突破。業(yè)界普遍認(rèn)為,在語音識(shí)別方面,視聽融合的多模態(tài)交互技術(shù)成為技術(shù)演進(jìn)的主要方向。
科大訊飛是國內(nèi)主要的智能語音技術(shù)玩家,其多模語音增強(qiáng)技術(shù)融合語音與視覺的多模感知,讓高噪音場(chǎng)景下的語音交互跨過實(shí)用門檻,目前已經(jīng)在車載、會(huì)議、地鐵購票和醫(yī)療掛號(hào)等場(chǎng)景落地。
在車載領(lǐng)域,人機(jī)交互系統(tǒng)需要攻克兩大難題:一是環(huán)境噪音及人聲干擾,尤其是麥克風(fēng)陣列技術(shù)難以解決的同向人聲干擾問題(如:駕駛員與左后方乘客同時(shí)說話);二是傳統(tǒng)語音交互系統(tǒng)每次啟動(dòng)交互都需要說喚醒詞,難以做到像人與人交流一樣自然順暢。
此前就有消息顯示,科大訊飛多模態(tài)免喚醒交互解決方案將率先在廣汽傳祺和威馬等自主品牌車型上部署應(yīng)用。該方案能夠適應(yīng)復(fù)雜光線暗、語音嘈雜等多種工況,并支持主流SOC和DMS攝像頭。
在地鐵購票場(chǎng)景中,此前因?yàn)榈罔F站點(diǎn)太多,買票難以找到目的地站點(diǎn),而且這些操作對(duì)于老年人不太友好,而語音購票的功能讓這些問題迎刃而解。同時(shí),因?yàn)榈罔F站人聲嘈雜,也使得語音交互的體驗(yàn)并不友好。
根據(jù)此前的報(bào)道,深圳地鐵12號(hào)線智能售票機(jī)及智慧客服終端上,率先采用了科大訊飛多模語音增強(qiáng)技術(shù),該技術(shù)通過識(shí)別人臉唇形等信息,同時(shí)結(jié)合人聲,使得即使在人聲嘈雜的環(huán)境,語音識(shí)別的準(zhǔn)確率也大大提升。
多模態(tài)語音識(shí)別技術(shù)在智能家居場(chǎng)景中也非常實(shí)用。融合語音、手勢(shì)、視覺感知,用戶可以過簡(jiǎn)單的口頭指令控制智能家居設(shè)備,實(shí)現(xiàn)智能燈光、家居安防等功能,通過攝像頭和深度學(xué)習(xí)技術(shù),智能家居可以識(shí)別用戶的手勢(shì)動(dòng)作,實(shí)現(xiàn)手勢(shì)控制家居設(shè)備的操作。同時(shí),通過視覺感知技術(shù),識(shí)別用戶的面部表情和情緒狀態(tài),根據(jù)不同情況提供相應(yīng)的互動(dòng)體驗(yàn)。
總結(jié)
經(jīng)過多年的發(fā)展,語音識(shí)別技術(shù)已經(jīng)相當(dāng)成熟,并且在車載、智能家居等各種場(chǎng)景中實(shí)現(xiàn)應(yīng)用,并給人們的生活帶來便利。然而同時(shí),一直以來語音識(shí)別也存在諸多難點(diǎn),比如環(huán)境噪聲、多人同時(shí)發(fā)出聲音等情況,都會(huì)影響語音識(shí)別的準(zhǔn)確率。而視聽融合的多模態(tài)技術(shù),將視覺和語音結(jié)合,能夠很好的解決這些問題,使得語音識(shí)別的準(zhǔn)確率大幅提升。
-
語音識(shí)別
+關(guān)注
關(guān)注
39文章
1774瀏覽量
114017
發(fā)布評(píng)論請(qǐng)先 登錄
英特爾持續(xù)推進(jìn)核心制程和先進(jìn)封裝技術(shù)創(chuàng)新,分享最新進(jìn)展

百度在AI領(lǐng)域的最新進(jìn)展
谷歌Gemini API最新進(jìn)展
移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗(yàn)

移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗(yàn)

?多模態(tài)交互技術(shù)解析
京東方華燦光電氮化鎵器件的最新進(jìn)展
垂直氮化鎵器件的最新進(jìn)展和可靠性挑戰(zhàn)

FF將發(fā)布FX品牌最新進(jìn)展
上海交大團(tuán)隊(duì)發(fā)表MEMS視觸覺融合多模態(tài)人機(jī)交互新進(jìn)展

揭秘超以太網(wǎng)聯(lián)盟(UEC)1.0 規(guī)范最新進(jìn)展(2024Q4)

評(píng)論