電子發(fā)燒友網(wǎng)報道(文/李彎彎)智能語音是智能時代人機交互的關(guān)鍵接口,近幾年隨著各行業(yè)場景需求爆發(fā)式增長,技術(shù)突破和應(yīng)用落地不斷深入。從全球范圍來看,2022年全球智能語音產(chǎn)業(yè)規(guī)模將達351.2億美元,保持33.1%的高速增長。
根據(jù)德勤統(tǒng)計數(shù)據(jù),2022年我國智能語音市場將達341億元,同比增長13.4%。我國智能語音產(chǎn)業(yè)整體發(fā)展環(huán)境積極向好。工信部信息技術(shù)發(fā)展司副司長王威偉表示,智能語音產(chǎn)業(yè)作為新一代信息技術(shù)和人工智能產(chǎn)業(yè)的重要組成部分,必將迎來更大的發(fā)展機遇。
智能語音技術(shù),是實現(xiàn)人機語言的通信,包括語音識別技術(shù)(ASR)和語音合成技術(shù)(TTS)。智能語音技術(shù)的研究以語音識別技術(shù)為開端,可以追溯到20世紀(jì)50年代。隨著信息技術(shù)的發(fā)展,智能語音技術(shù)已經(jīng)成為人們信息獲取和溝通最便捷、最有效的手段。
從當(dāng)前的發(fā)展情況來看,語音合成技術(shù)發(fā)展最早,應(yīng)用已較為普遍,除了合成音仍偏機械之外,基本不存在太大技術(shù)問題;語音識別在2012年卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用之后,準(zhǔn)確率大幅提升,已經(jīng)在C端、B端得到廣泛應(yīng)用,但效果和體驗仍有待提高。
比如語音識別魯棒性問題顯著,語音識別整個過程包含語音信號處理、靜音切除、聲學(xué)特征提取、模式匹配等多個環(huán)節(jié)。由于語音信號的多樣性和復(fù)雜性,系統(tǒng)只能在一定限制條件下才能獲得滿意效果。在真實使用場景中,考慮到遠場、方言、噪音等問題,準(zhǔn)確率就會打折。
為了解決語音識別魯棒性問題,企業(yè)從多方面進行優(yōu)化,一是在語音增強、麥克風(fēng)陣列以及說話人分離等技術(shù)領(lǐng)域投入,并結(jié)合后端語義,促進對上下文的理解,從而提升識別效果;另一方面是從產(chǎn)品設(shè)計上進行優(yōu)化,比如通過進一步交互,使語音識別變得更為準(zhǔn)確。
在語音識別方面,視聽融合的多模態(tài)交互技術(shù)是技術(shù)演進的主要方向。據(jù)介紹,科大訊飛多模語音增強技術(shù)融合語音與視覺的多模感知,讓高噪音場景下的語音交互跨過實用門檻,率先在車載、會議、地鐵購票和醫(yī)療掛號等場景落地。此外,針對低資源語音識別難題,海天瑞聲和科大訊飛分別從語音數(shù)據(jù)和算法層面推動技術(shù)進步。
當(dāng)前智能語音應(yīng)用場景正在迅速鋪開。據(jù)德勤統(tǒng)計數(shù)據(jù),預(yù)計到2030年,智能語音消費級和企業(yè)級應(yīng)用市場將分別超過700億元和千億元的規(guī)模。
在汽車領(lǐng)域,智能語音已成人機交互關(guān)鍵環(huán)節(jié),并從車內(nèi)交互衍生車外交互,從單模交互走向多模交互,從被動交互發(fā)展為主動交互,為車企提供全棧技術(shù)賦能。思必馳此前表示,在中高端車型的車載設(shè)備中,具備語音交互能力的中控大屏能為車主帶來高清且流暢的智能體驗。
另外相對更平民化的傳統(tǒng)車型而言,智能網(wǎng)聯(lián)化成本高,中控大屏的智能化程度有限。針對更多車型智能化改造,思必馳推出了針對前裝市場的車載“智能收放機”軟硬一體化方案(聯(lián)網(wǎng)版、藍牙版),打造無屏版智能中控,圍繞“云+管+端+手”四個維度,分別為整車賦予智能化的改造,這將有利于擴大智能語音在汽車領(lǐng)域的應(yīng)用。
智能語音在教育和醫(yī)療領(lǐng)域也已經(jīng)取得較大規(guī)模的應(yīng)用,比如,在教育領(lǐng)域,科大訊飛全球中文學(xué)習(xí)平臺已覆蓋全球183個國家,吸引300多萬海外中文學(xué)習(xí)愛好者使用;在醫(yī)療領(lǐng)域,2022年疫情期間,科大訊飛電話機器人助力全國31個省112個地市疫情排查,累計服務(wù)超1.1億人次;智能外呼和智醫(yī)助理可用于獨居老人、留守兒童的日常關(guān)愛和兜底保障。
除此之外,智能語音在城市和工業(yè)領(lǐng)域也有很好的應(yīng)用前景。姚建銓院士此前指出,智能語音與建設(shè)智慧城市的要求吻合,可以實現(xiàn)各種語音高效轉(zhuǎn)換和智能處理,為智慧城市進一步建設(shè)帶來新的機遇。在工業(yè)領(lǐng)域,我國打造了包括國家智能語音創(chuàng)新中心在內(nèi)的一批語音技術(shù)創(chuàng)新國家隊, 開展工業(yè)聲學(xué)、多語種、AI語音芯片等關(guān)鍵共性技術(shù)研究工作。
可想而知,隨著智能語音關(guān)鍵技術(shù)的不斷突破,以及各企業(yè)、研究團隊在各行業(yè)各領(lǐng)域的應(yīng)用探索,未來智能語音的將會在更多場景中實現(xiàn)規(guī)模化應(yīng)用,市場規(guī)模也將隨之增長。
根據(jù)德勤統(tǒng)計數(shù)據(jù),2022年我國智能語音市場將達341億元,同比增長13.4%。我國智能語音產(chǎn)業(yè)整體發(fā)展環(huán)境積極向好。工信部信息技術(shù)發(fā)展司副司長王威偉表示,智能語音產(chǎn)業(yè)作為新一代信息技術(shù)和人工智能產(chǎn)業(yè)的重要組成部分,必將迎來更大的發(fā)展機遇。
智能語音技術(shù),是實現(xiàn)人機語言的通信,包括語音識別技術(shù)(ASR)和語音合成技術(shù)(TTS)。智能語音技術(shù)的研究以語音識別技術(shù)為開端,可以追溯到20世紀(jì)50年代。隨著信息技術(shù)的發(fā)展,智能語音技術(shù)已經(jīng)成為人們信息獲取和溝通最便捷、最有效的手段。
從當(dāng)前的發(fā)展情況來看,語音合成技術(shù)發(fā)展最早,應(yīng)用已較為普遍,除了合成音仍偏機械之外,基本不存在太大技術(shù)問題;語音識別在2012年卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用之后,準(zhǔn)確率大幅提升,已經(jīng)在C端、B端得到廣泛應(yīng)用,但效果和體驗仍有待提高。
比如語音識別魯棒性問題顯著,語音識別整個過程包含語音信號處理、靜音切除、聲學(xué)特征提取、模式匹配等多個環(huán)節(jié)。由于語音信號的多樣性和復(fù)雜性,系統(tǒng)只能在一定限制條件下才能獲得滿意效果。在真實使用場景中,考慮到遠場、方言、噪音等問題,準(zhǔn)確率就會打折。
為了解決語音識別魯棒性問題,企業(yè)從多方面進行優(yōu)化,一是在語音增強、麥克風(fēng)陣列以及說話人分離等技術(shù)領(lǐng)域投入,并結(jié)合后端語義,促進對上下文的理解,從而提升識別效果;另一方面是從產(chǎn)品設(shè)計上進行優(yōu)化,比如通過進一步交互,使語音識別變得更為準(zhǔn)確。
在語音識別方面,視聽融合的多模態(tài)交互技術(shù)是技術(shù)演進的主要方向。據(jù)介紹,科大訊飛多模語音增強技術(shù)融合語音與視覺的多模感知,讓高噪音場景下的語音交互跨過實用門檻,率先在車載、會議、地鐵購票和醫(yī)療掛號等場景落地。此外,針對低資源語音識別難題,海天瑞聲和科大訊飛分別從語音數(shù)據(jù)和算法層面推動技術(shù)進步。
當(dāng)前智能語音應(yīng)用場景正在迅速鋪開。據(jù)德勤統(tǒng)計數(shù)據(jù),預(yù)計到2030年,智能語音消費級和企業(yè)級應(yīng)用市場將分別超過700億元和千億元的規(guī)模。
在汽車領(lǐng)域,智能語音已成人機交互關(guān)鍵環(huán)節(jié),并從車內(nèi)交互衍生車外交互,從單模交互走向多模交互,從被動交互發(fā)展為主動交互,為車企提供全棧技術(shù)賦能。思必馳此前表示,在中高端車型的車載設(shè)備中,具備語音交互能力的中控大屏能為車主帶來高清且流暢的智能體驗。
另外相對更平民化的傳統(tǒng)車型而言,智能網(wǎng)聯(lián)化成本高,中控大屏的智能化程度有限。針對更多車型智能化改造,思必馳推出了針對前裝市場的車載“智能收放機”軟硬一體化方案(聯(lián)網(wǎng)版、藍牙版),打造無屏版智能中控,圍繞“云+管+端+手”四個維度,分別為整車賦予智能化的改造,這將有利于擴大智能語音在汽車領(lǐng)域的應(yīng)用。
智能語音在教育和醫(yī)療領(lǐng)域也已經(jīng)取得較大規(guī)模的應(yīng)用,比如,在教育領(lǐng)域,科大訊飛全球中文學(xué)習(xí)平臺已覆蓋全球183個國家,吸引300多萬海外中文學(xué)習(xí)愛好者使用;在醫(yī)療領(lǐng)域,2022年疫情期間,科大訊飛電話機器人助力全國31個省112個地市疫情排查,累計服務(wù)超1.1億人次;智能外呼和智醫(yī)助理可用于獨居老人、留守兒童的日常關(guān)愛和兜底保障。
除此之外,智能語音在城市和工業(yè)領(lǐng)域也有很好的應(yīng)用前景。姚建銓院士此前指出,智能語音與建設(shè)智慧城市的要求吻合,可以實現(xiàn)各種語音高效轉(zhuǎn)換和智能處理,為智慧城市進一步建設(shè)帶來新的機遇。在工業(yè)領(lǐng)域,我國打造了包括國家智能語音創(chuàng)新中心在內(nèi)的一批語音技術(shù)創(chuàng)新國家隊, 開展工業(yè)聲學(xué)、多語種、AI語音芯片等關(guān)鍵共性技術(shù)研究工作。
可想而知,隨著智能語音關(guān)鍵技術(shù)的不斷突破,以及各企業(yè)、研究團隊在各行業(yè)各領(lǐng)域的應(yīng)用探索,未來智能語音的將會在更多場景中實現(xiàn)規(guī)模化應(yīng)用,市場規(guī)模也將隨之增長。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
智能語音
+關(guān)注
關(guān)注
11文章
804瀏覽量
49508
發(fā)布評論請先 登錄
相關(guān)推薦
熱點推薦
淺談 IPv6 行業(yè)市場規(guī)模與增長趨勢
年,IPv6市場規(guī)模將突破300億美元。全球IPv6市場規(guī)模及增長預(yù)測從區(qū)域市場來看,亞太地區(qū)將成為全球IPv6


高盛上調(diào)人形機器人市場規(guī)模預(yù)測
高盛在最新研究報告中,對人形機器人行業(yè)市場規(guī)模做出了顯著上調(diào)的預(yù)測。報告指出,到2035年,該市場規(guī)模有望達到380億美元,這一數(shù)字遠超此前預(yù)測的60億美元。 高盛表示,此次調(diào)整預(yù)測的核心推動
全球半導(dǎo)體市場規(guī)模預(yù)測
%的同比增長。這一數(shù)字顯示出半導(dǎo)體市場在技術(shù)創(chuàng)新、需求增長以及政策推動等多重因素作用下的強勁發(fā)展勢頭。 展望2025年,全球半導(dǎo)體市場規(guī)模將進一步擴大,預(yù)計
無人叉車的市場規(guī)模怎么樣?適合使用agv的企業(yè)有哪些共同點?
年全球無人駕駛叉車市場規(guī)模約為50億元,預(yù)計到2030年將接近106億元,未來六年年復(fù)合增長率(CAGR)為11.3%。 中國市場規(guī)模: 2023年中國移動機器人(AGV/AMR)銷售規(guī)模

2024年全球芯片市場規(guī)模將達6298億美元
預(yù)計在2024年將實現(xiàn)6298億美元的規(guī)模,同比增長率高達18.8%,這一增速相較于其一年前的預(yù)測(16.8%)有所上調(diào)。然而,對于2025年的市場前景,Gartner則略微調(diào)低了預(yù)期,將同比增長率從15.5%調(diào)整為13.8%,
2024年AI IC市場規(guī)模預(yù)計達1100億美元
據(jù)市場研究機構(gòu)預(yù)測,2024年全球AI IC(人工智能集成電路)市場規(guī)模將達到驚人的1100億美元。這一數(shù)字不僅彰顯了AI技術(shù)的迅猛發(fā)展,也
最新2024年全球激光加工市場規(guī)模將增至240.2億美元
2023年全球激光加工市場規(guī)模預(yù)計達到240.2億美元,亞太地區(qū)將占據(jù)主要份額。激光技術(shù)的應(yīng)用日益廣泛,尤其在材料加工領(lǐng)域,如金屬、陶瓷、玻璃、復(fù)合材料和塑料等的多功能性使其成為首選解決方案
2035年Chiplet市場規(guī)模將超4110億美元
市場研究機構(gòu)IDTechEx近日發(fā)布了一份關(guān)于Chiplet技術(shù)的報告,預(yù)測到2035年,Chiplet市場規(guī)模將達到驚人的4110億美元。
RFID電子標(biāo)簽預(yù)計在2030年全球市場規(guī)模將達到75.1億美元
近年來,?全球RFID市場規(guī)模持續(xù)擴大,?成為物聯(lián)網(wǎng)時代不可或缺的關(guān)鍵技術(shù)之一。?RFID技術(shù)的廣泛應(yīng)用不僅推動了物流、?零售、?制造、?醫(yī)療、?交通等多個行業(yè)的數(shù)字化轉(zhuǎn)型,?還極大地提高了效率

SoC芯片,市場規(guī)模大漲
SoC芯片,市場規(guī)模大漲根據(jù)MarketsandMarkets的一份新報告,片上系統(tǒng)(SoC)市場規(guī)模預(yù)計將從2024年的1384.6億美元增長到2029年的2059.7億美元;預(yù)計從2024年到

淺析2024-2030中國RFID市場規(guī)模及未來發(fā)展趨勢
%;2020年進一步增長至702億元,同比增速提升至17.1%。這一增長態(tài)勢表明RFID技術(shù)在中國市場正逐步走向成熟,并得到越來越多企業(yè)的認(rèn)可和應(yīng)用。預(yù)計未來幾年,隨著技術(shù)的不斷革新和
2030年GaN功率元件市場規(guī)模將超43億美元
TrendForce集邦咨詢最新發(fā)布的報告揭示了全球GaN(氮化鎵)功率元件市場的強勁增長潛力。據(jù)預(yù)測,到2030年,該市場規(guī)模將從2023年的約2.71億美元激增至43.76億美元,復(fù)合年增長率
GaN技術(shù)引領(lǐng)功率電子產(chǎn)業(yè)新風(fēng)潮,預(yù)估2030年市場規(guī)模將突破43億美元
的快速增長。根據(jù)TrendForce集邦咨詢發(fā)布的《2024全球GaNPowerDevice市場分析報告》,2023年全球GaN功率元件市場規(guī)模約為2.71億美元,

評論