在人類的感官通道中,視覺占據最主要的位置,聽覺次之,但在信息傳遞中,聽覺語言的綜合利用率要遠高于視覺符號。因此,更接近于人類本能的交互方式--語音交互受到廣泛關注。目前,隨著智能語音技術的發展和應用場景的不斷豐富,人機交互方式已經開始從鍵盤、鼠標以及觸摸式的圖形交互,向語音模式轉變,并且隨著搭載量和使用率的提升,未來有望成為人機交互最主要的入口。
底層技術持續增強
智能語音包含語音識別、語義理解、自然語言生成以及語音合成等環節。其中,語音識別是率先商業化、應用最成熟的人工智能技術之一。根據信通院數據,全球智能語音識別錯誤率連續降低,從2008年的23.6%降低到2017年的5.5%。
與此同時,國內廠商也在不斷刷新準確率的上限。2018年6月,阿里巴巴推出語音識別模型DFSMN,準確率高達96.04%;科大訊飛也在同期宣布訊飛語音識別率提升至98%;2017年11月,百度大腦推出新款語音識別模型--“基于復數CNN網絡的語音增強和聲學建模一體化的端到端語音識別模型”,打破了傳統遠場語音識別技術的流程,將語音識別準確率提高30%以上。
應用場景豐富多元
在國家大力發展人工智能產業的戰略引導下,以及企業技術能力提升和市場需求不斷擴張的驅動下,智能語音技術在智能家居、車載環境、在線教育、醫療、呼叫中心等各個場景均有落地化應用。據中國電子信息產業發展研究院預測,未來三年智能語音市場將保持25%以上的增速,到2021年預計達到194.8億元。
例如,在智能家居方面,語音聲控的應用增強了終端設備控制家居的簡便性、易用性、互動性和娛樂性。目前,眾多參與者以智能音箱作為智能家居語音交互的切入口。例如接入阿里智能家居平臺的天貓精靈、提供智能家居控制入口的小度音箱、連接小米智能家居生態的小愛智能音箱等等。
再如,在智能車載方面,從安全因素考慮,車載智能語音應用將是未來市場的剛需場景,如媒體娛樂、行車導航、信息查詢、即時通訊等等。2016年11月,科大訊飛發布智能車載系統飛魚助理,并于2017年11月發布2.0版本,該系統通過對語音引擎、生態引擎、云+端服務進行深度整合,并賦予智能人機交互方式,來為用戶提供人臉識別、AI虛擬助手、聲源定位、非全時免喚醒+上下文理解、自定義喚醒詞、XTTS等功能。
另外,在隨身設備方面,隨著設備功能的多元化,人們迫切需求擺脫傳統輸入設備的束縛,以智能手機為例,有關數據顯示,到2023年智能手機配備語音交互功能的比例將達到90%以上。并且據IDC預測,到2020年隨身設備的智能語音滲透率將達到68%。可見,智能語音擁有豐富的應用場景,滲透率也會不斷提高。
圖:2020年智能語音滲透率預測

數據來源:IDC
創業及資本漸趨理性
智能語音市場參與者主要為科技巨頭及傳統智能語音企業,行業集中度較高。科技巨頭在語音行業的布局多為對外開放語音生態系統,對內則在自身產品中實現AI First。例如,百度Dueros開放平臺、阿里AliGenie開發者平臺、騰訊的智能語音平臺騰訊云小微等等。傳統智能語音企業已在語音行業深耕多年,1999年成立的科大訊飛市場占有率已然位列第一,除了面向教育、司法、醫療、城市等領域推出智能語音解決方案以外,還向硬件方面拓展,推出了翻譯機、學習機、錄音筆等相關產品。
此外,科技巨頭和傳統智能語音企業出于構建生態、積累數據等方面的考慮,大都提供開放平臺,而初創企業則可以借此發揮后發優勢。雖然頭部企業已經處于絕對優勢,但隨著應用場景的豐富,行業機會仍不斷涌現,智能語音初創企業也吸引了資本市場的關注。據<華秋創服>不完全統計,2000-2019年,共有55家智能語音方案企業獲得融資,共計157筆,平均成立1.7年后獲得第一筆融資,獲投企業主要分布在北京、廣東、上海等地;從時間分布來看,2015年開始進入融資高峰期,2019年有所下降,一定程度上反映了智能語音企業的創業熱潮正逐漸趨于理性,市場也越來越重視企業的核心技術和落地能力。
圖:2000-2019年智能語音方案企業獲投筆數

數據來源:華秋創服
圖:2000-2019年獲投智能語音方案企業地區分布

數據來源:華秋創服
市場前景廣闊 技術仍待突破
IDC數據顯示,智能語音在我國人工智能市場中的份額占有22%的比重。場景應用的普遍化,促使整個行業開始從發展初期向成熟期邁進。雖然科大訊飛、百度等占據了市場近七成的份額,但是,隨著應用場景的拓寬,整個市場規模仍會不斷擴大。
不可否認的是,雖然智能語音技術飛速發展,但在實際應用環境中,語音信號往往伴隨著環境噪聲和混響,使得語音識別的性能急劇下降。例如,訊飛中英文語音識別準確率分別達到98%和95%,但在有方言、噪音、口音和遠場情況下,提高語音識別準確率仍有較大的提升空間。再如機器翻譯,雖然實時高效,但距離會議同傳以及高水平翻譯所講究的“信、達、雅”仍存在較大差距。可見,雖然語音識別等某一技術環節已經取得較大發展,但面對應用場景的復雜性,智能語音技術仍有待突破。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
智能語音
+關注
關注
11文章
799瀏覽量
49441
發布評論請先 登錄
相關推薦
熱點推薦
芯資訊|多通道混音語音芯片:唯創電子WTV600與WT2003H的智能聲效解決方案
語音芯片技術,為工業控制、智能家居、醫療健康等領域提供了高性價比的語音解決方案,讓設備在有限空間內實現專業級聲效表現。一、多通道混音:語音芯

芯資訊|廣州唯創電子WTK6900P語音識別芯片:離線語音交互的革新者
智能家電、工業控制、消費電子等領域提供了低門檻、高可靠性的語音交互解決方案。以下從核心技術、性能優勢及行業應用三個層面,深度解析其核心競爭力。一、核

芯資訊|廣州唯創電子WTV系列語音芯片:以技術創新賦能智能語音交互
,WTV-380與WTV-890兩款語音芯片憑借其超長內置音頻時長和出色的性能表現,成為工業控制、智能家電、公共服務等領域的明星產品。一、核心技術:突破存儲限制,滿足多樣

芯資訊|寵物喂食器錄音語音芯片應用解析:廣州唯創電子WTR096系列技術優勢與場景實踐
隨著寵物智能家居市場的快速發展,寵物喂食器從基礎定時投喂功能向情感化、智能化方向升級。其中,錄音語音芯片作為實現人寵互動、提升用戶體驗的

芯知識|廣州唯創電子藍牙語音芯片IC晶振電路設計核心技術指南
一、晶振電路設計的核心價值晶振作為語音芯片的"心跳發生器",其穩定性直接決定系統時鐘精度與通信可靠性。廣州唯創電子WT2605C藍牙ic等語音芯片要求時鐘頻偏控制在±25kHz

RFID系統:驅動智能管理的核心技術架構與應用實踐
在萬物互聯的數字化時代,RFID(射頻識別)系統憑借其非接觸式識別、批量讀取與實時數據更新等特性,成為企業實現資產、物料及流程智能化管理的核心技術。本文從技術架構、行業應用、實施策略三大維度,系統解析RFID系統如何重構傳統管理
芯資訊|基于廣州唯創電子語音芯片的煙霧報警器語音方案技術解析
在智能家居與物聯網(IoT)技術快速發展的背景下,語音播報功能已成為煙霧報警器等安防設備提升用戶體驗的核心技術之一。廣州唯創電子憑借其WTV

芯資訊|WT3000T8語音合成芯片TTS在智能收款機中的創新應用設計方案介紹
體驗的關鍵模塊。廠家廣州唯創電子推出的WT3000T8作為新一代高性能語音合成芯片,憑借其優異的處理能力和靈活的功能配置,正在為收款機智能化升級提供

后摩智能參加聯想創投2024年CVC創投周
聯想創投2024年CVC創投周于日前在聯想全球總部東區舉行,本屆活動以"硅基覺醒,AI 啟未來"為主旨,將匯聚近50家科技創新型企業和眾多卓越投資者,共同探索和見證 AI
聚焦物聯網場景,曠視科技核心技術能力持續升級
曾經備受青睞的“AI四小龍”之一,曠視科技在更早的時候曾向港交所遞交上市申請,闖關未果后轉向上交所科創板。 ? 曠視科技核心技術能力 ? 曠視科技是一家聚焦物聯網場景的人工智能公司,其核心技術
評論