谷歌在其開源博客中宣布開源 Android 語音識別轉錄工具 —— Live Transcribe 的語音引擎(Live Transcribe Speech Engine),它旨在將語音或對話實時轉錄為文字,還能夠為聽障人士提供幫助。
Live Transcribe 是谷歌于今年 2 月推出的一款 Android 應用程序,它的語音識別由谷歌最先進的 Cloud Speech API 提供。但是,依賴于云引入了一些復雜性,不斷變化的網絡連接、數據成本和延遲的魯棒性等等都帶來一些考驗。因此,谷歌把它開源出來, 希望開發人員在已有的基礎上進一步構建和開發。
Cloud Speech API 目前無法支持無限的音頻流,團隊目前采取了一些措施來解決這一難題,例如在達到超時之前關閉并重新啟動流式傳輸請求,這將有效減少會話中丟失的文本量。
無限流媒體音頻帶來了一大挑戰。在許多國家,網絡數據非常昂貴,并且在互聯網較差的地方,帶寬可能有限。Live Transcribe Speech Engine 的團隊對音頻編解碼器進行了大量實驗,并最終在不影響精度的情況下將數據使用量減少了 10 倍。
另外,由于是提供實時語音轉錄,轉錄出來的文本會隨著語音的輸入不斷發生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要歸功于它的自定義 Opus 編碼器。
此外,值得一提的是,Live Transcribe 支持超過 70 種語言,并能夠根據語音自動識別語種,其中也包括中文。
-
解碼器
+關注
關注
9文章
1173瀏覽量
41918 -
谷歌
+關注
關注
27文章
6231瀏覽量
108007 -
語音識別
+關注
關注
39文章
1779瀏覽量
114170
原文標題:【業內熱點】谷歌開源實時語音轉錄引擎 Live Transcribe Speech Engine
文章出處:【微信號:ChinaAET,微信公眾號:電子技術應用ChinaAET】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
明遠智睿SSD2351開發板:語音機器人領域的變革力量
語音識別技術在通信領域中的應用實例
基于語音識別的智能會議系統具備哪些交互功能
語音識別與自然語言處理的關系
語音識別技術的應用與發展
ASR與傳統語音識別的區別
ASR語音識別技術應用
基于Arm Neoverse N2實現自動語音識別技術

物聯網系統智能控制產品的語音識別方案_離線語音識別芯片分析



評論