盗墓笔记全集,已完本玄幻小说排行榜,好看的电视剧

識別延遲一直是設備端語音識別技術需要解決的重大問題，谷歌手機今天更新了手機端的語音識別技術——Gboard，重磅推出了一款端到端、全神經、基于設備的語音識別器，支持Gboard中的語音輸入。通過谷歌最新的（RNN-T）技術訓練的模型，該模型精度超過CTC，并且只有80M，可直接在設備上運行。

2012年，語音識別研究獲得新突破——深度學習可以提高識別的準確性，最早探索這項技術的產品便是谷歌語音搜索了。這標志這語音識別革命的開始，從深層神經網絡（DNNs）到遞歸神經網絡（RNNs），長短期記憶網絡（LSTMs），卷積網絡（CNNs）等等，新的架構和開發質量每年都在快速提升。在發展過程中，識別延遲仍然是攻關難點。

今天，谷歌官方宣布，推出一款端到端、全神經、基于設備的語音識別器，支持Gboard中的語音輸入。

在谷歌最近的論文“移動設備的流媒體端到端語音識別”中，提出了一種使用RNN傳感器（RNN-T）技術訓練的模型，并且可以在手機上實現。這意味著即使你的手機網絡延遲，甚至處于離線狀態，新的識別器也始終可用。

谷歌論文下載鏈接：

https://arxiv.org/abs/1811.06621

該模型以單詞級別運行，也就是說，當你說話時，它會逐個字符地輸出單詞，就像是你自己在敲鍵盤一樣。

語音識別的歷史

最初，語音識別系統由這樣幾個部分組成，將音頻片段（通常為10毫秒幀）映射到音素的聲學模型，將音素連接在一起形成單詞的發音模型，語言模型給出相應的短語。這些組件在早期系統中都是相互獨立的。

大約在2014年，研究人員開始專注于訓練單個神經網絡，將輸入音頻波形直接映射到輸出句子。

也就是說，通過給定一系列音頻特征，生成一系列單詞或字形來建立學習模型，這種seq2seq模型的出現促進了“attention-based ”和“listen-attend-spell” 模型的進展。

這些模型期望在識別準確度上做出突破，但其需要通檢查整個輸入序列來工作，并且在輸入時不允許輸出，這就很難實現實時語音轉錄了。

幾乎同一時間，一個被稱為CTC的獨立技術出現了，成功解決了識別延時的問題，采用CTC技術也就成為邁向RNN-T架構最重要一步。

遞歸神經網絡傳感器

RNN-Ts是一種非注意機制的seq2seq模型。與大多數seq2seq模型（通常需要處理整個輸入序列（在我們的例子中是波形）以產生輸出（句子））不同，RNN-T可以連續處理輸入樣本和流輸出符號，這種屬性對于語音識別尤其友好。在實現過程中，輸出符號是字母表的字符。RNN-T識別器會逐個輸出字符，并在適當的位置輸入空格。它通過反饋循環執行此操作，該循環將模型預測的符號反饋到其中，以預測下一個符號，如下圖所示。

訓練這樣一只有效運行的模型已經很困難，并且隨著我們開發的進展——進一步將單詞錯誤率降低了5％，模型變得更加計算密集。為了解決這個問題，我們開發了并行實現，使得RNN-T損失功能可以在Google的高性能CloudTPU v2硬件上大批量運行。這在訓練中實現了約3倍的加速。

離線識別

在傳統的語音識別引擎中，我們上面描述的聲學、發音和語言模型會被“組合”成一個大的圖搜索算法。當語音波形被呈現給識別器時，“解碼器”在給定輸入信號的情況下，會在該圖中搜索相似度最高的路徑，并讀出該路徑所采用的字序列。

通常，解碼器采用基礎模型的有限狀態傳感器（FST）表示。然而，盡管有復雜的解碼技術，圖搜索算法仍然非常之大，以我們的模型為例，可以達到了2GB。如此大的模型根本無法在移動設備上運行，因此這種方法需要在連線時才能正常工作。

為了提高語音識別的有效性，我們試圖通過直接在設備上運行新模型，來避免通信網絡的延遲和不可靠性。因此，我們的端到端方法不需要在大型解碼器圖上進行搜索。

相反，只通過單個神經網絡的波束搜索進行。我們訓練的RNN-T提供與傳統的基于服務器的模型相同的精度，但只有450MB，可以更加智能地使用參數和打包信息。然而，即使在今天的智能手機上，450MB也不小了，并且，通過如此龐大的網絡傳輸信號依然很慢。

進一步的，我們通過使用參數量化和混合內核技術來縮小模型，我們在2016年開發了這一技術并在TensorFlow精簡版庫上公開提供了模型優化工具包。

模型量化相對于訓練的浮點模型提供4倍壓縮，在運行時提供4倍加速，使我們的RNN-T比單核上的實時語音運行得更快。壓縮后，我們模型的最終大小達到了80MB。

終于，當當當，我們的新型設備端神經網絡Gboard語音識別器上線了。最初的版本，我們僅提供英語語言，適配所有Pixel手機。鑒于行業趨勢，隨著專業硬件和算法改進的融合，我們希望這里介紹的技術可以很快用于更多語言和更廣泛的應用領域。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6211

瀏覽量
106265
語音識別

語音識別

+關注

關注
38

文章
1752

瀏覽量
113090
深度學習

深度學習

+關注

關注
73

文章
5523

瀏覽量
121718

原文標題：全離線，無延遲！谷歌手機更新語音識別系統，模型大小僅80M

文章出處：【微信號：BigDataDigest，微信公眾號：大數據文摘】歡迎添加關注！文章轉載請注明出處。

端到端自動駕駛技術研究與分析

傳遞和全局優化的優勢，成為智能駕駛技術發展的重要方向。與傳統模塊化架構相比，端到端技術通過深度神經網絡實現從傳感器數據輸入

發表于 12-19 13:07 ?373次閱讀

階躍星辰發布國內首個千億參數端到端語音大模型

近日，階躍星辰在官方公眾號上宣布了一項重大突破——推出Step-1o千億參數端到端語音大模型。該

發表于 12-17 13:43 ?382次閱讀

準確性超Moshi和GLM-4-Voice,端到端語音雙工模型Freeze-Omni

GPT-4o 提供的全雙工語音對話帶來了一股研究熱潮，目前諸多工作開始研究如何利用 LLM 來實現端到端的

發表于 12-17 10:21 ?341次閱讀

準確性超Moshi和GLM-4-Voice,<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>語音</b>雙工模型Freeze-Omni

爆火的端到端如何加速智駕落地？

編者語：「智駕最前沿」微信公眾號后臺回復：C-0551，獲取本文參考報告：《智能汽車端到端技術研究報告》pdf下載方式。 “端到

發表于 11-26 13:17 ?443次閱讀

爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智駕落地？

智己汽車“端到端”智駕方案推出，老司機真的會被取代嗎？

隨著智能駕駛技術的發展，行業已經從早期基于簡單規則和模塊化邏輯的自動駕駛，逐步邁向依托深度學習的高復雜度智能駕駛解決方案，各車企也緊跟潮流，先后宣布了自己的端到端智駕方案。就在近期，智己汽車推

發表于 10-30 09:47 ?410次閱讀

端到端InfiniBand網絡解決LLM訓練瓶頸

ChatGPT對技術的影響引發了對人工智能未來的預測，尤其是多模態技術的關注。OpenAI推出了具有突破性的多模態模型GPT-4，使各個領域取得了顯著的發展。這些AI進步是通過大規模模型訓練實現

發表于 10-23 11:26 ?641次閱讀

端到端測試用例怎么寫

編寫端到端測試用例是確保軟件系統從頭到尾能夠正常工作的關鍵步驟。以下是一個詳細的指南，介紹如何編寫端到

發表于 09-20 10:29 ?629次閱讀

恩智浦完整的Matter端到端解決方案

恩智浦為打造Matter設備，提供了完整的端到端解決方案，從連接和安全解決方案到處理器和軟件，應有盡有，為Matter標準的規?；逃锰峁┯?/div>
發表于 08-26 18:04 ?2679次閱讀

實現自動駕駛，唯有端到端？

，去年行業主流方案還是輕高精地圖城區智駕，今年大家的目標都瞄到了端到端（End-to-End, E2E）。端到

發表于 08-12 09:14 ?930次閱讀

循環神經網絡在端到端語音識別中的應用

語音識別技術作為人工智能領域的關鍵應用之一，已經深刻地改變了人們的日常生活和工作方式。從智能手機中的語音助手到智能家居系統的

發表于 07-08 11:09 ?752次閱讀

廣汽豐田攜手Momenta推出端到端全場景智能駕駛方案

在近日舉行的廣汽豐田科技開放日上，一場引領未來的智能駕駛技術盛宴吸引了全球目光。廣汽豐田攜手國內領先的自動駕駛解決方案提供商Momenta，共同推出了端到

發表于 06-29 17:36 ?1763次閱讀

小鵬汽車發布端到端大模型

小鵬汽車近日宣布，其成功研發并發布了“國內首個量產上車”的端到端大模型，該模型可直接通過傳感器輸入內容來控制車輛，標志著智能駕駛技術的新突破。

發表于 05-21 15:09 ?767次閱讀

人工智能模型公司Anthropic近日推出了一款Claude移動端App

制造Claude 3人工智能模型公司Anthropic近日推出了一款iOS應用程序，并為群組共享模型訪問添加第二個付費層。

發表于 05-08 09:55 ?805次閱讀

佐思汽研發布《2024年端到端自動駕駛研究報告》

端到端自動駕駛是直接從傳感器信息輸入（如攝像頭圖像、LiDAR等）到控制命令輸出（如轉向、加減速等）映射的

發表于 04-20 11:21 ?3725次閱讀

安信可推出了一款AI離線語音識別的產品—VC系列模組

VC系列模組是安信可開發的一款AI離線語音識別的產品，主芯片是云知聲推出的離線語音識別芯片鋒鳥M

發表于 04-15 10:29 ?742次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

谷歌手機重磅推出了一款端到端、全神經、基于設備的語音識別器

評論

端到端自動駕駛技術研究與分析

階躍星辰發布國內首個千億參數端到端語音大模型

準確性超Moshi和GLM-4-Voice,端到端語音雙工模型Freeze-Omni

爆火的端到端如何加速智駕落地？

智己汽車“端到端”智駕方案推出，老司機真的會被取代嗎？

端到端InfiniBand網絡解決LLM訓練瓶頸

端到端測試用例怎么寫

恩智浦完整的Matter端到端解決方案

實現自動駕駛，唯有端到端？

循環神經網絡在端到端語音識別中的應用

廣汽豐田攜手Momenta推出端到端全場景智能駕駛方案

小鵬汽車發布端到端大模型

人工智能模型公司Anthropic近日推出了一款Claude移動端App

佐思汽研發布《2024年端到端自動駕駛研究報告》

安信可推出了一款AI離線語音識別的產品—VC系列模組

搜索歷史

谷歌手機重磅推出了一款端到端、全神經、基于設備的語音識別器

評論

谷歌手機重磅推出了一款端到端、全神經、基于設備的語音識別器