、熟悉 Siri、Google Now、Cortana、S-Voice 和/或 Echo 的每個人都熟悉過去十年語音識別的進步和改進。這種改進大部分來自基于云的識別器在大數據上部署“深度學習”。
盡管它經常不在聚光燈下,但嵌入式系統的語音識別已經取得了很大進展。事實上,大多數主要的語音引擎都部署了嵌入式和基于云的識別的組合。這在“Hey Siri”、“OK Google”、“Hey Cortana”、“Hi Galaxy”和“Alexa”等命令中最為明顯。所有這些基于云的識別系統都使用嵌入的“觸發”短語來打開云連接,為語音識別做好準備。
嵌入式觸發短語允許一些基于云的方法的改進和實用性。一方面,擁有一個“永遠在線”的嵌入式識別器比讓你的對話上傳到云端讓谷歌和其他人以他們想要的任何方式分析要少得多。由于它在設備上,因此在說出觸發短語之前不會進行語音錄制或傳輸,并且觸發偵聽是實時完成的,而不會發送您的語音。
嵌入式喚醒觸發器也有實際原因,其中一個主要原因是功耗。僅在云中運行需要大量數據傳輸和分析,使得電池供電或“綠色”產品不切實際。許多主要的 DSP 公司都為“始終開啟”的 DSP 提供解決方案,這些 DSP 以 2 mA 或更低的電流運行 Sensory 的 TrulyHandsfree 喚醒觸發選項。使用健全的活動檢測方案,平均電池消耗可以低于 1 mA,將其置于電池泄漏領域。
嵌入式語音識別的其他流行用途是在需要對有限命令進行快速準確響應的設備中。我最喜歡的例子之一是三星 Galaxy 智能手機,在相機模式下,用戶可以啟用語音命令來拍照。這適用于我在 20 英尺遠的安靜環境或 5 英尺遠的嘈雜位置。這是隨身攜帶自拍桿的絕佳替代品,每當我向人們展示此功能時,他們都會很快獲得并喜歡它。
嵌入式揚聲器驗證也被更頻繁地部署,并且通常被合并到喚醒觸發器中,以降低其他人喚醒您的設備的可能性。對于語音識別和說話人驗證,總是需要在錯誤接受(接受錯誤的用戶)和錯誤拒絕(拒絕正確的用戶)之間進行權衡。首選的喚醒觸發設置通常是以偶爾讓正確的人進入為代價來保持極低的錯誤拒絕。在需要更復雜的揚聲器驗證以確保安全的系統中,可以部署不需要最低要求的更復雜的算法功耗,以增加電流消耗為代價獲得更好的精度。
隨著消費產品和手機使用更復雜的處理器,我預計更高比例的語音識別使用將轉移到嵌入式設備,并且會出現“分層”語音識別方法,從而在設備上進行快速初始分析并做出響應如果設備對成功有很高的信心(自我認知),但如果它不太確定自己的響應或需要基于云的搜索,則將其傳遞給云端。
審核編輯:郭婷
-
處理器
+關注
關注
68文章
19420瀏覽量
231220 -
嵌入式
+關注
關注
5094文章
19183瀏覽量
307788 -
深度學習
+關注
關注
73文章
5516瀏覽量
121569
發布評論請先 登錄
相關推薦
評論