在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于云的語音識別增長推動嵌入式語音技術(shù)

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Todd Mozer ? 2022-08-11 14:42 ? 次閱讀

當今語音技術(shù)領(lǐng)域的許多最大玩家也是手機操作系統(tǒng) (OS) 市場的重量級人物。微軟是第一個組建語音團隊的軟件/移動操作系統(tǒng)巨頭。在 1990 年代初期,比爾·蓋茨宣揚了語音用戶界面 (VUI) 的好處,并預測它們將在計算機上的人機交互中發(fā)揮作用。谷歌在 21 世紀初建立了一支由語音技術(shù)專家組成的精英團隊,并通過其 Android 版本刺激了移動行業(yè)向語音界面和語音控制方向發(fā)展。蘋果一直是用戶體驗的王者,直到最近,由于準確性方面的挑戰(zhàn),蘋果一直避免推動語音技術(shù)。然而,隨著收購 Siri(語音禮賓服務)并將該公司的技術(shù)整合到 iPhone 4S 中,

由于多種原因,語音技術(shù)對移動行業(yè)變得至關(guān)重要,主要是因為說話比打字更容易,而且手機的外形設計是圍繞說話而不是打字而構(gòu)建的。此外,由于移動搜索的巨大收入潛力,移動操作系統(tǒng)提供商看到了將語音識別添加到他們的技術(shù)組合中的價值。

為什么是嵌入式?

VUI 的大部分繁重工作都是在云中執(zhí)行的。這就是大型操作系統(tǒng)廠商的大部分投資都花在了那里。云提供了一個具有幾乎無限 MIPS 和內(nèi)存的環(huán)境——這是高級語音搜索處理的兩個基本要素。隨著基于云的語音技術(shù)使用的增長,嵌入式領(lǐng)域似乎也出現(xiàn)了類似的趨勢。

嵌入式語音是唯一能夠在無法訪問云時啟用語音控制和輸入的解決方案——這是增加用戶體驗的必要功能。嵌入式語音還能夠消耗更少的 MIPS 和內(nèi)存,從而提高設備電池電量的效率。

客戶端/云語音使用的最佳方案需要在客戶端上進行語音激活,并在云上解密文本和含義的繁重工作。這可以實現(xiàn)設備始終開啟并始終收聽的場景,因此無需按下客戶端上的按鈕即可發(fā)出和執(zhí)行語音命令。這種“不需要手或眼睛”的范例在汽車中為了安全目的而在家里為了方便起見特別有用。

例如,在最近推出的 Galaxy SII Android 手機中,三星的 Voice Talk 使用 Sensory 的 TrulyHandsfree 語音控制,一種嵌入式語音技術(shù),通過“Hey Galaxy”來激活手機。這句話調(diào)用了基于云的 Vlingo 識別服務,該服務允許用戶在不接觸手機的情況下發(fā)出命令和輸入文本。

語音識別可以在低至 10 MIPS 和數(shù)萬字節(jié)內(nèi)存的設備上實現(xiàn)。Sensory 的語音芯片系列包括基于 8 位微控制器RISC 單芯片和利用小型嵌入式 DSP 的自然語言處理器。一般來說,在語音識別中投入的 MIPS 和內(nèi)存越多,產(chǎn)品的功能(響應時間越快、詞匯量越大、語法越復雜)就越多。

無論什么平臺實現(xiàn)任務,語音識別的一般方法都是相似的。多年來,隱馬爾可夫建模和神經(jīng)網(wǎng)絡等統(tǒng)計方法一直是語音識別的主要方法。從客戶端遷移到云端允許部署統(tǒng)計語言建模和更復雜的技術(shù)。

VUI 階段

要創(chuàng)建真正免提、免眼的用戶體驗,必須解決幾個技術(shù)階段。

第 1 階段:語音激活

這實質(zhì)上是在替換按鈕按下。識別器需要始終處于開啟狀態(tài),準備好調(diào)用第 2 階段投入運行,并且能夠在非常嘈雜的情況下激活。第一階段的另一個關(guān)鍵標準是非常快的響應時間。鑒于超過幾百毫秒的延遲可能會導致用戶在識別器收聽之前對階段 2 說話而導致準確性問題,因此語音激活的響應時間必須與按鈕的響應時間相同,這幾乎是瞬時的。 簡單的命令和控制功能可以通過 Stage 1 識別系統(tǒng)或更復雜的 Stage 2 系統(tǒng)嵌入客戶端,該系統(tǒng)可以是嵌入式的或基于云的。

第 2 階段:語音識別和轉(zhuǎn)錄

更耗電且功能更強大的 Stage 2 識別器將所說的內(nèi)容翻譯成文本。如果目的是短信或語音撥號,則該過程可以在這里停止。如果用戶想要回答問題或訪問數(shù)據(jù),系統(tǒng)將進入第 3 階段。由于第 1 階段識別器可以在高噪聲下做出響應,它可以降低汽車收音機或家庭 AV 的音量以協(xié)助第 2 階段識別。

第三階段:意圖和意義

這可能是這個過程中最大的挑戰(zhàn)。文本翻譯準確,但它是什么意思?例如,互聯(lián)網(wǎng)搜索所需的查詢是什么?今天的“智能”可能會嘗試修改搜索以更好地適應它認為用戶想要的內(nèi)容。然而,計算機在識別意圖方面非常糟糕。Apple 的 Siri 智能助手是在國防部資助的 CALO 項目下開發(fā)的,涉及 300 多名研究人員,它可能是當今智能解釋的最佳示例。

第四階段:數(shù)據(jù)搜索和查詢

根據(jù)查詢的不同,搜索數(shù)據(jù)并找到正確的結(jié)果可能很簡單,也可能很復雜。地圖數(shù)據(jù)和方向可能是可靠的,因為語法很好理解,地圖搜索的目標很明確。隨著谷歌和其他搜索提供商在數(shù)據(jù)搜索功能上投入大量資金和時間,這一階段將繼續(xù)改善。

第 5 階段:語音響應

對查詢的語音響應是顯示響應的一個很好的替代方案,這可能會導致駕駛員將視線從道路上移開或在家中造成不便。當今最先進的文本到語音系統(tǒng)具有高度可理解性,并且比以前的自動語音系統(tǒng)聽起來更自然。

為什么嵌入式識別器在第 1 階段替換按鈕需要這么長時間?

語音識別傳統(tǒng)上需要按鈕激活而不是語音激活。造成這種情況的主要原因是按鈕雖然讓人分心,但即使在嘈雜的環(huán)境中也是可靠且反應靈敏的。這些類型的環(huán)境,例如汽車或繁忙的家,對于語音識別器來說可能具有挑戰(zhàn)性。一個聲控詞必須在汽車(車窗關(guān)閉、收音機打開和道路噪音)或家中(嬰兒哭泣、音樂或電視打開、電器運行)中產(chǎn)生響應,而無需用戶為它工作。 因此,直到最近,語音技術(shù)只有在用戶處于安靜環(huán)境中且麥克風靠近嘴巴時才可靠。

對快速響應時間的要求使這一挑戰(zhàn)進一步復雜化。語音識別器通常需要數(shù)百毫秒才能確定用戶是否在開始處理語音之前完成了談話。識別系統(tǒng)可以接受這個時間延遲以產(chǎn)生答案或回復給消費者。然而,在第 1 階段,激活的響應在第 2 階段調(diào)用另一個更復雜的識別器,消費者不會接受持續(xù)時間比按下按鈕時間長得多的延遲。延遲越長,在第 2 階段發(fā)生識別失敗的可能性就越大,因為用戶可能在第 2 階段識別器準備好收聽之前開始說話。

嵌入式語音技術(shù)的最新進展,例如 Sensory 的 TrulyHandsfree 語音界面,無需觸摸設備即可提供真正的 VUI。這些技術(shù)消除了嘈雜環(huán)境中固有的問題以及較長的響應時間,使語音激活變得可行、準確和方便。

消費電子產(chǎn)品中語音的未來

許多年前,電視觀眾不得不起身走到他們的單位更換頻道。遙控器的到來讓這一切都結(jié)束了,今天沒有人會買沒有遙控器的電視。盡管如此,我們?nèi)匀黄鹕碜叩轿覀兊拇蠖鄶?shù)計算設備前使用它們。隨著語音識別的改進,這將不再是必要的。

帶有語音觸發(fā)功能的免提設備的迅速興起將發(fā)展成為智能設備,這些設備可以聆聽我們所說的話并決定何時適合從客戶端轉(zhuǎn)到云端。他們還將決定何時以及如何做出回應,有可能演變成坐在后臺傾聽一切并決定何時提供幫助的助手。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • dsp
    dsp
    +關(guān)注

    關(guān)注

    555

    文章

    8138

    瀏覽量

    354943
  • 嵌入式
    +關(guān)注

    關(guān)注

    5133

    文章

    19502

    瀏覽量

    314324
  • Android
    +關(guān)注

    關(guān)注

    12

    文章

    3961

    瀏覽量

    129475
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    語音識別技術(shù)在通信領(lǐng)域中的應用實例

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對
    的頭像 發(fā)表于 02-21 17:12 ?537次閱讀

    詳解語音識別技術(shù)在通信領(lǐng)域中的應用

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對
    的頭像 發(fā)表于 02-21 17:05 ?649次閱讀
    詳解<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b>在通信領(lǐng)域中的應用

    【「嵌入式系統(tǒng)設計與實現(xiàn)」閱讀體驗】+ 基于語音識別的智能杯墊

    語音命令Q 識別,適用于智能家居控制、玩具、人機交互等多個領(lǐng)域。該模塊以其高識別率、低功耗和易于集成的特點受到廣大開發(fā)者的青睞。 主要技術(shù)及功能有: 磁力攪拌、重量采集、
    發(fā)表于 01-02 18:15

    離線語音識別技術(shù)引領(lǐng)智能語音燈具市場——NRK3502

    智能語音燈具集高科技與人性化設計,內(nèi)置NRK3502離線語音識別芯片,支持遠場識別與自定義指令,提供便捷智能體驗,推動智能家居行業(yè)發(fā)展。
    的頭像 發(fā)表于 12-30 15:04 ?609次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b>引領(lǐng)智能<b class='flag-5'>語音</b>燈具市場——NRK3502

    語音識別技術(shù)在醫(yī)療領(lǐng)域的應用

    語音識別技術(shù)在醫(yī)療領(lǐng)域的應用已經(jīng)越來越廣泛,為醫(yī)療服務帶來了諸多便利和效率提升。以下是對語音識別技術(shù)
    的頭像 發(fā)表于 11-26 09:35 ?957次閱讀

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別技術(shù)使
    的頭像 發(fā)表于 11-26 09:21 ?1190次閱讀

    語音識別技術(shù)的應用與發(fā)展

    語音識別技術(shù)的發(fā)展可以追溯到20世紀50年代,但直到近年來,隨著計算能力的提升和機器學習技術(shù)的進步,這項技術(shù)才真正成熟并廣泛應用于各個領(lǐng)域。
    的頭像 發(fā)表于 11-26 09:20 ?1438次閱讀

    ASR與傳統(tǒng)語音識別的區(qū)別

    ASR(Automatic Speech Recognition,自動語音識別)與傳統(tǒng)語音識別在多個方面存在顯著的區(qū)別。以下是對這兩者的對比: 一、
    的頭像 發(fā)表于 11-18 15:22 ?1147次閱讀

    ASR語音識別技術(shù)應用

    ASR(Automatic Speech Recognition)語音識別技術(shù),是計算機科學與人工智能領(lǐng)域的重要突破,能將人類語音轉(zhuǎn)換為文本,廣泛應用于智能家居、醫(yī)療、交通等多個領(lǐng)域。
    的頭像 發(fā)表于 11-18 15:12 ?1793次閱讀

    WTK6900FC語音識別模塊

    語音識別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月25日 17:35:07

    唯創(chuàng)知音WT2605C用在離在線語音識別方案# #語音芯片 #語音識別 #唯創(chuàng)知音

    語音識別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月12日 17:24:28

    嵌入式系統(tǒng)的未來趨勢有哪些?

    智能家居領(lǐng)域,嵌入式系統(tǒng)可以集成語音識別和自然語言處理技術(shù),去實現(xiàn)智能家電的語音控制。 2. 更強大的處理能力 在未來的
    發(fā)表于 09-12 15:42

    Transformer模型在語音識別語音生成中的應用優(yōu)勢

    隨著人工智能技術(shù)的飛速發(fā)展,語音識別語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算
    的頭像 發(fā)表于 07-03 18:24 ?1929次閱讀

    車載語音識別系統(tǒng)語音數(shù)據(jù)采集標注案例

    車載語音識別系統(tǒng)是指利用機器學習算法實現(xiàn)的一種自然語言處理技術(shù),載語音識別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量,將所聽到的
    的頭像 發(fā)表于 06-19 15:49 ?775次閱讀

    智能消毒柜語音識別芯片推動智能家居技術(shù)發(fā)展

    智能消毒柜語音識別芯片,作為現(xiàn)代智能家居技術(shù)的重要一環(huán),其背后蘊含著豐富的技術(shù)背景與廣泛的功能應用。這款芯片,如同一個敏銳的聽覺器官,時刻準備捕捉并理解用戶的
    的頭像 發(fā)表于 05-29 13:28 ?627次閱讀
    智能消毒柜<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片<b class='flag-5'>推動</b>智能家居<b class='flag-5'>技術(shù)</b>發(fā)展
    主站蜘蛛池模板: 欧美三级网站 | 免费国产zzzwww色 | 久操久操久操 | 色爽视频 | 男男污肉高h坐便器调教 | 黄网在线观看 | 亚洲乱码一区二区三区在线观看 | 亚洲色图在线播放 | 亚洲成人激情片 | 日韩一级片在线播放 | 久久精品香蕉视频 | 亚洲五月激情综合图片区 | 黄色三级视频网站 | 成人在线视频网 | 欧美国产三级 | 亚洲成人三级 | 日本免费不卡视频 | 欧美三级免费网站 | 午夜手机福利 | 男人的天堂色偷偷之色偷偷 | 好吊日在线 | 五月天婷婷在线观看高清 | 日本一卡二卡3卡四卡网站精品 | 成 人 黄 色视频免费播放 | 四虎地址8848最新章节 | 欧美日韩你懂的 | 么公的好大好硬好深好爽视频 | 免费人成a大片在线观看动漫 | 黑色丝袜美美女被躁视频 | 国产福利在线免费 | 西西人体www303sw大胆高清 | 色爱区综合| 午夜免费网站 | 香港澳门a级三级三级全黄 香港经典a毛片免费观看爽爽影院 | 欧美特黄三级在线观看 | 久久夜色撩人精品国产 | 69国产成人综合久久精品 | 天天干天天射天天舔 | 四虎影业 | 日韩欧美黄色 | 亚洲成人网在线播放 |