在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡要介紹語音識別技術(shù)在各領(lǐng)域的應(yīng)用

電子工程師 ? 來源:網(wǎng)絡(luò)整理 ? 2018-01-31 05:25 ? 次閱讀

語音識別作為信息技術(shù)中一種人機接口的關(guān)鍵技術(shù),具有重要的研究意義和廣泛的應(yīng)用價值。介紹了語音識別技術(shù)發(fā)展的歷程,具體闡述了語音識別概念、基本原理、聲學(xué)建模方法等基本知識,并對語音識別技術(shù)在各領(lǐng)域的應(yīng)用作了簡要介紹。

語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學(xué)表現(xiàn),與機器進行語音交流是人類一直以來的夢想。隨著計算機技術(shù)的飛速發(fā)展,語音識別技術(shù)也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現(xiàn)。語音識別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會朝著智能化和自動化發(fā)展的關(guān)鍵技術(shù),使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。

1 語音識別技術(shù)的發(fā)展

語音識別技術(shù)起始于20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數(shù)字以及孤立詞的識別。

20世紀60年代,語音識別研究取得實質(zhì)性進展。線性預(yù)測分析和動態(tài)規(guī)劃的提出較好地解決了語音信號模型的產(chǎn)生和語音信號不等長兩個問題,并通過語音信號的線性預(yù)測編碼,有效地解決了語音信號的特征提取。

2O世紀70年代,語音識別技術(shù)取得突破性進展。基于動態(tài)規(guī)劃的動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論。

20世紀80年代,語音識別任務(wù)開始從孤立詞、連接詞的識別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語音的識別,識別算法也從傳統(tǒng)的基于標準模板匹配的方法轉(zhuǎn)向基于統(tǒng)計模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語音時變性和平穩(wěn)性,開始被廣泛應(yīng)用于大詞匯量連續(xù)語音識別(Large Vocabulary Continous Speech Recognition,LVCSR)的聲學(xué)建模;在語言模型方面,以N元文法為代表的統(tǒng)計語言模型開始廣泛應(yīng)用于語音識別系統(tǒng) 。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語音建模方法開始廣泛應(yīng)用于LVCSR系統(tǒng),語音識別技術(shù)取得新突破。

20世紀90年代以后,伴隨著語音識別系統(tǒng)走向?qū)嵱没Z音識別在細化模型的設(shè)計、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進展 。同時,人們更多地關(guān)注話者自適應(yīng)、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題 。此外,語音識別技術(shù)開始與其他領(lǐng)域相關(guān)技術(shù)進行結(jié)合,以提高識別的準確率,便于實現(xiàn)語音識別技術(shù)的產(chǎn)品化。

2 語音識別基礎(chǔ)

2.1 語音識別概念

語音識別是將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術(shù)、人工智能數(shù)字信號處理、模式識別、聲學(xué)、語言學(xué)和認知科學(xué)等許多學(xué)科領(lǐng)域,是一個多學(xué)科綜合性研究領(lǐng)域。

根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識別系統(tǒng);根據(jù)對說話人的依賴程度,可分為特定人和非特定人語音識別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。

2.2 語音識別基本原理

從語音識別模型的角度講,主流的語音識別系統(tǒng)理論是建立在統(tǒng)計模式識別基礎(chǔ)之上的。語音識別的目標是利用語音學(xué)與語言學(xué)信息,把輸入的語音特征向量序列X=x1,x2,……,xT轉(zhuǎn)化成詞序列W=w1,w2,……,wN并輸出。基于最大后驗概率的語音識別模型如下式所示:

上式表明,要尋找的最可能的詞序列語音識別技術(shù)的基本原理及應(yīng)用,應(yīng)該使P(X|W)與P(W)的乘積達到最大。其中,P(X|W)是特征矢量序列X在給定W條件下的條件概率,由聲學(xué)模型決定。P(W)是W獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數(shù)不影響W的選取,第四個等式成立。logP(X|W)與logP(W)分別表示聲學(xué)得分與語言得分,且分別通過聲學(xué)模型與語言模型計算得到。A是平衡聲學(xué)模型與語言模型的權(quán)重。從語音識別系統(tǒng)構(gòu)成的角度講,一個完整的語音識別系統(tǒng)包括特征提取、聲學(xué)模型、語言模型、搜索算法等模塊。語音識別系統(tǒng)本質(zhì)上是一種多維模式識別系統(tǒng),對于不同的語音識別系統(tǒng),人們所采用的具體識別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數(shù)送入模型庫模塊,由聲音模式匹配模塊根據(jù)模型庫對該段語音進行識別,最后得出識別結(jié)果 。

語音識別系統(tǒng)基本原理框圖如圖1所示,其中:預(yù)處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預(yù)加重、模/數(shù)轉(zhuǎn)換、自動增益控制等處理過程,將語音信號數(shù)字化;特征提取模塊對語音的聲學(xué)參數(shù)進行分析后提取出語音特征參數(shù),形成特征矢量序列。語音識別系統(tǒng)常用的特征參數(shù)有短時平均幅度、短時平均能量、線性預(yù)測編碼系數(shù)、短時頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵,對識別效果極為重要。

圖1 語音識別基本原理框圖

由于語音信號本質(zhì)上屬于非平穩(wěn)信號,目前對語音信號的分析是建立在短時平穩(wěn)性假設(shè)之上的。在對語音信號作短時平穩(wěn)假設(shè)后,通過對語音信號進行加窗,實現(xiàn)短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構(gòu)成語音識別系統(tǒng)的輸人。由于梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)能夠從人耳聽覺特性的角度準確刻畫語音信號,已經(jīng)成為目前主流的語音特征。為補償幀間獨立性假設(shè),人們在使用梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)時,通常加上它們的一階、二階差分,以引入信號特征的動態(tài)特征。

聲學(xué)模型是語音識別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類、模型參數(shù)估計等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫連續(xù)語音的協(xié)同發(fā)音現(xiàn)象。在考慮了語境的影響后,聲學(xué)模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類的方法壓縮聲學(xué)參數(shù)的數(shù)量,以簡化模型的訓(xùn)練。在訓(xùn)練過程中,系統(tǒng)對若干次訓(xùn)練語音進行預(yù)處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓(xùn)練語音的參考模式庫。

搜索是在指定的空間當中,按照一定的優(yōu)化準則,尋找最優(yōu)詞序列的過程。搜索的本質(zhì)是問題求解,廣泛應(yīng)用于語音識別、機器翻譯等人工智能和模式識別的各個領(lǐng)域。它通過利用已掌握的知識(聲學(xué)知識、語音學(xué)知識、詞典知識、語言模型知識等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對輸入的語音信號在一定準則下的一個最優(yōu)描述。在識別階段,將輸入語音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結(jié)果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結(jié)果繼續(xù)處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結(jié)果的可靠程度等。最終通過增加約束,得到更可靠的識別結(jié)果。

2.3 聲學(xué)建模方法

常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動態(tài)時間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò)識別法(ANN)等。

DTW 是較早的一種模式匹配的方法。它基于動態(tài)規(guī)劃的思想,解決孤立詞語音識別中的語音信號特征參數(shù)序列比較時長度不一的模板匹配問題 在實際應(yīng)用中,DTW通過計算已預(yù)處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。

HMM是對語音信號的時間序列結(jié)構(gòu)所建立的統(tǒng)計模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的,它是一種基于參數(shù)模型的統(tǒng)計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機過程。

ANN以數(shù)學(xué)模型模擬神經(jīng)元活動,將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運算的原理、高效的學(xué)習(xí)算法以及對人的認知系統(tǒng)的模仿能力充分運用到語音識別領(lǐng)域,并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態(tài)特性方面的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態(tài)的后驗概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機形成的混合模型系統(tǒng)大大提高了語音識別的準確率。

3 語音識別的應(yīng)用

語音識別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統(tǒng)的反應(yīng)時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識別技術(shù)還可以應(yīng)用于自動口語翻譯,即通過將口語識別技術(shù)、機器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現(xiàn)跨語言交流。

語音識別技術(shù)在軍事斗爭領(lǐng)域里也有著極為重要的應(yīng)用價值和極其廣闊的應(yīng)用空間。一些語音識別技術(shù)就是著眼于軍事活動而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對語音識別系統(tǒng)的識別精度、響應(yīng)時間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識別技術(shù)已在軍事指揮和控制自動化方面得以應(yīng)用。比如,將語音識別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負擔,飛行員利用語音輸人來代替?zhèn)鹘y(tǒng)的手動操作和控制各種開關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標的判斷和完成其他操作上來,以便更快獲得信息來發(fā)揮戰(zhàn)術(shù)優(yōu)勢。

4 結(jié)語

語音識別的研究工作對于信息化社會的發(fā)展,人們生活水平的提高等方面有著深遠的意義。隨著計算機信息技術(shù)的不斷發(fā)展,語音識別技術(shù)將取得更多重大突破,語音識別系統(tǒng)的研究將會更加深入,有著更加廣闊的發(fā)展空間。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1770

    瀏覽量

    113634
收藏 人收藏

    評論

    相關(guān)推薦

    普強信息入選2024語音識別技術(shù)公司TOP30榜單

    普強憑借語音識別領(lǐng)域多年的技術(shù)積淀與持續(xù)的創(chuàng)新突破,成功入選“2024語音
    的頭像 發(fā)表于 04-18 17:25 ?310次閱讀

    智能語音交互方案客服領(lǐng)域的應(yīng)用

    著客服行業(yè)的面貌,為企業(yè)和用戶帶來了全新的體驗。 語音識別模型優(yōu)化私部署 方案:精準高效,定制專屬服務(wù) 語音識別技術(shù)作為智能
    的頭像 發(fā)表于 04-11 14:35 ?111次閱讀

    語音識別技術(shù)通信領(lǐng)域中的應(yīng)用實例

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對
    的頭像 發(fā)表于 02-21 17:12 ?435次閱讀

    詳解語音識別技術(shù)通信領(lǐng)域中的應(yīng)用

    語音識別技術(shù)也被稱為自動語音識別(Automatic Speech Recognition,ASR),是通過計算機對
    的頭像 發(fā)表于 02-21 17:05 ?589次閱讀
    詳解<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b><b class='flag-5'>在</b>通信<b class='flag-5'>領(lǐng)域</b>中的應(yīng)用

    基于語音識別的智能會議系統(tǒng)具備哪些交互功能

    標貝科技專注智能語音交互領(lǐng)域多年,語音識別語音合成領(lǐng)域
    的頭像 發(fā)表于 12-20 10:35 ?450次閱讀

    標貝智能語音識別在智能會議場景中的落地案例

    標貝科技專注智能語音交互領(lǐng)域多年,語音識別語音合成領(lǐng)域
    的頭像 發(fā)表于 12-20 10:31 ?554次閱讀
    標貝智能<b class='flag-5'>語音</b><b class='flag-5'>識別</b>在智能會議場景中的落地案例

    語音識別技術(shù)醫(yī)療領(lǐng)域的應(yīng)用

    語音識別技術(shù)醫(yī)療領(lǐng)域的應(yīng)用已經(jīng)越來越廣泛,為醫(yī)療服務(wù)帶來了諸多便利和效率提升。以下是對語音
    的頭像 發(fā)表于 11-26 09:35 ?844次閱讀

    語音識別技術(shù)的應(yīng)用與發(fā)展

    語音識別技術(shù)的發(fā)展可以追溯到20世紀50年代,但直到近年來,隨著計算能力的提升和機器學(xué)習(xí)技術(shù)的進步,這項技術(shù)才真正成熟并廣泛應(yīng)用于各個
    的頭像 發(fā)表于 11-26 09:20 ?1328次閱讀

    ASR語音識別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語音識別技術(shù),是計算機科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語音轉(zhuǎn)換為文本
    的頭像 發(fā)表于 11-18 15:12 ?1614次閱讀

    圖像識別技術(shù)醫(yī)療領(lǐng)域的應(yīng)用

    一、引言 圖像識別技術(shù)是一種利用計算機視覺技術(shù)對圖像進行分析和處理的技術(shù)。隨著計算機技術(shù)、人工智能技術(shù)
    的頭像 發(fā)表于 07-16 10:48 ?1653次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)端到端語音識別中的應(yīng)用

    語音識別技術(shù)作為人工智能領(lǐng)域的關(guān)鍵應(yīng)用之一,已經(jīng)深刻地改變了人們的日常生活和工作方式。從智能手機中的語音助手到智能家居系統(tǒng)的
    的頭像 發(fā)表于 07-08 11:09 ?901次閱讀

    Transformer模型語音識別語音生成中的應(yīng)用優(yōu)勢

    隨著人工智能技術(shù)的飛速發(fā)展,語音識別語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算
    的頭像 發(fā)表于 07-03 18:24 ?1749次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)語音識別中的應(yīng)用

    (Convolutional Neural Networks, CNN)憑借其強大的特征提取和學(xué)習(xí)能力,為語音識別領(lǐng)域帶來了革命性的進步。本文將從卷積神經(jīng)網(wǎng)絡(luò)的基本原理出發(fā),深入探討其
    的頭像 發(fā)表于 07-01 16:01 ?1253次閱讀

    人工智能的語音識別技術(shù)詳解

    隨著科技的飛速發(fā)展,人工智能(AI)技術(shù)已經(jīng)滲透到我們生活的方方面面,其中語音識別技術(shù)作為AI領(lǐng)域的重要分支,更是以其獨特的魅力和廣泛的應(yīng)用
    的頭像 發(fā)表于 07-01 11:39 ?2122次閱讀

    標貝語音識別技術(shù)金融領(lǐng)域中的應(yīng)用實例

    隨著語音識別技術(shù)與文本挖掘、自然語言處理等技術(shù)的不斷融合,智能語音交互技術(shù)
    的頭像 發(fā)表于 05-16 16:55 ?849次閱讀
    標貝<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術(shù)</b><b class='flag-5'>在</b>金融<b class='flag-5'>領(lǐng)域</b>中的應(yīng)用實例
    主站蜘蛛池模板: 欧美成人性色生活片天天看 | 色多多在线观看 | 人成xxxwww免费视频 | 色视频线观看在线播放 | 久青草国产高清在线视频 | 黄色一级片网址 | 日本黄色大片免费看 | 黄到让你下面湿的视频 | 黄视频网站免费看 | 国产成人99久久亚洲综合精品 | 天天摸夜夜摸爽爽狠狠婷婷97 | 中文字幕亚洲综合久久2 | 伊人久久亚洲综合天堂 | 国产香蕉一区二区精品视频 | 台湾久久| 影音先锋ady69色资源网站 | 亚洲高清国产一线久久 | 干夜夜 | 男女视频在线看 | 国内在线观看精品免费视频 | 男男浪荡双性受hplay | 亚洲精品免费视频 | 手机看日韩毛片福利盒子 | 免费黄色大片视频 | 国产jlzzjlzz视频免费 | aa亚洲| 日本免费人成在线网站 | 国产成人啪午夜精品网站男同 | 手机在线看片你懂的 | 91啪免费网站在线观看 | 激情六月色 | 欧美色图色就是色 | 伊人网网| a级毛毛片看久久 | 欧美黄色片在线播放 | 日韩性插 | 免费网址视频在线看 | 亚洲第一区精品日韩在线播放 | 亚洲欧美视频一区二区 | 俺也操| 恐怖片大全恐怖片免费观看好看的恐怖片 |