在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

您好,歡迎來電子發(fā)燒友網! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網>源碼下載>數值算法/人工智能>

語音識別系統(tǒng)最新實踐

大小:0.5 MB 人氣: 2017-09-30 需要積分:1

  語音作為最自然便捷的交流方式,一直是人機通信和交互最重要的研究領域之一。自動語音識別(Automatic Speech Recognition,ASR)是實現人機交互尤為關鍵的技術,其所要解決的問題是讓計算機能夠“聽懂”人類的語音,將語音中傳化為文本。自動語音識別技術經過幾十年的發(fā)展已經取得了顯著的成效。近年來,越來越多的語音識別智能軟件和應用走人了大家的日常生活,蘋果的Siri、微軟的小娜、科大訊飛的語音輸入法和靈犀等都是其中的典型代表。本文將以科大訊飛的視角介紹語音識別的發(fā)展歷程和最新技術進展。

  我們首先簡要回顧語音識別的發(fā)展歷史,然后介紹目前主流的基于深度神經網路的語音識別系統(tǒng),最后重點介紹科大訊飛語音識別系統(tǒng)的最新進展。

  1

  語音識別關鍵突破回顧

  語音識別的研究起源于上世紀50年代,當時的主要研究者是貝爾實驗室。早期的語音識別系統(tǒng)是簡單的孤立詞識別系統(tǒng),例如1952年貝爾實驗室實現了十個英文數字識別系統(tǒng)。從上世紀60年代開始,CMU的Reddy開始進行連續(xù)語音識別的開創(chuàng)性工作。但是這期間語音識別的技術進展非常緩慢,以至于1969年貝爾實驗室的約翰·皮爾斯(John Pierce)在一封公開信中將語音識別比作“將水轉化為汽油、從海里提取金子、治療癌癥”等幾乎不可能實現的事情。上世紀70年代,計算機性能的大幅度提升,以及模式識別基礎研究的發(fā)展,例如碼本生成算法(LBG)和線性預測編碼(LPC)的出現,促進了語音識別的發(fā)展。這個時期美國國防部高級研究計劃署(DARPA)介入語音領域,設立了語音理解研究計劃,研究計劃包括BBN、CMU、SRI、IBM等眾多頂尖的研究機構。IBM、貝爾實驗室相繼推出了實時的PC端孤立詞識別系統(tǒng)。上世紀80年代是語音識別快速發(fā)展的時期,其中兩個關鍵技術是隱馬爾科夫模型(HMM)的理論和應用趨于完善以及NGram語言模型的應用。此時語音識別開始從孤立詞識別系統(tǒng)向大詞匯量連續(xù)語音識別系統(tǒng)發(fā)展。例如,李開復研發(fā)的SPHINX系統(tǒng),是基于統(tǒng)計學原理開發(fā)的第一個“非特定人連續(xù)語音識別系統(tǒng)”。其核心框架就是用隱馬爾科模型對語音的時序進行建模,而用高斯混合模型(GMM)對語音的觀察概率進行建模?;贕MM-HMM的語音識別框架在此后很長一段時間內一直是語音識別系統(tǒng)的主導框架。上世紀90年代是語音識別基本成熟的時期,主要進展是語音識別聲學模型的區(qū)分性訓練準則和模型自適應方法的提出。這個時期劍橋語音識別組推出的HTK工具包對于促進語音識別的發(fā)展起到了很大的推動作用。此后語音識別發(fā)展很緩慢,主流的框架GMM-HMM趨于穩(wěn)定,但是識別效果離實用化還相差甚遠,語音識別的研究陷入了瓶頸。

  關鍵突破起始于2006年。這一年辛頓(Hinton)提出深度置信網絡(DBN),促使了深度神經網絡(Deep Neural Network,DNN)研究的復蘇,掀起了深度學習的熱潮。2009年,辛頓以及他的學生默罕默德(D. Mohamed)將深度神經網絡應用于語音的聲學建模,在小詞匯量連續(xù)語音識別數據庫TIMIT上獲得成功。2011年,微軟研究院俞棟、鄧力等發(fā)表深度神經網絡在語音識別上的應用文章,在大詞匯量連續(xù)語音識別任務上獲得突破。從此基于GMM-HMM的語音識別框架被打破,大量研究人員開始轉向基于DNN-HMM的語音識別系統(tǒng)的研究。

  2

  基于深度神經網絡的語音識別系統(tǒng)

  基于深度神經網絡的語音識別系統(tǒng)主要采用如圖1所示的框架。相比傳統(tǒng)的基于GMM-HMM的語音識別系統(tǒng),其最大的改變是采用深度神經網絡替換GMM模型對語音的觀察概率進行建模。最初主流的深度神經網絡是最簡單的前饋型深度神經網絡(Feedforward Deep Neural Network,FDNN)。DNN相比GMM的優(yōu)勢在于:1. 使用DNN估計HMM的狀態(tài)的后驗概率分布不需要對語音數據分布進行假設;2. DNN的輸入特征可以是多種特征的融合,包括離散或者連續(xù)的;3. DNN可以利用相鄰的語音幀所包含的結構信息。

  語音識別系統(tǒng)最新實踐

  圖1 基于深度神經網絡的語音識別系統(tǒng)框架

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關規(guī)定!

      ?
      主站蜘蛛池模板: 六九视频在线观看 | 国产免费一区二区三区最新 | 久久狠狠躁免费观看 | 狠狠色噜噜狠狠狠狠黑人 | 免费一级在线观看 | 五月天婷五月天综合网在线 | 黄色美女网站免费 | 成年女人在线观看 | 中国特黄一级片 | 欧美成人午夜影院 | 色婷婷亚洲精品综合影院 | 午夜毛片在线观看 | 网红和老师啪啪对白清晰 | 亚洲成人自拍 | 爱爱毛片 | 在线天堂中文字幕 | 精品国产自在在线在线观看 | 婷婷成人丁香五月综合激情 | 欧美婷婷六月丁香综合色 | 国产网站在线免费观看 | 国产三级日产三级韩国三级 | 婷婷亚洲五月琪琪综合 | 免费人成在线 | 好男人www社区影视在线 | 欧美天天爽 | 国内一级毛片 | 狠狠色噜噜狠狠狠狠黑人 | 456成人网| 日韩三级小视频 | 网友偷自拍原创区 | 天天干天天干天天干 | 亚洲天堂电影在线观看 | 不卡一区二区在线观看 | 国内精品久久久久影院薰衣草 | 99香蕉国产| 日本色图视频 | 亚洲特级毛片 | 狠色网 | 国产女乱淫真高清免费视频 | 亚洲视频欧美视频 | 国产三级视频在线播放 |