在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

語音識別任務中除了模型以外的可以提升性能的技巧

wpl4_DeepLearni ? 來源:未知 ? 作者:胡薇 ? 2018-04-23 17:18 ? 次閱讀

端對端語音識別改進的規則技巧

對于端對端模型來說,通過數據增強和Dropout的方法可以提高模型的性能。在語音識別中也是如此,之前,我公眾號沒有寫過關于語音識別任務的數據增強的技巧,最近做了大規模的語音識別實踐發現,數據增強對于小數據集而言簡直就是雪中送炭,當然,如果你擁有大體量的數萬小時的語音數據庫,而且又能囊括全國各地不同口音風格,那么數據增強理論上也能起到錦上添花的作用。今天基于Salesforce Research的這篇文章以及自己平時的實踐經驗,來分享一下語音識別任務中除了模型以外的可以提升性能的技巧。

這篇論文中提到,通過對音頻的速度、音調、音量、時間對齊進行微小的擾動,以及通過增加高斯白噪聲來對音頻進行改動,同時,文章也探討了在每一層神經網絡上采用dropout所帶來的效果。實驗結果表明,通過將數據增強技術與dropout聯合使用,可以將語音識別模型的性能在WSJ數據庫上和LibriSpeech數據庫上相比baseline系統提高20%以上,從結果上看,這些規則化技巧對語音識別的性能改進有很大的幫助。我們先看一下作者基于什么模型來實踐這些數據增強的技巧。

本文使用的端對端模型非常接近于百度提出的Deep Speech2 (DS2),如上圖所示,原始特征數據首先經過一個較大卷積核的卷積層,卷積核較大的好處就是對原始特征進行降維,降維以后通過5個殘差連接區,而每一個殘差區都是由批歸一化層、channel-wise卷積層和1×1的卷積層構成,并通過relu激活函數,緊接著連上4個雙向GRU網絡,最終通過全連接層得到目標概率分布,并采取端對端的CTC損失函數作為目標函數,使用隨機梯度下降算法來進行優化。這里相比DS2所做的創新主要是channel-wise可分離的卷積層,其實就是depth-wise可分離卷積層,它相比常規的卷積具有性能好、參數減少的優勢,它們在參數數量上的區別可以通過下面的例子看得出來(具體關于可分離卷積的介紹,可以搜索xception這篇文章):

假設現在要做一個卷積,輸入深度是128,輸出深度是256;常規的操作使用卷積核3×3進行卷積,那么參數數目為128×3×3×256=294912;depth-wise可分離卷積的操作是設置depth multiplier=2得到深度為2×128的中間層,再經過1×1的卷積層降維到深度為256,參數數目為128×3×3×2+128×2×1×1×256=67840,可以看到相比常規卷積,參數減少了77%;

除了使用了depth-wise可分離卷積層以外,殘差連接以及在每一層上都采取了批歸一化的技巧對訓練有促進作用,整個網絡共有約500萬個參數。參數太大就容易出現過擬合的問題,為了避免過擬合,作者嘗試探索了數據增強和dropout兩種技巧來提升系統的性能。

1. 數據增強

在此之前,Hinton曾經提出使用Vocal Tract Length Perturbation (VTLP)的方法來提升語音識別的性能,具體的做法就是在訓練階段對每一個音頻的頻譜特征施加一個隨機的扭曲因子,通過這種做法Hinton實現了在TIMIT小數據集上的測試集表現提升了0.65%,VTLP是基于特征層面所做的數據增強技巧,不過后來也有人發現通過改變原始音頻的速度所帶來的性能提升要比VTLP好。但是音頻速度的快慢實際上會影響到音調(pitch),所以提高了音頻的速度必然也就增大了音頻的音調。反過來也是,降低了音頻的速度就會使得音頻的音調變小。所以,僅僅通過調節速度的方法就不能產生速度快同時音調低的音頻,這就使得音頻的多樣性有所降低,對語音識別系統的性能提升有限。作者在本文中希望能夠通過數據增強來豐富音頻的變化,提升數據的數量和多樣化,于是作者采取將音頻的速度通過兩個單獨的變量來控制,它們分別是tempo和pitch,也就是節奏和音高,對音頻的節奏和音高的調節可以通過語音的瑞士軍刀——SOX軟件來完成。

除了改變tempo和pitch以外,作者還添加了高斯白噪聲、改變音頻的音量以及隨機對部分原始音頻的采樣點進行扭曲操作。

2. dropout

dropout是Hinton提出來的一種防止深度神經網絡出現過擬合的技巧,它的做法是在訓練神經網絡的時候隨機地讓某些神經元的輸入變為0,公式如下所示,通過生成一個概率為1-p的伯努利分布再與神經元的輸入進行點乘,即可得到dropout以后的輸入;而在推理階段,我們只需要對輸入乘以伯努利分布的期望值1-p即可。dropout對于前向神經網絡作用很明顯,但是應用到循環神經網絡中的時候,很難取得較好的效果。

作者在本文中采取的dropout是不隨時間變化的,即對于一個序列的不同時刻,產生dropout的伯努利分布是共享的,而在推理階段,仍然是乘以伯努利分布的期望值1-p。作者在卷積層和循環層都是采取了這個變種的dropout,而在全連接層則是采取了標準的dropout。

3. 實驗細節

作者采取的數據集是LibriSpeech和WSJ,輸入到模型的特征是語音的頻譜圖(spectrogram),以20ms為一幀,步長設為10ms。同時,作者對特征做了兩個層次的歸一化,分別是把頻譜圖歸一化成均值為0標準差為1的分布,以及對每一個特征維度進行同樣的歸一化,不過這個特征維度的歸一化是基于整體訓練集的統計來做的。

數據增強部分,作者基于tempo的增強參數是取自(0.7, 1.3)的均勻分布,基于pitch的增強參數是取自(-500, 500)的均勻分布,添加高斯白噪聲的時候將信噪比控制在10-15分貝,同時在調整速度方面,作者分別使用了0.9,1.0和1.1作為調整的系數。綜合上面所有數據增強技巧,如下圖所示,模型的性能相比沒有這些技巧的baseline提高了20%。

dropout同樣提升了模型的性能,dropout概率作者對數據設置了0.1,對卷積層設置了0.2,對所有的循環層和全連接層設置了0.3,通過dropout,模型性能提高了22.43%,結合dropout和數據增強,模型整體性能提高了23.39%。

4. 總結

本文應該是對語音識別中的數據增強和規則化技巧做了總結,雖然實驗用的數據集是時長比較短的數據集,但是這些數據集對于我們部署一個實際的語音識別系統也很重要。對于中文普通話語音識別而言,不論是不同人說話的語速、語調,還是不同地方的人說普通話的口音,這些導致語音識別的難度非常大,如果想去采集各個地方不同人所說的普通話語料,對于小公司或者小團隊而言,是非常不現實的一件事情。所以,如何基于有限的普通話語料去使用數據增強算法來人工構建一個可以模擬全國各個地方不同口音分布的強大語料是一個不得不面對的實際難題,而解決了這個難題實際上也就能極大程度地提升語音識別的魯棒性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 端對端
    +關注

    關注

    0

    文章

    3

    瀏覽量

    7896
  • 語音識別
    +關注

    關注

    38

    文章

    1743

    瀏覽量

    112940

原文標題:改進語音識別性能的數據增強技巧

文章出處:【微信號:DeepLearningDigest,微信公眾號:深度學習每日摘要】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于網絡性能的VoIP語音質量評價模型

    【作者】:張秀武;雷為民;【來源】:《小型微型計算機系統》2010年03期【摘要】:在VoIP應用,為了實現服務質量的監測和路徑切換,通常需要測量路徑的網絡性能,并將網絡性能映射到語音
    發表于 04-24 09:26

    基于labview的語音識別

    的語法網絡或由統計方法構成的語言模型,語言處理可以進行語法、語義分析。對小詞表語音識別系統,往往不需要語言處理部分。聲學模型
    發表于 03-10 22:00

    基于MSP432 MCU的語音識別設計概述

    (一個被稱為注冊的任務)。再說一次已注冊的短語。識別器將用它來制作一個更好的模型,以提升性能(一個被稱為更新的
    發表于 07-30 04:45

    詳解語音識別技術原理

    的概率4. 5. 語言概率:根據語言統計規律得到的概率6. 其中,前兩種概率從聲學模型獲取,最后一種概率從語言模型獲取。語言模型是使用大
    發表于 05-30 07:41

    離線語音識別及控制是怎樣的技術?

    了對網絡依賴的程度。  二、離線語音識別技術的優勢  離線語音識別的優勢主要體現在以下幾個方面:  1. 隱私保護:離線語音
    發表于 11-24 17:41

    基于PAD情緒模型的情感語音識別

    基于PAD情緒模型的情感語音識別_宋靜
    發表于 01-08 14:47 ?0次下載

    阿里開源自主研發AI語音識別模型

    阿里巴巴達摩院機器智能實驗室語音識別團隊,推出了新一代語音識別模型——DFSMN,不僅被谷歌等國外巨頭在論文中重點引用,更將全球
    的頭像 發表于 06-10 10:08 ?5737次閱讀

    語音處理,通過使用大數據可以輕松解決很多任務

    語音處理,通過使用大量數據可以輕松解決很多任務。例如,將語音轉換為文本的 自動語音
    的頭像 發表于 09-23 17:56 ?2345次閱讀

    三星無聲語音助手專利解密:可以完成精準語音識別任務

    【嘉德點評】三星發明的可以完成精準語音識別任務語音識別助手,在交互時無需發出
    的頭像 發表于 02-12 15:03 ?1581次閱讀
    三星無聲<b class='flag-5'>語音</b>助手專利解密:<b class='flag-5'>可以</b>完成精準<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>任務</b>

    關于多任務學習如何提升模型性能與原則

    提升模型性能的方法有很多,除了提出過硬的方法外,通過把神經網絡加深加寬(深度學習),增加數據集數目(預訓練模型)和增加目標函數(多
    的頭像 發表于 03-21 11:54 ?2887次閱讀

    研討會預告 | 使用 Transducer 模型優化語音識別結果

    ,一是缺乏語言模型建模能力,不能整合語言模型進行聯合優化,二是 CTC 有一個不合理的假設:標簽相互獨立,這個基本假設與語音識別任務之間存在
    的頭像 發表于 03-10 22:00 ?489次閱讀

    重塑翻譯與識別技術:開源語音識別模型Whisper的編譯優化與部署

    模型介紹Whisper模型是一個由OpenAI團隊開發的通用語音識別模型。它的訓練基于大量不同的音頻數據集,是一個多
    的頭像 發表于 01-06 08:33 ?3840次閱讀
    重塑翻譯與<b class='flag-5'>識別</b>技術:開源<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>模型</b>Whisper的編譯優化與部署

    語音數據集:智能駕駛車內語音識別技術的基石

    的發展趨勢。 二、語音數據集在智能駕駛的應用 訓練與優化:高質量的語音數據集是訓練和優化語音識別模型
    的頭像 發表于 01-31 16:07 ?607次閱讀

    Transformer模型語音識別語音生成的應用優勢

    自然語言處理、語音識別語音生成等多個領域展現出強大的潛力和廣泛的應用前景。本文將從Transformer模型的基本原理出發,深入探討其在語音
    的頭像 發表于 07-03 18:24 ?1324次閱讀

    語音識別技術的應用與發展

    語音識別技術的發展可以追溯到20世紀50年代,但直到近年來,隨著計算能力的提升和機器學習技術的進步,這項技術才真正成熟并廣泛應用于各個領域。語音
    的頭像 發表于 11-26 09:20 ?764次閱讀
    主站蜘蛛池模板: 天天干天天操天天碰 | 美女黄18以下禁止观看的网站 | 精品午夜久久福利大片免费 | 四虎在线永久免费视频网站 | 成人在线一区二区 | 成人网18免费下 | 影音先锋午夜资源网站 | 4hu影院在线观看 | 午夜视频在线观看www中文 | 亚洲一二三四区 | 最近的中文字幕免费动漫视频 | 色午夜在线 | 亚洲电影一区二区三区 | 色多多视频在线 | 热久久最新地址 | 色日韩在线 | 性国产精品| 久久综合九色综合97_ 久久久 | 好爽好深太大了再快一点 | 日本一区二区三区不卡在线视频 | 人人九九精| 色系视频在线观看免费观看 | 你懂的在线看 | 色欲香天天天综合网站 | 看视频免费网站 | 日产精品卡二卡三卡四卡乱码视频 | 一区二区不卡视频 | 男男扒开后菊惩罚 | 国产精品天天影视久久综合网 | 天天爱天天操 | 天天天天天天操 | bt种子在线搜索 | 视频在线免费观看 | 女人本色高清在线观看wwwwww国产 | 在线视频图片小说 | 美女被网站免费看九色视频 | 亚洲另类激情综合偷自拍 | 日本精品一卡二卡≡卡四卡 | 欧美日韩国产一区 | 国模大尺度在线 | 狠狠色噜噜狠狠狠狠米奇777 |