在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

簡述大數據的半監督聲學模型訓練操作方法

云知聲 ? 來源:djl ? 作者:云知聲 ? 2019-08-09 09:47 ? 次閱讀

以下研究成果來自“云知聲—上海師范大學自然人機交互聯合實驗室”。

目前,深度學習已經在機器學習應用的各個領域取得了非常出色的表現,其成功在很大程度上取決于大數據和與之匹配的計算能力。深度學習的特性決定了它需要很多的數據進行學習,從而得出模型來完成特定任務,比如,大詞匯量連續語音識別上的成功就取決于海量的用于聲學模型(acoustic model, AM) 訓練的帶標注的語料庫,借助GPU集群,使得深度學習算法和數據得到高效完美的結合,從而帶來了語音識別性能的顯著提升,也推動了語音識別技術的實際產品落地。

通常,我們把需要在大量帶標注的語料庫上進行的聲學模型訓練稱為“有監督的AM訓練”。然而,眾所周知,用人工來標注大量的數據來訓練語音識別系統的代價非常大,需要耗費大量的人力和財力,同時還伴隨著高昂的時間成本,繁瑣的校驗流程。因此,無監督或半監督AM訓練成為當前語音識別的研究前沿和熱點。下面借用頂級語音專家、騰訊AI Lab杰出科學家俞棟老師的話(頂級語音專家、MSR首席研究員俞棟:語音識別的四大前沿研究)簡單科普一下有監督,半監督和無監督學習的區別。

“有監督學習是比較 well-defined,有比較明確的任務。目前來講,深度學習對這一類問題效果比較好。無監督學習的目的是要尋找數據中的潛在規律。很多情況下,它試圖尋找某種特征變換和相對應的生成模型來表達原始數據。但無監督學習不僅本身困難,對無監督學習系統的評價也很難。原因是通過無監督學習找到的規律不一定對你將來的任務有幫助,或者它對某一任務有幫助,換一個任務就沒有幫助了。半監督學習介于兩者中間。因為你已經有一部分標注信息了,所以你的任務是明確的,不存在不知如何評估的問題?!?/p>

目前,在語音識別的聲學模型無監督學習方面,工業界和學術界的想法都不少,但尚未有成功的案列。我們知道,在有大量標注數據集的前提下,最新的有監督模型總是表現得比無監督訓練模型更好。但鑒于有監督模型訓練所需的高昂成本,因此,如何充分利用少量的帶標注數據來挖掘大量無標注數據中的有用信息的半監督AM學習受到研究者的關注。

下面是我們在借鑒傳統語音識別半監督AM訓練算法的基礎上,提出的半監督AM學習方案:

簡述大數據的半監督聲學模型訓練操作方法

圖1. Unisound半監督AM學習架構圖

傳統的半監督AM學習大多是基于GMM-HMM的self-training的學習方式, 即用來對無標注數據進行解碼的種子模型與目標模型相同。自深度學習成功引入到語音識別中以來,雖然也出現了其他算法,但目前仍然以self-training思想為主流。然而,我們知道,通過self-training方式獲得的可用無標注數據容易存在與訓練種子模型(seed model) 的人工標注數據“同質”的問題,最終通過這種半監督方式訓練的AM獲得的收益遠遠低于我們的預期。另外,由于訓練數據量的大大增加,使得AM訓練時所需的計算資源也相應增加。

因此,如圖1所示,我們提出采用多種子模型并行解碼的策略,這種策略可充分挖據海量無監督數據中的有用信息,在很大程度上避免self-training方法帶來的數據同質問題。由于各種子模型采用不同的聲學模型結構,且所用種子模型的結構與最后半監督的AM結構也不同,這些種子模型能從多個不同角度學習到海量無標注數據的特性,從而使得從無標注數據中挑選出來的可用數據與人工標注數據之間存在很強的互補特性,最終體現在半監督AM模型性能上。如最終AM結構為CNN+LSTM+DNN (convolutional, long short-term memory, deep neural network) 的級聯結構,那么種子模型可選用TDNN (time delay neural network), E2E (end-to-end system), DNN-HMM (deep neural network, hidden Markov model), RNN-BLSTM (recurrent neural network with bidirectional long short-term memory) 的聲學模型結構。

通過種子模型對無標注數據解碼獲得標注后,如何從這些海量數據中挑選出有用的數據一直是半監督AM學習中的一個難題。我們除了在語音幀層面采用多種子模型解碼結果投票策略之外,還在多種子模型解碼lattice層面進行了confidence calibration,以在自動標注質量(ASR decoding結果) 和數據的有用性(informative)方面取得好的平衡為目標函數進行自動數據挑選(data filtering)。

另外,我們在大量實驗中發現,海量的無標注語音數據中,不同來源的數據都有其自身的音頻屬性,比如帶口音,低信噪比,合成語音等等,不同屬性的音頻添加到AM模型訓練數據集中會嚴重影響最終AM特性,從而影響其在不同測試集合上的泛化能力。因此,我們提出通過在無標注數據集上設計合適開發集(development data),結合多種子模型并行解碼的策略來自動獲取無監督音頻數據的屬性(unlabeled data properties), 然后將這些音頻屬性作為“正則化項”加入到最終聲學模型訓練的目標函數中,有效指導最終AM的訓練。

采用如圖1的半監督AM學習架構,我們在大詞匯量中英文混合連續語音識別任務上,當人工標注語音數據量為1000小時,通過我們的半監督學習方法從無標注語音中挑選出1000小時加入到人工標注訓練數據集合中,實驗結果表明,在測試集合上能獲得15% 的字/詞錯誤率(word error rate, WER)的相對降低。當人工標注語音數據量增加到數萬小時時,加入我們半監督AM學習方法挑出的大量語音后,WER仍然有約5% 的相對降低。

特別值得一提的是,我們針對各種訓練集合和測試集合做過大量實驗,發現若通過半監督學習獲取的大量無標注數據的音頻屬性與測試集合接近,那么最終訓練出的AM在該測試集合上就能取得非常大的收益,相比整體測試集上 5% 的相對 WER 降低,在車載導航和音樂相關的測試集合上能夠獲取12% 左右的相對WER降低。這間接說明了無標注數據音頻屬性的重要性,同時也說明,在無標注數據屬性指導下的半監督學習方法能通過靈活調整其目標函數的正則化項來達到我們的預期目標,使得訓練出來的AM能靈活適應于各種不同的應用場合。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    38

    文章

    1751

    瀏覽量

    113080
  • 人工智能
    +關注

    關注

    1799

    文章

    47959

    瀏覽量

    241221
  • 大數據
    +關注

    關注

    64

    文章

    8918

    瀏覽量

    137981
收藏 人收藏

    評論

    相關推薦

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    大語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對預訓練數據的需求也相
    發表于 05-07 17:10

    簡述二氧化硫試驗機的操作方法

      原文來源:簡述二氧化硫試驗機的操作方法 小編:林頻儀器  二氧化硫試驗機是利用二氧化硫氣體對材料或是產品進行加速腐蝕試驗的設備,能夠重現材料或產品在一定時間范圍內遭受到的破壞程度。該設備可以用
    發表于 09-05 16:11

    Pytorch模型訓練實用PDF教程【中文】

    本教程以實際應用、工程開發為目的,著重介紹模型訓練過程中遇到的實際問題和方法。在機器學習模型開發中,主要涉及三大部分,分別是數據、
    發表于 12-21 09:18

    RK3288的GPIO操作方法是什么

    GPIO寄存器的操作方法有哪幾種呢?RK3288的GPIO操作方法是什么?
    發表于 03-09 07:38

    基于聲學分段模型的無監督語音樣例檢測

    基于聲學分段模型的無監督語音樣例檢測_李勃昊
    發表于 01-07 16:24 ?0次下載

    監督極限學習機分類模型

    數據集中包含的訓練信息不充分時,監督的極限學習機較難應用,因此將監督學習應用到極限學習機,提出一種
    發表于 12-23 11:24 ?0次下載

    基于監督學習框架的識別算法

    問題,對半監督學習中的協同訓練算法進行改進,提出了一種基于多學習器協同訓練模型的人體行為識別方法.這是一種基于
    發表于 01-21 10:41 ?1次下載

    如何約束監督分類方法的詳細資料概述

    假設聯合成對約束監督分類方法( ACA-JPC-S3VM)。一方面,它將單個未標記樣本到數據分布邊界的距離融入到模型的學習中,能夠一定程度
    發表于 11-15 11:32 ?4次下載
    如何約束<b class='flag-5'>半</b><b class='flag-5'>監督</b>分類<b class='flag-5'>方法</b>的詳細資料概述

    電子測力計的操作方法

    電子測力計正確操作方法
    發表于 04-17 15:57 ?2663次閱讀

    最基礎的監督學習

    標記數據訓練監督學習技術得到更好的結果。這是監督學習系列文章的第1部分,對這個機器學習的重要子領域進行了簡要的介紹。 區分
    的頭像 發表于 11-02 16:08 ?2729次閱讀

    監督學習最基礎的3個概念

    有趣的方法,用來解決機器學習中缺少標簽數據的問題。SSL利用未標記的數據和標記的數據集來學習任務。SSL的目標是得到比單獨使用標記數據
    的頭像 發表于 11-02 16:14 ?3064次閱讀
    <b class='flag-5'>半</b><b class='flag-5'>監督</b>學習最基礎的3個概念

    基于主動學習的監督圖神經網絡模型來對分子性質進行預測方法

    總體來講,本文使用教師模型和學生模型來迭代訓練。每個模型都是一個圖神經網絡。在教師模型中,使用
    的頭像 發表于 11-24 09:59 ?4211次閱讀

    基于特征組分層和監督學習的鼠標軌跡識別方法

    傳統時間序列分類方法存在鼠標軌跡特征挖掘不充分、數據不平衡與標記樣本量少等問題,造成識別效果較差。結合特征組分層和監督學習,提出一種鼠標軌跡識別
    發表于 05-13 15:41 ?9次下載

    AD18操作方法

    AD18操作方法
    發表于 03-28 15:04 ?0次下載

    基礎模型監督訓練數據之謎:大量數據究竟是福還是禍?

    大型語言模型如 ChatGPT 的成功彰顯了海量數據在捕捉語言模式和知識方面的巨大潛力,這也推動了基于大量數據的視覺模型研究。在計算視覺領域,標注
    的頭像 發表于 07-24 16:55 ?614次閱讀
    基礎<b class='flag-5'>模型</b>自<b class='flag-5'>監督</b>預<b class='flag-5'>訓練</b>的<b class='flag-5'>數據</b>之謎:大量<b class='flag-5'>數據</b>究竟是福還是禍?
    主站蜘蛛池模板: 欧美性猛| 欧美一级三级在线观看 | 国产激情视频一区二区三区 | 亚洲香蕉久久一区二区三区四区 | 韩国三级床戏合集 | 久久久久久噜噜噜久久久精品 | 六月婷婷网 | 成人欧美精品久久久久影院 | 国产精品护士 | 国产精品主播在线 | 69xxxⅹxxxxxx日本 | 国模张文静啪啪私拍337p | 色网站免费视频 | 黄色免费在线视频 | 黄色天堂 | 久久久五月天 | 激情五月宗合网 | 在线观看你懂的视频 | 国产福利不卡一区二区三区 | 俺去啦网婷婷 | 亚洲香蕉电影 | 成人在线色视频 | 亚洲精品456 | 色综合天天操 | 国产卡一卡2卡三卡免费视频 | 性免费网站 | 国产精品虐乳在线播放 | 五月婷婷激情综合网 | 欧美黄色大全 | aa看片| 久久久久久久国产精品影院 | 九九全国免费视频 | 日本特黄特黄刺激大片免费 | 15—16女人毛片 | 久久久久久91精品色婷婷 | 日本v片免费一区二区三区 日本www.色 日本wwwwww | 午夜dy888理论在线播放 | 国产精品久久福利网站 | 色播六月 | 天天舔天天干天天操 | 黄在线观看在线播放720p |