在語(yǔ)音識(shí)別領(lǐng)域先進(jìn)的神經(jīng)網(wǎng)絡(luò)一般使用rnn來(lái)構(gòu)建聲學(xué)或者語(yǔ)言模型,并基于特征抽取的方式來(lái)進(jìn)行抽取梅爾濾波器特征或者倒譜系數(shù)。但在最近的研究工作中,F(xiàn)acebook的研究人員提出了完全基于卷積神經(jīng)網(wǎng)絡(luò)的全卷積語(yǔ)音識(shí)別模型,充分利用了在聲學(xué)模型和語(yǔ)言模型方面的最新進(jìn)展。這一全卷積神經(jīng)網(wǎng)絡(luò)通過端到端的訓(xùn)練可以直接從原始波形預(yù)測(cè)出語(yǔ)言字符,移除了特征抽取的過程。同時(shí)利用一個(gè)外部的卷積語(yǔ)言模型來(lái)進(jìn)行單詞解碼。這一模型在多個(gè)數(shù)據(jù)集上都取得了優(yōu)異的表現(xiàn)。
模型
整個(gè)模型由四部分組成,分別是卷積前端、聲學(xué)模型、語(yǔ)言模型和集束搜索的解碼器(Beam-search)組成,如下圖所示。
在可學(xué)習(xí)的前端中,原始音頻首先輸入到一個(gè)寬度為2的卷積中,用于模仿梅爾濾波器特征中的前處理步驟。隨后應(yīng)用了寬度為25ms的k復(fù)卷積濾波器。隨后利用平方取絕對(duì)值并通過低通濾波器,其寬度為25ms步長(zhǎng)為10ms。最后利用對(duì)數(shù)壓縮,并對(duì)每個(gè)通道進(jìn)行了均方歸一化。緊隨其后的是聲學(xué)模型,包含了線性門的卷積神經(jīng)網(wǎng)絡(luò),同時(shí)使用了dropout來(lái)實(shí)現(xiàn)正則化。這一模型的目的在于直接預(yù)測(cè)出字母。在隨后的語(yǔ)言模型中,研究人員利用了GCNN-14B,其中包含了14個(gè)卷積殘差模塊和逐漸增長(zhǎng)的通道數(shù),并利用了線性門控單元作為激活函數(shù)。語(yǔ)言模型的主要目的在于為備選的句子輸出打分,這一模型允許更大的上下文。最后,基于集束搜索的解碼器用于生成最合適的句子輸出。
其工作的過程在于最大化上面的表達(dá)式。
工具
這一模型的實(shí)現(xiàn)使用了Facebook最新開源的兩個(gè)工具:其中使用了wav2letter建立聲學(xué)模型,fairseq建立了語(yǔ)言模型。
fairseq 原理圖
同時(shí)推出的升級(jí)版深度學(xué)習(xí)自動(dòng)語(yǔ)音識(shí)別工具框架wav2letter++,在之前wav2letter的基礎(chǔ)上進(jìn)行和很多的改進(jìn)和優(yōu)化。
wav2letter++ 工具包架構(gòu)
這一版的工具箱由C++實(shí)現(xiàn),并利用了ArrayFire張量庫(kù)來(lái)提高了運(yùn)算效率。研究團(tuán)隊(duì)表示,在某些情況下wav2letter++在訓(xùn)練端到端的語(yǔ)音識(shí)別神經(jīng)網(wǎng)絡(luò)時(shí)將提速2倍。
wav2letter++ 與其他語(yǔ)言工具的性能比較
端到端的語(yǔ)音識(shí)別使得其在多語(yǔ)言上的大規(guī)模應(yīng)用變得可行。同時(shí)直接從原始音頻上進(jìn)行學(xué)習(xí)可以充分發(fā)揮高質(zhì)量音頻的效果。端到端的算法加上高效的工具框架,將有效促進(jìn)這一領(lǐng)域的研究,希望全卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別和wav2letter工具為小伙伴們的研究帶來(lái)新的幫助。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4812瀏覽量
103180 -
Facebook
+關(guān)注
關(guān)注
3文章
1432瀏覽量
56427 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5557瀏覽量
122628
原文標(biāo)題:新模型、新工具,F(xiàn)acebook在語(yǔ)音識(shí)別領(lǐng)域的新動(dòng)作!
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論