(文章來源:DeepTech)
近年來,隨著深度學習的迅速發展和廣泛的潛在應用,基于計算機視覺的唇讀技術受到越來越多的關注,它在實踐中有許多重要的應用,如輔助語音識別、生物認證、幫助聽障人士等。但是唇讀任務的難度非常高,一個關鍵點是如何有效地獲取唇部的運動信息,同時抵抗由姿勢、光線變化引起的識別困難,講話人的外貌、講話速度變化等干擾因素,此外,如何把唇語圖像特征與詞匯文本進行精確關聯或者區分同音詞也挑戰重重。
來自浙江工業大學、中國科學院智能信息處理重點實驗室以及中國科學院計算技術研究所的研究人員針對這些問題,提出在局部特征層和全局序列層引入互信息約束,以增強唇部視覺特征與語音內容的關系。通過在一些主流數據集上測試,該團隊提出的方法有望同時具有較好的鑒別能力和魯棒性,以實現有效的唇讀。
唇讀領域有一個重要技術分支即詞匯級唇讀,對于該任務,需要用單個單詞標簽對每個輸入視頻進行注釋,盡管在同一視頻中也存在其他單詞,如上圖所示:(a)中的視頻樣本總共包括 29 幀,被注釋為 “ABOUT”,但是單詞“ABOUT” 的實際幀僅包括時間步驟 T=1219 的幀,這個間隔前后的幀分別對應于單詞是 “JUST” 和“TEN”,而不是“ABOUT”。在基于唇語視覺的研究中,我們總是很難劃分一個單詞的確切邊界。
這種特性要求一個好的唇讀模型能夠學習到同一個詞標簽下不同視頻中反映的潛在但一致的特性,從而能夠更多地關注有效的關鍵幀,而較少關注其他無關幀。除了不精確的詞匯邊界挑戰外,對應于同一個詞標簽的視頻樣本總是具有極大的多樣化和外觀變化,如(b)所示,所有這些特性都要求唇讀模型能夠抵抗序列中的噪聲,從而在不同的語音條件下捕獲一致的潛在模式。
同時,由于唇部動作的有效面積有限,不同的詞在說話過程中可能表現出相似的現象。特別是,同音詞的存在,不同的詞看起來可能相同或非常相似,增加了許多額外的困難,這些屬性要求模型能夠發現與幀級別中不同單詞相關的細粒度差異,以便區分每個單詞。為了解決上述問題,研究人員在不同層次上引入了互信息最大化(MIM),以幫助該模型學習魯棒性和區分性表示,從而實現有效的唇讀。
一方面,通過施加局部互信息最大化約束(LMIM)來約束每個時間步產生的特征,使其與語音內容之間具有很強的相關性,從而提高了模型發現精細的嘴唇動作的能力,以及發音相似的單詞之間的細微差別,比如 “spend” 和“spending”;另一方面,引入了全局序列水平上的互信息最大化約束(GMIM),使得模型能夠更加注意區分與語音內容相關的關鍵幀,而且在說話過程中出現的各種噪音也較少。
此外,GMIM 迫使模型學習不同樣本中同一個詞標簽的潛在一致全局模式,同時對姿勢、光照和其他不相關條件的變化具有魯棒性;LMIM 可增強每個時間步與單詞相關的細粒度運動,進一步增強不同單詞之間的差異。通過將這兩類約束結合起來,模型可以自動發現和區分目標詞的有效重要幀,而忽略其他無關幀,進一步提高了識別的精準度。
最后,團隊在兩個大規模的單詞級唇讀數據集 LRW 和 LRW-1000 上與同行提出的主流唇語識別模型方法做了對比評估,這兩個數據集的樣本都是從各種不同的電視節目中收集的,并且演講條件也有很大的變化,涵蓋了包括燈光條件、分辨率、姿勢、性別、化妝等在內的多種說話條件。
LRW 于 2016 年發布,包括 500 個單詞的唇形樣本,1000 多個演講者,訓練集中的實例數達到 488766 個,驗證和測試集中的每個實例數為 25000 個;LRW-1000 數據集則是一個大規模的自然分布的字級基準數據集,總共有 1000 個中文詞匯,總計大約 718018 個樣本實例,持續時間約 57 小時,不過該數據集旨在覆蓋不同語音模式和成像條件下的自然變化,以納入實際應用中遇到的挑戰。
在 LRW 數據集上,引入 LMIM 之后,在基線準確率基礎上提高了約 1.19%,LMIM 有望為主要任務捕獲更具區分性和細粒度的特征,同時引入 GMIM 則把精度提高到了 84.41%,主要得益于其對不同幀的不同關注。
不過,在 LRW-1000 數據集上因其語音條件變化較大,包括燈光條件、分辨率、演講者年齡、姿勢、性別、化妝等,此前行業最佳測試結果僅為 38.19%。在這個數據集上獲得良好的識別效果仍是一個挑戰,新的模型方式獲得了 38.79% 的識別精度,略微優于現有的最新結果。
結果表明,該團隊提出的方法在不使用額外數據或額外的預訓練模型的情況下,在兩個具有挑戰性的數據集上相比其他唇語識別模型,呈現出一種新的實時性能狀態。此外,團隊表示,該方法還可以很容易地修改為其他任務的模型,從而為其他任務的研究提供一些有意義的見解。
(責任編輯:fqj)
-
計算機
+關注
關注
19文章
7549瀏覽量
88707 -
深度學習
+關注
關注
73文章
5516瀏覽量
121594
發布評論請先 登錄
相關推薦
TAS5630B PBTL模式下,將音頻信號幅度提高到1.5倍,后級的功放需不需要提高功率?
計算機存儲系統的構成
晶體管計算機和電子管計算機有什么區別
工業控制計算機的特點 工業控制計算機的應用領域
工業計算機與普通計算機的區別
本源超導量子計算機自主制造鏈11類產品系列之十:中國首套量子計算機應用軟件與解決方案
![本源超導量子<b class='flag-5'>計算機</b>自主制造鏈11類產品系列之十:<b class='flag-5'>中國</b>首套量子<b class='flag-5'>計算機</b>應用軟件與解決方案](https://file.elecfans.com/web2/M00/3F/9D/poYBAGJo-maAOH8MAAIB_hk2Mno583.png)
評論