隨著近年來音視頻生成技術的不斷發展,“虛擬主播”逐漸走入人們視野,并以其在虛擬客服、遠程會議、電影剪輯等現實應用場景中的重要作用而獲得了社會各界的廣泛關注。該技術旨在對輸入的音頻預測相應口型,從而生成指定或任意人物的自然而準確的面部說話視頻。近日,中科院自動化所智能感知與計算研究中心為此提出了一種新穎的音視頻協同計算方法,并重點解決了此前難以達成的任意人物協同生成問題。
該方法一方面實現了利用語音驅動任意對象的高清視頻生成,另一方面在正臉、側臉等多種場景下均顯著提升了生成視頻質量。目前,該成果已被IJCAI 2020大會接收。
由于音視頻模態之間差異性等問題,這項技術目前仍然存在著眾多挑戰。以往的研究方法往往將重點放在了模態內之間,如只關注了視頻幀之間的損失約束,卻忽略了音視頻模態間最重要的問題之一:如何將音頻信息高效充分地表達入視頻模態?同時由于人物與人物之間的個體差異,將同一模型應用于任意人物視頻生成也存在較大的挑戰。
為解決上述問題,團隊精心設計了一個非對稱式互信息估計器(Asymmetric Mutual Information Estimator, AMIE),以構建音視頻模態間的約束。如圖1示,輸入一對音頻與人臉圖像數據,互信息估計器輸出預測的互信息值。在這里,該方法使用Jensen-Shannon表示形式來改善互信息計算方式,使其更好地應用于神經網絡。通過這樣的互信息估計方式,該方法最大化音頻與視頻模態之間的互信息,減少音頻向視頻模態表達的不確定性,并以此獲得音頻和視頻信息之間的跨模態一致性,使得生成視頻中人物的口型更加準確自然。
該方法在LRW和GRID基礎數據集上進行了實驗驗證。圖2中的結果表明該方法生成的口型準確度高,且能夠有效適應不同膚色與嘴唇形狀差異。表1的量化結果顯示該方法在常用的對比指標上的優越性能。
該方法有能力對不存在于數據集中的任意人物進行視頻合成,并能夠有效處理如姿態表情、性別差異等變化因素(見圖3)。例如,輸入一段女性語音(圖中第二行),該方法分別生成了現實場景的同性別人臉視頻(圖中第一行),和跨性別人臉視頻(圖中第三行)。
責任編輯:gt
-
音頻
+關注
關注
29文章
2911瀏覽量
82035 -
神經網絡
+關注
關注
42文章
4785瀏覽量
101273 -
視頻
+關注
關注
6文章
1959瀏覽量
73188
發布評論請先 登錄
相關推薦
優刻得:與DeepSeek模型適配,業績貢獻存不確定性
“國產雙系統”出爐!復旦微FMQL20SM非對稱AMP:Linux + 裸機
![“國產雙系統”出爐!復旦微FMQL20SM<b class='flag-5'>非對稱</b>AMP:Linux + 裸機](https://file1.elecfans.com//web3/M00/07/1F/wKgZO2eTKRmAJnBVAABr2eXO1yk488.png)
“雙系統”出爐!瑞芯微RK3562J非對稱AMP:Linux+RTOS/裸機
計及多重不確定性的規模化電動汽車接入配電網調度方法及解決方案
![計及多重<b class='flag-5'>不確定性</b>的規模化電動汽車接入配電網調度方法及解決方案](https://file1.elecfans.com/web2/M00/07/3B/wKgaombj7H6AcwU8AAvCOy0TPk0414.png)
OPA828運放非對稱電源供電有什么好處嗎?
相對于人工的不確定性,機器人碼垛有何優勢
ETAS推出Time-Triggered Scheduling (TTS)的確定性調度解決方案
![ETAS推出Time-Triggered Scheduling (TTS)的<b class='flag-5'>確定性</b>調度解決方案](https://file1.elecfans.com/web2/M00/DA/73/wKgaomYqGyCAcGHAAAAVp8PIrvw373.png)
什么是嵌入式實時系統的確定性?簡析EDMS中的確定性
![什么是嵌入<b class='flag-5'>式</b>實時系統的<b class='flag-5'>確定性</b>?簡析EDMS中的<b class='flag-5'>確定性</b>](https://file1.elecfans.com/web2/M00/C8/80/wKgZomYcnfiAflQPAAAxzMk9eWg986.png)
海信馬曉龍:堅定長期主義的戰略定力,激發“確定性”增長的內生動力
![海信馬曉龍:堅定長期主義的戰略定力,激發“<b class='flag-5'>確定性</b>”增長的內生動力](https://file1.elecfans.com//web2/M00/C6/26/wKgaomX7q9GAKV6nAACExnq91yg215.jpg)
上海交大科研團隊使用Moku:pro推進在量子光學實驗中的多參數估計
![上海交大科研團隊使用Moku:pro推進在量子光學實驗中的多參數<b class='flag-5'>估計</b>](https://file.elecfans.com/web2/M00/36/5B/poYBAGIyyjeAWyrMAAAjsb7aVFo114.png)
評論