完结小说排行榜,已完结小说排行榜,网络小说排行榜

浙江大學(xué)和網(wǎng)易伏羲AI實(shí)驗(yàn)室的研究人員開(kāi)發(fā)出一個(gè)端到端的機(jī)器學(xué)習(xí)系統(tǒng)Audio2Face，可以從音頻中單獨(dú)生成實(shí)時(shí)面部動(dòng)畫，同時(shí)考慮到音高和說(shuō)話風(fēng)格。

我們都知道動(dòng)畫里的人物說(shuō)話聲音都是由后期配音演員合成的。

但即使利用CrazyTalk這樣的軟件，也很難將電腦生成的嘴唇、嘴型等與配音演員進(jìn)行很好地匹配，尤其是當(dāng)對(duì)話時(shí)長(zhǎng)在數(shù)十甚至數(shù)百小時(shí)的情況下。

但不要?dú)怵H，動(dòng)畫師的福音來(lái)了——Audio2Face問(wèn)世！

Audio2Face是一款端到端的機(jī)器學(xué)習(xí)系統(tǒng)，由浙江大學(xué)與網(wǎng)易伏羲AI實(shí)驗(yàn)室共同打造。

它可以從音頻中單獨(dú)生成實(shí)時(shí)的面部動(dòng)畫，更厲害的是，它還能調(diào)節(jié)音調(diào)和說(shuō)話風(fēng)格。該成果已經(jīng)發(fā)布至arXiv：

arXiv地址：

https://arxiv.org/pdf/1905.11142.pdf

團(tuán)隊(duì)試圖構(gòu)建一個(gè)系統(tǒng)，既要逼真又要低延遲

“我們的方法完全是基于音軌設(shè)計(jì)的，沒(méi)有任何其他輔助輸入（例如圖像），這就使得當(dāng)我們?cè)噲D從聲音序列中回歸視覺(jué)空間的過(guò)程將會(huì)越來(lái)越具有挑戰(zhàn)。”論文共同作者解釋道，“另一個(gè)挑戰(zhàn)是面部活動(dòng)涉及臉部幾何表面上相關(guān)區(qū)域的多重激活，這使得很難產(chǎn)生逼真且一致的面部變形。”

該團(tuán)隊(duì)試圖構(gòu)建一個(gè)同時(shí)滿足“逼真”（生成的動(dòng)畫必須反映可見(jiàn)語(yǔ)音運(yùn)動(dòng)中的說(shuō)話模式）和低延遲（系統(tǒng)必須能夠進(jìn)行近乎實(shí)時(shí)的動(dòng)畫）要求的系統(tǒng)。他們還嘗試將其推廣，以便可以將生成的動(dòng)畫重新定位到其他3D角色。

他們的方法包括從原始輸入音頻中提取手工制作的高級(jí)聲學(xué)特征，特別是梅爾頻率倒譜系數(shù)（MFC），或聲音的短期功率譜的表示。然后深度相機(jī)與mocap工具Faceshift一起，捕捉配音演員的面部動(dòng)作并編制訓(xùn)練集。

深度相機(jī)示意圖

之后研究人員構(gòu)建了帶有51個(gè)參數(shù)的3D卡通人臉模型，控制了臉部的不同部位（例如，眉毛，眼睛，嘴唇和下巴）。最后，他們利用上述AI系統(tǒng)將音頻上下文映射到參數(shù)，產(chǎn)生唇部和面部動(dòng)作。

1470個(gè)音頻樣本加持，機(jī)器學(xué)習(xí)模型的輸出“相當(dāng)可以”

團(tuán)隊(duì)使用一個(gè)訓(xùn)練語(yǔ)料庫(kù)，其中包含兩個(gè)60分鐘、每秒30幀的女性和男性演員逐行閱讀劇本中臺(tái)詞的視頻，以及每個(gè)相應(yīng)視頻幀的1470個(gè)音頻樣本（每幀總共2496個(gè)維度）。

團(tuán)隊(duì)報(bào)告說(shuō)，與ground truth相比，機(jī)器學(xué)習(xí)模型的輸出“相當(dāng)可以”。它設(shè)法在測(cè)試音頻上重現(xiàn)準(zhǔn)確的面部形狀，并且它一直“很好地”重新定位到不同的角色。此外，AI系統(tǒng)平均只需0.68毫秒即可從給定的音頻窗口中提取特征。

該團(tuán)隊(duì)指出，AI無(wú)法跟隨演員的眨眼模式，主要是因?yàn)檎Ｑ叟c言語(yǔ)的相關(guān)性非常弱。不過(guò)從廣義上講，該框架可能為適應(yīng)性強(qiáng)、可擴(kuò)展的音頻到面部動(dòng)畫技術(shù)奠定基礎(chǔ)，這些技術(shù)幾乎適用于所有說(shuō)話人和語(yǔ)言。

“評(píng)估結(jié)果顯示，我們的方法不僅可以從音頻中產(chǎn)生準(zhǔn)確的唇部運(yùn)動(dòng)，還可以成功地消除說(shuō)話人隨時(shí)間變化的面部動(dòng)作，”他們寫道。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

3D

3D

+關(guān)注

關(guān)注
9

文章
2955

瀏覽量
110421
音頻

音頻

+關(guān)注

關(guān)注
29

文章
3030

瀏覽量
83199
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8499

瀏覽量
134295