Google 的研究人員創(chuàng)建了一個(gè)視聽模型,可以通過算法將視頻中的多個(gè)聲音分離,得到一個(gè)清晰的單個(gè)語音。
一位二次元朋友說他有一種能力,就是在 B 站開彈幕看視頻時(shí),想看視頻就看視頻,想看彈幕就看彈幕,兩者可以自動(dòng)分離,不會(huì)互相干擾。類似的,人類在聽覺上也有一種選擇能力,就是人在集中注意力聽某個(gè)聲音時(shí),可以自動(dòng)忽略其他聲音或噪音,感覺像是把要聽的聲音放大了一樣,這種現(xiàn)象叫做雞尾酒會(huì)效應(yīng)。
這種能力對(duì)我們來說好像很自然,但對(duì)于計(jì)算機(jī)可是個(gè)不小的挑戰(zhàn)。最近,Google 的研究人員創(chuàng)建了一個(gè)視聽模型,可以通過算法將視頻中的多個(gè)聲音分離,得到一個(gè)清晰的單個(gè)語音。簡單來說,你可以選擇只聽視頻中某個(gè)人講話的聲音,而不用擔(dān)心被干擾。
結(jié)合視覺聽覺信號(hào),識(shí)別并分離音軌
利用這種技術(shù)制作的視頻可以將特定人物的聲音增強(qiáng),把其他無關(guān)的聲音去掉。在普通的單音軌視頻中,用戶可以點(diǎn)擊自己想關(guān)注的人物,或者算法會(huì)結(jié)合上下段內(nèi)容來自動(dòng)選擇突出誰的聲音。這項(xiàng)技術(shù)可以用于增強(qiáng)視頻中的語音,提高視聽效果。
這項(xiàng)技術(shù)的原理是結(jié)合視頻中的聽覺和視覺信號(hào),以此來識(shí)別并分離語音。就像識(shí)別唇語的原理一樣,一個(gè)人說話時(shí)發(fā)出的聲音和他嘴部的運(yùn)動(dòng)存在某種關(guān)聯(lián),所以可以利用這一點(diǎn),來辨別某段聲音是誰發(fā)出的。在視覺信號(hào)的幫助下,即使是在多種聲音混雜的環(huán)境中,單個(gè)聲音的特征也變得更明顯,更重要的是,你還可以在聽到清晰聲音的同時(shí)看到人嘴部的運(yùn)動(dòng),更容易接收并理解信息。
研究人員用 10 萬個(gè)高質(zhì)量的 YouTube 視頻為樣本,從視頻中提取清晰的演講片段,沒有背景音樂、沒有觀眾鼓掌、沒有噪音,并且視頻中只有一個(gè)說話的人。他們共提取出 2000 個(gè)小時(shí)的訓(xùn)練數(shù)據(jù),用這些干凈的視頻來合成“雞尾酒會(huì)”的效果。這樣就可以訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,將合成的視頻分離出多個(gè)單獨(dú)的音軌,也就是每個(gè)人單獨(dú)的聲音。將每一幀中嘴部運(yùn)動(dòng)的視覺信息提取出來,然后找到聲譜圖中對(duì)應(yīng)的部分。這樣就可以訓(xùn)練神經(jīng)網(wǎng)絡(luò),從聲音混雜的視頻中,根據(jù)人的嘴部運(yùn)動(dòng)來提取對(duì)應(yīng)的聲音碎片,最后輸出成具有單獨(dú)聲音軌道的視頻,每一個(gè)人的聲音都可以進(jìn)行單獨(dú)播放。
可以提高語音識(shí)別能力
這個(gè)黑科技在語音識(shí)別中尤其有用,比如 YouTube 自己的自動(dòng)字幕,如果視頻中有多種聲音混合,字幕就很難準(zhǔn)確顯示,而如果這幾種聲音能夠單獨(dú)分離播放,對(duì)應(yīng)的字幕也就更準(zhǔn)確,用戶也更容易理解。再往遠(yuǎn)處想,這項(xiàng)技術(shù)可以運(yùn)用到 Google Glass 這樣的智能眼鏡中,即使是在紛雜世界,你也可以只關(guān)注想關(guān)注的人,只聽 Ta 的聲音。除此之外,帶視頻能力的智能音箱可能是未來的大趨勢(shì),有了語音分離能力,語音識(shí)別的能力也會(huì)更精準(zhǔn)、更強(qiáng)大。
這種強(qiáng)大的能力也可能帶來隱私問題,比如間諜電影中經(jīng)常見到的天眼系統(tǒng),如果再搭配語音分離的能力,豈不是可以做到視聽上的全能?不過想達(dá)到那樣的效果,識(shí)別能力就要很精準(zhǔn)了。在此之前它的應(yīng)用可能只是 Google 自己的產(chǎn)品,比如增強(qiáng)視頻智能音箱的語音識(shí)別能力,還有讓 YouTube 的自動(dòng)字幕更智能。
-
Google
+關(guān)注
關(guān)注
5文章
1789瀏覽量
58988 -
谷歌
+關(guān)注
關(guān)注
27文章
6231瀏覽量
108102
發(fā)布評(píng)論請(qǐng)先 登錄
無刷直流電機(jī)雙閉環(huán)串級(jí)控制系統(tǒng)仿真研究
NVIDIA助力研究人員開發(fā)用于搜救任務(wù)的無人地面車輛
Google Fast Pair服務(wù)簡介
研究人員開發(fā)出基于NVIDIA技術(shù)的AI模型用于檢測瘧疾
虹科直播 | 現(xiàn)場實(shí)測!如何準(zhǔn)確識(shí)別你想修的聲音?這份進(jìn)階秘籍別錯(cuò)過!

研究人員利用激光束開創(chuàng)量子計(jì)算新局面

評(píng)論