近日, 臉書(shū)的研究人員成功克隆了微軟總裁比爾·蓋茨的聲音。
臉書(shū)人工智能研究中心的肖恩·瓦斯奎茲(Sean Vasquez)和邁克·劉易斯(Mike Lewis)于本周表示,他們已經(jīng)努力模仿人類(lèi)語(yǔ)言有一段時(shí)間了。然而,模仿人類(lèi)語(yǔ)言顯然是件難事,當(dāng)人們聽(tīng)到斯蒂芬·霍金所使用的那套最著名的說(shuō)話機(jī)器發(fā)聲時(shí),會(huì)發(fā)現(xiàn)它聽(tīng)起來(lái)仍然很不像人類(lèi)。
但是現(xiàn)在,研究員們似乎已經(jīng)取得了進(jìn)展。如果你聽(tīng)了蓋茨的克隆所發(fā)出的聲音,我想你是會(huì)同意的。因?yàn)樗?tīng)起來(lái)很像比爾·蓋茨,你甚至很難分辨出它和他真實(shí)聲音的區(qū)別。
研究人員展示了他們的研究。在這里,機(jī)器模仿著蓋茨的腔調(diào)發(fā)聲,“請(qǐng)給你珍愛(ài)的朋友發(fā)一封充滿愛(ài)意的短信。”其中最不可思議的是,這臺(tái)機(jī)器在說(shuō)“珍愛(ài)(cherish)”時(shí),準(zhǔn)確無(wú)誤地捕捉到蓋茨不斷上升的語(yǔ)調(diào)變化的。
這項(xiàng)技術(shù)被稱(chēng)為MelNet,可以用來(lái)復(fù)制人類(lèi)的語(yǔ)調(diào)。到目前為止,蓋茨和其他許多人的聲音都被它完美地再現(xiàn)了。瓦斯奎茲和劉易斯說(shuō),克隆的音頻取自各類(lèi)Ted演講。
兩位研究人員還表示,直到最近,文本到語(yǔ)音轉(zhuǎn)換軟件還不能很好地工作的原因是它使用了波形圖記錄聲音。這些圖顯示了聲音在幾秒鐘內(nèi)的音階變化。如果你聽(tīng)到過(guò)蓋茨說(shuō)“珍愛(ài)”這個(gè)詞,就知道他的語(yǔ)氣是變化劇烈的。在試圖模仿一個(gè)人的時(shí)候,深度學(xué)習(xí)機(jī)器必須預(yù)測(cè)到所有這些細(xì)微的變化,這很不容易。
瓦斯奎茲和劉易斯說(shuō),他們通過(guò)使用一種叫做光譜圖的東西來(lái)訓(xùn)練機(jī)器,成功地克隆了聲音。
研究人員說(shuō):“光譜圖的時(shí)間軸比波形圖的時(shí)間軸緊湊幾個(gè)數(shù)量級(jí),這意味著在波形中跨越數(shù)萬(wàn)個(gè)時(shí)間步長(zhǎng)的依賴(lài)關(guān)系在光譜圖中只跨越數(shù)百個(gè)時(shí)間步長(zhǎng)。這使得我們的光譜圖模型能夠在數(shù)秒內(nèi)記錄各種語(yǔ)音和音樂(lè)樣本,并保持它們一致性。”
不過(guò),他們也經(jīng)歷了一些挫折。研究小組表示,對(duì)他們來(lái)說(shuō),幾乎完美地復(fù)制一個(gè)句子并不難,難的是復(fù)制那些在長(zhǎng)達(dá)幾十秒或幾分鐘的時(shí)間里,顯示了情緒變化的復(fù)雜語(yǔ)調(diào)”。盡管如此,當(dāng)涉及到人機(jī)交互時(shí),研究小組說(shuō),在只涉及簡(jiǎn)短對(duì)話的情境中,這項(xiàng)技術(shù)可能會(huì)帶來(lái)革命性的變化。
-
AI
+關(guān)注
關(guān)注
87文章
31077瀏覽量
269411 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8424瀏覽量
132761 -
智能語(yǔ)音
+關(guān)注
關(guān)注
10文章
786瀏覽量
48810
原文標(biāo)題:AI精確復(fù)制聲音, 真假“比爾·蓋茨”難辨
文章出處:【微信號(hào):smartman163,微信公眾號(hào):網(wǎng)易智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
PW系列工控電腦復(fù)制機(jī):效率與精度雙重提升
![PW系列工控電腦<b class='flag-5'>復(fù)制</b>機(jī):效率與精度雙重提升](https://file1.elecfans.com/web2/M00/0C/E9/wKgaomc9m3aATv3iAASn0ef0iWg290.png)
友思特“未來(lái)視界”趣味實(shí)驗(yàn)室 第2講:中草藥的高光譜成像
![友思特“未來(lái)視界”趣味實(shí)驗(yàn)室 第2講:中草藥的高光譜成像](https://file1.elecfans.com/web2/M00/09/00/wKgaomb08VWAe1ATAAD1lFsN7dc159.png)
如何搭建一個(gè)電流鏡電路,用于復(fù)制SiPM的電流?
三星電容代理商怎么辨別真假呢?
如何實(shí)現(xiàn)Python復(fù)制文件操作
國(guó)科微AI首席科學(xué)家邢國(guó)良:打造全系邊端AI芯片,賦能下一代自動(dòng)駕駛
![國(guó)科微<b class='flag-5'>AI</b>首席科學(xué)家邢國(guó)良:打造全系邊端<b class='flag-5'>AI</b>芯片,賦能下一代自動(dòng)駕駛](https://file1.elecfans.com//web2/M00/FA/2D/wKgZomaMsBCACxtcABGh23WJg4k394.png)
如何利用生成式人工智能進(jìn)行精確編碼
比爾·蓋茨展望AI:耳機(jī)與智能眼鏡引領(lǐng)人機(jī)交互新紀(jì)元
比爾·蓋茨展望AI未來(lái):從AI顧問(wèn)到深度智能體的演變
聲音測(cè)量的定義和典型應(yīng)用
![<b class='flag-5'>聲音</b>測(cè)量的定義和典型應(yīng)用](https://file.elecfans.com/web2/M00/9F/D9/poYBAGQ9752APSjeAAAYI1VgEtY574.png)
評(píng)論