40年前,英國(guó)科幻作家Douglas Adams在他的《銀河系漫游指南》中這樣描述巴別魚(bable fish):迷你黃色生物,水蛭狀,以聲音中的語言概念為食,消化后排出跟寄主同頻的腦波。只要塞到耳朵里去,就可以聽懂各種語言。
而在這個(gè)充滿嬉皮風(fēng)格的科幻作品中,來自地球的Arthur Dent也因?yàn)檫@條丑陋的魚,能夠完美地理解并與他遇到的各種外星種族交流。
自小說誕生,巴別魚便成為了即時(shí)語音翻譯的代名詞。但在當(dāng)時(shí),人類的翻譯技術(shù)距離這一目標(biāo)仍遙不可及。
直到2014年,加拿大蒙特利爾大學(xué)的Kyunghyun Cho、Yoshua Bengio等人發(fā)布了一篇在機(jī)器翻譯領(lǐng)域應(yīng)用神經(jīng)網(wǎng)絡(luò)的論文——Neural Machine Translation by Jointly Learning to Align and Translate。
神經(jīng)網(wǎng)絡(luò)的出現(xiàn),讓優(yōu)質(zhì)高效的機(jī)器翻譯不再遙遙無期。
每次技術(shù)的突破都讓我們離巴別魚更近一步,直到今天,谷歌的發(fā)布了一項(xiàng)新研究Translatotron,這是一種可以實(shí)現(xiàn)端到端的語音轉(zhuǎn)語音的翻譯技術(shù)。該工具放棄了將語音翻譯成文本在返回語音的步驟,可以直接從一種語言轉(zhuǎn)換稱另外一種語言,并同時(shí)保持說話著的語調(diào)和節(jié)奏。
告別Siri,我們先來感受一下翻譯的調(diào)調(diào):
通過結(jié)合揚(yáng)聲器編碼器網(wǎng)絡(luò),使得Translatotron能夠在翻譯的語音中保留原始揚(yáng)聲器的聲音特征,這使得翻譯的語音聽起來更自然,更少刺耳。
更多聲音樣本可以在Translatotron的Google Research的Github頁面上找到。
此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。揚(yáng)聲器編碼器在specker verification任務(wù)上預(yù)先訓(xùn)練,學(xué)習(xí)從簡(jiǎn)短的示例話語對(duì)揚(yáng)聲器特性進(jìn)行編碼。即使內(nèi)容是不同的語言,該編碼上調(diào)節(jié)頻譜圖解碼器也可使得合成具有類似揚(yáng)聲器特性的語音。
Translatotron模型
其實(shí)語音翻譯的端到端模型的早在2016年就開始出現(xiàn)了,當(dāng)時(shí)研究人員證明了使用單個(gè)序列到序列模型進(jìn)行語音到文本翻譯的可行性。
2017年,谷歌研究員們證明了這種端到端模型可以勝過cascade模型。之后又進(jìn)一步改進(jìn)許多端到端語音到文本翻譯模型的方法。
最終在2019年,谷歌的研究員們?cè)赼rXiv發(fā)表Translatotron模型,通過證明單個(gè)序列到序列模型可以直接將語言從一種語言翻譯成另一種語言的語音,而不依賴于任何一種語言的中間文本表示。
Translatotron基于序列到序列網(wǎng)絡(luò)將源光譜圖作為輸入并生成目標(biāo)語言中的翻譯內(nèi)容的光譜圖輸出。它還使用了另外兩個(gè)經(jīng)過單獨(dú)訓(xùn)練的組件:神經(jīng)聲碼器將輸出頻譜圖轉(zhuǎn)換為時(shí)域波形,使用揚(yáng)聲器編碼器來保持合成的翻譯語音中源說話者的語音的特征。
在訓(xùn)練期間,序列到序列模型使用多任務(wù)目標(biāo)來在生成目標(biāo)譜圖的同時(shí)預(yù)測(cè)源和目標(biāo)轉(zhuǎn)錄物。
Translatotron的模型結(jié)構(gòu)
該團(tuán)隊(duì)稱,翻譯的準(zhǔn)確性并不如傳統(tǒng)翻譯系統(tǒng)那么好,傳統(tǒng)系統(tǒng)有更多時(shí)間來磨練其準(zhǔn)確性。但Translatotron是第一個(gè)能夠?qū)⒄Z言從一種語言直接翻譯成另一種語言的語音的端到端模型。他們希望這項(xiàng)工作可以作為未來端到端語音轉(zhuǎn)語音翻譯系統(tǒng)研究的起點(diǎn)。
-
谷歌
+關(guān)注
關(guān)注
27文章
6196瀏覽量
106017 -
語音識(shí)別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112930
原文標(biāo)題:巴別魚雛形,谷歌推出端到端語音翻譯技術(shù),還能模仿你說話
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論