女人书籍排行榜,盗墓笔记第二季,如何发布网络小说

40年前，英國(guó)科幻作家Douglas Ad ams在他的《銀河系漫游指南》中這樣描述巴別魚（bable fish）：迷你黃色生物，水蛭狀，以聲音中的語言概念為食，消化后排出跟寄主同頻的腦波。只要塞到耳朵里去，就可以聽懂各種語言。

而在這個(gè)充滿嬉皮風(fēng)格的科幻作品中，來自地球的Arthur Dent也因?yàn)檫@條丑陋的魚，能夠完美地理解并與他遇到的各種外星種族交流。

自小說誕生，巴別魚便成為了即時(shí)語音翻譯的代名詞。但在當(dāng)時(shí)，人類的翻譯技術(shù)距離這一目標(biāo)仍遙不可及。

直到2014年，加拿大蒙特利爾大學(xué)的Kyunghyun Cho、Yoshua Bengio等人發(fā)布了一篇在機(jī)器翻譯領(lǐng)域應(yīng)用神經(jīng)網(wǎng)絡(luò)的論文——Neural Machine Translation by Jointly Learning to Align and Translate。

神經(jīng)網(wǎng)絡(luò)的出現(xiàn)，讓優(yōu)質(zhì)高效的機(jī)器翻譯不再遙遙無期。

每次技術(shù)的突破都讓我們離巴別魚更近一步，直到今天，谷歌的發(fā)布了一項(xiàng)新研究Translatotron，這是一種可以實(shí)現(xiàn)端到端的語音轉(zhuǎn)語音的翻譯技術(shù)。該工具放棄了將語音翻譯成文本在返回語音的步驟，可以直接從一種語言轉(zhuǎn)換稱另外一種語言，并同時(shí)保持說話著的語調(diào)和節(jié)奏。

告別Siri，我們先來感受一下翻譯的調(diào)調(diào)：

通過結(jié)合揚(yáng)聲器編碼器網(wǎng)絡(luò)，使得Translatotron能夠在翻譯的語音中保留原始揚(yáng)聲器的聲音特征，這使得翻譯的語音聽起來更自然，更少刺耳。

更多聲音樣本可以在Translatotron的Google Research的Github頁面上找到。

此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。揚(yáng)聲器編碼器在specker verification任務(wù)上預(yù)先訓(xùn)練，學(xué)習(xí)從簡(jiǎn)短的示例話語對(duì)揚(yáng)聲器特性進(jìn)行編碼。即使內(nèi)容是不同的語言，該編碼上調(diào)節(jié)頻譜圖解碼器也可使得合成具有類似揚(yáng)聲器特性的語音。

Translatotron模型

其實(shí)語音翻譯的端到端模型的早在2016年就開始出現(xiàn)了，當(dāng)時(shí)研究人員證明了使用單個(gè)序列到序列模型進(jìn)行語音到文本翻譯的可行性。

2017年，谷歌研究員們證明了這種端到端模型可以勝過cascade模型。之后又進(jìn)一步改進(jìn)許多端到端語音到文本翻譯模型的方法。

最終在2019年，谷歌的研究員們?cè)赼rXiv發(fā)表Translatotron模型，通過證明單個(gè)序列到序列模型可以直接將語言從一種語言翻譯成另一種語言的語音，而不依賴于任何一種語言的中間文本表示。

Translatotron基于序列到序列網(wǎng)絡(luò)將源光譜圖作為輸入并生成目標(biāo)語言中的翻譯內(nèi)容的光譜圖輸出。它還使用了另外兩個(gè)經(jīng)過單獨(dú)訓(xùn)練的組件：神經(jīng)聲碼器將輸出頻譜圖轉(zhuǎn)換為時(shí)域波形，使用揚(yáng)聲器編碼器來保持合成的翻譯語音中源說話者的語音的特征。

在訓(xùn)練期間，序列到序列模型使用多任務(wù)目標(biāo)來在生成目標(biāo)譜圖的同時(shí)預(yù)測(cè)源和目標(biāo)轉(zhuǎn)錄物。

Translatotron的模型結(jié)構(gòu)

該團(tuán)隊(duì)稱，翻譯的準(zhǔn)確性并不如傳統(tǒng)翻譯系統(tǒng)那么好，傳統(tǒng)系統(tǒng)有更多時(shí)間來磨練其準(zhǔn)確性。但Translatotron是第一個(gè)能夠?qū)⒄Z言從一種語言直接翻譯成另一種語言的語音的端到端模型。他們希望這項(xiàng)工作可以作為未來端到端語音轉(zhuǎn)語音翻譯系統(tǒng)研究的起點(diǎn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6196

瀏覽量
106017
語音識(shí)別

語音識(shí)別

+關(guān)注

關(guān)注
38

文章
1742

瀏覽量
112930

原文標(biāo)題：巴別魚雛形，谷歌推出端到端語音翻譯技術(shù)，還能模仿你說話

文章出處：【微信號(hào)：BigDataDigest，微信公眾號(hào)：大數(shù)據(jù)文摘】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI助力實(shí)時(shí)翻譯耳機(jī)

你是否曾經(jīng)因?yàn)檎Z言障礙而無法與外國(guó)人順暢交流？或者在旅行中因?yàn)檎Z言不通而錯(cuò)過了一些精彩的經(jīng)歷？現(xiàn)在，隨著AI技術(shù)的發(fā)展，實(shí)時(shí)翻譯耳機(jī)可以幫你輕松解決這些問題。 1 什么是實(shí)時(shí)翻譯耳機(jī) 實(shí)時(shí)翻譯

發(fā)表于 01-24 11:14 ?492次閱讀

端到端自動(dòng)駕駛技術(shù)研究與分析

編者語：「智駕最前沿」微信公眾號(hào)后臺(tái)回復(fù)：C-0450，獲取本文參考報(bào)告：《端到端自動(dòng)駕駛行業(yè)研究報(bào)告》pdf下載方式。自動(dòng)駕駛進(jìn)入2024年，端

發(fā)表于 12-19 13:07 ?317次閱讀

階躍星辰發(fā)布國(guó)內(nèi)首個(gè)千億參數(shù)端到端語音大模型

近日，階躍星辰在官方公眾號(hào)上宣布了一項(xiàng)重大突破——推出Step-1o千億參數(shù)端到端語音大模型。該模型被譽(yù)為“國(guó)內(nèi)首個(gè)千億參數(shù)

發(fā)表于 12-17 13:43 ?307次閱讀

準(zhǔn)確性超Moshi和GLM-4-Voice,端到端語音雙工模型Freeze-Omni

GPT-4o 提供的全雙工語音對(duì)話帶來了一股研究熱潮，目前諸多工作開始研究如何利用 LLM 來實(shí)現(xiàn)端到端的語音

發(fā)表于 12-17 10:21 ?286次閱讀

LLMWorld上線代碼翻譯新工具——問丫·碼語翻譯俠，快來體驗(yàn)！

01. 工具介紹 aicode.llmworld.net 問丫·碼語翻譯俠是一款由LLMWorld新推出的代碼翻譯工具，支持各種語言之間的翻譯，包括計(jì)算機(jī)語言

發(fā)表于 12-09 11:11 ?398次閱讀

爆火的端到端如何加速智駕落地？

編者語：「智駕最前沿」微信公眾號(hào)后臺(tái)回復(fù)：C-0551，獲取本文參考報(bào)告：《智能汽車端到端技術(shù)研究報(bào)告》pdf下載方式。 “端

發(fā)表于 11-26 13:17 ?390次閱讀

Waymo利用谷歌Gemini大模型,研發(fā)端到端自動(dòng)駕駛系統(tǒng)

邁新步，為其機(jī)器人出租車業(yè)務(wù)引入了一種基于谷歌多模態(tài)大語言模型（MLLM）“Gemini”的全新訓(xùn)練模型——“端到端多模態(tài)自動(dòng)駕駛模型”（E

發(fā)表于 10-31 16:55 ?1174次閱讀

智己汽車“端到端”智駕方案推出，老司機(jī)真的會(huì)被取代嗎？

隨著智能駕駛技術(shù)的發(fā)展，行業(yè)已經(jīng)從早期基于簡(jiǎn)單規(guī)則和模塊化邏輯的自動(dòng)駕駛，逐步邁向依托深度學(xué)習(xí)的高復(fù)雜度智能駕駛解決方案，各車企也緊跟潮流，先后宣布了自己的端到端智駕方案。就在近期，智

發(fā)表于 10-30 09:47 ?360次閱讀

端到端讓智駕強(qiáng)者愈強(qiáng)時(shí)代來臨？

編者語：「智駕最前沿」微信公眾號(hào)后臺(tái)回復(fù)： C-0572 ，獲取本文參考報(bào)告：《信達(dá)證券：端到端革命開啟，強(qiáng)者愈強(qiáng)時(shí)時(shí)代即將來臨》pdf下載方式。隨著科技進(jìn)步和汽車技術(shù)的發(fā)展，智能

發(fā)表于 10-24 09:25 ?576次閱讀

端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

ChatGPT對(duì)技術(shù)的影響引發(fā)了對(duì)人工智能未來的預(yù)測(cè)，尤其是多模態(tài)技術(shù)的關(guān)注。OpenAI推出了具有突破性的多模態(tài)模型GPT-4，使各個(gè)領(lǐng)域取得了顯著的發(fā)展。這些AI進(jìn)步是通過大規(guī)模模型訓(xùn)練實(shí)現(xiàn)

發(fā)表于 10-23 11:26 ?553次閱讀

端到端測(cè)試用例怎么寫

編寫端到端測(cè)試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關(guān)鍵步驟。以下是一個(gè)詳細(xì)的指南，介紹如何編寫端到端

發(fā)表于 09-20 10:29 ?570次閱讀

實(shí)現(xiàn)自動(dòng)駕駛，唯有端到端？

，去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕，今年大家的目標(biāo)都瞄到了端到端（End-to-End, E2E）。端到

發(fā)表于 08-12 09:14 ?854次閱讀

DeepL推出新一代翻譯編輯大型語言模型

在人工智能與語言處理領(lǐng)域，DeepL再次以其創(chuàng)新實(shí)力引領(lǐng)潮流，宣布成功推出新一代面向翻譯與編輯應(yīng)用的大型語言模型。這一里程碑式的進(jìn)展，不僅鞏固了DeepL作為頂尖語言人工智能公司的地位，更標(biāo)志著機(jī)器翻譯

發(fā)表于 07-19 15:56 ?740次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)在端到端語音識(shí)別中的應(yīng)用

（Recurrent Neural Networks, RNN）在語音識(shí)別領(lǐng)域的應(yīng)用日益廣泛，特別是在端到端語音識(shí)別系統(tǒng)中，RNN及其變體如

發(fā)表于 07-08 11:09 ?680次閱讀

開源項(xiàng)目！設(shè)計(jì)一款智能手語翻譯眼鏡

手語翻譯的依賴。這款眼鏡的設(shè)計(jì)既實(shí)用又低調(diào)，方便日常佩戴，能夠無縫融入用戶的日常生活中，讓使用者能夠輕松地與不懂手語的人士溝通。它的亮點(diǎn)在于利用人工智能技術(shù)檢測(cè)手勢(shì)并進(jìn)行實(shí)時(shí)翻譯，不

發(fā)表于 05-20 15:59