在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌翻譯竟然預(yù)言世界末日?

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-23 09:07 ? 次閱讀

“世界末日時鐘是23點(diǎn)57分。我們正在經(jīng)歷世界上的戲劇性的發(fā)展,這表明我們越來越接近末日和耶穌的回歸?!边@段驚悚的“預(yù)言”來自谷歌翻譯。2016年,谷歌宣布機(jī)器翻譯“重大突破”——神經(jīng)機(jī)器翻譯(GNMT),將翻譯質(zhì)量提高到接近人類筆譯的水平。然而,它將無意義的文本翻譯成怪異的宗教預(yù)言引起了新的恐慌。這次,要怪AI是“黑盒”,還是拖出谷歌員工來背鍋?

在Google Translate中鍵入“dog”一詞19次,然后選擇將這段無意義的文本從毛利語翻譯成英語,結(jié)果會怎樣?

彈出來的是一段看似亂碼宗教預(yù)言:

Doomsday Clock is three minutes at twelve We are experiencing characters and a dramatic developments in the world, which indicate that we are increasingly approaching the end times and Jesus’ return.

“世界末日時鐘還差3分鐘到12點(diǎn)。我們正在經(jīng)歷世界上的人物和戲劇性的發(fā)展,這表明我們越來越接近末日和耶穌的回歸?!?/p>

這只是Reddit以及其他網(wǎng)站用戶從谷歌翻譯中挖掘出來的眾多怪異、有時甚至是不祥的翻譯的一個例子。將原文設(shè)為索馬里語,連續(xù)輸入“ag”一詞,這個字符串會被翻譯成“sons of Gershon”(革順的兒子),“name of the LORD”(上帝的名字),并且會引用圣經(jīng)里的術(shù)語,例如“cubits”(肘,圣經(jīng)中的度量衡)和Deuteronomy(《申命記》)。谷歌翻譯是谷歌已經(jīng)推出10年的服務(wù),現(xiàn)在可以翻譯超過100種語言。

在推特上,這些翻譯引起恐慌,有人甚至將這些奇怪的翻譯歸咎于鬼魂和惡魔。reddit上TranslateGate子論壇上有用戶推測,其中一些奇怪的翻譯輸出可能來自收集自電子郵件或私人消息的文本。

谷歌發(fā)言人Justin Burr在一封電子郵件中表示:“Google Translate從網(wǎng)絡(luò)上的翻譯范例學(xué)習(xí),不使用‘私人信息’進(jìn)行翻譯,系統(tǒng)甚至都無法訪問到這些內(nèi)容?!薄斑@只是將無意義的話語輸入系統(tǒng),導(dǎo)致產(chǎn)生的也是無意義的內(nèi)容的一種功能?!?/p>

對于這種怪異的輸出,有幾種可能的解釋。比如,這些惡意消息可能是心懷不滿的谷歌員工造成的,也可能是惡作劇用戶濫用“提供建議”按鈕造成的,該選項(xiàng)將接受用戶提供的有助于改善翻譯質(zhì)量的建議。

罪魁禍?zhǔn)卓赡苁巧窠?jīng)機(jī)器翻譯

哈佛大學(xué)研究自然語言處理和計(jì)算機(jī)翻譯的助理教授Andrew Rush認(rèn)為,內(nèi)部的質(zhì)量過濾器(quality filter)可能會捕捉到這種類型的惡意操作。Rush說,更有可能的是,這些奇怪的翻譯與2016年時谷歌翻譯的一個重大變化有關(guān)——它開始使用一種叫做“神經(jīng)機(jī)器翻譯”的技術(shù)。

在神經(jīng)機(jī)器翻譯中,使用一種語言的大量文本和另一種語言的相應(yīng)譯文來訓(xùn)練系統(tǒng),以創(chuàng)建一個能夠在兩種語言之間相互翻譯的模型。Rush說,當(dāng)系統(tǒng)被輸入無意義的文本時,它就會“產(chǎn)生幻覺”,生成怪異的輸出——就像谷歌的DeepDream視覺系統(tǒng)會產(chǎn)生可怕的圖像一樣。

谷歌DeepDream的作畫

“這些模型都是黑盒,你能找到多少訓(xùn)練實(shí)例,它就能學(xué)到多少?!?Rush說:“訓(xùn)練實(shí)例中絕大部分看起來都像人類語言,因此當(dāng)你給它一個新的實(shí)例時,它受到的訓(xùn)練就是,不惜一切代價(jià)創(chuàng)造出一些看起來也像人類語言的東西。然而,如果你給它一些非常不同的東西,最好的翻譯將是一些看起來仍然流暢的文本,但根本與輸入無關(guān)?!?/p>

BBN Technologies的資深科學(xué)家、從事機(jī)器翻譯工作的Sean Colbath也同意,奇怪的輸出可能是由于Google Translate的算法試圖在混亂中尋找秩序。他還指出,這些產(chǎn)生最奇怪結(jié)果的語言——索馬里語、夏威夷語和毛利語——它們用于訓(xùn)練的翻譯文本比英語或漢語等更廣泛使用的語言要小得多。因此,Colbath說,谷歌可能會使用《圣經(jīng)》這類的宗教文本(《圣經(jīng)》已經(jīng)被翻譯成多種語言),用這些文本來訓(xùn)練它的模型,導(dǎo)致產(chǎn)生宗教內(nèi)容。

Rush也同意這種說法,如果谷歌使用《圣經(jīng)》來訓(xùn)練它的神經(jīng)翻譯模型,那么就可以解釋一些奇怪的輸出了。事實(shí)上,索馬里語的幾個奇怪的翻譯版本與《舊約》中的某些章節(jié)很相似。比如《出埃及記》27:18提到“a hundred cubits”(長一 百肘),并且有幾節(jié)經(jīng)文,包括《民數(shù)記》3:18討論了“sons of Gershon”(革順的兒子)。

谷歌發(fā)言人Justin Burr拒絕回答Google Translate的訓(xùn)練數(shù)據(jù)是否包含宗教文本。

但有時候,確實(shí)感覺這個算法似乎在傳遞某種神秘的精神能量——它甚至?xí)_笑話。

你看,用Google Translate翻譯“w hy ar e th e tran stla tions so wei rd”在索馬里語中的意思,它的輸出是,“這是一個讓它變得更好的好辦法”。

神經(jīng)機(jī)器翻譯的主要問題

Philipp Koehn和Rebecca Knowles在2017年就這一主題撰寫了一篇精彩的關(guān)于神經(jīng)機(jī)器翻譯的論文(文末附論文地址),現(xiàn)在仍然具有現(xiàn)實(shí)意義。在這里有必要總結(jié)一下:

1.神經(jīng)機(jī)器翻譯(NMT)在處理領(lǐng)域之外的數(shù)據(jù)時的表現(xiàn)很糟:當(dāng)前的機(jī)器翻譯系統(tǒng)會生成非常流暢的輸出,這些輸出與領(lǐng)域外數(shù)據(jù)的輸入無關(guān)。因此像Google翻譯這樣的通用機(jī)器翻譯系統(tǒng)在法律或金融等專業(yè)領(lǐng)域的表現(xiàn)尤其糟糕。與基于短語的系統(tǒng)等傳統(tǒng)方法相比,NMT系統(tǒng)的效果更差。有多差呢?請參閱下面的圖表。非對角線上元素是是用領(lǐng)域外數(shù)據(jù)訓(xùn)練后的結(jié)果,綠色條代表NMT,藍(lán)色條代表基于短語的系統(tǒng)。

將機(jī)器翻譯系統(tǒng)在一個領(lǐng)域內(nèi)(行)上訓(xùn)練,并在另一個領(lǐng)域(列)上進(jìn)行測試。

藍(lán)色:基于短語的系統(tǒng) 綠色:NMT

2.NMT在小數(shù)據(jù)集上表現(xiàn)不佳:一般而言,大多數(shù)機(jī)器學(xué)習(xí)都是這樣,但這個問題在NMT上尤為突出。 NMT的優(yōu)點(diǎn)在于,隨著數(shù)據(jù)量的增加,它的表現(xiàn)要(比基于短語的機(jī)器翻譯)更好,但在數(shù)據(jù)量很低的情況下,NMT的表現(xiàn)確實(shí)更差。事實(shí)上,正如作者所說,“在資源條件較差的情況下,NMT會產(chǎn)生與輸入內(nèi)容無關(guān)的流暢輸出?!边@可能是Motherboard的文章探討的一些關(guān)于NMT表現(xiàn)奇怪的另一個原因。

3.NMT在罕見詞匯上的表現(xiàn)不佳:盡管比基于短語的翻譯的表現(xiàn)更好,但NMT對于罕見或未見過的詞語翻譯的表現(xiàn)不佳。對于存在大量變形詞的語言及大量命名實(shí)體的領(lǐng)域,這可能成為一個問題,因?yàn)樽冃卧~和命名實(shí)體一般非常罕見。

上圖是我們即將出版的書的第2章部分內(nèi)容的摘錄。例如,在土耳其語中,時不時就會遇到變形形式的詞。

如果單詞只被觀察到一次,就會被舍棄。字節(jié)成對編碼(byte-pair encoding)技術(shù)有助于解決這個問題,但有必要對此進(jìn)行更詳細(xì)的研究。

4.長句的翻譯問題:對長句編碼及生成長句仍然是一個沒有解決的問題。 機(jī)器翻譯系統(tǒng)隨句子長度的增加,其表現(xiàn)會越來越糟,NMT系統(tǒng)尤其如此。使用注意力有幫助,但問題遠(yuǎn)未“解決”。在許多領(lǐng)域,如法律領(lǐng)域,冗長復(fù)雜的句子是很常見的。

5.注意力(Attention)機(jī)制不等于簡單對齊:這是一個非常微妙但重要的問題。在傳統(tǒng)的SMT系統(tǒng)(如基于短語的MT)中,對齊翻譯為模型的檢測提供了有用的調(diào)試信息。但是注意機(jī)制不能被視為傳統(tǒng)意義上的對齊,即使論文經(jīng)常將注意力機(jī)制作為“軟對齊”引起注意。在NMT系統(tǒng)中,除了源語言中的動詞之外,目標(biāo)語言中的動詞也可以作為主語和賓語成分。

6.難以控制翻譯質(zhì)量:每個單詞都有多種翻譯,典型的機(jī)器翻譯系統(tǒng)在源句的翻譯結(jié)構(gòu)上表現(xiàn)很好。為了保持句子結(jié)構(gòu)的大小合理,會使用集束搜索(beam search)。通過改變集束寬度,可以找到低概率但正確的平移。而對于NMT系統(tǒng),調(diào)整集束的寬度似乎沒有任何影響,甚至可能會有不良影響。

當(dāng)數(shù)據(jù)量很大時,NMT系統(tǒng)仍然很難被擊敗。關(guān)于神經(jīng)網(wǎng)絡(luò)模型的黑盒性的討論也在繼續(xù),今天的NMT模型(不論是基于LSTM還是Transformer)都會受此影響。這是一個活躍的研究領(lǐng)域,如果時間允許,我期待參加EMNLP關(guān)于該主題的研討會。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6221

    瀏覽量

    107363
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    140

    瀏覽量

    15109

原文標(biāo)題:谷歌翻譯竟預(yù)言世界末日,專家解密神經(jīng)翻譯6大難題

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    “System Level EOS Testing Method”可以翻譯為: “系統(tǒng)級電性過應(yīng)力測試方法”

    “System Level EOS Testing Method”可以翻譯為: “系統(tǒng)級電性過應(yīng)力測試方法”
    的頭像 發(fā)表于 05-05 15:55 ?146次閱讀
    “System Level EOS Testing Method”可以<b class='flag-5'>翻譯</b>為: “系統(tǒng)級電性過應(yīng)力測試方法”

    UPS(不間斷電源)故障頻發(fā)?原因竟然是這樣

    UPS(不間斷電源)故障頻發(fā)?原因竟然是這樣
    的頭像 發(fā)表于 04-19 13:53 ?167次閱讀
    UPS(不間斷電源)故障頻發(fā)?原因<b class='flag-5'>竟然</b>是這樣

    探索信號分析的奇妙世界

    在這個信息爆炸的時代無線通信已經(jīng)成為我們生活中不可或缺的一部分無論是手機(jī)、無線網(wǎng)絡(luò)還是衛(wèi)星通信背后都有一個共同的英雄——信號分析儀今天,就讓我們一起探索這個奇妙的無線電世界了解信號分析產(chǎn)品如何幫助
    的頭像 發(fā)表于 04-07 09:49 ?280次閱讀
    探索信號分析的奇妙<b class='flag-5'>世界</b>

    測量ADS1274的DOUT[5:8],竟然和地是通的,這是怎么回事?

    測量ADS1274的DOUT[5:8],竟然和地是通的,這是怎么回事? 是芯片的問題?
    發(fā)表于 02-13 08:21

    谷歌公司被立案調(diào)查 谷歌股價(jià)暴跌 谷歌母公司Alphabet跌8%

    據(jù)國家市場監(jiān)督管理總局消息顯示,谷歌公司因涉嫌違反《中華人民共和國反壟斷法》,已被該局依法開展立案調(diào)查。而且谷歌公司在全球多個國家均面臨著反壟斷的嚴(yán)峻挑戰(zhàn)。其中,美國司法部更是對谷歌提出了分拆的請求
    的頭像 發(fā)表于 02-06 16:23 ?1384次閱讀

    AI助力實(shí)時翻譯耳機(jī)

    你是否曾經(jīng)因?yàn)檎Z言障礙而無法與外國人順暢交流?或者在旅行中因?yàn)檎Z言不通而錯過了一些精彩的經(jīng)歷?現(xiàn)在,隨著AI技術(shù)的發(fā)展,實(shí)時翻譯耳機(jī)可以幫你輕松解決這些問題。 1 什么是實(shí)時翻譯耳機(jī) 實(shí)時翻譯耳機(jī)
    的頭像 發(fā)表于 01-24 11:14 ?1288次閱讀
    AI助力實(shí)時<b class='flag-5'>翻譯</b>耳機(jī)

    ADS8361輸入不接的時候,輸出端的時序竟然有波形出來,是哪里的問題?

    我現(xiàn)在在使用這款A(yù)DS8361采集芯片,請問,當(dāng)輸入不接的時候,輸出端的時序竟然有波形出來,有6萬多,我感覺是不是芯片有問題?當(dāng)沒有輸入信號,輸出端竟然有波形,而且還是一個很寬的高電平,但是每20個脈沖,輸出端波形一致,感覺是不是哪里出問題了?請大牛解答下,謝謝!
    發(fā)表于 12-20 08:06

    LLMWorld上線代碼翻譯新工具——問丫·碼語翻譯俠,快來體驗(yàn)!

    01. 工具介紹 aicode.llmworld.net 問丫·碼語翻譯俠 是一款由LLMWorld新推出的代碼翻譯工具,支持各種語言之間的翻譯,包括計(jì)算機(jī)語言到自然語言。 02.
    的頭像 發(fā)表于 12-09 11:11 ?827次閱讀
    LLMWorld上線代碼<b class='flag-5'>翻譯</b>新工具——問丫·碼語<b class='flag-5'>翻譯</b>俠,快來體驗(yàn)!

    PCM2704的ROM編程好了,竟然是亂碼,為什么?

    的說法將ROM編程好,接入系統(tǒng),插入U(xiǎn)SB后,顯示正在安裝驅(qū)動,沒想到安裝完畢后竟然名稱顯示為亂碼,百思不得其解。望各位大神幫我看看問題出在哪里 這是德州儀器官方數(shù)據(jù)表中關(guān)于ROM的三段重要描述 我按照說明編程如下 可是插入電腦后顯示是亂碼 求助大神,問題出在哪里?
    發(fā)表于 11-05 08:04

    阿里國際發(fā)布翻譯大模型Marco

    近日,阿里國際正式推出了其翻譯大模型——Marco。這款模型已在阿里國際AI官網(wǎng)Aidge上線,并向全球用戶開放使用。
    的頭像 發(fā)表于 10-17 16:07 ?578次閱讀

    用邏輯和翻譯用例優(yōu)化資產(chǎn)跟蹤器

    電子發(fā)燒友網(wǎng)站提供《用邏輯和翻譯用例優(yōu)化資產(chǎn)跟蹤器.pdf》資料免費(fèi)下載
    發(fā)表于 09-21 11:24 ?0次下載
    用邏輯和<b class='flag-5'>翻譯</b>用例優(yōu)化資產(chǎn)跟蹤器

    使用邏輯和翻譯優(yōu)化車身控制模塊(BCM)應(yīng)用說明

    電子發(fā)燒友網(wǎng)站提供《使用邏輯和翻譯優(yōu)化車身控制模塊(BCM)應(yīng)用說明.pdf》資料免費(fèi)下載
    發(fā)表于 09-11 11:30 ?0次下載
    使用邏輯和<b class='flag-5'>翻譯</b>優(yōu)化車身控制模塊(BCM)應(yīng)用說明

    英特爾銳炫顯卡助力游戲體驗(yàn)升級

    日前,網(wǎng)易超自然開放世界游戲《七日世界》開啟全球公測,憑借獨(dú)特的新怪談世界觀以及區(qū)別于傳統(tǒng)“末日游戲”的細(xì)節(jié)設(shè)計(jì),該游戲不僅穩(wěn)居Steam愿望單前10,更是在公測前就已斬獲超2000萬
    的頭像 發(fā)表于 08-16 15:17 ?637次閱讀

    超ChatGPT-4o,國產(chǎn)大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評

    隨著AI工具的不斷增多,各家模型的能力也日益提升,現(xiàn)在無論哪款大模型幾乎都能夠處理各種翻譯難題。在AI浪潮當(dāng)下,越來越多的論文和前沿信息需要快速翻譯和解讀,依賴傳統(tǒng)的翻譯工具依舊面臨“翻譯
    的頭像 發(fā)表于 07-14 08:04 ?128次閱讀
    超ChatGPT-4o,國產(chǎn)大模型<b class='flag-5'>竟然</b>更懂<b class='flag-5'>翻譯</b>,8款大模型深度測評|AI 橫評

    谷歌Chrome瀏覽器優(yōu)化“隱藏IP地址”功能,提升安全性

    近日,消息來源@Leopeva64在推特上提到,谷歌已對“隱藏IP地址”功能進(jìn)行了描述調(diào)整,對此進(jìn)行了相關(guān)內(nèi)容的翻譯,具體如下:“若Chrome瀏覽器認(rèn)為某網(wǎng)站存在跟蹤行為,部分流量將通過隱私服務(wù)器傳輸”。
    的頭像 發(fā)表于 05-23 15:05 ?1193次閱讀
    主站蜘蛛池模板: 狠狠干2021| 最好免费高清视频观看韩国 | 久久免费手机视频 | 中文在线三级中文字幕 | 欧美黑人巨大日本人又爽又色 | 色香欲亚洲天天综合网 | 日本不卡在线观看免费v | 天天干夜夜爽 | 伊人久久大香线焦在观看 | 六月激情婷婷 | 色色免费 | 色多多福利| 手机在线免费视频 | 台湾一级毛片 | 天堂资源在线8 | 日日躁夜夜躁狠狠天天 | 四虎最新永久免费网址 | 亚洲免费网站在线观看 | 国产精品爱啪在线线免费观看 | 插综合网 | 国产视频每日更新 | 亚洲精品www| 另类free性欧美护士 | 日本免费大黄在线观看 | 色播在线| 日本黄色网址视频 | 久久久亚洲欧美综合 | 午夜在线观看完整高清免费 | 男女免费在线视频 | 成人免费精品视频 | 色天使色护士 在线视频观看 | 天天色操| 在线电影亚洲 | 男人的天堂在线免费视频 | 一级黄色大全 | 欧洲精品码一区二区三区免费看 | 热re66久久精品国产99热 | 天天操夜夜夜 | 超级乱淫小黄文小说 | 久久网站免费 | 欧美婷婷 |