在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google翻譯出現(xiàn)“水逆”,是員工的惡作?。?/h1>

最近,一些網(wǎng)友使用的 Google 翻譯“水逆”了。

在Reddit上,有網(wǎng)友截圖顯示,在 Google 翻譯中當(dāng)某些語(yǔ)種的詞匯翻譯成英語(yǔ)時(shí),輸出的卻是毫無(wú)由頭的宗教語(yǔ)言。比如鍵入 19 個(gè) dog,將其從毛利語(yǔ)翻譯成英語(yǔ)時(shí),輸出的卻是“距離十二點(diǎn)的世界末日時(shí)鐘還差三分鐘,我們正在經(jīng)歷世界上的人物和戲劇性發(fā)展,這預(yù)示著我們正在無(wú)線(xiàn)接近末日,耶穌回歸時(shí)日將近?!?/p>

但這只是眾多無(wú)厘頭翻譯的其中之一。還有網(wǎng)友放出了很多“不詳”的翻譯內(nèi)容。例如,在索馬里語(yǔ)中,“ag”這個(gè)詞被翻譯成了“Gershon 的兒子(sons of Gershon)”,“耶和華的名字(name of the LORD)”,并且會(huì)引用圣經(jīng)里的“cubits”(計(jì)量單位)和Deuteronomy(《申命記》)。

有網(wǎng)友留言稱(chēng)其為“惡魔”或者“幽靈”,猜測(cè)這是 Google 員工的惡作劇,也有人建議設(shè)置“建議編輯”功能,讓用戶(hù)可以進(jìn)行修改為正確內(nèi)容。Google 發(fā)言人 Justin Burr 在一封電子郵件中稱(chēng):這只是一個(gè)將無(wú)意義的話(huà)語(yǔ)輸入系統(tǒng)然后產(chǎn)生無(wú)意義輸出的功能。

不過(guò) Justin Burr 并未透露 Google 翻譯使用的訓(xùn)練數(shù)據(jù)是否有宗教文本。但上述詭異輸出內(nèi)容很可能已被 Google 翻譯修正,AI科技大本營(yíng)編輯輸入上述相同內(nèi)容后也并未發(fā)現(xiàn)異常。

但人們對(duì)探討 Google 翻譯出現(xiàn)如此結(jié)果的背后原因熱情不減,更專(zhuān)業(yè)的聲音在不斷發(fā)出。哈佛大學(xué)助理教授 Andrew Rush 認(rèn)為,這很可能與 2 年前 Google 翻譯技術(shù)的改變有關(guān),它目前使用了的是“神經(jīng)機(jī)器翻譯(NMT)”的技術(shù)。

BBN Technologies 的科學(xué)家 Sean Colbath 從事機(jī)器翻譯工作,他同意奇怪的輸出可能是由于 Google 翻譯的算法試圖在混亂中尋找秩序。他還指出,索馬里語(yǔ)、夏威夷語(yǔ)以及毛利語(yǔ)等產(chǎn)生最奇怪結(jié)果的語(yǔ)言,它們用于訓(xùn)練的翻譯文本比英語(yǔ)或漢語(yǔ)等更廣泛使用的語(yǔ)言要少很多。所以他認(rèn)為,Google 可能會(huì)使用像圣經(jīng)等被翻譯成多種語(yǔ)言的宗教文本來(lái)訓(xùn)練小語(yǔ)種的模型,這也解釋了為什么會(huì)最終輸出宗教內(nèi)容。

前 Google 員工 Delip Rao 在其博客上則指出,當(dāng)談到平行語(yǔ)料庫(kù)時(shí),宗教文本是最低層次的共同標(biāo)準(zhǔn)資源,像“圣經(jīng)”和“古蘭經(jīng)”這樣的主要宗教文本有各種語(yǔ)言版本。

比如,如果你為政府部署一個(gè) Urdu-to-English (烏爾都語(yǔ)——英語(yǔ))的機(jī)器翻譯系統(tǒng),那么很容易將一堆已經(jīng)翻譯成烏爾都語(yǔ)的宗教文本組合在一起。因此,可以合理地假設(shè) Google 的平行語(yǔ)料庫(kù)中包含所有的宗教文本,而對(duì)于許多資源不足的語(yǔ)言,它們不只是訓(xùn)練語(yǔ)料庫(kù)中微不足道的部分。

那么,為什么我們看到 Google 翻譯會(huì)輸出宗教文本,尤其是以那些資源不足的語(yǔ)言對(duì)作為輸入時(shí) ,如上文中的毛利語(yǔ)?一種解釋是,因?yàn)樽诮涛谋景S多只會(huì)在宗教文本中出現(xiàn)的罕見(jiàn)詞,而這些詞在其他任何地方都不會(huì)出現(xiàn)。因此,罕見(jiàn)的詞語(yǔ)可能會(huì)觸發(fā)解碼器中的宗教情境,尤其是當(dāng)這些文本的比例很大時(shí)。另一種解釋是該模型對(duì)輸入的內(nèi)容沒(méi)有太多的統(tǒng)計(jì)支持,而輸出也只是解碼器模型的無(wú)意義采樣。

更重要的是,他想要指出現(xiàn)在的神經(jīng)機(jī)器翻譯 (NMT) 真正存在的問(wèn)題。

他特意總結(jié)了2017 年 Philipp Koehn 和 Rebecca Knowles 撰寫(xiě)的一篇論文,內(nèi)容如下:

1.NMT 在域外數(shù)據(jù)上表現(xiàn)很差:像 Google 翻譯這樣的通用 MT 系統(tǒng)在法律或金融等專(zhuān)業(yè)領(lǐng)域的表現(xiàn)尤其糟糕。此外,與基于短語(yǔ)的翻譯系統(tǒng)等傳統(tǒng)方法相比,NMT 系統(tǒng)的效果更差。到底有多糟糕?如下圖所示,其中非對(duì)角線(xiàn)元素表示域外結(jié)果,綠色是 NMT 的結(jié)果,藍(lán)色是基于短語(yǔ)的翻譯系統(tǒng)的結(jié)果。

MT 系統(tǒng)在一個(gè)域 (行) 上訓(xùn)練并在另一個(gè)域 (列) 上進(jìn)行測(cè)試。藍(lán)色表示基于短語(yǔ)翻譯系統(tǒng)的表現(xiàn),而綠色表示 NMT 的表現(xiàn)。

2.NMT 在小數(shù)據(jù)集上的表現(xiàn)很差:雖然這算是機(jī)器學(xué)習(xí)的通病,但這個(gè)問(wèn)題在 NMT 中體現(xiàn)尤其明顯。相比基于短語(yǔ)的 MT 系統(tǒng),雖然 NMT 隨著數(shù)據(jù)量的增加能進(jìn)行更好地概括 ,但在小數(shù)據(jù)量情況下 NMT 的表現(xiàn)確實(shí)更糟糕。

引用作者的話(huà)來(lái)說(shuō),“在資源較少的情況下,NMT 會(huì)產(chǎn)生與輸入無(wú)關(guān)的輸出,盡管這些輸出是流暢的?!边@可能也是 Motherboard 那篇文章中探討 NMT 表現(xiàn)怪異的另一個(gè)原因。

3.Subword NMT 在罕見(jiàn)詞匯上的表現(xiàn)很糟糕:雖然它的表現(xiàn)仍然要好過(guò)基于短語(yǔ)的翻譯系統(tǒng),但對(duì)于罕見(jiàn)或未見(jiàn)過(guò)的詞語(yǔ),NMT 的表現(xiàn)不佳。例如,那些系統(tǒng)只觀(guān)察到一次的單詞就會(huì)被 drop 掉。像 byte-pair encoding 這樣的技術(shù)對(duì)解決這個(gè)問(wèn)題有所幫助,但我們有必要對(duì)此進(jìn)行更詳細(xì)的研究。

我們可以看到圖中像土耳其語(yǔ) (Turkish) 這樣的語(yǔ)言,遇到詞的變形形式是很常見(jiàn)的。

4.長(zhǎng)句:以長(zhǎng)句編碼并產(chǎn)生長(zhǎng)句,這仍然是一個(gè)開(kāi)放的、值得研究的話(huà)題。在法律等領(lǐng)域,冗長(zhǎng)復(fù)雜的句子是很常見(jiàn)的。MT 系統(tǒng)的性能將隨句子長(zhǎng)度而降級(jí),而 NMT 系統(tǒng)亦是如此。引入注意力機(jī)制可能會(huì)有所幫助,但問(wèn)題還遠(yuǎn)未解決。

5.注意力機(jī)制 != 對(duì)齊:這是一個(gè)非常微妙但又很重要的問(wèn)題。在傳統(tǒng)的 SMT 系統(tǒng)中,如基于短語(yǔ)的翻譯系統(tǒng),語(yǔ)句對(duì)齊能夠提供有用的調(diào)試信息來(lái)檢查模型。但即便論文中經(jīng)常將軟注意力機(jī)制視為“軟對(duì)齊”,注意力機(jī)制并不是傳統(tǒng)意義上的對(duì)齊。在 NMT 系統(tǒng)中,除了源域中的動(dòng)詞外,目標(biāo)中的動(dòng)詞也可以作為主語(yǔ)和賓語(yǔ)。

6.難以控制翻譯質(zhì)量:每個(gè)單詞都有多種翻譯,并且典型的 MT 系統(tǒng)對(duì)源句的翻譯好于lattice of possible translations。為了保持后者的大小合理,我們使用集束搜索 (beam search)。通過(guò)改變波束的寬度,來(lái)找到低概率但正確的翻譯。而對(duì)于 NMT 系統(tǒng),調(diào)整集束尺寸似乎沒(méi)有任何不利影響。

當(dāng)你擁有大量數(shù)據(jù)時(shí),NMT 系統(tǒng)的翻譯性能依然還是難以被擊敗的,而且它們?nèi)匀辉诖罅康乇皇褂谩jP(guān)于通常我們所說(shuō)的神經(jīng)網(wǎng)絡(luò)模型的黑盒性,也有待進(jìn)一步說(shuō)明,如今的 NMT 模型 (基于 LSTM 和 Transformer 模型) 也都受此影響。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1772

    瀏覽量

    57837
  • 翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    47

    瀏覽量

    10835

原文標(biāo)題:輸出不詳宗教預(yù)言,Google翻譯為何“水逆”了?

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI助力實(shí)時(shí)翻譯耳機(jī)

    你是否曾經(jīng)因?yàn)檎Z(yǔ)言障礙而無(wú)法與外國(guó)人順暢交流?或者在旅行中因?yàn)檎Z(yǔ)言不通而錯(cuò)過(guò)了一些精彩的經(jīng)歷?現(xiàn)在,隨著AI技術(shù)的發(fā)展,實(shí)時(shí)翻譯耳機(jī)可以幫你輕松解決這些問(wèn)題。 1 什么是實(shí)時(shí)翻譯耳機(jī) 實(shí)時(shí)翻譯耳機(jī)
    的頭像 發(fā)表于 01-24 11:14 ?523次閱讀
    AI助力實(shí)時(shí)<b class='flag-5'>翻譯</b>耳機(jī)

    Google Cloud發(fā)布兩款針對(duì)企業(yè)客戶(hù)的全新解決方案

    Google Cloud 近期發(fā)布兩款專(zhuān)為企業(yè)客戶(hù)設(shè)計(jì)的全新解決方案——Google Agentspace與NotebookLM Plus,目的是通過(guò) Gemini 先進(jìn)的推理能力、Google 高質(zhì)量的搜索功能,以及無(wú)論存儲(chǔ)在
    的頭像 發(fā)表于 12-27 16:31 ?289次閱讀

    LLMWorld上線(xiàn)代碼翻譯新工具——問(wèn)丫·碼語(yǔ)翻譯俠,快來(lái)體驗(yàn)!

    01. 工具介紹 aicode.llmworld.net 問(wèn)丫·碼語(yǔ)翻譯俠 是一款由LLMWorld新推出的代碼翻譯工具,支持各種語(yǔ)言之間的翻譯,包括計(jì)算機(jī)語(yǔ)言到自然語(yǔ)言。 02.
    的頭像 發(fā)表于 12-09 11:11 ?409次閱讀
    LLMWorld上線(xiàn)代碼<b class='flag-5'>翻譯</b>新工具——問(wèn)丫·碼語(yǔ)<b class='flag-5'>翻譯</b>俠,快來(lái)體驗(yàn)!

    ida反編譯出來(lái)代碼能直接用嗎

    IDA反編譯出來(lái)的代碼通常 不能直接使用 ,這主要基于以下幾個(gè)方面的原因: 一、代碼的不完整性 IDA反編譯生成的代碼可能缺少原始源代碼中的某些關(guān)鍵信息。在編譯過(guò)程中,編譯器會(huì)優(yōu)化代碼,剔除或優(yōu)化掉
    的頭像 發(fā)表于 09-02 10:55 ?834次閱讀

    推挽變電路與橋式變電路的區(qū)別

    推挽變電路與橋式變電路是兩種常見(jiàn)的變電路形式,它們?cè)诮Y(jié)構(gòu)、工作原理、應(yīng)用領(lǐng)域等方面存在一些區(qū)別。以下是對(duì)這兩種變電路的比較: 結(jié)構(gòu)區(qū)別 推挽
    的頭像 發(fā)表于 08-15 17:14 ?1711次閱讀

    有源變電路和無(wú)源變電路的區(qū)別

    定義: 有源變電路:有源變電路是指逆變器在變過(guò)程中需要消耗外部電源的電路。它通常使用直流電源(如電池)作為輸入,將直流電轉(zhuǎn)換為交流電。 無(wú)源變電路:無(wú)源
    的頭像 發(fā)表于 08-02 17:01 ?3548次閱讀

    使用opa221采樣變輸出交流電壓出現(xiàn)失真怎么解決?

    使用28335做為變電路的主控制芯片,測(cè)試ADC輸出交流電壓采樣調(diào)理電路出現(xiàn)底部削平的現(xiàn)象,輸入為0到220交流,測(cè)量運(yùn)放兩端發(fā)現(xiàn)小電壓輸入時(shí)運(yùn)放輸出看起來(lái)還沒(méi)有削(也可能削了不明顯),大電壓
    發(fā)表于 07-31 06:44

    單相變電路的類(lèi)型有哪些

    開(kāi)關(guān)器件的類(lèi)型分類(lèi) 1.1.1 晶閘管變電路 晶閘管變電路是最早出現(xiàn)變電路之一,其主要特點(diǎn)是結(jié)構(gòu)簡(jiǎn)單、成本低廉,但存在開(kāi)關(guān)速度慢、效率低、諧波含量高等缺點(diǎn)。 1.1.2 晶體管
    的頭像 發(fā)表于 07-08 09:21 ?815次閱讀

    使用google-translate和wwe合并后無(wú)法使用google-tts怎么解決?

    ,在使用喚醒詞喚醒后,我想讓他使用google-tts說(shuō)一句話(huà),但是出現(xiàn)以下錯(cuò)誤Code: Select all I (16188) wwe_example: rec_engine_cb
    發(fā)表于 06-28 06:05

    **Error! Class \'rom\' [group ] starting 8080 has exceeded limit,編譯出現(xiàn)這個(gè)錯(cuò)誤是什么意思?

    **Error! Class \'rom\' [group ] starting 8080 has exceeded limit of BFFF by 7!請(qǐng)教各位老師,編譯出現(xiàn)這個(gè)錯(cuò)誤提示是什么意思,謝謝
    發(fā)表于 05-17 06:14

    STM8編譯出現(xiàn)的兩個(gè)錯(cuò)誤求解

    Low density devices */ /* #define STM8S903 *//*!< STM8S Low density devices */ 編譯出現(xiàn)兩個(gè)錯(cuò)誤
    發(fā)表于 04-30 06:18

    谷歌解雇28名員工,因參與云合同抗議

    Google表示,由于員工消極抵抗其與以色列政府簽署的云計(jì)算合同,已經(jīng)解雇了28位員工。該公司在聲明中強(qiáng)調(diào),抵制行為嚴(yán)重干擾了正常工作秩序,并且違反了其企業(yè)政策。
    的頭像 發(fā)表于 04-19 12:17 ?421次閱讀

    變電路的工作原理 變電路的作用與分類(lèi)

    變電路的工作原理 變電路的作用與分類(lèi) 變電路是一種將直流電轉(zhuǎn)換為交流電的電路,其工作原理和作用可以根據(jù)具體分類(lèi)有所不同。下面將詳盡、詳實(shí)、細(xì)致地介紹變電路的工作原理、作用和分類(lèi)
    的頭像 發(fā)表于 04-08 18:20 ?5596次閱讀

    STM32cubeMX設(shè)置USB編譯出現(xiàn)Undefined symbol錯(cuò)誤的原因?

    STM32cubeMX 設(shè)置USB 編譯出現(xiàn)Undefined symbol 錯(cuò)誤。 勾選STM32CUBEMX中的USB_device 設(shè)置FS IP的VPC,默認(rèn)配置,用keil軟件編譯就出現(xiàn)以下截圖報(bào)錯(cuò)。
    發(fā)表于 04-01 07:44

    光纜峰是什么意思?

    光纜峰是指在光纖通信中由于光纖與外部環(huán)境發(fā)生的物理變化或損壞,導(dǎo)致光信號(hào)傳輸中出現(xiàn)的信號(hào)衰減或損失的現(xiàn)象。光纜峰可能由多種原因引起,其中一種主要的原因是光纖受到的影響。 光纖通常
    的頭像 發(fā)表于 03-21 10:25 ?828次閱讀

    主站蜘蛛池模板: 精品一区 二区三区免费毛片 | 色老头性xxxx老头视频 | 一区三区三区不卡 | 日韩成人午夜 | 色播影院性播免费看 | 色天天天天综合男人的天堂 | 韩日色图 | 天天躁夜夜躁狠狠躁躁 | 午夜视频免费在线观看 | 在线视频网址免费播放 | 久草成人在线视频 | 成人网中文字幕色 | a级黑粗大硬长爽猛视频毛片 | xxx日本69| 男女爱爱福利 | 九九热在线免费视频 | 亚洲成人免费在线观看 | 久久综合九色综合欧美播 | 无夜精品久久久久久 | 欧洲国产精品精华液 | 韩国在线视频 | 欧美一区二区视频在线观看 | 日韩一卡 二卡 三卡 四卡 免费视频 | 日韩第十页 | 22eee在线播放成人免费视频 | 四虎永久在线精品国产 | freesex性woman欧美 | 日本在线视频一区二区 | 黄色在线网站 | 色综合天天综合网国产成人网 | 二级片在线| 国产成人精品日本 | 女人张开腿男人桶 | 日韩一级视频免费观看 | 激情五月开心婷婷 | 看5xxaaa免费毛片 | 最新日本免费一区二区三区中文 | 狼人久久尹人香蕉尹人 | 国产午夜精品片一区二区三区 | 都市禁忌猎艳风流美妇 | 日韩毛片免费在线观看 |