91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在沒有大量標記數據的情況下,讓計算機也學會翻譯?

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-09-05 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經機器翻譯(NMT)關注的是通過 AI 在不同人類語言之間進行翻譯的過程。2015 年,蒙特利爾學習算法研究所的研究人員開發出了一項新的算法模型,最終讓機器給出了對應的翻譯。一夜之間,像谷歌翻譯這樣的翻譯軟件質量得到了大幅度提升。

盡管此次改進非常顯著,但它仍需要兩種語言的句子對,例如:“I like to eat”和“me gusta comer”分別為英語和法語中的“我想要吃”。對于從烏爾都語到英語等沒有句子對的語言翻譯而言,翻譯系統則顯得無能為力。從那時起,研究人員就開始構建無需句子對也能翻譯的系統,無監督神經機器翻譯(UNMT)就是其一。

去年 10 月末,來自西班牙圣塞巴斯蒂安巴斯克大學(UPV)和互聯網科技公司 Facebook 人工智能研究院(FAIR)的兩支團隊,向2018ICLR分別遞交了各自的最新研究成果——無監督神經網絡翻譯模型。

當時,兩篇論文共同表明,神經網絡可以在沒有平行文本的情況下學習翻譯。

這意味著該模型將突破原有的神經機器翻譯(NMT)需要足夠大的平行語料庫的限制,創造了一種可以使用單語語料庫進行訓練的翻譯模型,并克服了平行語料庫不足的問題。從社會學的角度講,這將有助于我們翻譯一些語言已經丟失了的文字,或者讓機器去實時翻譯一些稀有語言,如斯瓦西里語和白俄羅斯語。

過去一年間,不斷有研究人員試圖通過無監督學習用大量無標記數據訓練以進一步提高系統的翻譯能力。Facebook、紐約大學、巴斯克大學、索邦大學的研究團隊成果顯著,成功讓機器在不知道“house”的西班牙對應詞是“casa”的情況下翻譯出來。

近日,Facebook 人工智能實驗室再次公布了有關無監督神經網絡翻譯的最新模型,相當于用 10 萬個參考譯文訓練過的監督模型。“在機器翻譯領域,這是一個重大的發現,盡管世界上有超過 6500 種語言,但可利用的翻譯訓練資源池要么不存在、要么就是太小不足以運用在現有系統中。”

為了證明這一進步的價值,研究人員給出了以下陳述:“ 1 個 BLEU 點(判斷機器翻譯準確度的常用指標)的進步被視為該領域一項了不起的成就。我們的方法相當于有 10 個 BLEU 點的進步。” 實際上,該項研究使得很多沒有平行文本的語言翻譯變得更為容易,如從烏爾都語到英語的翻譯。

▌研究原理

1、字節對編碼:不像此前為系統提供完整單詞的方式,只給系統提供單詞的一部分。例如,單詞“hello”可拆分為四部分,分別是“he”“l”“l”“o”。這意味系統可以學習“he”的譯詞,盡管系統此前從來沒有見過該詞。

2、語言模型:訓練神經網路學習生成在語言中“聽起來不錯”的句子。例如,這個神經網絡可能會將句子“您好嘛”改為“您好嗎”。

3、反向翻譯:這是神經網絡學習向后翻譯的另一個技巧。例如,如果想將西班牙語翻譯稱英語,就需要先教會神經網絡從英語翻譯成西班牙語,然后用它來生成合成數據,從而增加已有的數據量。

▌逐字翻譯

讓系統學習雙語詞典,將一個單詞與其他語言的合理翻譯聯系起來,即系統學習每種語言中的單詞嵌入。

訓練嵌入詞以預測跟給定上下文中單詞近似的單詞,可以發現很多有趣的語義結構。例如,“kitty”的近義詞是“cat”,而“kitty”的嵌入詞與“animal”相近,卻與“rocket”相差很遠。

此外,不同語言的嵌入詞有相似的領域結構,這在于世界各地的人都擁有相同的物理環境。例如,英語中的單詞“cat”和“furry”之間的關系類似于它們在西班牙語中的相應翻譯(“gato”和“peludo”),因為這些單詞的頻率和其上下文是相似的。

鑒于這些相似之處,研究人員建議使用對抗訓練,以推導出一個相當準確的雙語詞典,無需訪問任何平行文本,便可實現逐字翻譯。

▌句子修正

不過,研究人員還是建議無監督的方式進行逐字翻譯,也有可能造成單詞丟失,或無序甚至是錯誤。所以,接下來,需要在已知大量單詞數據的基礎上進行編輯,對不流暢或不符合語法結構的句子進行修正。

另外,研究人員還給出以下兩種方法,一個是基于神經網絡的系統(NMT),一個是基于短語的系統(PBSMT)。雖然任何一種方法都可以提高翻譯質量,但二者并用將產生更新的顯著效果。

據了解,PBSMT(Facebook統計機器翻譯)是 FAIR 此前的研究成果。該系統學習每種語言中短語的概率分布,并教會另一個系統旋轉第二組的數據點以匹配第一組的數據點。

以一個比較形象的方式展示:假設有兩個圖像,一個是杯子與蓋子彼此相鄰,另一個是蓋子在杯子上。該系統將學習如何在沒有蓋子的情況下,在圖像周圍移動像素以生成有蓋子的圖像。

目前,Facebook 人工智能實驗室將免費開放代碼,方便開發者獲取搭建系統。

▌寫在最后

要知道,多數現有的 AI 模型是通過“監督學習”訓練而成的,這也意味著必須耗費大量的人力對樣本數據進行標記與分類。盡管強化學習與生成式對抗網絡的出現從一定程度上解決了這一問題,但數據標記仍是目前阻礙 AI 系統發展的最大障礙。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103538
  • 人工智能
    +關注

    關注

    1806

    文章

    48996

    瀏覽量

    249228
  • 機器翻譯
    +關注

    關注

    0

    文章

    140

    瀏覽量

    15191

原文標題:翻譯們又要失業?Facebook最新無監督機器翻譯成果,BLEU提升10個點!

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA助力全球最大量子研究超級計算機

    NVIDIA 宣布將開設量子-AI 技術商業應用全球研發中心(G-QuAT),該中心部署了全球最大量計算研究專用超級計算機 ABCI-Q。
    的頭像 發表于 05-22 09:44 ?310次閱讀

    LPC1227FBD48如何在沒有SDK的情況下配置FreeRTOS?

    我想在基于 LPC1227FBD48 系列的現有項目中使用 FreeRTOS,但我們沒有可用于控制器的 SDK。我們如何在沒有 SDK 的情況下配置 FreeRTOS。
    發表于 04-02 06:33

    云端超級計算機使用教程

    云端超級計算機是一種基于云計算的高性能計算服務,它將大量計算資源和存儲資源集中在一起,通過網絡向用戶提供按需的計算服務。下面,AI部落小編為
    的頭像 發表于 12-17 10:19 ?546次閱讀

    工業中使用哪種計算機

    在工業環境中,工控機被廣泛使用。這些計算機的設計可承受極端溫度、灰塵和振動等惡劣條件。它們比標準消費類計算機更耐用、更可靠。工業計算機可控制機器、監控流程并實時收集數據。其堅固的結構和
    的頭像 發表于 11-29 14:07 ?703次閱讀
    工業中使用哪種<b class='flag-5'>計算機</b>?

    量子計算機與普通計算機工作原理的區別

    ? 本文介紹了量子計算機與普通計算機工作原理的區別。 量子計算是一個新興的研究領域,科學家們利用量子力學,制造出具有革命性能力的計算機。雖然現在的量子
    的頭像 發表于 11-24 11:00 ?1466次閱讀
    量子<b class='flag-5'>計算機</b>與普通<b class='flag-5'>計算機</b>工作原理的區別

    工業計算機類型介紹

    工業領域沒有計算機的世界就像沒有管弦樂隊的交響樂,缺乏實現最佳性能所需的和諧和精確度。計算機徹底改變了工業的運作方式,將效率、準確性和創新推向了新的高度。事實上,根據最近在印度進行的一
    的頭像 發表于 11-04 15:56 ?661次閱讀
    工業<b class='flag-5'>計算機</b>類型介紹

    ROM對計算機性能的影響

    是一種非易失性存儲器,即使在斷電的情況下能保持數據不丟失。它通常用于存儲固件,這些固件是計算機啟動和運行操作系統所必需的。ROM的內容在制造過程中被寫入,并且通常不能被用戶更改。 R
    的頭像 發表于 11-04 10:31 ?1203次閱讀

    云端超級計算機怎么用

    云端超級計算機是一種基于云計算的高性能計算服務,它將大量計算資源和存儲資源集中在一起,通過網絡向用戶提供按需的計算服務。
    的頭像 發表于 10-18 10:14 ?478次閱讀

    計算機接口位于什么之間

    計算機接口是計算機硬件和軟件之間、計算機與外部設備之間以及計算機各部件之間傳輸數據、控制信息和狀態信息的硬件設備和軟件程序。它在
    的頭像 發表于 10-14 14:02 ?1299次閱讀

    PCM1795如何在通電的情況下切換PCM模式和DSD模式?

    Ti工程師您好,項目上有用到PCM1795這枚芯片,因為它具有DSD解碼與PCM解碼功能,之前沒有使用過類似產品 有兩個問題請教下: 1、用MCU初始化PCM1795它能正常工作,至少需要配置哪幾個相關寄存器 2、如何在
    發表于 09-29 06:00

    計算機存儲器的分類及其區別

    計算機存儲器是計算機系統中不可或缺的重要部分,用于存放程序和數據。隨著科技的進步,存儲器的種類越來越多,功能和性能日益豐富。一般來說,計算機
    的頭像 發表于 09-05 10:40 ?3964次閱讀

    晶體管計算機和電子管計算機有什么區別

    晶體管計算機和電子管計算機作為計算機發展史上的兩個重要階段,它們在多個方面存在顯著的區別。以下是對這兩類計算機在硬件、性能、應用以及技術發展等方面區別的詳細闡述。
    的頭像 發表于 08-23 15:28 ?3595次閱讀

    簡述計算機的I/O控制方式

    計算機的I/O(輸入/輸出)控制方式是計算機系統中至關重要的部分,它決定了CPU與外設之間數據交換的方式和效率。隨著計算機技術的不斷發展,I/O控制方式
    的頭像 發表于 08-20 10:55 ?2358次閱讀

    計算機視覺有哪些優缺點

    計算機視覺作為人工智能領域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術的發展不僅推動了多個行業的變革,帶來了諸多優勢,但同時伴隨著一些挑戰和局限
    的頭像 發表于 08-14 09:49 ?2030次閱讀

    龍芯中科亮相第二屆中國計算機學會芯片大會

    近日,由CCF體系結構專業委員會、集成電路設計專業委員會、容錯計算專業委員會、計算機工程與工藝專業委員會聯合舉辦的第二屆中國計算機學會芯片大會在上海成功舉辦。大會以“發展芯技術,智算芯
    的頭像 發表于 07-30 15:47 ?1085次閱讀
    主站蜘蛛池模板: 国产98色在线 | 日本在线一级 | 国产午夜精品理论片在线 | 天天躁日日躁成人字幕aⅴ 天天躁夜夜躁 | 97超频国产在线公开免费视频 | 免费久久精品国产片香蕉 | 黑色丝袜在丝袜福利国产 | 狠狠狠色丁香婷婷综合激情 | 午夜色a大片在线观看免费 午夜色大片在线观看 | 中文字幕第13亚洲另类 | 六月天色婷婷 | 成人影院在线观看视频 | 国产高清免费在线观看 | 女人张腿让男桶免费视频观看 | 奇米77 | 久久国产精品免费网站 | 五月婷婷开心综合 | 天天综合亚洲国产色 | 一级做a爱片久久毛片 | 成人欧美一区二区三区视频不卡 | 欧美成人观看免费全部完小说 | 日本www色视频成人免费网站 | 手机看片1024福利 | 手机亚洲第一页 | 狠狠色丁香久久综合五月 | 亚洲天堂h| 2018天堂视频免费观看 | 日日做夜夜做 | 碰免费人人人视频 | 91免费视 | 天天干天天摸 | 狠狠狠狠狠狠 | 亚洲一区免费在线观看 | 91极品女神嫩模在线播放 | 爽好舒服快受不了了老师 | 毛片你懂的 | 欧洲妇女成人淫片aaa视频 | 人人弄 | 日本免费精品视频 | 欧美色视频日本片免费高清 | 天天操天天爽天天射 |