在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種新的神經機器翻譯架構,它脫離了編碼器-解碼器的范疇

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-23 09:14 ? 次閱讀

編者按:今天外網有一篇論文非常火,它提出了一種序列到序列預測的新方法,無需編碼器和解碼器,只用一個2D卷積神經網絡就能超過現(xiàn)有方法的性能。當然,論文內容絕不是點贊的唯一理由……重點是,真的好萌

摘要

當前最先進的機器翻譯系統(tǒng)都基于Encoder-Decoder框架:輸入序列后,系統(tǒng)先對序列進行編碼,然后基于輸入序列的編碼生成輸出序列。為了讓系統(tǒng)能基于解碼器狀態(tài)重新組合源語句單詞的固定編碼,現(xiàn)在編碼器和解碼器中間往往會有一個注意力模型。

我們提出了一種替代方法,它依賴于跨兩個序列的單個2D卷積神經網絡。網絡的每一層都會根據(jù)到目前為止產生的輸出序列重新編碼源語句單詞。因此,其實類似注意力的屬性在整個網絡中都是普遍存在的。實驗證明,我們的模型產生了出色的結果,它優(yōu)于最先進的Encoder-Decoder框架,同時,它在概念上更簡單,參數(shù)也更少。

簡介

現(xiàn)如今,深層神經網絡對自然語言處理技術產生了深遠的影響,其中以機器翻譯(MT)最為明顯。這是一種序列到序列的預測問題,解決它的最先進方法是使用帶注意力模塊的編碼器-解碼器模型。注意力模塊能在解碼過程中重復地重新訪問源序列,提高模型的預測效率和精度。

但是,注意力機制存在局限。它的常規(guī)做法是在源語句上做簡單加權,用到的權重也只是源單詞和目標單詞之間的淺匹配結果。它只能重新組合相同的源單詞編碼,在解碼時并不能重新編碼,也無法重新解釋源序列。

為了解決這些局限,我們提出了一種基于深層2D卷積神經網絡(CNN)的新方法。它和圖像、音頻生成模型的自回歸模型類似,用源序列和目標序列的輸出空間定義網絡中的2D網格,同時禁止卷積filter從目標序列的單詞中獲得未來信息。具體如下圖所示:

卷積層的filter大小是3×3,它只能根據(jù)先前的輸出計算,不能讀取目標序列內容。圖中深藍色表示一層感受野,淺藍色是二層感受野,灰色部分是filter被禁止查看的部分

輸入源-目標張量:設給定源語句的長度為|s|,目標對(s, t)的長度為|t|。首先,在ds和dt維空間中通過查找表嵌入詞向量。整合兩個空間,f0= dt+ ds,把嵌入的詞向量{x1, . . . , x|s|}和{y1, . . . , y|t|}并成三維向量X∈R|t|×|s|×f0,其中,

這是卷積神經網絡的輸入。

卷積層:卷積層參考的是DenseNet的架構,這是圖像分類任務上的最新技術。網絡中的層都是密集連接的,這意味著不僅是最后一層,每個層都會把前一層的激活函數(shù)輸出作為自己的輸入,從而生成g特征映射。這個參數(shù)g是“增長率”,表示每層網絡輸出的附加通道數(shù)。

DenseNet架構

目標序列預測:從最初的f0特征映射開始,DenseNet中的每一層l∈{1, . . . , L}會產生一個大小為|t|×|s|×fl的張量,其中fl是該層的輸出通道數(shù)。

為了計算輸出中的單詞分布,我們要折疊張量的第二維,因為它來自輸入序列的可變長度,能檢索每個目標位置的唯一編碼。而做到這點的具體方法是添加一個最大池化層或對輸入序列做平均池化。完成池化后,我們可以根據(jù)詞典用特征進行預測。

實驗結果

在實驗階段,我們測試了深層CNN和先進編碼器-解碼器機器翻譯模型在IWSLT德英互譯任務上的效果,數(shù)據(jù)如上表所示。其中Pervasive Attention是本文提出的方法。可以發(fā)現(xiàn),無論是德譯英還是英譯德,各模型在BPE(字節(jié)對編碼)上獲得的所有結果都優(yōu)于基于單詞的結果。

而橫向對比來看,Pervasive Attention和RNN Reasearch有相同的參數(shù)量,但前者的BLEU分數(shù)比后者高了近3點。Vaswani等人和Gehring等人提出的兩個模型可以被看作是近期的最新研究,相比之前的記錄,它們確實有不小的進步,但Pervasive Attention還是超過了它們,并且參數(shù)只有它們的1/3和1/8。

從計算成本看,Pervasive Attention和RNN Reasearch差不多;而convs2s由于進行了很好的優(yōu)化,訓練用時更短。

小結

本文提出了一種新的神經機器翻譯架構,它脫離了編碼器-解碼器的范疇,能把源序列和目標序列聯(lián)合編碼為深度特征層次結構,其中源語句單詞會被嵌入部分目標序列的上下文中。

總得來看,這是一個基于DenseNet的二維CNN,它具有類似注意力機制的屬性,理念更簡單,參數(shù)更好,性能也更好。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3782

    瀏覽量

    137420
  • 神經網絡
    +關注

    關注

    42

    文章

    4811

    瀏覽量

    103019
  • 機器翻譯
    +關注

    關注

    0

    文章

    140

    瀏覽量

    15148

原文標題:Pervasive Attention:用于序列到序列預測的2D卷積神經網絡

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    機器翻譯三大核心技術原理 | AI知識科普 2

    是端到端序列生成模型,是將輸入序列變換到輸出序列的一種框架和方法。其核心部分有兩點,是如何表征輸入序列(編碼),二是如何獲得輸出序列(解碼)。對于
    發(fā)表于 07-06 10:46

    神經機器翻譯的方法有哪些?

    目前,神經機器翻譯(NMT)已經成為在學術界和工業(yè)界最先進的機器翻譯方法。最初的這種基于編碼器-解碼器
    發(fā)表于 11-23 12:14

    神經機器翻譯編碼-解碼架構有了新進展, 具體要怎么配置?

    景智AI編譯。翻譯/? 崔躍輝、葉倚青校對/? 葉倚青用于循環(huán)神經網絡的編碼-解碼架構,在標準機器翻譯
    發(fā)表于 07-09 22:53 ?498次閱讀

    編碼器解碼器的區(qū)別是什么,編碼器用軟件還是硬件好

    編碼器指的是對視頻信號進行壓縮,解碼器主要是將壓縮的視頻信號進行解壓縮。目前做直播的很多都是采用的編碼器,客戶端可以采用解碼器或軟件播放
    發(fā)表于 08-02 17:23 ?3.5w次閱讀

    基于結構感知的雙編碼器解碼器模型

    ,在常見端到端翻譯模型的基礎上,利用代碼抽象語法樹將源代碼的結構信息嵌入到編碼器解碼器翻譯模型中,提出一種基于結構感知的雙
    發(fā)表于 05-26 15:38 ?5次下載

    PyTorch教程10.6之編碼器-解碼器架構

    電子發(fā)燒友網站提供《PyTorch教程10.6之編碼器-解碼器架構.pdf》資料免費下載
    發(fā)表于 06-05 18:12 ?0次下載
    PyTorch教程10.6之<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b><b class='flag-5'>架構</b>

    PyTorch教程10.7之用于機器翻譯編碼器-解碼器Seq2Seq

    電子發(fā)燒友網站提供《PyTorch教程10.7之用于機器翻譯編碼器-解碼器Seq2Seq.pdf》資料免費下載
    發(fā)表于 06-05 18:14 ?0次下載
    PyTorch教程10.7之用于<b class='flag-5'>機器翻譯</b>的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>Seq2Seq

    PyTorch教程-10.6. 編碼器-解碼器架構

    。 圖 10.6.1編碼器-解碼器架構。? 讓我們以從英語到法語的機器翻譯為例。給定個英文輸入序列:“They”、“are”、
    的頭像 發(fā)表于 06-05 15:44 ?1122次閱讀
    PyTorch教程-10.6. <b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b><b class='flag-5'>架構</b>

    PyTorch教程-10.7. 用于機器翻譯編碼器-解碼器 Seq2Seq

    序列組成,我們通常依賴編碼器-解碼器架構(第10.6 節(jié))。在本節(jié)中,我們將演示編碼器-解碼器架構
    的頭像 發(fā)表于 06-05 15:44 ?1062次閱讀
    PyTorch教程-10.7. 用于<b class='flag-5'>機器翻譯</b>的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b> Seq2Seq

    基于transformer的編碼器-解碼器模型的工作原理

    與基于 RNN 的編碼器-解碼器模型類似,基于 transformer 的編碼器-解碼器模型由編碼器
    發(fā)表于 06-11 14:17 ?2818次閱讀
    基于transformer的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>模型的工作原理

    基于 RNN 的解碼器架構如何建模

    language processing,NLP) 領域編碼器-解碼器架構的?事實標準?。 最近基于 transformer 的編碼器-解碼器
    的頭像 發(fā)表于 06-12 17:08 ?1115次閱讀
    基于 RNN 的<b class='flag-5'>解碼器</b><b class='flag-5'>架構</b>如何建模

    基于 Transformers 的編碼器-解碼器模型

    基于 transformer 的編碼器-解碼器模型是 表征學習 和 模型架構 這兩個領域多年研究成果的結晶。本文簡要介紹了神經編碼器-
    的頭像 發(fā)表于 06-16 16:53 ?1231次閱讀
    基于 Transformers 的<b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>模型

    神經編碼器-解碼器模型的歷史

    基于 transformer 的編碼器-解碼器模型是 表征學習 和 模型架構 這兩個領域多年研究成果的結晶。本文簡要介紹了神經編碼器-
    的頭像 發(fā)表于 06-20 15:42 ?1158次閱讀
    <b class='flag-5'>神經</b><b class='flag-5'>編碼器</b>-<b class='flag-5'>解碼器</b>模型的歷史

    詳解編碼器解碼器電路

    編碼器解碼器是組合邏輯電路,在其中,主要借助布爾代數(shù)實現(xiàn)組合邏輯。今天就大家了解編碼器解碼器電路,分別從定義,工作原理,應用,真值表
    的頭像 發(fā)表于 07-14 09:07 ?4003次閱讀
    詳解<b class='flag-5'>編碼器</b>和<b class='flag-5'>解碼器</b>電路

    視頻編碼器解碼器的應用方案

    視頻解碼器和視頻編碼器在數(shù)字通訊、音視頻壓縮領域有著廣泛的應用。視頻編碼器作為視頻源的發(fā)送端,若接收端如果是?PC?機或顯示設備就需要通過解碼器進行
    的頭像 發(fā)表于 08-14 14:38 ?1655次閱讀
    視頻<b class='flag-5'>編碼器</b>與<b class='flag-5'>解碼器</b>的應用方案
    主站蜘蛛池模板: 五月婷婷之婷婷 | 91福利社在线观看 | 手机免费看a| 两性色午夜视频免费网 | 全国男人的天堂天堂网 | 天堂电影免费在线资源 | 天天干天天碰 | 成人伊人| 黄色三级视频 | 天堂中文最新版www 天堂资源8中文最新版在线 | 91极品女神嫩模在线播放 | 亚洲免费视频在线观看 | 免费网站黄成人影院 | 一级免费视频 | 激情久久久久久久久久久 | 精品国产污网站在线观看15 | 色综合天天综合网国产成人网 | 黄色a毛片 | 夜夜夜爽| 美女扒开尿口给男人桶爽视频 | 国产精品免费观看网站 | 欧美在线黄色 | 亚洲ol| 成人免费的性色视频 | 国产成人亚洲综合a∨婷婷 国产成人一区二区三中文 国产成人一区二区在线不卡 | 成年人黄色大片大全 | 免费国产午夜高清在线视频 | 精品一区二区国语对白 | 久久国产美女免费观看精品 | 日韩a级毛片 | 1024手机免费看片 | 你懂的在线免费视频 | 日本一级高清不卡视频在线 | 黄网站免费大全 | 性在线视频 | 最新久久免费视频 | 98pao强力打造高清免费 | 午夜精品久久久久 | 在线aa | 不良视频在线观看 | 亚洲性人人天天夜夜摸 |