在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于選擇機(jī)制的自注意力網(wǎng)絡(luò)模型

深度學(xué)習(xí)自然語言處理 ? 來源:博客 ? 作者:哈工大SCIR ? 2020-08-31 10:45 ? 次閱讀

1. 簡介

自注意力網(wǎng)絡(luò)(SANs)在許多自然語言處理任務(wù)中取得顯著的成功,其中包括機(jī)器翻譯、自然語言推理以及語義角色標(biāo)注任務(wù)。相比傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò),自注意力網(wǎng)絡(luò)優(yōu)勢在于其高度的運(yùn)算并行性以及更加靈活的建模輸入元素的依存關(guān)系能力。傳統(tǒng)的自注意力網(wǎng)絡(luò)模型在計(jì)算每個(gè)元素的表示的時(shí)候,將所有的輸入的元素考慮在內(nèi),而不管其對(duì)于當(dāng)前元素的相關(guān)性。本問題提出通用的基于選擇機(jī)制的自注意力網(wǎng)絡(luò)模型(SSANs),其可以針對(duì)每個(gè)計(jì)算表示的元素,動(dòng)態(tài)地選擇其相關(guān)性的子集,以此作為輸入進(jìn)行后續(xù)的自注意力網(wǎng)絡(luò)的計(jì)算。實(shí)驗(yàn)結(jié)果顯示,SSANs模型在多個(gè)典型的自然語言處理任務(wù)上相比傳統(tǒng)的自注意力網(wǎng)絡(luò)模型獲得提升。通過多個(gè)探測任務(wù)進(jìn)行分析,SSANs相比傳統(tǒng)的SANs模型有更強(qiáng)的詞序信息編碼能力以及結(jié)構(gòu)信息建模能力。

2. 模型結(jié)構(gòu)

2.1 傳統(tǒng)的自注意力網(wǎng)絡(luò)

現(xiàn)在的自注意力網(wǎng)絡(luò)是傳統(tǒng)的注意力網(wǎng)路的特例,其計(jì)算注意力權(quán)重的兩個(gè)元素來源同樣的輸入序列。給定輸入隱層表示,自注意力網(wǎng)絡(luò)SANs首先將H分別線性變換成、以及。自注意力網(wǎng)絡(luò)的輸出O計(jì)算過程如下:

其中是基于點(diǎn)積的注意力機(jī)制,其計(jì)算過程如下:

其中√d是縮放因子且d是隱含層狀態(tài)表示的維度。傳統(tǒng)的自注意力網(wǎng)絡(luò)結(jié)構(gòu)如圖 1所示。

圖1 傳統(tǒng)的自注意力網(wǎng)絡(luò)框架

2.2 基于選擇機(jī)制的自注意力網(wǎng)絡(luò)

相比傳統(tǒng)的自注意力網(wǎng)絡(luò),本文引入一個(gè)選擇器模塊(Selector),其主要針對(duì)每個(gè)待計(jì)算表示的元素,動(dòng)態(tài)地選擇輸入元素的集合中的一個(gè)子集作為其相關(guān)元素集合,基于此集合進(jìn)行后續(xù)的常規(guī)的自注意力網(wǎng)絡(luò)的計(jì)算,其整體的框架如圖 2所示。

圖2 基本自注意力機(jī)制的自注意力網(wǎng)絡(luò)框架

選擇器模塊本文使用額外的策略網(wǎng)絡(luò)參數(shù)化選擇動(dòng)作,其中表示其對(duì)應(yīng)的元素被選擇進(jìn)行后續(xù)的常規(guī)的自注意力網(wǎng)路的計(jì)算,而則代表相應(yīng)的元素未被選中。其輸出動(dòng)作序列計(jì)算過程如下:

其中以及是線性變換的結(jié)果。本文使用sigmoid作為激活函數(shù)計(jì)算策略分布。通過使用額外的選擇器模塊,SSANs的注意力權(quán)重計(jì)算過程如下:

最終基于選擇機(jī)制的自注意力網(wǎng)絡(luò)的輸出計(jì)算過程如下:

Gumbel-Sigmoid本文使用gumbel-softmax對(duì)隱含變量A的梯度進(jìn)行評(píng)估,其主要將離散的采樣過程連續(xù)化,這樣使用正常的BP算法就可以實(shí)現(xiàn)對(duì)其梯度評(píng)估。相比REINFORCE算法,其穩(wěn)定性更高。本文策略網(wǎng)絡(luò)使用sigmoid作為激活函數(shù),其可以看作是softmax的特例,從而依據(jù)gumbel-softmax函數(shù)計(jì)算方法,可以推導(dǎo)出gumbel-sigmoid形式如下:

其中G'和G''是gumbel noise。

3 實(shí)驗(yàn)結(jié)果

基于選擇機(jī)制的自注意力網(wǎng)絡(luò)模型在三個(gè)典型的NLP任務(wù)上取得一致的提升。特別的,在機(jī)器翻譯任務(wù)上,SSANs在三個(gè)英語到其他語言的翻譯上超過傳統(tǒng)的SANs模型。在英語=>羅馬尼亞以及英語=>日語的翻譯任務(wù)上,SSANs分別獲得+0.69和+0.61 BLEU提升。此外,在相對(duì)規(guī)模比較大的英=>德翻譯任務(wù)上,SSANs也獲得一致的提升(+0.90 BLEU)。

表1 基于選擇的自注意力網(wǎng)絡(luò)模型在不同任務(wù)上的結(jié)果

4 實(shí)驗(yàn)分析

4.1 詞序信息編碼能力評(píng)價(jià)

為了評(píng)價(jià)SSANs的對(duì)于局部詞序信息以及全局詞序信息編碼的能力,本文引入兩個(gè)特定的檢測任務(wù)分別評(píng)價(jià)模型對(duì)于兩種類型信息編碼的能力。其中,局部詞序信息檢測任務(wù)目標(biāo)是分類是否句子中存在兩個(gè)相鄰詞的進(jìn)行交換,而全局詞序信息檢測任務(wù)隨機(jī)選擇句子中的某個(gè)詞語,并將其插入到另一個(gè)位置,而任務(wù)的目標(biāo)就是通過分類找到被插入的詞匯以及其原來所在的位置。實(shí)驗(yàn)結(jié)果顯示,SSANs在兩個(gè)任務(wù)上,相比傳統(tǒng)的SANs,均取得較大的提升。通過分析其相應(yīng)的自注意力網(wǎng)絡(luò)權(quán)重發(fā)現(xiàn),SSANs能夠根據(jù)任務(wù)將更多的注意力權(quán)重分配到重要的信息建模上。

表2 局部信息檢測任務(wù)實(shí)驗(yàn)結(jié)果

圖3 局部信息檢測任務(wù)注意力權(quán)重分布 表3 全局信息檢測任務(wù)實(shí)驗(yàn)結(jié)果

圖4 全局信息檢測任務(wù)注意力權(quán)重分布

4.2 結(jié)構(gòu)信息建模能力評(píng)價(jià)

為了評(píng)價(jià)SSANs對(duì)于結(jié)構(gòu)信息的建模能力,本文首先引入兩個(gè)檢測任務(wù)評(píng)價(jià)模型對(duì)于結(jié)構(gòu)信息的捕捉能力。其中一個(gè)任務(wù)目標(biāo)是測試模型是否可以根據(jù)組合語法樹的深度對(duì)于輸入的句子進(jìn)行分類,而另一個(gè)任務(wù)的目標(biāo)是對(duì)輸入句子按照其組合語法樹根節(jié)點(diǎn)之下的成分類型進(jìn)行分類。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),SSANs在兩種類型的任務(wù)上均取得提升,并且對(duì)于復(fù)雜的問題有更好處理能力。此外,模型根據(jù)注意力網(wǎng)絡(luò)的權(quán)重構(gòu)建組合語法樹,SSANs構(gòu)建的語法樹質(zhì)量好于SANs模型的結(jié)果。

表4 組合語法樹深度預(yù)測任務(wù)實(shí)驗(yàn)結(jié)果

表5 組合語法樹成分類型預(yù)測任務(wù)實(shí)驗(yàn)結(jié)果

5 結(jié)論

本文提出一種通用的基于選擇機(jī)制的自注意力網(wǎng)絡(luò)模型,其可以針對(duì)每個(gè)計(jì)算表示的元素,動(dòng)態(tài)地選擇其相關(guān)性的子集,以此作為輸入進(jìn)行后續(xù)的自注意力網(wǎng)絡(luò)的計(jì)算。其在多個(gè)自然語言任務(wù)上,與傳統(tǒng)的自注意力網(wǎng)絡(luò)相比,取得一致提升。通過實(shí)驗(yàn)分析發(fā)現(xiàn),基于選擇機(jī)制的自注意力網(wǎng)絡(luò)可以在一定程度上緩解注意力網(wǎng)絡(luò)存在的詞序信息編碼和結(jié)構(gòu)信息建模能力不足的問題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【工大筆記】ACL20 如何使用選擇機(jī)制提升自注意力網(wǎng)路能力?

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    DeepMind為視覺問題回答提出了一種新的硬注意力機(jī)制

    然而,在基于梯度的學(xué)習(xí)框架(如深度學(xué)習(xí))中存在一個(gè)關(guān)鍵的缺點(diǎn):因?yàn)?b class='flag-5'>選擇要處理的信息的過程是離散化的,因此也就是不可微分的,所以梯度不能反向傳播到選擇機(jī)制中來支持基于梯度的優(yōu)化。目前研究人員正在努力來解決視覺注意力、文本
    的頭像 發(fā)表于 08-10 08:44 ?6259次閱讀

    深度分析NLP中的注意力機(jī)制

    注意力機(jī)制越發(fā)頻繁的出現(xiàn)在文獻(xiàn)中,因此對(duì)注意力機(jī)制的學(xué)習(xí)、掌握與應(yīng)用顯得十分重要。本文便對(duì)注意力機(jī)制
    的頭像 發(fā)表于 02-17 09:18 ?3906次閱讀

    注意力機(jī)制的誕生、方法及幾種常見模型

    簡而言之,深度學(xué)習(xí)中的注意力機(jī)制可以被廣義地定義為一個(gè)描述重要性的權(quán)重向量:通過這個(gè)權(quán)重向量為了預(yù)測或者推斷一個(gè)元素,比如圖像中的某個(gè)像素或句子中的某個(gè)單詞,我們使用注意力向量定量地估計(jì)出目標(biāo)元素與其他元素之間具有多么強(qiáng)烈的相關(guān)
    的頭像 發(fā)表于 03-12 09:49 ?4.2w次閱讀

    基于注意力機(jī)制的深度興趣網(wǎng)絡(luò)點(diǎn)擊率模型

    廣告點(diǎn)擊率(CTR)是互聯(lián)網(wǎng)公司進(jìn)行流量分配的重要依據(jù),針對(duì)目前點(diǎn)擊率預(yù)估精度較低的問題,結(jié)合通用的神經(jīng)網(wǎng)絡(luò)解決方案,構(gòu)建一種基于注意力機(jī)制的深度興趣網(wǎng)絡(luò)(ADIN)
    發(fā)表于 03-12 10:55 ?5次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的深度興趣<b class='flag-5'>網(wǎng)絡(luò)</b>點(diǎn)擊率<b class='flag-5'>模型</b>

    基于注意力機(jī)制的深度學(xué)習(xí)模型AT-DPCNN

    情感分析是自然語言處理領(lǐng)域的一個(gè)重要分支,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關(guān)鍵情感信息。為此,建立一種基于注意力機(jī)制的深度學(xué)習(xí)模型A
    發(fā)表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的深度學(xué)習(xí)<b class='flag-5'>模型</b>AT-DPCNN

    基于異質(zhì)注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)模型

    表示方法 Transr,分別將文本數(shù)據(jù)和關(guān)系網(wǎng)絡(luò)嵌入到高維向量中作為模型的輸入。在編碼器階段,使用雙向GRU將用戶的短期興趣引入到推薦模型中,并將注意力
    發(fā)表于 03-19 14:50 ?9次下載
    基于異質(zhì)<b class='flag-5'>注意力</b>的循環(huán)神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>模型</b>

    融合雙層多頭注意力與CNN的回歸模型

    針對(duì)現(xiàn)有文本情感分析方法存在的無法高效捕捉相關(guān)文本情感特征從而造成情感分析效果不佳的問題提出一種融合雙層多頭注意力與卷積神經(jīng)網(wǎng)絡(luò)(CNN)的回歸模型 DLMA-CNN。采用多頭
    發(fā)表于 03-25 15:16 ?6次下載
    融合雙層多頭<b class='flag-5'>自</b><b class='flag-5'>注意力</b>與CNN的回歸<b class='flag-5'>模型</b>

    基于語音、字形和語義的層次注意力神經(jīng)網(wǎng)絡(luò)模型

    神經(jīng)網(wǎng)絡(luò)、雙向門控循環(huán)單元和注意力機(jī)制提取 PFSHAN模型的語音、字形和語義特征。在特征融合階段,針對(duì)不同單詞對(duì)幽默語言學(xué)特征的貢獻(xiàn)程度不同,且不同幽默語言學(xué)特征和語句之間關(guān)聯(lián)程度不
    發(fā)表于 03-26 15:38 ?14次下載
    基于語音、字形和語義的層次<b class='flag-5'>注意力</b>神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>模型</b>

    基于層次注意力機(jī)制的多模態(tài)圍堵情感識(shí)別模型

    識(shí)別模型。在音頻模態(tài)中加人頻率注意力機(jī)制學(xué)習(xí)頻域上下文信息,利用多模態(tài)注意力機(jī)制將視頻特征與音頻特征進(jìn)行融合,依據(jù)改進(jìn)的損失函數(shù)對(duì)模態(tài)缺失問
    發(fā)表于 04-01 11:20 ?9次下載
    基于層次<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的多模態(tài)圍堵情感識(shí)別<b class='flag-5'>模型</b>

    基于多層CNN和注意力機(jī)制的文本摘要模型

    基于注意力機(jī)制的編解碼模型在文本摘要、杌器翻譯等序列到序列任務(wù)上得到了廣泛的應(yīng)用。在深度學(xué)習(xí)框架中,深層神經(jīng)網(wǎng)絡(luò)能夠提取輸λ數(shù)據(jù)不冋的特征表示,因此傳統(tǒng)編解碼
    發(fā)表于 04-07 11:35 ?2次下載
    基于多層CNN和<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的文本摘要<b class='flag-5'>模型</b>

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測模型

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測模型
    發(fā)表于 06-07 15:12 ?14次下載

    基于多通道注意力機(jī)制的電子病歷架構(gòu)

    基于多通道注意力機(jī)制的電子病歷架構(gòu)
    發(fā)表于 06-24 16:19 ?75次下載

    基于注意力機(jī)制的新聞文本分類模型

    基于注意力機(jī)制的新聞文本分類模型
    發(fā)表于 06-27 15:32 ?30次下載

    基于非對(duì)稱注意力機(jī)制殘差網(wǎng)絡(luò)的圖像檢測

    基于非對(duì)稱注意力機(jī)制殘差網(wǎng)絡(luò)的圖像檢測
    發(fā)表于 07-05 15:29 ?9次下載

    計(jì)算機(jī)視覺中的注意力機(jī)制

    計(jì)算機(jī)視覺中的注意力機(jī)制 卷積神經(jīng)網(wǎng)絡(luò)中常用的Attention 參考 注意力機(jī)制簡介與分類 注意力
    發(fā)表于 05-22 09:46 ?0次下載
    計(jì)算機(jī)視覺中的<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>
    主站蜘蛛池模板: 亚洲午夜小视频 | 特黄特色大片免费播放路01 | 在线视频午夜 | 一级毛片一级黄片 | 天天热天天干 | 高清视频一区二区三区 | 永久免费品色堂 | 四虎影院在线免费观看视频 | 欧美成人免费高清网站 | 特黄色毛片 | 福利视频自拍偷拍 | 色网站免费在线观看 | 国产精品电影一区 | 久久aa毛片免费播放嗯啊 | 初恋视频黄色 | 天天干天天舔天天射 | 亚洲大色| 欧美婷婷色 | 色屁屁www影院免费观看视频 | 欧美激情综合亚洲五月蜜桃 | 天天插天天干 | 上课被同桌强行摸下面小黄文 | 97综合网| 欧美日本一区 | 美女扒开下面让男人捅 | 狠狠色丁香婷婷第六色孕妇 | 色偷偷尼玛图亚洲综合 | 欧美另类丰满69xxxxx | 777黄色片| 鲁一鲁色一色 | 男女交性视频播放 视频 视频 | 日本高清视频色 | 欧美拍拍 | 伊人久久大香线蕉综合爱婷婷 | 欧美日韩一区在线观看 | 色久优优 | 日本免费黄色录像 | 色视频网站免费 | 亚洲精品aaa揭晓 | 五月婷婷色综合 | 欧美在线视频7777kkkk |