1. 簡介
自注意力網(wǎng)絡(luò)(SANs)在許多自然語言處理任務(wù)中取得顯著的成功,其中包括機(jī)器翻譯、自然語言推理以及語義角色標(biāo)注任務(wù)。相比傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò),自注意力網(wǎng)絡(luò)優(yōu)勢在于其高度的運(yùn)算并行性以及更加靈活的建模輸入元素的依存關(guān)系能力。傳統(tǒng)的自注意力網(wǎng)絡(luò)模型在計(jì)算每個(gè)元素的表示的時(shí)候,將所有的輸入的元素考慮在內(nèi),而不管其對(duì)于當(dāng)前元素的相關(guān)性。本問題提出通用的基于選擇機(jī)制的自注意力網(wǎng)絡(luò)模型(SSANs),其可以針對(duì)每個(gè)計(jì)算表示的元素,動(dòng)態(tài)地選擇其相關(guān)性的子集,以此作為輸入進(jìn)行后續(xù)的自注意力網(wǎng)絡(luò)的計(jì)算。實(shí)驗(yàn)結(jié)果顯示,SSANs模型在多個(gè)典型的自然語言處理任務(wù)上相比傳統(tǒng)的自注意力網(wǎng)絡(luò)模型獲得提升。通過多個(gè)探測任務(wù)進(jìn)行分析,SSANs相比傳統(tǒng)的SANs模型有更強(qiáng)的詞序信息編碼能力以及結(jié)構(gòu)信息建模能力。
2. 模型結(jié)構(gòu)
2.1 傳統(tǒng)的自注意力網(wǎng)絡(luò)
現(xiàn)在的自注意力網(wǎng)絡(luò)是傳統(tǒng)的注意力網(wǎng)路的特例,其計(jì)算注意力權(quán)重的兩個(gè)元素來源同樣的輸入序列。給定輸入隱層表示,自注意力網(wǎng)絡(luò)SANs首先將H分別線性變換成、以及。自注意力網(wǎng)絡(luò)的輸出O計(jì)算過程如下:
其中是基于點(diǎn)積的注意力機(jī)制,其計(jì)算過程如下:
其中√d是縮放因子且d是隱含層狀態(tài)表示的維度。傳統(tǒng)的自注意力網(wǎng)絡(luò)結(jié)構(gòu)如圖 1所示。
圖1 傳統(tǒng)的自注意力網(wǎng)絡(luò)框架
2.2 基于選擇機(jī)制的自注意力網(wǎng)絡(luò)
相比傳統(tǒng)的自注意力網(wǎng)絡(luò),本文引入一個(gè)選擇器模塊(Selector),其主要針對(duì)每個(gè)待計(jì)算表示的元素,動(dòng)態(tài)地選擇輸入元素的集合中的一個(gè)子集作為其相關(guān)元素集合,基于此集合進(jìn)行后續(xù)的常規(guī)的自注意力網(wǎng)絡(luò)的計(jì)算,其整體的框架如圖 2所示。
圖2 基本自注意力機(jī)制的自注意力網(wǎng)絡(luò)框架
選擇器模塊本文使用額外的策略網(wǎng)絡(luò)參數(shù)化選擇動(dòng)作,其中表示其對(duì)應(yīng)的元素被選擇進(jìn)行后續(xù)的常規(guī)的自注意力網(wǎng)路的計(jì)算,而則代表相應(yīng)的元素未被選中。其輸出動(dòng)作序列計(jì)算過程如下:
其中以及是線性變換的結(jié)果。本文使用sigmoid作為激活函數(shù)計(jì)算策略分布。通過使用額外的選擇器模塊,SSANs的注意力權(quán)重計(jì)算過程如下:
最終基于選擇機(jī)制的自注意力網(wǎng)絡(luò)的輸出計(jì)算過程如下:
Gumbel-Sigmoid本文使用gumbel-softmax對(duì)隱含變量A的梯度進(jìn)行評(píng)估,其主要將離散的采樣過程連續(xù)化,這樣使用正常的BP算法就可以實(shí)現(xiàn)對(duì)其梯度評(píng)估。相比REINFORCE算法,其穩(wěn)定性更高。本文策略網(wǎng)絡(luò)使用sigmoid作為激活函數(shù),其可以看作是softmax的特例,從而依據(jù)gumbel-softmax函數(shù)計(jì)算方法,可以推導(dǎo)出gumbel-sigmoid形式如下:
其中G'和G''是gumbel noise。
3 實(shí)驗(yàn)結(jié)果
基于選擇機(jī)制的自注意力網(wǎng)絡(luò)模型在三個(gè)典型的NLP任務(wù)上取得一致的提升。特別的,在機(jī)器翻譯任務(wù)上,SSANs在三個(gè)英語到其他語言的翻譯上超過傳統(tǒng)的SANs模型。在英語=>羅馬尼亞以及英語=>日語的翻譯任務(wù)上,SSANs分別獲得+0.69和+0.61 BLEU提升。此外,在相對(duì)規(guī)模比較大的英=>德翻譯任務(wù)上,SSANs也獲得一致的提升(+0.90 BLEU)。
表1 基于選擇的自注意力網(wǎng)絡(luò)模型在不同任務(wù)上的結(jié)果
4 實(shí)驗(yàn)分析
4.1 詞序信息編碼能力評(píng)價(jià)
為了評(píng)價(jià)SSANs的對(duì)于局部詞序信息以及全局詞序信息編碼的能力,本文引入兩個(gè)特定的檢測任務(wù)分別評(píng)價(jià)模型對(duì)于兩種類型信息編碼的能力。其中,局部詞序信息檢測任務(wù)目標(biāo)是分類是否句子中存在兩個(gè)相鄰詞的進(jìn)行交換,而全局詞序信息檢測任務(wù)隨機(jī)選擇句子中的某個(gè)詞語,并將其插入到另一個(gè)位置,而任務(wù)的目標(biāo)就是通過分類找到被插入的詞匯以及其原來所在的位置。實(shí)驗(yàn)結(jié)果顯示,SSANs在兩個(gè)任務(wù)上,相比傳統(tǒng)的SANs,均取得較大的提升。通過分析其相應(yīng)的自注意力網(wǎng)絡(luò)權(quán)重發(fā)現(xiàn),SSANs能夠根據(jù)任務(wù)將更多的注意力權(quán)重分配到重要的信息建模上。
表2 局部信息檢測任務(wù)實(shí)驗(yàn)結(jié)果
圖3 局部信息檢測任務(wù)注意力權(quán)重分布 表3 全局信息檢測任務(wù)實(shí)驗(yàn)結(jié)果
圖4 全局信息檢測任務(wù)注意力權(quán)重分布
4.2 結(jié)構(gòu)信息建模能力評(píng)價(jià)
為了評(píng)價(jià)SSANs對(duì)于結(jié)構(gòu)信息的建模能力,本文首先引入兩個(gè)檢測任務(wù)評(píng)價(jià)模型對(duì)于結(jié)構(gòu)信息的捕捉能力。其中一個(gè)任務(wù)目標(biāo)是測試模型是否可以根據(jù)組合語法樹的深度對(duì)于輸入的句子進(jìn)行分類,而另一個(gè)任務(wù)的目標(biāo)是對(duì)輸入句子按照其組合語法樹根節(jié)點(diǎn)之下的成分類型進(jìn)行分類。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),SSANs在兩種類型的任務(wù)上均取得提升,并且對(duì)于復(fù)雜的問題有更好處理能力。此外,模型根據(jù)注意力網(wǎng)絡(luò)的權(quán)重構(gòu)建組合語法樹,SSANs構(gòu)建的語法樹質(zhì)量好于SANs模型的結(jié)果。
表4 組合語法樹深度預(yù)測任務(wù)實(shí)驗(yàn)結(jié)果
表5 組合語法樹成分類型預(yù)測任務(wù)實(shí)驗(yàn)結(jié)果
5 結(jié)論
本文提出一種通用的基于選擇機(jī)制的自注意力網(wǎng)絡(luò)模型,其可以針對(duì)每個(gè)計(jì)算表示的元素,動(dòng)態(tài)地選擇其相關(guān)性的子集,以此作為輸入進(jìn)行后續(xù)的自注意力網(wǎng)絡(luò)的計(jì)算。其在多個(gè)自然語言任務(wù)上,與傳統(tǒng)的自注意力網(wǎng)絡(luò)相比,取得一致提升。通過實(shí)驗(yàn)分析發(fā)現(xiàn),基于選擇機(jī)制的自注意力網(wǎng)絡(luò)可以在一定程度上緩解注意力網(wǎng)絡(luò)存在的詞序信息編碼和結(jié)構(gòu)信息建模能力不足的問題。
-
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14947 -
網(wǎng)絡(luò)模型
+關(guān)注
關(guān)注
0文章
44瀏覽量
8492
原文標(biāo)題:【工大筆記】ACL20 如何使用選擇機(jī)制提升自注意力網(wǎng)路能力?
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論