天域苍穹,大主宰之灵路天蚕土豆,辰东

1. 簡介

自注意力網絡(SANs)在許多自然語言處理任務中取得顯著的成功，其中包括機器翻譯、自然語言推理以及語義角色標注任務。相比傳統的循環神經網絡以及卷積神經網絡，自注意力網絡優勢在于其高度的運算并行性以及更加靈活的建模輸入元素的依存關系能力。傳統的自注意力網絡模型在計算每個元素的表示的時候，將所有的輸入的元素考慮在內，而不管其對于當前元素的相關性。本問題提出通用的基于選擇機制的自注意力網絡模型(SSANs)，其可以針對每個計算表示的元素，動態地選擇其相關性的子集，以此作為輸入進行后續的自注意力網絡的計算。實驗結果顯示，SSANs模型在多個典型的自然語言處理任務上相比傳統的自注意力網絡模型獲得提升。通過多個探測任務進行分析，SSANs相比傳統的SANs模型有更強的詞序信息編碼能力以及結構信息建模能力。

2. 模型結構

2.1 傳統的自注意力網絡

現在的自注意力網絡是傳統的注意力網路的特例，其計算注意力權重的兩個元素來源同樣的輸入序列。給定輸入隱層表示，自注意力網絡SANs首先將H分別線性變換成、以及。自注意力網絡的輸出O計算過程如下：

其中是基于點積的注意力機制，其計算過程如下：

其中√d是縮放因子且d是隱含層狀態表示的維度。傳統的自注意力網絡結構如圖 1所示。

圖1 傳統的自注意力網絡框架

2.2 基于選擇機制的自注意力網絡

相比傳統的自注意力網絡，本文引入一個選擇器模塊(Selector)，其主要針對每個待計算表示的元素，動態地選擇輸入元素的集合中的一個子集作為其相關元素集合，基于此集合進行后續的常規的自注意力網絡的計算，其整體的框架如圖 2所示。

圖2 基本自注意力機制的自注意力網絡框架

選擇器模塊本文使用額外的策略網絡參數化選擇動作，其中表示其對應的元素被選擇進行后續的常規的自注意力網路的計算，而則代表相應的元素未被選中。其輸出動作序列計算過程如下：

其中以及是線性變換的結果。本文使用sigmoid作為激活函數計算策略分布。通過使用額外的選擇器模塊，SSANs的注意力權重計算過程如下：

最終基于選擇機制的自注意力網絡的輸出計算過程如下：

Gumbel-Sigmoid本文使用gumbel-softmax對隱含變量A的梯度進行評估，其主要將離散的采樣過程連續化，這樣使用正常的BP算法就可以實現對其梯度評估。相比REINFORCE算法，其穩定性更高。本文策略網絡使用sigmoid作為激活函數，其可以看作是softmax的特例，從而依據gumbel-softmax函數計算方法，可以推導出gumbel-sigmoid形式如下：

其中G'和G''是gumbel noise。

3 實驗結果

基于選擇機制的自注意力網絡模型在三個典型的NLP任務上取得一致的提升。特別的，在機器翻譯任務上，SSANs在三個英語到其他語言的翻譯上超過傳統的SANs模型。在英語=>羅馬尼亞以及英語=>日語的翻譯任務上，SSANs分別獲得+0.69和+0.61 BLEU提升。此外，在相對規模比較大的英=>德翻譯任務上，SSANs也獲得一致的提升(+0.90 BLEU)。

表1 基于選擇的自注意力網絡模型在不同任務上的結果

4 實驗分析

4.1 詞序信息編碼能力評價

為了評價SSANs的對于局部詞序信息以及全局詞序信息編碼的能力，本文引入兩個特定的檢測任務分別評價模型對于兩種類型信息編碼的能力。其中，局部詞序信息檢測任務目標是分類是否句子中存在兩個相鄰詞的進行交換，而全局詞序信息檢測任務隨機選擇句子中的某個詞語，并將其插入到另一個位置，而任務的目標就是通過分類找到被插入的詞匯以及其原來所在的位置。實驗結果顯示，SSANs在兩個任務上，相比傳統的SANs，均取得較大的提升。通過分析其相應的自注意力網絡權重發現，SSANs能夠根據任務將更多的注意力權重分配到重要的信息建模上。

表2 局部信息檢測任務實驗結果

圖3 局部信息檢測任務注意力權重分布表3 全局信息檢測任務實驗結果

圖4 全局信息檢測任務注意力權重分布

4.2 結構信息建模能力評價

為了評價SSANs對于結構信息的建模能力，本文首先引入兩個檢測任務評價模型對于結構信息的捕捉能力。其中一個任務目標是測試模型是否可以根據組合語法樹的深度對于輸入的句子進行分類，而另一個任務的目標是對輸入句子按照其組合語法樹根節點之下的成分類型進行分類。實驗結果發現，SSANs在兩種類型的任務上均取得提升，并且對于復雜的問題有更好處理能力。此外，模型根據注意力網絡的權重構建組合語法樹，SSANs構建的語法樹質量好于SANs模型的結果。

表4 組合語法樹深度預測任務實驗結果

表5 組合語法樹成分類型預測任務實驗結果

5 結論

本文提出一種通用的基于選擇機制的自注意力網絡模型，其可以針對每個計算表示的元素，動態地選擇其相關性的子集，以此作為輸入進行后續的自注意力網絡的計算。其在多個自然語言任務上，與傳統的自注意力網絡相比，取得一致提升。通過實驗分析發現，基于選擇機制的自注意力網絡可以在一定程度上緩解注意力網絡存在的詞序信息編碼和結構信息建模能力不足的問題。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴