PyTorch教程10.8之波束搜索

1857884 2023-06-05 | pdf | 0.20 MB | 次下載 | 免費

資料介紹

在10.7 節中，我們介紹了編碼器-解碼器架構，以及端到端訓練它們的標準技術。然而，當談到測試時間預測時，我們只提到了貪心策略，我們在每個時間步選擇下一個預測概率最高的標記，直到在某個時間步，我們發現我們已經預測了特殊的序列結尾“”標記。在本節中，我們將從形式化這種貪婪搜索策略開始，并確定從業者往往會遇到的一些問題。隨后，我們將該策略與兩種替代方案進行比較：窮舉搜索（說明性但不實用）和 波束搜索（實踐中的標準方法）。

讓我們從設置我們的數學符號開始，借用第 10.7 節中的約定。隨時步t′，解碼器輸出表示詞匯表中每個標記出現在序列中的概率的預測（可能的值 yt′+1, 以先前的標記為條件 y1,…,yt′和上下文變量c，由編碼器產生以表示輸入序列。為了量化計算成本，表示為Y輸出詞匯表（包括特殊的序列結束標記“”）。我們還將輸出序列的最大標記數指定為 T′. 我們的目標是搜索所有的理想輸出 O(|Y|T′)可能的輸出序列。請注意，這稍微高估了不同輸出的數量，因為在“”標記出現之后沒有后續標記。然而，出于我們的目的，這個數字大致反映了搜索空間的大小。

10.8.1。貪心搜索

考慮第 10.7 節中的簡單貪婪搜索策略。在這里，隨時步t′，我們只需從中選擇條件概率最高的標記 Y， IE，

(10.8.1)yt′=argmaxy∈YP(y∣y1,…,yt′?1,c).

一旦我們的模型輸出“”（或者我們達到最大長度 T′) 輸出序列完成。

這個策略看似合理，其實還不錯！考慮到它在計算上的要求是多么的低，你很難獲得更多的收益。然而，如果我們暫時擱置效率，搜索最有可能的序列似乎更合理，而不是（貪婪選擇的）最有可能的標記序列。事實證明，這兩個對象可能完全不同。最可能的序列是最大化表達式的序列 ∏t′=1T′P(yt′∣y1,…,yt′?1,c). 在我們的機器翻譯示例中，如果解碼器真正恢復了潛在生成過程的概率，那么這將為我們提供最有可能的翻譯。不幸的是，不能保證貪心搜索會給我們這個序列。

讓我們用一個例子來說明它。假設輸出字典中有四個標記“A”、“B”、“C”和“”。在圖10.8.1中，每個時間步下的四個數字分別代表在該時間步生成“A”、“B”、“C”、“”的條件概率。

https://file.elecfans.com/web2/M00/A9/C9/poYBAGR9N4-AaGx4AAET1yiKAhk378.svg

圖 10.8.1在每個時間步，貪婪搜索選擇條件概率最高的標記。

在每個時間步，貪心搜索選擇條件概率最高的標記。因此，將預測輸出序列“A”、“B”、“C”和“”（圖 10.8.1）。這個輸出序列的條件概率是 0.5×0.4×0.4×0.6=0.048.

接下來，讓我們看一下圖 10.8.2中的另一個例子。與圖 10.8.1不同，在時間步 2 中，我們選擇圖 10.8.2中的標記“C” ，它具有第二高的條件概率。

https://file.elecfans.com/web2/M00/AA/43/pYYBAGR9N5GACDvWAAEKuTR1cgg914.svg

圖 10.8.2每個時間步下的四個數字代表在該時間步生成“A”、“B”、“C”和“”的條件概率。在時間步 2，選擇具有第二高條件概率的標記“C”。

由于時間步3所基于的時間步1和2的輸出子序列已經從圖10.8.1中的“A”和“B”變為圖10.8.2 中的“A”和“C” ，圖 10.8.2中每個標記在時間步長 3 的條件概率也發生了變化。假設我們在時間步 3 選擇標記“B”。現在時間步 4 以前三個時間步“A”、“C”和“B”的輸出子序列為條件，這與“A”不同、“B”、“C”在圖 10.8.1中。因此，圖 10.8.2中第 4 步生成每個 token 的條件概率也與圖 10.8.1不同. 因此，圖 10.8.2中輸出序列“A”、“C”、“B”和“”的條件概率為 0.5×0.3×0.6×0.6=0.054，大于圖 10.8.1中的貪心搜索。在本例中，貪心搜索得到的輸出序列“A”、“B”、“C”、“”并不是最優序列。