好看的小说完本推荐,古风名字,兽性总裁的爱奴

【導(dǎo)語】幾周前，XLNet 團隊發(fā)布了新型預(yù)訓(xùn)練語言模型 XLNet，這個新模型在各項基準(zhǔn)測試中都優(yōu)于谷歌之前發(fā)布的BERT模型，其中模型XLNet-Large 的數(shù)據(jù)量更是 BERT 模型的 10 倍左右。那 XLnet 和 BERT 到底要選誰？

這次 XLnet 團隊進行了一次對比實驗，為了確保對比的公正性，在對比實驗中作者采用相同的環(huán)境和配置，相同的訓(xùn)練數(shù)據(jù)，并確保在 BERT 和 XLNet 兩個模型的訓(xùn)練方法中，幾乎每個超參數(shù)（hyperparameter）都是相同的，這些超參數(shù)都是由 BERT作者發(fā)布，并在BERT中使用的。即是說，這些超參數(shù)是為BERT模型設(shè)計選擇的，很可能是針對BERT最優(yōu)化的，而非XLNet。具體超參數(shù)設(shè)置如下（兩個模型的超參數(shù)完全相同）：

Batch-size: 256

訓(xùn)練步數(shù)：1M

優(yōu)化器：Adam，學(xué)習(xí)率 1e-4，warmup 1萬，線性衰減

訓(xùn)練語料庫：Wikipedia + BooksCorpus，在處理Wikipedia時使用了與BERT repo相同的工具，但出于某種原因，我們的Wiki語料庫僅有20億單詞，BERT使用了25億單詞，因此XLNet的訓(xùn)練數(shù)據(jù)略少于BERT。

模型結(jié)構(gòu)參數(shù)：24層，1024個隱層，16 heads

微調(diào)（finetuning）超參數(shù)搜索空間

此外，作者還修改了一些數(shù)據(jù)相關(guān)的實現(xiàn)細(xì)節(jié)，以便與BERT模型進行一對一的比較。

在之前的實驗中，預(yù)訓(xùn)練環(huán)節(jié)，未被mask的token無法看到分類token CLS和分隔token SEP，而現(xiàn)階段的實現(xiàn)中可以看到了，與BERT模型保持一致。

在微調(diào)環(huán)節(jié)，與BERT一樣，用“BERT格式”取代了普通的 XLNet格式，即使用[CLS, A, SEP, B, SEP]取代了[A, SEP, B, SEP, CLS]。

另外，我們考慮了BERT模型的三種變體，并報告了各個單獨任務(wù)的最佳微調(diào)結(jié)果。三種變體如下：

模型1（Model-I）：BERT 作者發(fā)布的原始BERT模型

模型2（Model-II）：同樣來自作者的中文全詞覆蓋模型

模型3（Model-III）：由于考慮到下句預(yù)測（NSP）可能會影響表現(xiàn)，我們使用BERT已發(fā)布的代碼針對沒有NSP loss的新模型進行了預(yù)訓(xùn)練

注意：由于通過不同變體可以獲得各個任務(wù)的最佳表現(xiàn)，以上設(shè)置也許會讓BERT模型更占優(yōu)勢。

GLUE 和 SQuAD上的開發(fā)設(shè)置結(jié)果，及 RACE 上的測試設(shè)置結(jié)果如下（并未使用數(shù)據(jù)增強、集成或多任務(wù)學(xué)習(xí)）：

不同模型對比。XLNet-Large （as in paper）所使用的訓(xùn)練數(shù)據(jù)更多一些，batch size也稍大。BERT模型，針對每個數(shù)據(jù)集我們只報告3個變體中微調(diào)最優(yōu)的結(jié)果。

表格中有些觀測結(jié)果非常有趣：

使用相同的數(shù)據(jù)，以及幾乎完全相同的訓(xùn)練方法來訓(xùn)練時，針對所有數(shù)據(jù)集，XLNet都以相當(dāng)?shù)膬?yōu)勢勝過了BERT模型。

投入10倍多數(shù)據(jù)（對比XLNet-Large-wikibooks與XLNet-Large）的性能提升，要小于在11個基準(zhǔn)測試中將其中8個從BERT模型換成XLNet模型的性能提升。

在某些基準(zhǔn)測試（比如CoLA和MRPC）中，使用較少數(shù)據(jù)訓(xùn)練的模型，其表現(xiàn)要優(yōu)于使用較多數(shù)據(jù)訓(xùn)練的模型。

我們相信，從以上結(jié)果中我們也許可以得到一些結(jié)果了。

XLNet的性能提高了：觀測結(jié)果1與我們早期基于基礎(chǔ)模型的對比實驗結(jié)果一致，證明在指定相同的訓(xùn)練條件時，XLNet模型要優(yōu)于BERT模型。

XLNet-Large可以優(yōu)化到更佳：觀測結(jié)果2與觀測結(jié)果3似乎表明，我們之前發(fā)布的XLNet-Large（使用更多數(shù)據(jù)訓(xùn)練）并沒有充分利用數(shù)據(jù)規(guī)模。因此，我們會繼續(xù)研究相關(guān)方法，正確擴展使用XLNet模型進行語言預(yù)訓(xùn)練的規(guī)模。根據(jù)目前有限的觀測結(jié)果，我們推測以下訓(xùn)練細(xì)節(jié)可能發(fā)揮著重要作用：

數(shù)據(jù)相關(guān)：數(shù)據(jù)規(guī)模、數(shù)據(jù)來源、數(shù)據(jù)清洗、數(shù)據(jù)編碼、數(shù)據(jù)格式化

優(yōu)化相關(guān)：學(xué)習(xí)率（以及計劃）、batch size、訓(xùn)練步驟數(shù)、優(yōu)化器

重要的是：這些超參數(shù)可能彼此有高階交互效果。

Facebook AI近期 GLUE 排行榜，可能也說明了訓(xùn)練細(xì)節(jié)的重要性。

總之，本實驗將算法/模型的影響，與類似訓(xùn)練細(xì)節(jié)、大型計算及大數(shù)據(jù)這樣的其他因素明確分離開來。根據(jù)以上結(jié)果，XLNet 團隊認(rèn)為：算法與模型至少是與其他因素同等重要的，它們很可能都是實現(xiàn)自然語言理解最終目標(biāo)所必需的條件。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴