【導(dǎo)語】幾周前,XLNet 團隊發(fā)布了新型預(yù)訓(xùn)練語言模型 XLNet,這個新模型在各項基準(zhǔn)測試中都優(yōu)于谷歌之前發(fā)布的BERT模型,其中模型XLNet-Large 的數(shù)據(jù)量更是 BERT 模型的 10 倍左右。那 XLnet 和 BERT 到底要選誰?
這次 XLnet 團隊進行了一次對比實驗,為了確保對比的公正性,在對比實驗中作者采用相同的環(huán)境和配置,相同的訓(xùn)練數(shù)據(jù),并確保在 BERT 和 XLNet 兩個模型的訓(xùn)練方法中,幾乎每個超參數(shù)(hyperparameter)都是相同的,這些超參數(shù)都是由 BERT作者發(fā)布,并在BERT中使用的。即是說,這些超參數(shù)是為BERT模型設(shè)計選擇的,很可能是針對BERT最優(yōu)化的,而非XLNet。具體超參數(shù)設(shè)置如下(兩個模型的超參數(shù)完全相同):
Batch-size: 256
訓(xùn)練步數(shù):1M
優(yōu)化器:Adam,學(xué)習(xí)率 1e-4,warmup 1萬,線性衰減
訓(xùn)練語料庫:Wikipedia + BooksCorpus,在處理Wikipedia時使用了與BERT repo相同的工具,但出于某種原因,我們的Wiki語料庫僅有20億單詞,BERT使用了25億單詞,因此XLNet的訓(xùn)練數(shù)據(jù)略少于BERT。
模型結(jié)構(gòu)參數(shù):24層,1024個隱層,16 heads
微調(diào)(finetuning)超參數(shù)搜索空間
此外,作者還修改了一些數(shù)據(jù)相關(guān)的實現(xiàn)細(xì)節(jié),以便與BERT模型進行一對一的比較。
在之前的實驗中,預(yù)訓(xùn)練環(huán)節(jié),未被mask的token無法看到分類token CLS和分隔token SEP,而現(xiàn)階段的實現(xiàn)中可以看到了,與BERT模型保持一致。
在微調(diào)環(huán)節(jié),與BERT一樣,用“BERT格式”取代了普通的 XLNet格式,即使用[CLS, A, SEP, B, SEP]取代了[A, SEP, B, SEP, CLS]。
另外,我們考慮了BERT模型的三種變體,并報告了各個單獨任務(wù)的最佳微調(diào)結(jié)果。三種變體如下:
模型1(Model-I):BERT 作者發(fā)布的原始BERT模型
模型2(Model-II):同樣來自作者的中文全詞覆蓋模型
模型3(Model-III):由于考慮到下句預(yù)測(NSP)可能會影響表現(xiàn),我們使用BERT已發(fā)布的代碼針對沒有NSP loss的新模型進行了預(yù)訓(xùn)練
注意:由于通過不同變體可以獲得各個任務(wù)的最佳表現(xiàn),以上設(shè)置也許會讓BERT模型更占優(yōu)勢。
GLUE 和 SQuAD上的開發(fā)設(shè)置結(jié)果,及 RACE 上的測試設(shè)置結(jié)果如下(并未使用數(shù)據(jù)增強、集成或多任務(wù)學(xué)習(xí)):
不同模型對比。XLNet-Large (as in paper)所使用的訓(xùn)練數(shù)據(jù)更多一些,batch size也稍大。BERT模型,針對每個數(shù)據(jù)集我們只報告3個變體中微調(diào)最優(yōu)的結(jié)果。
表格中有些觀測結(jié)果非常有趣:
使用相同的數(shù)據(jù),以及幾乎完全相同的訓(xùn)練方法來訓(xùn)練時,針對所有數(shù)據(jù)集,XLNet都以相當(dāng)?shù)膬?yōu)勢勝過了BERT模型。
投入10倍多數(shù)據(jù)(對比XLNet-Large-wikibooks與XLNet-Large)的性能提升,要小于在11個基準(zhǔn)測試中將其中8個從BERT模型換成XLNet模型的性能提升。
在某些基準(zhǔn)測試(比如CoLA和MRPC)中,使用較少數(shù)據(jù)訓(xùn)練的模型,其表現(xiàn)要優(yōu)于使用較多數(shù)據(jù)訓(xùn)練的模型。
我們相信,從以上結(jié)果中我們也許可以得到一些結(jié)果了。
XLNet的性能提高了:觀測結(jié)果1與我們早期基于基礎(chǔ)模型的對比實驗結(jié)果一致,證明在指定相同的訓(xùn)練條件時,XLNet模型要優(yōu)于BERT模型。
XLNet-Large可以優(yōu)化到更佳:觀測結(jié)果2與觀測結(jié)果3似乎表明,我們之前發(fā)布的XLNet-Large(使用更多數(shù)據(jù)訓(xùn)練)并沒有充分利用數(shù)據(jù)規(guī)模。因此,我們會繼續(xù)研究相關(guān)方法,正確擴展使用XLNet模型進行語言預(yù)訓(xùn)練的規(guī)模。根據(jù)目前有限的觀測結(jié)果,我們推測以下訓(xùn)練細(xì)節(jié)可能發(fā)揮著重要作用:
數(shù)據(jù)相關(guān):數(shù)據(jù)規(guī)模、數(shù)據(jù)來源、數(shù)據(jù)清洗、數(shù)據(jù)編碼、數(shù)據(jù)格式化
優(yōu)化相關(guān):學(xué)習(xí)率(以及計劃)、batch size、訓(xùn)練步驟數(shù)、優(yōu)化器
重要的是:這些超參數(shù)可能彼此有高階交互效果。
Facebook AI近期 GLUE 排行榜,可能也說明了訓(xùn)練細(xì)節(jié)的重要性。
總之,本實驗將算法/模型的影響,與類似訓(xùn)練細(xì)節(jié)、大型計算及大數(shù)據(jù)這樣的其他因素明確分離開來。根據(jù)以上結(jié)果,XLNet 團隊認(rèn)為:算法與模型至少是與其他因素同等重要的,它們很可能都是實現(xiàn)自然語言理解最終目標(biāo)所必需的條件。
-
代碼
+關(guān)注
關(guān)注
30文章
4900瀏覽量
70738 -
語言模型
+關(guān)注
關(guān)注
0文章
561瀏覽量
10789 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25447
原文標(biāo)題:XLNet:公平PK,BERT你已經(jīng)被超過!
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論