在最新的 NLU 測試基準(zhǔn) SuperGLUE 中,微軟提出的 DeBERTa 登頂榜單,并超越人類。
去年 6 月,來自微軟的研究者提出一種新型預(yù)訓(xùn)練語言模型 DeBERTa,該模型使用兩種新技術(shù)改進了 BERT 和 RoBERTa 模型。8 月,該研究開源了模型代碼,并提供預(yù)訓(xùn)練模型下載。最近這項研究又取得了新的進展。 微軟最近通過訓(xùn)練更大的版本來更新 DeBERTa 模型,該版本由 48 個 Transformer 層組成,帶有 15 億個參數(shù)。本次擴大規(guī)模帶來了極大的性能提升,使得單個 DeBERTa 模型 SuperGLUE 上宏平均(macro-average)得分首次超過人類(89.9 vs 89.8),整體 DeBERTa 模型在 SuperGLUE 基準(zhǔn)排名中居于首位,以 90.3 的得分顯著高出人類基線(89.8)。目前該模型以 90.8 的宏平均(macro-average)得分高居 GLUE 基準(zhǔn)排名的首位。
SuperGLUE 排行榜,2021 年 1 月 6 日。 DeBERTa 是一種基于 Transformer,使用自監(jiān)督學(xué)習(xí)在大量原始文本語料庫上預(yù)訓(xùn)練的神經(jīng)語言模型。像其他 PLM 一樣,DeBERTa 旨在學(xué)習(xí)通用語言表征,可以適應(yīng)各種下游 NLU 任務(wù)。DeBERTa 使用 3 種新技術(shù)改進了之前的 SOTA PLM(例如 BERT、RoBERTa、UniLM),這 3 種技術(shù)是:
分解注意力(disentangled attention)機制;
增強型掩碼解碼器;
一種用于微調(diào)的虛擬對抗訓(xùn)練方法。
DeBERTa 的架構(gòu)。 最近該研究在 arXiv 上提交了 DeBERTa 的最新論文,文中詳細介紹了 DeBERTa 模型的方法及最新的實驗結(jié)果。
論文鏈接:https://arxiv.org/pdf/2006.03654v2.pdf 下面我們來詳細看一下該模型用到的 3 種新技術(shù)。 分解注意力機制 與 BERT 不同,DeBERTa 中每個詞使用兩個對其內(nèi)容和位置分別進行編碼的向量來表示,使用分解矩陣分別根據(jù)詞的內(nèi)容和相對位置來計算詞間的注意力權(quán)重。采用這種方法是因為:詞對的注意力權(quán)重(衡量詞與詞之間的依賴關(guān)系強度)不僅取決于它們的內(nèi)容,還取決于它們的相對位置。例如,「deep」和「learning」這兩個詞在同一個句子中接連出現(xiàn)時的依賴關(guān)系要比它們出現(xiàn)在不同句子中強得多。 增強型掩碼解碼器 與 BERT 一樣,DeBERTa 也使用掩碼語言建模(MLM)進行了預(yù)訓(xùn)練。DeBERTa 將語境詞的內(nèi)容和位置信息用于 MLM。分解注意力機制已經(jīng)考慮了語境詞的內(nèi)容和相對位置,但并沒有考慮這些詞的絕對位置,但這在很多情況下對于預(yù)測至關(guān)重要。 例如句子「a new store opened beside the new mall」其中,「store」和「mall」在用于預(yù)測時被掩碼操作。盡管兩個詞的局部語境相似,但是它們在句子中扮演的句法作用是不同的。(例如,句子的主角是「store」而不是「mall」)。
這些句法上的細微差別在很大程度上取決于詞在句子中的絕對位置,因此考慮單詞在語言建模過程中的絕對位置是非常重要的。DeBERTa 在 softmax 層之前合并了絕對詞位置嵌入,在該模型中,模型根據(jù)詞內(nèi)容和位置的聚合語境嵌入對被掩碼的詞進行解碼。 規(guī)模不變的微調(diào) 虛擬對抗訓(xùn)練是一種提升模型泛化性的正則化方法。它通過提高模型對對抗樣本(adversarial examples)的魯棒性來實現(xiàn)這一點,其中對抗樣本是通過對輸入進行細微的干擾而創(chuàng)建的。對模型進行正則化,以便在給出一種特定任務(wù)樣本時,該模型產(chǎn)生的輸出分布與在該樣本的對抗型干擾版本上產(chǎn)生的輸出分布相同。對于 NLU 任務(wù),干擾被用于詞嵌入,而不是原始的詞序列。
但是,嵌入向量的值范圍(范數(shù))在不同的詞和模型上有所不同。對于具有數(shù)十億個參數(shù)的較大模型,方差會比較大,從而導(dǎo)致對抗訓(xùn)練不穩(wěn)定性。受層歸一化的啟發(fā),為了提高訓(xùn)練穩(wěn)定性,該研究開發(fā)了一種規(guī)模不變的微調(diào)(Scale-Invariant-Fine-Tuning (SiFT))方法,該方法將干擾用于歸一化的詞嵌入。 實驗 該研究用實驗及結(jié)果評估了 DeBERTa 在 NLU 和 NLG 的各種 NLP 任務(wù)上的性能。 在 NLU 任務(wù)上的主要結(jié)果 受此前 BERT、 RoBERTa 和 XLNet 等論文的影響,該研究使用大型模型和基礎(chǔ)模型進行結(jié)果展示。 大型模型性能結(jié)果如下表所示:
表 1:在 GLUE 開發(fā)集上的結(jié)果對比。 表 1 總結(jié)了 8 個 GLUE 任務(wù)的結(jié)果,其中將 DeBERTa 與具有類似 transformer 結(jié)構(gòu)的一些模型進行了比較,這些模型包括 BERT、 RoBERTa、XLNet、ALBERT 以及 ELECTRA。注意,RoBERTa、 XLNet 以及 ELECTRA 訓(xùn)練數(shù)據(jù)的大小為 160G,而 DeBERTa 訓(xùn)練數(shù)據(jù)大小為 78G。 該研究還對 DeBERTa 進行了一些其他的基準(zhǔn)評估:
問答:SQuAD v1.1、SQuAD v2.0、RACE、ReCoRD 以及 SWAG;
自然語言推理:MNLI;
命名體識別(NER):CoNLL-2003。
結(jié)果如表 2 所示。
表 2:在 MNLI in/out-domain、 SQuAD v1.1、 SQuAD v2.0、 RACE、 ReCoRD、 SWAG、 CoNLL 2003 NER 開發(fā)集上的結(jié)果展示。 基礎(chǔ)模型性能比較 基礎(chǔ)模型預(yù)訓(xùn)練的設(shè)置與大型模型的設(shè)置類似,基礎(chǔ)模型結(jié)構(gòu)遵循 BERT 的基礎(chǔ)模型結(jié)構(gòu),性能評估結(jié)果如表 3 所示。
表 3:在 MNLI in/out-domain (m/mm)、SQuAD v1.1 和 v2.0 開發(fā)集上的結(jié)果對比。 生成任務(wù)結(jié)果比較 該研究在數(shù)據(jù)集 Wikitext-103 上,進一步對帶有自回歸語言模型 (ARLM) 的 DeBERTa 模型進行了評估。
表 4:在 Wikitext-103 數(shù)據(jù)集上,不同語言模型對比結(jié)果。 DeBERTa_base 在開發(fā)集和測試集上都獲得了比較好的 PPL 結(jié)果,MLM 和 ARLM 聯(lián)合訓(xùn)練進一步降低了 PPL,這展示了 DeBERTa 的有效性。 模型分析 消融實驗:為了驗證實驗設(shè)置,該研究從頭開始預(yù)訓(xùn)練 RoBERTa 基礎(chǔ)模型。并將重新預(yù)訓(xùn)練的 RoBERTa 稱為 RoBERTa-ReImp_base。為了研究 DeBERTa 模型不同部分對性能的影響,研究人員設(shè)計了三種變體:
EMD 表示沒有 EMD 的 DeBERTa 基礎(chǔ)模型;
C2P 表示沒有內(nèi)容到位置 term 的 DeBERTa 基礎(chǔ)模型;
P2C 表示沒有位置到內(nèi)容 term 的 DeBERTa 基礎(chǔ)模型。由于 XLNet 也使用了相對位置偏差,所以該模型與 XLNet + EMD 模型比較接近。
表 5 總結(jié)了 DeBERTa 基礎(chǔ)模型消融實驗在四個基準(zhǔn)數(shù)據(jù)集上的結(jié)果。 預(yù)訓(xùn)練效率 為了研究模型預(yù)訓(xùn)練的收斂性,該研究以預(yù)訓(xùn)練 step 數(shù)的函數(shù)的形式可視化微調(diào)下游任務(wù)的性能,如圖 1 所示,對于 RoBERTa ReImp 基礎(chǔ)模型和 DeBERTa 基礎(chǔ)模型,該研究每 150K 個預(yù)訓(xùn)練 step 存儲一個檢查點,然后對兩個有代表性的下游任務(wù)(MNLI 和 SQuAD v2.0)上的檢查點進行微調(diào),之后分別報告準(zhǔn)確率和 F1 得分。
圖 1:DeBERTa 及其相似模型在 MNLI 、 SQuAD v2.0 開發(fā)集上的預(yù)訓(xùn)練性能曲線。 擴展至 15 億參數(shù) 更大的預(yù)訓(xùn)練模型會顯示出更好的泛化結(jié)果。因此,該研究建立了一個擁有 15 億個參數(shù)的 DeBERTa,表示為 DeBERTa_1.5B,該模型有 48 層。在 160G 預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練 DeBERTa_1.5B,并且使用數(shù)據(jù)集構(gòu)造了一個大小為 128K 的新詞匯表。
表 6:DeBERTa_1.5B 和其他幾種模型在 SuperGLUE 測試集上的結(jié)果。
原文標(biāo)題:NLU新里程碑,微軟DeBERTa登頂SuperGLUE排行榜,顯著超越人類
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
微軟
+關(guān)注
關(guān)注
4文章
6685瀏覽量
105718 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103548
原文標(biāo)題:NLU新里程碑,微軟DeBERTa登頂SuperGLUE排行榜,顯著超越人類
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
天合光能榮登全球鈣鈦礦太陽能電池專利排行榜第一
銳成芯微榮登2025中國IC設(shè)計Fabless100排行榜之TOP10 IP公司
墨芯榮登2025中國IC設(shè)計Fabless100排行榜之TOP10 AI芯片公司
博泰車聯(lián)網(wǎng)榮登“2024年度中國超級獨角獸排行榜”TOP50
博泰車聯(lián)網(wǎng)榮登2024年度中國超級獨角獸排行榜
京東方位列2024 IFI專利授權(quán)排行榜全球第12位
安全光柵十大品牌排行榜最新2025年

騰訊混元文生圖登頂智源FlagEval評測榜首
潤和軟件榮登2024智慧金融企業(yè)排行榜單
2024年色標(biāo)傳感器品牌排行榜前十名最新

調(diào)用云數(shù)據(jù)庫更新排行榜單
2024年激光位移傳感器品牌排行榜前十最新名單

評論