在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

預(yù)訓(xùn)練語(yǔ)言模型設(shè)計(jì)的理論化認(rèn)識(shí)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:潘小小 ? 2020-11-02 15:09 ? 次閱讀

在這篇文章中,我會(huì)介紹一篇最新的預(yù)訓(xùn)練語(yǔ)言模型的論文,出自MASS的同一作者。這篇文章的亮點(diǎn)是:將兩種經(jīng)典的預(yù)訓(xùn)練語(yǔ)言模型(MaskedLanguage Model, Permuted Language Model)統(tǒng)一到一個(gè)框架中,并且基于它們的優(yōu)勢(shì)和缺點(diǎn),取長(zhǎng)補(bǔ)短,提出了一個(gè)新的預(yù)訓(xùn)練語(yǔ)言模型----MPNet,其混合了MLM和PLM各自的優(yōu)勢(shì),達(dá)到了比兩者更好的效果,在Natural Language Understanding和NaturalLanguageGeneration任務(wù)中,都取得了較好的結(jié)果。實(shí)驗(yàn)表明MPNet在大量下游任務(wù)中超越了MLM和PLM,從而證明了pretrain方法中的2個(gè)關(guān)鍵點(diǎn):

被預(yù)測(cè)的token之間的依賴(lài)關(guān)系 (MPNet vs MLM)

整個(gè)序列的位置信息 (MPNet vs PLM)

MPNet: Masked and Permuted Pre-training for Language Understanding(https://arxiv.org/pdf/2004.09297.pdf)

【小小說(shuō)】這篇論文我很喜歡,讀下來(lái)有一種打通了任督二脈一般行云流水的感覺(jué)。在本文中,我會(huì)從BERT和XLNet的統(tǒng)一理論框架講起,然后引出作者如何得到MPNet這一訓(xùn)練方式,接著會(huì)介紹一下作者具體實(shí)現(xiàn)上用到的方法。希望本文可以讓你對(duì)預(yù)訓(xùn)練語(yǔ)言模型的設(shè)計(jì)有一個(gè)更加理論化的認(rèn)識(shí)。

1. BERT和XLNet各自的優(yōu)缺點(diǎn)

?既然是從BERT和XLNet到MPNet,那么當(dāng)然是要先從這兩者講起。大家對(duì)BERT應(yīng)該比較熟悉,它是劃時(shí)代的工作,可以說(shuō)從BERT開(kāi)始,NLP領(lǐng)域正式進(jìn)入了“預(yù)訓(xùn)練模型”的時(shí)代。而XLNet是隨后的重磅之作,在這一節(jié)中,我們先來(lái)回顧一下它們。?

「BERT」: Masked Language Model , 使用了雙邊的context信息,但是忽略了masked token之間的依賴(lài)關(guān)系

「XLNet」: Permuted Language Model , 保留了masked token之間的依賴(lài)關(guān)系,但是預(yù)測(cè)的時(shí)候每個(gè)token只能看到permuted sequence中的前置位的token的信息,不能看到所有token的信息。(p.s. 不知道XLNet的寶寶辛苦去復(fù)習(xí) 【論文串講】從GPT和BERT到XLNet )

作者分別從input和output兩個(gè)角度總結(jié)了兩者的優(yōu)缺點(diǎn)分別存在的地方:

「Input Discrepancy」: 在Natural Language Understanding的任務(wù)中,模型可以見(jiàn)到完整的input sentence,因此要求在預(yù)訓(xùn)練階段,input要盡可能輸入完整的信息

MLM中,token的語(yǔ)言信息是不完整的,不過(guò)位置信息是保留的(通過(guò)position embedding,p.s. 想具體了解如何通過(guò)position embedding保留的,請(qǐng)移步參考 【經(jīng)典精讀】Transformer模型深度解讀 中"使用Positional Encoding帶來(lái)的獨(dú)特優(yōu)勢(shì)"這部分的內(nèi)容)

PLM中,每個(gè)被預(yù)測(cè)的token只能“看”到被打亂的序列中位于它自己前面的token,而不能像MLM一樣“看”到兩側(cè)的token。

「Output Dependency」:

MLM中,輸出的token,即在input端被mask掉的token,是「互相獨(dú)立的」。也就是說(shuō)這些被mask掉的token之間是假定沒(méi)有context層面的關(guān)系的。

PLM規(guī)避了MLM中的問(wèn)題,被預(yù)測(cè)的token之間也存在context層面的關(guān)系。

「總結(jié)一下就是:」

?「PLM在output dependency的問(wèn)題上處理得比MLM好,但是預(yù)訓(xùn)練階段和fine-tune階段之間的差異比MLM的更大。」?

2. 統(tǒng)一MLM和PLM的優(yōu)化目標(biāo)

?了解了BERT和XLNet各自的優(yōu)缺點(diǎn)和適用的場(chǎng)景后,本文的作者試圖從一個(gè)統(tǒng)一的視角去總結(jié)這兩種預(yù)訓(xùn)練模型,而這個(gè)總結(jié),引出了后來(lái)的MPNet。?

基于以上兩點(diǎn)觀察,本文的作者提出了統(tǒng)一Masked Language Model和Permuted Language Model的想法,并且起名叫「M」asked and「P」ermuted Language Model,縮寫(xiě)「MPNet」,意在取兩者之長(zhǎng),避兩者之短。

2.1. 統(tǒng)一優(yōu)化目標(biāo)的提出

MLM: 由于Masked Language Model中的獨(dú)立性假設(shè)“每個(gè)被mask的位置的token之間是彼此獨(dú)立的”,我們可以換一種方式看待Masked Language Model: 把Masked tokens統(tǒng)一挪到序列的末尾,這樣做并不會(huì)改變模型的任何部分,只是我們的看待方式變了。

重新看待Masked Language Model

2. PLM: 原順序 被打亂成

,然后最右邊的兩個(gè)token 和 就被選作要預(yù)測(cè)的token。

重新看待Permuted Language Model

基于上述的討論,作者給出了統(tǒng)一MLM和PLM訓(xùn)練目標(biāo)的框架:將沒(méi)有被mask的token放在左邊,而將需要被預(yù)測(cè)的token(被mask掉的)放在右邊。

「MLM」

「PLM」

其中,是序列的其中一個(gè)permutation,表示在該permutation中的第 位,表示位置小于的所有位置。

2.2. 討論

MLM和PLM的訓(xùn)練目標(biāo)公式非常接近,唯一的區(qū)別在于,MLM條件概率的條件部分是 和 ; 而PLM的條件部分是,它們的區(qū)別是:

MLM比PLM多了 這個(gè)條件,也就是比PLM多了關(guān)于序列長(zhǎng)度的信息(一個(gè)[M]就是一個(gè)位置)。

PLM比MLM多了被預(yù)測(cè)部分token之間的相關(guān)性:PLM的 是隨著預(yù)測(cè)的進(jìn)行(t的變化)而動(dòng)態(tài)變化的,MLM的 對(duì)于整個(gè)模型預(yù)測(cè)過(guò)程進(jìn)行是恒定不變的。

3. 提出MPNet

?

基于上一節(jié)的總結(jié),作者按照相同的思路提出了MPNet的預(yù)訓(xùn)練目標(biāo)

?

「a. MPNet的預(yù)訓(xùn)練目標(biāo)」

我們既要像MLM那樣,在預(yù)測(cè)時(shí)獲取到序列長(zhǎng)度的信息;又要像PLM那樣,在預(yù)測(cè)后一個(gè)token時(shí),以前面的所有token(包含前置位被預(yù)測(cè)出來(lái)的)為條件。MPNet做到了:

MPNet示意圖

(b)圖中灰色的部分是encoder端的bidirectional self-attention

(b)圖中藍(lán)色和綠色的部分分別是decoder端的two stream self-attention的content stream和query stream (two stream self-attention的具體定義請(qǐng)參考 【論文串講】從GPT和BERT到XLNet ),這里提一下,content stream相當(dāng)于query stream右移一步。

(a)圖中黑色的線+綠色的線即對(duì)應(yīng)了(b)圖中的綠色點(diǎn),(a)圖中黑色的線+藍(lán)色的線即對(duì)應(yīng)了(b)圖中的藍(lán)色點(diǎn)。

(b)圖中的行對(duì)應(yīng)著query position,列對(duì)應(yīng)著column position。

「b. ”位置補(bǔ)償“」

由于用到了Permuted Language Model的思想,所以MPNet和XLNet一樣,也要使用two-stream self-attention。想要實(shí)現(xiàn)預(yù)訓(xùn)練目標(biāo)中的 ,在實(shí)現(xiàn)上作者提出了“位置補(bǔ)償”(positioncompensation),也就是說(shuō),在預(yù)測(cè)過(guò)程的每一步,query stream和contentstream都可以看到N(N即序列長(zhǎng)度)個(gè)token,具體結(jié)合圖中的例子來(lái)說(shuō)就是,

預(yù)測(cè) 時(shí): 已知 , , , , , , , ,

預(yù)測(cè) 時(shí): 已知 , , , , , , , , ,

預(yù)測(cè) 時(shí): 已知 , , , , , , , , , ,

也就是說(shuō),無(wú)論預(yù)測(cè)到哪一步, , ,

, , , 這6個(gè)位置信息都可見(jiàn)。我們回顧一下XLNet,作一下對(duì)比:

預(yù)測(cè) 時(shí): 已知 , , , , , ,

預(yù)測(cè) 時(shí): 已知 , , , , , , , ,

預(yù)測(cè) 時(shí): 已知 , , , , , , , , , ,

可以看出,在預(yù)測(cè) 時(shí),比MPNet少了 , ,在預(yù)測(cè) 時(shí),比MPNet少了 。

「c. 總結(jié)」

MPNet有效性來(lái)自于它保留了更多的信息

通過(guò)上面的詳細(xì)講解,相信到這兒大家也明白了:MPNet保留的信息是BERT和XLNet的并集,第一,它利用PLM的自回歸特性,規(guī)避了MLM的獨(dú)立性假設(shè),在預(yù)測(cè)后面token時(shí)也利用了之前預(yù)測(cè)出來(lái)的token;第二,它利用MLM建模中自帶的序列信息,規(guī)避了PLM在預(yù)測(cè)前面的token時(shí)不知道序列整體的長(zhǎng)度的缺點(diǎn)。這兩點(diǎn)保證了MPNet完美揚(yáng)長(zhǎng)避短,因此在下游任務(wù)中完美擊敗了前兩者。

給我們的啟發(fā)

致力于彌合pre-train階段和下游任務(wù)fine-tune階段的預(yù)訓(xùn)練目標(biāo),盡可能減少訓(xùn)練和預(yù)測(cè)過(guò)程中信息的損失,是研究預(yù)訓(xùn)練模型的重中之重,也是預(yù)訓(xùn)練模型領(lǐng)域整體的發(fā)展方向。讀預(yù)訓(xùn)練系列論文的時(shí)候一定要抓住這個(gè)核心線索去讀。

責(zé)任編輯:xj

原文標(biāo)題:【論文串講】從BERT和XLNet到MPNet

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • PLM
    PLM
    +關(guān)注

    關(guān)注

    2

    文章

    136

    瀏覽量

    21331
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22516
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    37

    瀏覽量

    3940

原文標(biāo)題:【論文串講】從BERT和XLNet到MPNet

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過(guò)分詞(Tokenize),轉(zhuǎn)換為大語(yǔ)言模型能直接使用的二進(jìn)制數(shù)據(jù),以便提升訓(xùn)練效果。 ChatGPT發(fā)布后,當(dāng)代大
    的頭像 發(fā)表于 03-21 18:24 ?1306次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無(wú)法導(dǎo)入名稱(chēng)是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    小白學(xué)大模型訓(xùn)練語(yǔ)言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語(yǔ)言模型(LLMs)正以其強(qiáng)大的語(yǔ)言理解和生成能力,改變著我們的生活和工作方式。在最近的一項(xiàng)研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У?b class='flag-5'>訓(xùn)練大型
    的頭像 發(fā)表于 03-03 11:51 ?641次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:<b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的深度指南

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)》,其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對(duì)大
    的頭像 發(fā)表于 02-19 16:10 ?881次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    騰訊公布大語(yǔ)言模型訓(xùn)練新專(zhuān)利

    近日,騰訊科技(深圳)有限公司公布了一項(xiàng)名為“大語(yǔ)言模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”的新專(zhuān)利。該專(zhuān)利的公布,標(biāo)志著騰訊在大語(yǔ)言模型
    的頭像 發(fā)表于 02-10 09:37 ?360次閱讀

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化>這本書(shū)。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型
    發(fā)表于 01-14 16:51

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-06 10:28 ?486次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱(chēng),完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)?

    一,前言 ? 在AI領(lǐng)域,訓(xùn)練一個(gè)大型語(yǔ)言模型(LLM)是一個(gè)耗時(shí)且復(fù)雜的過(guò)程。幾乎每個(gè)做大型語(yǔ)言模型(LLM)
    的頭像 發(fā)表于 11-08 14:15 ?720次閱讀
    從零開(kāi)始<b class='flag-5'>訓(xùn)練</b>一個(gè)大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>需要投資多少錢(qián)?

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?535次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書(shū)

    上周收到《大語(yǔ)言模型應(yīng)用指南》一書(shū),非常高興,但工作項(xiàng)目繁忙,今天才品鑒體驗(yàn),感謝作者編寫(xiě)了一部?jī)?nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個(gè)讓我了解大語(yǔ)言
    發(fā)表于 07-21 13:35

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們?cè)谔岣?b class='flag-5'>模型性能、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定義、原理、應(yīng)用、區(qū)別和聯(lián)系等方面詳細(xì)探討
    的頭像 發(fā)表于 07-11 10:12 ?1930次閱讀

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?910次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

    在人工智能和自然語(yǔ)言處理(NLP)領(lǐng)域,大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱(chēng)LLM)的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過(guò)在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)
    的頭像 發(fā)表于 07-10 11:03 ?2865次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?4237次閱讀
    主站蜘蛛池模板: 国产免费播放一区二区三区 | 国产大片黄在线看免费 | 国产国产人免费人成成免视频 | fxxx性xxx性| 国产精品久久久久久久久ktv | 色一乱一伦一区一直爽 | 国产操女人 | 国产大片黄在线看免费 | 性久久久久久久久 | 天天做天天爱天天综合网 | 青草精品视频 | 福利视频一区二区牛牛 | 日本高清一区二区三区不卡免费 | 午夜影院黄色片 | 国产人成精品香港三级古代 | 老师我好爽再深一点好大 | 色综合久久综合欧美综合图片 | 韩国床戏合集三小时hd中字 | 欧美一级视频在线高清观看 | 一级视频在线观看免费 | 午夜精品网站 | 天天添天天干 | 国产小视频网站 | 香港日本三级在线播放 | ⅹxxxx68日本老师hd | 色黄污在线看黄污免费看黄污 | 久久国产乱子伦精品免费强 | 亚洲精品久久片久久 | 免费人成在观看 | 日本一卡精品视频免费 | 国产色视频网站免费观看 | 五月丁香六月综合缴清无码 | 精品久久久久久婷婷 | 亚色国产 | 日本天堂影院在线播放 | 亚洲国产第一区二区香蕉 | 天天摸天天躁天天添天天爽 | 国产欧美日韩在线人成aaaa | 午夜激情福利 | 六月丁香婷婷综合 | vip影视免费观看 |