在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于多任務(wù)預(yù)訓(xùn)練模塊化提示

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-06-20 11:04 ? 次閱讀

Prompt Tuning 可以讓預(yù)訓(xùn)練的語言模型快速適應(yīng)下游任務(wù)。雖然有研究證明:當(dāng)訓(xùn)練數(shù)據(jù)足夠多的時(shí)候,Prompt Tuning 的微調(diào)結(jié)果可以媲美整個(gè)模型的訓(xùn)練調(diào)優(yōu),但當(dāng)面對(duì) Few-shot 場(chǎng)景時(shí),PT 的調(diào)優(yōu)方法還是存在一定的局限性。針對(duì)這個(gè)問題,復(fù)旦提出了多任務(wù)預(yù)訓(xùn)練模塊化 Prompt(簡(jiǎn)稱為:),來提高模型在 Few-shot 場(chǎng)景下的 PT 效果,使模型能夠快速適應(yīng)下游任務(wù)。

背景介紹

基于 Prompt Learning 的預(yù)訓(xùn)練模型在 Few-shot 場(chǎng)景下取得了顯著的進(jìn)展,它縮小了模型訓(xùn)練和下游任務(wù)微調(diào)之間的差距,并且通過將下游任務(wù)轉(zhuǎn)換成統(tǒng)一的語言建模任務(wù),可以重復(fù)使用預(yù)訓(xùn)練模型頭,而不是訓(xùn)練一個(gè)隨機(jī)初始化的分類頭來解決有限數(shù)據(jù)的任務(wù)。然而,基于 Prompt Learning 通常需要針對(duì)每個(gè)下游任務(wù)進(jìn)行全參數(shù)微調(diào),這就需要大量的計(jì)算資源,尤其當(dāng)面對(duì)上百億的大模型的時(shí)候。

隨著時(shí)間推移,近期有很多工作致力于有效的 prompt learning 方法的研究,該方法只需學(xué)習(xí)少量的 soft prompt 參數(shù),并且能夠保持 PTM 主體參數(shù)不變。與模型的整體調(diào)優(yōu)相比,prompt 調(diào)優(yōu)優(yōu)勢(shì)明顯,它對(duì)計(jì)算資源要求較低并且針對(duì)特定的下游任務(wù)能夠?qū)崿F(xiàn)快速調(diào)優(yōu)匹配。但是盡管已經(jīng)證明,當(dāng)訓(xùn)練數(shù)據(jù)足夠時(shí),提示調(diào)整可以與完整模型調(diào)整的性能相匹配,但由于隨機(jī)初始化的 soft prompt 在預(yù)訓(xùn)練和微調(diào)之間引入了新的差距,因此在 Few-shot 中無法從零開始訓(xùn)練 soft prompt。

「為了彌補(bǔ) Prompt Tuning 的預(yù)訓(xùn)練和微調(diào)之間的差距,本文提出了多任務(wù)預(yù)訓(xùn)練模塊化提示 (),它是一組在 38 個(gè)中文任務(wù)上預(yù)訓(xùn)練的可組合提示」,在下游任務(wù)中,預(yù)訓(xùn)練的 prompt 可以有選擇地進(jìn)行激活和組合,提高對(duì)未知任務(wù)的泛化能力。為了彌合預(yù)訓(xùn)練和微調(diào)之間的差距,將上下游任務(wù)制定為統(tǒng)一到了一個(gè)機(jī)器閱讀理解任務(wù)中。 通過在梯度下降、黑盒調(diào)優(yōu)兩種學(xué)習(xí)范式的實(shí)驗(yàn),證明了 在 Few-shot 學(xué)習(xí)場(chǎng)景中,相比比 Prompt tuning、完整模型調(diào)優(yōu)和其它的 Prompt 預(yù)訓(xùn)練方法都具有顯著的優(yōu)勢(shì),最后作者還證明了僅通過學(xué)習(xí) 8 個(gè)參數(shù)來組合預(yù)訓(xùn)練的模塊化提示,就可以實(shí)現(xiàn)對(duì)下游任務(wù)的快速適應(yīng)。

方法介紹

方法主要通過以下三個(gè)步驟實(shí)現(xiàn)對(duì)下游任務(wù)的快速適應(yīng):(1) 在大規(guī)模無標(biāo)簽數(shù)據(jù)上進(jìn)行自監(jiān)督預(yù)訓(xùn)練;(2) 使用多任務(wù)學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練模塊指令和相應(yīng)的 route;(3) 激活并調(diào)整子集指令以進(jìn)行對(duì)下游任務(wù)的適應(yīng)。具體流程圖如下所示: 5dc0d54a-0e82-11ee-962d-dac502259ad0.png ?方法的主要內(nèi)容包括:「統(tǒng)一為 MRC 任務(wù)、深度模塊化 Prompt、多任務(wù)預(yù)訓(xùn)練、下游 FT」等四個(gè)方面。 「統(tǒng)一 MRC 任務(wù)」:基于 Prompt 的學(xué)習(xí)方法不能涵蓋較廣范圍的任務(wù),并且任務(wù)之間的標(biāo)簽詞可能不同,從而導(dǎo)致預(yù)訓(xùn)練模型在不同任務(wù)上的效果不佳。基于 MCC 方法,可以將上下游任務(wù)轉(zhuǎn)化成 MCC 任務(wù)使得不同任務(wù)可以共享相同的標(biāo)簽詞,但該方法當(dāng)面對(duì)大于 16 個(gè)標(biāo)簽的分類任務(wù)時(shí)仍存在局限性。為此 方法將上下游任務(wù)統(tǒng)一成機(jī)器閱讀理解 (MRC) 格式,通過構(gòu)建一個(gè)查詢來進(jìn)行分類任務(wù),進(jìn)而可以處理不同標(biāo)簽數(shù)的任務(wù),從而實(shí)現(xiàn)更廣泛的任務(wù)支持。 「深度模塊化 Prompt」:為了增加 soft prompt 的能力,使其匹配訓(xùn)練數(shù)據(jù)的復(fù)雜性,作者從深度和寬度兩個(gè)維度擴(kuò)展了 soft prompt,具體如下圖所示:

5dce2894-0e82-11ee-962d-dac502259ad0.png

其中:首先在深度方面,作者增加了 LSTM 層或 Transformer Decoder 來實(shí)現(xiàn)深度擴(kuò)展。這些層使得模型可以更好地學(xué)習(xí)輸入序列的表示,并且能夠考慮更多的上下文信息;其次在寬度方面,作者在 soft prompt 里面添加了更多的詞匯和語義信息。通過深度和寬度的拓展,soft prompt 可以更好地匹配訓(xùn)練數(shù)據(jù)的復(fù)雜性,從而提高模型的性能和準(zhǔn)確率。

「多任務(wù)預(yù)訓(xùn)練」:多任務(wù)學(xué)習(xí)已被證明可以提高各種任務(wù)的 prompt learning 的表現(xiàn)。作者對(duì)由 38 個(gè)不同類型、領(lǐng)域、大小的中文 NLP 任務(wù)組成的混合任務(wù)進(jìn)行了深度模塊化提示的預(yù)訓(xùn)練。為了處理不平衡的數(shù)據(jù)大小,對(duì)于每次向前計(jì)算,首先隨機(jī)從 1 到 38 中選擇一個(gè)任務(wù) ID,然后獲取對(duì)應(yīng)于所選擇任務(wù)的一個(gè)批次的訓(xùn)練數(shù)據(jù),從而每個(gè)任務(wù)的學(xué)習(xí)步驟數(shù)量應(yīng)該是相同的。

「下游 FT」:為了能夠快速適應(yīng)下游任務(wù),本文通過兩個(gè)階段進(jìn)行微調(diào),如下圖所示:

5dd55d30-0e82-11ee-962d-dac502259ad0.png

其中:在第一階段,為每個(gè)層分配一個(gè)隨機(jī)路由,并訓(xùn)練 route 選擇性地重用預(yù)訓(xùn)練的模塊提示來解決目標(biāo)任務(wù),同時(shí)保持所有其他參數(shù)凍結(jié)。在第二階段,凍結(jié) route 并只微調(diào)選擇的提示。整個(gè)微調(diào)過程中,PTM 參數(shù)保持不變。同時(shí)作者探索了基于梯度下降和黑盒調(diào)優(yōu)兩種學(xué)習(xí)范式下的微調(diào)。對(duì)于梯度下降,使用 Adam 優(yōu)化器進(jìn)行兩個(gè)階段的微調(diào)。對(duì)于黑盒 FT,采用貝葉斯優(yōu)化在第一階段優(yōu)化 route,并采用 CMAES 優(yōu)化選擇的內(nèi)在 prompt ,同時(shí)凍結(jié)映射矩陣 A。

實(shí)驗(yàn)思路 在 38 個(gè)中文 NLP 任務(wù)上預(yù)訓(xùn)練,然后在 14 個(gè)下游任務(wù)上進(jìn)行評(píng)估。在 Few-Shot 下的實(shí)驗(yàn)表明,具體如下圖所示,可以發(fā)現(xiàn)「其性能明顯優(yōu)于 PT、全模型微調(diào)和之前的 prompt 訓(xùn)練方法」。僅通過調(diào)整 route(僅有 8 個(gè)參數(shù))凍結(jié) PTM 和所有 prompt,就可以實(shí)現(xiàn)對(duì)下游任務(wù)的快速適應(yīng)。 5deb949c-0e82-11ee-962d-dac502259ad0.png
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模塊
    +關(guān)注

    關(guān)注

    7

    文章

    2733

    瀏覽量

    47748
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7139

    瀏覽量

    89577
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    538

    瀏覽量

    10341

原文標(biāo)題:ACL 2023 | 復(fù)旦邱錫鵬組提出模塊化Prompt多任務(wù)預(yù)訓(xùn)練,可快速適應(yīng)下游任務(wù)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于CVR建模的多任務(wù)聯(lián)合學(xué)習(xí)訓(xùn)練方法——ESMM

    本文作者提出 ESMM 算法,通過定義新型多任務(wù)聯(lián)合訓(xùn)練的方式,以全新的視角對(duì) CVR 進(jìn)行建模。
    的頭像 發(fā)表于 08-27 16:41 ?5608次閱讀
    基于CVR建模的<b class='flag-5'>多任務(wù)</b>聯(lián)合學(xué)習(xí)<b class='flag-5'>訓(xùn)練</b>方法——ESMM

    【大語言模型:原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

    進(jìn)行損失計(jì)算,得到下一個(gè)目標(biāo)的預(yù)測(cè)。也會(huì)設(shè)計(jì)一些其他輔助訓(xùn)練任務(wù),與主任務(wù)共同訓(xùn)練。選擇合適的預(yù)訓(xùn)練數(shù)據(jù)是確保模型性能和泛
    發(fā)表于 05-07 17:10

    setjmp構(gòu)建簡(jiǎn)單協(xié)作式多任務(wù)系統(tǒng)

    系統(tǒng)的調(diào)度只在用戶指定的時(shí)機(jī)發(fā)生,這會(huì)大大簡(jiǎn)化內(nèi)核和用戶系統(tǒng)的設(shè)計(jì),尤其本文實(shí)現(xiàn)的系統(tǒng)通過條件查詢來放棄CPU,既符合傳統(tǒng)單片機(jī)程序設(shè)計(jì)的思維,又帶來了多任務(wù)模塊化、可重入的編程便利。Setjmp
    發(fā)表于 12-07 15:55

    功放預(yù)失真模塊化測(cè)試解決方案

    功放預(yù)失真模塊化測(cè)試解決方案
    發(fā)表于 05-16 16:16

    模塊化編程

    在練習(xí)模塊化編程的時(shí)候,知道盡量不用全局變量!!可是,不得不使用很多的全局變量的時(shí)候,怎么辦?提示multiple public……
    發(fā)表于 08-26 16:17

    多任務(wù)編程多任務(wù)處理是指什么

    嵌入式Linux應(yīng)用編程-多任務(wù)編程多任務(wù)處理是指用戶可在同一時(shí)間內(nèi)運(yùn)行多個(gè)應(yīng)用程序,每個(gè)正在執(zhí)行的應(yīng)用程序被稱為一個(gè)任務(wù)。Linux就是一個(gè)支持多任務(wù)的操作系統(tǒng),比起單
    發(fā)表于 12-22 08:30

    ZMC運(yùn)動(dòng)控制器多任務(wù)編程一

    、用戶多任務(wù)程序。運(yùn)動(dòng)控制器支持多任務(wù)編程,各任務(wù)可以獨(dú)立執(zhí)行,任務(wù)間不受影響。通過劃分任務(wù),程序模塊化
    發(fā)表于 11-07 09:52

    嵌入式多任務(wù)GUI的通用解決方案

    針對(duì)嵌入式多任務(wù) GUI 系統(tǒng)需要非常強(qiáng)的靈活性、可移植性和可伸縮性的特點(diǎn).提出一種通用解決方案;采用層次模塊化和面向?qū)ο蟮脑O(shè)計(jì)思想,給出了 GUI 的體系結(jié)構(gòu),并對(duì)多任務(wù) GUI
    發(fā)表于 01-04 18:30 ?24次下載

    實(shí)時(shí)多任務(wù)嵌入式軟件的架構(gòu)方式的設(shè)計(jì)應(yīng)用

    分享到:標(biāo)簽:軟總線 嵌入式軟件 實(shí)時(shí)多任務(wù) 1.引言 隨著大型嵌入式系統(tǒng)向著集成化和多元方向的發(fā)展,嵌入式軟件系統(tǒng)的復(fù)雜度也日益增大。在集成多個(gè)硬件工作模塊組成的復(fù)雜系統(tǒng)中,要求軟件系統(tǒng)能同時(shí)
    發(fā)表于 10-25 14:46 ?1次下載
    實(shí)時(shí)<b class='flag-5'>多任務(wù)</b>嵌入式軟件的架構(gòu)方式的設(shè)計(jì)應(yīng)用

    新的預(yù)訓(xùn)練方法——MASS!MASS預(yù)訓(xùn)練幾大優(yōu)勢(shì)!

    專門針對(duì)序列到序列的自然語言生成任務(wù),微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法:屏蔽序列到序列預(yù)訓(xùn)練(MASS: Masked Sequence
    的頭像 發(fā)表于 05-11 09:34 ?7133次閱讀
    新的<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>方法——MASS!MASS<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>幾大優(yōu)勢(shì)!

    一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型

    和理解能力。為此,提岀一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型,該模型是由一組功能各異的神經(jīng)絡(luò)構(gòu)成的聯(lián)合學(xué)習(xí)模型,其仿效人們推理和回答冋題的基本方式分別執(zhí)行文檔選擇和答案抽取兩個(gè)關(guān)鍵步驟。檔選擇過程融入了基于注意
    發(fā)表于 03-16 11:41 ?10次下載
    一種基于<b class='flag-5'>多任務(wù)</b>聯(lián)合<b class='flag-5'>訓(xùn)練</b>的閱讀理解模型

    基于預(yù)訓(xùn)練模型和長(zhǎng)短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型

    語義槽填充是對(duì)話系統(tǒng)中一項(xiàng)非常重要的任務(wù),旨在為輸入句子的毎個(gè)單詞標(biāo)注正確的標(biāo)簽,其性能的妤壞極大地影響著后續(xù)的對(duì)話管理模塊。目前,使用深度學(xué)習(xí)方法解決該任務(wù)時(shí),一般利用隨機(jī)詞向量或者預(yù)
    發(fā)表于 04-20 14:29 ?19次下載
    基于<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>模型和長(zhǎng)短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型

    利用視覺語言模型對(duì)檢測(cè)器進(jìn)行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語言處理以及計(jì)算機(jī)視覺領(lǐng)域,以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,達(dá)到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場(chǎng)景文本檢測(cè)當(dāng)中,如最早的使用ImageNet預(yù)
    的頭像 發(fā)表于 08-08 15:33 ?1460次閱讀

    什么是預(yù)訓(xùn)練 AI 模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。 如果要教一個(gè)剛學(xué)會(huì)走路的孩子什么是獨(dú)角獸,那么
    的頭像 發(fā)表于 04-04 01:45 ?1529次閱讀

    什么是預(yù)訓(xùn)練AI模型?

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用,也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。
    的頭像 發(fā)表于 05-25 17:10 ?1126次閱讀
    主站蜘蛛池模板: 四虎影院中文字幕 | 一级毛片ab片高清毛片 | 自拍偷自拍亚洲精品被多人伦好爽 | 狠狠色成色综合网 | aaaa日本| 色噜噜狠狠大色综合 | 黄色国产网站 | 黄色一级大片视频 | 同性男男肉交短文 | 亚洲卡一卡2卡三卡4卡国色 | 亚洲视频在线一区二区 | 亚洲成a人片在线观看中 | 夜夜爽天天操 | 日本韩国三级在线 | 国产全黄三级三级 | 国产黄色在线网站 | 手机看片日韩永久福利盒子 | 日韩卡1卡2卡三卡四卡二卡免 | 四虎精品永久在线 | fxxx性xxx性| 二级黄绝大片中国免费视频 | 日本三级午夜 | 视频在线观看免费 | 激情六月丁香 | 欧美日韩国产一区二区 | 亚洲成人高清在线 | 视频一区亚洲 | 日本午夜大片免费观看视频 | 天天看天天摸天天操 | 黄色视屏日本 | 狠狠躁天天躁 | 香港澳门a级三级三级全黄 香港经典a毛片免费观看爽爽影院 | 二级黄的全免费视频 | 新版天堂资源中文在线 | 一级毛片女人喷潮 | 女人特黄大aaaaaa大片 | 亚洲欧美在线一区二区 | 午夜丁香影院 | 国产国产人免费人成成免视频 | 免费在线黄网站 | 亚洲成人午夜影院 |