在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)基于參數(shù)更新的遷移學(xué)習(xí)的統(tǒng)一框架

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLP日志 ? 作者:NLP日志 ? 2022-09-26 10:29 ? 次閱讀

1 簡(jiǎn)介

在下游任務(wù)對(duì)大規(guī)模預(yù)訓(xùn)練模型進(jìn)行finetune已經(jīng)成為目前NLP一種流行的學(xué)習(xí)方法,然而傳統(tǒng)的finetune方法會(huì)更新預(yù)訓(xùn)練語(yǔ)言模型的全部參數(shù),這種方式隨著模型尺寸跟下游任務(wù)數(shù)量的增加會(huì)變得難以承受。

于是乎,出現(xiàn)了一系列高效的更新參數(shù)的遷移學(xué)習(xí)方式,通過(guò)只更新少量模型參數(shù)來(lái)保證下游任務(wù)的效果,例如前面章節(jié)提及的prompt learning,Adapter,LoRA,BitFit等方法。

這些方法雖然有效,但他們成功的原因跟彼此之間的聯(lián)系卻不明所以,這對(duì)我們理解這些關(guān)鍵設(shè)計(jì)造成了阻礙。

在這個(gè)章節(jié),我們介紹一篇ICLR2022相關(guān)的論文,它提出一個(gè)基于參數(shù)更新的遷移學(xué)習(xí)的統(tǒng)一框架,建立多種參數(shù)優(yōu)化方法之間的聯(lián)系,從而方便理解不同方法背后的關(guān)鍵設(shè)計(jì),進(jìn)而設(shè)計(jì)出只更新更少參數(shù)同時(shí)取得更好效果的參數(shù)優(yōu)化方法。

2 背景

在這個(gè)篇章,我們從另一種角度去回顧之前提及的多種高效的參數(shù)優(yōu)化方法,通過(guò)一種更加抽象的方式去解析其中的原理跟細(xì)節(jié),從而比對(duì)彼此之間的共性與差異,構(gòu)建一個(gè)統(tǒng)一的框架。

2.1 Prefix tuning

Prefix tuning會(huì)在每層transformer的多個(gè)attention的key跟value向量中插入l個(gè)用于更新參數(shù)的prefix向量,每個(gè)attention的計(jì)算公式如下,其中的Pk,Pv就是新插入的prefix向量。

57a4453a-3cdb-11ed-9e49-dac502259ad0.png


圖1:prefix tuning

而等式的前半部分是不加入prefix向量的初始attention計(jì)算的公式,后半部分則是跟上下文向量C無(wú)關(guān)的部分,通過(guò)一個(gè)類似門的機(jī)制來(lái)計(jì)算前后兩部分的比重,如果用h表示原本的attention模塊輸出,那么prefix tuning的attention計(jì)算可以寫成如下形式,加入prefix的attention模塊輸出等于原本attention模塊輸出和一個(gè)的與上下文無(wú)關(guān)的增量之間的加權(quán)平均。

57cbab66-3cdb-11ed-9e49-dac502259ad0.png

2.2 Adapter

Adapter方法在transformer層子模塊之間插入一些新的模塊,在Adapter內(nèi)部,它的輸入h通過(guò)矩陣乘法Wdown,先將特征維度縮小,然后通過(guò)一個(gè)非線形層f,再通過(guò)矩陣乘法Wup將特征維度放大到跟adapter輸入一樣的尺寸,最后通過(guò)一個(gè)跨層連接,將adapter的輸入跟上述結(jié)果加到一起作為最終adapter的輸出,即下圖形式。

57e7f262-3cdb-11ed-9e49-dac502259ad0.png


同樣包括前面兩部分,前面部分還是原先的輸入h,而后面部分則是h的一個(gè)增量變化,但是相比prefix tuning這里用于計(jì)算的前面兩部分的權(quán)重的門的機(jī)制,同樣可以把上式改寫為以下形式。

57f9314e-3cdb-11ed-9e49-dac502259ad0.png


2.3LoRA

LoRA在transformer的權(quán)重矩陣旁插入了一個(gè)低秩矩陣,用于近似權(quán)重更新,對(duì)于預(yù)訓(xùn)練模型的權(quán)重矩陣W,LoRA通過(guò)低秩分解將其表示為如下形式,其中s是一個(gè)可訓(xùn)練的參數(shù),在形式跟LoRA極其相似,只是少了一個(gè)中間非線性運(yùn)算和多了一個(gè)標(biāo)準(zhǔn)化參數(shù)s。

5811bc00-3cdb-11ed-9e49-dac502259ad0.png


3.1 The unified framework

通過(guò)對(duì)上述幾種方法的抽象表示,不難發(fā)現(xiàn)這幾種方法存在一定的共性,隱藏層的最終表征都由兩部分組成,分別是原始的語(yǔ)言模型的輸出跟新的增量?jī)刹糠郑m然很多關(guān)鍵設(shè)計(jì)有所不同,但是這幾種方法都在學(xué)習(xí)應(yīng)用于各種隱藏表征的一個(gè)修正向量,也就是后半部分。

為了建立統(tǒng)一的框架去理解這些不同方法背后的關(guān)鍵設(shè)計(jì),論文定義了以下四個(gè)設(shè)計(jì)維度,并分析了不同方法在這四個(gè)維度之間的差異跟聯(lián)系。

a) Functional Form,修正向量的計(jì)算方式,下圖中的第二列。

b) Modified Representation,直接調(diào)整的隱藏表征位置,作用于attetnion模塊還是FFN模塊?

c) Insertion Form,新增模塊如何插入語(yǔ)言模型中?序列化還是并行化?

如果輸入是語(yǔ)言模型的輸入,輸出是語(yǔ)言模型的輸出,則屬于并行化,類似于Prefix tuning,如果輸入跟輸出都是語(yǔ)言模型的輸出,則屬于序列化,類似于Adapter.

d)Composition Form,修正向量跟原本的隱藏層表征如何結(jié)合到一起去構(gòu)建新的隱藏層表征?

582e41cc-3cdb-11ed-9e49-dac502259ad0.png

圖2:不同方法在4個(gè)設(shè)計(jì)維度下的具體信息

在提出上述統(tǒng)一的框架后,通過(guò)調(diào)整某些設(shè)計(jì)維度下的信息,論文提出了3種新的遷移學(xué)習(xí)方法的設(shè)計(jì),具體細(xì)節(jié)可以參考下圖理解。

a)Parallel Adapter,

將prefix tuning的并行插入方式遷移到Adapter,也就是把Adapter的insertion form的屬性改成prefix tuning。

b)Multi-head Parallel Adapter

將Parallel Adapter應(yīng)用到multi head attention的位置,也就是把Parallel Adapter的modified representation的屬性改成prefix tuning。

c)Scaled Parallel Adapter

將LoRA的復(fù)合函數(shù)跟插入方式遷移到Adapter,也就是把Adapter的composition form跟insertion form的屬性改成LoRA

5844c460-3cdb-11ed-9e49-dac502259ad0.png


圖3:多種參數(shù)優(yōu)化方法結(jié)構(gòu)對(duì)比

4 實(shí)驗(yàn)

為了探索不同的設(shè)計(jì)維度所隱藏的特性,以及哪些設(shè)計(jì)維度尤為重要,論文在4個(gè)不同類型的下游任務(wù)上進(jìn)行了實(shí)驗(yàn),包括文本總結(jié),文本翻譯,文本推斷以及情感分類任務(wù),相應(yīng)的數(shù)據(jù)集分別為XSum, en-ro, MNLI, SST2。至于語(yǔ)言模型的選擇,為了更貼合當(dāng)前實(shí)際,論文使用了encoder-decoder結(jié)構(gòu)的語(yǔ)言模型在前兩者上做實(shí)驗(yàn),而使用encoder結(jié)構(gòu)的語(yǔ)言模型在后兩者上進(jìn)行實(shí)驗(yàn)。

a)當(dāng)下主流方法的表現(xiàn)

在文本推斷跟情感分類任務(wù)的數(shù)據(jù)集上,現(xiàn)存的幾種主流方法在只更新小于1%的參數(shù)量條件下可以達(dá)到媲美更新全部模型參數(shù)的效果,但在文本總結(jié)跟翻譯任務(wù)數(shù)據(jù)集上,即便增加要更新的參數(shù)量,這幾種參數(shù)優(yōu)化的方法距離更新全部模型參數(shù)的方法在效果上仍有一定差距。

這也說(shuō)明那些宣稱可以媲美finetune全部參數(shù)方法效果的參數(shù)優(yōu)化方法,其實(shí)是在只包含encoder的模型并在GLUE上取得,或者是基于encoder-decoder的模型在相對(duì)簡(jiǎn)單的文本生成任務(wù)上取得媲美finetune全部參數(shù)的效果,不能泛化到其他標(biāo)準(zhǔn)評(píng)測(cè)任務(wù)。

58766e2a-3cdb-11ed-9e49-dac502259ad0.png

圖4:目前幾種主流方法的效果對(duì)比

b)Insertion Form

下圖中,SA指的是Adapter,相應(yīng)的insertion form是sequential,PA則是Parallel Adapter,相應(yīng)的insertion form跟prefix tuning一樣,都是parallel。

從實(shí)驗(yàn)結(jié)果看,使用parallel作為插入方式的prefix tuning跟PA效果明顯優(yōu)于SA,從而說(shuō)明parallel的插入形式更優(yōu)。

58ab34de-3cdb-11ed-9e49-dac502259ad0.png

圖5:Insertion Form對(duì)比

c)ModifiedRepresentation

從下圖可以看出,直接作用于FFN層的方法的效果明顯優(yōu)化作用于attention層,這些結(jié)果顯示FFN層可以更高效的利用新增的參數(shù)進(jìn)行調(diào)整。這可能是由于FFN層學(xué)習(xí)的是具體任務(wù)的文本模式,而attention層學(xué)習(xí)的是文本不同位置之間的交互,具有一定泛化能力,不需要特地為新任務(wù)做太多調(diào)整導(dǎo)致的。

58d80ebe-3cdb-11ed-9e49-dac502259ad0.png


圖6:modified representation對(duì)比

當(dāng)更新的參數(shù)量從3.6%減少到0.1%時(shí),作用于attention模塊的MH PA(attn)跟prefix tuning的方法在效果上領(lǐng)先于其他方法。

5904a0c8-3cdb-11ed-9e49-dac502259ad0.png

圖7:multi head attention的有效性

結(jié)合上述實(shí)驗(yàn)效果,當(dāng)目標(biāo)參數(shù)量非常少時(shí),作用于attention層的方法可以取得更好效果,反之,則優(yōu)先選擇作用于FFN層的方法。

d) Composition Function

不難看出,scaling的復(fù)合函數(shù)效果優(yōu)于簡(jiǎn)單相加的復(fù)合函數(shù)。

5927d8a4-3cdb-11ed-9e49-dac502259ad0.png

圖8:不同composition function對(duì)比

5 總結(jié)

基于前面的實(shí)驗(yàn)結(jié)論,論文有以下重大發(fā)現(xiàn):

a) Scaled parallel adapter是作用于FFN層的最好變體。

b) FFN層可以通過(guò)更多的參數(shù)從而更好優(yōu)化下游模型表現(xiàn)。

c)類似于prefix tuning的作用于attention的方式可以在僅更新0.1%比例參數(shù)量的前提下得到不錯(cuò)效果。

于是論文提出一種新的方法Mix-And-Match adapter(MAM Adapter),它包括作用于attention模塊30個(gè)prefix tuning向量,以及引入更多參數(shù)量的scaled parallel adapter,在諸多任務(wù)上取得了SOTA效果。融合prefix tuning跟scaled parallel adapter的結(jié)構(gòu),并根據(jù)它們的特點(diǎn)分配合適的優(yōu)化參數(shù),從而達(dá)到一個(gè)整體的更優(yōu)。

之前在學(xué)習(xí)怎么高效的參數(shù)優(yōu)化方法時(shí)總是感覺(jué)里面有很多神似的地方,但是建立不了其中的聯(lián)系,看到這篇論文后,有一種茅塞頓開(kāi)的領(lǐng)悟,這篇文章提出的統(tǒng)一框架能夠幫助大家更好的理解這些參數(shù)優(yōu)化方法,從而更好理解這些關(guān)鍵設(shè)計(jì)帶來(lái)的價(jià)值。具體到個(gè)人,可以根據(jù)自己的任務(wù)和場(chǎng)景,設(shè)計(jì)出更加靈活的參數(shù)優(yōu)化的遷移學(xué)習(xí)方案了。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SST
    SST
    +關(guān)注

    關(guān)注

    0

    文章

    69

    瀏覽量

    35508
  • GLUE
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    7434
  • LoRa技術(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    102

    瀏覽量

    16685

原文標(biāo)題:Parameter-efficient transfer learning系列之A Unified View

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    個(gè)EXCEL文件,每天更新固定不變; 用新的更新計(jì)劃和固定標(biāo)準(zhǔn)對(duì)比,取出個(gè)值;這種結(jié)構(gòu)框架怎么弄??

    我想做一個(gè)labview程序,簡(jiǎn)化我的日常工作;現(xiàn)在希望高手給予指點(diǎn);我手上有兩個(gè)EXCEL文件,份是每天更新的計(jì)劃,另份是固定不變的參
    發(fā)表于 01-28 16:43

    遷移學(xué)習(xí)

    的基本原理和編程思想。理解在個(gè)新的場(chǎng)景或數(shù)據(jù)集下,何時(shí)以及如何進(jìn)行遷移學(xué)習(xí)。利用PyTorch加載數(shù)據(jù)、搭建模型、訓(xùn)練網(wǎng)絡(luò)以及進(jìn)行網(wǎng)絡(luò)微調(diào)操作。給定
    發(fā)表于 04-21 15:15

    分享種智能網(wǎng)卡對(duì)熱遷移支持的新思路

    ,般通過(guò)Libvirt這工具來(lái)管理。Guest是指里面的RAM區(qū)域,不需要內(nèi)容可見(jiàn)。Deivces主要指設(shè)備的工作狀態(tài)。熱遷移的過(guò)程分以下幾步完成:發(fā)起熱遷移后,在目的物理機(jī)上會(huì)啟
    發(fā)表于 07-05 14:46

    面向用戶的IMS媒體層統(tǒng)一安全框架

    針對(duì)IMS 媒體層安全保護(hù)機(jī)制存在的問(wèn)題,提出個(gè)面向用戶的IMS 媒體層統(tǒng)一安全框架,在此基礎(chǔ)上設(shè)計(jì)了具體的實(shí)現(xiàn)方案,該方案能為用戶提供靈活的媒體層安全保護(hù)機(jī)制,實(shí)現(xiàn)媒
    發(fā)表于 03-24 09:35 ?13次下載

    屏幕衍生商機(jī) 統(tǒng)一框架助力UI設(shè)計(jì)

    屏幕衍生商機(jī) 統(tǒng)一框架助力UI設(shè)計(jì) Windows Embedded以開(kāi)放的平臺(tái)模糊了不同設(shè)備間的物理界限,新版本W(wǎng)indows 7的推出將創(chuàng)造出很多新的應(yīng)用。微軟表示,在此基礎(chǔ)之上公
    發(fā)表于 01-06 13:58 ?704次閱讀

    深度學(xué)習(xí)發(fā)展的5個(gè)主力框架

    在這篇文章中,我想向大家介紹推動(dòng)深度學(xué)習(xí)發(fā)展的5個(gè)主力框架。這些框架使數(shù)據(jù)科學(xué)家和工程師更容易為復(fù)雜問(wèn)題構(gòu)建深度學(xué)習(xí)解決方案,并執(zhí)行更復(fù)雜的
    發(fā)表于 05-04 10:30 ?4127次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>發(fā)展的5<b class='flag-5'>個(gè)</b>主力<b class='flag-5'>框架</b>

    PLASTER:個(gè)與深度學(xué)習(xí)性能有關(guān)的框架

    PLASTER 是個(gè)與深度學(xué)習(xí)有關(guān)的框架,為致力于開(kāi)發(fā)和部署基于 AI 的服務(wù)的人士提供了全方位指導(dǎo)。本文介紹了每個(gè)框架元素的測(cè)量方式,以
    的頭像 發(fā)表于 06-22 15:07 ?3666次閱讀

    個(gè)全新的深度學(xué)習(xí)框架——計(jì)圖

    清華大學(xué)計(jì)算機(jī)系胡事民教授研究團(tuán)隊(duì)提出了個(gè)全新的深度學(xué)習(xí)框架——計(jì)圖(Jittor)。Jittor是
    的頭像 發(fā)表于 03-26 15:50 ?6977次閱讀

    天才黑客George Hotz開(kāi)源了個(gè)小型深度學(xué)習(xí)框架tinygrad

    最近,天才黑客 George Hotz 開(kāi)源了個(gè)小型深度學(xué)習(xí)框架 tinygrad,兼具 PyTorch 和 micrograd 的功能。tinygrad 的代碼數(shù)量不到 1000
    的頭像 發(fā)表于 12-16 09:36 ?4378次閱讀

    統(tǒng)一框架下期望在線核選擇的競(jìng)爭(zhēng)性分析

    在線核選擇旨在給岀在線核學(xué)習(xí)毎回合的最優(yōu)核,是在線核學(xué)習(xí)的基礎(chǔ)性和關(guān)鍵性問(wèn)題。在線核選擇問(wèn)題可歸約為專家建議框架問(wèn)題,其中專家集對(duì)應(yīng)候選核集;毎回合,根據(jù)專家的權(quán)重及專家的建議給岀預(yù)測(cè)結(jié)果,并
    發(fā)表于 04-12 09:40 ?44次下載
    <b class='flag-5'>統(tǒng)一</b><b class='flag-5'>框架</b>下期望在線核選擇的競(jìng)爭(zhēng)性分析

    種基于標(biāo)簽比例信息的遷移學(xué)習(xí)算法

    摘要: 標(biāo)簽比例學(xué)習(xí)問(wèn)題是項(xiàng)僅使用樣本標(biāo)簽比例信息去構(gòu)建分類模型的挖掘任務(wù),由于訓(xùn)練樣本不充分,現(xiàn)有方法將該問(wèn)題視為單任務(wù),在文本分類中的表現(xiàn)并不理想。考慮到遷移
    發(fā)表于 03-30 15:46 ?576次閱讀

    基于谷歌中長(zhǎng)尾item或user預(yù)測(cè)效果的遷移學(xué)習(xí)框架

    文中提出的遷移學(xué)習(xí)框架主要包括model-level transfer和item-level transfer。其中model-level transfer通過(guò)學(xué)習(xí)
    的頭像 發(fā)表于 09-19 11:18 ?1336次閱讀

    文詳解遷移學(xué)習(xí)

    引導(dǎo)(TOAST),這是種新的遷移學(xué)習(xí)算法,它可以凍結(jié)預(yù)先訓(xùn)練的骨干模型,選擇與任務(wù)相關(guān)的特征輸出,并將這些特征反饋到模型中,以引導(dǎo)注意力關(guān)注特定任務(wù)的特征。僅通過(guò)重新聚焦注意力,TOAST在多個(gè)
    的頭像 發(fā)表于 08-11 16:56 ?6771次閱讀
    <b class='flag-5'>一</b>文詳解<b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>

    深度學(xué)習(xí)框架是什么?深度學(xué)習(xí)框架有哪些?

    深度學(xué)習(xí)框架是什么?深度學(xué)習(xí)框架有哪些?? 深度學(xué)習(xí)框架
    的頭像 發(fā)表于 08-17 16:03 ?3158次閱讀

    視覺(jué)深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架Torchvision介紹

    Torchvision是基于Pytorch的視覺(jué)深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架,當(dāng)前支持的圖像分類、對(duì)象檢測(cè)、實(shí)例分割、語(yǔ)義分割、姿態(tài)評(píng)估模型的遷移
    的頭像 發(fā)表于 09-22 09:49 ?1080次閱讀
    視覺(jué)深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>遷移</b><b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練<b class='flag-5'>框架</b>Torchvision介紹
    主站蜘蛛池模板: 最近的中文字幕免费动漫视频 | 男女交性视频播放 视频 视频 | 亚洲视频色 | 婷婷久久综合网 | 永久免费观看午夜视频在线 | 亚洲人色大成年网站在线观看 | 色视频免费国产观看 | 特黄a大片免费视频 | xxx亚洲日本 | 亚洲五月婷 | 黄色三级网站免费 | 日本高清视频成人网www | 久久久久88色偷偷免费 | 神马电影天堂网 | 日本一本在线视频 | 亚洲成a人片毛片在线 | 婷婷网五月天天综合天天爱 | 被公侵犯肉体中文字幕一区二区 | 亚洲男人的天堂在线播放 | 欧美日韩一区二区三区毛片 | 日本视频网站在线www色 | 国产女人伦码一区二区三区不卡 | 深夜偷偷看视频在线观看 | 人阁色第四影院在线观看 | 免费视频爰爱太爽了 | 亚洲成a人一区二区三区 | 日韩一级片免费 | 久久福利国产 | 四虎国产精品高清在线观看 | tv天堂| 中文字幕一区二区三区精品 | 日日干夜夜操 | 黄色录像日本 | www色午夜| 一区二区三区网站在线免费线观看 | 精品国产麻豆免费人成网站 | 亚洲午夜精品久久久久久抢 | 成人激情视频网 | 午夜精品久久久久久久第一页 | 天天干天天干天天天天天天爽 | 么公的好大好硬好深好爽在线视频 |