在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

領(lǐng)域遷移一種簡單而有效的方法Alter

深度學(xué)習(xí)自然語言處理 ? 來源:哈工大SCIR ? 作者:朱海潮 ? 2022-04-07 09:31 ? 次閱讀

1. 介紹

機(jī)器閱讀理解旨在根據(jù)給定上下文來回答相關(guān)問題,近年來在工業(yè)界與學(xué)術(shù)界均得到了廣泛的關(guān)注,目前最先進(jìn)的系統(tǒng)都是基于預(yù)訓(xùn)練模型構(gòu)建的。即便如此,仍然需要大量標(biāo)注數(shù)據(jù)才能達(dá)到比較理想的結(jié)果,對于一些缺乏大規(guī)模有標(biāo)注數(shù)據(jù)領(lǐng)域和場景,現(xiàn)有模型的遷移效果往往并不令人滿意。相關(guān)工作[1,2]探索利用無標(biāo)注的目標(biāo)領(lǐng)域文本進(jìn)行領(lǐng)域遷移,但這種方法無法使模型對目標(biāo)領(lǐng)域的問題進(jìn)行有效建模。在本文中,我們利用少量的標(biāo)注數(shù)據(jù),通過對在大規(guī)模有標(biāo)注領(lǐng)域上訓(xùn)練過的模型進(jìn)行遷移,來提高在目標(biāo)領(lǐng)域上的表現(xiàn)。另一方面,基于Transformer的預(yù)訓(xùn)練模型通常包含至少上億個參數(shù),如BERT Base的大小為110M。鑒于目標(biāo)領(lǐng)域只有少量的標(biāo)注數(shù)據(jù),調(diào)整全部參數(shù)以適應(yīng)目標(biāo)領(lǐng)域非常困難,而且也是不必要的。另外,有研究[6]表明大規(guī)模稠密的神經(jīng)網(wǎng)絡(luò)模型有過參數(shù)化(over-parameterized)的趨勢。我們探索只利用一小部分參數(shù)進(jìn)行領(lǐng)域遷移,這些參數(shù)對應(yīng)原稠密神經(jīng)網(wǎng)絡(luò)模型中的一個稀疏子網(wǎng)絡(luò)。此外,我們還引入對自注意力模塊的分析,來找到更具遷移性的稀疏子網(wǎng)絡(luò)。最后,我們在多個目標(biāo)領(lǐng)域上進(jìn)行了實驗,取得超過多種基線方法的效果,我們還對提出的方法進(jìn)行了仔細(xì)的分析。

f28744a0-b60b-11ec-aa7f-dac502259ad0.png

圖1. 基于稀疏子網(wǎng)絡(luò)的領(lǐng)域遷移方法

2. 背景

2.1 Transformer架構(gòu)

如圖2所示,Transformer模型一般由輸入嵌入層、輸出層和若干結(jié)構(gòu)相同的Transformer層堆疊組成。更具體地,每層由一個多頭自注意力模塊和前饋模塊組成,共包含6個參數(shù)矩陣。

f29ce2c4-b60b-11ec-aa7f-dac502259ad0.png

圖2. Transformer模型

2.2 自注意力分析

有許多工作[3,4]嘗試分析解釋Transformer模型的行為,最近,Hao[5]等人提出一種新的分析方法AttAttr可以估計每個自注意力頭對模型輸出的貢獻(xiàn)。本文采用此方法對在不同閱讀理解領(lǐng)域數(shù)據(jù)集上微調(diào)過的BERT模型進(jìn)行分析,如圖3所示,我們發(fā)現(xiàn)重要的注意力頭在不同的領(lǐng)域上呈強(qiáng)正相關(guān)分布,即在一個領(lǐng)域上重要的自注意力頭,也極有可能在其它領(lǐng)域上也非常重要。基于這一發(fā)現(xiàn),我們提出了本文的面向閱讀理解任務(wù)的少樣本領(lǐng)域遷移方法。

f2b2e966-b60b-11ec-aa7f-dac502259ad0.png

圖3. (a)在SQuADv1.1上的自注意力頭重要性分布。(b)-(d)不同領(lǐng)域上的自注意力頭相關(guān)性分析。每個點(diǎn)對應(yīng)同一個自注意力頭在兩個對應(yīng)的領(lǐng)域上的重要性。

3. 方法

我們在大規(guī)模標(biāo)注數(shù)據(jù)的源領(lǐng)域上訓(xùn)練過的Transformer模型遷移到只有少量標(biāo)注數(shù)據(jù)的目標(biāo)領(lǐng)域上。在遷移時,我們通過減枝來識別只包含少量參數(shù)的稀疏子網(wǎng)絡(luò),并只對子網(wǎng)絡(luò)的參數(shù)進(jìn)行更新來適應(yīng)目標(biāo)領(lǐng)域,在尋找子網(wǎng)絡(luò)時,通過引入自注意力歸因,來同時考慮參數(shù)的結(jié)構(gòu)化與非結(jié)構(gòu)化的重要性。

3.1 子網(wǎng)絡(luò)識別

Magnitude Pruning是一種簡單有效的非結(jié)構(gòu)化減枝方法,這個方法根據(jù)參數(shù)的絕對值大小進(jìn)行減值。我們以該方法為基礎(chǔ),通過迭代的方式分若干步來逐漸刪減參數(shù)到目標(biāo)數(shù)量,并且每次刪減部分參數(shù)后,都會對網(wǎng)絡(luò)進(jìn)行一定步數(shù)的訓(xùn)練,恢復(fù)模型在源領(lǐng)域上的效果,然后再進(jìn)行下一步的參數(shù)刪減。在本文中,我們只對每層Transformer層中的6個參數(shù)矩陣進(jìn)行刪減,其余的參數(shù)矩陣和偏置完全保留。

此外,在進(jìn)行參數(shù)的重要性比較以選擇要刪減的參數(shù)時,通常有兩種策略,一種是所有參數(shù)一起進(jìn)行全局比較,另一種是只在參數(shù)矩陣內(nèi)部進(jìn)行局部比較。在我們對參數(shù)矩陣的分析中發(fā)現(xiàn),不同的參數(shù)矩陣的絕對值均值分布有較大的差異,若采用全局減枝,最后的結(jié)果會很大程度上被均值差異影響,而局部比較則最后所有參數(shù)矩陣具有相同的稀疏度,并且忽略了參數(shù)矩陣本身的所在模塊的重要性。所以,我們提出一種分組比較策略,根據(jù)不同參數(shù)矩陣的均值進(jìn)行分組,在組內(nèi)進(jìn)行全局比較,具體地,將均值相當(dāng)?shù)膮?shù)矩陣分為一組,最后劃分為三組。

根據(jù)之前對閱讀理解任務(wù)的自注意力分析發(fā)現(xiàn),Transformer中的不同自注意力頭對于模型最后的預(yù)測并不是同等重要的,并且重要性的分布在不同的領(lǐng)域上高度正相關(guān)。所以,我們引入自注意力歸因來補(bǔ)充Magnitude Pruning,以期得到能夠更好的遷移到目標(biāo)領(lǐng)域的子網(wǎng)絡(luò)。具體地,在進(jìn)行每一步減枝時,我們先估計出當(dāng)前模型中不同注意力的重要性得分并進(jìn)行歸一化,以此作為對參數(shù)絕對值進(jìn)行縮放,需要注意的是,同一個注意力頭中的參數(shù)矩陣共享同一個重要性得分。此外,還通過超參數(shù)來控制歸因得分對最后參數(shù)重要性的影響。總體來說,通過這種方式,我們同時考慮到了參數(shù)的非結(jié)構(gòu)化與結(jié)構(gòu)化重要性,整體算法如圖4所示。

f2d9b8ca-b60b-11ec-aa7f-dac502259ad0.png

圖4. 稀疏子網(wǎng)絡(luò)識別算法

3.2 子網(wǎng)絡(luò)遷移

通過上述步驟后,最后剩下的參數(shù)即為找到的子網(wǎng)絡(luò)的結(jié)構(gòu),在進(jìn)行領(lǐng)域適應(yīng)時,我們保留得到的結(jié)構(gòu),但將參數(shù)回滾到減枝前,即源領(lǐng)域模型上的狀態(tài),在后續(xù)的參數(shù)更新時只更新子網(wǎng)絡(luò)對應(yīng)的參數(shù),其余參數(shù)不進(jìn)行梯度更新。但需要注意的是,所有的參數(shù)均參與前向計算過程。

4. 實驗及分析

4.1 數(shù)據(jù)集

在我們的實驗中,以SQuAD為源領(lǐng)域數(shù)據(jù)集,通過對五個目標(biāo)領(lǐng)域數(shù)據(jù)集采樣來模擬少樣本領(lǐng)域遷移的場景,具體的領(lǐng)域數(shù)據(jù)集信息如表1所示。

表1. 數(shù)據(jù)集特征及統(tǒng)計信息

f31fc306-b60b-11ec-aa7f-dac502259ad0.png

4.2 基線方法

Zero-Shot 不進(jìn)行遷移,直接在目標(biāo)領(lǐng)域上進(jìn)行預(yù)測。

Fine-tuning 微調(diào)源領(lǐng)域模型的全部參數(shù)進(jìn)行領(lǐng)域適應(yīng)。

EWC(Elastic Weight Consolidation) 一種正則化算法,使得參數(shù)在更新時不至大幅偏離原始參數(shù)。

Layer Freeze 只調(diào)整Tranformer模型接近輸出層的若干層的參數(shù),其余參數(shù)則保持不動。

Adapter 保持源領(lǐng)域模型的參數(shù)不動,通過添加并調(diào)整額外的adapter模塊來進(jìn)行領(lǐng)域適應(yīng)。

4.3 實驗結(jié)果與分析

如表2所示,當(dāng)使用1024條目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù),并將用于領(lǐng)域遷移的參數(shù)數(shù)量限定在21M時,本文提出的Alter在4個目標(biāo)領(lǐng)域上取得了超過基線方法的效果。其中,我們的方法和Layer Freeze還有Adapter調(diào)整數(shù)量相當(dāng)?shù)膮?shù)量來進(jìn)行領(lǐng)域適應(yīng)。在NQ數(shù)據(jù)集上,當(dāng)使用42M參數(shù)時,我們的方法與Fine-tuning表現(xiàn)相當(dāng)。進(jìn)一步地,當(dāng)不對參數(shù)數(shù)量進(jìn)行限制時的實驗結(jié)果如圖5-8所示,除NQ外我們的方法也均取得了超過基線方法的效果,并且通常只需要完整模型的20%-30%的參數(shù)即可。

表2. 使用1024條目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)時的EM與F1得分

f3391a86-b60b-11ec-aa7f-dac502259ad0.png

f3530f9a-b60b-11ec-aa7f-dac502259ad0.png

圖5. NewsQA實驗結(jié)果

f36ce8c0-b60b-11ec-aa7f-dac502259ad0.png

圖6. TriviaQA實驗結(jié)果

f38a0284-b60b-11ec-aa7f-dac502259ad0.png

圖7. TweetQA實驗結(jié)果

f3ad3b96-b60b-11ec-aa7f-dac502259ad0.png

圖8. NQ實驗結(jié)果

圖9展示了引入自注意力頭來幫助尋找稀疏子網(wǎng)絡(luò)的結(jié)果,通過對比可以發(fā)現(xiàn),在使用不同數(shù)量的目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)及不同規(guī)模的參數(shù)進(jìn)行領(lǐng)域遷移時,自注意力頭均能夠幫助找到遷移效果更好的子網(wǎng)絡(luò)。

f3ca33d6-b60b-11ec-aa7f-dac502259ad0.png

圖9. 引入自注意力歸因與否的領(lǐng)域遷移結(jié)果

為了探究不同的子網(wǎng)絡(luò)識別方法得到的結(jié)構(gòu)對遷移效果的影響,我們進(jìn)行嘗試了以下四種候選方法:

Random 隨機(jī)選取目標(biāo)數(shù)量的參數(shù)

Magnitude 只根據(jù)參數(shù)的絕對值大小進(jìn)行選擇

Salvage 采用與本文提出的相同的流程,但采用相反的策略選擇參數(shù),即使用原本被減掉的參數(shù)進(jìn)行遷移

AttrHead 采用結(jié)構(gòu)化減枝的方式得到,將若干自注意力頭的參數(shù)整體剪掉,對于前饋層的參數(shù)則仍采用非結(jié)構(gòu)化的方式減枝

實驗結(jié)果如表3所示,使用不同方法得到的子網(wǎng)絡(luò)大小一致,不同的方法的效果差別并不明顯,但均超過了調(diào)整全部參數(shù)的方法。對比Salvage和Alter,我們發(fā)現(xiàn)使用對模型輸出影響更大的參數(shù)的效果更好。通過與AttrHead方法進(jìn)行比較,我們可以發(fā)現(xiàn),重要性得分較低的自注意力頭中絕對值較大的參數(shù)對領(lǐng)域遷移也有用。

表3. 不同子網(wǎng)絡(luò)識別方法的領(lǐng)域遷移結(jié)果

f3e6d00e-b60b-11ec-aa7f-dac502259ad0.png

5. 結(jié)論

在本文中,我們針對少樣本閱讀理解領(lǐng)域遷移提出了一種簡單而有效的方法Alter,該方法只使用過參數(shù)化的源領(lǐng)域模型中的一部分參數(shù)進(jìn)行目標(biāo)領(lǐng)域遷移,我們還引入了自注意力歸因來識別子網(wǎng)絡(luò)以取得更好的遷移效果,通過進(jìn)一步探索不同的子網(wǎng)絡(luò)識別方法,發(fā)現(xiàn)除了使用更少的參數(shù)以外,子網(wǎng)絡(luò)的結(jié)構(gòu)也非常重要。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25330
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    6439

原文標(biāo)題:6. 參考文獻(xiàn)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    載流子遷移率提高技術(shù)詳解

    在高k金屬柵之外,另一種等效擴(kuò)充的方法是增加通過器件溝道的電子或空穴的遷移率。表2.5列舉了些提高器件載流子遷移率的手段及其對 PMOS或
    的頭像 發(fā)表于 05-30 15:19 ?210次閱讀
    載流子<b class='flag-5'>遷移</b>率提高技術(shù)詳解

    如何精準(zhǔn)提取MOSFET溝道遷移

    溝道有效遷移率(μeff)是CMOS器件性能的關(guān)鍵參數(shù)。傳統(tǒng)測量方法在高k介質(zhì)、漏電介質(zhì)與高速應(yīng)用中易出現(xiàn)誤差。本文介紹了UFSP(Ultra-Fast Single Pulse)技術(shù)如何準(zhǔn)確提取
    的頭像 發(fā)表于 05-19 14:28 ?507次閱讀
    如何精準(zhǔn)提取MOSFET溝道<b class='flag-5'>遷移</b>率

    一種永磁電機(jī)用轉(zhuǎn)子組件制作方法

    一種永磁電機(jī)所使用的轉(zhuǎn)子組件,是由磁鋼與芯軸組裝而成,產(chǎn)品工作轉(zhuǎn)速80 000 r /mi n,磁鋼相對于芯軸的同軸度要小于O.015 mm。現(xiàn)有的裝配方法是:先在芯軸兩端面制作中心孔,然后直接
    發(fā)表于 03-25 15:20

    一種使用LDO簡單電源電路解決方案

    本期我們介紹一種使用LDO簡單電源電路解決方案,該方案可以處理12V/24V、多節(jié)鋰離子電池和4節(jié)干電池等相對較高的輸入電壓。
    的頭像 發(fā)表于 12-04 16:05 ?754次閱讀
    <b class='flag-5'>一種</b>使用LDO<b class='flag-5'>簡單</b>電源電路解決方案

    一種提升無人機(jī)小物體跟蹤精度的方法

    這篇文章提出了一種新穎的目標(biāo)跟蹤方法SFTrack,針對無人機(jī)(UAV)視頻中的獨(dú)特挑戰(zhàn),采用了三簡單有效的策略,尤其是在處理低置信度檢測
    的頭像 發(fā)表于 11-01 10:23 ?817次閱讀
    <b class='flag-5'>一種</b>提升無人機(jī)小物體跟蹤精度的<b class='flag-5'>方法</b>

    一種創(chuàng)新的動態(tài)軌跡預(yù)測方法

    本文提出了一種動態(tài)軌跡預(yù)測方法,通過結(jié)合歷史幀和歷史預(yù)測結(jié)果來提高預(yù)測的穩(wěn)定性和準(zhǔn)確性。它引入了歷史預(yù)測注意力模塊,以編碼連續(xù)預(yù)測之間的動態(tài)關(guān)系,并通過三重因子注意力模塊實現(xiàn)了最先進(jìn)的性能。本方法能夠生成準(zhǔn)確且穩(wěn)定的未來軌跡,這
    的頭像 發(fā)表于 10-28 14:34 ?980次閱讀
    <b class='flag-5'>一種</b>創(chuàng)新的動態(tài)軌跡預(yù)測<b class='flag-5'>方法</b>

    一種基于光強(qiáng)度相關(guān)反饋的波前整形方法

    基于反饋的波前整形通過散射介質(zhì)聚焦光是一種成熟的方法。在傳統(tǒng)的基于反饋的波前整形中,入射光被分成N個輸入模式,這些模式由空間光調(diào)制器(SLM)使用N個段進(jìn)行調(diào)制,每個段具有相同數(shù)量和大小的像素
    的頭像 發(fā)表于 10-27 16:28 ?650次閱讀
    <b class='flag-5'>一種</b>基于光強(qiáng)度相關(guān)反饋的波前整形<b class='flag-5'>方法</b>

    一種簡單高效配置FPGA的方法

    本文描述了一種簡單高效配置FPGA的方法,該方法利用微處理器從串行外圍接口(SPI)閃存配置FPGA設(shè)備。這種方法減少了硬件組件、板空間和成
    的頭像 發(fā)表于 10-24 14:57 ?1505次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>簡單</b>高效配置FPGA的<b class='flag-5'>方法</b>

    BitEnergy AI公司開發(fā)出一種新AI處理方法

    BitEnergy AI公司,家專注于人工智能(AI)推理技術(shù)的企業(yè),其工程師團(tuán)隊創(chuàng)新性地開發(fā)了一種名為線性復(fù)雜度乘法(L-Mul)的AI處理方法。該方法的核心在于,它用整數(shù)加法替代
    的頭像 發(fā)表于 10-22 15:15 ?765次閱讀

    一種利用wireshark對遠(yuǎn)程服務(wù)器/路由器網(wǎng)絡(luò)抓包方法

    一種利用wireshark對遠(yuǎn)程服務(wù)器/路由器網(wǎng)絡(luò)抓包方法
    的頭像 發(fā)表于 09-21 08:03 ?4720次閱讀
    <b class='flag-5'>一種</b>利用wireshark對遠(yuǎn)程服務(wù)器/路由器網(wǎng)絡(luò)抓包<b class='flag-5'>方法</b>

    重啟解決PLC故障的具體表現(xiàn)

    重啟PLC作為一種簡單而有效的故障排除手段,往往能夠解決許多臨時性或軟件層面的故障。
    的頭像 發(fā)表于 08-30 14:16 ?1333次閱讀

    光耦的應(yīng)用領(lǐng)域

    由感光材料和光源構(gòu)成,是一種光電轉(zhuǎn)換器件。它具有光電隔離、低功耗等特點(diǎn),廣泛應(yīng)用于各種智能系統(tǒng)中。在智能領(lǐng)域般的光耦合器都具備以下特性: 高靈敏度:通常采用光學(xué)方法制成,具有極高的
    發(fā)表于 08-26 16:59

    一種無透鏡成像的新方法

    使用OAM-HHG EUV光束對高度周期性結(jié)構(gòu)進(jìn)行成像的EUV聚光顯微鏡 為了研究微電子或光子元件中的納米級圖案,一種基于無透鏡成像的新方法可以實現(xiàn)近乎完美的高分辨率顯微鏡。 層析成像是一種強(qiáng)大的無
    的頭像 發(fā)表于 07-19 06:20 ?725次閱讀
    <b class='flag-5'>一種</b>無透鏡成像的新<b class='flag-5'>方法</b>

    rup是一種什么模型

    RUP(Rational Unified Process,統(tǒng)建模語言)是一種軟件開發(fā)過程模型,它是一種迭代和增量的軟件開發(fā)方法。RUP是由Rational Software公司(現(xiàn)為
    的頭像 發(fā)表于 07-09 10:13 ?2581次閱讀

    遷移學(xué)習(xí)的基本概念和實現(xiàn)方法

    遷移學(xué)習(xí)(Transfer Learning)是機(jī)器學(xué)習(xí)領(lǐng)域中的個重要概念,其核心思想是利用在個任務(wù)或領(lǐng)域中學(xué)到的知識來加速或改進(jìn)另
    的頭像 發(fā)表于 07-04 17:30 ?3379次閱讀
    主站蜘蛛池模板: 国产在线高清精品二区色五郎 | 国产香蕉久久精品综合网 | 天天激情综合 | 日日舔夜夜操 | 天天亚洲 | 国产国产人免费人成免费视频 | 午夜视频在线观看一区 | 亚洲www在线| 美女黄色在线看 | 中文字幕色网站 | 国产稀缺精品盗摄盗拍 | 色妞网| 色屁屁www免费看视频影院 | 欧美成人亚洲 | 无毒不卡在线播放 | 免费啪视频在线观看免费的 | 欧美性受xxxx极品 | 国产精品一一在线观看 | 2022天天干| 日本人zzzwww| 免费看片你懂的 | 婷婷在线网站 | 寡妇影院首页亚洲图片 | 韩国三级久久精品 | 2018天天拍拍拍免费视频 | 免费的日本网站 | 老色99久久九九精品尤物 | h在线观看视频免费网站 | 免费爱爱视频网站 | 欧洲综合色 | 四虎永久免费影院 | 午夜精品久久久久 | 天天草夜夜草 | 欧美一卡二卡科技有限公司 | 国产偷啪视频一区 | 日本免费不卡在线一区二区三区 | 亚洲国产精品综合久久网络 | 免费能看的黄色网址 | 丁香婷婷影院 | 亚洲最大成人综合网 | 五月婷婷中文字幕 |