在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費(fèi)

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會(huì)員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動(dòng)

完善資料讓更多小伙伴認(rèn)識(shí)你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

NLP中，預(yù)訓(xùn)練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型，在下游不同任務(wù)上分別進(jìn)行finetune，得到下游任務(wù)的模型。然而，這種方式的代價(jià)也很大，經(jīng)常要對所有任務(wù)都保存一個(gè)完整的task-specific模型，隨著預(yù)訓(xùn)練模型體積越來越大，這種方式會(huì)占用很多存儲(chǔ)空間，當(dāng)下游任務(wù)很多的時(shí)候要存儲(chǔ)大量的預(yù)訓(xùn)練模型。同時(shí)，為每個(gè)任務(wù)finetune一個(gè)如此龐大的模型，訓(xùn)練資源的消耗也比較大。

為了實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移，近兩年來業(yè)內(nèi)提出了很多優(yōu)化finetune的方法，例如adapter finetune、mask finetune等。最近很火的prompt更是極大減輕了finetune開銷，甚至不進(jìn)行finetune就能應(yīng)用于下游任務(wù)。本文重點(diǎn)介紹近兩年幾個(gè)NLP中finetune優(yōu)化的經(jīng)典工作，包括adapter-finetune、side-tuning、mask-finetune以及prefix-finetune等工作。

Adapter-tuning

遷移NLP預(yù)訓(xùn)練模型的方法主要分為finetune和feature-based。Finetune將原來的模型在下游任務(wù)上進(jìn)行訓(xùn)練，而feature-based方法使用預(yù)訓(xùn)練模型產(chǎn)出的詞、句子等embedding作為輸入，接下游一個(gè)獨(dú)立的模型進(jìn)行預(yù)測。其中finetune的效果往往由于feature-based方法。然而finetune的計(jì)算開銷要比feature-based大很多，能不能采用一種折中的方式呢?Parameter-Efficient Transfer Learning for NLP(ICML 2019)提出了一種更經(jīng)濟(jì)的遷移學(xué)習(xí)方法adapter-tuning，只需要finetune少量參數(shù)就能達(dá)到和finetune整個(gè)模型不相上下的效果。具體做法為，在原來的Bert模型的每層中間加入兩個(gè)adapter，adapter首先通過全連接對原輸入進(jìn)行降維進(jìn)一步縮小參數(shù)量，經(jīng)過內(nèi)部的NN后再將維度還原，形成一種bottleneck的結(jié)構(gòu)。在finetune過程中，原預(yù)訓(xùn)練Bert模型的參數(shù)freeze住不更新，只更新adapter的參數(shù)，大大減少了finetune階段需要更新和保存的參數(shù)量。

如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Adapte rFusion: Non-Destructive Task Composition for Transfer Learning(2021)在Adapter Finetune的基礎(chǔ)上，提出當(dāng)下游存在多個(gè)任務(wù)的時(shí)候，使用兩階段的Finetune。第一階段和Adapter Finetune的思路一樣，在預(yù)訓(xùn)練大模型基礎(chǔ)上加上每個(gè)任務(wù)的adapter進(jìn)行finetune，大模型參數(shù)freeze。在第二階段，繼續(xù)freeze預(yù)訓(xùn)練模型，同時(shí)freeze住第一階段訓(xùn)練的adapter模型參數(shù)，學(xué)習(xí)一個(gè)AdapterFusion模型，這個(gè)模塊的作用是融合各個(gè)adapter的信息，實(shí)現(xiàn)下游多個(gè)任務(wù)之間的信息共享。AdapterFusion部分的思路是，利用當(dāng)前樣本在FF層的輸出和各個(gè)任務(wù)的adapter輸出做Attention，實(shí)現(xiàn)從多個(gè)Adapter產(chǎn)出信息中的選擇和融合。這樣模型實(shí)現(xiàn)了根據(jù)每個(gè)樣本選擇合適的adapter輸出，綜合了多任務(wù)的adapter信息。

如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Side-Tuning

Side-tuning: A baseline for network adaptation via additive side networks(ECCV 2019)提出了一種side-tuning的方法。如下圖，side-tune是在原來的預(yù)訓(xùn)練模型基礎(chǔ)上，增加一個(gè)小的side network，然后將預(yù)訓(xùn)練模型的輸入和side-network的輸出進(jìn)行融合。融合的方法文中提出使用一個(gè)可學(xué)習(xí)的參數(shù)α進(jìn)行加權(quán)融合就能取得比較的效果。在訓(xùn)練過程中，預(yù)訓(xùn)練模型不會(huì)進(jìn)行更新，只更新side-network部分的參數(shù)。Side模型的尺寸和復(fù)雜度也可以根據(jù)任務(wù)的難易程度進(jìn)行調(diào)整。Side-tuning和adapt-tuning有相似之處，都是利用一個(gè)附屬的小模型對原預(yù)訓(xùn)練大模型的表示進(jìn)行更精細(xì)化的針對下游任務(wù)的調(diào)整。

如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Mask-tuning

Masking as an efficient alternative to finetuning for pretrained language models(2020)提出一種簡單的mask方法實(shí)現(xiàn)高效finetune。相比一般的finetune，該方法在finetune階段不對參數(shù)進(jìn)行調(diào)整，而是學(xué)習(xí)一個(gè)mask矩陣。對于每一個(gè)Transformer層，都會(huì)學(xué)習(xí)一個(gè)0-1的矩陣，然后用這個(gè)矩陣對該層所有全連接權(quán)重進(jìn)行縮放。公式如下，m表示矩陣中某一個(gè)元素，根據(jù)一個(gè)閾值設(shè)置為1或0，再用這個(gè)矩陣和每層的全連接參數(shù)相乘進(jìn)行對應(yīng)元素的縮放。

Mask-tuning的出發(fā)點(diǎn)為，在預(yù)訓(xùn)練模型finetune的過程中，其實(shí)不需要finetune那么多參數(shù)，只要finetune一些關(guān)鍵參數(shù)就能達(dá)到較好的效果，減少finetune階段計(jì)算的冗余性。在How fine can fine-tuning be? Learning efficient language models(2020)一文中也提出了類似的思路。

如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

Mask-tuning的出發(fā)點(diǎn)為，在預(yù)訓(xùn)練模型finetune的過程中，其實(shí)不需要finetune那么多參數(shù)，只要finetune一些關(guān)鍵參數(shù)就能達(dá)到較好的效果，減少finetune階段計(jì)算的冗余性。在How fine can fine-tuning be? Learning efficient language models(2020)一文中也提出了類似的思路。

Prefix-tuning

REFORMER: THE EFFICIENT TRANSFORMER(ICLR 2020)提出了采用局部敏感哈希的方法提升Transformer效率。當(dāng)序列較長時(shí)，QK^T的維度[batch_size, L, L]的計(jì)算量和存儲(chǔ)開銷會(huì)非常大，但是由于我們關(guān)注的是softmax后的結(jié)果，并不關(guān)注QK^T本身是什么，而softmax只關(guān)注值最大的幾個(gè)元素，因此我們可以只選擇k<

Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021)提出的方法只finetune 0.1%的參數(shù)就取得和finetune相當(dāng)?shù)男Ч⑶以谏贅颖救蝿?wù)上效果優(yōu)于finetune。本文提出針對自然語言生成任務(wù)(如摘要生成、table-to-text等任務(wù))的遷移預(yù)訓(xùn)練大模型的方法。基于Language models are few-shot learners(2020，GPT3)等文章中提出的Prompt思路，只要能給模型一個(gè)合適的上下文信息context，預(yù)訓(xùn)練的語言模型不需要修改參數(shù)就能很好的解決下游問題。例如當(dāng)我們想生成Obama這個(gè)詞，只要上下文信息給Barack，模型就可有可能生成Obama，因?yàn)槟Ｐ驮陬A(yù)訓(xùn)練階段已經(jīng)學(xué)到了這些信息。

該方法的具體實(shí)現(xiàn)為，將預(yù)訓(xùn)練的Transformer模型參數(shù)整體Freeze住，當(dāng)正常輸入文本序列的時(shí)候，在最前端添加幾個(gè)prefix id，每一個(gè)prefix id都對應(yīng)一個(gè)隨機(jī)初始化的embedding，不同的任務(wù)有不同的prefix id。這樣在模型中，prefix之后每個(gè)時(shí)刻的表示都會(huì)受到prefix的影響，prefix代表某個(gè)對應(yīng)具體任務(wù)的上下文信息。在Finetune過程中，模型的其他參數(shù)都Freeze，只finetune prefix的embedding，以及prefix后面接的一些全連接層，F(xiàn)inetune參數(shù)量只占整體模型的0.1%，遠(yuǎn)小于其他的Finetune方法。該方法核心思想利用了prefix embedding去學(xué)習(xí)對于某個(gè)任務(wù)來說，需要從預(yù)訓(xùn)練語言模型中提取什么樣的信息。

如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

總結(jié)

NLP領(lǐng)域預(yù)訓(xùn)練大模型的發(fā)展，催生出很多針對如何提升遷移效率的研究工作。從目前的研究趨勢來看，基于prompt思想的finetune是未來的一個(gè)重要研究趨勢，充分利用預(yù)訓(xùn)練模型的信息，讓下游任務(wù)更貼近預(yù)訓(xùn)練模型，而不是讓預(yù)訓(xùn)練模型貼近下游任務(wù)。后續(xù)我們也會(huì)對prompt進(jìn)行更為詳細(xì)的介紹。

原文標(biāo)題：NLP中的綠色Finetune方法

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

存儲(chǔ)

存儲(chǔ)

+關(guān)注

關(guān)注
13

文章
4507

瀏覽量
87088
參數(shù)

參數(shù)

+關(guān)注

關(guān)注
11

文章
1867

瀏覽量
32874
模型

模型

+關(guān)注

關(guān)注
1

文章
3488

瀏覽量
50020

原文標(biāo)題：NLP中的綠色Finetune方法

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評論

深度學(xué)習(xí)自然語言處理
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot 一個(gè)給NLP領(lǐng)域帶來革新的預(yù)訓(xùn)練語言大模型Bert
Hot 推薦一些翻譯英文文獻(xiàn)比較準(zhǔn)確的軟件

New 高效大模型的推理綜述
New 什么是RAG，RAG學(xué)習(xí)和實(shí)踐經(jīng)驗(yàn)

精選推薦
更多

文章

資料

帖子

從江蘇綠茵場到工業(yè)4.0賽場：全志HZ-T536_EVM如何‘踢’出智能制造新局？

合眾恒躍
8小時(shí)前

277 閱讀

手把手教你用樹莓派打造 LoRaWAN 網(wǎng)關(guān)！

上海晶珩電子科技有限公司
9小時(shí)前

195 閱讀

信號(hào)如何在PCB中傳播

Altium
9小時(shí)前

226 閱讀

Altium Designer的關(guān)鍵功能及其在芯片封裝測試中的應(yīng)用

Altium
10小時(shí)前

221 閱讀

ATS失效請求報(bào)文問題的故障排除步驟

XILINX開發(fā)者社區(qū)
10小時(shí)前

141 閱讀

AK100高性能ARM專用仿真器用戶使用指南

維生素B2
2250

10積分

60下載

攻破模電！讓你晉升大神的模電秘籍（案例、教程和精選電路）

0.00 MB

1積分

194下載

container-diff容器鏡像分析對比工具

李勇
3.30 MB

免費(fèi)

0下載

xBlog C++開發(fā)的BLOG程序

golabs
4.11 MB

2積分

1下載

明緯s350-24開關(guān)電源電路圖

fls
0.94 MB

免費(fèi)

981下載

HarmonyOS NEXT應(yīng)用開發(fā)-Notification Kit（用戶通知服務(wù)）通知類型、級(jí)別與渠道

李洋水蛟龍
1天前

169 閱讀

fpga測試遇到的問題

jf_82330134
1天前

275 閱讀

【干貨分享】：開源小巧的FPGA開發(fā)板——Icepi Zero

dianzi_0101
1天前

305 閱讀

飛凌嵌入式ElfBoard ELF 1板卡-LCD參數(shù)說明和修改

jf_13411809
1天前

357 閱讀

【高云GW5AT-LV60 開發(fā)套件試用體驗(yàn)】SC130GScmos模塊與LVDS屏和HDMI輸出例程測試報(bào)告細(xì)節(jié)補(bǔ)充

jf_88521721
1天前

342 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

華秋（原“華強(qiáng)聚豐”）：

電子發(fā)燒友

華秋開發(fā)

華秋電路(原"華強(qiáng)PCB")

華秋商城(原"華強(qiáng)芯城")

華秋智造

My ElecFans

APP
網(wǎng)站地圖

設(shè)計(jì)技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量儀表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動(dòng)

處理器/DSP

EDA/IC設(shè)計(jì)

存儲(chǔ)技術(shù)

光電顯示

EMC/EMI設(shè)計(jì)

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實(shí)

可穿戴設(shè)備

機(jī)器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動(dòng)通信

工業(yè)控制

便攜設(shè)備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計(jì)資源

設(shè)計(jì)技術(shù)

電子百科

電子視頻

元器件知識(shí)

工具箱

VIP會(huì)員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開發(fā)

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務(wù)

網(wǎng)站廣告

在線研討會(huì)

活動(dòng)策劃

新聞發(fā)布

新品發(fā)布

小測驗(yàn)

設(shè)計(jì)大賽

華秋

關(guān)于我們

投資關(guān)系

新聞動(dòng)態(tài)

加入我們

聯(lián)系我們

舉報(bào)投訴

社交網(wǎng)絡(luò)

微博

移動(dòng)端

發(fā)燒友APP

硬聲APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

黃晶晶：huangjingjing@elecfans.com

內(nèi)容合作（海外）

張迎輝：mikezhang@elecfans.com

供應(yīng)鏈服務(wù) PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區(qū)合作

劉勇：liuyong@huaqiu.com

關(guān)注我們的微信

下載發(fā)燒友APP

電子發(fā)燒友觀察

電子工程師社區(qū)

1-32層PCB打樣·中小批量

元器件現(xiàn)貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業(yè)動(dòng)態(tài)

聯(lián)系我們

企業(yè)文化

企業(yè)宣傳片

加入我們

版權(quán)所有 ? 湖南華秋數(shù)字科技有限公司

長沙市望城經(jīng)濟(jì)技術(shù)開發(fā)區(qū)航空路6號(hào)手機(jī)智能終端產(chǎn)業(yè)園2號(hào)廠房3層（0731-88081133）
電子發(fā)燒友 （電路圖） 湘公網(wǎng)安備43011202000918 工商網(wǎng)監(jiān) 湘ICP備2023018690號(hào)-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
在线观看www成人影院|在线观看www日本免费网站|在线观看www视频|在线观看操|欧美18在线|欧美1级

主站蜘蛛池模板： bt种子磁力天堂torrent | 人人干人人干 | 天天操天天干天天拍 | 韩国理论片2023现在观看 | 日本黄色美女网站 | 国产香蕉视频在线播放 | 黄网站在线播放 | 在线观看h网站 | 色视频在线观看网站 | 亚洲一二三区在线观看 | 久久成人性色生活片 | 欧美.亚洲.日本一区二区三区 | 曰本性l交片视频视频 | 国产美女在线精品免费观看 | 天天弄天天模 | 狠狠五月深爱婷婷网免费 | 国产亚洲一区二区在线观看 | 日韩一级精品视频在线观看 | 亚洲国产精品久久久久婷婷软件 | 夜夜爱夜夜做夜夜爽 | 天堂在线免费 | 国产一级特黄 | 男男憋尿play按小腹 | 欧美成人在线网站 | 天天天天做夜夜夜夜做 | 蕾丝视频成人★在线观看 | 成人av在线播放 | 久久伊人成人 | 视频在线高清完整免费观看 | 国产裸露片段精华合集链接 | 一级一片一a一片 | 色多多视频官网 | 久久999| 色射啪 | 插综合网| 色多多黄 | 国产伦精品一区二区免费 | 中文字幕视频一区 | 日本三级带日本三级带黄首页 | 婷婷色在线播放 | 日本高清视频不卡 |