在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從統一視角看各類高效finetune方法實現最優tuning框架設計

深度學習自然語言處理 ? 來源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-11-29 11:13 ? 次閱讀

隨著預訓練模型參數量越來越大,遷移學習的成本越來越高,parameter-efficient tuning成為一個熱點研究方向。在以前我們在下游任務使用預訓練大模型,一般需要finetune模型的所有參數。隨著parameter-efficient tuning技術的發展,一些注入adaptor、prefix tuning、LoRA等成本更低的finetune方法被提出。那么各種各樣的parameter-efficient tuning方法之間是否存在某些潛在的關系呢?ICLR 2022就有一篇相關的研究,從統一的視角理解現有的各類parameter-efficient tuning方法,并提出了一套遷移框架,可以實現更接近全量參數finetune效果的部分參數finetune。

1各類tuning方法回顧

比較經典的高效finetune方法主要包括adaptor、prefix-tuning、LoRA這三類,這里進行一個簡單的回顧。

Adaptor核心是在原Bert中增加參數量更小的子網絡,finetune時固定其他參數不變,只更新這個子網絡的參數。Adaptor是最早的一類高效finetune方法的代表,在Parameter-Efficient Transfer Learning for NLP(ICML 2019)這篇文章中被提出。在原來的Bert模型的每層中間加入兩個adapter。Adapter通過全連接對原輸入進行降維進一步縮小參數量,經過內部的NN后再將維度還原,形成一種bottleneck的結構。在finetune過程中,原預訓練Bert模型的參數freeze住不更新,只更新adapter的參數,大大減少了finetune階段需要更新和保存的參數量。

b60e7bc4-6f24-11ed-8abf-dac502259ad0.png

Prefix-tuning的核心是為每個下游任務增加一個prefix embedding,只finetune這些embedding,其他參數freeze。Prefix-tuning對應的論文是Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021),這類方法的思想來源于prefix prompt,prefix embedding相當于一個上下文信息,對模型最終產出的結果造成影響,進而只finetune這個embedding實現下游任務的遷移。

b6af57e2-6f24-11ed-8abf-dac502259ad0.png

LoRA的核心是通過引入參數量遠小于原模型的可分解的兩小矩陣建立一個旁路,通過finetune這個旁路來影響預訓練模型。LoRA于LoRA: Low-rank adaptation of large language models(2021)論文中被提出,利用低秩矩陣替代原來全量參數的訓練,提升finetune效率。

b75a2758-6f24-11ed-8abf-dac502259ad0.png

2統一視角看高效finetune方法

ICLR 2022的這篇文章從統一的視角來看各類不同的parameter-efficient tuning方法。首先對于prefix tuning,Transformer的每個head的結果可以進行如下的公式推導變換:

b76eb9f2-6f24-11ed-8abf-dac502259ad0.png

其中,第一行的P就是prefix embedding,C對應著key和value的序列向量,x代表query。經過中間的變換后,可以發現prefix tuning的attention計算可以分為兩個部分的加權求和,第一部分是原始的attention,第二部分是和key或value無關的一項,只用query和prefix embedding進行self-attention的計算。而權重則是根據prefix embedding的attention權重。通過上述公式,我們可以從另一個視角來看prefix-tuning:即在原始attention的輸出結果上,對位相加一個由prefix embedding得到的attention值,實現對原始attention score的修正。

我們再來看Adaptor和LoRA兩種tuning方式的數學表示。Adaptor和LoRA方法可以分別表示為如下公式:

b780c99e-6f24-11ed-8abf-dac502259ad0.png

我們把prefix embedding也可以轉換成相同的表達形式:

b7a5b77c-6f24-11ed-8abf-dac502259ad0.png

可以發現這些finetune方法都具有相似的表達形式。并且,prefix-tuning中prefix embedding的數量其實和Adapter中降維的維度具有相似的功能。三種方法在這個視角下的對比如下圖所示:

b7c173ea-6f24-11ed-8abf-dac502259ad0.png

3統一的高效finetune框架

既然上述幾類方法表達形式相似,并且主要學的都是如何修改原來attention的輸出結果,那么我們可以建立一個統一的框架,涵蓋上述各類finetune方法。這個框架的核心是如何生成修改原始attention score的向量。為了生成這個向量,需要考慮以下4個核心模塊:

Functional Form:用什么樣的函數生成,上述方法基本都是全連接降維+激活函數+全連接升維的形式,當然也可以設計更復雜的函數形式;

Modified Representation:對哪個位置的信息進行直接修改;

Insertion Form:向量引入的形式,Adapter采用的是串聯的方式,根據上一層的隱狀態生成向量;而prefix tuning和LoRA采用并聯的方式,直接根據輸入序列生成向量;

Composition Function:向量的使用方式,利用adapter中采用簡單的對位相加的形式。

Adapter、Prefix-tuning、LoRA等方法按照 上面4個維度拆分,各自的實現形式如下表:

b7f18ad0-6f24-11ed-8abf-dac502259ad0.png

接下來,文中基于上述4個模塊設計了一些新的方法:

Parallel Adapter:將Adapter的串聯形式修改為并聯形式;

Multi-head Parallel Adapter:在Parallel Adapter基礎上修改了Modified Representation,使用旁路向量修改attention輸出結果;

Scaled Parallel Adapter:將LoRA的scaling引入進來。

b80cc340-6f24-11ed-8abf-dac502259ad0.png

4實驗結果

本文由于站在了更高的視角,看到了parameter-efficient tuning的統一形式,因此可以實現更加靈活的建模方式,基于這個框架尋找最節省參數量、最能達到更好效果的結構。從下圖可以看出,本文提出的方法實現接接近全量參數finetune的效果,參數量也比Adapter、LoRA等方法有所減少。

b8268032-6f24-11ed-8abf-dac502259ad0.png

文中通過大量的實驗對比各個模塊采用什么樣的形式能帶來最好的效果-效率的這種,并最終提出最優的模型MAM-Adapter。核心的實驗發現包括:并聯的方式比串聯的好;對FFN輸出結果的修改比對Attention輸出結果修改要好等。

b880989c-6f24-11ed-8abf-dac502259ad0.png

5總結

本文從統一視角看parameter-efficient tuning,實現了更高視角的最優tuning框架設計。這也啟發我們尋找同類問題不同建模方式背后原理的統一性,能夠跳出一種模型結構去看各類建模方式的相似性,實現更高視角下對問題的理解。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • LoRa
    +關注

    關注

    351

    文章

    1747

    瀏覽量

    234090

原文標題:從統一視角看各類高效finetune方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    百度飛槳框架3.0正式版發布

    、推理等任務都離不開深度學習框架的優化與支撐。 飛槳框架3.0,設計理念上實現底層硬件適配到頂層開發體驗的全面進化,在訓練效率、性能、
    的頭像 發表于 04-02 19:03 ?487次閱讀
    百度飛槳<b class='flag-5'>框架</b>3.0正式版發布

    基于事件相機的統一幀插值與自適應去模糊框架(REFID)

    )的解決方案。團隊提出了種基于事件相機的統一幀插值與自適應去模糊框架(REFID)。該框架基于雙向遞歸網絡,結合事件流和圖像信息,自適應地融合來自不同時間點的信息,從而能夠在模糊的輸
    的頭像 發表于 03-14 11:48 ?484次閱讀
    基于事件相機的<b class='flag-5'>統一</b>幀插值與自適應去模糊<b class='flag-5'>框架</b>(REFID)

    探索 RK3576 方案:卓越性能與靈活框架,誠邀開發定制合作!

    組合分辨率的視頻顯示,配合多種圖像處理算法,可提供極為清晰的視覺體驗,提升了監控的靈活性和便捷性,滿足不同用戶對于多畫面監控展示的需求2。RK3576 框架優勢RK3576 的框架設計靈活且高效,為
    發表于 02-05 15:21

    詳解框架設

    后臺程序(控制中心),是程序的核心。它實現各類RPC接口(遠程調用接口),供前臺程序、MQTT程序使用。
    的頭像 發表于 01-09 16:48 ?460次閱讀
    詳解<b class='flag-5'>框架設</b>計

    SSM框架的源碼解析與理解

    SSM框架(Spring + Spring MVC + MyBatis)是種在Java開發中常用的輕量級企業級應用框架。它通過整合Spring、Spring MVC和MyBatis三個框架
    的頭像 發表于 12-17 09:20 ?725次閱讀

    HarmonyOS NEXT應用元服務開發Intents Kit(意圖框架服務)習慣推薦方案概述

    用戶的行為習慣。 2.在HarmonyOS學習到用戶的行為習慣后,會給用戶推薦相應功能,并且嘗試補充詳細功能參數,減少用戶執行任務的步驟。 以聽音樂為例,意圖框架設計了統一的意圖——播放歌單意圖,該意圖可以讓
    發表于 11-19 17:59

    特斯拉智能駕駛未來發展

    編者語:「智駕最前沿」微信公眾號后臺回復:C-0587,獲取本文參考報告:《特斯拉視角智能駕駛研究框架》pdf下載方式。 隨著自動駕駛技術的快速發展,智能駕駛已成為汽車行業技術競
    的頭像 發表于 11-16 16:49 ?1704次閱讀
    <b class='flag-5'>從</b>特斯拉<b class='flag-5'>看</b>智能駕駛未來發展

    種簡單高效配置FPGA的方法

    本文描述了種簡單高效配置FPGA的方法,該方法利用微處理器串行外圍接口(SPI)閃存配置FPGA設備。這種
    的頭像 發表于 10-24 14:57 ?1272次閱讀
    <b class='flag-5'>一</b>種簡單<b class='flag-5'>高效</b>配置FPGA的<b class='flag-5'>方法</b>

    藍牙協議棧視角探索信道探測

    親愛的藍牙科技愛好者們,上期的“干貨”希望大家看得過癮!在本期節目中,主講人藍牙技術聯盟技術與市場工程師魯公羽會繼續為您詳解信道探測(Channel Sounding),藍牙協議棧的視角探索信道探測的技術細節!
    的頭像 發表于 10-12 16:49 ?699次閱讀
    <b class='flag-5'>從</b>藍牙協議棧<b class='flag-5'>視角</b>探索信道探測

    使用PPC3軟件,進入Tuning and Audio Processing模塊后,喇叭就不發聲了怎么解決?

    自己的電腦,不管是筆記本還是臺式機,都是上述那個問題,是不是我的電腦驅動跟PPC3有沖突,還是PPC3需要進行些設置才能使用Tuning and Audio Processing模塊呢?
    發表于 10-12 07:58

    般高壓架設線路用的什么線

    高壓架設線路是指用于輸送高壓電流的架空線路,通常用于遠距離輸電。高壓架設線路的選用和設計需要考慮多種因素,包括線路的電壓等級、輸電距離、地形地貌、氣候條件等。 、高壓架設線路的類型
    的頭像 發表于 08-16 09:15 ?1335次閱讀

    統一多云管理平臺怎么用?

    的IT基礎設施管理功能,幫助企業在日益復雜的云計算環境中實現高效管理和成本優化,Rak小編統一多云管理平臺怎么用?
    的頭像 發表于 08-14 11:28 ?391次閱讀

    ESP32-S3-KROVO2如何在ADF框架實現wifi連接?

    本人現在想要做個項目,能夠實現wifi連接并在LCD上顯示圖片,目前能夠分別使用idf框架實現wifi連接,和adf框架下的圖片LCD顯示
    發表于 06-28 08:02

    視覺新紀元:解碼LED顯示屏的視角、可視角、最佳視角的最終奧秘

    在璀璨奪目的LED顯示屏世界里,每個絢爛畫面的背后,都離不開三個關鍵概念:視角、可視角與最佳視角。這些術語不僅是衡量顯示效果的重要標尺,也是連接觀眾與精彩內容的橋梁。讓我們
    的頭像 發表于 06-23 02:55 ?871次閱讀
    視覺新紀元:解碼LED顯示屏的<b class='flag-5'>視角</b>、可<b class='flag-5'>視角</b>、最佳<b class='flag-5'>視角</b>的最終奧秘

    鴻蒙Ability Kit(程序框架服務)【應用啟動框架AppStartup】

    `AppStartup`提供了種更加簡單高效的初始化組件的方式,支持異步初始化組件加速應用的啟動時間。使用啟動框架應用開發者只需要分別為待初始化的組件實現`AppStartup`提供
    的頭像 發表于 06-10 18:38 ?1012次閱讀
    主站蜘蛛池模板: 国产啊v在线观看 | 中文字幕在线播放第一页 | 日韩理论电影2021第1页 | 免费一级大片 | 国内精品久久久久影院男同志 | 狠狠色噜噜狠狠色综合久 | 国产精品入口免费视频 | 1024免费永久福利视频 | 亚洲91在线视频 | 一区二区三区高清 | 国产大片黄在线观看 | 2021日本三级理论影院 | 国产视频国产 | 久久综合九色综合欧美播 | 国产真实灌醉美女疯狂弄 | 91色在线观看 | 寡妇影院首页亚洲图片 | 成人a毛片视频免费看 | 国产毛片哪里有 | 激情综合激情 | 天天干天天草天天射 | 在线观看视频h | 狠狠狠色丁香婷婷综合久久88 | 99久久久久国产精品免费 | aaaa级日本片免费视频 | 国产成人综合网在线播放 | 久久99久久99精品免观看 | 天天插天天搞 | 国产色系视频在线观看免费 | 亚洲精品久久久久影 | 美女视频黄色的免费 | 亚洲不卡视频 | 天天射夜夜操 | 69国产| 操女人网| 爆操欧美| 日本xxxx色视频在线观看 | 狠狠色丁香婷婷综合激情 | 同性男男肉交短文 | 男人不识本站 | 在线视频你懂得 |