在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型微調(diào)實踐心得與認知深化

深度學習自然語言處理 ? 來源:知乎 ? 2024-01-24 10:46 ? 次閱讀

以下內(nèi)容均為個人經(jīng)驗(臆測),不具有指導(dǎo)意義--快樂子涵醬。

關(guān)于continue

1.pre-train大模型的知識來自于pt階段,如果你想引入一些新的知識,那CPT是一個不錯的選擇。

2.但你首先要確保你有足夠大量的數(shù)據(jù)集,至少有幾B的token;

3.否則幾十條數(shù)據(jù)的情況我更推薦模型編輯更建議全量微調(diào)。

4.不確定lora是不是一個好的選擇,后面會展開講。

5.通常CPT開始的階段會出現(xiàn)一段時間的loss上升,隨后慢慢收斂,所以學習率是一個很重要的參數(shù),這很容易理解:如果lr過大,那loss值收斂會更困難,舊能力損失的會更大;如果lr過小,那可能難以學到新知識。

6.當你數(shù)據(jù)集比較?。ɡ?00B以下?),那建議使用較小的學習率。例如可以使用pre-train階段最大學習率的10%。通常7B模型pre-train階段的學習率大概是3e-4,所以我們可以選擇3e-5。

7.記得根據(jù)你的batch size做相應(yīng)縮放。通常lr縮放倍數(shù)為batch size倍數(shù)的開方。例如batch size增大4倍,學習率對應(yīng)擴大2倍即可。

8.warmup_ratio也很重要。通常LLM訓練的warmup_ratio是epoch * 1%左右。例如pre-train階段一般只訓一個epoch,則ratio是0.01;

9.SFT通常3個epoch,ratio對應(yīng)為0.03但是如果做CPT,建議warmup_ratio調(diào)大一點。如果你的數(shù)據(jù)集很大,有幾百b,那warmup其實不影響最重的模型效果。但通常我們的數(shù)據(jù)集不會有那么大,所以更小的ratio可以讓模型“過渡”得更平滑。

10.我甚至試過3個epoch的訓練(SFT),第一個epoch全部用來warmup,結(jié)果是work的。這里參考了Qwen-7b的技術(shù)報告。

11.所以學習率和warmup_ratio是兩個相輔相成的概念,二者通常是成正比的關(guān)系。或者說如果你正在用一個較大的學習率,那你或許可以同時嘗試增加warmup來防止模型“爛掉”。

12.這幾點不只適用于CPT,對一些特殊情況下的SFT階段同樣適用。

13.這里吐槽一下Trainer,到現(xiàn)在都不支持最小lr參數(shù)。

關(guān)于SFT

1.請勿迷信3個epoch的訓練,實測1個epoch就能對話。當然,更多的epoch確實會讓模型的評測效果更佳。

2.但如果你資源嚴重受限,跑一輪也能用~尤其當你從一個SFT模型啟動(如chatGLM)時,嘗試小點的epoch,防止災(zāi)難性遺忘。

3.如果數(shù)據(jù)量比較小,如只有1k,可以嘗試更多的epoch。無他,人為過擬合而已。

關(guān)于continue

1.pre-train+SFT首先提出一個問題,假設(shè)你想做一個領(lǐng)域模型,并且你的領(lǐng)域模型和通用chatBot的輸出內(nèi)容、格式都區(qū)別很大;此外你還期望要通過CPT來注入一定的知識,那可用的技術(shù)路線有哪些呢?

從pre-train模型開始SFT訓練,先做CPT,SFT數(shù)據(jù)使用你的領(lǐng)域數(shù)據(jù)
會得到一個只能解領(lǐng)域問題的模型,丟失掉通用對話能力,如果完全不考慮通用對話能力可以,否則不推薦

從pre-train模型開始SFT訓練,先做CPT,SFT數(shù)據(jù)選用通用SFT數(shù)據(jù)+領(lǐng)域SFT數(shù)據(jù)
如果你的領(lǐng)域數(shù)據(jù)和通用能力很接近,如醫(yī)療問答,那這是一個非常不錯的技術(shù)路線,推薦

對于2,如果你的新任務(wù)和通用任務(wù)差別很大,甚至輸出格式都完全不一樣甚至沖突
雖然可行,但直覺上一些通用SFT數(shù)據(jù)的answer會對你的任務(wù)目標造成一定程度的負向影響

從pre-train模型開始SFT訓練,先做CPT,再做通用SFT,再做領(lǐng)域SFT
這會導(dǎo)致你的任務(wù)目標(最后階段)和你的知識注入階段(CPT階段)中間存在一個階段的gap,可能不是最佳路線

從sft模型開始訓練,先做CPT,再做領(lǐng)域SFT
與4同理,任務(wù)目標(最后階段)和通用對話能力階段隔了一個階段,仿佛也不夠優(yōu)雅

2.思來想去,好像所有現(xiàn)有常見的技術(shù)路線都不太work~所以可能要試一些非常規(guī)的方法。

3.一個很有意思的問題是,過去我們都被GPT論文的三個階段束縛,老老實實串行跑三個階段:PT->SFT>RLHF

4.但是越來越多人嘗試SFT+DPO混合訓練,看上去也是work的。

5.同理,我相信很多國內(nèi)大模型的大廠,或多或少可能都在PT模型里偷偷摻了一些SFT數(shù)據(jù),這會讓模型的性能有一定程度的提升。

6.很久以前也有人在SFT階段摻雜一些PT數(shù)據(jù),來防止災(zāi)難性遺忘。

7.此外,不管是SFT還是PT,任務(wù)目標其實都一樣,都是基于teacher forcing的自回歸任務(wù),next token predict而已,唯一的不同只是數(shù)據(jù)格式不一樣。

8.那么我們可不可以認為,其實這不同階段的區(qū)別其實沒有那么大?是不是可以CPT+SFT混合訓練,不再區(qū)分階段。

9.例如我們可以在CPT階段加入大量SFT對話數(shù)據(jù)(同樣mask掉question),這個SFT數(shù)據(jù)甚至可以是海量的、未經(jīng)清洗的、低質(zhì)量的數(shù)據(jù),僅訓練1個epoch即可;接下來我們使用通用SFT數(shù)據(jù)(少而精的)+領(lǐng)域SFT數(shù)據(jù),混合訓練1個epoch;最后1個epoch我們只用領(lǐng)域數(shù)據(jù)做微調(diào)。

10.可以根據(jù)數(shù)據(jù)集大小、重要程度,修改各階段epoch輪次,或在某個階段內(nèi)擴大某數(shù)據(jù)集的倍數(shù)。

11.至此,CPT數(shù)據(jù)共訓練1個epoch,通用SFT數(shù)據(jù)2個,領(lǐng)域數(shù)據(jù)2個。

12.個人使用這種技術(shù)路線,感覺還是比較work的。由于CPT成本太大,未設(shè)置更多的消融實驗。那除此以外是否有其他技術(shù)路線呢?答案或許是Lora?

關(guān)于Lora

1.個人對lora使用得不多,之前僅僅是了解原理+會用,沒有深入探索過一些參數(shù)。最近嘗試理解一下。

2.lora真的沒省多少GPU也沒省多少訓練時長,所以我真的不太愛用它。(包大人備注:其實是很省顯存的,但不太省訓練時長)

3.lora更像是一個能力插件,可以幫助模型學到一些新的輸出格式/領(lǐng)域話題,但對新知識或新能力的注入可能不太擅長。

4.對于能力注入,當前的認知是:pre-train > full SFT > lora。

5.所以用lora來進行pretrain可能不是一個最優(yōu)解,還是更推薦用全參數(shù)。

6.但是對于領(lǐng)域任務(wù),lora好像天然適合?

7.第2、3點沒有經(jīng)過實驗論證,近期會跑個實驗,有結(jié)論會做補充。

8.lora_rank是一個很重要的參數(shù),它影響旁路矩陣的大小。

9.如果你的數(shù)據(jù)量比較小,那推薦用比較小的rank就可以了,我記得原論文里8和32區(qū)別不大(懶得翻論文了,全憑記憶,如果有錯誤請指正)

10.如果你數(shù)據(jù)量較大,那建議用更大的rank,來得到一個更大的旁路矩陣,它顯然可以記住更多的東西。

11.與此同時,除了q_proj,v_proj,強烈建議再試一下把所有的線性層都上lora,如k_proj, up_proj, down_proj這些。

12.此外lora_alpha也很重要,它通常和lora_rank是正比關(guān)系,表示一個縮放系數(shù)。alpha越大,表示新建的旁路矩陣影響力越大、新數(shù)據(jù)學得越“猛”;alpha越小,表示原始模型參數(shù)對結(jié)果的影響力越大。

13.很多人喜歡設(shè)置alpha是rank的2倍,其實可以二者1: 1跑個baseline看看效果。

網(wǎng)友補充:

1、SFT和pretrain的任務(wù)在有些大模型例如ChatGLM是不一樣的,對于把pretrain放到SFT來保持所謂的防止遺忘并沒有感覺到明顯差異。

2、對于小數(shù)據(jù)集,設(shè)置一個好的prefix,在很多epoch(大于100)的情況仍然保持不錯的提升。

3、lora對顯存的節(jié)約是很明顯的,只是很多代碼類似zero的思想并不契合lora(把模型切分放到最后,認為是最不占用顯存的,然而lora相反)。

4、lora的效果和全量在我做的實驗下是有明顯差距的(例如在某些指標上經(jīng)常>4%絕對值的差距),和論文中的理想情況不同,并且lora比較吃分層學習率,程度和crf比較接近了

5、lora的秩的值設(shè)置在1-16上還是存在不小的區(qū)別,從16到128上經(jīng)常只是一些收斂上的差異,例如128可能n個epoch收斂到x,16可能要2n,但并不絕對,而且r大時間久,一般16-32是比較推薦的

6、DPO和RLHF根據(jù)個人理解,對chosen-rejected數(shù)據(jù)的質(zhì)量需求是不同的,選擇RLHF仍然是更好的選擇,對于顯存不夠的部分人來說,可以例如lora,將actor和ref共用一個,critic和reward共用一個,把顯存從4x降低為2x。寧可這樣也盡量把顯存盡可能用來提高critic模型的參數(shù)量

網(wǎng)友:暫時先寫這么多,可能過倆月再看又是一篇漏洞百出的想法,

但總是要在摸索中前進吧~

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SFT
    SFT
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    6827
  • DPO
    DPO
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    13625
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2560

    瀏覽量

    3181

原文標題:大模型微調(diào)經(jīng)驗和認知

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+第一章初體驗

    機制。 《基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化》第一章以清晰的邏輯框架,幫助讀者建立對大模型與RAG的全局認知。通過剖析技術(shù)原理、優(yōu)勢與挑戰(zhàn),作者為后續(xù)章節(jié)的實踐內(nèi)容奠定了基礎(chǔ)。對于開
    發(fā)表于 02-07 10:42

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    今天學習<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學習領(lǐng)域中的一項關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓練好的大型深度學習模型基礎(chǔ)上,使用新的、特定任務(wù)相關(guān)的數(shù)據(jù)
    發(fā)表于 01-14 16:51

    模型為什么要微調(diào)?大模型微調(diào)的原理

    難以達到最佳性能。為了提升模型在特定任務(wù)上的表現(xiàn),微調(diào)(Fine-tuning)成為了一個關(guān)鍵步驟。本文將詳細探討大模型為什么要進行微調(diào)以及微調(diào)
    的頭像 發(fā)表于 07-10 10:43 ?4613次閱讀

    【大規(guī)模語言模型:從理論到實踐】- 閱讀體驗

    再次感謝電子發(fā)燒友提供的書籍試讀機會。今天來分享下我在學習大模型訓練中 注意力機制 的心得體會。 雖然注意力機制可以顯著提高模型處理長序列數(shù)據(jù)的能力,但這也帶來了計算成本的增加。在大型模型
    發(fā)表于 06-07 14:44

    大語言模型:原理與工程實踐+初識2

    前言 深度學習是機器學習的分支,而大語言模型是深度學習的分支。機器學習的核心是讓計算機系統(tǒng)通過對數(shù)據(jù)的學習提高性能,深度學習則是通過創(chuàng)建人工神經(jīng)網(wǎng)絡(luò)處理數(shù)據(jù)。近年人工神經(jīng)網(wǎng)絡(luò)高速發(fā)展,引發(fā)深度學習
    發(fā)表于 05-13 00:09

    【大語言模型:原理與工程實踐】大語言模型的應(yīng)用

    微調(diào)的積累,無需額外知識。然而,大模型所掌握的世界知識具有時效性,對于訓練后發(fā)生的事件或訓練集中未涵蓋的知識,大語言模型往往無法應(yīng)對。當面臨未知問題時,大語言模型可能會產(chǎn)生虛假的答案
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    大語言模型的評測是確保模型性能和應(yīng)用適應(yīng)性的關(guān)鍵環(huán)節(jié)。從基座模型微調(diào)模型,再到行業(yè)模型和整體能
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預(yù)訓練

    大語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學習容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學習容量的增加,對預(yù)訓練數(shù)據(jù)的需求也相應(yīng)
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

    《大語言模型“原理與工程實踐”》是關(guān)于大語言模型內(nèi)在機理和應(yīng)用實踐的一次深入探索。作者不僅深入討論了理論,還提供了豐富的實踐案例,幫助讀者理
    發(fā)表于 05-07 10:30

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    特定任務(wù)對模型進行微調(diào)。這種方法的成功不僅是自然語言處理發(fā)展的一個轉(zhuǎn)折點,還為許多現(xiàn)實世界的應(yīng)用場帶來了前所未有的性能提升。從廣為人知的GPT到BERT,預(yù)訓練的模型參數(shù)量越來越大預(yù)訓練數(shù)據(jù)越來越多
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術(shù)綜述

    其預(yù)訓練和微調(diào),直到模型的部署和性能評估。以下是對這些技術(shù)的綜述: 模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu),最常見的是Transformer網(wǎng)絡(luò),它包含多個自注意力層,能夠捕捉輸入數(shù)據(jù)中
    發(fā)表于 05-05 10:56

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐

    的未來發(fā)展方向進行了展望,包括跨領(lǐng)域、跨模態(tài)和自動提示生成能力方向,為讀者提供了對未來技術(shù)發(fā)展的深刻見解。《大語言模型原理與工程實踐》是一本內(nèi)容豐富、深入淺出的技術(shù)書籍。它不僅為讀者提供了大語言模型
    發(fā)表于 04-30 15:35

    名單公布!【書籍評測活動NO.31】大語言模型:原理與工程實踐

    性的重視。我們精心設(shè)計了從零開始的教學章節(jié),提供大語言模型微調(diào)的詳細指導(dǎo),逐步引領(lǐng)讀者掌握關(guān)鍵技能。這不僅有助于初學者迅速上手,也為有經(jīng)驗的開發(fā)者提供了深入學習的機會。 作為真正的大語言模型
    發(fā)表于 03-18 15:49

    名單公布!【書籍評測活動NO.30】大規(guī)模語言模型:從理論到實踐

    。 為了使更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎(chǔ),并開展大模型實踐,復(fù)旦大學張奇教授團隊結(jié)合他們在自然語言處理領(lǐng)域的研究經(jīng)驗,以及分布式系統(tǒng)和
    發(fā)表于 03-11 15:16

    MES深化應(yīng)用五級成熟度模型介紹

    電子發(fā)燒友網(wǎng)站提供《MES深化應(yīng)用五級成熟度模型介紹.docx》資料免費下載
    發(fā)表于 02-23 17:10 ?1次下載
    主站蜘蛛池模板: 777成了人乱视频 | 国内外精品免费视频 | 男人天堂网在线观看 | 国产精品美女免费视频观看 | 欧美tube44videos | 一级免费视频 | 欧美在线视频播放 | 午夜男人视频 | 国产精品久久久久久久9999 | 欧美黄色录像视频 | 操到喷水 | 天天干天天操天天拍 | 亚洲成在人线久久综合 | 2021最新国产成人精品视频 | 亚洲va欧美va国产综合久久 | 免费看大美女大黄大色 | 日本亚洲卡一卡2卡二卡三卡四卡 | 在线免费看污视频 | 欧美a一级| 国内自拍2021| 四虎影院台湾辣妹 | 色噜噜噜| 日本一本一道久久香蕉免费 | 欧美色图日韩 | 黄色在线观看网站 | 欧美色图亚洲综合 | 性色a| 午夜社区| 综合激情婷婷 | 四虎影视网址 | 天天干天天操天天操 | 天天干干天天 | 俺也去第四色 | 美女视频永久黄网站免费观看国产 | 五月天伦理| 中文字幕色| www亚洲欲色成人久久精品 | 五月天激情开心网 | 色天使色护士 | 夜夜夜夜夜夜夜猛噜噜噜噜噜噜 | 一级特级aaaa毛片免费观看 |