在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型微調實踐心得與認知深化

深度學習自然語言處理 ? 來源:知乎 ? 2024-01-24 10:46 ? 次閱讀

以下內容均為個人經驗(臆測),不具有指導意義--快樂子涵醬。

關于continue

1.pre-train大模型的知識來自于pt階段,如果你想引入一些新的知識,那CPT是一個不錯的選擇。

2.但你首先要確保你有足夠大量的數據集,至少有幾B的token;

3.否則幾十條數據的情況我更推薦模型編輯更建議全量微調。

4.不確定lora是不是一個好的選擇,后面會展開講。

5.通常CPT開始的階段會出現一段時間的loss上升,隨后慢慢收斂,所以學習率是一個很重要的參數,這很容易理解:如果lr過大,那loss值收斂會更困難,舊能力損失的會更大;如果lr過小,那可能難以學到新知識。

6.當你數據集比較小(例如100B以下?),那建議使用較小的學習率。例如可以使用pre-train階段最大學習率的10%。通常7B模型pre-train階段的學習率大概是3e-4,所以我們可以選擇3e-5。

7.記得根據你的batch size做相應縮放。通常lr縮放倍數為batch size倍數的開方。例如batch size增大4倍,學習率對應擴大2倍即可。

8.warmup_ratio也很重要。通常LLM訓練的warmup_ratio是epoch * 1%左右。例如pre-train階段一般只訓一個epoch,則ratio是0.01;

9.SFT通常3個epoch,ratio對應為0.03但是如果做CPT,建議warmup_ratio調大一點。如果你的數據集很大,有幾百b,那warmup其實不影響最重的模型效果。但通常我們的數據集不會有那么大,所以更小的ratio可以讓模型“過渡”得更平滑。

10.我甚至試過3個epoch的訓練(SFT),第一個epoch全部用來warmup,結果是work的。這里參考了Qwen-7b的技術報告。

11.所以學習率和warmup_ratio是兩個相輔相成的概念,二者通常是成正比的關系。或者說如果你正在用一個較大的學習率,那你或許可以同時嘗試增加warmup來防止模型“爛掉”。

12.這幾點不只適用于CPT,對一些特殊情況下的SFT階段同樣適用。

13.這里吐槽一下Trainer,到現在都不支持最小lr參數。

關于SFT

1.請勿迷信3個epoch的訓練,實測1個epoch就能對話。當然,更多的epoch確實會讓模型的評測效果更佳。

2.但如果你資源嚴重受限,跑一輪也能用~尤其當你從一個SFT模型啟動(如chatGLM)時,嘗試小點的epoch,防止災難性遺忘。

3.如果數據量比較小,如只有1k,可以嘗試更多的epoch。無他,人為過擬合而已。

關于continue

1.pre-train+SFT首先提出一個問題,假設你想做一個領域模型,并且你的領域模型和通用chatBot的輸出內容、格式都區別很大;此外你還期望要通過CPT來注入一定的知識,那可用的技術路線有哪些呢?

從pre-train模型開始SFT訓練,先做CPT,SFT數據使用你的領域數據
會得到一個只能解領域問題的模型,丟失掉通用對話能力,如果完全不考慮通用對話能力可以,否則不推薦

從pre-train模型開始SFT訓練,先做CPT,SFT數據選用通用SFT數據+領域SFT數據
如果你的領域數據和通用能力很接近,如醫療問答,那這是一個非常不錯的技術路線,推薦

對于2,如果你的新任務和通用任務差別很大,甚至輸出格式都完全不一樣甚至沖突
雖然可行,但直覺上一些通用SFT數據的answer會對你的任務目標造成一定程度的負向影響

從pre-train模型開始SFT訓練,先做CPT,再做通用SFT,再做領域SFT
這會導致你的任務目標(最后階段)和你的知識注入階段(CPT階段)中間存在一個階段的gap,可能不是最佳路線

從sft模型開始訓練,先做CPT,再做領域SFT
與4同理,任務目標(最后階段)和通用對話能力階段隔了一個階段,仿佛也不夠優雅

2.思來想去,好像所有現有常見的技術路線都不太work~所以可能要試一些非常規的方法。

3.一個很有意思的問題是,過去我們都被GPT論文的三個階段束縛,老老實實串行跑三個階段:PT->SFT>RLHF

4.但是越來越多人嘗試SFT+DPO混合訓練,看上去也是work的。

5.同理,我相信很多國內大模型的大廠,或多或少可能都在PT模型里偷偷摻了一些SFT數據,這會讓模型的性能有一定程度的提升。

6.很久以前也有人在SFT階段摻雜一些PT數據,來防止災難性遺忘。

7.此外,不管是SFT還是PT,任務目標其實都一樣,都是基于teacher forcing的自回歸任務,next token predict而已,唯一的不同只是數據格式不一樣。

8.那么我們可不可以認為,其實這不同階段的區別其實沒有那么大?是不是可以CPT+SFT混合訓練,不再區分階段。

9.例如我們可以在CPT階段加入大量SFT對話數據(同樣mask掉question),這個SFT數據甚至可以是海量的、未經清洗的、低質量的數據,僅訓練1個epoch即可;接下來我們使用通用SFT數據(少而精的)+領域SFT數據,混合訓練1個epoch;最后1個epoch我們只用領域數據做微調。

10.可以根據數據集大小、重要程度,修改各階段epoch輪次,或在某個階段內擴大某數據集的倍數。

11.至此,CPT數據共訓練1個epoch,通用SFT數據2個,領域數據2個。

12.個人使用這種技術路線,感覺還是比較work的。由于CPT成本太大,未設置更多的消融實驗。那除此以外是否有其他技術路線呢?答案或許是Lora?

關于Lora

1.個人對lora使用得不多,之前僅僅是了解原理+會用,沒有深入探索過一些參數。最近嘗試理解一下。

2.lora真的沒省多少GPU也沒省多少訓練時長,所以我真的不太愛用它。(包大人備注:其實是很省顯存的,但不太省訓練時長)

3.lora更像是一個能力插件,可以幫助模型學到一些新的輸出格式/領域話題,但對新知識或新能力的注入可能不太擅長。

4.對于能力注入,當前的認知是:pre-train > full SFT > lora。

5.所以用lora來進行pretrain可能不是一個最優解,還是更推薦用全參數。

6.但是對于領域任務,lora好像天然適合?

7.第2、3點沒有經過實驗論證,近期會跑個實驗,有結論會做補充。

8.lora_rank是一個很重要的參數,它影響旁路矩陣的大小。

9.如果你的數據量比較小,那推薦用比較小的rank就可以了,我記得原論文里8和32區別不大(懶得翻論文了,全憑記憶,如果有錯誤請指正)

10.如果你數據量較大,那建議用更大的rank,來得到一個更大的旁路矩陣,它顯然可以記住更多的東西。

11.與此同時,除了q_proj,v_proj,強烈建議再試一下把所有的線性層都上lora,如k_proj, up_proj, down_proj這些。

12.此外lora_alpha也很重要,它通常和lora_rank是正比關系,表示一個縮放系數。alpha越大,表示新建的旁路矩陣影響力越大、新數據學得越“猛”;alpha越小,表示原始模型參數對結果的影響力越大。

13.很多人喜歡設置alpha是rank的2倍,其實可以二者1: 1跑個baseline看看效果。

網友補充:

1、SFT和pretrain的任務在有些大模型例如ChatGLM是不一樣的,對于把pretrain放到SFT來保持所謂的防止遺忘并沒有感覺到明顯差異。

2、對于小數據集,設置一個好的prefix,在很多epoch(大于100)的情況仍然保持不錯的提升。

3、lora對顯存的節約是很明顯的,只是很多代碼類似zero的思想并不契合lora(把模型切分放到最后,認為是最不占用顯存的,然而lora相反)。

4、lora的效果和全量在我做的實驗下是有明顯差距的(例如在某些指標上經常>4%絕對值的差距),和論文中的理想情況不同,并且lora比較吃分層學習率,程度和crf比較接近了

5、lora的秩的值設置在1-16上還是存在不小的區別,從16到128上經常只是一些收斂上的差異,例如128可能n個epoch收斂到x,16可能要2n,但并不絕對,而且r大時間久,一般16-32是比較推薦的

6、DPO和RLHF根據個人理解,對chosen-rejected數據的質量需求是不同的,選擇RLHF仍然是更好的選擇,對于顯存不夠的部分人來說,可以例如lora,將actor和ref共用一個,critic和reward共用一個,把顯存從4x降低為2x。寧可這樣也盡量把顯存盡可能用來提高critic模型的參數量

網友:暫時先寫這么多,可能過倆月再看又是一篇漏洞百出的想法,

但總是要在摸索中前進吧~

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SFT
    SFT
    +關注

    關注

    0

    文章

    9

    瀏覽量

    6864
  • DPO
    DPO
    +關注

    關注

    0

    文章

    14

    瀏覽量

    13698
  • 大模型
    +關注

    關注

    2

    文章

    2955

    瀏覽量

    3691

原文標題:大模型微調經驗和認知

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    DeepSeek-R1:7B 在配備 Hailo-8L 和 M2-HAT+ 的樹莓派5上的部署實踐測試!

    我近期深度投入于LLM/SLM(大語言模型/小型語言模型)的研發,涵蓋智能體開發、RAG增強檢索、微調模型蒸餾和MLOps等領域。為拓展技術邊界,我同步探索了邊緣AI領域,重點聚焦
    的頭像 發表于 03-25 09:20 ?506次閱讀
    DeepSeek-R1:7B 在配備 Hailo-8L 和 M2-HAT+ 的樹莓派5上的部署<b class='flag-5'>實踐</b>測試!

    使用OpenVINO?訓練擴展對水平文本檢測模型進行微調,收到錯誤信息是怎么回事?

    已針對水平文本檢測模型運行OpenVINO?訓練擴展中的 微調 步驟,并收到錯誤消息: RuntimeError: Failed to find annotation files
    發表于 03-05 06:48

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+第一章初體驗

    機制。 《基于大模型的RAG應用開發與優化》第一章以清晰的邏輯框架,幫助讀者建立對大模型與RAG的全局認知。通過剖析技術原理、優勢與挑戰,作者為后續章節的實踐內容奠定了基礎。對于開
    發表于 02-07 10:42

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    今天學習<基于大模型的RAG應用開發與優化>這本書。大模型微調是深度學習領域中的一項關鍵技術,它指的是在已經預訓練好的大型深度學習模型基礎上,使用新的、特定任務相關的數據
    發表于 01-14 16:51

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    模型展示了強大的泛化能力,能夠將在模擬環境學到的技能遷移到真實場景。RT-2的改進版本更是引入了視覺-語言預訓練技術,使模型能夠理解更抽象的任務描述。 第8章通過具體應用案例展現了具身智能的實踐價值。在
    發表于 12-24 15:03

    【「大模型啟示錄」閱讀體驗】對大模型更深入的認知

    閱讀《大模型啟示錄》這本書,我得說,它徹底顛覆了我對大模型的理解。作為一個經常用KIMI和豆包這類AI工具來完成作業、整理資料的大學生,我原以為大模型就是這些工具背后的技術。但這本書讓我意識到
    發表于 12-20 15:46

    一種信息引導的量化后LLM微調新算法IR-QLoRA

    模型應用開卷,連一向保守的蘋果,都已釋放出發展端側大模型的信號。 問題是,大語言模型(LLM)卓越的表現取決于“力大磚飛”,如何在資源有限的環境中部署大模型并保障性能,仍然頗具挑戰。
    的頭像 發表于 11-19 17:16 ?652次閱讀
    一種信息引導的量化后LLM<b class='flag-5'>微調</b>新算法IR-QLoRA

    大語言模型如何開發

    大語言模型的開發是一個復雜且細致的過程,涵蓋了數據準備、模型架構設計、訓練、微調和部署等多個階段。以下是對大語言模型開發步驟的介紹,由AI部落小編整理發布。
    的頭像 發表于 11-04 10:14 ?462次閱讀

    清華iCenter與聯想攜手深化AI教育

    近日,清華大學iCenter與聯想公司正式達成合作,共同致力于推動人工智能教育的深化與發展。聯想公司作為領先的科技企業,在AI和大模型技術領域擁有深厚的積累與豐富的經驗,此次合作將為AI教育注入
    的頭像 發表于 10-31 11:27 ?648次閱讀

    AI大模型的性能優化方法

    (學生模型)來模仿大型模型(教師模型)的輸出。學生模型通過學習教師模型的“軟標簽”(即概率分布信息),從而獲
    的頭像 發表于 10-23 15:01 ?1917次閱讀

    示波器探頭補償微調旋鈕的作用

    示波器探頭補償微調旋鈕是一種用于調整示波器探頭性能的重要組件。 一、示波器探頭補償微調旋鈕的作用 校準探頭性能 示波器探頭補償微調旋鈕的主要作用是校準探頭的性能。由于探頭在生產過程中可能存在一定
    的頭像 發表于 08-09 11:31 ?1072次閱讀

    模型為什么要微調?大模型微調的原理

    難以達到最佳性能。為了提升模型在特定任務上的表現,微調(Fine-tuning)成為了一個關鍵步驟。本文將詳細探討大模型為什么要進行微調以及微調
    的頭像 發表于 07-10 10:43 ?6570次閱讀

    【大規模語言模型:從理論到實踐】- 閱讀體驗

    再次感謝電子發燒友提供的書籍試讀機會。今天來分享下我在學習大模型訓練中 注意力機制 的心得體會。 雖然注意力機制可以顯著提高模型處理長序列數據的能力,但這也帶來了計算成本的增加。在大型模型
    發表于 06-07 14:44

    名單公布!【書籍評測活動NO.34】大語言模型應用指南:以ChatGPT為起點,從入門到精通的AI實踐教程

    ,對使用者的技術要求更高,但具備更強的可定制性。不管是開源模型還是閉源模型,都提供了模型微調的能力。OpenAI 甚至提供了神經網絡的文本向量化功能。 框架層提供了基于大語言
    發表于 06-03 11:39

    大語言模型:原理與工程實踐+初識2

    前言 深度學習是機器學習的分支,而大語言模型是深度學習的分支。機器學習的核心是讓計算機系統通過對數據的學習提高性能,深度學習則是通過創建人工神經網絡處理數據。近年人工神經網絡高速發展,引發深度學習
    發表于 05-13 00:09
    主站蜘蛛池模板: 久久精品视频网站 | 色综合天天综合网国产国产人 | 日本黄色爽 | 欧美在线天堂 | 特黄特色 | 99草在线观看| 在线免费观看色视频 | 狠狠色噜噜狠狠狠狠91 | 精品成人在线观看 | 午夜影剧| 国产在线播放成人免费 | 国产农村女人一级毛片了 | 亚洲1卡二卡3卡四卡不卡 | 寡妇影院首页亚洲图片 | 香蕉久久精品 | 欧美综合精品一区二区三区 | 操女网站 | 免费国产99久久久香蕉 | 四虎影视国产精品 | 99久久精品国产自免费 | 一级@片| 中文字幕v视界影院 | 久久涩精品 | 五月婷婷丁香综合网 | 日本xxxxxx69 | 亚洲第一成人在线 | 香蕉视频在线观看黄 | 色综合天天综合网国产国产人 | 久久国产乱子伦精品免费看 | 四虎影院免费网址 | 黄 色 成 年人网站 黄 色 成 年人在线 | 美女扒开内裤无遮挡禁18 | 日本色频 | 天天干天天操天天碰 | 一级毛片黄色 | 久久精品免费观看久久 | 亚洲人免费视频 | 国产精品一久久香蕉产线看 | 亚洲 欧美 自拍 另类 欧美 | 男啪女色黄无遮挡免费观看 | 一本到午夜92版免费福利 |