在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于領域大模型-訓練Trick&落地的一點思考

深度學習自然語言處理 ? 來源:NLP工作站 ? 2023-08-09 11:43 ? 次閱讀

一、領域技術標準文檔或領域相關數(shù)據(jù)是領域模型Continue PreTrain的關鍵。

現(xiàn)有大模型在預訓練過程中都會加入書籍、論文等數(shù)據(jù),那么在領域預訓練時這兩種數(shù)據(jù)其實也是必不可少的,主要是因為這些數(shù)據(jù)的數(shù)據(jù)質量較高、領域強相關、知識覆蓋率(密度)大,可以讓模型更適應考試。當然不是說其他數(shù)據(jù)不是關鍵,比如領域相關網(wǎng)站內容、新聞內容都是重要數(shù)據(jù),只不過個人看來,在領域上的重要性或者知識密度不如書籍和技術標準。

二、領域數(shù)據(jù)訓練后,往往通用能力會有所下降,需要混合通用數(shù)據(jù)以緩解模型遺忘通用能力。

如果僅用領域數(shù)據(jù)進行模型訓練,模型很容易出現(xiàn)災難性遺忘現(xiàn)象,通常在領域訓練過程中加入通用數(shù)據(jù)。那么這個比例多少比較合適呢?目前還沒有一個準確的答案,BloombergGPT(從頭預訓練)預訓練金融和通用數(shù)據(jù)比例基本上為1:1,ChatHome(繼續(xù)預訓練)發(fā)現(xiàn)領域:通用數(shù)據(jù)比例為1:5時最優(yōu)。個人感覺應該跟領域數(shù)據(jù)量有關,當數(shù)據(jù)量沒有那多時,一般數(shù)據(jù)比例在1:5到1:10之間是比較合適的。ea223e0a-3661-11ee-9e74-dac502259ad0.png

三、領域模型Continue PreTrain時可以同步加入SFT數(shù)據(jù),即MIP,Multi-Task Instruction PreTraining。

預訓練過程中,可以加下游SFT的數(shù)據(jù),可以讓模型在預訓練過程中就學習到更多的知識。例如:T5、ExT5、Glm-130b等多任務學習在預訓練階段可能比微調更有幫助。并且ChatHome發(fā)現(xiàn)MIP效果在領域上評測集上絕群。

ea3951da-3661-11ee-9e74-dac502259ad0.png

四、 僅用SFT做領域模型時,資源有限就用在Chat模型基礎上訓練,資源充足就在Base模型上訓練。(資源=數(shù)據(jù)+顯卡)

跟很多人討論過一個問題,就是我們在SFT的時候是在Base模型上訓練還是在Chat模型上訓練。

其實很簡單,如果你只有5k數(shù)據(jù),建議你在Chat模型上進行微調;如果你有10w數(shù)據(jù),建議你在Base模型上進行微調。因為你不知Chat模型在SFT時的數(shù)據(jù)質量如何,當自己有能力時,靠人不如靠己。

五、在Chat模型上進行SFT時,請一定遵循Chat模型原有的系統(tǒng)指令&數(shù)據(jù)輸入格式。

如果你在Chat模型上進行SFT的時候,請跟Chat模型的輸入格式一致,否則當你數(shù)據(jù)量不足時,可能會導致訓練效果不明顯。并且建議不采用全量參數(shù)訓練,否則模型原始能力會遺忘較多。

六、領域評測集時必要內容,建議有兩份,一份選擇題形式自動評測、一份開放形式人工評測。

一定要有自己的領域數(shù)據(jù)集來驗證模型效果,來選擇最好的checkpoint。選擇題形式可以自動評測,方便模型進行初篩;開放形式人工評測比較浪費時間,可以用作精篩,并且任務形式更貼近真實場景。

七、領域模型詞表擴增是不是有必要的。

個人感覺,領域詞表擴增真實解決的問題是解碼效率的問題,給模型效果帶來的提升可能不會有很大。(這里領域詞表擴充是指在同語言模型上擴充詞表,而不是英文模型的中文漢化)

八、所謂的領域大模型會更新的越來越快,越來越多。

由于很多人&公司并沒有資源搞底座,因此需要在現(xiàn)有底座模型上進行增量預訓練、微調等。而以目前各廠(ChatGLM、BaiChuan、Qwen、Llama)搶占開源社區(qū)占比的架勢,感覺會有很多7B、13B級別模型開源。

請等待一言、ChatGPT開源小模型的一天,說不定GPT5出來的時候,Openai會開源個GPT3.5的小版本模型。

領域大模型落地的想法

一、常說通用模型的領域化可能是偽命題,那么領域大模型的通用化是否也是偽命題。

自訓練模型開始,就一直再跟Leader Battle這個問題,領域大模型需不需要有通用化能力。就好比華為盤古大模型“只做事不作詩”的slogan,是不是訓練的領域大模型可以解決固定的幾個任務就可以了。

個人的一些拙見是,如果想快速的將領域大模型落地,最簡單的是將系統(tǒng)中原有能力進行升級,即大模型在固定的某一個或某幾個任務上的效果超過原有模型。

Text2SQL任務舉例,之前很多系統(tǒng)中的方法是通過抽取關鍵要素&拼接方式來解決,端到端解決的并不是很理想,那么現(xiàn)在完全可以用大模型SQL生成的能力來解決。在已有產(chǎn)品上做升級,是代價最小的落地方式。就拿我司做的“云中問道”來說,在解決某領域SQL任務上效果可以達到90%+,同比現(xiàn)有開源模型&開放API高了不少。

當然還有很多其他任務可以升級,例如:D2QA、D2SPO、Searh2Sum等等等。

二、領域大模型落地,任務場景要比模型能力更重要。

雖說在有產(chǎn)品上做升級,是代價最小的落地方式,但GPT4、AutoGPT已經(jīng)把人們胃口調的很高,所有人都希望直接提出一個訴求,大模型直接解決。但這對現(xiàn)有領域模型是十分困難的,所以在哪些場景上來用大模型是很關鍵的,并且如何將模型進行包裝,及時在模型能力不足的情況下,也可以讓用戶有一個很好的體驗。

現(xiàn)在很多人的疑惑是,先不說有沒有大模型,就算有了大模型都不知道在哪里使用,在私有領域都找不到一個Special場景。

所以最終大模型的落地,拼的不是模型效果本身,而是一整套行業(yè)解決方案,“Know How”成為了關鍵要素。

三、大多數(shù)企業(yè)最終落地的模型規(guī)格限制在了13B。

由于國情,大多數(shù)企業(yè)最終落地的方案應該是本地化部署,那么就會涉及硬件設備的問題。我并不絕的很有很多企業(yè)可以部署的起100B級別的模型,感覺真實部署限制在了10B級別。即使現(xiàn)在很多方法(例如:llama.cpp)可以對大模型進行加速,但100B級別的模型就算加速了,也是龐大資源消耗。

我之前說過“沒有體驗過33B模型的人,只會覺得13B就夠”,更大的模型一定要搞,但不影響最后落地的是10B級別。

做大模型的心路歷程

一開始ChatGPT剛剛爆火的時候,根本沒想過我們也配做大模型。但當國內涌現(xiàn)出了許多中文大模型,并Alpaca模型證明70億參數(shù)量的模型也有不錯效果的時候,給了我很大的信心,當然也給很多人和很多企業(yè)更多的信心。

在中小企業(yè)做大模型,經(jīng)常被質問的是“沒有100張卡也可以做大模型”,我只想說需要看對“大”的定義,175B的模型確實沒有資格觸碰,但33B的模型還是可以玩耍的。真正追趕OpenAI是需要一批人,但模型落地還是需要另外一批人的。

趕上大模型是我們的幸運,可以在領域大模型上發(fā)聲是我幸運。

總結

最后共勉:BERT時代況且還在用TextCNN,難道13B的模型就不叫大模型嗎?






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • MIP
    MIP
    +關注

    關注

    0

    文章

    38

    瀏覽量

    14236
  • SQL
    SQL
    +關注

    關注

    1

    文章

    781

    瀏覽量

    44848
  • SFT
    SFT
    +關注

    關注

    0

    文章

    9

    瀏覽量

    6882
  • OpenAI
    +關注

    關注

    9

    文章

    1204

    瀏覽量

    8663
  • ChatGPT
    +關注

    關注

    29

    文章

    1588

    瀏覽量

    8828

原文標題:領域大模型-訓練Trick&落地思考

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    IGBT的物理結構模型—BJT&MOS模型(1)

    在前面關于PIN&MOS模型分析中,特別強調了這個模型所存在的個短板,即所有電流都通過MOS溝道,實際上只有電子電流通過MOS溝道
    的頭像 發(fā)表于 12-01 10:17 ?1987次閱讀
    IGBT的物理結構<b class='flag-5'>模型</b>—BJT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;MOS<b class='flag-5'>模型</b>(1)

    【大規(guī)模語言模型:從理論到實踐】- 每日進步一點點

    訓練效率、穩(wěn)定性和泛化能力。以下是關于模型訓練化的詳細介紹: 、歸
    發(fā)表于 05-31 19:54

    一點接地,什么是一點接地,一點接地應注意的問題

    一點接地,什么是一點接地 一點接地的形式如下圖所示,圖中將各級內部的接地元件,即本級電路的發(fā)射極,基極和集電極的所有接
    發(fā)表于 09-30 11:35 ?2.8w次閱讀
    <b class='flag-5'>一點</b>接地,什么是<b class='flag-5'>一點</b>接地,<b class='flag-5'>一點</b>接地應注意的問題

    關于畫高頻PCB板的一點心得

    關于畫高頻PCB板的一點心得,感興趣的小伙伴們可以看看。
    發(fā)表于 07-26 16:29 ?0次下載

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 04-14 08:52 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 04-14 08:55 ?0次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    發(fā)表于 06-17 15:53 ?0次下載
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    發(fā)表于 06-17 15:55 ?2次下載
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    存儲類&amp;作用域&amp;生命周期&amp;鏈接屬性

    目錄前言、存儲類&amp;amp;作用域&amp;amp;生命周期&amp;
    發(fā)表于 12-09 15:51 ?5次下載
    存儲類&<b class='flag-5'>amp</b>;作用域&<b class='flag-5'>amp</b>;生命周期&<b class='flag-5'>amp</b>;鏈接屬性

    關于連接的問答:歐盟 Wi-Fi 6 &amp;amp; 6E 的未來發(fā)展

    關于連接的問答:歐盟 Wi-Fi 6 &amp; 6E 的未來發(fā)展
    的頭像 發(fā)表于 12-26 10:16 ?1219次閱讀

    關于連接量子比特的一點:量子計算

    關于連接量子比特的一點:量子計算
    的頭像 發(fā)表于 01-04 11:17 ?1284次閱讀
    <b class='flag-5'>關于</b>連接量子比特的<b class='flag-5'>一點</b>:量子計算

    如何區(qū)分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值為0,如果i大于10,并且i++等于1,則輸出“錯誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運行,觀察運行結果的不同。
    的頭像 發(fā)表于 02-24 10:46 ?1879次閱讀
    如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),為true,你敢信?

    接下來咱們來嘗試解決這個問題。假設 if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是個“普通的變量”。它勢必要有能力在執(zhí)行的時候能夠動態(tài)改動值。
    的頭像 發(fā)表于 05-08 11:01 ?1338次閱讀
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),為true,你敢信?

    攝像機&amp;amp;amp;雷達對車輛駕駛的輔助

    攝像機&amp;amp;雷達擔負著可輔助駕駛員安全駕駛的、高級駕駛輔助系統(tǒng)的傳感功能。尼得科正在進步推進攝像機&amp;amp;雷達的高性
    的頭像 發(fā)表于 11-26 10:02 ?1293次閱讀
    攝像機&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷達對車輛駕駛的輔助

    如何讓網(wǎng)絡模型加速訓練

    ,對 Pytorch的AMP ( autocast與Gradscaler 進行對比) 自動混合精度對模型訓練加速 。 注意Pytorch1.6+,已經(jīng)內置torch.cuda.amp
    的頭像 發(fā)表于 11-03 10:00 ?1913次閱讀
    如何讓網(wǎng)絡<b class='flag-5'>模型</b>加速<b class='flag-5'>訓練</b>
    主站蜘蛛池模板: 欧美性色黄大片四虎影视 | 四虎必出精品亚洲高清 | 美女被视频网站在线看九色 | 亚洲美女视频在线观看 | 一级特黄a 大片免费 | 国产一区二区三区在线影院 | 天天色天天摸 | 国产小视频在线观看 | 视频一区二区在线播放 | aaaaa国产毛片 | 日日噜噜噜夜夜爽爽狠狠 | 四虎最新免费网址 | 性欧美黑人xxxx | 日欧毛片 | 一卡二卡卡四卡无人区中文 | 国产亚洲欧美一区二区 | 波多野结衣在线一区 | 1024毛片| 四虎在线最新永久免费播放 | 久久久久国产精品免费看 | 女人张开腿让男人桶免费网站 | 日韩欧美高清色码 | 精品色综合| 亚洲综合校园春色 | 日本欧美一区二区三区免费不卡 | 亚洲国产视频一区 | 狠狠色丁香 | 欧美爱爱网址 | 色天天综合色天天天天看大 | 开心激情婷婷 | 22sihu国产精品视频影视资讯 | 亚洲三级毛片 | 天天舔天天射天天操 | 人日人操| 一级特黄aa大片一又好看 | 久久亚洲精品成人综合 | 2019天天操夜夜操 | 一区二区三区精品视频 | 男女做性无遮挡免费视频 | 黄色短视频软件 | 天天爽夜夜爽人人爽免费 |