在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Scaling Law大模型設計實操案例

深度學習自然語言處理 ? 來源:NLP工作站 ? 2023-11-22 16:08 ? 次閱讀

寫在前面

來自:NLP工作站

nice!這是一個快速了解LLM時代下最新研究的學術分享平臺

今天給大家?guī)硪黄督馕龃竽P椭械腟caling Law》,來自知乎@nghuyong

在大模型的研發(fā)中,通常會有下面一些需求:

計劃訓練一個10B的模型,想知道至少需要多大的數(shù)據(jù)?

收集到了1T的數(shù)據(jù),想知道能訓練一個多大的模型?

老板準備1個月后開發(fā)布會,能用的資源是100張A100,那應該用多少數(shù)據(jù)訓一個多大模型最終效果最好?

老板對現(xiàn)在10B的模型不滿意,想知道擴大到100B模型的效果能提升到多少?

以上這些問題都可以基于Scaling Law的理論進行回答。本文是閱讀了一系列caling Law的文章后的整理和思考,包括Scaling Law的概念和推導以及反Scaling Law的場景,不當之處,歡迎指正。

核心結論

大模型的Scaling Law是OpenAI在2020年提出的概念[1],具體如下:

對于Decoder-only的模型,計算量(Flops), 模型參數(shù)量, 數(shù)據(jù)大小(token數(shù)),三者滿足: 。(推導見本文最后)

模型的最終性能「主要與」計算量,模型參數(shù)量和數(shù)據(jù)大小三者相關,而與模型的具體結構(層數(shù)/深度/寬度)基本無關。

ec247598-8877-11ee-939d-92fbcf53809c.png

固定模型的總參數(shù)量,調整層數(shù)/深度/寬度,不同模型的性能差距很小,大部分在2%以內(nèi)

對于計算量,模型參數(shù)量和數(shù)據(jù)大小,當不受其他兩個因素制約時,模型性能與每個因素都呈現(xiàn)「冪律關系」

ec517372-8877-11ee-939d-92fbcf53809c.png

basic

為了提升模型性能,模型參數(shù)量和數(shù)據(jù)大小需要同步放大,但模型和數(shù)據(jù)分別放大的比例還存在爭議。

Scaling Law不僅適用于語言模型,還適用于其他模態(tài)以及跨模態(tài)的任務[4]:

ec7ba9c6-8877-11ee-939d-92fbcf53809c.png

multi_modal

這里橫軸單位為PF-days: 如果每秒鐘可進行次運算,就是1 peta flops,那么一天的運算就是,這個算力消耗被稱為1個petaflop/s-day。

核心公式

ecacd2e4-8877-11ee-939d-92fbcf53809c.png

第一項是指無法通過增加模型規(guī)模來減少的損失,可以認為是數(shù)據(jù)自身的熵(例如數(shù)據(jù)中的噪音)

第二項是指能通過增加計算量來減少的損失,可以認為是模型擬合的分布與實際分布之間的差。

根據(jù)公式,增大(例如計算量),模型整體loss下降,模型性能提升;伴隨趨向于無窮大,模型能完美擬合數(shù)據(jù)的真實分布,讓第二項逼近0,整體趨向于

大模型中的Scaling Law

GPT4

下圖是GPT4報告[5]中的Scaling Law曲線,計算量和模型性能滿足冪律關系

ecbfe708-8877-11ee-939d-92fbcf53809c.png

橫軸是歸一化之后的計算量,假設GPT4的計算量為1。基于10,000倍小的計算規(guī)模,就能預測最終GPT4的性能。

縱軸是"Bits for words", 這也是交叉熵的一個單位。在計算交叉熵時,如果使用以 2 為底的對數(shù),交叉熵的單位就是 "bits per word",與信息論中的比特(bit)概念相符。所以這個值越低,說明模型的性能越好。

Baichuan2

下圖是Baichuan2[6]技術報告中的Scaling Law曲線。基于10M到3B的模型在1T數(shù)據(jù)上訓練的性能,可預測出最后7B模型和13B模型在2.6T數(shù)據(jù)上的性能

ecf32ae6-8877-11ee-939d-92fbcf53809c.png

MindLLM

下圖是MindLLM[7]技術報告中的Scaling Law曲線。基于10M到500M的模型在10B數(shù)據(jù)上訓練的性能,預測出最后3B模型在500B數(shù)據(jù)上的性能。

ed17ba8c-8877-11ee-939d-92fbcf53809c.png

Scaling Law實操: 計算效率最優(yōu)

根據(jù)冪律定律,模型的參數(shù)固定,無限堆數(shù)據(jù)并不能無限提升模型的性能,模型最終性能會慢慢趨向一個固定的值。

ed422768-8877-11ee-939d-92fbcf53809c.png

如圖所示,如果模型的參數(shù)量為(圖中紫色的線),在數(shù)量達到,模型基本收斂。所以在數(shù)據(jù)量達到后,繼續(xù)增加數(shù)據(jù)產(chǎn)生的計算量,沒有同樣計算量下提升模型參數(shù)量帶來的收益大(「計算效率更優(yōu)」)。根據(jù),可以進一步轉換成模型參數(shù)與計算量的關系,即: 模型參數(shù)為,在計算量為 Flops,即 PF-days時基本收斂。也就是右圖中紫色線的拐點。

按照上面的思路,下面進行Scaling Law的實操

首先準備充足的數(shù)據(jù)(例如1T),設計不同模型參數(shù)量的小模型(例如0.001B - 1B),獨立訓練每個模型,每個模型都訓練到基本收斂(假設數(shù)據(jù)量充足)。根據(jù)訓練中不同模型的參數(shù)和數(shù)據(jù)量的組合,收集計算量與模型性能的關系。然后可以進一步獲得「計算效率最優(yōu)」時,即同樣計算量下性能最好的模型規(guī)模和數(shù)據(jù)大小的組合,模型大小與計算量的關系,以及數(shù)據(jù)大小與計算量的關系。

ed64442e-8877-11ee-939d-92fbcf53809c.png

如圖所示,根據(jù)左圖可以看到計算量與模型性能呈現(xiàn)冪律關系(可以認為數(shù)據(jù)和模型都不受限制),根據(jù)中圖和右圖,可以發(fā)現(xiàn),即計算效率最優(yōu)時,模型的參數(shù)與計算量的冪次成線性關系,數(shù)據(jù)量的大小也與計算量的冪次成線性關系。

根據(jù),可以推算出,但是分別是多少存在分歧。

OpenAI[1]認為模型規(guī)模更重要,即,而DeepMind在Chinchilla工作[2]和Google在PaLM工作[3]中都驗證了,即模型和數(shù)據(jù)同等重要。

所以假定計算量整體放大10倍,OpenAI認為模型參數(shù)更重要,模型應放大 (5.32)倍,數(shù)據(jù)放大 (1.86)倍;后來DeepMind和Google認為模型參數(shù)量與數(shù)據(jù)同等重要,兩者都應該分別放大 (3.16)倍。

ed793ef6-8877-11ee-939d-92fbcf53809c.png

例如在PaLM的實驗中,計算量從放大10倍到, 模型參數(shù)提升了3.2倍,3.35B->10.7B。

具體最好在自己的數(shù)據(jù)上做實驗來獲得你場景下的和。

LLaMA: 反Scaling Law的大模型

假設我們遵循「計算效率最優(yōu)」來研發(fā)LLM,那么根據(jù)Scaling Law,給定模型大小,可以推算出最優(yōu)的計算量,進一步根據(jù)最優(yōu)計算量就能推算出需要的token數(shù)量,然后訓練就行。

但是「計算效率最優(yōu)」這個觀點是針對「訓練階段」而言的,并不是「推理階段」

Meta在LLaMA[8]的觀點是:給定一個模型的目標性能,并不需要用最優(yōu)的計算效率在「最快」時間訓練好模型,而應該在更大規(guī)模的數(shù)據(jù)上,訓練一個相對「更小」模型,這樣的模型在推理階段的成本更低,盡管訓練階段的效率不是最優(yōu)的(同樣的算力其實能獲得更優(yōu)的模型,但是模型尺寸也會更大)。所以盡管根據(jù)Scaling Law,10B模型只需要200B的數(shù)據(jù),但是作者發(fā)現(xiàn)7B的模型性能在1T的數(shù)據(jù)后還能繼續(xù)提升。

eda49d4e-8877-11ee-939d-92fbcf53809c.png

所以LLaMA工作的重點是訓練一系列語言模型,通過使用更多的數(shù)據(jù),讓模型在「有限推理資源下有最佳的性能」

具體而言,確定模型尺寸后,Scaling Law給到的只是最優(yōu)的數(shù)據(jù)供給,或者說是一個「至少」的數(shù)據(jù)量,實際上觀察在各個指標上的性能表現(xiàn),只要還在繼續(xù)增長,就可以持續(xù)增加訓練數(shù)據(jù)。

edd551d2-8877-11ee-939d-92fbcf53809c.png

計算量、模型和數(shù)據(jù)大小的關系推導

對于Decoder-only的模型,計算量(Flops), 模型參數(shù)量(除去Embedding部分), 數(shù)據(jù)大小(token數(shù)), 三者的關系為:

推導如下,記模型的結構為:

decoder層數(shù):

attention 隱層維度:

attention feedforward層維度: , 一般來說

首先推導模型的參數(shù)量(忽略embedding,norm和bias)計算如下:

transformer每層包括: self-attetion 和 MLP 兩個部分:

self-attention的參數(shù)為,每個矩陣的維度均為,整體參數(shù)量:

MLP的層數(shù)的參數(shù)為,整體參數(shù)量:

所以每層的參數(shù)量為: ,全部的層的參數(shù)量為: ,即

繼續(xù)推導模型的前向推理的計算量:

計算量的單位是FLOPs,floating point operations, 對于矩陣,相乘的計算量為,一次加法一次乘法。

假設Decoder層的輸入, 為batch size,為序列長度, 為模型維度。

self-attention部分的計算:

輸入線性層: ,計算量為:

atention計算: ,計算量為:

socre與V的計算: ,計算量為:

輸出線性層: ,計算量為:

MLP部分的計算

升維: ,計算量為:

降維: ,計算量為:

所以整個decoder層的計算量為:,全部層為:

反向傳播計算量是正向的2倍,所以全部的計算量為:

平均每個token的計算量為()

所以對于全部包含個token的數(shù)據(jù)集:

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    556

    瀏覽量

    10578
  • GPT
    GPT
    +關注

    關注

    0

    文章

    368

    瀏覽量

    15856
  • OpenAI
    +關注

    關注

    9

    文章

    1194

    瀏覽量

    7893
  • 大模型
    +關注

    關注

    2

    文章

    2918

    瀏覽量

    3667

原文標題:解析大模型中的Scaling Law

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    文檔】在智能硬件的大模型語音交互流程中接入RAG知識庫

    就不講太多了,這里用CSK6大模型開發(fā)板接入自建的空調產(chǎn)品手冊知識庫演示接入過程,只要對照文檔步驟就可以完成操作。操作過程中遇到問題,也可以參考后半部分的排錯流程來定位和解決問題。
    發(fā)表于 09-29 17:12

    單片機考題經(jīng)典動畫播放。

    單片機考題經(jīng)典動畫播放,值得收藏!
    發(fā)表于 08-22 11:12

    工業(yè)機器人打磨去毛刺工作站介紹

    ZNL-DM06型 工業(yè)機器人打磨去毛刺工作站一、概述ZNL-DM06型 工業(yè)機器人打磨去毛刺工作站以真實工廠應用要求為基礎,優(yōu)化功能設計,提高系統(tǒng)靈活度,融入
    發(fā)表于 07-01 09:12

    電工操作

    ZN-890Q電工操作柜(單面雙組型)一、概述ZN-890Q電工操作柜(單面雙組型)由鋼板作制作的多功能安裝板(網(wǎng)孔板)訓臺和電源
    發(fā)表于 07-02 07:14

    工業(yè)機器人焊接工作站分享

    ZNL-HJ06型 工業(yè)機器人焊接工作站一、概述ZNL-HJ06型 工業(yè)機器人焊接工作站主要開展焊接技術培訓,可滿足學生動手能力的強化訓練,還可作為高級工、技師能力提升的
    發(fā)表于 07-02 06:55

    工業(yè)機器人焊接工作站有哪些特點

    ZNL-HJ06型工業(yè)機器人焊接工作站是什么?ZNL-HJ06型工業(yè)機器人焊接工作站有哪些特點?
    發(fā)表于 09-28 07:39

    IIC模塊的類型是什么

    **52單片機學習之路(1)IIC模塊的理解與類型**1. IIC模塊程序void IIC_Start(void); **IIC總線開始信號**void IIC_Stop(void
    發(fā)表于 12-02 06:09

    無線路由器設置步驟詳解

    無線路由器設置步驟詳解
    發(fā)表于 06-24 17:13 ?3946次閱讀

    用STM32Cube.AI部署ONNX模型示例:風扇堵塞檢測

    用STM32Cube.AI 部署ONNX 模型示例:風扇堵塞檢測
    的頭像 發(fā)表于 09-28 16:25 ?2775次閱讀
    用STM32Cube.AI部署ONNX<b class='flag-5'>模型</b><b class='flag-5'>實</b><b class='flag-5'>操</b>示例:風扇堵塞檢測

    【RK3399案例資料包】

    RK3399案例資料包
    發(fā)表于 06-25 11:52 ?179次下載

    模型Scaling Law的概念和推導

    對于Decoder-only的模型,計算量(Flops), 模型參數(shù)量, 數(shù)據(jù)大小(token數(shù)),三者滿足:。(推導見本文最后) 模型的最終性能主要與計算量,模型參數(shù)量和數(shù)據(jù)大
    的頭像 發(fā)表于 11-29 14:28 ?2950次閱讀
    大<b class='flag-5'>模型</b>的<b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>的概念和推導

    張宏江深度解析:大模型技術發(fā)展的八大觀察點

    在大模型的發(fā)展史上,Scaling Law(規(guī)模律)發(fā)揮了核心作用,它是推動模型性能持續(xù)提升的主要動力。Scaling
    發(fā)表于 03-14 10:41 ?366次閱讀
    張宏江深度解析:大<b class='flag-5'>模型</b>技術發(fā)展的八大觀察點

    浪潮信息趙帥:開放計算創(chuàng)新 應對Scaling Law挑戰(zhàn)

    Scaling Law帶來的AI基礎設施Scale up和Scale out的挑戰(zhàn),數(shù)據(jù)中心需要以開放創(chuàng)新加速算力系統(tǒng)、管理和基礎設施的全向Scale進程,推動AI產(chǎn)業(yè)的創(chuàng)新發(fā)展。 ? 開源開放推動人工智能創(chuàng)新與算力生態(tài)的全面發(fā)展 生成式人工智能的飛躍式進步正在加速智能時
    的頭像 發(fā)表于 08-15 16:02 ?425次閱讀
    浪潮信息趙帥:開放計算創(chuàng)新 應對<b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>挑戰(zhàn)

    2025年:大模型Scaling Law還能繼續(xù)嗎

    ? OpenAI 最近推出了其新的推理模型 o3,該模型在 ARC 數(shù)據(jù)集上大幅超越了之前的最佳性能(SOTA),并在具有挑戰(zhàn)性的 FrontierMath 數(shù)據(jù)集上取得了令人驚嘆的結果。很明顯,該
    的頭像 發(fā)表于 01-15 14:32 ?373次閱讀
    2025年:大<b class='flag-5'>模型</b><b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>還能繼續(xù)嗎

    數(shù)字調音臺講解

    電子發(fā)燒友網(wǎng)站提供《數(shù)字調音臺講解.pdf》資料免費下載
    發(fā)表于 03-26 14:18 ?1次下載
    主站蜘蛛池模板: 桃花色综合影院 | h免费视频| 五月天丁香婷婷开心激情五月 | 中文字幕第15页 | 国内夫妇交换性经过实录 | 性欧美视频videos6一9 | 日本又粗又长一进一出抽搐 | 日本在线不卡免费 | 国产精品一区二区三区四区 | 欧美视频区 | 欧美色影视 | 午夜黄色影片 | 国产亚洲美女精品久久久久狼 | 精品国产自在在线在线观看 | 国产色爽女小说免费看 | 狠狠亚洲狠狠欧洲2019 | 国产黄色片网站 | 国产美女亚洲精品久久久久久 | 六月婷婷导航福利在线 | 酒色1314| 你懂的视频在线观看资源 | 一区二区三区精品国产欧美 | www.丁香| 27pao强力打造高清免费高 | 午夜一区二区三区 | 久久99精品久久久久久野外 | 午夜免费体验 | 久久国产成人精品国产成人亚洲 | 毛片网在线 | 高清午夜线观看免费 | 特级淫片aaaaa片毛片 | 性欧美丰满xxxx性久久久 | 国产精品777 | 成人伊人亚洲人综合网站222 | 手机看片精品国产福利盒子 | 四虎h789fcom | 天天躁夜夜躁狠狠躁2021 | 狠狠干亚洲色图 | 69pao强力打造在线 | 日韩欧美卡一卡二卡新区 | 在线久综合色手机在线播放 |