在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Server的通訊量與GPU數(shù)量呈線性關(guān)系

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-05-26 14:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在數(shù)據(jù)并行上篇中,我們介紹了樸素數(shù)據(jù)并行(DP)與分布式數(shù)據(jù)并行(DDP)。兩者的總通訊量雖然相同,但DP存在負載不均的情況,大部分的通訊壓力集中在Server上,而Server的通訊量與GPU數(shù)量呈線性關(guān)系,導(dǎo)致DP一般適用于單機多卡場景。而DDP通過采用Ring-AllReduce這一NCCL操作,使得通訊量均衡分布到每塊GPU上,且該通訊量為一固定常量,不受GPU個數(shù)影響,因此可實現(xiàn)跨機器的訓(xùn)練。

在上篇介紹中,通訊負載不均的優(yōu)化我們解釋過了,但還遺留了一個顯存開銷問題:數(shù)據(jù)并行中,每個GPU上都復(fù)制了一份完整模型,當(dāng)模型變大時,很容易打爆GPU的顯存,那要怎么辦呢?

今天這篇文章,我們將介紹由微軟開發(fā)的ZeRO(零冗余優(yōu)化),它是DeepSpeed這一分布式訓(xùn)練框架的核心,被用來解決大模型訓(xùn)練中的顯存開銷問題。ZeRO的思想就是用通訊換顯存。如果初讀ZeRO,覺得它邏輯跳躍,晦澀難懂,那么這篇文章或許可以幫到你~全文結(jié)構(gòu)如下:

一、存儲消耗

1.1 存儲分類

1.2 混合精度訓(xùn)練

1.3 存儲大小

二、ZeRO-DP(),ZeRO與模型并行
三、ZeRO-R
四、ZeRO-offload與ZeRO-Infinity
五、參考

推薦閱讀:

圖解大模型訓(xùn)練之:流水線并行,以GPipe為例

圖解大模型訓(xùn)練之:數(shù)據(jù)并行上篇(DP, DDP)

一、存儲消耗

1.1 存儲分類

首先,我們來看在大模型訓(xùn)練的過程中,GPU都需要存什么內(nèi)容。

9129db28-fb83-11ed-90ce-dac502259ad0.png

存儲主要分為兩大塊:Model StatesResidual StatesModel States指和模型本身息息相關(guān)的,必須存儲的內(nèi)容,具體包括:

optimizer states:Adam優(yōu)化算法中的momentum和variance

gradients:模型梯度

parameters:模型參數(shù)W

Residual States指并非模型必須的,但在訓(xùn)練過程中會額外產(chǎn)生的內(nèi)容,具體包括:

activation:激活值。在流水線并行中我們曾詳細介紹過。在backward過程中使用鏈?zhǔn)椒▌t計算梯度時會用到。有了它算梯度會更快,但它不是必須存儲的,因為可以通過重新做Forward來算它。

temporary buffers: 臨時存儲。例如把梯度發(fā)送到某塊GPU上做加總聚合時產(chǎn)生的存儲。

unusable fragment memory:碎片化的存儲空間。雖然總存儲空間是夠的,但是如果取不到連續(xù)的存儲空間,相關(guān)的請求也會被fail掉。對這類空間浪費可以通過內(nèi)存整理來解決。

1.2 精度混合訓(xùn)練

知道了存儲分類,進一步,我們想知道,假設(shè)模型的參數(shù)W大小是,那么每一類存儲具體占了多大的空間呢?

在分析這個問題前,我們需要來了解精度混合訓(xùn)練

對于模型,我們肯定希望其參數(shù)越精準(zhǔn)越好,也即我們用fp32(單精度浮點數(shù),存儲占4byte)來表示參數(shù)W。但是在forward和backward的過程中,fp32的計算開銷也是龐大的。那么能否在計算的過程中,引入fp16或bf16(半精度浮點數(shù),存儲占2byte),來減輕計算壓力呢?于是,混合精度訓(xùn)練就產(chǎn)生了,它的步驟如下圖:

91356b5a-fb83-11ed-90ce-dac502259ad0.png

存儲一份fp32的parameter,momentum和variance(統(tǒng)稱model states)

在forward開始之前,額外開辟一塊存儲空間,將fp32 parameter減半到fp16 parameter。

正常做forward和backward,在此之間產(chǎn)生的activation和gradients,都用fp16進行存儲。

用fp16 gradients去更新fp32下的model states。

當(dāng)模型收斂后,fp32的parameter就是最終的參數(shù)輸出。

通過這種方式,混合精度訓(xùn)練在計算開銷和模型精度上做了權(quán)衡。如果不了解fp32,fp16和bf16的細節(jié)也沒關(guān)系,不影響下文的閱讀。只要記住它們所占的存儲空間和精度表達上的差異即可。

1.3 存儲大小

現(xiàn)在,我們可以來計算模型在訓(xùn)練時需要的存儲大小了,假設(shè)模型的參數(shù)W大小是,以byte為單位,存儲如下:

9141f33e-fb83-11ed-90ce-dac502259ad0.png

因為采用了Adam優(yōu)化,所以才會出現(xiàn)momentum和variance,當(dāng)然你也可以選擇別的優(yōu)化辦法。因此這里為了更通用些,記模型必存的數(shù)據(jù)大小為。因此最終內(nèi)存開銷為:

另外,這里暫不將activation納入統(tǒng)計范圍,原因是:

activation不僅與模型參數(shù)相關(guān),還與batch size相關(guān)

activation的存儲不是必須的。存儲activation只是為了在用鏈?zhǔn)椒▌t做backward的過程中,計算梯度更快一些。但你永遠可以通過只保留最初的輸入X,重新做forward來得到每一層的activation(雖然實際中并不會這么極端)。

因為activation的這種靈活性,納入它后不方便衡量系統(tǒng)性能隨模型增大的真實變動情況。因此在這里不考慮它,在后面會單開一塊說明對activation的優(yōu)化。

二、ZeRO-DP

知道了什么東西會占存儲,以及它們占了多大的存儲之后,我們就可以來談如何優(yōu)化存儲了。

注意到,在整個訓(xùn)練中,有很多states并不會每時每刻都用到,舉例來說;

Adam優(yōu)化下的optimizer states只在最終做update時才用到

數(shù)據(jù)并行中,gradients只在最后做AllReduce和updates時才用到

參數(shù)W只在做forward和backward的那一刻才用到

諸如此類

所以,ZeRO想了一個簡單粗暴的辦法:如果數(shù)據(jù)算完即廢,等需要的時候,我再想辦法從個什么地方拿回來,那不就省了一筆存儲空間嗎?

沿著這個思路,我們逐一來看ZeRO是如何遞進做存儲優(yōu)化的。

2.1 : Optimizer State Partitioning

首先,從 optimizer state開始優(yōu)化。將optimizer state分成若干份,每塊GPU上各自維護一份。這樣就減少了相當(dāng)一部分的顯存開銷。如下圖:

914c1652-fb83-11ed-90ce-dac502259ad0.png

復(fù)習(xí)一下,此時W=fp16,G=fp16,O=fp32。此時,整體數(shù)據(jù)并行的流程如下:

(1)每塊GPU上存一份完整的參數(shù)W。將一個batch的數(shù)據(jù)分成3份,每塊GPU各吃一份,做完一輪foward和backward后,各得一份梯度。

(2)對梯度做一次AllReduce,得到完整的梯度G,產(chǎn)生單卡通訊量。為了表達簡明,這里通訊量我們就不再換算成byte了,而直接根據(jù)參數(shù)量來計算。對AllReduce(reduce-scatter + all-gather)不熟悉的朋友,可以先去看上一篇文章。

(3)得到完整梯度G,就可以對W做更新。我們知道W的更新由optimizer states和梯度共同決定。由于每塊GPU上只保管部分optimizer states,因此只能將相應(yīng)的W(藍色部分)進行更新。(2)和(3)可以用下圖表示:

9165ed0c-fb83-11ed-90ce-dac502259ad0.png

(4)此時,每塊GPU上都有部分W沒有完成更新(圖中白色部分)。所以我們需要對W做一次All-Gather,從別的GPU上把更新好的部分W取回來。產(chǎn)生單卡通訊量。

做完后,設(shè)GPU個數(shù)為,顯存和通訊量的情況如下:

91777964-fb83-11ed-90ce-dac502259ad0.png

假設(shè)各變量大小如表格第二列所示,那么在增加1.5倍單卡通訊開銷的基礎(chǔ)上,將單卡存儲降低了4倍。看起來是個還不錯的trade-off,那么還能做得更好嗎?

2.2

現(xiàn)在,更近一步,我們把梯度也拆開,每個GPU格子維護一塊梯度。

918bf038-fb83-11ed-90ce-dac502259ad0.png

此時,數(shù)據(jù)并行的整體流程如下:

(1)每塊GPU上存一份完整的參數(shù)W。將一個batch的數(shù)據(jù)分成3份,每塊GPU各吃一份,做完一輪foward和backward后,算得一份完整的梯度(下圖中綠色+白色)

(2)對梯度做一次Reduce-Scatter,保證每個GPU上所維持的那塊梯度是聚合梯度。例如對GPU1,它負責(zé)維護G1,因此其他的GPU只需要把G1對應(yīng)位置的梯度發(fā)給GPU1做加總就可。匯總完畢后,白色塊對GPU無用,可以從顯存中移除。單卡通訊量(1)和(2)見下圖:

91a7c6c8-fb83-11ed-90ce-dac502259ad0.png

(3)每塊GPU用自己對應(yīng)的O和G去更新相應(yīng)的W。更新完畢后,每塊GPU維持了一塊更新完畢的W。同理,對W做一次All-Gather,將別的GPU算好的W同步到自己這來。單卡通訊量。

再次比對下顯存和通訊量:

91c06002-fb83-11ed-90ce-dac502259ad0.png

和樸素DP相比,存儲降了8倍,單卡通訊量持平,好像更牛皮了呢!那么,還可以優(yōu)化嗎?

2.3

看到這里,也許你有點感覺了,ZeRO的思想就是:萬物皆可切,萬物皆可拋。所以現(xiàn)在,我們把參數(shù)也切開。每塊GPU置維持對應(yīng)的optimizer states,gradients和parameters(即W)。

91e36368-fb83-11ed-90ce-dac502259ad0.png

數(shù)據(jù)并行的流程如下:

(1)每塊GPU上存一份完整的參數(shù)W。將一個batch的數(shù)據(jù)分成3份,每塊GPU各吃一份。

(2)做forward時,對W做一次All-Gather,取回分布在別的GPU上的W,得到一份完整的W,單卡通訊量。forward做完,立刻把不是自己維護的W拋棄。

(3)做backward時,對W做一次All-Gather,取回完整的W,單卡通訊量。backward做完,立刻把不是自己維護的W拋棄。

(4)做完backward,算得一份完整的梯度G,對G做一次Reduce-Scatter,從別的GPU上聚合自己維護的那部分梯度,單卡通訊量。聚合操作結(jié)束后,立刻把不是自己維護的G拋棄

(5)用自己維護的O和G,更新W。由于只維護部分W,因此無需再對W做任何AllReduce操作。

顯存和通訊量如下:

91f6a482-fb83-11ed-90ce-dac502259ad0.png

到這一步,我們用1.5倍的通訊開銷,換回近120倍的顯存。只要梯度計算和異步更新做的好,通訊時間大部分可以被計算時間隱藏,因此這樣的額外通訊開銷,也是劃算的。

到這里,我們可以放出原始論文中的說明圖了,經(jīng)過以上分析,這張說明圖是不是瞬間就能看懂了。不得不吐槽下,雖然ZeRO的設(shè)計不復(fù)雜,但對應(yīng)論文寫得真是邏輯跳躍,晦澀難懂...

920907ee-fb83-11ed-90ce-dac502259ad0.png

仔細一想,ZeRO其實掌握了降本增效的精髓:用完即棄,需要再補。反正我補一個和你差不多的,也不會花費很多通(找)訊(人)時間,還大大降低了我的成本。模型的每一層多算(造)幾(輪)遍(子)有啥關(guān)系呢,反正在我的預(yù)算里每個人都一刻不停地干活,就行啦!

2.4 ZeRO VS 模型并行

知道模型并行的朋友,可能會想,既然ZeRO都把參數(shù)W給切了,那它應(yīng)該是個模型并行呀?為什么要歸到數(shù)據(jù)并行里呢?

其實ZeRO是模型并行的形式,數(shù)據(jù)并行的實質(zhì)

模型并行,是指在forward和backward的過程中,我只需要用自己維護的那塊W來計算就行。即同樣的輸入X,每塊GPU上各算模型的一部分,最后通過某些方式聚合結(jié)果

但對ZeRO來說,它做forward和backward的時候,是需要把各GPU上維護的W聚合起來的,即本質(zhì)上還是用完整的W進行計算。它是不同的輸入X,完整的參數(shù)W,最終再做聚合

因為下一篇要寫模型并行Megatron-LM,因此現(xiàn)在這里羅列一下兩者的對比。

三、ZeRO-R

說完了以上對model states的顯存優(yōu)化,現(xiàn)在來看對residual states的優(yōu)化。

3.1 : Partitioned Activation Checkpointing

前面說過,對activation的存儲是靈活的。不像optimizer states,gradients和parameters對模型更新是必須的,activation只是起到加速梯度計算的作用。因此,在哪幾層保存activation,保存哪些activation都是可以靈活設(shè)置的。同樣,我們也可以仿照以上切割方式,每塊GPU上只維護部分的activation,需要時再從別的地方聚合過來就行。需要注意的是,activation對顯存的占用一般會遠高于模型本身,通訊量也是巨大的,所以這塊要靈活、有效地實驗設(shè)計。

3.2 : Constant Size Buffer

固定大小的內(nèi)存buffer,它的目的在于:

提升帶寬利用率。當(dāng)GPU數(shù)量上升,GPU間的通訊次數(shù)也上升,每次的通訊量可能下降(但總通訊量不會變)。數(shù)據(jù)切片小了,就不能很好利用帶寬了。所以這個buffer起到了積攢數(shù)據(jù)的作用:等數(shù)據(jù)積攢到一定大小,再進行通訊。

使得存儲大小可控。在每次通訊前,積攢的存儲大小是常量,是已知可控的。更方便使用者對訓(xùn)練中的存儲消耗和通訊時間進行預(yù)估。

3.3 : Memory Defragmentation

在前文提過,設(shè)置機制,對碎片化的存儲空間進行重新整合,整出連續(xù)的存儲空間。防止出現(xiàn)總存儲足夠,但連續(xù)存儲不夠而引起的存儲請求fail。

四、ZeRO-Offload與ZeRO-Infinity

最后,簡單介紹一下ZeRO-Offload。它的核心思想是:顯存不夠,內(nèi)存來湊。如果我把要存儲的大頭卸載(offload)到GPU上,而把計算部分放到GPU上,這樣比起跨機,是不是能既降顯存,也能減少一些通訊壓力呢?

ZeRO-Offload的做法是:

forward和backward計算量高,因此和它們相關(guān)的部分,例如參數(shù)W(fp16),activation,就全放入GPU。

update的部分計算量低,因此和它相關(guān)的部分,全部放入CPU中。例如W(fp32),optimizer states(fp32)和gradients(fp16)等。

具體切分如下圖:

922daa90-fb83-11ed-90ce-dac502259ad0.png

ZeRO-infinity也是同理,它們在解決的事情都是:找個除GPU之外的地方,存數(shù)據(jù)。感興趣的朋友可以深入研究,這里就不展開了。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4937

    瀏覽量

    131177
  • Server
    +關(guān)注

    關(guān)注

    0

    文章

    94

    瀏覽量

    24682
  • 顯存
    +關(guān)注

    關(guān)注

    0

    文章

    112

    瀏覽量

    13890

原文標(biāo)題:圖解大模型訓(xùn)練之:數(shù)據(jù)并行下篇(ZeRO,零冗余優(yōu)化)

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    電源適配器EMI確實和開關(guān)頻率不成線性關(guān)系

    的紙面設(shè)計,但是通過研究我們還是能知道大概趨勢指導(dǎo)設(shè)計,而不是一些工程嘴里完全靠trial and error的流程。 這就是我們電源適配器工程師外出機構(gòu)做測試的實驗室~ 我先給出結(jié)論,電源適配器EMI確實和開關(guān)頻率不成線性關(guān)系,某些開關(guān)頻率下,EMI濾波
    的頭像 發(fā)表于 09-27 10:07 ?7916次閱讀

    AD7148的CDC轉(zhuǎn)換輸入與輸出是線性關(guān)系嗎?

    AD7148的CDC轉(zhuǎn)換,輸入與輸出之間是線性關(guān)系
    發(fā)表于 12-29 06:27

    請問VG與增益的線性關(guān)系是怎樣的?

    看了VCA820數(shù)據(jù)手冊,沒找到VG與增益的線性關(guān)系是怎樣的,應(yīng)該是增益線性可控的吧??還是自己理解錯咯? 請求回答!!!
    發(fā)表于 09-26 06:21

    線性比較好的電流檢測模塊

    TI給的芯片中,ina282它的檢測電流和輸出電壓之間的關(guān)系在0.57-2.2v之間,2.2-2.5之間都是線性關(guān)系,但是他們之間是有幾十mv的電壓偏移,帶給編程的問題很大,請教如何改善它的線性關(guān)系
    發(fā)表于 08-02 16:41

    LAVVIEW中怎么把采集的信號換算成想要的格式,如采集的0-5V的電壓 線性關(guān)系 轉(zhuǎn)換側(cè)對應(yīng)顯示0-100數(shù)值

    `LAVVIEW中怎么把采集的信號換算成想要的格式,如采集的0-5V的電壓 線性關(guān)系 轉(zhuǎn)換側(cè)對應(yīng)顯示0-100數(shù)值最好能提供個實例VI ,不勝感激`
    發(fā)表于 06-05 21:33

    用ACS712設(shè)計電路,電流過大,不能線性關(guān)系

    用ACS712-20A設(shè)計電路,電流過大,不能線性關(guān)系,在電流小與等于3A時候,為138ma/V,但是電流到了4A就不是這個關(guān)系了,請問是什么原因?采用精密整流電路,沒有進行放大,VCC5V
    發(fā)表于 12-05 17:28

    如何利用線性電壓產(chǎn)生非線性占空比PWM輸出

    現(xiàn)有輸入線性電壓0.3-3V,要求沒有處理器(無軟件)、無復(fù)雜邏輯器件(CPLD/FPGA),產(chǎn)生一個占空比與輸入電壓線性關(guān)系的PWM輸出(2Kz).有人說可以用EEPROM查表,但不搞過,請大家給點意見。PS:模擬乘法器誤
    發(fā)表于 12-07 11:16

    請問AD7148的CDC轉(zhuǎn)換輸入與輸出是線性關(guān)系

    AD7148的CDC轉(zhuǎn)換,輸入與輸出之間是線性關(guān)系
    發(fā)表于 01-17 14:10

    線性關(guān)系線性區(qū)

    ?傳輸曲線不是線性的也不是其他函數(shù)特征,而是階梯狀,為什么?2.三極管的放大區(qū)也是線性區(qū),這個時候的線性是哪兩個值的線性關(guān)系?Ib和Ic嗎?3.運放的
    發(fā)表于 07-28 11:51

    單電源供電4~20ma轉(zhuǎn)0~3.3V線性關(guān)系圖表

    單電源供電4~20ma轉(zhuǎn)0~3.3V線性關(guān)系圖表單電源供電4~20ma轉(zhuǎn)0~3.3V線性關(guān)系圖表單電源供電4~20ma轉(zhuǎn)0~3.3V
    發(fā)表于 01-15 16:09 ?122次下載

    光學(xué)相位詢問技術(shù)介紹及傳感解決方案如何與聚合物光纖一起使用

    如果我們將調(diào)制信號耦合到POF中并使POF受到應(yīng)變,信號將經(jīng)歷相移(圖1)。相移與應(yīng)變量線性關(guān)系
    的頭像 發(fā)表于 08-12 11:19 ?2730次閱讀
    光學(xué)相位詢問技術(shù)介紹及傳感解決方案如何與聚合物光纖一起使用

    線性元件和非線性元件有什么區(qū)別?

    線性元件和非線性元件的區(qū)別在于其電流-電壓關(guān)系是否遵循線性關(guān)系
    的頭像 發(fā)表于 12-26 18:07 ?3041次閱讀

    什么是線性電路和非線性電路

    線性電路和非線性電路是電子學(xué)中兩個基本的概念。它們的區(qū)別主要在于電路元件的輸入-輸出關(guān)系是否滿足線性關(guān)系。下面我們將介紹線性電路和非
    的頭像 發(fā)表于 07-09 11:14 ?8124次閱讀

    線性傳感器和非線性傳感器的區(qū)別

    線性傳感器和非線性傳感器在多個方面存在顯著的區(qū)別,以下是對這些區(qū)別的詳細闡述:   一、輸入輸出關(guān)系   線性傳感器:   線性
    的頭像 發(fā)表于 10-21 16:11 ?1638次閱讀

    線性電阻器是一種其阻值與通過它的電流或兩端電壓不是線性關(guān)系的電阻器

    線性電阻器是一種其阻值與通過它的電流或兩端電壓不是線性關(guān)系的電阻器。在理想的線性電阻器中,電阻值是恒定的,即電阻器的電壓-電流(V-I)特性是一條通過原點的直線。而在非線性電阻器中,
    的頭像 發(fā)表于 10-24 11:07 ?711次閱讀
    主站蜘蛛池模板: 三级特黄视频 | 亚洲欧美色视频 | 免费看又爽又黄禁片视频1000 | 男人的天堂久久精品激情 | 狠狠色噜噜狠狠狠狠色综合久 | 久久久久国产精品免费免费不卡 | 日韩欧美成人乱码一在线 | 成人午夜剧场 | 欧美xxxx色视频在线观看 | 欧美高清成人videosex | 国产精品成人观看视频国产奇米 | 亚洲国产综合久久精品 | 天堂-bt种子 | 国产精品久久久亚洲456 | 天堂网址| 国产1区2区三区不卡 | 男女做视频网站免费观看 | 色播图片 | 日韩亚洲欧洲在线com91tv | 亚洲一卡2卡3卡4卡5卡乱码 | 真人一级一级特黄高清毛片 | 亚洲成人免费观看 | 天天色天天 | 美女视频网站免费播放视 | 2018国产一级天天弄 | 91视频精品 | 国产色妞妞在线观看 | 男男h啪肉np文总受 男男h全肉耽污 | 欧洲mv日韩mv国产mv | 欧美日韩中文字幕 | 免费高清特级毛片 | 日日拍夜夜嗷嗷叫狠狠 | 毛片在线看免费版 | 亚洲精品资源在线 | 色香蕉网站 | 我爱操| 最近2018中文字幕2019高清 | 欧美成网站 | 欧美一级片网址 | 亚洲成a人片77777潘金莲 | 西西人体大胆午夜gog0 |