作者:算力魔方創始人/英特爾創新大使劉力
在CNN時代,AI模型的參數規模都在百萬級別,僅需在單張消費類顯卡上即可完成訓練。例如,以業界知名的CNN模型:ResNet50為例,模型參數量是約為 25.63M,在ImageNet1K數據集上,使用單張消費類顯卡RTX-4090只需大約35~40個小時,即可完成ResNet50模型的預訓練。在大模型時代,由于大模型參數規模龐大,無法跟CNN時代的小模型一樣在單張顯卡上完成訓練,需要構建多張AI加速卡的集群才能完成AI大模型的預訓練。例如:DeepSeek-V3在其技術報告中介紹,DeepSeek-V3的模型參數量為671B,需要278萬8千個H800 GPU小時才能完成預訓練,換句話說,在有1萬張H800的GPU集群上,需要訓練278.8個小時。
包含1萬張H800的AI數據中心包括:帶H800的服務器節點、網絡、存儲、電源、散熱等,一般來說,總建設預算在15億美金左右。以從AWS上租用1萬張H800為例,每小時的租金大約為12.3萬美金/小時。以訓練DeepSeek-V3為例,
訓練效率每提升1%,相當于節約278.8*1%*12.3=34.3萬美金,
即240萬人民幣的租金。所以,在大模型時代,如何充分利用分布式的GPU集群算力,是深度學習框架首先需要考慮的點。
要充分利用分布式的GPU集群算力,就需要充分使用復雜的并行策略,
包括數據并行、張量并行、參數分片并行、流水線并行、序列并行、專家并行等;并且還要提升GPU與GPU,服務器節點與服務器節點間的通訊效率;除此之外,還要考慮AI數據中心不同算力芯片的適配;前沿模型快速發展時,對新型模型的支持等等...若要求AI模型科學家既要
熟知模型結構,還要深入了解芯片特點、硬件架構、并行策略、調度邏輯等等
,這會使得大模型的開發和性能優化的
技術門檻變得非常高
,大大制約了大模型的開發和訓練效率。針對上述需求和痛點,
飛槳新一代框架3.0
應運而生,該版本提供了豐富的深度學習相關的各種開發接口:
表示層:專注于計算圖的表達與轉換,通過高可擴展中間表示PIR,實現動轉靜、自動微分、自動并行、算子組合以及計算圖優化等核心功能;
調度層:負責對代碼或計算圖進行智能編排與高效調度,支持動態圖和靜態圖兩種不同的執行模式;
算子層:由神經網絡編譯器CINN和算子庫PHI共同構成,涵蓋了張量定義、算子定義、算子自動融合和算子內核實現等關鍵功能;
適配層:則用于實現與底層芯片適配,包括設備管理、算子適配、通信適配以及編譯接入等功能。
飛槳框架3.0憑借強大的功能和優化的設計,
并實現產業應用。以百度文心大模型為例,飛槳框架3.0在訓練、推理等方面為文心大模型提供端到端優化,訓練方面重點提升訓練吞吐、訓練有效率和收斂效率,集群訓練有效率超過98%;推理部署方面通過注意力機制量化推理、通用投機解碼等技術提升推理吞吐和效率;全面支持文心4.5、文心X1等大模型的技術創新和產業應用。
飛槳框架3.0 Github倉:https://github.com/PaddlePaddle/Paddle。
如果你有更好的文章,歡迎投稿!
稿件接收郵箱:nami.liu@pasuntech.com
更多精彩內容請關注“算力魔方?”!
審核編輯 黃宇
-
深度學習
+關注
關注
73文章
5547瀏覽量
122292 -
大模型
+關注
關注
2文章
2930瀏覽量
3680 -
DeepSeek
+關注
關注
1文章
754瀏覽量
996
發布評論請先 登錄
相關推薦
評論