近日,備受矚目的“2024中國信息通信大會暨中國通信學會學術年會”在四川成都順利舉行。此屆大會以“科技領航創新,產業共筑未來”為主題,聚集了來自“政產學研用”各方代表,集中展示算力及網絡通信領域的最新研究成果。
在“算力網絡算網一體創新發展論壇”上,壁仞科技攜手中國移動、中興通訊等產業合作伙伴共同發布了通用異構混合并行訓練系統——“芯合”異構混合并行訓練系統1.0。該系統可解決大模型異構算力孤島難題,實現同一訓練任務在異構算力集群的任務拆解和協同訓練,對推動我國智算產業生態融通發展,構建開放協同的新型智算基礎設施具有積極意義。
當前,我國智算產業形成了軟硬件綁定的豎井式生態,不同廠商、不同架構的智能算力之間無法兼容互通,限制了異構智能算力的有效整合和充分利用。大模型訓練需要千卡集群甚至萬卡集群資源,目前國產芯片廠家百花齊放,移動新型智算中心已經落地使用的算力資源類型多樣,形成了一些算力孤島。但由于目前Megatron等主流的分布式訓練框架僅支持同構算力集群,導致無論是不同廠商的智算芯片之間,亦或是同一廠商不同代際芯片之間都無法形成“合力”,極大地限制了智算中心對現有異構算力資源使用的充分性和調度的靈活性,因此亟需面向異構算力混合訓練需求進行技術研究。
為屏蔽異構硬件差異、融通智算豎井生態,中國移動充分發揮移動信息現代產業鏈“鏈長”職責,以異構混訓技術為攻關要點,率先提出通用異構混合訓練技術,并開展“芯合”異構混合并行訓練系統1.0研發,開辟以智算軟件帶動智算產業融通發展的全新路徑。
本次壁仞科技聯合中國移動發布的“芯合”異構混合并行訓練系統1.0依托基于 Inhomogeneous Task Distribution (ITD)算法的3D并行非均勻切分和基于GPUDirect RDMA(GDR)的異構芯片高速通信兩大關鍵技術提供通用混合訓練能力。其中,基于ITD算法的3D并行非均勻切分可通過通用混合訓練框架實現異構數據并行、異構流水線并行,實現數據微批次大小、數量、流水線并行度等參數在異構算力上的自適應調整;基于GDR的異構芯片高速通信可在不改變芯片原有通信接口基礎上,基于GDR芯片高速互聯技術,通過定義數據傳輸架構、流程及接口標準約束,屏蔽底層硬件差異,實現頂層訓練任務在異構算力集群上分布式通信的無感拆解。當前系統已實現百億參數大模型在壁仞科技、英偉達等多家智算芯片上的交叉混合訓練,異構混訓效率達95%以上,未來將在提升智能算力資源利用率及促進國產算力發展等方面發揮重要作用。
此前壁仞科技的壁礪系列通用GPU算力產品已經在中國移動智算中心(呼和浩特)成功上線運營,為該智算中心提供強大算力。該項目成功上線運營,標志著雙方在智能計算領域的深度合作邁出了堅實的步伐。國產GPU加快落地的過程中正在在逐步擴大算力規模,為破解這一過程中的“大模型算力孤島”難題,壁仞科技一直在積極開展異構GPU協同訓練技術攻關,已發布自主原創的異構GPU協同訓練方案HGCT,業界首次支持3種及以上異構GPU混合訓練同一個大模型,用一套統一方案支持多種不同廠商、不同型號的GPU,而且一行代碼適配多種框架。此次壁仞科技攜手中國移動強強聯合,發揮雙方在底層通信庫和上層并行拆分策略的優勢,聯合打造“芯合”異構混合并行訓練系統1.0,有利于幫助中國移動充分利用國產算力,加快國產GPU遷移落地,形成開放的國產智算生態。
大會同期舉辦了中國通信學會算力網絡委員會閉門會議及委員聘用儀式,壁仞科技AI軟件首席架構師丁云帆被評選為中國通信學會第一屆算力網絡委員會委員,其將發揮在大規模智算集群、AI平臺、異構訓練系統、大模型分布式并行加速等方面的經驗和能力,為中國算力網絡的發展貢獻力量。
未來,壁仞將繼續秉承開放與融合的理念,與中國移動等產業鏈的合作伙伴攜手并進,共同推進智算異構混訓系統的創新與建設,支撐更多業務場景、支持更大參數規模模型、支持更大規模異構集群、融通更多異構芯片,真正打造以基礎軟件棧引領的全新智算生態,為我國算力強國戰略落地提供堅實的支撐。
-
中國移動
+關注
關注
22文章
5557瀏覽量
71869 -
算力
+關注
關注
1文章
1023瀏覽量
14972 -
壁仞科技
+關注
關注
1文章
58瀏覽量
2795
原文標題:破解“算力孤島”|壁仞科技聯合中國移動等生態伙伴共同發布“芯合”異構混合并行訓練系統1.0
文章出處:【微信號:Birentech,微信公眾號:壁仞科技Birentech】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
中國移動聯合飛騰公司發布無線智算網絡樣機
壁仞科技聯合中國電信等合作伙伴共同發布智算異構四芯混訓解決方案
澎峰科技助力中國移動 重磅發布智算“芯合”算力原生基礎軟件棧2.0
![澎峰科技助力<b class='flag-5'>中國移動</b> 重磅<b class='flag-5'>發布</b>智算“<b class='flag-5'>芯</b><b class='flag-5'>合</b>”算力原生基礎軟件棧2.0](https://file1.elecfans.com/web3/M00/00/E0/wKgZO2dOpxWAUqlLAAErWdmhRhc626.png)
澎峰科技助力中國移動發布智算“芯合”算力原生基礎軟件棧2.0
芯盾時代入選中國移動安全解決方案市場洞察報告
性能提升近一倍!壁仞科技攜手無問芯穹,在千卡訓練集群等領域取得技術新突破
![性能提升近一倍!<b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技攜手無問<b class='flag-5'>芯</b>穹,在千卡<b class='flag-5'>訓練</b>集群<b class='flag-5'>等</b>領域取得技術新突破](https://file1.elecfans.com/web2/M00/0B/CD/wKgaomcp992AbRN3AAGdJIk3q7o409.png)
壁仞科技參與中國移動呼和浩特智算中心,共筑AI算力新基石
壁仞科技為中國移動呼和浩特智算中心提供強大算力
天數智芯參與建設的中國移動智算中心(呼和浩特)項目圓滿完成
中國移動發布全球首顆 RISC-V 內核超級 SIM 芯片
![<b class='flag-5'>中國移動</b><b class='flag-5'>發布</b>全球首顆 RISC-V 內核超級 SIM 芯片](https://file1.elecfans.com/web2/M00/E5/D3/wKgaomZBeIyADEqiAACsZ19UYWk044.png)
中國移動已建成運營商最大單體智算中心
壁仞科技加入中國移動“融創未來”算力網絡創新聯合體
![<b class='flag-5'>壁</b><b class='flag-5'>仞</b>科技加入<b class='flag-5'>中國移動</b>“融創未來”算力網絡創新聯合體](https://file1.elecfans.com/web2/M00/DF/58/wKgaomYwS2yAX-aWAAAdoemU2yE568.jpg)
評論