近日,2023開放數據中心冬季全會(簡稱:ODCC 2023)在銀川召開,華為聯合信通院在新技術與測試組共同申報的《AI數據中心網絡建設指導意見》立項成功,該項目旨在促進行業數智化轉型、推動產業升級合作,為各行業構建面向AI時代的數據中心網絡提供參考。

華為數據通信產品線數據中心網絡領域
產業營銷副總監胡秀麗
AI算法邁入萬億參數大模型時代,算力需求增長近十萬倍,大規模計算需要高效協同數萬張AI處理器,網絡基礎設施是長穩訓練的關鍵之一。國內外已有對傳統數據中心網絡建設的指導和規范,但AI業務與傳統數據中心業務對網絡訴求差異較大,亟待優化網絡架構,革新網絡技術,《AI數據中心網絡建設指導意見》指出,AI數據中心網絡的建設可從組網規模、通信效率、高可用性三方面著手:
傳統三層網絡存在網絡層數多,網絡吞吐率低的問題,建議優化網絡架構,采用兩層框盒或框框組網,規模提升4倍以上,可滿足大規模萬卡AI集群,大幅度降低組網成本約30%。華為打造端到端200GE/400GE設備,構建大帶寬AI無損網絡,4倍于業界規模,完美匹配AI場景訴求。
組網規模從千卡向萬卡演進,大流量模型下網絡負載不均衡,嚴重影響AI訓練效率。解決流量負載不均,可將AI訓練場景下搜集到的整網信息作為創新算路算法的輸入,從而得到最優的流量轉發路徑,實現AI訓練場景下整網流量100%的均衡度,提升網絡帶寬利用率。華為獨創網絡負載均衡技術,提升網絡吞吐至98%,同等服務器規模下AI訓練效率提升20%。
AI任務的訓練要求網絡具有超高的穩定性,訓練過程中一旦鏈路異常就可能導致任務訓練中斷,要保證網絡有足夠的容錯能力,不影響AI相關業務,高可用網絡需要考慮:訓前主動識別鏈路亞健康,確保訓前網絡0風險;訓中出現任務異常后,需要能一鍵自動識別卡間的路徑和路況,做到分鐘級診斷網絡問題點,提升排障效率。華為網絡數字地圖提供可視化運維方案,高精度采集數據,實現網絡一鍵式故障診斷,訓中排障效率提升90%。
本次立項將針對AI場景下的網絡新需求,于2024年上半年完成不同集群規模選項、網絡負載均衡、網絡高可用等技術的探索,并輸出建設原則指導書,為構建面向AI時代的高性能網絡建設提供參考。華為也希望與眾多合作伙伴一起,推動技術的發展和應用場景的拓展,實現人工智能技術的可持續發展和社會的共同繁榮。

原文標題:華為聯合信通院成功立項《AI數據中心網絡建設指導意見》
文章出處:【微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。
-
華為
+關注
關注
216文章
35188瀏覽量
255694
原文標題:華為聯合信通院成功立項《AI數據中心網絡建設指導意見》
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論