在2022年第六屆未來網絡發展大會上,來自產業界、學術界、研究機構等領域的專家、行業領袖共同探討新型網絡技術的攻關與變革。
華為董事、科學家咨詢委員會主任徐文偉在主題演講中指出,超級算力是智能世界的關鍵需求,未來網絡技術將在三個方面為超級算力系統發展做出貢獻:
采用正交架構、分布式直連拓撲等新技術,持續提升數據中心交換機設備容量、數據中心網絡規模,支持百萬級海量算力節點大規模互聯。
將智能無損網絡技術應用到AI訓練、存儲、HPC等多種場景,把數據中心網絡時延從毫秒級降低到微秒級,減少算力等待算據的空耗周期,將算力發揮到極致。
面向一體化大數據中心、東數西算等新場景,探索長距智能無損網絡、多目標算力路由等新技術,支持全網負載均衡,提供集約化低碳算力服務。
展望未來,算網融合架構的探索需要產學研用的共同努力才能成功,華為將持續基礎理論研究和研發投入,與高校、實驗室、產業界積極開展合作,共同推進未來網絡發展。
以下為演講全文。
一、 超級算力是智能世界2030的關鍵需求
超級算力是智能世界的關鍵需求。
展望2030年的智能世界,人工智能將無所不及,超級算力幫助我們更縱深地感知物理世界,更準確地模擬現實世界、探索未知領域,加速千行百業的數字化和智能化,實現數字世界和物理世界的無縫融合。
預計到2030年,自動駕駛車廠云端需要10 ExaFLOPS,氣象預測數據及算力需求增長1000倍,VR/AR用戶數將超過10億,AI計算的算力將達到105 ZetaFlops,比2021年增長500倍左右,算力就是未來國家的關鍵競爭力。
二、 超級算力系統發展驅動算網融合架構創新
超級算力系統不但需要性能更強的CPU、GPU,以及更強大的AI算法、模型,還需要結合未來網絡技術的最新發展,以算網融合架構助力超級算力系統發展。
未來網絡技術研究將在三個方面做出貢獻:
采用正交架構、分布式直連拓撲等新技術,持續提升數據中心交換機設備容量、數據中心網絡規模,支持百萬級海量算力節點大規模互聯。
將智能無損網絡技術應用到AI訓練、存儲、HPC等多種場景,把數據中心網絡時延從毫秒級降低到微秒級,減少算力等待算據的空耗周期,將算力發揮到極致。
面向一體化大數據中心、東數西算等新場景,探索長距智能無損網絡、多目標算力路由等新技術,支持全網負載均衡,提供集約化低碳算力服務。
三、系統架構創新:首創DCN正交架構,實現超大容量,超高密度,線性擴容
為了支持海量算力節點的大規模互聯,我們需要大容量的數據中心交換機設備。傳統框式設備采用PCB背板走線實現板卡槽位之間信號連接,受限于高速信號鏈路衰減,走線長度不能大于40英寸,在框式設備上只能支持8個線卡槽位。
華為在2012年推出的數據中心交換機CloudEngine12800設備,首創“直接正交架構”,采用業務線卡和交換網板90度垂直互連的方式,背板0走線,減少了走線帶來的高速信號鏈路衰減,支持前后風道,數據中心機房無需改造就可以滿足冷熱隔離的要求,整機支持24個40GE線速端口,并且支持線性擴容,是當時業界最高競品的4倍。
同樣基于直接正交架構的新一代數據中心交換機CloudEngine16816,支持16個業務線卡槽位,提供768個400GE端口。
實現正交架構面臨高速信號傳輸、高密度和低損連接器和高效散熱的工程瓶頸。通過系統架構創新和跨學科集成創新,我們突破了多個工程技術瓶頸,連續十年刷新數據中心核心交換機的業界容量極限。
四、 持續提升設備容量:互聯介質技術、散熱技術、分布式架構
在正交架構的技術創新的基礎上,為了持續提升數據中心交換機的設備容量,我們還在研究更高速率的互聯介質技術、更強的散熱技術,并探索更多的設備新架構。
在互聯架構上,從PCB互連演進到了當前的Cable IO互連,未來將走向光IO互連。要實現架構演進,關鍵是在互連介質上要取得突破。我們也在業界推出對傳輸損耗的理論研究公式(如圖),從降低介電材料的Dk和Df以及改善導體材料的光滑度,趨膚效應和導電率來改善介質損耗與導體損耗。
在散熱技術上,我們基于過增元院士的“場協同原理”理論,持續優化散熱速度場/溫度場的“協同數”Fc (如圖),進一步研究從金屬到石墨烯到金剛石的散熱材料突破,挑戰固體導熱材料的極致性能。同時,深入探索沸騰換熱微納表面的加工工藝,拉遠散熱跨尺度/跨材料系統的集成工藝、復雜熱源散熱的拓撲優化工藝的散熱工藝。力爭在散熱技術上獲得突破。
在設備架構上,面向未來,探索從正交架構到直連拓撲的分布式交換機架構的可能性,希望突破設備的容量與供電限制,通過OIO互聯技術完成高密度信號連接,實現單節點更大容量演進。
五、系統架構創新:直連拓撲實現單個DC的百萬級節點聯接
為了支持海量算力節點的大規模互聯,我們還需在數據中心交換機的組網拓撲上進一步創新。目前主流組網拓撲為CLOS架構,以典型的128端口交換機測算,2級CLOS架構最大支持8千個計算節點互聯。
為了實現更大規模的算力互聯,3級CLOS架構最大支持50萬個計算節點互聯,但跳數增加又帶來了時延增加等問題。
華為創新地將直連拓撲引入到以太網絡中,實現超大規模、低跳數的數據中心網絡架構,以128端口交換機測算,最高可支持400萬計算節點互聯,相比2級CLOS架構提升了500倍,跳數不變。
直連拓撲的多路徑環路問題,需要Dijkstra(迪杰斯特拉)算法實現TI-LFA(拓撲無關的無環路備份路徑),存在復雜度高、重路由時間長的問題。華為創新引入圖論方法實現并行Dijkstra(迪杰斯特拉)算法,降低復雜度,將1萬個節點的快速重路由時間從16.7分鐘降低到8s。
六、系統架構創新:智能無損網絡,挑戰零丟包互聯提升AI訓練算力
AI訓練場景中,多臺服務器向一臺服務器同時發送大量報文的情況經常出現,多打一(incast)網絡流量模型是常態。
當報文大量排隊、緩存溢出后,丟包、重傳就會導致GPU等數據的現象,嚴重時CPU資源有50%的時間在空轉。
傳統的流量控制算法在緩存超過一定“水線”時通知發送端,降低流量發送速度,但水線值的設置既不能太溫柔、也不能太粗暴,還要根據計算任務的不同動態調整,不可實施。
華為創造性地引入智能算法代替專家經驗,用流量數據、流量模型進行實時推理,得出最優ECN水線值,實現實時、精準的AI ECN流量控制。
為了確保算法可以自適應任何流量場景和模型,除了百萬級的真實業務樣本外,還加入了千萬級的隨機樣本訓練,可以保證在不同場景下無損算力互聯。
依據《ODCC無損網絡測試基準》,ODCC 2020年進行了實測,采用智能無損網絡架構改造后,能效比提升了25%~31%,這相當于節省了25%的GPU投資,具有較大商業價值。
某重點實驗室算力強大(4096個NPU+1024CPU),但AI訓練場景下,網絡HASH不均導致有效吞吐低,IO500打榜中網絡吞吐僅達到約50%,影響AI計算效率。
全網采用智能無損網絡后,單任務場景網絡吞吐從50%提升到90%。在IO500總榜、IO500十節點榜以及AIPerf榜都排名第一,且得分大幅領先上屆冠軍。IO500總榜得分4倍于第二名
七、智能無損網絡在存儲、HPC場景的性能超越FC、持平IB
在存儲場景中,傳統的光纖通道(FC)網絡不匹配全閃存NVMe接口下的并行式大吞吐讀寫模式,帶寬和時延已成為性能瓶頸。以太在帶寬上相比FiberChannel具有明顯優勢,一家全球領先的大型銀行率先采用智能無損網絡替代FiberChannel,部署全閃存數據中心,生產系統存儲性能提升85%。
在HPC場景,智能無損網絡可以將集合通信的部分計算操作從服務器轉移到交換機網絡設備,減少了服務器集群間的通信量,從而大幅降低了HPC小字節場景下的網絡時延,提升了計算效率。
東莞大科學計算中心實驗室需超大算力支持仿真與科學計算,使用智能無損網絡技術替代InfiniBand,計算性能持平,特定計算任務場景略有超越,我們還在持續優化,爭取實現全面領先。
智能無損網絡性能超越IB的場景還有:氣象預報WRF、CESM等用例;汽車碰撞Pam-crash用例;AI計算AIPerf BenchMark套件用例。
八、從DCN到DCI到全國一體化大數據中心,堅持系統架構創新
繼DC內部的智能無損網絡之后,我們在同城智能無損網絡也有進展,突破了iLossless-DCI算法,攻克100G以太網100公里0丟包難題,實現同城長距無損,并主導IEEE長距無損網絡相關的技術規范;一家全球領先的大型銀行在跨DC雙活同城數據同步中,采用長距無損技術實現0丟包NoF+存儲網絡,用100G以太替換8G FC,鏈路數減少90%,每年節省2000多萬元;
下一步是全國一朵云、一張網的問題,延續網絡架構+軟件創新思路,探索多目標路由來實現跨資源池一體化調度、探索廣域智能無損實現1000公里級400G算力網絡高吞吐。
九、全國一體化大數據中心,探索多目標算力路由、廣域智能無損
面向全國一體化數據中心的場景,在控制面探索多目標算力路由,在數據面探索廣域智能無損;
多目標算力路由的思路是,通過新的網絡和軟件協同,將一個業務拆分為多個子任務,用多目標算力路由來實現跨數據中心資源池的統一調度、協同計算、算網融合;這種情況下,算力-運力圖的劃分與組合眾多,多目標算力路由是就是從眾多組合中找出業務綜合服務水平SLA與總和成本這兩個目標上的最優;
這是典型的多目標優化問題,也稱為帕累托(Pareto)最優問題,傳統的多目標加權轉化方法覆蓋低,需要探索其他途徑如矢量分解結合演化計算來提升最優Pareto覆蓋;
面向全國一張網場景,廣域智能無損網絡還需要解決廣域網絡距離長反饋慢、路徑多、均衡難、業務吞吐低的難題,支持全國一體化大數據中心的發展;需要探索廣域網絡擁塞控制新算法、網絡負載均衡新技術、下一代鏈路流控協議等,以期獲得廣域高吞吐性能。
十、架構創新、技術突破,實現未來算網融合目標(2030)
面向未來,要實現算網融合的目標,通過更大的聯接與算力,支撐面向未來的真人全息、自動駕駛、XR等場景和隨時隨地10G Everywhere的需求
一方面,我們需要從架構創新與技術突破方面努力實現單級設備容量的突破,端口速率從400G到3.2T,單片容量從25.6T到400T以上,系統容量從512T到10P以上
另外一方面,我們也需要支撐擴展到百萬級的數據中心規模,微秒級的時延和整網級甚至全國一張網的負載均衡能力。
十一、合作共贏加速未來網絡發展
要實現算網融合架構,加速未來網絡發展,需要靠各位院士、科學家、專家、上下游產業和客戶共同努力才能成功,同時我們也要重視網絡、ICT和數字人才的長期培養。
一方面,華為我們自身也在基礎實驗室建設,基礎理論研究和研發方面加大投入;更重要的,我們希望和行業的科學家和專家共同探討未來,和知名大學共同研究理論與技術。當然我們尤其非常重視合作實驗室創新驗證,就像我們和未來網絡實驗室有很多合作。
所以我們希望和大家共同努力,合作共贏加速未來網絡發展。謝謝!
-
華為
+關注
關注
216文章
34557瀏覽量
253232 -
AI
+關注
關注
87文章
31834瀏覽量
270598 -
大數據
+關注
關注
64文章
8912瀏覽量
137871
原文標題:華為徐文偉:融合算網架構,共贏未來網絡
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
大模型遭遇算力墻,探索超級應用的發展路徑
![大模型遭遇<b class='flag-5'>算</b>力墻,探索<b class='flag-5'>超級</b>應用的<b class='flag-5'>發展</b>路徑](https://file1.elecfans.com/web3/M00/07/B6/wKgZPGepx5OAXmXvAABLKuqy3e4891.png)
鯤云科技亮相北京智算協同創新大會
算家計算 開啟貴州人工智能算力服務新篇章
![<b class='flag-5'>算</b>家計算 開啟貴州人工智能<b class='flag-5'>算</b>力服務新篇章](https://file1.elecfans.com//web3/M00/03/FC/wKgZO2dthmGAT0yIABlGyezR4uQ682.png)
華為榮獲2024年算力網絡產業十大創新成果獎
華為受邀出席算力產業發展方陣全體會議
存算一體架構創新助力國產大算力AI芯片騰飛
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽
名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構分析
長沙角逐算力江湖,長沙市新一代智算產業生態聯合體成立
算力系統集成指什么
算力系列基礎篇——算力101:從零開始了解算力
![<b class='flag-5'>算</b><b class='flag-5'>力系</b>列基礎篇——<b class='flag-5'>算</b>力101:從零開始了解<b class='flag-5'>算</b>力](https://file.elecfans.com/web2/M00/43/7B/pYYBAGJ-B6aAHuNPAAAf8J1Ebk4778.jpg)
評論