三項(xiàng)創(chuàng)新首度公開!構(gòu)建高效 AI 數(shù)據(jù)中心,從網(wǎng)絡(luò)仿真開始
AI 正以前所未有的速度重塑數(shù)據(jù)中心架構(gòu)。每秒數(shù)萬億字節(jié)的訓(xùn)練流量、數(shù)千 GPU 的并行通信,讓傳統(tǒng)測(cè)試方法陷入瓶頸——GPU 閑置、網(wǎng)絡(luò)擁塞、訓(xùn)練失敗屢見不鮮。
AI 創(chuàng)新,正在重構(gòu)數(shù)據(jù)中心基礎(chǔ)架構(gòu)
近幾年,多模態(tài)學(xué)習(xí)、多智能體系統(tǒng)(Multi-agent Systems,MAS)和高速 GPU 互聯(lián)技術(shù)快速發(fā)展,推動(dòng) AI 應(yīng)用在醫(yī)療、氣候建模、金融等多個(gè)領(lǐng)域?qū)崿F(xiàn)飛躍。這些突破也帶來了前所未有的挑戰(zhàn),對(duì)網(wǎng)絡(luò)速度、吞吐量及計(jì)算性能的要求正持續(xù)飆升。
圖 1. AI 正迎來技術(shù)爆發(fā)的關(guān)鍵轉(zhuǎn)折點(diǎn),未來三年各項(xiàng)硬件標(biāo)準(zhǔn)與性能將實(shí)現(xiàn)跨代躍升。
動(dòng)輒數(shù)十萬美金,AI 數(shù)據(jù)中心成本遠(yuǎn)高于傳統(tǒng)數(shù)據(jù)中心架構(gòu)
一臺(tái) AI 訓(xùn)練服務(wù)器通常配備 8 塊 GPU,總成本超過 40 萬美元。而這還不包括電力、冷卻、高速光互聯(lián)等運(yùn)維成本,占運(yùn)營支出的 30% 至 50%。
此外,每個(gè) AI 模型的云端存儲(chǔ)成本,每月可能高達(dá) 1,000 至 10,000 美元。
模型訓(xùn)練往往動(dòng)輒耗時(shí)數(shù)周甚至數(shù)月,任何縮短訓(xùn)練周期的機(jī)會(huì)都意味著數(shù)百萬美元的 GPU 運(yùn)算資源釋放。
但問題來了:你的基礎(chǔ)設(shè)施是否真正高效,能支撐這樣的提速?
三大核心挑戰(zhàn),阻礙 AI 數(shù)據(jù)中心擴(kuò)展
#挑戰(zhàn)一:
AI 流量密集度遠(yuǎn)超傳統(tǒng)應(yīng)用
AI 訓(xùn)練負(fù)載需要在數(shù)千顆 GPU 之間高速傳輸 TB 級(jí)數(shù)據(jù),通信模式集中且延遲敏感。例如,集合通信(如 all-to-all)容易引發(fā)入流擁塞,導(dǎo)致某些數(shù)據(jù)流延遲,從而拖慢整個(gè)訓(xùn)練任務(wù)。網(wǎng)絡(luò)性能的關(guān)鍵不再是“平均帶寬”,而是“最長傳輸時(shí)間”。
如圖 2 所示,即使大多數(shù) GPU 數(shù)據(jù)流能在 150 毫秒內(nèi)完成,只要存在一個(gè)延遲至 190 毫秒的節(jié)點(diǎn),整個(gè)算法執(zhí)行也必須等到這最后一個(gè)完成,最終總耗時(shí)拉長至 190 毫秒。
圖 2. 即使大多數(shù)數(shù)據(jù)傳輸迅速,少數(shù)延遲較高的流也會(huì)決定 AI 訓(xùn)練任務(wù)的整體完成時(shí)間。
#挑戰(zhàn)二:
系統(tǒng)高度互聯(lián),風(fēng)險(xiǎn)被放大
在強(qiáng)耦合架構(gòu)中,任一組件故障(如光模塊異常、網(wǎng)卡配置錯(cuò)誤)都可能引發(fā)連鎖反應(yīng),導(dǎo)致任務(wù)失敗和資源浪費(fèi)。如果沒有全棧可視性和真實(shí)世界的仿真,這些問題往往在傳統(tǒng)測(cè)試中難以被發(fā)現(xiàn)。
#挑戰(zhàn)三:
僅靠組件級(jí)驗(yàn)證已無法保障系統(tǒng)穩(wěn)定
即使每個(gè)組件都符合標(biāo)準(zhǔn),也可能因 AI 流量特性而在系統(tǒng)層級(jí)上失敗。盡管某些收發(fā)器在組件層面滿足 IEEE 合規(guī)性要求,但在系統(tǒng)級(jí)運(yùn)行中,特別是在處理突發(fā) AI 流量時(shí),仍可能出現(xiàn)性能問題。研究顯示,超過 40% 的 AI 訓(xùn)練失敗歸因于網(wǎng)絡(luò)或組件效率不足。
圖 3. 超過一半的 GPU 時(shí)間花在等待數(shù)據(jù)上,近一半的 AI 訓(xùn)練任務(wù)失敗歸因于網(wǎng)絡(luò)與計(jì)算資源問題
系統(tǒng)級(jí)仿真是你的新的超能力
系統(tǒng)級(jí)仿真使網(wǎng)絡(luò)架構(gòu)師能夠跳出理論假設(shè),深入了解基礎(chǔ)設(shè)施在真實(shí) AI 流量與控制機(jī)制下的實(shí)際運(yùn)行行為。
數(shù)據(jù)中心的系統(tǒng)級(jí)性能依賴于系統(tǒng)級(jí)可視化能力——也就是模擬 GPU 之間的通信、觀察隊(duì)列對(duì)(Queue Pair)行為,并分析突發(fā)流量和擁塞點(diǎn)在整個(gè)技術(shù)棧中(從物理層到應(yīng)用層)造成的影響。數(shù)據(jù)中心的性能優(yōu)化,離不開系統(tǒng)級(jí)可視化能力。通過模擬 GPU 通信、觀察隊(duì)列行為、識(shí)別流量突發(fā)點(diǎn),才能在物理層到應(yīng)用層之間全面掌控網(wǎng)絡(luò)運(yùn)行狀況。
這一完整的測(cè)試流程通常包括:
?部署高密度網(wǎng)絡(luò)測(cè)試平臺(tái)。
?配置流量生成器,以太比特級(jí)速度模擬 AI 集合通信操作(如 all-reduce、broadcast、gather)的真實(shí)流量行為。
?使用性能分析工具,衡量系統(tǒng)級(jí)關(guān)鍵性能指標(biāo)(KPI),例如任務(wù)完成時(shí)間、GPU 利用率、網(wǎng)絡(luò)吞吐量和延遲。
通過這一方法,網(wǎng)絡(luò)架構(gòu)師可以快速定位 GPU 閑置時(shí)間積累的位置、識(shí)別次優(yōu)的擁塞控制設(shè)置,或發(fā)現(xiàn)引入延遲的網(wǎng)卡與收發(fā)器組合。此外,還可在無需部署大規(guī)模 GPU 集群的前提下,靈活測(cè)試路由策略、微調(diào)擁塞控制參數(shù)(如優(yōu)先級(jí)流控 PFC 和顯式擁塞通知 ECN),并評(píng)估新協(xié)議或架構(gòu)變更的效果。
某大型云服務(wù)提供商已使用是德科技的Keysight AI(KAI)數(shù)據(jù)中心構(gòu)建器對(duì)其新一代 AI 訓(xùn)練集群的網(wǎng)絡(luò)設(shè)計(jì)進(jìn)行基準(zhǔn)測(cè)試,目標(biāo)是確保其高速以太網(wǎng)不僅能夠支持當(dāng)前的 GPU 型號(hào),也能夠兼容即將發(fā)布的新一代 GPU。
圖 4. 是德科技 Keysight AI(KAI)數(shù)據(jù)中心構(gòu)建器通過仿真 AI 工作負(fù)載以驗(yàn)證系統(tǒng)級(jí)性能指標(biāo)的界面截圖。
邁向 1.6T AI 數(shù)據(jù)中心:驗(yàn)證方法必須與時(shí)俱進(jìn)
為了支持下一代 AI 工作負(fù)載的規(guī)模和速度,數(shù)據(jù)中心正在向 1.6T 以太網(wǎng)過渡。
隨著 224 Gbps 電通道和 PAM4 調(diào)制成為常態(tài),這些高速鏈路引入了更嚴(yán)格的時(shí)序窗口、更低的信噪比以及對(duì)互連變化更高的靈敏度。在如此高的速度下,驗(yàn)證信號(hào)完整性和端到端性能不能僅僅停留在組件級(jí)規(guī)格上。即使是符合標(biāo)準(zhǔn)的設(shè)備,在突發(fā)性 AI 工作負(fù)載下,也可能會(huì)遭遇邊緣 FEC 性能或間歇性故障。銅纜、光纖、有源電纜和無源 DAC 等互連的多樣性日益增加,使驗(yàn)證變得更加復(fù)雜。
傳統(tǒng)的手動(dòng)和基于腳本的驗(yàn)證難以應(yīng)對(duì) 1.6T 及以上速度的復(fù)雜性。全面的自動(dòng)化測(cè)試策略對(duì)于識(shí)別僅在動(dòng)態(tài)、高流量 AI 訓(xùn)練工作負(fù)載下才會(huì)出現(xiàn)的系統(tǒng)級(jí)瓶頸至關(guān)重要。
Keysight 推出的 1.6T 互連和網(wǎng)絡(luò)性能測(cè)試儀 + ITS (Interconnect Test System) 自動(dòng)化測(cè)試平臺(tái),提供了完整的第1層到第3層全棧驗(yàn)證能力,包含:
第 1 層 :FEC 前誤碼率(Pre-FEC BER)、FEC 裕度、抖動(dòng)容限
第 2 層 :CMIS 協(xié)議兼容性、數(shù)字光學(xué)監(jiān)控(DOM)、通道映像完整性
第 3 層 :RoCEv2 流量建模、擁塞傳播、流量公平性
為了支持可重復(fù)、可擴(kuò)展的測(cè)試,像1.6TE 互連和網(wǎng)絡(luò)性能測(cè)試儀這樣的集中式測(cè)試平臺(tái)可以重復(fù)使用配置、自動(dòng)化通過/失敗分析并加快測(cè)試吞吐量。
是德科技1.6TE 互連和網(wǎng)絡(luò)性能測(cè)試儀具備全面的硬件功能,覆蓋第 1 層至第 3 層所需的各項(xiàng)測(cè)試能力,可廣泛應(yīng)用于高速以太網(wǎng)、光纖與銅纜互連、網(wǎng)絡(luò)設(shè)備以及整體網(wǎng)絡(luò)基礎(chǔ)設(shè)施的驗(yàn)證。
配套的互連測(cè)試系統(tǒng)(ITS)軟件可幫助架構(gòu)師快速識(shí)別邊緣場(chǎng)景下的系統(tǒng)行為,并在實(shí)際大規(guī)模部署條件下,對(duì)各種電纜、網(wǎng)卡(NIC)、收發(fā)器和交換機(jī)進(jìn)行壓力測(cè)試,確保系統(tǒng)穩(wěn)定可靠運(yùn)行。
圖 5. Keysight Interconnect Test System (ITS) 軟件數(shù)字光監(jiān)控頁面的屏幕截圖
構(gòu)建面向未來的 AI 數(shù)據(jù)中心
構(gòu)建一個(gè)真正具備大規(guī)模運(yùn)行能力的人工智能數(shù)據(jù)中心,絕不僅僅是“完成檢查清單”那樣簡(jiǎn)單,而是要為不可預(yù)測(cè)的挑戰(zhàn)做好設(shè)計(jì)準(zhǔn)備,并應(yīng)對(duì)未來指數(shù)級(jí)的增長需求。
隨著人工智能不斷重塑現(xiàn)代數(shù)據(jù)中心的架構(gòu),網(wǎng)絡(luò)架構(gòu)師正是連接愿景與執(zhí)行的關(guān)鍵角色。無論您正在排查尾延遲、驗(yàn)證光互連,還是規(guī)劃邁向 1.6T 的下一個(gè)飛躍,有一點(diǎn)是確定的:網(wǎng)絡(luò)是支撐 AI 創(chuàng)新的核心。
而您團(tuán)隊(duì)是否具備對(duì)每條數(shù)據(jù)路徑進(jìn)行仿真、基準(zhǔn)測(cè)試與系統(tǒng)級(jí)可視化的能力,將直接決定基礎(chǔ)設(shè)施能否真正成功擴(kuò)展。
關(guān)于是德科技
是德科技(NYSE:KEYS)啟迪并賦能創(chuàng)新者,助力他們將改變世界的技術(shù)帶入生活。作為一家標(biāo)準(zhǔn)普爾 500 指數(shù)公司,我們提供先進(jìn)的設(shè)計(jì)、仿真和測(cè)試解決方案,旨在幫助工程師在整個(gè)產(chǎn)品生命周期中更快地完成開發(fā)和部署,同時(shí)控制好風(fēng)險(xiǎn)。我們的客戶遍及全球通信、工業(yè)自動(dòng)化、航空航天與國防、汽車、半導(dǎo)體和通用電子等市場(chǎng)。我們與客戶攜手,加速創(chuàng)新,創(chuàng)造一個(gè)安全互聯(lián)的世界。
-
仿真
+關(guān)注
關(guān)注
52文章
4283瀏覽量
135792 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5226瀏覽量
73499 -
AI
+關(guān)注
關(guān)注
88文章
35093瀏覽量
279529
原文標(biāo)題:重新定義 AI 網(wǎng)絡(luò)測(cè)試:仿真+可視化,讓 1.6T 成為現(xiàn)實(shí)
文章出處:【微信號(hào):是德科技KEYSIGHT,微信公眾號(hào):是德科技KEYSIGHT】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
適用于數(shù)據(jù)中心和AI時(shí)代的800G網(wǎng)絡(luò)
數(shù)據(jù)中心的建設(shè)也看重風(fēng)水
未來數(shù)據(jù)中心與光模塊發(fā)展假設(shè)
數(shù)據(jù)中心太耗電怎么辦
高效率的快速部署 玩轉(zhuǎn)模塊化數(shù)據(jù)中心 相關(guān)資料推薦
數(shù)據(jù)中心是什么
什么是數(shù)據(jù)中心
AI在數(shù)據(jù)中心是什么角色?
AI技術(shù)在數(shù)據(jù)中心有什么好處?
數(shù)據(jù)中心架構(gòu)克服AI內(nèi)存瓶頸的方法

是德科技推出AI數(shù)據(jù)中心測(cè)試平臺(tái)旨在加速AI/ML網(wǎng)絡(luò)驗(yàn)證和優(yōu)化的創(chuàng)新

是德科技推出AI數(shù)據(jù)中心測(cè)試平臺(tái)
是德科技推出AI數(shù)據(jù)中心構(gòu)建器
是德科技推出AI數(shù)據(jù)中心構(gòu)建器以驗(yàn)證和優(yōu)化網(wǎng)絡(luò)架構(gòu)和主機(jī)設(shè)計(jì)
是德科技推出用于大規(guī)模AI數(shù)據(jù)中心的系列解決方案

評(píng)論