隨著AI算力集群規(guī)模指數(shù)級增長,網(wǎng)絡(luò)架構(gòu)復(fù)雜度陡增。傳統(tǒng)網(wǎng)絡(luò)規(guī)劃依賴人工計算與經(jīng)驗判斷,存在效率低、易出錯、可視化弱三大痛點。尤其在RoCE(RDMA over Converged Ethernet)網(wǎng)絡(luò)場景中,需協(xié)同計算、存儲、管理等多類網(wǎng)絡(luò),并確保無損傳輸特性——EasyRoCE-AID 正是為解決這一挑戰(zhàn)而生。
EasyRoCE-AID:AI基礎(chǔ)設(shè)施智能網(wǎng)絡(luò)規(guī)劃引擎
通過系統(tǒng)化建模與自動化工具鏈,將抽象的AI網(wǎng)絡(luò)架構(gòu)(計算/存儲/管理/帶外網(wǎng)絡(luò))轉(zhuǎn)化為可視化藍圖,輸出精準(zhǔn)部署指南,降低80%規(guī)劃耗時,規(guī)避人工配置風(fēng)險。

作為 EasyRoCE Toolkit 的核心組件,AID 與以下免費工具深度協(xié)同:
? 一鍵配置RoCE網(wǎng)絡(luò)(ORD)
? GPU節(jié)點路由規(guī)劃(IRM)
? 主動路徑優(yōu)化(PPD)
? 多租戶網(wǎng)絡(luò)部署(MVD)
? 高精度流量監(jiān)控(RTR)
AI智算中心從網(wǎng)絡(luò)規(guī)劃到部署落地5大步驟
步驟1:硬件資源數(shù)字化
輸入關(guān)鍵參數(shù):GPU/存儲/管理服務(wù)器的名稱、型號、功耗、U高度、網(wǎng)口數(shù)量及帶寬(決定網(wǎng)絡(luò)拓?fù)涞年P(guān)鍵因子)。建立設(shè)備數(shù)據(jù)庫,為后續(xù)模塊提供引用依據(jù)。
步驟2:智能組網(wǎng)設(shè)計
自動化選型:基于集群規(guī)模選擇二層/三層模板,輸入服務(wù)器與交換機規(guī)格后:
1. 自動計算:每層交換機數(shù)量與堆疊關(guān)系

2. 生成方案:設(shè)備互聯(lián)邏輯圖與端口映射

根據(jù)生成的組網(wǎng)方案,補充信息,完善交換機型號、序列號、功耗等參數(shù)(影響機柜布局)。
步驟3:機柜空間優(yōu)化
該步驟依據(jù)設(shè)備性能特點、散熱需求及數(shù)據(jù)交互邏輯,為實施規(guī)劃人員制定機柜內(nèi)部的最優(yōu)空間分布方案提供參考。機柜的布局信息包括機柜所在的園區(qū)、樓棟、樓層、房間、排/列、機柜編碼、U#、設(shè)備名稱。點擊左側(cè)按鈕展開,可以看到這排機柜的情況,其中機柜中每臺設(shè)備的名稱都引用于已填寫的表格信息。

步驟4:一鍵生成網(wǎng)絡(luò)配置
全自動配置輸出:
- 互聯(lián)IP地址分配
- 服務(wù)器Bond口配置
- 帶外管理網(wǎng)絡(luò)規(guī)劃

步驟5:生態(tài)工具無縫對接
由AID規(guī)劃配置的模塊主要有,GPU Node內(nèi)部路由規(guī)劃器(IRM)、端到端路徑規(guī)劃(EPS)、主動路徑規(guī)劃(PPD)、多租戶網(wǎng)絡(luò)部署(MVD)等。
以主動路徑規(guī)劃工具(PPD)為例,我們使用 AID 工具規(guī)劃交換機的設(shè)備名稱、設(shè)備型號、設(shè)備角色、上行端口序號、下行端口序號、實例 ID、實例描述信息、下行 IP 列表、管理口地址、管理地址掩碼、交換機的帳號密碼.
其中除了實例 ID 和實例描述信息需要人為規(guī)劃,其他字段都可以點擊“填充設(shè)備信息”按鈕完成自動填充。

AID還可以聯(lián)動基于 Prometheus+Grafana 的監(jiān)控面板,輔助實現(xiàn) RDMA 網(wǎng)絡(luò)在大屏的可視化呈現(xiàn)功能。
- 拓?fù)渥詣映尸F(xiàn)(TG):

- 光模塊地圖(TM):

- 鏈路分布地圖(LM)

-
AI
+關(guān)注
關(guān)注
88文章
34855瀏覽量
277476 -
網(wǎng)絡(luò)規(guī)劃
+關(guān)注
關(guān)注
0文章
13瀏覽量
10947
發(fā)布評論請先 登錄
算力革命:RoCE實測推理時延比InfiniBand低30%的底層邏輯

人工巡檢漏檢率高?這套系統(tǒng)讓設(shè)備隱患無處遁形,運維效率飆升!

光伏電站運維管理系統(tǒng)讓光伏電站運維透明化

智慧光伏運維管理系統(tǒng)讓電站更聰明更省心

儲能運維平臺在換電站的應(yīng)用 有效提高運維效率
光伏電站的智能運維管理管家來了

愛立信如何讓網(wǎng)絡(luò)運維更簡單
信而泰CCL仿真:解鎖AI算力極限,智算中心網(wǎng)絡(luò)性能躍升之道

數(shù)據(jù)驅(qū)動的光伏運維:平臺如何提升發(fā)電效率?

云服務(wù)器計算池的運維團隊需要掌握的網(wǎng)絡(luò)工具
智慧光伏運維管理平臺讓光伏運維管理更省心

光伏電站智慧運維系統(tǒng)提示運維效率與質(zhì)量

RoCE與IB對比分析(一):協(xié)議棧層級篇

OCTC發(fā)布"算力工廠"!力促智算中心高效規(guī)劃建設(shè)投運

桌面運維工具之打印機驅(qū)動安裝

評論