在當(dāng)今AI、大模型飛速發(fā)展的時(shí)代,RDMA(Remote Direct Memory Access,遠(yuǎn)程直接內(nèi)存訪問(wèn))網(wǎng)絡(luò)技術(shù)憑借其低延遲、高吞吐量的特性,在數(shù)據(jù)中心、高性能計(jì)算等領(lǐng)域得到了廣泛應(yīng)用。然而,許多企業(yè)在嘗試對(duì) RDMA 網(wǎng)絡(luò)進(jìn)行監(jiān)控時(shí),卻常常遭遇閉源監(jiān)控工具的限制。本文將為您揭示如何突破這些限制,實(shí)現(xiàn)對(duì) RDMA 網(wǎng)絡(luò)的高效監(jiān)控。
為什么需要強(qiáng)化RDMA網(wǎng)絡(luò)監(jiān)控?
這里需要提到SNMP網(wǎng)絡(luò)管理技術(shù)(Simple Network Management Protocol,簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議),它由三部分組成:SNMP管理器(NMS)、SNMP代理(Agent)和管理信息庫(kù)(MIB)。SNMP管理器通過(guò)SNMP協(xié)議與網(wǎng)絡(luò)設(shè)備上的SNMP代理通信,獲取設(shè)備的運(yùn)行狀態(tài)和性能數(shù)據(jù),從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的監(jiān)控和管理。
SNMP監(jiān)控的應(yīng)用場(chǎng)景其實(shí)相對(duì)廣泛,比如監(jiān)控路由器、交換機(jī)、防火墻等網(wǎng)絡(luò)設(shè)備的接口流量、CPU利用率、內(nèi)存使用情況、服務(wù)器硬件的硬盤(pán)空間、電源狀態(tài)等,但SNMP監(jiān)控也存在輪詢(xún)機(jī)制導(dǎo)致的數(shù)據(jù)收集實(shí)時(shí)性較弱、可擴(kuò)展性弱、配置管理繁瑣等問(wèn)題。
隨著業(yè)務(wù)的發(fā)展和網(wǎng)絡(luò)規(guī)模的擴(kuò)大,RDMA網(wǎng)絡(luò)的復(fù)雜性增加,如果仍然用傳統(tǒng)的SNMP監(jiān)控,可謂是費(fèi)力不討好。所以一個(gè)能夠快速部署的高性能監(jiān)控方案必不可少。從數(shù)據(jù)安全和隱私保護(hù)的角度講,強(qiáng)化RDMA網(wǎng)絡(luò)監(jiān)控也可以確保數(shù)據(jù)傳輸?shù)陌踩裕乐刮唇?jīng)授權(quán)的訪問(wèn)和數(shù)據(jù)泄露,滿足合規(guī)性要求。
開(kāi)源監(jiān)控工具有哪些?
在開(kāi)源生態(tài)中,中小企業(yè)可以共享大廠開(kāi)源的技術(shù)成果,其可靠性高、支持自定義、成本低成為越來(lái)越多的企業(yè)選擇開(kāi)放網(wǎng)絡(luò)架構(gòu)的原因,這也說(shuō)明網(wǎng)絡(luò)的開(kāi)源與開(kāi)放將是未來(lái)的趨勢(shì),那目前有哪些開(kāi)源的監(jiān)控工具呢?
Nagios:是一款廣泛使用的開(kāi)源網(wǎng)絡(luò)監(jiān)控工具,其高度可定制,擁有強(qiáng)大的插件生態(tài)系統(tǒng)、強(qiáng)大的社區(qū)支持和定期更新,高級(jí)通知選項(xiàng),可及時(shí)提醒用戶(hù)關(guān)鍵問(wèn)題。
Zabbix:是一款企業(yè)級(jí)開(kāi)源網(wǎng)絡(luò)監(jiān)控工具,以其可擴(kuò)展性和性能而聞名,高級(jí)數(shù)據(jù)收集和可視化功能。強(qiáng)大的社區(qū)支持和詳盡的文檔。
Prometheus:Prometheus是一款現(xiàn)代開(kāi)源監(jiān)控解決方案,專(zhuān)為系統(tǒng)指標(biāo)和性能監(jiān)控提供廣泛洞察。它最初由SoundCloud開(kāi)發(fā),因其云原生方法而受到歡迎。強(qiáng)大的時(shí)間序列數(shù)據(jù)存儲(chǔ)和查詢(xún)能力(PromQL)。支持微服務(wù)架構(gòu),易于集成。
......
不同的開(kāi)源工具有不同的優(yōu)勢(shì)和亮點(diǎn),如何選擇更具性?xún)r(jià)比的方案呢?
由于云原生架構(gòu)的模塊化和松耦合特性,使其具備靈活性、敏捷性、成本效益等多重優(yōu)勢(shì),無(wú)論是對(duì)開(kāi)發(fā)團(tuán)隊(duì)還是對(duì)業(yè)務(wù)方來(lái)講,都是極具效率與性?xún)r(jià)比的方案。經(jīng)過(guò)幾年的發(fā)展,云原生這個(gè)概念已經(jīng)得到了社區(qū)、企業(yè)和市場(chǎng)的廣泛認(rèn)可。從當(dāng)前比較熱門(mén)的云原生技術(shù)、容器來(lái)看,云原生已經(jīng)在眾多行業(yè)和領(lǐng)域,有了許多落地的案例,包括高科技、金融、制造、零售、教育、政府等。
雖然Nagios和Zabbix可以通過(guò)插件和配置來(lái)支持云原生環(huán)境,但它們的適配性確實(shí)不如Prometheus。Prometheus在云原生環(huán)境中的表現(xiàn)更為出色,特別是在容器監(jiān)控、服務(wù)發(fā)現(xiàn)和大規(guī)模集群監(jiān)控方面。
企業(yè)自行部署Prometheus實(shí)現(xiàn)監(jiān)控可行嗎?答案是可行,但是需要運(yùn)維人員自行配置和部署,過(guò)程復(fù)雜,對(duì)運(yùn)維人員的技術(shù)要求也比較高。
星融元基于在開(kāi)放網(wǎng)絡(luò)領(lǐng)域深耕多年的積累,敏銳地識(shí)別到了企業(yè)面臨RDMA網(wǎng)絡(luò)監(jiān)控的痛點(diǎn),即需要簡(jiǎn)捷高效的網(wǎng)絡(luò)運(yùn)維。
星融元如何實(shí)現(xiàn)更高效的RDMA網(wǎng)絡(luò)監(jiān)控?
全場(chǎng)景硬件產(chǎn)品支持
RDMA(Remote Direct Memory Access,遠(yuǎn)程直接內(nèi)存訪問(wèn))是一種高性能網(wǎng)絡(luò)通信技術(shù),允許用戶(hù)級(jí)應(yīng)用程序直接讀取和寫(xiě)入遠(yuǎn)程內(nèi)存,而無(wú)需經(jīng)過(guò)CPU進(jìn)行多次內(nèi)存復(fù)制。這種技術(shù)顯著降低了延遲和CPU開(kāi)銷(xiāo),提高了數(shù)據(jù)傳輸?shù)男省2⑶摇DMA技術(shù)對(duì)網(wǎng)絡(luò)丟包非常敏感,因此,為了充分發(fā)揮RDMA的性能,需要構(gòu)建一個(gè)無(wú)丟包的網(wǎng)絡(luò)環(huán)境,即無(wú)損網(wǎng)絡(luò),通過(guò)PFC(優(yōu)先級(jí)流量控制)和ECN(顯式擁塞通知)等技術(shù),確保網(wǎng)絡(luò)在高負(fù)載情況下仍能保持低延遲和高吞吐量。
區(qū)別于傳統(tǒng)廠家多等級(jí)License權(quán)限管理方式,星融元CX-N數(shù)據(jù)中心交換機(jī)所有應(yīng)用場(chǎng)景License權(quán)限一致,全系列標(biāo)配RoCEv2能力,提供PFC、ECN等一系列面向生產(chǎn)環(huán)境的增強(qiáng)網(wǎng)絡(luò)特性。
25G-800G豐富的產(chǎn)品規(guī)格,靈活支持單一SKU或混合速率規(guī)格組網(wǎng)方案,規(guī)模可從邊緣推理擴(kuò)展到萬(wàn)卡集群;
400ns-560ns超低端到端時(shí)延,媲美IB網(wǎng)絡(luò);
兼容UEC規(guī)范,面向未來(lái)業(yè)務(wù)拓展、技術(shù)升級(jí)可進(jìn)行平滑切換;
......
EasyRoCE Toolkit免費(fèi)開(kāi)放
面向AI、智算等場(chǎng)景,星融元依托開(kāi)源開(kāi)放的網(wǎng)絡(luò)架構(gòu),推出EasyRoCE Toolkit。從前期規(guī)劃實(shí)施到日常運(yùn)維監(jiān)控, EasyRoCE Toolkit 簡(jiǎn)化了各環(huán)節(jié)的復(fù)雜度并改善了操作體驗(yàn),可以說(shuō)是開(kāi)箱即用,且具備二次開(kāi)發(fā)和集成空間。該工具集對(duì)星融元簽約用戶(hù)完全開(kāi)放,并常態(tài)化更新,無(wú)額外收費(fèi)。
EasyRoCE Toolkit功能展示:
高精度監(jiān)控工具(Real-time Traffic Reporter, RTR)
EasyRoCE Toolkit下的高精度監(jiān)控工具(Real-time Traffic Reporter, RTR)解決的便是高精度數(shù)據(jù)源的呈現(xiàn)問(wèn)題。該工具將監(jiān)控面板的設(shè)計(jì)、采集器的對(duì)接等配置工作打包到一個(gè)json文件里,用戶(hù)將其導(dǎo)入U(xiǎn)G平臺(tái)后即可生成詳盡的毫秒級(jí)監(jiān)控?cái)?shù)。
鏈路地圖(Link Map, LM)
實(shí)時(shí)呈現(xiàn)所有鏈路的負(fù)載情況, 動(dòng)態(tài)監(jiān)控整網(wǎng)運(yùn)行狀態(tài)
光模塊地圖(Transceiver Map, TM)
動(dòng)態(tài)監(jiān)控所有光模塊的運(yùn)行狀態(tài)(up/down),快速定位故障點(diǎn)
拓?fù)涑尸F(xiàn)(Topology Generator, TG)
從邏輯到物理映射,自動(dòng)呈現(xiàn)拓?fù)洌瑤椭\(yùn)維人員快速、精準(zhǔn)定位異常
圖形化面板(Device Panel, DP)
以交換機(jī)的實(shí)際面板布局為基礎(chǔ),圖形化展示設(shè)備的運(yùn)行狀態(tài),通過(guò)顏色變化(橙色或紅色)顯著標(biāo)記設(shè)備異常點(diǎn)
參考來(lái)源:
https://blog.csdn.net/ITmoster/article/details/131246358
https://www.baidu.com/link?url=p3tUy2J_k4Z1DjPb_Q2LRSn588mPtLndydxc571GcaXFY87LIlBCmWI_KBC5EloWqh1a0B_DCi5Op6wvLkS5ky98NOYnAG6mDr8FqGoe6hfARlU_Sj59QT1wXiTX2vgxHhT6hbv1mgK0puFAq6Tvy8beuFVC6SARsm8tMqKkPb_&wd=&eqid=a24252bd004b9ca70000000667c040bf
https://www.nagios.org/
https://www.zabbix.com/cn
https://prometheus.ac.cn/docs/prometheus/latest/getting_started/
https://solutionsreview.com/network-monitoring/the-13-best-open-source-network-monitoring-tools/
https://blog.csdn.net/qq_29917503/article/details/130340284
https://asterfusion.com/easyroce/
審核編輯 黃宇
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7769瀏覽量
90406 -
網(wǎng)絡(luò)監(jiān)控
+關(guān)注
關(guān)注
0文章
115瀏覽量
22018 -
開(kāi)源
+關(guān)注
關(guān)注
3文章
3616瀏覽量
43499 -
RDMA
+關(guān)注
關(guān)注
0文章
82瀏覽量
9208
發(fā)布評(píng)論請(qǐng)先 登錄
RDMA簡(jiǎn)介3之四種子協(xié)議對(duì)比
RDMA簡(jiǎn)介2之A技術(shù)優(yōu)勢(shì)分析
RDMA簡(jiǎn)介1之RDMA開(kāi)發(fā)必要性
中科曙光聯(lián)合成立行業(yè)AI智能體開(kāi)放生態(tài)聯(lián)盟
共建鴻蒙生態(tài),開(kāi)放原子開(kāi)源基金會(huì)為迅龍軟件授牌

開(kāi)放原子開(kāi)源基金會(huì)理事長(zhǎng)程曉明一行到訪深開(kāi)鴻交流,共謀開(kāi)源鴻蒙生態(tài)繁榮新篇章

對(duì)三星而言開(kāi)放生態(tài)系統(tǒng)是什么
共創(chuàng)開(kāi)源新未來(lái) 軟通動(dòng)力攜子公司鴻湖萬(wàn)聯(lián)全方位助陣2024開(kāi)放原子開(kāi)源生態(tài)大會(huì)成功舉辦

以太網(wǎng)RDMA RoCE的技術(shù)局限

迅龍軟件出席2024開(kāi)放原子開(kāi)源生態(tài)大會(huì),共謀開(kāi)源生態(tài)繁榮之路

2024開(kāi)放原子開(kāi)源生態(tài)大會(huì)在北京舉行

金壯龍?jiān)?b class='flag-5'>開(kāi)放原子開(kāi)源生態(tài)大會(huì)開(kāi)幕式上的致辭

以生態(tài)共建推動(dòng)產(chǎn)業(yè)發(fā)展,深開(kāi)鴻亮相2024開(kāi)放原子開(kāi)源生態(tài)大會(huì)

評(píng)論