中科院高能物理研究所,是國際領(lǐng)先的高能物理研究基地之一,擁有一系列世界領(lǐng)先的大科學(xué)裝置和重要實驗。每時每刻,都有海量的科研數(shù)據(jù)從全國各地的試驗裝置生成,傳輸、匯聚到計算中心進行存儲、管理,并由研究人員利用科學(xué)軟件進行深入分析和利用。要承擔(dān)如此重任,底層的網(wǎng)絡(luò)和算力基礎(chǔ)設(shè)施必須滿足極為苛刻的要求。
為了適應(yīng)未來的網(wǎng)絡(luò)和算力需求,高能物理所與華為開展了聯(lián)合創(chuàng)新,利用華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric構(gòu)建起了由近十萬顆CPU核及數(shù)百張GPU卡構(gòu)成的跨地域的高性能計算系統(tǒng),為研究工作提供了完善的ICT基礎(chǔ)設(shè)施。
科研機構(gòu)面臨網(wǎng)絡(luò)難題
為滿足科研需求,高能物理所在北京、深圳、江門、稻城、東莞等地部署了由近十萬個CPU核心構(gòu)成的算力資源,以及百PB級的數(shù)據(jù)存儲資源。高能物理所的ICT系統(tǒng)有三個特點,即多源異構(gòu)、分布式部署和網(wǎng)絡(luò)環(huán)境復(fù)雜。多源異構(gòu)是因為計算任務(wù)各不相同,使得研究人員使用的服務(wù)器來源、處理器種類及軟件各不相同。分布式部署是因為高能物理實驗設(shè)施分布在全國各地,其算力需要融合來自于國內(nèi)外合作單位的計算中心。在網(wǎng)絡(luò)架構(gòu)方面,不但要解決計算中心內(nèi)部高效數(shù)據(jù)訪問及異地數(shù)據(jù)交換問題,還要保障大型實驗裝置與高能物理所之間的實時高速連接。
由于高能物理所ICT應(yīng)用系統(tǒng)的特殊性,在規(guī)劃網(wǎng)絡(luò)系統(tǒng)時面臨兩個難題:一是科研數(shù)據(jù)失之毫厘差之千里,數(shù)據(jù)傳輸必須滿足零丟包、超低延時;二是網(wǎng)絡(luò)的管理和運維需簡單化和智能化,減少人工維護壓力。借助華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0 解決方案,高能物理所升級了其底層網(wǎng)絡(luò)通訊系統(tǒng),完全實現(xiàn)了預(yù)定目標。
CloudEngine助力
國家大科學(xué)裝置數(shù)字化升級
在廣東東莞,坐落著一座國家重大科技基礎(chǔ)設(shè)施——中國散裂中子源(CSNS),這是世界四大脈沖散裂中子源之一。在2018年CSNS建成后,隨著大量研究人員和課題的入駐,實驗過程產(chǎn)生了大量的科學(xué)數(shù)據(jù),為高效支持依托CSNS的科研活動,高能物理所在東莞部署建設(shè)了大科學(xué)計算中心。
東莞大科學(xué)計算中心在網(wǎng)絡(luò)中全面采用了華為CloudEngine系列交換機,確保數(shù)據(jù)無損傳遞;在算力領(lǐng)域,運用華為鯤鵬計算平臺和超融合以太智能無損數(shù)據(jù)中心網(wǎng)絡(luò)形成了計算、存儲、網(wǎng)絡(luò)統(tǒng)一架構(gòu)。由于華為CloudEngine交換機可以對數(shù)據(jù)進行一定整合后再做轉(zhuǎn)發(fā),因此能夠有效減輕服務(wù)器的負擔(dān),整體運行效率比傳統(tǒng)以太網(wǎng)提升31%。
實測發(fā)現(xiàn),利用華為超融合以太方案替換原有計算專用網(wǎng)絡(luò)之后,整體性能基本持平,帶寬增加了一倍,建網(wǎng)和運維成本總體減少23%。利用超融合以太方案建設(shè)存儲網(wǎng)絡(luò)系統(tǒng)之后,切實做到了0丟包,同時時延縮小了40%,投資成本節(jié)省了25%。
CloudFabric賦能基礎(chǔ)科學(xué)創(chuàng)新
在北京懷柔科學(xué)城,高能同步輻射光源(HEPS)正在建設(shè)當(dāng)中。該裝置提供了一種更加清晰、準確地觀察微觀世界的手段,在物理、材料、化工、生命等學(xué)科領(lǐng)域有非常廣泛的應(yīng)用。HEPS實驗過程中會產(chǎn)生海量的數(shù)據(jù),需要先進的高性能計算集群和存儲集群來處理、保存,同時還要借助日新月異的AI技術(shù)來輔助分析數(shù)據(jù),因此新的網(wǎng)絡(luò)和算力基礎(chǔ)設(shè)施也必須有能力支撐大規(guī)模AI運算。為此高能物理所與華為合作,探索利用華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric方案來建設(shè)網(wǎng)絡(luò)體系和計算集群。
目前的規(guī)劃是利用CloudEngine系列數(shù)據(jù)中心交換機來構(gòu)建分布式網(wǎng)絡(luò),后續(xù)將結(jié)合華為AI集群方案推進人工智能開放平臺建設(shè),并探索適合高能物理研究發(fā)展方向的新興高性能網(wǎng)絡(luò)和計算架構(gòu)。
自從華為數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric解決方案上市以來,已經(jīng)在多個行業(yè)的21000多個數(shù)據(jù)中心投入了應(yīng)用。中科院高能物理所與華為的多次合作,讓CloudFabric得以在全球頂尖科研機構(gòu)中大顯身手,也為中國基礎(chǔ)科學(xué)研究的數(shù)字化、智能化升級探索出了一條前進之路。高能物理所計算中心主任齊法制表示,中科院高能物理所計算中心期待能和華為一道,在高性能計算領(lǐng)域取得更多的成果。
原文標題:轉(zhuǎn)載|當(dāng)高能物理遇上數(shù)字技術(shù):華為超融合以太網(wǎng)絡(luò)賦能科學(xué)探索
文章出處:【微信公眾號:華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
華為
+關(guān)注
關(guān)注
216文章
34547瀏覽量
253162
原文標題:轉(zhuǎn)載|當(dāng)高能物理遇上數(shù)字技術(shù):華為超融合以太網(wǎng)絡(luò)賦能科學(xué)探索
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論