在數字經濟時代,算力資源已經成為新的“能源”,為人工智能、云計算等等科技界前沿領域持續供能。5月9日,數云原力大會2024在神州數碼國際創新中心(IIC)盛大召開。在開幕式上,神州數碼副總裁、神州數碼信創控股董事長韓智敏重磅發布新一代神州鯤泰綠色異構智算中心全液冷整機柜新品,在異構智算的時代,通過軟硬件協同創新,為客戶提供性能強、能效高、節能環保的新選擇。
異構智算時代,企業智算落地如何兼顧效率與成本?
我們迎來了一個全新的異構智算時代。在當前的算力環境下,多云異構智算基礎設施已成為必然。異構算力資源如何得到充分利用?在混合云部署下,如何應對算力構建選型、部署、運維復雜度和難度的挑戰?這個獨特的“智算攢機時代”,正在呼喚全新的智算架構。
與此同時,隨著大模型和生成式AI加速落地,大量的模型訓練和推理任務,在喚醒底層算力海量需求的同時,也對資源利用率提出了巨大挑戰。有關資料顯示,OpenAI訓練GPT-4的MFU(Model Flops Utility)在32%到36%之間。而目前行業MFU利用率的平均水平僅為30%~40%,智算資源利用率尚有很大的提升空間,利用率提升也將為企業節省大量成本。
能耗是另一個大的挑戰,算力本身會成為主要的能耗和二氧化碳排放來源。明顯可預見的就是,GPU的能耗本身是CPU能耗的2倍以上。根據MIT研究表明,未來人類需要為人工智能相關應用新增10%的能源需求。也就是說,“煉”大模型會比煉鋼還費電。對于一個企業來說,每新增一個用于智算的機架,其運行一年約等于增加15w度電,約等于100個家庭的年用電量,約等于1.5噸二氧化碳排放,能耗和碳排放十分巨大。
盡精微,神州鯤泰異“雙管齊下”提升算力資源利用率
神州鯤泰推出HISO異構智算調度運營平臺、HICA異構智算加速平臺,有效解決智算集群間以及集群內面臨的復雜異構兼容問題,并顯著提升算力資源的利用率。
HISO異構智算調度運營平臺,基于云原生技術,整合GPU硬分片和虛擬分片技術,能實現GPU資源虛擬化或池化,完成跨集群之間的算力調度。根據用戶業務需求,該平臺可以在整個異構智算資源池中匹配優選算力組合,提升GPU服務器集群的資源使用率。HISO異構智算調度運營平臺擁有將國內外GPU資源混合組網、混搭調度,算力精細隔離等關鍵能力,可以“像管理一臺GPU主機一樣,管理和調度多個集群的GPU資源”。通過GPU容器直通、IaaS卸載,該平臺加速了模型加載時間,相比傳統方式,模型加載速度提升3倍。同時還能實時收集智算中心全棧、全鏈路指標,發現和定位軟硬件故障,實現算力可觀測性。
HICA異構智算加速平臺則著重解決集群內部的算力調度優化問題,通過屏蔽集群內底層算力生態差異,突破關鍵計算效率瓶頸,有效提升算力利用率與可用性。HICA異構智算加速平臺通過自研的服務層、中間適配層以及調度編排算法,采用數據并行、模型并行等方式,把并行計算任務進行有效分解,匹配相應的軟件棧和算力資源來承接。當GPU資源變化,該平臺可以實時動態調度計算子任務并調整模型拓撲和架構,以充分聚合各種算力資源。
HICA異構智算加速平臺具有一云多芯特性,支持國內外主流AI芯片,可實現訓練推理任務在不同品牌、不同型號芯片組成的智算集群中的混合訓練推理,預計可降低20%閑置算力。
此外,根據不同模型、不同算子之間集合通信流特點,該平臺還可自適應選擇最合適的通信參數,達到更高的通信效率。同時,在不同模型運行過程中,充分考慮存算比要求的不同,HICA異構智算加速平臺還可從宏觀到微觀多個尺度選擇最合適的存算比資源加載模型,加速吞吐,降低時延,使MFU提升10~20%,MBU提升5%。
硅光+液冷,一體化交付冷卻跳動的電表
隨著生成式AI落地對算力需求的暴漲、帶寬的狂飆提速,智算中心節點的高能耗痛點日益加劇。而以一個萬卡智算中心為例,采用200G接口互聯,需要約80000個光模塊,其互聯所需的能耗則占到總體的5%。節點間互聯的高能耗問題也日益凸顯。
針對節點間互聯的能耗問題,神州鯤泰采用硅光技術,通過單光源多調制器,降低調制器電壓,同時采用分布式反饋激光器等一系列技術,有效降低25%的互聯能耗。
同時,針對節點的能耗問題,神州鯤泰推出液冷服務器,通過一體化冷板,智能流量調節來提升系統的散熱效率,采用負壓管線系統,漏液近端探測技術,并聯動服務管控系統提升冷卻系統的可靠性,有效降低30%的節點能耗。
而為了幫助客戶規避接口多、接頭復雜、現場實施部署難度大、實施周期長等難題,數云原力大會2024開幕式上,神州鯤泰正式發布“KunTai Pod2000全液冷整機柜”方案產品。采用一體化交付方式,有效降低部署和運維的復雜度的同時,整機柜還能實現100%全液冷及高性價比液冷方案,助力數據中心PUE邁向1.15,并且憑借60KW+的最大單柜功率,實現1.5倍于行業平均水平的能效比,在為客戶提供強打算力的同時有效控制能耗成本。
隨著2022年底ChatGPT的問世,AI正成為推動創新的核心引擎。現在的IT基礎架構已經到了一個由模型和算力相互促進,螺旋上升的新發展階段。面對新的發展機遇,神州鯤泰從智算中心系統整體性能提升出發,提出了走新智算架構之路的策略,建立了高通量、高并行、高效率,低能耗的多樣化智算架構。新的智算架構能夠快部署、低投入地突破算力瓶頸,構建出性能更優、成本更低、能效更高的智算中心。未來每個智算中心,每臺計算機都將是這樣一種新的智算架構,從而實現算力的普惠。
審核編輯 黃宇
-
硅光
+關注
關注
0文章
37瀏覽量
8992 -
AI
+關注
關注
87文章
31534瀏覽量
270342 -
架構
+關注
關注
1文章
519瀏覽量
25554 -
算力
+關注
關注
1文章
1016瀏覽量
14959
發布評論請先 登錄
相關推薦
評論