據TrendForce報告顯示,2021年全球高性能計算(HPC,High Performance Computing)的市場規模約為368億美元,比2020年增長7.1%,預計2022年將會增長7.3%,達到397億美元。增長的主要驅動力來自數據中心、自動駕駛以及智能制造等領域對計算能力需求的提升。
從市場分布來看,美國是HPC最大的市場,約占市場總量的48%,其次是中國和歐洲市場,合計占了35%左右。那么,HPC主要有哪些應用呢?其實,高性能計算一直都是用來解決人類面臨的最大挑戰,比如氣象預測、災害預警、太空探索、基因測序以及智能制造等場景。
精準氣候預測
自從有計算機后,氣象局就是使用最頻繁、用得最好的單位之一。氣象局需要對天氣的變化做出預測,而如果想要有效地模擬區域氣候變化,并做出精準預測的話,就需要一臺比現在大十億倍的超級計算機。
來自 NVIDIA、加州理工學院、伯克利實驗室、普渡大學、密歇根大學和萊斯大學的研究人員開發了一個名為 FourCastNet 的天氣預報 AI 模型。FourCastNet 是一種基于物理信息的深度學習模型,可以預測颶風、大氣河以及極端降水等事件。FourCastNet 以歐洲中期天氣預報中心 (ECMWF) 長達 40 年的再分析數據為基礎,學會了如何預測天氣。
據了解,這是深度學習模型首次在降水預測方面的準確率超過了先進的數值模型,而且將預測速度提高了4到5個數量級,也就是說,傳統的數值模擬需要一年時間才能完成的計算,現在只需要幾分鐘。
大氣河是天空中巨大的水汽輸送帶 ,其輸送的水汽量比亞馬遜河的流量還要多。大氣河一方面為美國西部提供了關鍵的降水來源,但另一方面,這些巨大的強風暴也會導致災難性的洪災和暴雪。
據NVIDIA的CEO黃仁勛介紹,此 GPU 加速的 AI 數字孿生模型 FourCastNet,由自適應傅里葉神經算子提供支持,基于 10 TB 的地球系統數據進行訓練,依托這些數據,以及 NVIDIA Modulus 和 Omniverse,該模型能夠提前一周預測災難性大氣河的精確路線。
更重要的是,在一塊 NVIDIA GPU 的助力下,FourCastNet 只需幾分之一秒即可完成預測。憑借如此快的速度,我們可以生成數千個模擬場景,探索所有可能的結果。與以往相比,人類能夠更加自信地量化災難性洪災的風險。
其實,HPC主要是通過多臺高速互聯的服務器進行并行計算,從而達到提升整體計算能力,對CPU、GPU、存儲和主板等都有較高的要求。FourCastNet之所以能如此精準快速地預測天氣,主要得益于NVIDIA的高性能GPU的支持。不久前,NVIDIA更新了其GPU產品線,推出了其核彈級產品基于新一代Hopper架構超級芯片H100,讓GPU的性能更上一層樓。
性能更強的GPU和CPU是高性能計算的性能保障
據其官網介紹,H100 是一款超大的芯片,采用了 TSMC 4N 工藝,具有 800 億個晶體管,可以實現縱向擴展和橫向擴展。H100 是首款支持 PCIe 5.0 標準的 GPU,也是首款采用 HBM3 標準的 GPU,單個 H100 可支持 40 Tb/s 的 IO 帶寬。從另一個角度來說,20 塊 H100 GPU 便可承托相當于全球互聯網的流量。
H100采用最新的 Hopper架構,相比前一代Ampere架構,H100有更強的性能,并采用的新的Tensor處理格式:FP8;采用風冷和液冷設計,是首個實現性能擴展至700瓦的GPU;在AI方面,Hopper H100 FP8 的 4 PetaFLOPS 性能是 Ampere A100 FP16 的 6 倍,且引入了Transformer 引擎;在云計算方面,多租戶基礎架構能夠直接轉化為收益和服務成本,一塊H100 可劃分為多達 7 個實例,能夠托管7個云租戶;此前,機密計算只能基于 CPU,而Hopper 實現了首個 GPU 機密計算;此外,H100引入了一組名為DPX的新指令集,可加速動態規劃算法。
圖:借助NVLink連接,DGX使8塊H100成為了一個巨型GPU(來源:NVIDIA)
在封裝方面,H100 采用 TSMC CoWoS 2.5D 封裝,搭載了 HBM3 顯存,并與電壓調節集成至 SXM 的超級芯片模組中。8 個 H100 SXM 模組通過主板上的 4 個 NV Switch 芯片相連可構建成更為先進的AI計算基礎架構。比如DGX就是借助NVLink連接,讓8塊H100成為了一個巨型GPU,其包括了6400 億個晶體管、32 PetaFLOPS 的 AI 性能、640 GB HBM3 顯存,以及 24 TB/s 的顯存帶寬。
此外,DGX還可以進一步擴展,借助NVLink Switch,可以連接多達32個DGX,也就是說,DGX只是最小的計算單元,通過 NVLink Switch 系統,可以將其擴展為一個巨大的擁有 32 個節點、256 個 GPU 的 DGX POD,并且 HBM3 顯存高達 20.5 TB,顯存帶寬高達 768 TB/s。
其實,除了GPU產品,NVIDIA在今年還推出了一個新的產品------針對數據中心的Grace CPU 超級芯片,它集成了兩個基于Arm的CPU,有多達144個高性能Arm Neoverse核心,并且支持ARM新一代矢量擴展指令集和1 TB/s的內存子系統,支持最新的PCIe 5.0協議,可實現與GPU之間最高性能連接,同時還能連接NVIDIA ConnectX-7智能網卡以及NVIDIA BlueField-3 DPU。令人驚嘆的是,整個模組(包括內存)的功率僅為 500 瓦。
ISC 2022上,英偉達CPU+GPU的產品組合獲得了認可,美國和歐洲的領先超級計算中心都將率先采用這兩款超級芯片。
美國阿拉莫斯國家實驗室(LANL)的新一代系統Venado將成為美國首個采用NVIDIA Grace CPU技術的系統。Venado是使用HPE Cray EX超級計算機構建而成的異構系統,將同時配備Grace CPU超級芯片和Grace Hopper超級芯片,這一系統建成后的AI性能預計將超過10 Exaflops(Exaflops : 每秒10的18次方,百億億次)。
圖:NVIDIA推出的液冷GPU
另一個率先采用英偉達Grace CPU和 Hopper GPU的系統是瑞士國家計算中心的新系統Alps,該系統基于HPE Cray EX超級計算機構建,這是一個通用系統,向瑞士及其他國家的研究者開放。
英偉達還宣布,源訊、戴爾科技,技嘉科技、慧與、浪潮、聯想和超微宣布計劃部署基于Grace CPU和Grace Hopper超級芯片的服務器。
DPU為HPC提供強大助力
在NVIDIA于2020年提出DPU(Data Processing Unit)數據處理器這一概念后,DPU成了數據中心市場競相追逐的新潮流。DPU成了數據中心里除了CPU和GPU之外的第三大處理單元。通常這些DPU具備高速網絡連接性,其作用說起來很簡單,那就是優化數據中心里數據的移動,而CPU和GPU則專注于計算,從而騰出寶貴的計算資源用于其他價值更高的工作。
在歐洲和美國,HPC 開發者正在利用 NVIDIA BlueField-2 DPU 內的 Arm 核和加速器的強大功能為超級計算機提供強大助力。
美國洛斯阿拉莫斯國家實驗室 (LANL) 正在與 NVIDIA 進行一項為期多年的廣泛合作,這項合作旨在將計算型多物理應用的性能提高 30 倍。
LANL 研究人員預計,使用在 NVIDIA Quantum InfiniBand 網絡上運行的 DPU可顯著提升性能。這將使利用 BlueField 以及NVIDIA DOCA 軟件框架在計算存儲、模式匹配等領域實現技術創新。
德克薩斯高級計算中心 (TACC) 近期也開始在 Dell PowerEdge 服務器中采用 BlueField-2。它將在 InfiniBand 網絡上使用 DPU,使其 Lonestar6 系統成為云原生超級計算的開發平臺。TACC 的 Lonestar6 為德州農工大學、德州理工大學和北德克薩斯大學的眾多 HPC 開發者,以及一些研究中心和教職人員提供服務。
另外,據公開信息顯示,劍橋大學、倫敦和慕尼黑的研究人員也在使用DPU。倫敦大學學院正在探索如何在 BlueField-2 DPU 上為主機系統調度作業。例如,可以使用它的能力在主機處理器之間移動數據,以便在需要時數據已然就位。Dell PowerEdge 服務器內的 BlueField DPU 可為 Cambridge Service for Data Driven Discovery 服務卸載主機 CPU 的安全策略、存儲框架和其他作業,從而更大限度地提高系統性能。在美國,佐治亞理工學院的研究人員正在與桑迪亞國家實驗室合作,利用 BlueField-2 DPU 加速分子動力學研究。一篇論文描述了他們目前的工作成果,結果表明,算法可以加速高達 20%,且不會損失模擬的準確性。
結語
其實,很多地方都在大量使用HPC,比如說互聯大電網在線安全分析。經過百年的發展,電力系統已經成為了世界上最大的人工動態系統,在電網雙碳戰略實施,電力系統快速演進,日益運行于穩定邊界的大電網,安全問題,日益突出。此時,如果想要建立互聯大電網及關鍵設備的“影子系統”,實現快速仿真和分析,完成分鐘級、甚至是秒級在線制定電網安全策略的話,就需要HPC的支持。
還有個性化醫療的智慧醫療、預測我們星球的未來的氣候變遷、了解我們的星球和宇宙的太空探索、預防疾病的基因研究、災害預警的地震數據處理、保證食品安全的智慧農業、具有更好的質量和成本的智能制造等等應用場景都是HPC的用武之地,未來性能更強的HPC,定然能夠給人類生活帶來更多的便利,解決人類目前面臨的很多挑戰。
-
智能電網
+關注
關注
35文章
2949瀏覽量
116512 -
NVIDIA
+關注
關注
14文章
5076瀏覽量
103730 -
gpu
+關注
關注
28文章
4777瀏覽量
129362 -
DPU
+關注
關注
0文章
368瀏覽量
24260 -
人工智能
+關注
關注
1796文章
47683瀏覽量
240313 -
高性能計算
+關注
關注
0文章
83瀏覽量
13441
發布評論請先 登錄
相關推薦
評論