會上,Top500組織發布了半年度全球最快超級計算機排行榜,AMD 驅動的 Frontier 超級計算機以 1.194 Exaflop/s (EFlop/s) 的性能穩居榜首,擊敗了一半的超級計算機。而來自阿貢國家實驗室基于英特爾的 Aurora 超級計算機提交的規模為 585.34 Petaflop/s (PFlop/s)。
阿貢提交的方案僅采用了?Aurora?系統的一半,在 Top500 中排名第二,取代日本的?Fugaku,成為世界上第二快的超級計算機。英特爾還推出了 20 款基于 Sapphire Rapids CPU 的新型超級計算機進入榜單,但 AMD 的 EPYC(霄龍)繼續占據 Top500 的位置,目前為榜單上的 140 個系統提供支持,同比增長 39%。
英特爾和阿貢國家實驗室目前仍在努力讓 Arora 在 2024 年全面上線。Aurora 提交代表了 10,624 個英特爾 CPU 和 31,874 個英特爾 GPU 協同工作,以總共 24.69 兆瓦 (MW) 的功率提供 585.34 PFlop/s。相比之下,AMD 的 Frontier 以 1.194 EFlop/s 的性能奪冠,這是 Aurora 性能的兩倍多,但消耗的能源卻相對較少,為 22.70 MW(是的,完整的 Frontier 超級計算機的功耗還不到 Aurora 系統的一半)。Aurora 在本次提交中并未進入 Green500(最節能的超級計算機名單),但 Frontier 繼續在該名單上排名第八。
然而,Aurora 在完全上線后預計最終將達到 2 EFlop/s 的性能。完成后,Auroroa 將擁有 21,248 個 Xeon Max CPU 和 63,744 個 Max 系列“Ponte Vecchio”GPU,分布在 166 個機架和 10,624 個計算刀片上,使其成為世界上已知最大的 GPU 單一部署。該系統利用 HPE Cray EX(Intel Exascale 計算刀片)并使用 HPE 的 Slingshot-11 網絡互連。
AMD 正在勞倫斯利弗莫爾國家實驗室部署 El Capitan ,預計其速度比 Aurora 更快,性能可達 2 EFlop/s+。因此,英特爾不斷推遲的Aurora 可能永遠不會在 Top500 榜單上占據第一的位置——下一輪 Top500 提交的競賽肯定會在 2024 年 6 月開始。
2018 年。當時,系統設計為使用 Knights Hill 處理器,后來被取消。此后的幾年里,該系統經歷了多次重新設計和重新安排, 新的 Aurora 于 2019 年宣布, 將于 2021 年提供 1 exaflop 的性能。2021 年末的另一次重新安排聲稱該系統在完成后將提供 2 exaflop 的性能,這是現在定于明年進行,英特爾、阿貢和慧與將繼續致力于系統驗證、驗證以及在新系統中擴展工作負載。您可以在此處查看Argonne 今天分享的其他 Aurora 基準測試。
與此同時,部署在Azure云中的微軟新Eagle超級計算機目前已占據排行榜第三位,將日本富岳推至排行榜第四位。Eagle是第一個突破前十的云系統。芬蘭卡亞尼的 LUMI 系統以 379.70 PFlop/s 的性能躋身前五。
英特爾運行 1 萬億參數模型的超算
在 Supercomputing 2023 上,英特爾提供了有關其最新 HPC 和 AI 計劃的大量更新,包括有關第五代 Emerald Rapids 和未來 Granite Rapids Xeon CPU、Guadi 加速器、針對Nvidia H100 GPU 的新Max 系列 GPU 基準測試的新信息,以及公司在Aurora 超級計算機上運行的“genAI”1 萬億參數人工智能模型的工作。
完成后,人們普遍預計 Aurora 將以 2 Exaflop/s (EFlop/s) 的性能奪得世界上最快的超級計算機的桂冠。然而,英特爾尚未透露有關 Aurora 正式提交 Top500 名單的基準測試的詳細信息,該公司表示將把該公告留給能源部和阿貢國家實驗室。如果按照慣例,Top500 組織將在今天晚些時候發布這些備受期待的結果。與此同時,英特爾的更新包含了大量值得仔細研究的新花絮。
滿負荷運行時,英特爾 Aurora 超級計算機將配備 21,248 個配備 HBM2E 的 Sapphire Rapids Xeon Max CPU 和 60,000 個 Xeon Max GPU,使其成為世界上已知的最大 GPU 部署。如前所述,英特爾尚未發布 Top500 提交的基準測試,但該公司確實分享了一些工作負載的性能以及系統運行的部分補充。
英特爾和阿貢國家實驗室在 genAI 項目中測試了 Aurora,這是一個萬億參數 GPT-3 LLM 基礎人工智能模型。由于數據中心 GPU Max“Ponte Vecchio”GPU 上存在大量內存,Aurora 可以運行僅包含 64 個節點的大型模型。Argonne 已在總共 256 個節點上并行運行該模型的四個實例。調整工作負載后,該工作負載最終將擴展到 10,000 個節點。
英特爾還強調了藥物篩選人工智能推理應用程序 ESP-ML 中從 128 個節點到 256 個節點的強勁擴展,但 Argonne 針對競爭對手 GPU 的基準測試更有趣:英特爾聲稱,在使用 PyTorch/FP32 進行 CosmicTagger 訓練時,單個 Max 1550 GPU 比 AMD MI250 加速器提速 56%,比 Nvidia 上一代 A100 GPU 具有 2.3 倍的優勢。結果還表明強大的擴展性,六 GPU Sunspot 測試節點表現出 83% 的性能擴展。結果,Sunspot 節點的性能是使用未知 GPU 的四 GPU AMD 測試系統的兩倍多,是使用更老的 Polaris 的四 GPU 節點性能的五倍。
阿貢國家實驗室還在模擬小鼠大腦的大腦連接組工作負載 (Connectomics ML) 中測試了 512 個 Aurora 節點與 475 個節點的 Polaris 的對比,突顯了其比 Polaris 的 2 倍優勢。
英特爾的數據中心路線圖仍在按計劃進行,第五代 Emerald Rapids 芯片定于 12 月 14 日推出。英特爾公布了旗艦級 64 核 Xeon 8592+ 與其前身 56 核第四代 Xeon 8480+ 的基準測試結果。與往常一樣,使用供應商提供的基準測試(您可以在本文的最后一個專輯中找到測試說明)。
正如您對更高內核數量的期望,8592+ 在 AI 語音識別和 LAMMPS 基準測試中實現了 1.4 倍的增益,同時在 FFMPEG 媒體轉碼工作負載中實現了 1.2 倍的增益。
英特爾還提供了其未來 Granite Rapids Xeon 的性能預測,該處理器將在“Intel 3”節點上生產。這些芯片將添加更多內核、更高頻率、FP16 硬件加速,并支持 12 個內存通道,包括可極大提高內存吞吐量的新型MCR 內存 DIMM 。總而言之,英特爾聲稱 AI 工作負載提高了 2-3 倍,內存吞吐量提高了 2.8 倍,DeepMD+LAMMPS AI 推理工作負載提高了 2.9 倍。
英特爾配備 HBM2E 的 Xeon Max CPU 現已發貨。英特爾將其配備 64GB 封裝?HBM?內存的 56 核 Intel Max 9480 與 AMD 96 核 EPYC 9654 進行了正面交鋒。英特爾為這一系列基準測試選擇的工作負載由以下目標用例組成:內存受限的應用自然會讓 Xeon 芯片受益。總體而言,英特爾聲稱在模擬、能源、材料科學、制造和金融服務工作負載等一系列工作負載中,比 EPYC 競爭者平均有 1.2 倍的優勢。
英特爾分享了有關即將推出的 Gaudi 3 的一些細節,這將標志著該公司將其 Gaudi 和 GPU 系列合并為一個單一產品——Falcon Shores之前的最后一款 Guadi 加速器。5nm Gaudi 3 在 BF16 工作負載方面的性能是 Gaudi 2 的四倍,網絡性能是 Gaudi 2 的兩倍(Gaudi 2 具有 24 個內置 100 GbE RoCE 網卡),HBM 容量是 Gaudi 2 的 1.5 倍(Gaudi 2 具有 96 GB 的 HBM2E)。正如我們在圖中看到的那樣,Gaudi 3 轉向了具有兩個計算集群的基于圖塊的設計,而不是英特爾為 Gaudi 2 使用的單芯片解決方案。英特爾一直在緩慢提供有關其未來 Falcon Shores GPU 的詳細信息。
但英特爾重申,盡管合并了 Habana Gaudi IP 和 Xe GPU IP 的各個方面,但基于圖塊的 Falcon Shores 將通過 OneAPI 編程接口將外觀和功能視為單個 GPU。Falcon Shores 將采用 HBM3 內存和以太網交換,并支持?CXL?編程模型。此外,針對 Gaudi 加速器和 Xeon Max GPU 進行調整的應用程序將與 Falcon Shores 向前兼容,從而為客戶提供兩個截然不同的 GPU 和 Gaudi 系列之間的代碼連續性。
此外,英特爾的數據中心 GPU Max 系列現已向客戶發貨,Supermicro 提供具有 8 個 OAM 規格 GPU 的系統,而戴爾和聯想則提供 4 個 OAM GPU 服務器。GPU Max 系列 1100 PCIe 卡也可從多個供應商處廣泛獲得。
英特爾的基準測試將 OAM 外形尺寸的 Max 1550(600W GPU)與 Nvidia 的 PCIe 外形尺寸 H100(350W 競爭對手)進行比較。因此,這些基準測試并不是比較性能的良好試金石。英特爾表示,基準差異的原因是難以獲得 OAM 外形 H100 GPU。
現在我們正在等待阿貢國家實驗室提交的 Aurora 超級計算機 Top500 提交,看看英特爾能否取代 AMD 驅動的 Frontier,成為世界上最快的超級計算機。預計該更新將于今天晚些時候進行。
編輯:黃飛
?
評論