去年11月,Nvidia憑借一款名為Eos的系統突然出現在全球最快超級計算機500強榜單的第9位,引起了一些人的注意。Eos是以每天打開黎明大門的希臘女神命名的,是英偉達的企業級AI訓練系統,該公司現在首次發布了一段視頻向公眾展示它。
Eos本質上是英偉達自己的超級計算機,員工每天都可以用它來進行AI訓練,或者在午休時間玩《孤島危機》。它包括一個由576臺DGX H100服務器組成的集群,由于每臺服務器都有8個H100 GPU,因此總共有4608臺H100與其Quantum-2 InfiniBand技術連接在一起。這基本上是英偉達展示其DGX SuperPod設計的極端版本,是一種企業規模的AI訓練,它希望將其出售給擁有巨額預算和大量AI模型的公司。
英偉達將Eos描述為一個可以為“AI工廠”提供動力的系統,因為它是一個非常大規模的SuperPod DGX H100系統。該公司表示,正是這一點讓它能夠在AI方面有所突破,并展示了英偉達最新技術在放大到超大規模時的強大功能。
DGX H100服務器使用英特爾Xeon Platinum8480C CPU,具有56核和112線程。與4608個H100 GPU相結合,它提供了121 PetaFLOPS的Linpack性能,僅足以在Top500中排名第9,但這更像是一個通用指標。如果純粹以AI訓練來衡量,它很容易成為目前世界上最快的系統之一。
當該系統去年首次亮相時,英偉達展示了比之前基于Ampere的A100系統的巨大改進。例如,在一個模擬訓練GPT-3模型的測試中,Eos只花了4分鐘,而基于A100的系統花了11分鐘。然而,之前的系統只使用512個GPU,而Eos更大、使用更強大的GPU,所以預期會有顯著的提升。
然而,我們在研究英偉達的最新聲明時發現了一個差異。早在2023年11月,英偉達就表示Eos配備了10,752個H100GPU。在最新的公告中,這個數字已經減少到4608,所以我們不確定發生了什么變化,或者Eos是否已經縮小了一些。
我們通過電子郵件向英偉達尋求澄清,一位發言人回應說:“為了提供一些清晰的信息,用于MLPerf LLM訓練的超級計算機具有10,752個H100 GPU,是使用相同DGX SuperPOD架構構建的不同系統。在2023年TOP500榜單上排名第九的系統是現在博客和視頻中介紹的4608 GPU Eos系統。”
當問及為什么這兩個系統都被命名為Eos時,發言人回答說:“我們在Eos一代中部署了多個系統,它們都基于相同的NVIDIA DGX SuperPOD架構。”
審核編輯:黃飛
-
超級計算機
+關注
關注
2文章
464瀏覽量
42037 -
AI
+關注
關注
87文章
31711瀏覽量
270499 -
英偉達
+關注
關注
22文章
3854瀏覽量
92073
原文標題:揭秘:英偉達用于AI訓練的Eos超級計算機!
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論