電子發(fā)燒友網(wǎng)報道(文/周凱揚)作為在TOP500、GREEN500(單機柜)和HPL-AI三榜排名第一的超算系統(tǒng),F(xiàn)rontier被列為第一完全不是浪得虛名。作為首個公開突破E級的超算,F(xiàn)rontier的通用算力已經(jīng)達到了1.1 exaflops,能效比為52.23 gigaflops/watt,AI算力更是達到了可怕的6.88 exaflops。但就是這樣一臺冠絕群雄的超算,也在部署上遇到了供應(yīng)問題。
實現(xiàn)Frontier強大性能靠的并非只是單個強勁的硬件,還有龐大的系統(tǒng)規(guī)模。整個Frontier超算系統(tǒng)用到了74個慧與科技的Cray EX全液冷超算機柜和9408塊AMD EYPC Trento CPU,Trento 是AMD Milan CPU的優(yōu)化版,同樣是64核128線程的處理器,但在時鐘速度和能效上有所加強。至于為何沒用上引入3D垂直緩存技術(shù)的Milanx-X芯片,那是因為這塊處理器今年3月份才正式出貨,如果拿它來打造Frontier的話,這搶發(fā)首臺E級超算的機會很可能就失之交臂了。

Frontier主體部分的布局 / 美國橡樹嶺國家實驗室
除了CPU以外,F(xiàn)rontier還集成了37632塊AMD MI250X GPU,37632塊慧與的Cassini NIC,9.2PB的內(nèi)存(4.6 PB HBM2e+4.6PB DDR4),32PB節(jié)點本地存儲和716PB的中心存儲。整個系統(tǒng)共由9408個節(jié)點組成,每臺機柜包含128個節(jié)點,重量接近400公斤,龐大的系統(tǒng)也將功耗推至恐怖的29MW。除了MW級的液冷引擎外,F(xiàn)rontier還在外部部署了EVAPCO的冷卻塔,確保Frontier能夠保證峰值性能。
供應(yīng)鏈噩夢
Frontier的部署計劃正式始于2018年,為了給Frontier騰出空間,原本屬于Titan超算的數(shù)據(jù)中心被拆除,改建為Frontier的數(shù)據(jù)中心,泰坦也于2019年正式退役。同年,慧與的Cray系統(tǒng)成功拿下了美國能源部的訂單,成了Frontier的基礎(chǔ)構(gòu)成部分。
但事實上,原本Frontier應(yīng)該在2021年就部署完畢的,然而由于供應(yīng)鏈上各個方面的影響,直到2021年秋季,才只完成了系統(tǒng)的交付,直到今年五月才完成最終的安裝、優(yōu)化和一次成功的E級HPL測試。當然了,F(xiàn)rontier最后能夠爭下首發(fā)E級超算,還是因為英特爾的7nm工藝也就是如今的Intel 4遇到了問題,被反復(fù)推遲,這樣才讓原本打算首發(fā)E級的Aurora超算,錯失了這個殊榮。
但對于Frontier超級計算機這種大型集成系統(tǒng)來說,全球供應(yīng)鏈各個環(huán)節(jié)上的問題基本也都撞上了。首先遇上問題的就是Frontier的兩大直接供應(yīng)商,慧與和AMD。2020年末,F(xiàn)rontier的零部件短缺到了最嚴重的地步。整個Frontier系統(tǒng)要用到685個不同料號的零部件,其中167個因為缺貨問題而受到影響,總數(shù)達到了200萬個。
慧與表示,當它們開始下單用于機柜和Slingshot互聯(lián)系統(tǒng)的部件時,不少供應(yīng)商都將訂單的交期加上了6個月甚至是一年,這時連離打造好第一個機柜都還缺12種零部件。AMD就更加不用說了,2020年到2021年是全球GPU缺貨最嚴重的一段時間,雖然大部分都認為受影響的只有被挖礦潮波及的消費級GPU,但對于AMD來說,他們在GPU加速卡零部件上的供應(yīng)也遇到了問題,就拿MI250這張卡來說,且不說GPU芯片的產(chǎn)能供應(yīng)是否充足,當時打造這一張GPU加速卡就有15種零部件需要補全。
波及的不只是CPU和GPU
要知道這些短缺問題影響的不只是CPU和GPU芯片,還有不少零部件當時都處于全球缺貨最糟糕的狀態(tài),比如穩(wěn)壓器、晶振和功率模塊。為了確保能在2021年交付,慧與不得不每周甚至每天打給次級供應(yīng)商,詢問交期的問題?;叟c和AMD還組了個15人的小團隊,他們唯一的工作就是尋找哪有Frontier所需的零部件,或是可以替代的部件,比如去和經(jīng)銷商協(xié)調(diào),詢問分銷商的庫存,或是找其他同樣由于芯片短缺而無法出貨的公司,詢問他們是否愿意出手現(xiàn)在已有的零部件。
正是因為在這樣的努力下,F(xiàn)rontier終于在去年7月將缺失的167種零部件減少至了1種,而這依然缺失的一種,就是用于打造慧與Slingshot 11互聯(lián)交換機刀片的晶振,它們已有的晶振只能滿足63臺機柜的需求,還差8000多個晶振才能完成剩下11臺機柜的交付。而這時候恰好又是東南亞地區(qū)疫情肆虐,愛普生等廠商的晶振工廠停工的時期,而這類智能NIC又需要超低噪聲的高性能晶振。接著他們又花了3周時間才找齊這些晶振,這才在10月完成了最后一個機柜的交付。

凌晨滿功耗運轉(zhuǎn)的Frontier / 美國橡樹嶺國家實驗室
但即便完成了交付,相關(guān)的工作并沒有結(jié)束,超算并不像大家平日里動手組裝的電腦一樣,一旦安裝完畢就能跑出應(yīng)有的性能。恰恰相反,超算系統(tǒng)所有部件到位后,還要經(jīng)歷密集的測試、優(yōu)化和維護工作,于是Frontier的研究人員白天就在更新軟件優(yōu)化系統(tǒng),晚上就讓Frontier跑HPL之類的性能測試,最終趕在TOP500 6月榜單結(jié)束測試結(jié)果收集前,提交了一次成功的E級跑分。
結(jié)語
其實完成這么緊湊的部署安排對Frontier并不容易,固然慧與和AMD有應(yīng)對供應(yīng)鏈管理方面的經(jīng)驗,但與此同時,和Frontier幾乎同樣配置只是規(guī)模不同的歐洲超算LUMI也面臨著缺貨的困境,所以這兩家公司幾乎是承擔著雙線交付任務(wù)。但好在去年下半年供應(yīng)開始緩解之后,兩臺超算的任務(wù)也都最終完成了。
此外,這兩年經(jīng)歷的供應(yīng)鏈噩夢想必也影響到了其他的超算部署,就拿國內(nèi)的兩臺E級超算來說,目前都只是單機柜的測試系統(tǒng)的消息時有傳出,并沒有正式公開完整系統(tǒng)的性能參數(shù),或多或少也是被供應(yīng)問題拖慢了進度,否則這個風頭不可能不出來搶的。畢竟在硬件迭代如此迅速的背景下,像天河二號過去那樣連續(xù)穩(wěn)坐榜首數(shù)年的情況已經(jīng)很難復(fù)現(xiàn)了,但首個E級超算的稱號可是無論多少年后都搶不走的。
狂堆硬件的Frontier
實現(xiàn)Frontier強大性能靠的并非只是單個強勁的硬件,還有龐大的系統(tǒng)規(guī)模。整個Frontier超算系統(tǒng)用到了74個慧與科技的Cray EX全液冷超算機柜和9408塊AMD EYPC Trento CPU,Trento 是AMD Milan CPU的優(yōu)化版,同樣是64核128線程的處理器,但在時鐘速度和能效上有所加強。至于為何沒用上引入3D垂直緩存技術(shù)的Milanx-X芯片,那是因為這塊處理器今年3月份才正式出貨,如果拿它來打造Frontier的話,這搶發(fā)首臺E級超算的機會很可能就失之交臂了。

Frontier主體部分的布局 / 美國橡樹嶺國家實驗室
除了CPU以外,F(xiàn)rontier還集成了37632塊AMD MI250X GPU,37632塊慧與的Cassini NIC,9.2PB的內(nèi)存(4.6 PB HBM2e+4.6PB DDR4),32PB節(jié)點本地存儲和716PB的中心存儲。整個系統(tǒng)共由9408個節(jié)點組成,每臺機柜包含128個節(jié)點,重量接近400公斤,龐大的系統(tǒng)也將功耗推至恐怖的29MW。除了MW級的液冷引擎外,F(xiàn)rontier還在外部部署了EVAPCO的冷卻塔,確保Frontier能夠保證峰值性能。
供應(yīng)鏈噩夢
Frontier的部署計劃正式始于2018年,為了給Frontier騰出空間,原本屬于Titan超算的數(shù)據(jù)中心被拆除,改建為Frontier的數(shù)據(jù)中心,泰坦也于2019年正式退役。同年,慧與的Cray系統(tǒng)成功拿下了美國能源部的訂單,成了Frontier的基礎(chǔ)構(gòu)成部分。
但事實上,原本Frontier應(yīng)該在2021年就部署完畢的,然而由于供應(yīng)鏈上各個方面的影響,直到2021年秋季,才只完成了系統(tǒng)的交付,直到今年五月才完成最終的安裝、優(yōu)化和一次成功的E級HPL測試。當然了,F(xiàn)rontier最后能夠爭下首發(fā)E級超算,還是因為英特爾的7nm工藝也就是如今的Intel 4遇到了問題,被反復(fù)推遲,這樣才讓原本打算首發(fā)E級的Aurora超算,錯失了這個殊榮。
但對于Frontier超級計算機這種大型集成系統(tǒng)來說,全球供應(yīng)鏈各個環(huán)節(jié)上的問題基本也都撞上了。首先遇上問題的就是Frontier的兩大直接供應(yīng)商,慧與和AMD。2020年末,F(xiàn)rontier的零部件短缺到了最嚴重的地步。整個Frontier系統(tǒng)要用到685個不同料號的零部件,其中167個因為缺貨問題而受到影響,總數(shù)達到了200萬個。
慧與表示,當它們開始下單用于機柜和Slingshot互聯(lián)系統(tǒng)的部件時,不少供應(yīng)商都將訂單的交期加上了6個月甚至是一年,這時連離打造好第一個機柜都還缺12種零部件。AMD就更加不用說了,2020年到2021年是全球GPU缺貨最嚴重的一段時間,雖然大部分都認為受影響的只有被挖礦潮波及的消費級GPU,但對于AMD來說,他們在GPU加速卡零部件上的供應(yīng)也遇到了問題,就拿MI250這張卡來說,且不說GPU芯片的產(chǎn)能供應(yīng)是否充足,當時打造這一張GPU加速卡就有15種零部件需要補全。
波及的不只是CPU和GPU
要知道這些短缺問題影響的不只是CPU和GPU芯片,還有不少零部件當時都處于全球缺貨最糟糕的狀態(tài),比如穩(wěn)壓器、晶振和功率模塊。為了確保能在2021年交付,慧與不得不每周甚至每天打給次級供應(yīng)商,詢問交期的問題?;叟c和AMD還組了個15人的小團隊,他們唯一的工作就是尋找哪有Frontier所需的零部件,或是可以替代的部件,比如去和經(jīng)銷商協(xié)調(diào),詢問分銷商的庫存,或是找其他同樣由于芯片短缺而無法出貨的公司,詢問他們是否愿意出手現(xiàn)在已有的零部件。
正是因為在這樣的努力下,F(xiàn)rontier終于在去年7月將缺失的167種零部件減少至了1種,而這依然缺失的一種,就是用于打造慧與Slingshot 11互聯(lián)交換機刀片的晶振,它們已有的晶振只能滿足63臺機柜的需求,還差8000多個晶振才能完成剩下11臺機柜的交付。而這時候恰好又是東南亞地區(qū)疫情肆虐,愛普生等廠商的晶振工廠停工的時期,而這類智能NIC又需要超低噪聲的高性能晶振。接著他們又花了3周時間才找齊這些晶振,這才在10月完成了最后一個機柜的交付。

凌晨滿功耗運轉(zhuǎn)的Frontier / 美國橡樹嶺國家實驗室
但即便完成了交付,相關(guān)的工作并沒有結(jié)束,超算并不像大家平日里動手組裝的電腦一樣,一旦安裝完畢就能跑出應(yīng)有的性能。恰恰相反,超算系統(tǒng)所有部件到位后,還要經(jīng)歷密集的測試、優(yōu)化和維護工作,于是Frontier的研究人員白天就在更新軟件優(yōu)化系統(tǒng),晚上就讓Frontier跑HPL之類的性能測試,最終趕在TOP500 6月榜單結(jié)束測試結(jié)果收集前,提交了一次成功的E級跑分。
結(jié)語
其實完成這么緊湊的部署安排對Frontier并不容易,固然慧與和AMD有應(yīng)對供應(yīng)鏈管理方面的經(jīng)驗,但與此同時,和Frontier幾乎同樣配置只是規(guī)模不同的歐洲超算LUMI也面臨著缺貨的困境,所以這兩家公司幾乎是承擔著雙線交付任務(wù)。但好在去年下半年供應(yīng)開始緩解之后,兩臺超算的任務(wù)也都最終完成了。
此外,這兩年經(jīng)歷的供應(yīng)鏈噩夢想必也影響到了其他的超算部署,就拿國內(nèi)的兩臺E級超算來說,目前都只是單機柜的測試系統(tǒng)的消息時有傳出,并沒有正式公開完整系統(tǒng)的性能參數(shù),或多或少也是被供應(yīng)問題拖慢了進度,否則這個風頭不可能不出來搶的。畢竟在硬件迭代如此迅速的背景下,像天河二號過去那樣連續(xù)穩(wěn)坐榜首數(shù)年的情況已經(jīng)很難復(fù)現(xiàn)了,但首個E級超算的稱號可是無論多少年后都搶不走的。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
供應(yīng)鏈
+關(guān)注
關(guān)注
3文章
1709瀏覽量
39874 -
超算
+關(guān)注
關(guān)注
1文章
117瀏覽量
9332
發(fā)布評論請先 登錄
相關(guān)推薦
熱點推薦
安博電子:全鏈路品控體系賦能供應(yīng)鏈安全
在全球電子產(chǎn)業(yè)面臨供應(yīng)鏈波動、技術(shù)迭代和市場需求變化等多重挑戰(zhàn)的背景下,安博電子始終秉持“讓合作伙伴贏得更多一點”的核心理念,致力于打造穩(wěn)健、高效、可持續(xù)的全球供應(yīng)鏈體系。依托覆蓋供應(yīng)商管理、品質(zhì)

安富利:供應(yīng)鏈強則企業(yè)強
外圍局勢風云變幻的當下,供應(yīng)鏈的安全與穩(wěn)定受到前所未有的重視。對于注重持續(xù)創(chuàng)新的硬科技企業(yè)而言,情況更是如此。面對復(fù)雜多變的市場環(huán)境,硬科技企業(yè)能夠破浪前行、韌性增長的“武功秘籍”之一,正是供應(yīng)鏈
發(fā)表于 03-25 18:09
?226次閱讀

一文探索物流CEO大屏及供應(yīng)鏈大屏是如何做好雙11保障
背景概括: 供應(yīng)鏈大屏做為物流的核心報表,為管理者提供大促決策時的依據(jù)。頁面指標超過170+,依賴接口30+,復(fù)雜度較高,數(shù)據(jù)鏈路較長,同時穩(wěn)定性要求高。 本文將分享供應(yīng)鏈大屏是如何保障雙11

天馬微電子榮獲全球汽車供應(yīng)鏈生態(tài)伙伴獎
近日,由《中國汽車報》社主辦的“2025汽車供應(yīng)鏈新生態(tài)大會”在北京召開。天馬微電子憑借在車載顯示領(lǐng)域的全球布局、技術(shù)領(lǐng)先和對全球汽車供應(yīng)鏈的協(xié)同創(chuàng)新等多方面的卓越表現(xiàn),榮獲“全球汽車供應(yīng)鏈生態(tài)伙伴獎”。
AI大模型在工業(yè)領(lǐng)域的供應(yīng)鏈管理方向的應(yīng)用
AI 大模型在工業(yè)領(lǐng)域的供應(yīng)鏈管理中具有精準預(yù)測、個性化需求預(yù)測、動態(tài)實時調(diào)整和供應(yīng)商管理風險評估與預(yù)警等功能,幫助企業(yè)提高供應(yīng)鏈效率和應(yīng)對市場變化。

RFID技術(shù)在PC組件供應(yīng)鏈管理中的應(yīng)用
岳冉基于RFID技術(shù)的PC組件供應(yīng)鏈管理解決方案,該方案通過為PC組件粘貼RFID標簽,并利用RFID讀寫器進行信息讀取和傳輸,實現(xiàn)了對PC組件從生產(chǎn)、倉儲、物流到銷售等供應(yīng)鏈各個環(huán)節(jié)的實時監(jiān)控和管理。

天合光能入選國家級數(shù)字化供應(yīng)鏈案例
近日,工業(yè)和信息化部公示“2024年實數(shù)融合典型案例名單”,天合光能以“基于產(chǎn)銷協(xié)同一體化的供應(yīng)鏈精細數(shù)字化管控”成功入選國家級數(shù)字化供應(yīng)鏈案例,這是繼國家綠色供應(yīng)鏈、全國供應(yīng)鏈創(chuàng)新與
同星智能即將亮相第六屆汽車新供應(yīng)鏈大會
同星一周展會TOSUN.EXHIBIT第六屆汽車新供應(yīng)鏈大會第六屆汽車新供應(yīng)鏈大會將于2025年1月14-15日在上海舉辦,本屆汽車新供應(yīng)鏈大會以“共建生態(tài),協(xié)同出?!睘楹诵淖h題,既是對當前汽車整車

利用Minitab應(yīng)對供應(yīng)鏈中斷問題
供應(yīng)鏈中斷是不可避免的,但積極的措施和數(shù)據(jù)驅(qū)動的戰(zhàn)略可以減輕其影響。Minitab全面的數(shù)據(jù)分析和問題解決工具使組織能夠分析、優(yōu)化和調(diào)整其供應(yīng)鏈,以應(yīng)對不可預(yù)見的挑戰(zhàn),確保面對中斷時的彈性和連續(xù)性。
保隆科技榮獲東風日產(chǎn)最佳供應(yīng)鏈合作伙伴
近日,東風日產(chǎn)在廣州舉行2024年供應(yīng)鏈合作伙伴大會,保隆科技張祖秋董事長應(yīng)邀出席并在大會發(fā)言,保隆科技被授予“最佳供應(yīng)鏈合作伙伴”,這是東風日產(chǎn)對保隆科技長期以來良好合作、提供優(yōu)秀產(chǎn)品和優(yōu)質(zhì)服務(wù)的高度肯定。
智能制造裝備行業(yè)的供應(yīng)鏈特點分析
智能制造裝備行業(yè)供應(yīng)鏈涉及多個環(huán)節(jié),包括原材料采購、生產(chǎn)制造、物流配送和售后服務(wù)等,其特點包括復(fù)雜性與多樣性、全球化與分散性、技術(shù)密集型和快速變化性。供應(yīng)鏈面臨的挑戰(zhàn)包括數(shù)據(jù)孤島、信息不對稱、供應(yīng)鏈中斷風險和成本控制難度大等。

數(shù)字孿生在供應(yīng)鏈優(yōu)化中的作用
在當今快速變化的商業(yè)環(huán)境中,供應(yīng)鏈管理的復(fù)雜性和挑戰(zhàn)性日益增加。企業(yè)需要不斷創(chuàng)新和優(yōu)化其供應(yīng)鏈流程,以提高效率、降低成本并增強競爭力。數(shù)字孿生技術(shù)的出現(xiàn)為供應(yīng)鏈管理提供了一種全新的視角和工具,它通過
壹沓科技完成B+輪融資,加速大供應(yīng)鏈超自動化進程
近日,全球領(lǐng)先的數(shù)字員工機器人公司——壹沓科技宣布成功完成B+輪融資,此輪融資由鼎暉VGC(創(chuàng)新與成長基金)領(lǐng)投,新尚資本跟投,彰顯了資本市場對壹沓科技在大供應(yīng)鏈領(lǐng)域超自動化解決方案的高度認可與信心。
供應(yīng)鏈場景使用ClickHouse最佳實踐
關(guān)于ClickHouse的基礎(chǔ)概念這里就不做太多的贅述了,ClickHouse官網(wǎng)都有很詳細說明。結(jié)合供應(yīng)鏈數(shù)字化團隊在使用ClickHouse時總結(jié)出的一些注意事項,尤其在命名方面要求研發(fā)嚴格遵守

供應(yīng)鏈大屏設(shè)計實踐
概述 在物流系統(tǒng)相關(guān)的大屏中,供應(yīng)鏈大屏復(fù)雜度較高,數(shù)據(jù)鏈路較長,穩(wěn)定性要求較高,當前大屏已經(jīng)經(jīng)過2年時間的打磨,整體表現(xiàn)已經(jīng)相對比較成熟穩(wěn)定。 本文描述了物流供應(yīng)鏈業(yè)務(wù)較復(fù)雜的業(yè)務(wù)場景下,結(jié)合了

評論