在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Frontier為何在部署上遇到供應(yīng)問題

lPCU_elecfans ? 來源:電子發(fā)燒友網(wǎng) ? 作者:電子發(fā)燒友網(wǎng) ? 2022-07-27 10:17 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))作為在TOP500、GREEN500(單機(jī)柜)和HPL-AI三榜排名第一的超算系統(tǒng),F(xiàn)rontier被列為第一完全不是浪得虛名。作為首個(gè)公開突破E級的超算,F(xiàn)rontier的通用算力已經(jīng)達(dá)到了1.1 exaflops,能效比為52.23 gigaflops/watt,AI算力更是達(dá)到了可怕的6.88 exaflops。但就是這樣一臺冠絕群雄的超算,也在部署上遇到了供應(yīng)問題。

狂堆硬件的Frontier

實(shí)現(xiàn)Frontier強(qiáng)大性能靠的并非只是單個(gè)強(qiáng)勁的硬件,還有龐大的系統(tǒng)規(guī)模。整個(gè)Frontier超算系統(tǒng)用到了74個(gè)慧與科技的Cray EX全液冷超算機(jī)柜和9408塊AMD EYPC Trento CPU,Trento 是AMD Milan CPU的優(yōu)化版,同樣是64核128線程的處理器,但在時(shí)鐘速度和能效上有所加強(qiáng)。至于為何沒用上引入3D垂直緩存技術(shù)的Milanx-X芯片,那是因?yàn)檫@塊處理器今年3月份才正式出貨,如果拿它來打造Frontier的話,這搶發(fā)首臺E級超算的機(jī)會很可能就失之交臂了。

除了CPU以外,F(xiàn)rontier還集成了37632塊AMD MI250X GPU,37632塊慧與的Cassini NIC,9.2PB的內(nèi)存(4.6 PB HBM2e+4.6PB DDR4),32PB節(jié)點(diǎn)本地存儲和716PB的中心存儲。整個(gè)系統(tǒng)共由9408個(gè)節(jié)點(diǎn)組成,每臺機(jī)柜包含128個(gè)節(jié)點(diǎn),重量接近400公斤,龐大的系統(tǒng)也將功耗推至恐怖的29MW。除了MW級的液冷引擎外,F(xiàn)rontier還在外部部署了EVAPCO的冷卻塔,確保Frontier能夠保證峰值性能。

供應(yīng)鏈噩夢Frontier的部署計(jì)劃正式始于2018年,為了給Frontier騰出空間,原本屬于Titan超算的數(shù)據(jù)中心被拆除,改建為Frontier的數(shù)據(jù)中心,泰坦也于2019年正式退役。同年,慧與的Cray系統(tǒng)成功拿下了美國能源部的訂單,成了Frontier的基礎(chǔ)構(gòu)成部分。

但事實(shí)上,原本Frontier應(yīng)該在2021年就部署完畢的,然而由于供應(yīng)鏈上各個(gè)方面的影響,直到2021年秋季,才只完成了系統(tǒng)的交付,直到今年五月才完成最終的安裝、優(yōu)化和一次成功的E級HPL測試。當(dāng)然了,F(xiàn)rontier最后能夠爭下首發(fā)E級超算,還是因?yàn)?a href="http://m.xsypw.cn/tags/英特爾/" target="_blank">英特爾的7nm工藝也就是如今的Intel 4遇到了問題,被反復(fù)推遲,這樣才讓原本打算首發(fā)E級的Aurora超算,錯(cuò)失了這個(gè)殊榮。

但對于Frontier超級計(jì)算機(jī)這種大型集成系統(tǒng)來說,全球供應(yīng)鏈各個(gè)環(huán)節(jié)上的問題基本也都撞上了。首先遇上問題的就是Frontier的兩大直接供應(yīng)商,慧與和AMD。2020年末,F(xiàn)rontier的零部件短缺到了最嚴(yán)重的地步。整個(gè)Frontier系統(tǒng)要用到685個(gè)不同料號的零部件,其中167個(gè)因?yàn)槿必泦栴}而受到影響,總數(shù)達(dá)到了200萬個(gè)。

慧與表示,當(dāng)它們開始下單用于機(jī)柜和Slingshot互聯(lián)系統(tǒng)的部件時(shí),不少供應(yīng)商都將訂單的交期加上了6個(gè)月甚至是一年,這時(shí)連離打造好第一個(gè)機(jī)柜都還缺12種零部件。AMD就更加不用說了,2020年到2021年是全球GPU缺貨最嚴(yán)重的一段時(shí)間,雖然大部分都認(rèn)為受影響的只有被挖礦潮波及的消費(fèi)級GPU,但對于AMD來說,他們在GPU加速卡零部件上的供應(yīng)也遇到了問題,就拿MI250這張卡來說,且不說GPU芯片的產(chǎn)能供應(yīng)是否充足,當(dāng)時(shí)打造這一張GPU加速卡就有15種零部件需要補(bǔ)全。

波及的不只是CPU和GPU要知道這些短缺問題影響的不只是CPU和GPU芯片,還有不少零部件當(dāng)時(shí)都處于全球缺貨最糟糕的狀態(tài),比如穩(wěn)壓器、晶振和功率模塊。為了確保能在2021年交付,慧與不得不每周甚至每天打給次級供應(yīng)商,詢問交期的問題。慧與和AMD還組了個(gè)15人的小團(tuán)隊(duì),他們唯一的工作就是尋找哪有Frontier所需的零部件,或是可以替代的部件,比如去和經(jīng)銷商協(xié)調(diào),詢問分銷商的庫存,或是找其他同樣由于芯片短缺而無法出貨的公司,詢問他們是否愿意出手現(xiàn)在已有的零部件。

正是因?yàn)樵谶@樣的努力下,F(xiàn)rontier終于在去年7月將缺失的167種零部件減少至了1種,而這依然缺失的一種,就是用于打造慧與Slingshot 11互聯(lián)交換機(jī)刀片的晶振,它們已有的晶振只能滿足63臺機(jī)柜的需求,還差8000多個(gè)晶振才能完成剩下11臺機(jī)柜的交付。而這時(shí)候恰好又是東南亞地區(qū)疫情肆虐,愛普生等廠商的晶振工廠停工的時(shí)期,而這類智能NIC又需要超低噪聲的高性能晶振。接著他們又花了3周時(shí)間才找齊這些晶振,這才在10月完成了最后一個(gè)機(jī)柜的交付。

8df30a68-0d38-11ed-ba43-dac502259ad0.png

凌晨滿功耗運(yùn)轉(zhuǎn)的Frontier / 美國橡樹嶺國家實(shí)驗(yàn)室

但即便完成了交付,相關(guān)的工作并沒有結(jié)束,超算并不像大家平日里動(dòng)手組裝的電腦一樣,一旦安裝完畢就能跑出應(yīng)有的性能。恰恰相反,超算系統(tǒng)所有部件到位后,還要經(jīng)歷密集的測試、優(yōu)化和維護(hù)工作,于是Frontier的研究人員白天就在更新軟件優(yōu)化系統(tǒng),晚上就讓Frontier跑HPL之類的性能測試,最終趕在TOP500 6月榜單結(jié)束測試結(jié)果收集前,提交了一次成功的E級跑分。

結(jié)語其實(shí)完成這么緊湊的部署安排對Frontier并不容易,固然慧與和AMD有應(yīng)對供應(yīng)鏈管理方面的經(jīng)驗(yàn),但與此同時(shí),和Frontier幾乎同樣配置只是規(guī)模不同的歐洲超算LUMI也面臨著缺貨的困境,所以這兩家公司幾乎是承擔(dān)著雙線交付任務(wù)。但好在去年下半年供應(yīng)開始緩解之后,兩臺超算的任務(wù)也都最終完成了。

此外,這兩年經(jīng)歷的供應(yīng)鏈噩夢想必也影響到了其他的超算部署,就拿國內(nèi)的兩臺E級超算來說,目前都只是單機(jī)柜的測試系統(tǒng)的消息時(shí)有傳出,并沒有正式公開完整系統(tǒng)的性能參數(shù),或多或少也是被供應(yīng)問題拖慢了進(jìn)度,否則這個(gè)風(fēng)頭不可能不出來搶的。畢竟在硬件迭代如此迅速的背景下,像天河二號過去那樣連續(xù)穩(wěn)坐榜首數(shù)年的情況已經(jīng)很難復(fù)現(xiàn)了,但首個(gè)E級超算的稱號可是無論多少年后都搶不走的。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19421

    瀏覽量

    231237
  • 硬件
    +關(guān)注

    關(guān)注

    11

    文章

    3393

    瀏覽量

    66474
  • AI算力
    +關(guān)注

    關(guān)注

    0

    文章

    74

    瀏覽量

    8842

原文標(biāo)題:被供應(yīng)鏈問題拖慢的超算部署

文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    何在Linux系統(tǒng)設(shè)置站群服務(wù)器IP地址

    在Linux系統(tǒng)設(shè)置站群服務(wù)器的IP地址,可以通過以下步驟進(jìn)行,主機(jī)推薦小編為您整理發(fā)布如何在Linux系統(tǒng)設(shè)置站群服務(wù)器IP地址。
    的頭像 發(fā)表于 12-11 10:05 ?225次閱讀

    何在TMS320C6727 DSP創(chuàng)建基于延遲的音頻效果

    電子發(fā)燒友網(wǎng)站提供《如何在TMS320C6727 DSP創(chuàng)建基于延遲的音頻效果.pdf》資料免費(fèi)下載
    發(fā)表于 10-16 10:35 ?0次下載
    如<b class='flag-5'>何在</b>TMS320C6727 DSP<b class='flag-5'>上</b>創(chuàng)建基于延遲的音頻效果

    何在TMS320DM643x器件使用EDMA3驅(qū)動(dòng)程序

    電子發(fā)燒友網(wǎng)站提供《如何在TMS320DM643x器件使用EDMA3驅(qū)動(dòng)程序.pdf》資料免費(fèi)下載
    發(fā)表于 10-15 09:41 ?0次下載
    如<b class='flag-5'>何在</b>TMS320DM643x器件<b class='flag-5'>上</b>使用EDMA3驅(qū)動(dòng)程序

    何在MSP430?實(shí)現(xiàn)內(nèi)置振蕩器的高精度定時(shí)器

    電子發(fā)燒友網(wǎng)站提供《如何在MSP430?實(shí)現(xiàn)內(nèi)置振蕩器的高精度定時(shí)器.pdf》資料免費(fèi)下載
    發(fā)表于 09-14 11:10 ?0次下載
    如<b class='flag-5'>何在</b>MSP430?<b class='flag-5'>上</b>實(shí)現(xiàn)內(nèi)置振蕩器的高精度定時(shí)器

    何在MSP430FR2311使用智能模擬組合和跨阻抗放大器

    電子發(fā)燒友網(wǎng)站提供《如何在MSP430FR2311使用智能模擬組合和跨阻抗放大器.pdf》資料免費(fèi)下載
    發(fā)表于 09-14 10:27 ?0次下載
    如<b class='flag-5'>何在</b>MSP430FR2311<b class='flag-5'>上</b>使用智能模擬組合和跨阻抗放大器

    混合部署 | 在RK3568同時(shí)部署RT-Thread和Linux系統(tǒng)-迅為電子

    混合部署 | 在RK3568同時(shí)部署RT-Thread和Linux系統(tǒng)-迅為電子
    的頭像 發(fā)表于 09-06 15:32 ?503次閱讀
    混合<b class='flag-5'>部署</b> | 在RK3568<b class='flag-5'>上</b>同時(shí)<b class='flag-5'>部署</b>RT-Thread和Linux系統(tǒng)-迅為電子

    何在DRA821U使用Linux實(shí)現(xiàn)快速引導(dǎo)

    電子發(fā)燒友網(wǎng)站提供《如何在DRA821U使用Linux實(shí)現(xiàn)快速引導(dǎo).pdf》資料免費(fèi)下載
    發(fā)表于 09-03 10:11 ?0次下載
    如<b class='flag-5'>何在</b>DRA821U<b class='flag-5'>上</b>使用Linux實(shí)現(xiàn)快速引導(dǎo)

    請問opa129輸出為何有直流偏置?

    近來在做opa129的電荷放大器的實(shí)驗(yàn),想知道為何在沒有輸入的情況下opa129會有直流偏置電壓輸出呢?
    發(fā)表于 08-30 07:56

    OPA2626為何在高頻處,出現(xiàn)了一個(gè)2db的上升?

    我在讀opa2626的手冊的時(shí)候,看官方給的圖標(biāo)發(fā)現(xiàn)一個(gè)問題,就是圖1和圖3,應(yīng)該給的是不同增益下閉環(huán)電路的頻率響應(yīng)(同向或者反向電路)就像畫圈的位置,為何在高頻處,出現(xiàn)了一個(gè)2db的上升?這意味著高頻時(shí)輸出的電壓比dc情況下還高。是怎么來的 感謝
    發(fā)表于 08-06 07:48

    何在Micro SD卡設(shè)置寫保護(hù)?

    我們了解客戶對Micro SD卡寫保護(hù)的疑問。在這篇文章中,拓優(yōu)星辰將詳細(xì)解釋如何在Micro SD卡設(shè)置寫保護(hù),以及相關(guān)的步驟和注意事項(xiàng)。
    的頭像 發(fā)表于 07-11 16:37 ?2063次閱讀
    如<b class='flag-5'>何在</b>Micro SD卡<b class='flag-5'>上</b>設(shè)置寫保護(hù)?

    何在tx2部署模型

    在本文中,我們將詳細(xì)介紹如何在NVIDIA Jetson TX2上部署深度學(xué)習(xí)模型。NVIDIA Jetson TX2是一款專為邊緣計(jì)算和人工智能應(yīng)用而設(shè)計(jì)的高性能嵌入式平臺。它具有強(qiáng)大的計(jì)算能力
    的頭像 發(fā)表于 07-09 10:16 ?681次閱讀

    esp32-s2為何在menuconfig中找不到觸控板選項(xiàng)?

    esp32-s2-kaluga-1 V1.3 idf4.4 touch_audio實(shí)例 為何在menuconfig中找不到觸控板選項(xiàng)?如果有也只有V1.2
    發(fā)表于 06-19 07:23

    何在ADXL355禁用LPF?

    何在ADXL355禁用 LPF
    發(fā)表于 06-04 06:00

    何在stm32cubemx中精確查詢?

    stm32cubemx中finder功能的確很方便,但我遇到一個(gè)問題 現(xiàn)在片子pin復(fù)用功能越來越多,越來越方便 我同時(shí)需要多個(gè)接口,如,1個(gè)can,2個(gè)spi,1個(gè)csi...... 選擇時(shí),會出現(xiàn)數(shù)量滿足了,但不少pin
    發(fā)表于 03-12 06:11

    何在測試中使用ChatGPT

    Dimitar Panayotov 在 2023 年 QA Challenge Accepted 大會 分享了他如何在測試中使用 ChatGPT。
    的頭像 發(fā)表于 02-20 13:57 ?806次閱讀
    主站蜘蛛池模板: 国产精品9999久久久久仙踪林 | 国产va免费精品观看 | 最黄毛片 | www.久久在线| 四虎影院国产精品 | 男女做视频网站免费观看 | 色色色色色色色色色色色 | 成人性色生活片免费看爆迷你毛片 | 美女视频黄的免费视频网页 | 中国一级特黄特色真人毛片 | 狠狠色伊人亚洲综合第8页 狠狠色依依成人婷婷九月 狠狠色影院 | 高清视频一区 | 97人洗澡人人澡人人爽 | 乱人伦一区二区三区 | 日本黄色网页 | 欧美一级看片a免费观看 | 日本特黄特黄刺激大片免费 | 欧美不卡1卡2卡三卡老狼 | 欧美成人福利 | 国产高清色播视频免费看 | 天天躁夜夜躁狠狠躁2021 | 夜夜艹天天干 | 天天做天天摸天天爽天天爱 | 91精品啪国产在线观看免费牛牛 | 久久婷婷色 | 四虎国产永久在线观看 | 爱爱小说视频永久免费网站 | 九九99视频在线观看视频观看 | 国产在线播放成人免费 | 视频在线免费观看 | 色老头免费视频 | 国产午夜精品理论片久久影视 | 色四虎 | 手机在线看片国产 | 久优草| 亚洲国产成人久久精品影视 | 一本大道香蕉大vr在线吗视频 | 四虎国产精品免费观看 | 天天干狠狠操 | 一级特黄aaa大片大全 | 亚洲狠狠综合久久 |