2020年4月,以近70億美元被英偉達(dá)最終收購的以色列頂級數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)公司Mellanox,在長達(dá)半年多的“沉默”后,在11月迎來了兩件足以引起業(yè)內(nèi)轟動的大事。首先,陪Mellanox走了21年,并一手促成這筆交易的創(chuàng)始人兼首席執(zhí)行官Eyal Waldman宣布離職,并留下了一句頗為瀟灑的話:
“在達(dá)成這筆交易時,我就知道我要離開了。你知道我用幾十年創(chuàng)建一家公司并做出所有決策,不是用來做第二名的。”
其次,就在今天,Mellanox作為英偉達(dá)GPU家族的一部分,被英偉達(dá)融入了新的網(wǎng)絡(luò)連接架構(gòu)產(chǎn)品——NVIDIA Mellanox 400G InfiniBand。
此后,它將以“GPU伴侶”的身份,率先打入數(shù)據(jù)中心市場的最精銳部隊——超級計算機(jī)市場。
NVIDIA Mellanox 400G InfiniBand產(chǎn)品的架構(gòu)組成。簡單來說,就是一個用以連接其他服務(wù)器與英偉達(dá)產(chǎn)品的組件
英偉達(dá)在今天的全球超級計算大會上,再次刷新了自己最強(qiáng)大GPU產(chǎn)品線——企業(yè)級加速器A100的 性能紀(jì)錄。
新一代的A100 GPU將高帶寬內(nèi)存提升至80GB,比上一代擴(kuò)大一倍。這意味著,每秒超過2TB的內(nèi)存帶寬,會讓數(shù)據(jù)在內(nèi)存與GPU之間流通得更加迅速,以便“承受”研究人員建立更大規(guī)模人工智能模型和數(shù)據(jù)集帶來的壓力。
“現(xiàn)在要在AI和高性能計算(HPC)的研究成果上繼續(xù)突破上限,科學(xué)家們必須要構(gòu)建更大更復(fù)雜的模型,那么便需要比以往更大的內(nèi)存容量與更高的帶寬。” 英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁Bryan Catanzaro指出。
英偉達(dá)在英國劍橋的超算中心部署了由若干塊A10080GB組成的DGX系統(tǒng)
實際上,除了改變芯片產(chǎn)品的架構(gòu),把成百上千塊芯片用最高效的形式“連”起來,當(dāng)然也能解決科學(xué)家們每秒/百億億次的超大計算需求,而收購的Mellanox的用意便在于此。
如果你見過位于無錫的中國超級計算機(jī)“太湖之光”,就會發(fā)現(xiàn)“這臺計算機(jī)”其實是一個由成百上千臺黑色機(jī)柜組成的計算機(jī)集群,可以填滿一間約1000平米的屋子。
它既可以被稱為“高性能計算機(jī)群”,也可以被看做是一個不小規(guī)模的數(shù)據(jù)中心。
當(dāng)然,這些黑色機(jī)柜的性能,要比普通服務(wù)器強(qiáng)大太多,由4萬多塊不同種類的國產(chǎn)芯片組成,僅集成它們就是一項極為艱巨的任務(wù),用時兩年,總投入超過了18億人民幣。
位于無錫超算中心的太湖之光
而NVIDIA Mellanox 400G InfiniBand的作用,便是將超級計算機(jī)中上萬塊CPU、GPU以及其他種類芯片“連接”在一起。在發(fā)揮性能最大化的同時,每塊芯片的數(shù)據(jù)傳輸效率也不能有太多損耗。
“之前CPU與GPU之間的互聯(lián),都是通過英偉達(dá)的NVlinks(一種總線及其通信協(xié)議),但這個東西互聯(lián)的效率沒有特別好,不能簡單擴(kuò)展到上千塊芯片互聯(lián)的超算場景。”參與研發(fā)過TPU,芯英科技聯(lián)合創(chuàng)始人楊龔軼凡告訴虎嗅,Mellanox擅長的便是此前英偉達(dá)最大的短板之一,
“一臺超級計算機(jī),各品牌芯片之間的高效配合,極為重要。之前英偉達(dá)的NVlinks只能和IBM的CPU互聯(lián)。而收購Mellanox后,英偉達(dá)增強(qiáng)了用芯片構(gòu)建超算系統(tǒng)的可擴(kuò)展性,可以讓GPU與其他品牌和種類的芯片進(jìn)行連接。”
換句話說,英偉達(dá)找到了“讓自己產(chǎn)品輕松插進(jìn)包括英特爾在內(nèi),所有服務(wù)器芯片接口”的方法。
超算市場,不可忽視的芯片掘金地
英偉達(dá)的這次全系列產(chǎn)品,無一例外面向的都是“燒錢魔窟”——超級計算機(jī)市場。
舉個例子,在2020年6月頒布的全球超級計算機(jī)Top500榜單上,排名第二的美國橡樹嶺國家實驗室超級計算機(jī)Summit,在每個節(jié)點配備了2個IBM的 Power9 CPU和 6個英偉達(dá)的Tesla V100。這樣的節(jié)點有4356個,總耗資2億美元。
而在2019年3月,美國能源部阿貢實驗室公開宣布,將耗資5億美元搭建新一代超級計算機(jī) Aurora 。這臺將在2021年實現(xiàn)交付的超級計算機(jī),并非追求一味追求計算速度,而是需要針對人工智能等新技術(shù)應(yīng)用采用新的設(shè)計思路。
那么這筆巨額政府合同的主要受益者是誰?外界猜測是美國最大的CPU生產(chǎn)商英特爾與著名超算系統(tǒng)集成商Cray。
但不可忽視的是,隨著超算系統(tǒng)被用在人工智能研究領(lǐng)域的次數(shù)越來越多,額外裝載的加速芯片GPU,逐漸成為搭建超級計算機(jī)的必選品。
因此,英偉達(dá)也在全球許多超算項目中獲得了頗為豐厚的收益,包括美國技術(shù)最強(qiáng)大的國家實驗室——橡樹嶺實驗室、阿貢實驗室,都是英偉達(dá)最好性能產(chǎn)品的首批嘗鮮者。
美國迄今最強(qiáng)的超級計算機(jī)Summit(巔峰),在最新的Top500榜單中排名第2。
超級計算機(jī)之間的競爭,從來都被看作是國家之間技術(shù)實力的競爭。
盡管這是一個狹隘的衡量標(biāo)準(zhǔn),但這些超級計算機(jī)群的確在很多軍事與科學(xué)任務(wù)中發(fā)揮著極為重要的作用,譬如武器設(shè)計與密碼破譯,再譬如模擬氣候變化,研究與診斷新冠病毒。
很多前所未有的材料與化學(xué)實驗,不太可能在云端執(zhí)行,因此部署高性能服務(wù)器便顯得格外重要。
“沒有人愿意燒很多錢去做一些幾十年沒成果的新技術(shù)研究,但是這些研究卻很有必要,那么這些新技術(shù)的運(yùn)算就需要超級計算機(jī)來支持。”一位業(yè)內(nèi)人士告訴虎嗅。
而這場競爭中,中國與美國理所當(dāng)然是最為強(qiáng)勁的參賽選手,也是最愿意砸錢做超算系統(tǒng)的兩個科技大國。
2020年6月,盡管Top500的榜首之位,被日本神戶理研計算中心耗資10億美元的超算系統(tǒng)Fugaku奪走,但在這500個超級計算機(jī)中,中國擁有其中226個系統(tǒng),而美國則占據(jù)114個。
2020年6月最新榜單的前10名。在2016年~2017年蟬聯(lián)4次冠軍的中國超級計算機(jī)太湖之光位于第四名,天河二號第五名。
因此,如果按照每臺超級計算機(jī)單價上億美元來計算,這是一個令人垂涎的市場。而政府一次又一次創(chuàng)下記錄的巨額訂單,對商業(yè)公司產(chǎn)生著越來越大的吸引力;
此外,毫無疑問,由于超級計算機(jī)運(yùn)行的都是難度最高的技術(shù)研發(fā)任務(wù),它們的存在,是未來技術(shù)下沉到工業(yè)和消費級市場的源動力。
國家之間的超級計算機(jī)之戰(zhàn)從幾十年前就已打響。一開始,大多數(shù)超級計算機(jī)使用的微處理器都是從英特爾和AMD的PC芯片演變而來,然而,就是在過去5年里,數(shù)據(jù)量開始如爆炸般增長,新技術(shù)應(yīng)用層出不窮,因此最強(qiáng)大的超級計算機(jī)已經(jīng)開始加大專業(yè)芯片的使用力度,而英偉達(dá),便是最大的受益者之一。
從圖中可以看出,2020年~2025年產(chǎn)生的數(shù)據(jù)量,是2010~2020年數(shù)據(jù)量的三倍。圖片來自英偉達(dá)。
不過有意思的是,日本Fugaku打敗中國和美國最強(qiáng)計算機(jī)的“源動力”,竟然是富士通的48核 A64FX SoC,這應(yīng)該是榜單上第一個由ARM處理器提供動力的超算系統(tǒng)(雖然不想把英偉達(dá)和ARM的收購聯(lián)系起來,但這好歹是個開始)。
“未來超算市場,目前現(xiàn)在的共識是HPC+AI。也就是說,未來AI是超算的典型應(yīng)用,而且量級很大。所以英偉達(dá),想要作為未來霸主,保持在這個市場的領(lǐng)先地位。當(dāng)然,高性能計算市場,一切都沒那么容易。”
責(zé)編AJX
-
芯片
+關(guān)注
關(guān)注
459文章
52474瀏覽量
440505 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5308瀏覽量
106331 -
超級計算機(jī)
+關(guān)注
關(guān)注
2文章
472瀏覽量
42466
發(fā)布評論請先 登錄
“四算合一”算力平臺,芯片國產(chǎn)化率超九成,兼容8種國產(chǎn)AI芯片
軟通智算完成超億級A輪融資,加速AI算力產(chǎn)業(yè)布局
大算力芯片的生態(tài)突圍與算力革命
國家超算平臺推出AI生態(tài)加速計劃
超訊通信簽訂8.5億元智算集成服務(wù)大單
DeepSeek對芯片算力的影響

算智算中心的算力如何衡量?

NVIDIA發(fā)布個人超算利器project digital,標(biāo)志著ai元年的開啟

超算智算融合 南京信易達(dá)發(fā)布全新“智能算力融合平臺”

ETH-X超節(jié)點:開辟AI算力約束突破的新路徑

《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第二篇閱讀心得:芯片拓?fù)鋵W(xué):并行擴(kuò)展與CPU設(shè)計的巨頭對決
本源“量超融合先進(jìn)計算平臺”入選2024算力中國·年度重大成果

九章云極DataCanvas公司「算力包」產(chǎn)品璀璨亮相2024中國算力大會!

評論