2020年7月30日,MLPerf組織發(fā)布第三個版本MLPerf Trainingv0.7基準(zhǔn)測試(Benchmark)結(jié)果。結(jié)果顯示,英偉達基于今年5月最新發(fā)布的Ampere架構(gòu)A100 TensorCore GPU,和HDR InfiniBand實現(xiàn)多個DGXA100系統(tǒng)互聯(lián)的龐大集群——DGX SuperPOD系統(tǒng)在性能上開創(chuàng)了八個全新里程碑,共打破16項紀(jì)錄。
MLPerf是成立于2018年5月的行業(yè)基準(zhǔn)測試組織,致力于機器學(xué)習(xí)硬件、軟件和服務(wù)的訓(xùn)練和推理性能測試,囊括行業(yè)中幾乎所有知名企業(yè)和機構(gòu),比如Intel、NVIDIA、Google、微軟、阿里巴巴等。
DGX SuperPOD系統(tǒng)公布于去年6月17號。最初由96臺NVIDIA DGX-2H超級計算機和Mellanox互連技術(shù)在短短三周內(nèi)建成,提供9.4千兆次的處理能力,用于該公司在無人駕駛車輛部署計劃中的需求。
而此次創(chuàng)造紀(jì)錄的NVIDIA DGX SuperPOD系統(tǒng)主要基于Ampere架構(gòu)以及Volta架構(gòu),并且搭載了今年5月份發(fā)布的Ampere架構(gòu)GPU A100。
黃仁勛在GTC 2020大會上說道,A100是迄今為止人類制造出的最大7納米制程芯片。A100采用目前最先進的臺積電(TSMC)7納米工藝,擁有540億個晶體管,它是一塊3D堆疊芯片,面積高達826mm^2,GPU的最大功率達到了400W。
這塊GPU上搭載了容量40G的三星HBM2顯存(比DDR5速度還快得多,就是很貴),第三代TensorCore。同時它的并聯(lián)效率也有了巨大提升,其采用帶寬600GB/s的新版NVLink,幾乎達到了10倍PCIE互聯(lián)速度。
隨著安培架構(gòu)出現(xiàn)的三代TensorCore對稀疏張量運算進行了特別加速:執(zhí)行速度提高了一倍,也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速——系統(tǒng)會自動將數(shù)據(jù)轉(zhuǎn)為TF32格式加速運算,現(xiàn)在你無需修改任何代碼量化了,直接自動訓(xùn)練即可。
A100也針對云服務(wù)的虛擬化進行了升級,因為全新的multi-instanceGPU機制,在模擬實例時,每塊GPU的吞吐量增加了7倍。
最終在跑AI模型時,如果用PyTorch框架,相比上一代V100芯片,A100在BERT模型的訓(xùn)練上性能提升6倍,BERT推斷時性能提升7倍。
電子發(fā)燒友綜合報道,參考自鎂客網(wǎng)、機器之心,轉(zhuǎn)載請注明來源和出處。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4996瀏覽量
103221 -
gpu
+關(guān)注
關(guān)注
28文章
4744瀏覽量
129018
發(fā)布評論請先 登錄
相關(guān)推薦
借助NVIDIA GPU提升魯班系統(tǒng)CAE軟件計算效率
《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
NPU技術(shù)如何提升AI性能
蘋果 A18 芯片發(fā)布:CPU 提升 30%、GPU 提升 40%
![蘋果 <b class='flag-5'>A</b>18 <b class='flag-5'>芯片</b>發(fā)布:CPU <b class='flag-5'>提升</b> 30%、<b class='flag-5'>GPU</b> <b class='flag-5'>提升</b> 40%](https://file1.elecfans.com//web2/M00/06/00/wKgZombhGk6AZgshAADutIRe2kw655.jpg)
名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析
進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片
龍芯:自主研發(fā)CPU提升性能,單核通用性能提高20倍
利用NVIDIA組件提升GPU推理的吞吐
Meta第二代自研AI芯片出世,性能提升三倍以上
![Meta第二代自研<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>出世,<b class='flag-5'>性能</b><b class='flag-5'>提升</b>三<b class='flag-5'>倍</b>以上](https://file1.elecfans.com/web2/M00/C9/5D/wKgaomYcghaAJfDrAAdUmNvNHK4952.png)
英偉達發(fā)布超強AI加速卡,性能大幅提升,可支持1.8萬億參數(shù)模的訓(xùn)練
NVIDIA 發(fā)布全新交換機,全面優(yōu)化萬億參數(shù)級 GPU 計算和 AI 基礎(chǔ)設(shè)施
![<b class='flag-5'>NVIDIA</b> 發(fā)布全新交換機,全面優(yōu)化萬億參數(shù)級 <b class='flag-5'>GPU</b> 計算和 <b class='flag-5'>AI</b> 基礎(chǔ)設(shè)施](https://file1.elecfans.com/web2/M00/C4/EC/wKgZomX48yOAARKHAAFsIO99Xwk611.png)
M3芯片和A16芯片哪個強
英偉達H200和A100的區(qū)別
瑞薩電子將AI半導(dǎo)體處理性能最多提高至16倍
解讀六大科技巨頭自研AI芯片進展,誰將領(lǐng)跑未來?
![解讀六大科技巨頭自研<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>進展,誰將領(lǐng)跑未來?](https://file1.elecfans.com/web2/M00/C1/78/wKgaomXWs_eALeFoAAAn3mmSaIk532.png)
評論