“天下武功,唯快不破”,你需要以“快”制勝。
如今,全球頂級公司的研究人員和數(shù)據(jù)科學(xué)家團隊們都在致力于創(chuàng)建更為復(fù)雜的AI模型。但是,AI模型的創(chuàng)建工作不僅僅是設(shè)計模型,還需要對模型進行快速地訓(xùn)練。
這就是為什么說,如果想在AI領(lǐng)域保持領(lǐng)導(dǎo)力,就首先需要有賴于AI基礎(chǔ)設(shè)施的領(lǐng)導(dǎo)力。而這也正解釋了為什么MLPerf AI訓(xùn)練結(jié)果如此之重要。
通過完成全部6項MLPerf基準(zhǔn)測試,NVIDIA展現(xiàn)出了全球一流的性能表現(xiàn)和多功能性。NVIDIA AI平臺在訓(xùn)練性能方面創(chuàng)下了八項記錄,其中包括三項大規(guī)模整體性能紀(jì)錄和五項基于每個加速器的性能紀(jì)錄。

表1:NVIDIA MLPerf AI紀(jì)錄
每個加速器的比較基于早前報告的基于單一NVIDIA DGX-2H(16個V100 GPU)、與其他同規(guī)模相比較的MLPerf 0.6的性能(除MiniGo采用的是基于8個V100 GPU的NVIDIA DGX-1)|最大規(guī)模MLPerf ID:Mask R-CNN:0.6-23,GNMT:0.6-26,MiniGo:0.6-11 |每加速器MLPerf ID:Mask R-CNN,SSD,GNMT,Transformer:全部使用0.6-20,MiniGo:0.6-10
以上測試結(jié)果數(shù)據(jù)由谷歌、英特爾、百度、NVIDIA、以及創(chuàng)建MLPerf AI基準(zhǔn)測試的其他數(shù)十家頂級技術(shù)公司和大學(xué)提供背書,能夠轉(zhuǎn)化為具有重要意義的創(chuàng)新。
簡而言之,NVIDIA的AI平臺如今能夠在不到兩分鐘的時間內(nèi)完成此前需要一個工作日才能完成的模型訓(xùn)練。
各公司都知道,釋放生產(chǎn)力是一件重中之重的要務(wù)。超級計算機如今已經(jīng)成為了AI的必備工具,樹立AI領(lǐng)域的領(lǐng)導(dǎo)力首先需要強大的AI計算基礎(chǔ)設(shè)施支持。
NVIDIA最新的MLPerf結(jié)果很好地展示了將NVIDIA V100 Tensor核心GPU應(yīng)用于超算級基礎(chǔ)設(shè)施中所能帶來的益處。
在2017年春季的時候,使用搭載了V100 GPU的NVIDIA DGX-1系統(tǒng)訓(xùn)練圖像識別模型ResNet-50,需要花費整整一個工作日(8小時)的時間。
而如今,同樣的任務(wù),NVIDIA DGX SuperPOD使用相同的V100 GPU,采用Mellanox InfiniBand進行互聯(lián),并借助可用于分布式AI訓(xùn)練的最新NVIDIA優(yōu)化型AI軟件,僅需80秒即可完成。
80秒的時間,甚至都不夠用來沖一杯咖啡。

圖1:AI時間機器
2019年MLPerf ID(按圖表從上到下的順序):ResNet-50:0.6-30 | Transformer:0.6-28 | GNMT:0.6-14 | SSD:0.6-27 | MiniGo:0.6-11 | Mask R-CNN:0
AI的必備工具:DGX SuperPOD能夠更快速地完成工作負(fù)載
仔細(xì)觀察今日的MLPerf結(jié)果,會發(fā)現(xiàn)NVIDIA DGX SuperPOD是唯一在所有六個MLPerf類別中耗時都少于20分鐘的AI平臺:
圖2:DGX SuperPOD打破大規(guī)模AI紀(jì)錄
大規(guī)模MLPerf 0.6性能|大規(guī)模MLPerf ID:RN50 v1.5:0.6-30,0.6-6 | Transformer:0.6-28,0.6-6 | GNMT:0.6-26,0.6-5 | SSD:0.6-27,0.6-6 | MiniGo:0.6-11,0.6-7 | Mask R-CNN:0.6-23,0.6-3
更進一步觀察會發(fā)現(xiàn),針對重量級目標(biāo)檢測和強化學(xué)習(xí),這些最困難的AI問題,NVIDIA AI平臺在總體訓(xùn)練時間方面脫穎而出。
使用Mask R-CNN深度神經(jīng)網(wǎng)絡(luò)的重量級目標(biāo)檢測可為用戶提供高級實例分割。其用途包括將其與多個數(shù)據(jù)源(攝像頭、傳感器、激光雷達、超聲波等)相結(jié)合,以精確識別并定位特定目標(biāo)。
這類AI工作負(fù)載有助于訓(xùn)練自動駕駛汽車,為其提供行人和其他目標(biāo)的精確位置。另外,在醫(yī)療健康領(lǐng)域,它能夠幫助醫(yī)生在醫(yī)療掃描中查找并識別腫瘤。其意義的重要性非同小可。
NVIDIA的“重量級目標(biāo)檢測”用時不到19分鐘,性能幾乎是第二名的兩倍。
強化學(xué)習(xí)是另一有難度的類別。這種AI方法能夠用于訓(xùn)練工廠車間機器人,以簡化生產(chǎn)。城市也可以用這種方式來控制交通燈,以減少擁堵。NVIDIA采用NVIDIA DGX SuperPOD,在創(chuàng)紀(jì)錄的13.57分鐘內(nèi)完成了對MiniGo AI強化訓(xùn)練模型的訓(xùn)練。
咖啡還沒好,任務(wù)已完成:即時AI基礎(chǔ)設(shè)施提供全球領(lǐng)先性能
打破基準(zhǔn)測試紀(jì)錄不是目的,加速創(chuàng)新才是目標(biāo)。這就是為什么NVIDIA構(gòu)建的DGX SuperPOD不僅性能強大,而且易于部署。DGX SuperPOD全面配置了可通過NGC容器注冊表免費獲取的優(yōu)化型CUDA-X AI軟件,可提供開箱即用的全球領(lǐng)先AI性能。
在這個由130多萬名CUDA開發(fā)者組成的生態(tài)系統(tǒng)中,NVIDIA與開發(fā)者們合作,致力于為所有AI框架和開發(fā)環(huán)境提供有力支持。
我們已經(jīng)助力優(yōu)化了數(shù)百萬行代碼,讓我們的客戶能夠?qū)⑵銩I項目落地,無論您身在何處都可以找到NVIDIA GPU,無論是在云端,還是在數(shù)據(jù)中心,亦或是邊緣。
AI基礎(chǔ)設(shè)施如今有夠快,未來會更快
更好的一點在于,這一平臺的速度一直在提升。NVIDIA每月都會發(fā)布CUDA-X AI軟件的新優(yōu)化和性能改進,集成型軟件堆??稍贜GC容器注冊表中免費下載,包括容器化的框架、預(yù)先訓(xùn)練好的模型和腳本。借助在CUDA-X AI軟件堆棧上的創(chuàng)新,NVIDIA DGX-2H服務(wù)器的MLPerf 0.6吞吐量比NVIDIA七個月前發(fā)布的結(jié)果提升了80%。

圖3:基于同一服務(wù)器,性能提升高達80%
對單個歷元上單一DGX-2H服務(wù)器的吞吐量進行比較(數(shù)據(jù)集單次通過神經(jīng)網(wǎng)絡(luò))| MLPerf ID 0.5 / 0.6比較:ResNet-50 v1.5: 0.5-20/0.6-30 | Transformer: 0.5-21/0.6-20 | SSD: 0.5-21/0.6-20 | GNMT: 0.5-19/0.6-20 | Mask R-CNN: 0.5-21/0.6-20
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
AI
+關(guān)注
關(guān)注
88文章
34520瀏覽量
276045 -
MLPerf基準(zhǔn)測試
+關(guān)注
關(guān)注
0文章
2瀏覽量
1130 -
模型訓(xùn)練
+關(guān)注
關(guān)注
0文章
20瀏覽量
1440
發(fā)布評論請先 登錄
相關(guān)推薦
熱點推薦
NVIDIA攜手微軟加速代理式AI發(fā)展
代理式 AI 正在重新定義科學(xué)探索,推動各行各業(yè)的研究突破和創(chuàng)新發(fā)展。NVIDIA 和微軟正通過深化合作提供先進的技術(shù),從云到 PC 加速代
海思SD3403邊緣計算AI數(shù)據(jù)訓(xùn)練概述
AI數(shù)據(jù)訓(xùn)練:基于用戶特定應(yīng)用場景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓(xùn)練工程師**(用戶公司****員工)** ,進行特征標(biāo)定后,將標(biāo)定好的訓(xùn)練
發(fā)表于 04-28 11:11
RAKsmart智能算力架構(gòu):異構(gòu)計算+低時延網(wǎng)絡(luò)驅(qū)動企業(yè)AI訓(xùn)練范式升級
在AI大模型參數(shù)量突破萬億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構(gòu),以異構(gòu)計算資源池化與超低時延網(wǎng)絡(luò)為核心,重構(gòu)
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
猛增50倍,將訓(xùn)練時間從一整天縮短至半小時。更快的端側(cè)LoRA訓(xùn)練,讓端側(cè)AI基于用戶端側(cè)數(shù)據(jù)提升個性化體驗,讓終端成為更懂用戶的個性化智慧伙伴。
智能體用戶體驗的進化,
發(fā)表于 04-13 19:52
NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能
近日,NVIDIA 宣布了 NVIDIA RTX 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預(yù)覽版中增加神經(jīng)網(wǎng)絡(luò)著
Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動的工程設(shè)計和科學(xué)應(yīng)用
融合設(shè)計專業(yè)知識與加速計算,推動科技創(chuàng)新、實現(xiàn)能效和工程生產(chǎn)力方面的突破性進展,引領(lǐng)全球生活新范式 內(nèi)容提要 ●?Cadence 借助 NVIDIA 最新 Blackwell 系統(tǒng),將求解器的速度
摩爾線程GPU原生FP8計算助力AI訓(xùn)練
近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實現(xiàn)

《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
標(biāo)量、向量、矩陣的表示;從硬件實現(xiàn)看,不同廠商各顯神通。谷歌TPU采用脈動陣列計算單元,通過數(shù)據(jù)流向的精心編排提升計算密度;NVIDIA張量核心支持多精度計算,Hopper架構(gòu)更是引入了稀疏性加速。華為
發(fā)表于 11-24 17:12
全新NVIDIA NIM微服務(wù)實現(xiàn)突破性進展
全新 NVIDIA NIM 微服務(wù)實現(xiàn)突破性進展,可助力氣象技術(shù)公司開發(fā)和部署 AI 模型,實現(xiàn)對降雪、結(jié)冰和冰雹的預(yù)測。
NVIDIA AI助力實現(xiàn)更好的癌癥檢測
由美國頂級醫(yī)療中心和研究機構(gòu)的專家組成了一個專家委員會,該委員會正在使用 NVIDIA 支持的聯(lián)邦學(xué)習(xí)來評估聯(lián)邦學(xué)習(xí)和 AI 輔助注釋對訓(xùn)練 AI 腫瘤分割模型的影響。
NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案
麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業(yè)和科研機構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無論是在復(fù)雜的

端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸
ChatGPT對技術(shù)的影響引發(fā)了對人工智能未來的預(yù)測,尤其是多模態(tài)技術(shù)的關(guān)注。OpenAI推出了具有突破性的多模態(tài)模型GPT-4,使各個領(lǐng)域取得了顯著的發(fā)展。 這些AI進步是通過大規(guī)模模型訓(xùn)練

NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)
Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進的指導(dǎo)和獎勵模型,以及一個用于生成式 AI 訓(xùn)練

NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型
Foundry 提供從數(shù)據(jù)策管、合成數(shù)據(jù)生成、微調(diào)、檢索、防護到評估的全方位生成式 AI 模型服務(wù),以便部署自定義 Llama 3.1 NVIDIA NIM 微服務(wù)和新的
發(fā)表于 07-24 09:39
?887次閱讀

AI訓(xùn)練的基本步驟
AI(人工智能)訓(xùn)練是一個復(fù)雜且系統(tǒng)的過程,它涵蓋了從數(shù)據(jù)收集到模型部署的多個關(guān)鍵步驟。以下是對AI訓(xùn)練
評論