在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)H100 Transformer引擎加速AI訓(xùn)練 準(zhǔn)確而且高達(dá)6倍性能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-04-01 09:24 ? 次閱讀

在當(dāng)今計(jì)算平臺(tái)上,大型 AI 模型可能需要數(shù)月來完成訓(xùn)練。而這樣的速度對(duì)于企業(yè)來說太慢了。

隨著一些模型(例如大型語言模型)達(dá)到數(shù)萬億參數(shù),AI、高性能計(jì)算和數(shù)據(jù)分析變得日益復(fù)雜。

NVIDIA Hopper 架構(gòu)從頭開始構(gòu)建,憑借強(qiáng)大的算力和快速的內(nèi)存來加速這些新一代 AI 工作負(fù)載,從而處理日益增長的網(wǎng)絡(luò)和數(shù)據(jù)集。

Transformer 引擎是全新 Hopper 架構(gòu)的一部分,將顯著提升 AI 性能和功能,并助力在幾天或幾小時(shí)內(nèi)訓(xùn)練大型模型。

使用 Transformer 引擎訓(xùn)練 AI 模型

Transformer 模型是當(dāng)今廣泛使用的語言模型(例如 asBERT 和 GPT-3)的支柱。Transformer 模型最初針對(duì)自然語言處理用例而開發(fā),但因其通用性,現(xiàn)在逐步應(yīng)用于計(jì)算機(jī)視覺、藥物研發(fā)等領(lǐng)域。

與此同時(shí),模型大小不斷呈指數(shù)級(jí)增長,現(xiàn)在已達(dá)到數(shù)萬億個(gè)參數(shù)。由于計(jì)算量巨大,訓(xùn)練時(shí)間不得不延長到數(shù)月,而這樣就無法滿足業(yè)務(wù)需求。

Transformer 引擎采用 16 位浮點(diǎn)精度和新增的 8 位浮點(diǎn)數(shù)據(jù)格式,并整合先進(jìn)的軟件算法,將進(jìn)一步提升 AI 性能和功能。

AI 訓(xùn)練依賴浮點(diǎn)數(shù),浮點(diǎn)數(shù)是小數(shù),例如 3.14。TensorFloat32 (TF32) 浮點(diǎn)格式是隨 NVIDIA Ampere 架構(gòu)而面世的,現(xiàn)已成為 TensorFlow 和 PyTorch 框架中的默認(rèn) 32 位格式。

大多數(shù) AI 浮點(diǎn)運(yùn)算采用 16 位“半”精度 (FP16)、32 位“單”精度 (FP32),以及面向?qū)I(yè)運(yùn)算的 64 位“雙”精度 (FP64)。Transformer 引擎將運(yùn)算縮短為 8 位,能以更快的速度訓(xùn)練更大的網(wǎng)絡(luò)。

與 Hopper 架構(gòu)中的其他新功能(例如,在節(jié)點(diǎn)之間提供直接高速互連的 NVLink Switch 系統(tǒng))結(jié)合使用時(shí),H100 加速服務(wù)器集群能夠訓(xùn)練龐大網(wǎng)絡(luò),而這些網(wǎng)絡(luò)此前幾乎無法以企業(yè)所需的速度進(jìn)行訓(xùn)練。

更深入地研究 Transformer 引擎

Transformer 引擎采用軟件和自定義 NVIDIA Hopper Tensor Core 技術(shù),該技術(shù)旨在加速訓(xùn)練基于常見 AI 模型構(gòu)建模塊(即 Transformer)構(gòu)建的模型。這些 Tensor Core 能夠應(yīng)用 FP8 和 FP16 混合精度,以大幅加速 Transformer 模型的 AI 計(jì)算。采用 FP8 的 Tensor Core 運(yùn)算在吞吐量方面是 16 位運(yùn)算的兩倍。

模型面臨的挑戰(zhàn)是智能管理精度以保持準(zhǔn)確性,同時(shí)獲得更小、更快數(shù)值格式所能實(shí)現(xiàn)的性能。Transformer 引擎利用定制的、經(jīng)NVIDIA調(diào)優(yōu)的啟發(fā)式算法來解決上述挑戰(zhàn),該算法可在 FP8 與 FP16 計(jì)算之間動(dòng)態(tài)選擇,并自動(dòng)處理每層中這些精度之間的重新投射和縮放。

b39541ba-b14d-11ec-aa7f-dac502259ad0.png

Transformer Engine 使用每層統(tǒng)計(jì)分析來確定模型每一層的最佳精度(FP16 或 FP8),在保持模型精度的同時(shí)實(shí)現(xiàn)最佳性能。

與上一代 TF32、FP64、FP16 和 INT8 精度相比,NVIDIA Hopper 架構(gòu)還將每秒浮點(diǎn)運(yùn)算次數(shù)提高了三倍,從而在第四代 Tensor Core 的基礎(chǔ)上實(shí)現(xiàn)了進(jìn)一步提升。Hopper Tensor Core 與 Transformer 引擎和第四代 NVLink 相結(jié)合,可使 HPC 和 AI 工作負(fù)載的加速實(shí)現(xiàn)數(shù)量級(jí)提升。

加速 Transformer 引擎

AI 領(lǐng)域的大部分前沿工作都圍繞 Megatron 530B 等大型語言模型展開。下圖顯示了近年來模型大小的增長趨勢(shì),業(yè)界普遍認(rèn)為這一趨勢(shì)將持續(xù)發(fā)展。許多研究人員已經(jīng)在研究用于自然語言理解和其他應(yīng)用的超萬億參數(shù)模型,這表明對(duì) AI 計(jì)算能力的需求有增無減。

b3a976d0-b14d-11ec-aa7f-dac502259ad0.jpg

自然語言理解模型仍在快速增長。

為滿足這些持續(xù)增長的模型的需求,高算力和大量高速內(nèi)存缺一不可。NVIDIA H100 Tensor Core GPU 兩者兼?zhèn)洌偌由?Transformer 引擎實(shí)現(xiàn)的加速,可助力 AI 訓(xùn)練更上一層樓。

通過上述方面的創(chuàng)新,就能夠提高吞吐量,將訓(xùn)練時(shí)間縮短 9 倍——從 7 天縮短到僅 20 個(gè)小時(shí):

b3c3821e-b14d-11ec-aa7f-dac502259ad0.jpg

與上一代相比,NVIDIA H100 Tensor Core GPU 提供 9 倍的訓(xùn)練吞吐量,從而可在合理的時(shí)間內(nèi)訓(xùn)練大型模型。

Transformer 引擎還可用于推理,無需進(jìn)行任何數(shù)據(jù)格式轉(zhuǎn)換。以前,INT8 是實(shí)現(xiàn)出色推理性能的首選精度。但是,它要求經(jīng)訓(xùn)練的網(wǎng)絡(luò)轉(zhuǎn)換為 INT8,這是優(yōu)化流程的一部分,而 NVIDIA TensorRT 推理優(yōu)化器可輕松實(shí)現(xiàn)這一點(diǎn)。

使用以 FP8 精度訓(xùn)練的模型時(shí),開發(fā)者可以完全跳過此轉(zhuǎn)換步驟,并使用相同的精度執(zhí)行推理操作。與 INT8 格式的網(wǎng)絡(luò)一樣,使用 Transformer 引擎的部署能以更小的內(nèi)存占用空間運(yùn)行。

在 Megatron 530B 上,NVIDIA H100 的每 GPU 推理吞吐量比 NVIDIA A100 高 30 倍,響應(yīng)延遲為 1 秒,這表明它是適用于 AI 部署的上佳平臺(tái):

b3d518bc-b14d-11ec-aa7f-dac502259ad0.jpg

對(duì)于低延遲應(yīng)用,Transformer 引擎還可將推理吞吐量提高 30 倍。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34588

    瀏覽量

    276193
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3927

    瀏覽量

    93273
  • H100
    +關(guān)注

    關(guān)注

    0

    文章

    33

    瀏覽量

    401

原文標(biāo)題:GTC22 | H100 Transformer 引擎大幅加速 AI 訓(xùn)練,在不損失準(zhǔn)確性的情況下提供高達(dá) 6 倍的性能

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    GPU 維修干貨 | 英偉達(dá) GPU H100 常見故障有哪些?

    上漲,英偉達(dá)H100GPU憑借其強(qiáng)大的算力,成為AI訓(xùn)練、高性能計(jì)算領(lǐng)域的核心硬件。然而,隨著使
    的頭像 發(fā)表于 05-05 09:03 ?582次閱讀
    GPU 維修干貨 | <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b> GPU <b class='flag-5'>H100</b> 常見故障有哪些?

    特朗普要叫停英偉達(dá)對(duì)華特供版 英偉達(dá)H20出口限制 或損失55億美元

    是“中國特供版”人工智能芯片;是英偉達(dá)公司為符合美國出口規(guī)定專門為中國市場(chǎng)開發(fā)的定制芯片,H20芯片在訓(xùn)練AI模型方面不如
    的頭像 發(fā)表于 04-16 16:59 ?1144次閱讀

    新思科技攜手英偉達(dá)加速芯片設(shè)計(jì),提升芯片電子設(shè)計(jì)自動(dòng)化效率

    宣布在英偉達(dá) Grace Blackwell 平臺(tái)上實(shí)現(xiàn)高達(dá) 30 的預(yù)期性能提升,加速下一代
    發(fā)表于 03-19 17:59 ?248次閱讀

    英偉達(dá)A100H100比較

    英偉達(dá)A100H100都是針對(duì)高性能計(jì)算和人工智能任務(wù)設(shè)計(jì)的GPU,但在性能和特性上存在顯著差
    的頭像 發(fā)表于 02-10 17:05 ?3775次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>A<b class='flag-5'>100</b>和<b class='flag-5'>H100</b>比較

    英偉達(dá)H100芯片市場(chǎng)降溫

    隨著英偉達(dá)新一代AI芯片GB200需求的不斷攀升,其上一代明星產(chǎn)品H100芯片卻遭遇了市場(chǎng)的冷落。據(jù)業(yè)內(nèi)人士透露,搭載H100的服務(wù)器通常以
    的頭像 發(fā)表于 10-28 15:42 ?1509次閱讀

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構(gòu),nGPT在保持原有精度的同時(shí),直接將大型語言模型(LLM)的訓(xùn)練速度提升了高達(dá)20。這一顯著的
    的頭像 發(fā)表于 10-23 11:30 ?834次閱讀

    英偉達(dá)發(fā)布AI模型 Llama-3.1-Nemotron-51B AI模型

    模型在單個(gè)H100 GPU上的表現(xiàn)非常優(yōu)秀,在推理過程中可以在單個(gè) GPU 上運(yùn)行 4 以上的工作負(fù)載。這使得單片H100 GPU即可處理更大型的推理任務(wù);
    的頭像 發(fā)表于 09-26 17:30 ?871次閱讀

    亞馬遜云科技宣布Amazon EC2 P5e實(shí)例正式可用 由英偉達(dá)H200 GPU提供支持

    現(xiàn)已正式可用。亞馬遜云科技是首個(gè)將英偉達(dá)H200 GPU用于生產(chǎn)環(huán)境的領(lǐng)先云提供商。與基于英偉達(dá)H100
    的頭像 發(fā)表于 09-19 16:16 ?826次閱讀

    英偉達(dá)Blackwell可支持10萬億參數(shù)模型AI訓(xùn)練,實(shí)時(shí)大語言模型推理

    、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。 ? 英偉達(dá)稱,Blackwell擁有6項(xiàng)革命性技術(shù),可支持多達(dá)10萬億參數(shù)的模型進(jìn)行AI
    的頭像 發(fā)表于 09-04 09:10 ?3628次閱讀

    蘋果AI模型訓(xùn)練新動(dòng)向:攜手谷歌,未選英偉達(dá)

    近日,蘋果公司發(fā)布的最新研究報(bào)告揭示了其在人工智能領(lǐng)域的又一重要戰(zhàn)略選擇——采用谷歌設(shè)計(jì)的芯片來訓(xùn)練AI模型,而非行業(yè)巨頭英偉達(dá)的產(chǎn)品。這一決定在業(yè)界引起了廣泛關(guān)注,尤其是在當(dāng)前
    的頭像 發(fā)表于 08-01 18:11 ?1098次閱讀

    英偉達(dá)TITAN AI顯卡曝光,性能狂超RTX 4090達(dá)63%!# 英偉達(dá)# 顯卡

    顯卡英偉達(dá)
    jf_02331860
    發(fā)布于 :2024年07月24日 17:18:28

    英偉達(dá)帶領(lǐng)芯片股飆升 英偉達(dá)大漲4.76%

    1.08%,道指漲0.32%。 AI浪潮之下,業(yè)界預(yù)期正不斷加強(qiáng),在AI算力需求的邊際拉動(dòng)下、疊加消費(fèi)電子復(fù)蘇,新一輪終端AI上新,相關(guān)行業(yè)正迎來具備較強(qiáng)持續(xù)性的上行周期;英偉
    的頭像 發(fā)表于 07-23 16:26 ?573次閱讀

    英偉達(dá)AI芯片市場(chǎng)還能領(lǐng)先多久?

    7月22日,國際媒體傳來消息,英偉達(dá)在近年來興起的生成式人工智能浪潮中脫穎而出,其高性能計(jì)算芯片如H100等廣受業(yè)界青睞,推動(dòng)了公司營收與利潤的大幅增長。這一強(qiáng)勁表現(xiàn)不僅助力
    的頭像 發(fā)表于 07-22 16:18 ?923次閱讀

    馬斯克自曝訓(xùn)練Grok 3用了10萬塊NVIDIA H100

    在科技界的前沿陣地上,埃隆·馬斯克再次以其前瞻性的視野和大膽的嘗試引領(lǐng)著新的風(fēng)潮。近日,馬斯克在社交媒體X上的一則回應(yīng),不經(jīng)意間透露了其即將推出的AI聊天機(jī)器人Grok 3背后的驚人秘密——這款被馬斯克譽(yù)為“非常特別”的AI產(chǎn)品,竟然是通過10萬塊
    的頭像 發(fā)表于 07-03 14:16 ?1226次閱讀

    只能跑TransformerAI芯片,卻號(hào)稱全球最快?

    電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))近日,一家由哈佛輟學(xué)生成立的初創(chuàng)公司Etched,宣布了他們?cè)诖蛟斓囊豢睢皩S谩?b class='flag-5'>AI芯片Sohu。據(jù)其聲稱該芯片的速度將是英偉達(dá)H100的20
    的頭像 發(fā)表于 07-01 09:03 ?1969次閱讀
    主站蜘蛛池模板: 四虎影院色 | 久久美女视频 | 久草色在线 | 日夜夜操 | 午夜影院在线视频 | 亚洲狠狠网站色噜噜 | 亚洲成a人伦理 | 欧美xxx69| 欧美污网站 | 手机看片国产免费永久 | 中文字幕亚洲一区二区v@在线 | 天天插天天透 | 手机免费看a | 黄色大毛片 | 久久久久久夜精品精品免费啦 | 免费香蕉视频国产在线看 | 黄色免费的视频 | 韩国理论三级在线观看视频 | 拍拍拍交性免费视频 | 天天影视欧美综合在线观看 | 九月丁香婷婷 | 天天视频免费观看高清影视 | 2020夜夜操 | 国语自产自拍秒拍在线视频 | 特黄日韩免费一区二区三区 | 天天插天天射天天操 | 黄网站视频| 欧美精品一区视频 | 色五五月五月开 | 午夜视频在线观看免费高清 | 亚洲综合在线观看一区www | 久久大尺度 | 亚洲第一色在线 | freesex性| 久久精品国产精品亚洲婷婷 | 天堂在线www天堂中文在线 | bt天堂网在线www资源 | 成人免费黄色 | 国产精品免费看久久久香蕉 | 久操精品在线观看 | 婷婷丁香花 |