混合精度訓(xùn)練的優(yōu)勢！將自動混合精度用于主流深度學(xué)習(xí)框架

傳統(tǒng)上，深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練采用的是IEEE單精度格式，但借助混合精度，可采用半精度進(jìn)行訓(xùn)練，同時保持單精度的網(wǎng)絡(luò)精度。這種同時采用單精度和半精度表示的技術(shù)被稱為混合精度技術(shù)。

混合精度訓(xùn)練的優(yōu)勢

通過使用Tensor核心，可加速數(shù)學(xué)密集型運算，如線性和卷積層。

與單精度相比，通過訪問一半的字節(jié)來加速內(nèi)存受限的運算。

降低訓(xùn)練模型的內(nèi)存要求，支持更大規(guī)模的模型或更大規(guī)模的批量訓(xùn)練。

啟用混合精度包括兩個步驟：移植模型，以適時使用半精度數(shù)據(jù)類型；以及使用損耗定標(biāo)，以保留小梯度值。

僅通過添加幾行代碼，TensorFlow、PyTorch和MXNet中的自動混合精確功能就能助力深度學(xué)習(xí)研究人員和工程師基于NVIDIA Volta和Turing GPU實現(xiàn)高達(dá)3倍的AI訓(xùn)練加速。

將自動混合精度用于主流深度學(xué)習(xí)框架

TensorFlow

NVIDIA NGC容器注冊表中TensorFlow容器可提供自動混合精度功能。要在容器內(nèi)啟用此功能，只需設(shè)置一個環(huán)境變量：

export TF_ENABLE_AUTO_MIXED_PRECISION=1

或者，您也可以在TensorFlow Python腳本中設(shè)置環(huán)境變量：

os.environ['TF_ENABLE_AUTO_MIXED_PRECISION'] = '1'

自動混合精度使用單一環(huán)境變量，在TensorFlow內(nèi)部應(yīng)用這兩個步驟，并在必要時進(jìn)行更細(xì)粒度的控制。

PyTorch

GitHub的Apex存儲庫中提供了自動混合精度功能。可將以下兩行代碼添加至當(dāng)前訓(xùn)練腳本中以啟用該功能：

model, optimizer = amp.initialize(model, optimizer)

with amp.scale_loss(loss, optimizer) as scaled_loss:scaled_loss.backward()

MXNet

我們正在構(gòu)建適用于MXNet的自動混合精度功能。您可通過GitHub了解我們的工作進(jìn)展。可將以下代碼行添加至當(dāng)前訓(xùn)練腳本中以啟用該功能：

amp.init()amp.init_trainer(trainer)with amp.scale_loss(loss, trainer) as scaled_loss:autograd.backward(scaled_loss)

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4811

瀏覽量
103004
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4921

瀏覽量
130781
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5557

瀏覽量
122568

原文標(biāo)題：Tensor核心系列課 | 探究適用于深度學(xué)習(xí)的自動混合精度

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

NVIDIA英偉達(dá)企業(yè)解決方案
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot NVIDIA將深度學(xué)習(xí)引入計算機(jī)圖形領(lǐng)域以推動行業(yè)發(fā)展
Hot 一文講述Quadro RTX 5000帶來的性能提升

New NVIDIA技術(shù)助力企業(yè)創(chuàng)建主權(quán)AI智能體
New 歐洲聯(lián)手NVIDIA打造AI基礎(chǔ)設(shè)施

精選推薦
更多

文章

資料

帖子

基于米爾全志T536開發(fā)板的多協(xié)議物聯(lián)網(wǎng)關(guān)的方案測試

米爾電子
3小時前

7 閱讀

添加單個電容器來改善雙路輸出反激式電源的交叉調(diào)節(jié)性能

德州儀器
13分鐘前

15 閱讀

芯對話｜CBM14AD50Q 高性能A/D轉(zhuǎn)換器的精準(zhǔn)突破

芯佰微電子
13分鐘前

30 閱讀

Altera FPGA與高速ADS4249和DAC3482的LVDS接口設(shè)計

FPGA研究院
58分鐘前

91 閱讀

FPGA使用Cordic算法求解角度正余弦值

FPGA研究院
1小時前

94 閱讀

TMP441/TMP442 Family IBIS Mode

張麗
61

5積分

29下載

內(nèi)置型數(shù)據(jù)寶安裝說明

吳湛
2232

2積分

6下載

Twido與Lexium05的CANopen通信

liuxin
4.76 MB

免費

54下載

無刷電機(jī)控制原理圖

lanlanw
344 KB

免費

750下載

openLooKeng高性能數(shù)據(jù)虛擬化引擎

李玉鑫
35.16 MB

2積分

1下載

[經(jīng)驗] RT-Thread 潘多拉 STM32L475

jf_42241628
10小時前

115 閱讀

ArkUI-X跨平臺技術(shù)落地-華為運動健康(二)

jf_14971143
1天前

97 閱讀

【正點原子STM32MP257開發(fā)板試用】數(shù)字識別

jf_07365693
1天前

92 閱讀

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】+NVlink技術(shù)從應(yīng)用到原理

xinglong01
1天前

87 閱讀

【高云GW5AT-LV60 開發(fā)套件試用體驗】串口通信回環(huán)

qiushi07
1天前

107 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

混合精度訓(xùn)練的優(yōu)勢！將自動混合精度用于主流深度學(xué)習(xí)框架

評論