穿越小说完本 ,女人书籍排行榜,小说网

深度學(xué)習(xí)模型訓(xùn)練是不是大力出奇跡，顯卡越多越好？非也，沒有512張顯卡，也可以通過一些小技巧優(yōu)化模型訓(xùn)練。本文作者分析了他的實踐經(jīng)驗。

前段時間訓(xùn)練了不少模型，發(fā)現(xiàn)并不是大力出奇跡，顯卡越多越好，有時候 1 張 v100 和 2 張 v100 可能沒有什么區(qū)別，后來發(fā)現(xiàn)瓶頸在其他地方，寫篇文章來總結(jié)一下自己用過的一些小 trick，最后的效果就是在 cifar 上面跑 vgg 的時間從一天縮到了一個小時，imagenet 上跑 mobilenet 模型只需要 2 分鐘每個 epoch。（文章末尾有代碼啦）

先說下跑 cifar 的時候，如果只是用 torchvision 的 dataloader (用最常見的 padding/crop/flip 做數(shù)據(jù)增強) 會很慢，大概速度是下面這種，600 個 epoch 差不多要一天多才能跑完，并且速度時快時慢很不穩(wěn)定。

我最初以為是 IO 的原因，于是掛載了一塊內(nèi)存盤，改了一下路徑接著用 torchvision 的 dataloader 來跑，速度基本沒啥變化。。。

然后打開資源使用率看了下發(fā)現(xiàn) cpu 使用率幾乎已經(jīng)滿了（只能申請 2cpu 和一張 v100...），但是 gpu 的使用率非常低，這基本可以確定瓶頸是在 cpu 的處理速度上了。

后來查了一些資料發(fā)現(xiàn) nvidia 有一個庫叫 dali 可以用 gpu 來做圖像的前處理，從輸入，解碼到 transform 的一整套 pipeline，看了下常見的操作比如 pad/crop 之類的還挺全的，并且支持 pytorch/caffe/mxnet 等各種框架。

可惜在官方文檔中沒找到 cifar 的 pipeline，于是自己照著 imagenet 的版本寫了個，最初踩了一些坑（為了省事找了個 cifar 的 jpeg 版本來解碼，發(fā)現(xiàn)精度掉得很多還找不到原因，還得從 cifar 的二進制文件來讀取），最后總歸是達到了同樣的精度，再來看一看速度和資源使用率，總時間直接從一天縮短為一小時，并且 gpu 使用率高了很多。

再說下 imagenet 的訓(xùn)練加速，最初也是把整個數(shù)據(jù)集拷到了掛載的內(nèi)存盤里面（160g 大概夠用了，從拷貝到解壓完成大概 10 分鐘不到），發(fā)現(xiàn)同樣用 torchvision 的 dataloader 訓(xùn)練很不穩(wěn)定，于是直接照搬了 dali 官方的 dataloader 過來，速度也是同樣起飛 hhhh（找不到當(dāng)時訓(xùn)練的圖片了），然后再配合 apex 的混合精度和分布式訓(xùn)練，申請 4 塊 v100，gpu 使用率可以穩(wěn)定在 95 以上，8 塊 v100 可以穩(wěn)定在 90 以上，最后直接上到 16 張 v100 和 32cpu，大概也能穩(wěn)定在 85 左右（看資源使用率發(fā)現(xiàn) cpu 到頂了，不然估計 gpu 也能到 95 以上），16 塊 v100 在 ImageNet 上跑 mobilenet 只需要 2 分鐘每個 epoch。

寫的 dataloader 放到了 github 上，我測試的精度跟 torchvision 的版本差不多，不過速度上會比 torchvision 快很多，后面有空也會寫一些其他常用 dataloader 的 dali 版本放上去。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4794

瀏覽量
129491
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1210

瀏覽量
24861
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5521

瀏覽量
121649

原文標(biāo)題：在深度學(xué)習(xí)中喂飽GPU

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

深度學(xué)習(xí)工作負載中GPU與LPU的主要差異

，一個新的競爭力量——LPU（Language Processing Unit，語言處理單元）已悄然登場，LPU專注于解決自然語言處理（NLP）任務(wù)中的順序性問題，是構(gòu)建AI應(yīng)用不可或缺的一環(huán)。本文旨在探討深度學(xué)習(xí)工作負載

發(fā)表于 12-09 11:01 ?2349次閱讀

<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>工作負載<b class='flag-5'>中</b><b class='flag-5'>GPU</b>與LPU的主要差異

GPU在深度學(xué)習(xí)中的應(yīng)用 GPUs在圖形設(shè)計中的作用

隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)作為其核心部分，已經(jīng)成為推動技術(shù)進步的重要力量。GPU（圖形處理單元）在深度

發(fā)表于 11-19 10:55 ?792次閱讀

NPU在深度學(xué)習(xí)中的應(yīng)用

設(shè)計的硬件加速器，它在深度學(xué)習(xí)中的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學(xué)習(xí)算法優(yōu)化的處理器，它與傳統(tǒng)的CPU和

發(fā)表于 11-14 15:17 ?998次閱讀

pcie在深度學(xué)習(xí)中的應(yīng)用

深度學(xué)習(xí)模型通常需要大量的數(shù)據(jù)和強大的計算能力來訓(xùn)練。傳統(tǒng)的CPU計算資源有限，難以滿足深度學(xué)習(xí)的需求。因此，GPU（圖形處理單元）和TPU

發(fā)表于 11-13 10:39 ?563次閱讀

AI干貨補給站 | 深度學(xué)習(xí)與機器視覺的融合探索

在智能制造的浪潮中，阿丘科技作為業(yè)界領(lǐng)先的工業(yè)AI視覺平臺及解決方案提供商，始終致力于推動AI+機器視覺技術(shù)的革新與應(yīng)用。為此，我們特別開設(shè)了「AI干貨補給站」專欄，分享此領(lǐng)域的基礎(chǔ)知識及實踐經(jīng)驗

發(fā)表于 10-29 08:04 ?291次閱讀

AI干貨補給站 | <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>與機器視覺的融合探索

GPU深度學(xué)習(xí)應(yīng)用案例

GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要，以下是一些GPU深度

發(fā)表于 10-27 11:13 ?537次閱讀

深度學(xué)習(xí)GPU加速效果如何

圖形處理器（GPU）憑借其強大的并行計算能力，成為加速深度學(xué)習(xí)任務(wù)的理想選擇。

發(fā)表于 10-17 10:07 ?283次閱讀

FPGA做深度學(xué)習(xí)能走多遠？

的發(fā)展前景較為廣闊，但也面臨一些挑戰(zhàn)。以下是一些關(guān)于 FPGA 在深度學(xué)習(xí)中應(yīng)用前景的觀點，僅供參考： ? 優(yōu)勢方面： ? 高度定制化的計算架構(gòu)：FPGA 可以根據(jù)

發(fā)表于 09-27 20:53

深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

應(yīng)用中往往難以實現(xiàn)。因此，無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述

發(fā)表于 07-09 10:50 ?1007次閱讀

深度學(xué)習(xí)在視覺檢測中的應(yīng)用

深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域中的一個重要分支，其核心在于通過構(gòu)建具有多層次的神經(jīng)網(wǎng)絡(luò)模型，使計算機能夠從大量數(shù)據(jù)中自動學(xué)習(xí)并提取特征，進而實現(xiàn)對復(fù)

發(fā)表于 07-08 10:27 ?899次閱讀

深度學(xué)習(xí)在自動駕駛中的關(guān)鍵技術(shù)

隨著人工智能技術(shù)的飛速發(fā)展，自動駕駛技術(shù)作為其中的重要分支，正逐漸走向成熟。在自動駕駛系統(tǒng)中，深度學(xué)習(xí)技術(shù)發(fā)揮著至關(guān)重要的作用。它通過模擬人腦的學(xué)習(xí)

發(fā)表于 07-01 11:40 ?891次閱讀

新手小白怎么學(xué)GPU云服務(wù)器跑深度學(xué)習(xí)?

新手小白想用GPU云服務(wù)器跑深度學(xué)習(xí)應(yīng)該怎么做? 用個人主機通常pytorch可以跑但是LexNet，AlexNet可能就直接就跑不動,如何實現(xiàn)更經(jīng)濟便捷的實現(xiàn)GPU云服務(wù)器

發(fā)表于 06-11 17:09

什么是RAG，RAG學(xué)習(xí)和實踐經(jīng)驗

高級的RAG能很大程度優(yōu)化原始RAG的問題，在索引、檢索和生成上都有更多精細的優(yōu)化，主要的優(yōu)化點會集中在索引、向量模型優(yōu)化、檢索后處理等模塊進行優(yōu)化

發(fā)表于 04-24 09:17 ?1169次閱讀

中科曙光憑借技術(shù)優(yōu)勢以及實踐經(jīng)驗獲頒“核心參編單位”證書

近日，中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟面向參編單位頒發(fā)證書。中科曙光憑借技術(shù)優(yōu)勢以及實踐經(jīng)驗，全程參編《面向訓(xùn)練任務(wù)的人工智能通用技術(shù)要求》標(biāo)準(zhǔn)（以下簡稱“標(biāo)準(zhǔn)”），獲頒“核心參編單位”證書。

發(fā)表于 03-25 11:05 ?725次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

硬件公司供貨的不斷增加，GPU 在深度學(xué)習(xí)中的市場需求還催生了大量公共云服務(wù)，這些服務(wù)為深度

發(fā)表于 03-21 15:19

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

實踐經(jīng)驗：在深度學(xué)習(xí)中喂飽GPU

評論

深度學(xué)習(xí)工作負載中GPU與LPU的主要差異

GPU在深度學(xué)習(xí)中的應(yīng)用 GPUs在圖形設(shè)計中的作用

NPU在深度學(xué)習(xí)中的應(yīng)用

pcie在深度學(xué)習(xí)中的應(yīng)用

AI干貨補給站 | 深度學(xué)習(xí)與機器視覺的融合探索

GPU深度學(xué)習(xí)應(yīng)用案例

深度學(xué)習(xí)GPU加速效果如何

FPGA做深度學(xué)習(xí)能走多遠？

深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

深度學(xué)習(xí)在視覺檢測中的應(yīng)用

深度學(xué)習(xí)在自動駕駛中的關(guān)鍵技術(shù)

新手小白怎么學(xué)GPU云服務(wù)器跑深度學(xué)習(xí)?

什么是RAG，RAG學(xué)習(xí)和實踐經(jīng)驗

中科曙光憑借技術(shù)優(yōu)勢以及實踐經(jīng)驗獲頒“核心參編單位”證書

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU