在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何用單獨的GPU,在CIFAR-10圖像分類數據集上高效地訓練殘差網絡

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-12 09:35 ? 次閱讀

在這一系列文章中,我們主要研究如何用單獨的GPU,在CIFAR-10圖像分類數據集上高效地訓練殘差網絡(Residual networks)。

為了記錄這一過程,我們計算了網絡從零開始訓練到94%的精確度所需的時間。這一基準來自最近的DAWNBench競賽。在競賽結束后,單個GPU上的最好成績是341秒,八個GPU上最好成績是174秒。

Baseline

在這部分中,我們復制了一個基線,在6分鐘內訓練CIFAR10,之后稍稍加速。我們發現,在GPU的FLOPs計算完之前,仍有很大的提升空間。

過去幾個月,我一直在研究如何能更快度訓練深度神經網絡。這個想法是從今年年初萌生的,當時我正和Myrtle的Sam Davis進行一個項目。我們將用于自動語音識別的大型循環神經網絡壓縮后,部署到FPGAs上,重新訓練模型。來自Mozilla的基線在16個GPU上訓練了一個星期。后來,經過Sam的努力,我們在英偉達的Volta GPUs上進行混淆精度訓練,得以將訓練時間縮短了100倍,迭代時間在單個GPU上只需要不到一天的時間。

這一結果讓我思考還有什么可以實現加速?幾乎與此同時,斯坦福大學的研究人員們開啟了DAWNBench挑戰賽,比較多個深度學習基線上的訓練速度。最受人關注的就是訓練圖像分類模型在CIFAR10上達到94%的測試精確度,在ImageNet上達到93%、top5的成績。圖像分類是深度學習研究的熱門領域,但是訓練速度仍需要數小時。

到了四月份,挑戰賽接近尾聲,CIFAR10上最快的單個GPU訓練速度來自fast.ai的一名學生Ben Johnson,他在不到6分鐘(341秒)的時間里訓練出了94%的精確度。這一創新主要是混淆精度的訓練,他選擇了一個較小的網絡,有足夠的能力處理任務并且可以用更高的學習速率加速隨機梯度下降。

這時我們不禁提出一個問題:這種341秒訓練出來的94%測試精度,在CIFAR10上的表現怎么樣?該網絡的架構是一個18層的殘差網絡,如下所示。在這個案例中,圖層的數量表示卷積(紫色)和完全連接層(藍色)的序列深度:

網絡通過隨機梯度下降訓練了35個epoch,學習速率圖如下:

現在我們假設在一個英偉達Volta V100 GPU上用100%的計算力,訓練將需要多長時間。網絡在一張32×32×3的CIFAR10圖像上進行前向和后向傳遞時需要大約2.8×109FLOPs。假設參數更新不耗費計算力,那么在50000張圖像訓練35個epoch應該會在5×1015FLOPs以內完成。

Tesla V100有640個Tensor Cores,能支持125 TeraFLOPS的深度學習性能。

假設我們能發揮100%的計算力,那么訓練會在40秒內完成,這么看來341秒的成績還有很大的提升空間。

有了40秒這個目標,我們就開始了自己的訓練。首先是用上方的殘差網絡重新復現基線CIFAR10的結果。我用PyTorch創建了一個網絡,重新復制了學習速率和超參數。在AWS p3.2的圖像上用單個V100 GPU訓練,3/5的運行結果在356秒內達到了94%的精確度。

基線建好后,下一步是尋找可以立即使用的簡單改進方法。首先我們觀察到:網絡開頭是由黃色和紅色的兩個連續norm-ReLU組成的,在紫色卷積之后,我們刪去重復部分,同樣在epoch 15也發生了這樣的情況。進行調整后,網絡架構變得更簡單,4/5的運行結果在323秒內達到了94%的精確度!刷新了記錄!

另外我們還觀察到,圖像處理過程中的一些步驟(填充、標準化、位移等等)每經過訓練集一次就要重新處理一遍,會浪費很多時間。雖然提前預處理可以用多個CPU處理器減輕這一結果,但是PyTorch的數據下載器會從每次數據迭代中開始新一次的處理。這一配置時間是很短的,尤其在CIFAR10這樣的小數據集上。只要在訓練前做了準備,減少預處理壓力,就能減少處理次數。遇到更復雜的任務,需要更多預處理步驟或多個GPU時,就會在每個epoch之間保持數據下載器的處理。溢出了重復工作、減少了數據下載器后,訓練時間達到了308秒。

繼續研究后我們發現,大部分預處理時間都花在了召集隨機數字生成器,選擇數據增強而不是為它們本身增強。在完全訓練時期,我們對隨機數字生成器執行了幾百萬個單獨命令,把它們結合在一個較小的命令中,每個epoch可以省去7秒訓練時間。最終的訓練時間縮短到了297秒。這一過程的代碼可以點擊:github.com/davidcpage/cifar10-fast/blob/master/experiments.ipynb

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4882

    瀏覽量

    130376
  • 圖像分類
    +關注

    關注

    0

    文章

    96

    瀏覽量

    12079
  • 深度學習
    +關注

    關注

    73

    文章

    5547

    瀏覽量

    122296

原文標題:如何訓練你的ResNet(一):復現baseline,將訓練時間從6分鐘縮短至297秒

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    計算機視覺/深度學習領域常用數據匯總

    訓練,100張用于測試;這100個類分組成20個超類。圖像類別均有明確標注。CIFAR對于圖像分類算法測試來說是一個非常不錯的中小規模
    發表于 08-29 10:36

    線性分類

    ,...,N并且y-->1,2,3,4,...,K。這就是說,我們有N個圖像樣例,每個圖像的維度是D,共有K種不同的分類。舉例來說,CIFAR-1
    發表于 10-09 09:40

    使用CIFAR-10彩色圖片訓練出現報錯信息及解決

    PaddlePaddle使用CIFAR-10彩色圖片訓練出現輸出數據維度錯誤
    發表于 02-28 06:51

    當AI遇上FPGA會產生怎樣的反應

    FPGA方案可加速ResNet等神經網絡,能夠應用于圖片分類、對象檢測和人臉識別等應用場景。以通過構建ResNet網絡的圖片識別
    發表于 09-17 17:08

    【ELT.ZIP】OpenHarmony啃論文俱樂部—gpu上高效無損壓縮浮點數

    的壓縮率和吞吐量每個數據的壓縮效率。上表列出了每個壓縮器每個數據上實現的壓縮率和吞吐量。雖然ndzip-
    發表于 07-27 10:16

    如何進行高效的時序圖神經網絡訓練

    提高吞吐量、提高訓練性能。綜上,針對時序圖神經網絡中出現的高額設備間通信開銷問題,本文提出了局部性感知的數據劃分策略和高效的任務調度策略,以縮減時序圖神經
    發表于 09-28 10:37

    用AlexNet對cifar-10數據進行分類

    AlexNet圖像分類中是一個比較重要的網絡,在學習的過程中不僅要學會寫網絡結構,知道每一層的結構,更重要的是得知道為什么要這樣設計,這樣
    的頭像 發表于 06-06 14:18 ?2.2w次閱讀
    用AlexNet對<b class='flag-5'>cifar-10</b><b class='flag-5'>數據</b>進行<b class='flag-5'>分類</b>

    信息保留的二值神經網絡IR-Net,落地性能和實用性俱佳

    IR-Net提供了一個全新的角度來理解二值神經網絡是如何運行的,并且具有很好的通用性,可以標準的網絡訓練流程中進行優化。作者使用CIFAR-10
    的頭像 發表于 03-27 15:25 ?2074次閱讀
    信息保留的二值神經<b class='flag-5'>網絡</b>IR-Net,落地性能和實用性俱佳

    改進多尺度三維卷積神經網絡的高光譜圖像方法

    中最大池化層減少整體網絡訓練參數量,改進多尺度濾波器組和三維單元提取圖像深層局部空間-光譜聯合特征,并將其輸人 Softmax函數層預測
    發表于 03-16 14:57 ?10次下載
    改進多尺度三維<b class='flag-5'>殘</b><b class='flag-5'>差</b>卷積神經<b class='flag-5'>網絡</b>的高光譜<b class='flag-5'>圖像</b>方法

    改進多尺度三維卷積神經網絡的高光譜圖像方法

    中最大池化層減少整體網絡訓練參數量,改進多尺度濾波器組和三維單元提取圖像深層局部空間-光譜聯合特征,并將其輸人 Softmax函數層預測
    發表于 03-16 14:57 ?1次下載
    改進多尺度三維<b class='flag-5'>殘</b><b class='flag-5'>差</b>卷積神經<b class='flag-5'>網絡</b>的高光譜<b class='flag-5'>圖像</b>方法

    基于字典及寫作表達的單圖像SR算法

    ,其次利用重建的樣本圖像訓練多層字典及多層投影矩陣;
    發表于 05-07 13:54 ?8次下載

    面向圖像識別的輕量級SepNet網絡結構

    網絡深度、寬度,設計利用深度可分離卷積和網絡的可分離模塊,最終形成了一個能實現端到端
    發表于 06-03 16:20 ?3次下載

    如何搭建VGG網絡實現Mnist數據圖像分類

    如何搭建VGG網絡,實現Mnist數據圖像分類? 2 方法 步驟:
    的頭像 發表于 02-14 15:00 ?855次閱讀

    cifar10數據介紹 knn和svm的圖像分類系統案例

      摘要:本文使用CIFAR-10數據設計實現了基于k近鄰(knn)和支持向量機(svm)的圖像分類系統。首先介紹了
    發表于 07-18 15:23 ?4次下載

    網絡是深度神經網絡

    網絡(Residual Network,通常簡稱為ResNet) 是深度神經網絡的一種 ,其獨特的結構設計解決深層
    的頭像 發表于 07-11 18:13 ?1419次閱讀
    主站蜘蛛池模板: 欧美成人午夜精品免费福利 | 日韩在线视频免费观看 | 两性色午夜视频免费网 | 亚洲天堂视频一区 | 欧美视频免费一区二区三区 | 色日本视频 | 色婷婷亚洲十月十月色天 | 狠狠色噜噜狠狠狠狠色综合久 | www.色播| 视频一区中文字幕 | 美女黄色毛片 | 岛国午夜精品视频在线观看 | 三级精品视频在线播放 | 寡妇一级a毛片免费播放 | 久久精品国产清自在天天线 | 乡村乱人伦短小说 | 韩国在线视频 | 国产精品美女www爽爽爽视频 | 手机看片福利在线 | 天天干在线播放 | 国产资源在线观看 | 色综合天天色 | 国产精品日韩欧美亚洲另类 | 亚洲毛片网 | 国内自拍2021 | 午夜影院三级 | 在线播放黄色网址 | 四虎最新网址在线观看 | 在线看黄的网站 | 久久久精品免费热线观看 | 国内在线观看精品免费视频 | 久久久久久综合 | 国产精品大全 | 亚欧色视频在线观看免费 | www.色涩| www.五月婷婷| 日本不卡一区二区三区视频 | 亚洲人成网站999久久久综合 | 天天插天天操天天射 | 亚洲精品视频在线 | 狠狠色丁香 |