在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA 與飛槳團隊合作開發基于 ResNet50 的模型示例

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2022-10-18 10:03 ? 次閱讀

你還在頭疼于經典模型的復現嗎?不知何處可以得到全面可參照的 Benchmark?

為了讓飛槳開發者可以快速復現頂尖的精度和超高的性能,NVIDIA 與飛槳團隊合作開發了基于 ResNet50 的模型示例,并將持續開發更多的基于 NLP 和 CV 等領域的經典模型,后續陸續發布的模型有 BERT、PP-OCR、PP-YOLO 等,歡迎持續關注。

深度學習模型是什么?

深度學習包括訓練和推理兩個環節。訓練是指通過大數據訓練出一個復雜的神經網絡模型,即用大量標記過的數據來“訓練”相應的系統,使之可以適應特定的功能。推理是指利用訓練好的模型,使用新數據推理出各種結論。深度學習模型是在訓練工作過程中生成,并將其保存,用于推理當中。

3a7b4034-4e20-11ed-a3b6-dac502259ad0.png

深度學習訓練推理示意圖

NVIDIA Deep Learning Examples

全新上線飛槳 ResNet50

NVIDIA Deep Learning Examples 倉庫上線了基于飛槳實現的 ResNet50 模型的性能優化結果,該示例全面適配各類 NVIDIA GPU 和各種硬件拓撲(單機單卡,單機多卡),極致優化性能。值得一提的是,Deep Learning Examples 中飛槳 ResNet50 模型訓練速度已超過對應的 PyTorch 版 ResNet50。

3af18e88-4e20-11ed-a3b6-dac502259ad0.png

NVIDIA Deep Learning Examples 倉庫中基于飛槳與 PyTorch 的 ResNet50 模型在同等 GPU 配置下的訓練性能比較,GPU 配置為 NVIDIA DGX A100(8x A100 80GB)。

*數據來源:[1][2]

NVIDIA Deep Learning Examples 倉庫中飛槳 ResNet50 有哪些優勢?

優勢一:通過使用 DALI 等工具,加速 GPU 數據預處理性能

NVIDIA Data Loading Library( DALI )專注于使用 GPU 加速深度學習應用中的數據加載和預處理。深度學習數據預處理涉及到復雜的、多個階段的處理過程,如 ResNet50 模型訓練過程中,在 CPU 上處理圖片的加載、解碼、裁剪、翻轉、縮放和其他數據增強等操作會成為瓶頸,限制訓練和推理的性能和可擴展性。DALI 將這些操作轉移到 GPU 上,最大限度地提高輸入流水線的吞吐量,并且其中數據預取,并行執行和批處理的操作對用戶是透明的。

優勢二:通過使用 AMP,ASP 等工具,提高推理性能

飛槳內置支持 AMP(自動混合精度)及 ASP(自動稀疏化)模塊,AMP 模塊可在模型訓練過程中,自動為算子選擇合適的計算精度(FP32/FP16),充分利用 Tensor Cores 的性能,在不影響模型精度的前提下,大幅加速模型訓練。

ASP 模塊實現了一個工作流將深度學習模型從稠密修剪為 2:4 的稀疏模式,經過重訓練之后,可恢復到與稠密模型相當的精度。稀疏模型可以充分利用 A100 Tensor Core GPU 的加速特性,被修剪的權重矩陣參數存儲量減半,并且可以獲得理論上 2 倍的計算加速,從而大幅提高推理性能。

優勢三:通過集成 TensorRT,優化推理模型

飛槳推理集成了 TensorRT,稱為 Paddle-TRT。它可以把部分模型子圖交給 TensorRT 加速,而其他部分仍然用飛槳執行,從而達到最佳的推理性能。

優勢四:豐富的 Benchmark

NVIDIA Deep Learning Examples 倉庫中

有哪些 Benchmark?

NVIDIA Deep Learning Examples 倉庫中的 Benchmark 主要包含訓練精度結果、訓練性能結果、推理性能結果、Paddle-TRT 性能結果幾個方面。

1、訓練精度結果

3b0a8dac-4e20-11ed-a3b6-dac502259ad0.png

訓練精度: NVIDIA DGX A100 (8x A100 80GB)

*數據來源:[1]

3b4da61e-4e20-11ed-a3b6-dac502259ad0.png

集成 ASP 的提高精度: NVIDIA DGX A100 (8x A100 80GB)

*數據來源:[1]

2、訓練性能結果

3b6ce75e-4e20-11ed-a3b6-dac502259ad0.png

訓練性能: NVIDIA DGX A100 (8x A100 80GB)

*數據來源:[1]

3b8aa3b6-4e20-11ed-a3b6-dac502259ad0.png

集成 ASP 的訓練性能: NVIDIA DGX A100 (8x A100 80GB)

*數據來源:[1]

3、推理性能結果

3bfc266c-4e20-11ed-a3b6-dac502259ad0.jpg

推理性能: NVIDIA DGX A100 (1x A100 80GB)

*數據來源:[1]

4、Paddle-TRT 性能結果

3c63f922-4e20-11ed-a3b6-dac502259ad0.jpg

Paddle-TRT 性能結果: NVIDIA DGX A100 (1x A100 80GB)

*數據來源:[1]

3cdb0cc4-4e20-11ed-a3b6-dac502259ad0.jpg

Paddle-TRT 性能結果: NVIDIA A30 (1x A30 24GB)

*數據來源:[1]

3cfce2ea-4e20-11ed-a3b6-dac502259ad0.jpg

Paddle-TRT 性能結果: NVIDIA A10 (1x A10 24GB)

*數據來源:[1]

如何下載 NVIDIA Deep Learning Examples 中的飛槳 ResNet50?

登錄 GitHub NVIDIA Deep Learning Examples 倉庫, 找到 PaddlePaddle/Classification/RN50/1.5,下載模型源代碼即可。

3d60954c-4e20-11ed-a3b6-dac502259ad0.png

NVIDIA Deep Learning Examples 飛槳 ResNet50 下載頁面

飛槳容器如何安裝?

容器包含了深度學習框架在運行時所需的所有部件(包括驅動,工具包等),它具有輕量化與可復制性、打包和執行環境合二為一以及簡化應用程序部署等優勢,因此,被認為是在同一環境中實現“構建、測試、部署”的最佳平臺。容器允許我們創建標準化可復制的輕量級開發環境,擺脫來自 Hypervisor 所帶來運行開銷。應用程序可以基于 Container Runtime 運行在“任意”系統中。

NVIDIA 與百度飛槳聯合開發了 NGC 飛槳容器,將最新版本的飛槳與最新的 NVIDIA 的軟件棧進行了無縫的集成與性能優化,最大程度的釋放飛槳框架在 NVIDIA 最新硬件上的計算能力。這樣,用戶不僅可以快速開啟 AI 應用,專注于創新和應用本身,還能夠在 AI 訓練和推理任務上獲得飛槳+NVIDIA 帶來的飛速體驗。

NGC 飛槳容器已經集成入飛槳官網主頁。你可以選擇 “飛槳版本”+“Linux”+“Docker”+“CUDA 11.7”找到對應的 Container 下載指令。

3e05508c-4e20-11ed-a3b6-dac502259ad0.png

并參考《NGC 飛槳容器安裝指南》下載安裝:https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

3e57eb58-4e20-11ed-a3b6-dac502259ad0.png

運行結果如下:

3f156b06-4e20-11ed-a3b6-dac502259ad0.png

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5258

    瀏覽量

    105844
  • 模型
    +關注

    關注

    1

    文章

    3499

    瀏覽量

    50058
  • 大數據
    +關注

    關注

    64

    文章

    8952

    瀏覽量

    139566
  • 飛槳
    +關注

    關注

    0

    文章

    35

    瀏覽量

    2439

原文標題:NVIDIA Deep Learning Examples飛槳ResNet50模型上線訓練速度超PyTorch ResNet50

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    全志科技攜凌嵌入式T527核心板亮相OpenHarmony開發者大會

    全志科技作為OpenHarmony生態的重要合作伙伴受邀參會,還重點介紹了與凌嵌入式合作開發的FET527-C核心板
    的頭像 發表于 05-30 11:02 ?472次閱讀
    全志科技攜<b class='flag-5'>飛</b>凌嵌入式T527核心板亮相OpenHarmony<b class='flag-5'>開發</b>者大會

    模型時代的深度學習框架

    作者:算力魔方創始人/英特爾創新大使劉力 在 CNN時代 ,AI模型的參數規模都在百萬級別,僅需在單張消費類顯卡上即可完成訓練。例如,以業界知名的CNN模型ResNet50 為例,模型
    的頭像 發表于 04-25 11:43 ?201次閱讀
    大<b class='flag-5'>模型</b>時代的深度學習框架

    基于RV1126開發板的resnet50訓練部署教程

    本教程基于圖像分類算法ResNet50的訓練和部署到EASY-EAI-Nano(RV1126)進行說明
    的頭像 發表于 04-18 15:07 ?351次閱讀
    基于RV1126<b class='flag-5'>開發</b>板的<b class='flag-5'>resnet50</b>訓練部署教程

    燧原科技正式納入例行版本發布體系

    燧原科技與經過長時間的適配合作和持續集成(CI)建設,對合?的每?行代碼都在燧原硬件上進?了驗證。如今,燧原正式納入
    的頭像 發表于 04-11 11:31 ?387次閱讀
    燧原科技正式納入<b class='flag-5'>飛</b><b class='flag-5'>槳</b>例行版本發布體系

    百度框架3.0正式版發布

    、推理等任務都離不開深度學習框架的優化與支撐。 框架3.0,從設計理念上實現了從底層硬件適配到頂層開發體驗的全面進化,在訓練效率、性能、兼容性等關鍵指標上建立了新標桿。 其中, “動靜統一自動并行”、“大
    的頭像 發表于 04-02 19:03 ?595次閱讀
    百度<b class='flag-5'>飛</b><b class='flag-5'>槳</b>框架3.0正式版發布

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    月 18 日 —— ?NVIDIA 今日發布具有推理功能的開源 Llama Nemotron 模型系列,旨在為開發者和企業提供業務就緒型基礎,助力構建能夠獨立工作或以團隊形式完成復雜
    發表于 03-19 09:31 ?204次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開放推理 AI <b class='flag-5'>模型</b>系列,助力<b class='flag-5'>開發</b>者和企業構建代理式 AI 平臺

    如何在C#中部署PP-OCRv4模型

    《超4萬6千星的開源OCR黑馬登場,PaddleOCR憑什么脫穎而出?》收到了讀者熱烈反響c,很多讀者提出:如何在C#中部署PP-OCRv4模型?本文從零開始詳細介紹整個過程。
    的頭像 發表于 02-17 10:58 ?1627次閱讀
    如何在C#中部署<b class='flag-5'>飛</b><b class='flag-5'>槳</b>PP-OCRv4<b class='flag-5'>模型</b>

    使用OpenVINO C# API輕松部署PP-OCRv4模型

    ? 作者:算力魔方創始人/英特爾創新大使劉力 《超4萬6千星的開源OCR黑馬登場,PaddleOCR憑什么脫穎而出?》 收到了讀者熱烈反響,很多讀者提出:如何在C#中部署PP-OCRv4模型
    的頭像 發表于 02-12 10:42 ?1314次閱讀
    使用OpenVINO C# API輕松部署<b class='flag-5'>飛</b><b class='flag-5'>槳</b>PP-OCRv4<b class='flag-5'>模型</b>

    在Ubuntu 24.04 LTS上安裝PaddleX

    了眾多開箱即用的預訓練模型,可以實現模型從訓練到推理的全流程開發,支持國內外多款主流硬件,助力AI 開發者進行產業實踐。 ? 本文將介紹在Ubuntu 24.04.1LTS上從零開始安
    的頭像 發表于 11-11 17:45 ?767次閱讀
    在Ubuntu 24.04 LTS上安裝<b class='flag-5'>飛</b><b class='flag-5'>槳</b>PaddleX

    基于改進ResNet50網絡的自動駕駛場景天氣識別算法

    摘要:為了充分利用自動駕駛汽車路測圖像數據,增加行駛過程中對天氣情況識別的準確性,提出了一種基于改進ResNet50網絡的自動駕駛場景天氣識別算法。該算法將SE模塊與ResNet50網絡相結合,通過
    的頭像 發表于 11-09 11:14 ?1295次閱讀
    基于改進<b class='flag-5'>ResNet50</b>網絡的自動駕駛場景天氣識別算法

    NVIDIA擬與印度合作開發AI芯片

    近日,據媒體報道,全球領先的圖形處理器制造商NVIDIA提出了與印度合作開發人工智能芯片的計劃。此舉旨在充分利用印度豐富的半導體設計人才資源,并深入拓展當地日益增長的市場。 NVIDIA的這一
    的頭像 發表于 10-24 11:17 ?811次閱讀

    NVIDIA Modulus助力風阻預測模型實現

    NVIDIA 與百度雙方技術團隊通過在數據、算法、模型等多個方面的合作,共同打造了一款適用于
    的頭像 發表于 08-23 17:10 ?1324次閱讀

    TI (德州儀器) 團隊到訪凌嵌入式總部,深化交流與合作

    7月10日,TI (德州儀器) Sitara MPU業務負責人及TI中國區技術業務團隊一行來到凌嵌入式保定總部進行交流,與凌嵌入式的企業負責人以及技術和產品團隊進行了會談。雙方就產
    的頭像 發表于 07-12 15:29 ?1162次閱讀
    TI (德州儀器) <b class='flag-5'>團隊</b>到訪<b class='flag-5'>飛</b>凌嵌入式總部,深化交流與<b class='flag-5'>合作</b>

    NVIDIA與百度攜手革新汽車風阻預測:DNNFluid-Car模型的崛起

    在追求更高效、更環保的汽車設計浪潮中,NVIDIA與百度攜手突破傳統界限,共同研發了一款革命性的3D高精度汽車風阻預測模型——DNNFluid-Car。這款
    的頭像 發表于 07-09 14:56 ?2122次閱讀

    百度發布文心大模型4.0 Turbo與框架3.0,引領AI技術新篇章

    SUMMIT深度學習開發者大會2024上,向世界展示了百度在AI領域的最新成果——文心大模型4.0 Turbo和框架3.0,并詳細披露了
    的頭像 發表于 06-29 16:03 ?1006次閱讀
    主站蜘蛛池模板: 污污视频网址 | 三级网站在线看 | 美女啪啪91| 她也啪97在线视频 | 一级特黄a免费大片 | 日本噜噜影院 | 日本xxxⅹ69xxxx护士 | 日本精品高清一区二区2021 | 成年男人永久免费看片 | 欧美涩区| 色六月丁香 | 日本一本一道久久香蕉免费 | 人与牲动交xxxxbbbb | 国产一区二区在线不卡 | 色天使美国 | 久久精品人 | 在线视频免费观看 | 亚洲一区二区中文字幕 | 性感美女毛片 | 久青草国产在线视频_久青草免 | www.淫.com| 一区二区高清在线 | 天天干天天做天天射 | 四虎影院在线播放 | 色亚洲色图 | 国产精品久久久久久久久福利 | 操美女视频网站 | 国产91色综合久久免费分享 | 男女爱爱视频免费 | 天天爽夜夜爽免费看 | 久久福利青草精品资源 | 五月月色开心婷婷久久合 | 日本免费一区二区视频 | 天堂成人| 亚洲www视频| 屁股趴过来欠打高h | 国产精品高清免费网站 | 奇米4色| 五月天在线播放 | 久久两性视频 | 网www天堂资源在线 网红和老师啪啪对白清晰 网络色综合久久 |