在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

HugeCTR能夠高效地利用GPU來進行推薦系統的訓練

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2022-04-01 09:40 ? 次閱讀

1. Introduction

HugeCTR 能夠高效地利用 GPU 來進行推薦系統的訓練,為了使它還能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,我們開發了 SparseOperationKit (SOK),來將 HugeCTR 中的高級特性封裝為 TensorFlow 可直接調用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級特性來加速他們的推薦系統。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

圖 1. SOK embedding 工作流程

SOK 以數據并行的方式接收輸入數據,然后在 SOK 內部做黑盒式地模型轉換,最后將計算結果以數據并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶已有的代碼,以更方便、快捷地在多個 GPU 上進行擴展。

SOK 不僅僅是加速了 TensorFlow 中的算子,而是根據業界中的實際需求提供了對應的新解決方案,比如說 GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自帶的通信工具,也可以使用 Horovod 等第三方插件來作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標準模型 DLRM 來對 SOK 的性能進行測試。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

圖 2. SOK 性能測試數據

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以獲得更快的訓練速度以及更高的吞吐量。

3. API

SOK 提供了簡潔的、類 TensorFlow 的 API;使用 SOK 的方式非常簡單、直接;讓用戶通過修改幾行代碼就可以使用 SOK。

1. 定義模型結構

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左側是使用 TensorFlow 的 API 來搭建模型,右側是使用 SOK 的 API 來搭建相同的模型。使用 SOK 來搭建模型的時候,只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對應的 API 即可。

2. 使用 Horovod 來定義 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同樣的,左側是使用 TensorFlow 來定義 training loop,右側是使用 SOK 時,training loop 的定義方式。可以看到,使用 SOK 時,只需要對 Embedding Variables 和 Dense Variables 進行分別處理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來定義 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

類似的,還可以使用 TensorFlow 自帶的通信工具來定義 training loop。

4. 開始訓練

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在開始訓練過程時,使用 SOK 與使用 TensorFlow 時所用代碼完全一致。

4. 結語

SOK 將 HugeCTR 中的高級特性包裝為 TensorFlow 可以直接使用的模塊,通過修改少數幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進設計。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4904

    瀏覽量

    130586
  • SOK
    SOK
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6382

原文標題:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    提升AI訓練性能:GPU資源優化的12個實戰技巧

    在人工智能與機器學習技術迅速發展的背景下,GPU計算資源的高效利用已成為關鍵技術指標。優化的GPU資源分配不僅能顯著提升模型訓練速度,還能實
    的頭像 發表于 05-06 11:17 ?271次閱讀
    提升AI<b class='flag-5'>訓練</b>性能:<b class='flag-5'>GPU</b>資源優化的12個實戰技巧

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能GPU上實現了高效的混合
    的頭像 發表于 03-17 17:05 ?430次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力AI<b class='flag-5'>訓練</b>

    GPU是如何訓練AI大模型的

    在AI模型的訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何訓練AI大模型的。
    的頭像 發表于 12-19 17:54 ?591次閱讀

    如何利用地物光譜進行地利用分類?

    在土地利用分類領域,地物光譜技術正發揮著日益重要的作用。下面就為大家簡要介紹如何利用地物光譜進行地利用分類: 1.地物光譜數據采集: 使用專業光譜儀對不同地物
    的頭像 發表于 12-13 14:44 ?370次閱讀
    如何<b class='flag-5'>利用</b>地物光譜<b class='flag-5'>進行</b>土<b class='flag-5'>地利用</b>分類?

    訓練AI大模型需要什么樣的gpu

    訓練AI大模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴展性的GPU。在選擇時,需要根據具體需求進行權衡和選擇。
    的頭像 發表于 12-03 10:10 ?505次閱讀

    NPU與GPU的性能對比

    它們在不同應用場景下的表現。 一、設計初衷與優化方向 NPU : 專為加速AI任務而設計,包括深度學習和推理。 針對神經網絡的計算模式進行了優化,能夠高效地執行矩陣乘法、卷積等操作。 擁有眾多小型處理單元,配備專門的內存體系結構和數據流優化策略,對深度學習任務的處理特別
    的頭像 發表于 11-14 15:19 ?3655次閱讀

    PyTorch GPU 加速訓練模型方法

    在深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和方法
    的頭像 發表于 11-05 17:43 ?1206次閱讀

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習的核心應用領域之一,GPU在加速圖像識別模型訓練方面發揮著關鍵作用。通過
    的頭像 發表于 10-27 11:13 ?1041次閱讀

    為什么ai模型訓練要用gpu

    GPU憑借其強大的并行處理能力和高效的內存系統,已成為AI模型訓練不可或缺的重要工具。
    的頭像 發表于 10-24 09:39 ?822次閱讀

    GPU服務器在AI訓練中的優勢具體體現在哪些方面?

    能力特別適合于深度學習中的大規模矩陣運算和高維度數據處理,這些是AI訓練中常見的計算密集型任務。 2、高效的數據處理:AI訓練通常涉及大量的數據,GPU服務器
    的頭像 發表于 09-11 13:24 ?845次閱讀

    蘋果承認使用谷歌芯片訓練AI

    蘋果公司最近在一篇技術論文中披露,其先進的人工智能系統Apple Intelligence背后的兩個關鍵AI模型,是在谷歌設計的云端芯片上完成預訓練的。這一消息標志著在尖端AI訓練領域,大型科技公司正積極探索并實踐著英偉達
    的頭像 發表于 07-30 17:03 ?865次閱讀

    SOK在手機行業的應用案例

    通過封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡稱 SOK)使得 TensorFlow 用戶可以借助 HugeCTR 的一些相關特性和優化加速 GPU 上的分布式 Embed
    的頭像 發表于 07-25 10:01 ?697次閱讀
    SOK在手機行業的應用案例

    電磁干擾訓練系統原理是什么

    智慧華盛恒輝電磁干擾訓練系統的原理主要基于電磁干擾(EMI)的基本原理,即利用電磁波對電子設備或系統產生的干擾,通過模擬真實的電磁環境,對受訓人員
    的頭像 發表于 07-22 16:34 ?650次閱讀

    llm模型訓練一般用什么系統

    LLM(Large Language Model,大型語言模型)是近年來在自然語言處理領域取得顯著成果的一種深度學習模型。它通常需要大量的計算資源和數據進行訓練。以下是關于LLM模型訓練
    的頭像 發表于 07-09 10:02 ?724次閱讀

    如何利用Matlab進行神經網絡訓練

    ,使得神經網絡的創建、訓練和仿真變得更加便捷。本文將詳細介紹如何利用Matlab進行神經網絡訓練,包括網絡創建、數據預處理、訓練過程、參數調
    的頭像 發表于 07-08 18:26 ?3352次閱讀
    主站蜘蛛池模板: 啪视频免费 | 久久99精品久久久久久秒播 | 午夜高清 | 黄色网址中文字幕 | 老师在办公室被躁得舒服小说 | semimi亚洲综合在线观看 | 午夜在线观看完整高清免费 | 国产三级精品最新在线 | 操她视频网站 | 亚洲久优优色优在线播放 | 亚洲国产色图 | 色婷婷色丁香 | 色yeye在线观看 | 午夜在线亚洲男人午在线 | 久青草国产免费观看 | 午夜爱爱爱爱爽爽爽网站免费 | 欧洲人体超大胆露私视频 | 91极品反差婊在线观看 | 日本一区二区三区四区视频 | 免费黄色毛片 | 欧美午夜免费观看福利片 | 牛牛碰在线 | 4438成人成人高清视频 | 天天干天天插天天操 | 国产精品理论片在线观看 | 亚洲最大成人 | 毛片区 | 国产成人v爽在线免播放观看 | 九九热在线精品 | 亚洲综合在线观看一区www | 丝袜美腿一区 | 99久免费精品视频在线观看2 | www.色亚洲 | 女人张开腿男人桶 | 末发育女一区二区三区 | 亚洲一在线 | 一级特黄毛片 | 女人张开腿 让男人桶个爽 免费观看 | 天天天综合| 黄视频免费在线看 | 天天操夜夜逼 |