在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新的 MLPerf 推理網絡部分展現 NVIDIA InfiniBand 網絡和 GPUDirect RDMA 的強大能力

NVIDIA英偉達 ? 來源:未知 ? 2023-07-19 19:10 ? 次閱讀

34e8bcc8-2624-11ee-962d-dac502259ad0.png

在 MLPerf Inference v3.0中,NVIDIA 首次將網絡納入了 MLPerf 的評測項目,成為了 MLPerf 推理數據中心套件的一部分。網絡評測部分旨在模擬在真實的數據中心中,網絡軟、硬件對于端到端推理性能的影響。

在網絡評測中,有兩類節點:前端節點生成查詢,這些查詢通過業界標準的網絡(如以太網或 InfiniBand 網絡)發送到加速節點,由加速器節點進行處理和執行推理。

352c6e1e-2624-11ee-962d-dac502259ad0.png

圖 1:單節點封閉測試環境與多節點網絡測試環境

圖 1 顯示了在單個節點上運行的封閉測試環境,以及在網絡測試環境中通過前端節點生成查詢,然后傳輸到加速器節點上進行推理的工作流程。

在網絡測試場景中,加速器節點包含了推理加速器以及所有網絡組件,包括網卡(NIC)、網絡交換機和完整的網絡體系。因此,網絡評測旨在測試加速器節點和網絡的性能,因為前端節點在基準測試中的作用有限,可以排除它們對測試的影響。

MLPerf 推理 v3.0 網絡評測中的

NVIDIA 網絡性能表現

在 MLPerf 推理 v3.0 中,NVIDIA 提交了在 ResNet-50 和 BERT 兩種場景下的網絡性能結果,從 NVIDIA 提交的性能結果來看,憑借 NVIDIA ConnectX-6 InfiniBand 智能網卡和 GPUDirect RDMA 技術提供的超高網絡帶寬和極低延遲,ResNet-50 在網絡環境中達到了 100% 的單節點性能。

3552dad6-2624-11ee-962d-dac502259ad0.png

表 1:ResNet-50 和 BERT 上網絡評測性能和單機封閉測試性能的比較,有限帶寬實現了理想性能

NVIDIA 平臺在 BERT 工作負載方面也表現出了出色的性能,和單機封閉測試結果性能僅有輕微的差異,這主要是由于主機端的一些開銷而導致。

在 NVIDIA 網絡評測中用到的關鍵技術

大量的全棧技術使 NVIDIA 網絡評測中的強大性能得以實現:

  • NVIDIA TensorRT 優化推理引擎。

  • InfiniBand RDMA 網絡,為張量通信提供低延遲和高帶寬,基于 Mellanox OFED 軟件堆棧中的 IBV verbs 實現。

  • 通過以太網 TCP Socket 進行配置交換、運行狀態同步和心跳監控。

  • 利用 CPU、GPU 和 NIC 資源獲得最佳性能時 NUMA-Aware。

網絡評測部分實施細節

以下是 MLPerf 推理中網絡評測部分的實現細節:
  • 采用高吞吐量、低延遲的 InfiniBand 網絡進行通信
  • 網絡評測部分推理流程
  • 性能優化

通過高吞吐量、低延遲的

InfiniBand 網絡進行通信

網絡評測過程要求提交者通過查詢調度庫(QDL)從負載生成器獲取查詢,然后根據提交者設置的方式將查詢發送到加速器節點。

  • 在生成輸入張量序列的前端節點,QDL 通過測試端(SUT)的 API 對 LoadGen 系統進行抽象,這樣用于本地測試的加速器的 MLPerf 推理 LoadGen 就變得可見。

  • 在加速器節點,通過 QDL 與負責推理請求和響應的 LoadGen 直接交互。在 NVIDIA 的 QDL 實現中,我們使用 InfiniBand IBV verbs 和以太網 TCP Socket 實現了無縫數據通信和同步。

3572b810-2624-11ee-962d-dac502259ad0.png

圖 2:QDL 內部的 InfiniBand 數據交換組件

圖 2 顯示了基于 InfiniBand 網絡技術的 QDL 中的數據交換組件。

359232e4-2624-11ee-962d-dac502259ad0.png

圖 3:前端節點和加速器節點之間建立連接的示例

圖 3 顯示了如何使用該數據交換組件在兩個節點之間建立連接。

InfiniBand 網絡的隊列對(QPs)是節點之間的連接的基礎。NVIDIA 采用了無損可靠連接(RC)方式(和 TCP 類似)和傳輸模式,并利用 InfiniBand HDR 光纖網絡來維持高達 200 Gbits/sec 的吞吐量。

基準測試開始時,QDL 在初始化過程中會發現系統中的所有 InfiniBand 網卡,并根據存儲在 IBCfgs 中的配置信息,指定網卡作為測試的 IBDevice 實例。在這個測試過程中,用于 RDMA 傳輸的內存區域被分配、固定和注冊為 RDMA 緩沖區,并與相應的的 Handle 一起保存在 IBResources 中。

利用 GPUDirect RDMA 技術,可以將加速器節點的 GPU 顯存作為 RDMA 緩沖區,并將 RDMA 緩沖區信息以及相應的保護密鑰通過以太網的 TCP Socket 發送給相對應的節點,這樣就為 QDL 創建 IBConnection 實例。

由于 QDL 支持 NUMA-Aware,可將最近的 NUMA 主機內存、CPU 和 GPU 映射到每張網卡,每個 NIC 都通過 IBConnection 與對端網卡 NIC 進行通信。

網絡評測部分推理流程

35b5c6b4-2624-11ee-962d-dac502259ad0.png

圖 4:使用 Direct GPU RDMA 從前端節點到加速器節點的推理請求流

圖 4 顯示了推理請求是如何從前端節點發送到加速器節點并在加速器節點上被處理的:

  1. LoadGen 生成一個查詢(推理請求),其中包含輸入張量。

  2. QDL 通過仲裁的方式將該查詢重定向到適當的 IBConnection。

  3. 查詢樣本庫(QSL)可能已經被注冊在 RDMA 緩沖區內。如果沒有,則 QDL 將查詢復制到 RDMA 緩沖區。

  4. QDL 啟動相應的 QP 的 RDMA 傳輸。

  5. 通過網絡交換機實現 InfiniBand 網絡傳輸。

  6. 查詢到達對等方的 QP。

  7. 然后通過直接內存訪問技術將查詢傳輸到目的地 RDMA 緩沖區。

  8. 加速器節點的 QDL 確認 RDMA 傳輸完成。

  9. QDL 允許加速器節點能夠批處理查詢,QDL 標記一批查詢,發布到加速器節點的某個加速器上去執行。

  10. 加速器節點的加速器使用 CUDA 和 TensorRT 執行推理,在 RDMA 緩沖區中生成響應。

當在步驟 10 最終執行推理后,會生成輸出張量,并將其置于 RDMA 緩沖區中。然后加速器節點開始以類似的方式但以相反的方向將響應張量傳輸到前端節點。

性能優化

NVIDIA 使用 InfiniBand RDMA_Write 的方式實現了最短的延遲。要成功地應用 RDMA_Write,發送方必須對于對端的內存緩沖區可見。

前端節點和加速器節點都需要管理緩沖區跟蹤器,以確保每個查詢和響應都保存在內存中,直到用完為止。例如,ResNet-50 要想達到理想的性能需要每個連接(QP)管理多達 8K 個交易。

NVIDIA 用到了以下一些關鍵優化。

以下關鍵優化支持更好的可擴展性:

  • 每個 IBConnection(QP)的交易跟蹤器:每個 IBConnection 都有一個獨立的交易跟蹤器,從而實現無死鎖的、關聯內交易記賬。

  • 每個網卡支持多個 QP:任意數量的 IBConnections 可以在任何網卡上實例化,從而可以輕松地自發支持大量交易。

以下關鍵優化提高了 InfiniBand 網絡的資源效率:

  • 使用 INLINE 的方式傳輸小消息:通過 INLINE 傳輸小消息(通常指小于 64 字節)可避免 PCIe 傳輸,從而顯著提高性能和效率。

  • 使用 UNSIGNALLED RDMA Write:由于 UNSIGNALLED 的操作需要在 CQ 隊列中等待直到 SIGNALLED 操作發生,再觸發到目前為止在同一節點中排隊的所有事務的完成處理(批量完成),因此 CQ 維護變得更加高效。

  • 使用 Solicited IB 傳輸:Unsolicited 的 RDMA 操作可以在遠端節點中排隊等待,直到 solicited RDMA 操作發生,再觸發遠端節點中的批量完成。

  • 基于事件的 CQ 管理:避免 CPU 一直忙于等待 CQ,釋放 CPU 個周期。

以下關鍵優化提高了內存系統的效率:

  • 通過 RDMA 傳輸避免了前端節點內的內存拷貝:發送輸入張量時,通過直接將張量存在在 RDMA 注冊的內存中來避免主機內存拷貝。

  • 在加速器節點中聚合 CUDA 的 memcpys:通過盡可能多地集中連續內存中的張量,提高 GPU 顯存拷貝和 PCIe 傳輸的效率。

每家的 QP 實現涵蓋了能支持的最大完成隊列條目數(CQE),以及支持的最大 QP 條目數。擴展每個網卡能支持的 QP 數量,對于降低延遲,同時保持足夠的實時交易量以實現最大吞吐量很重要。

如果 CQ 通過輪詢的方式在短時間內處理大量事務,會對主機 CPU 造成顯著的壓力,在這種情況下,采用基于事件的 CQ 管理,以及減少通知的數量會對此非常有幫助。通過盡可能多地聚集連續內存空間中的數據,如果可能,聚集在 RDMA 注冊的內存空間,可以最大限度地提高內存訪問效率。這對于實現最大性能至關重要。

總結

NVIDIA 平臺在其首次提交的網絡測試結果中表現出色,充分體現了 NVIDIA 在 MLPerf 推理:數據中心封閉部門評測項目中一貫的領先地位,這些結果歸功于許多 NVIDIA 平臺的強大功能實現:

  • NVIDIA A100 Tensor Core GPU

  • NVIDIA DGX A100

  • NVIDIA ConnectX-6 InfiniBand 網絡

  • NVIDIA TensorRT

  • GPUDirect RDMA

這個結果進一步證明了 NVIDIA AI 平臺在行業標準的、業界公認的真實數據中心部署中的高性能和多樣性。

掃描下方二維碼,查看更多有關NVIDIA InfiniBand 的信息。

35dcf9f0-2624-11ee-962d-dac502259ad0.png


35f2adc2-2624-11ee-962d-dac502259ad0.gif ?

更多精彩內容 跨越距離:NVIDIA 平臺解決邊緣的 HPC 問題
GreatSQL & NVIDIA InfiniBand NVMe SSD 存算分離池化方案:實現高性能分布式部署
NVIDIA Quantum InfiniBand 打造 AI 時代 GPU 計算的高性能存儲技術


原文標題:新的 MLPerf 推理網絡部分展現 NVIDIA InfiniBand 網絡和 GPUDirect RDMA 的強大能力

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3900

    瀏覽量

    92847

原文標題:新的 MLPerf 推理網絡部分展現 NVIDIA InfiniBand 網絡和 GPUDirect RDMA 的強大能力

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    適用于數據中心和AI時代的800G網絡

    數據中心依賴數千甚至上萬個GPU集群進行高性能計算,對帶寬、延遲和數據交換效率提出極高要求。 AI云:以生成式AI為核心的云平臺,為多租戶環境提供推理服務。這類數據中心要求網絡具備高帶寬、穩定性
    發表于 03-25 17:35

    如何實現開源開放生態下的RDMA網絡監控?

    在當今AI、大模型飛速發展的時代,RDMA(Remote Direct Memory Access,遠程直接內存訪問)網絡技術憑借其低延遲、高吞吐量的特性,在數據中心、高性能計算等領域得到了廣泛應用
    的頭像 發表于 03-03 13:42 ?289次閱讀
    如何實現開源開放生態下的<b class='flag-5'>RDMA</b><b class='flag-5'>網絡</b>監控?

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?506次閱讀
    使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理</b>性能

    加速網絡性能:融合以太網 RDMA (RoCE) 的影響

    直接內存訪問 (RDMA) (RoCE)。這項突破性技術促進了系統之間的直接數據傳輸,無需 CPU 干預,從而顯著減少延遲并提高整體系統性能。[愛波]一家著名的 FPGA 設計公司處于這一進步的最前沿,通過將 AMD 的 ERNIC IP(以太網 RDMA
    的頭像 發表于 01-25 11:50 ?551次閱讀
    加速<b class='flag-5'>網絡</b>性能:融合以太網 <b class='flag-5'>RDMA</b> (RoCE) 的影響

    RoCE與IB對比分析(一):協議棧層級篇

    在 AI 算力建設中, RDMA 技術是支持高吞吐、低延遲網絡通信的關鍵。目前,RDMA技術主要通過兩種方案實現:Infiniband和RoCE(基于
    的頭像 發表于 11-15 13:58 ?1814次閱讀
    RoCE與IB對比分析(一):協議棧層級篇

    NVIDIA Colossus超級計算機集群突破10萬顆Hopper GPU

    強大實力。 Colossus集群不僅規模龐大,更采用了NVIDIA Spectrum-X以太網網絡平臺。該平臺專為多租戶、超大規模的AI工廠打造,提供了卓越的RDMA(遠程直接內存訪
    的頭像 發表于 10-30 10:29 ?486次閱讀

    InfiniBand網絡內計算的關鍵技術和應用

    InfiniBand在高性能計算(HPC)和人工智能(AI)應用中發揮著關鍵作用,體現在它提供了高速、低延遲的網絡通信能力,以支持大規模數據傳輸和復雜計算任務。而InfiniBand
    的頭像 發表于 10-23 11:33 ?738次閱讀

    端到端InfiniBand網絡解決LLM訓練瓶頸

    的,這需要大量的計算資源和高速數據傳輸網絡。端到端InfiniBand(IB)網絡作為高性能計算和AI模型訓練的理想選擇,發揮著重要作用。在本文中,我們將深入探討大型語言模型(LLM)訓練的概念,并探索端到端
    的頭像 發表于 10-23 11:26 ?919次閱讀
    端到端<b class='flag-5'>InfiniBand</b><b class='flag-5'>網絡</b>解決LLM訓練瓶頸

    以太網RDMA RoCE的技術局限

    上期我們講到了RDMA的WHY,WHAT & HOW(AI網絡背景下RDMA的Why,What & How),這一期我們來談一談RDMA的不足。
    的頭像 發表于 10-22 10:02 ?1046次閱讀
    以太網<b class='flag-5'>RDMA</b> RoCE的技術局限

    IB Verbs和NVIDIA DOCA GPUNetIO性能測試

    NVIDIA DOCA GPUNetIO 是 NVIDIA DOCA SDK 中的一個庫,專門為實時在線 GPU 數據包處理而設計。它結合了 GPUDirect RDMA
    的頭像 發表于 08-23 17:03 ?1007次閱讀
    IB Verbs和<b class='flag-5'>NVIDIA</b> DOCA GPUNetIO性能測試

    阿里Qwen2-Math系列震撼發布,數學推理能力領跑全球

    阿里巴巴近期震撼發布了Qwen2-Math系列模型,這一系列模型基于其強大的Qwen2 LLM構建,專為數學解題而生,展現了前所未有的數學推理能力。Qwen2-Math家族包括1.5B
    的頭像 發表于 08-12 15:19 ?994次閱讀

    英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務,與同樣剛推出的 Llama 3.1 系列開源模型一起,為全球企業的生成式 AI
    的頭像 發表于 07-25 09:48 ?923次閱讀

    基于CNN的網絡入侵檢測系統設計

    入侵檢測提供了新的思路和方法。卷積神經網絡(Convolutional Neural Network, CNN)作為深度學習的一種重要模型,以其強大的特征提取能力和模式識別能力,在
    的頭像 發表于 07-05 17:28 ?1744次閱讀

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    ,第五代NVLink、InfiniBand網絡NVIDIA Magnum IO?軟件的支持,確保企業和廣泛GPU計算集群的高效可擴展性。 HGX B200 深度學習推理
    發表于 05-13 17:16

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    了如BERT和GPT等劃時代的模型。BERT通過雙向訓練增強了文本理解能力,而GPT則展示了強大的文本生成能力。 大語言模型,擁有數百億甚至更多參數,已成為自然語言處理領域的佼佼者,展現
    發表于 05-04 23:55
    主站蜘蛛池模板: 日日天天干 | 天天看天天干天天操 | 国产久爱青草视频在线观看 | 国产一级特黄aa级特黄裸毛片 | 亚洲经典一区二区三区 | 五月激情啪啪 | 天天谢天天干 | 久久午夜视频 | aa亚洲| 日韩色天使综合色视频 | 欧美夜夜 | 日韩精品免费一区二区三区 | 天天色天天综合 | 特级毛片免费视频观看 | 国产成人悠悠影院 | 91华人在线视频 | 亚洲一级色片 | 日本一区二区三区在线 视频观看免费 | 激情综合网站 | 亚洲swag精品自拍一区 | 狠狠色狠狠干 | 五月婷婷俺也去开心 | 婷婷激情丁香 | 五月丁香六月综合缴清无码 | 在线www天堂资源网 在线播放 你懂的 | 巨臀中文字幕一区二区翘臀 | 亚洲不卡视频 | bt天堂网在线资源www | 久久美女视频 | 久久久噜噜噜久久久午夜 | gogo亚洲肉体艺术100 | 国产女主播精品大秀系列在线 | 午夜欧美性视频在线播放 | 国产叼嘿视频网站在线观看 | 在线久综合色手机在线播放 | 色综合天天综合网国产成人 | 欧美黄色片免费观看 | 男男之h啪肉np文 | 海棠高h粗暴调教双性男男 韩国韩宝贝2020vip福利视频 | 五月婷婷激情六月 | 视频色www永久免费 视频色版 |