在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Spectrum-X網絡平臺助力提升AI存儲性能

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2025-02-15 11:01 ? 次閱讀

AI 工廠依靠的不僅僅是計算網。當然,連接 GPU 的東西向網絡對于 AI 應用的性能至關重要,而連接高速存儲陣列的存儲網也不容忽視。存儲性能在運行 AI 業務過程中的多個階段中發揮著關鍵作用,包括訓練過程中的 Checkpoint 操作、推理過程中的檢索增強生成(RAG)等。

為了滿足這些需求,NVIDIA 和存儲生態合作伙伴正在將NVIDIA Spectrum-X 網絡平臺擴展到數據存儲網,從而帶來更高的性能和更快的實現 AI 的時間。由于 Spectrum-X 動態路由技術能夠緩解網絡中的流量沖突并增加有效帶寬,從而使存儲性能遠高于 RoCE v2,RoCE v2 是大多數數據中心用于 AI 計算網和存儲網的以太網網絡協議。

Spectrum-X 將讀取帶寬加速了高達 48%,寫入帶寬加速了高達 41%。帶寬的增加可以更快地完成 AI 工作流中與存儲相關的操作,從而縮短訓練業務的完成時間,并降低推理過程中的 Token 分配延遲。

Spectrum-X 的主要存儲合作伙伴

隨著 AI 工作負載的規模和復雜性不斷增加,存儲解決方案也必須不斷發展,以跟上現代 AI 工廠的需求。DDN、VAST Data?和WEKA?等領先的存儲供應商正與 NVIDIA 合作,利用 Spectrum-X 集成和優化其解決方案,為 AI 存儲網帶來先進的功能。

Spectrum-X 對 Israel-1 超級計算機的大規模影響

NVIDIA 已經搭建了生成式 AI 超級計算機 Israel-1,用于對各種 AI 網絡解決方案進行預測試和驗證以優化 Spectrum-X 性能和簡化網絡部署。這使 Israel-1 成為測試 Spectrum-X 如何影響存儲工作負載的良好平臺,展示了網絡在現實的超級計算機運行狀態下對存儲性能的影響。

為了了解 Spectrum-X 對存儲網絡的影響,Israel-1 團隊測量了從 NVIDIA HGX ?GPU 服務器客戶端訪問存儲時的讀寫帶寬。該測試(Flexible I/O Tester 基準測試)在將網絡配置為標準 RoCE v2 網絡的情況下執行一次,然后在啟用 Spectrum-X 的動態路由和擁塞控制后重新運行。

這些測試使用了不同數量的 GPU 服務器作為客戶端運行,覆蓋了從 40 個 GPU 到 800 個 GPU。在所有的測試中,Spectrum-X 都表現得更好。讀帶寬提升幅度在 20%到 48%之間,寫帶寬提升幅度在 9%到 41%之間,這些結果與 DDN、VAST?和 WEKA?等生態合作伙伴測到的加速性能一致。

存儲網絡性能對于 AI 性能至關重要

要想知道 Spectrum-X 為何會帶來如此大的影響,需要先了解存儲在 AI 業務中的重要性。AI 性能不僅僅受大語言模型(LLM)每一步完成時間的影響,還與許多其他因素有關。例如,由于模型訓練通常需要幾天、幾周或幾個月才能完成,因此設置 Checkpoint 或保存部分訓練模型的中間結果到存儲非常重要,通常需要每隔幾個小時操作一次。這意味著,萬一系統出現問題,訓練進度不會丟失。

對于具有數十億至數萬億參數的模型,這些 Checkpoint 的狀態變得越來越大,現在最大型 LLM 模型會生成高達數 TB 的數據,保存數據或恢復數據會產生多條“大象流”,這些突發的大象流,可能會淹沒交換機的緩沖和鏈路,所以網絡必須保證為訓練工作負載提供最佳利用率。

檢索增強生成(RAG)是另一個存儲網可以影響工作負載性能的例子,借助 RAG,LLM 與不斷增長的知識庫相結合,為模型添加特定領域的上下文,從而提供更快的響應時間,而無需額外的模型訓練或微調。RAG 的工作原理是獲取額外的內容或知識,并將其嵌入到向量數據庫中,從而使其成為可搜索到的知識庫。

輸入推理提示時,系統會解析(嵌入)提示并搜索數據庫,檢索到的內容會向提示添加上下文,以幫助 LLM 制定最佳答案。向量數據庫是多維的,可能非常龐大,尤其是由圖像和視頻組成的知識庫。

這些數據庫通過存儲網連接到推理節點,網絡必須確保快速通信以盡可能降低延遲。對于多租戶生成式 AI 工廠而言,這一點變得尤為重要,因為這些工廠每秒要處理大量的查詢。

存儲中動態路由和擁塞控制的應用

Spectrum-X 平臺引入了 InfiniBand 網絡上的關鍵創新技術,例如RoCE Adaptive Routing(動態路由)和RoCE Congestion Control(擁塞控制)。NVIDIA 通過采用這些創新技術并將其與存儲網相結合,提高了存儲工作負載的性能和網絡利用率。

動態路由

為了消除大象流之間的碰撞并減輕 Checkpoint 過程中產生的網絡流量,動態路由可以對于網絡上的流進行逐包的動態負載平衡,Spectrum-4 以太網交換機根據實時擁塞狀況來選擇擁塞最低的路徑。由于數據包被噴灑到整個網絡中,到達目的地時它們可能會出現亂序,在傳統的以太網下,這將需要重新傳輸許多數據包。

借助 Spectrum-X,接收端主機里的 SuperNIC 或數據處理器(DPU)知道數據包的正確順序,可以在主機內存中按序放置數據包,從而使動態路由對應用程序透明。這可提高網絡利用率,為 Checkpoint、數據獲取等實現更高的有效帶寬以及提供可預測、一致的結果。

擁塞控制

Checkpoints 和其它存儲操作通常會導致 Incast 擁塞,也稱為多對一擁塞。當多個客戶端嘗試向單個存儲節點寫入數據時,就會出現這種情況。Spectrum-X 引入了一種基于遙測的擁塞控制技術,使用交換機中硬件遙測技術來通知 SuperNIC 或 DPU,以降低發送端的數據注入速率(即 RDMA 寫和讀)。從而防止出現擁塞熱點,這些熱點可能會反向傳播,導致相鄰作業或進程受到擁塞的不公平影響。

增強彈性

由于 AI 工廠通常由大量交換機、線纜和收發器組成,任何鏈路中斷都可能導致網絡性能的大幅下降,因此網絡彈性對于維護基礎設施的健康至關重要。Spectrum-X 全局動態路由可在鏈路中斷時實現優化、快速的重新收斂,從而充分利用存儲網。

NVIDIA 全棧集成

除了 Spectrum-X 為存儲網帶來的創新之外,NVIDIA 還提供并推薦使用多種 SDK、庫和軟件產品,以加速存儲到 GPU 數據通路,其中包括但不限于以下內容:

NVIDIA Air:一款基于云的網絡仿真工具,用于對交換機、SuperNIC 和存儲進行建模,可加速 Day 0、Day 1 和 Day 2 對于存儲網的操作。

NVIDIA Cumulus Linux:基于自動化部署和 API 構建的網絡操作系統,可確保大規模網絡的平穩運營和管理。

NVIDIA DOCA:面向 NVIDIA SuperNIC 和 DPU 的 SDK,可在存儲、安全等方面提供出色的可編程性和性能。

NVIDIA NetQ:一款網絡驗證工具集,集成了交換機遙測技術,可提供網絡的實時可見性。

NVIDIA GPUDirect Storage:一項在存儲和 GPU 顯存之間建立直接數據路徑的技術,可提高數據傳輸效率。

開始使用 Spectrum-X

隨著模型越來越大,數據走向更多的多模態,存儲將一直是生成式 AI 訓練和操作的關鍵要素。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5186

    瀏覽量

    105384
  • 網絡平臺
    +關注

    關注

    0

    文章

    20

    瀏覽量

    8103
  • AI
    AI
    +關注

    關注

    87

    文章

    33462

    瀏覽量

    274040

原文標題:NVIDIA Spectrum-X 網絡平臺和合作伙伴提升 AI 存儲性能達 48%

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英偉達GTC2025亮點:NVIDIA認證計劃擴展至企業存儲領域,加速AI工廠部署

    ,現在已將企業存儲納入其中,旨在通過加速計算、網絡、軟件和存儲助力企業更高效地部署 AI 工廠。 在企業構建
    的頭像 發表于 03-21 19:38 ?772次閱讀

    NVIDIA推出全新硅光網絡交換機

    NVIDIA 今天推出了 NVIDIA Spectrum-XNVIDIA Quantum-X 硅光
    的頭像 發表于 03-20 14:52 ?355次閱讀

    NVIDIA 與行業領先的存儲企業共同推出面向 AI 時代的新型企業基礎設施

    :即企業存儲平臺,搭載由 NVIDIA 加速計算、網絡和軟件驅動的 AI 查詢智能體。 ? NVIDIA
    發表于 03-19 10:11 ?161次閱讀
    <b class='flag-5'>NVIDIA</b> 與行業領先的<b class='flag-5'>存儲</b>企業共同推出面向 <b class='flag-5'>AI</b> 時代的新型企業基礎設施

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?510次閱讀
    使用<b class='flag-5'>NVIDIA</b>推理<b class='flag-5'>平臺</b>提高<b class='flag-5'>AI</b>推理<b class='flag-5'>性能</b>

    NVIDIA向開放計算項目捐贈Blackwell平臺設計

    近日,在美國加利福尼亞州舉行的 OCP 全球峰會上,NVIDIA 宣布已把 NVIDIA Blackwell 加速計算平臺的一些基礎元素捐贈給開放計算項目(OCP),并擴大 NVIDIA
    的頭像 發表于 11-19 15:30 ?467次閱讀

    NVIDIA助力xAI打造全球最大AI超級計算機

    NVIDIA 宣布,xAI 位于田納西州孟菲斯市的Colossus 超級計算機集群達到了 10 萬顆 NVIDIA Hopper GPU 的巨大規模。該集群使用了NVIDIA Spectru
    的頭像 發表于 10-30 11:38 ?654次閱讀

    NVIDIA Colossus超級計算機集群突破10萬顆Hopper GPU

    的強大實力。 Colossus集群不僅規模龐大,更采用了NVIDIA Spectrum-X以太網網絡平臺。該平臺專為多租戶、超大規模的
    的頭像 發表于 10-30 10:29 ?487次閱讀

    NVIDIA 以太網加速 xAI 構建的全球最大 AI 超級計算機

    市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規模。該集群使用了 NVIDIA Spectrum-X? 以太網網絡
    發表于 10-30 09:33 ?256次閱讀
    <b class='flag-5'>NVIDIA</b> 以太網加速 xAI 構建的全球最大 <b class='flag-5'>AI</b> 超級計算機

    NVIDIA新增生成式AI就緒系統認證類別

    借助全新的 NVIDIA Spectrum-X Ready 和 NVIDIA IGX 認證,領先的制造業合作伙伴將提供高性能系統,幫助客戶輕松部署
    的頭像 發表于 10-10 09:44 ?587次閱讀

    簡單認識NVIDIA網絡平臺

    NVIDIA Spectrum-X800 平臺是業界第一代 800Gb/s 的以太網網絡平臺,包括了 N
    的頭像 發表于 09-09 09:22 ?660次閱讀

    應用NVIDIA Spectrum-X網絡構建新型主權AI

    法國云服務提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太網網絡平臺 構建區域性 GPU 集群,為用戶提供
    的頭像 發表于 07-26 18:58 ?1351次閱讀

    NVIDIA Spectrum-X 以太網網絡平臺已被業界廣泛使用

    平臺已被業界廣泛使用,并且將進一步加快新品發布計劃。 Spectrum-X 是全球首款專為 AI 打造的以太網網絡平臺,可將生成式
    的頭像 發表于 06-03 18:20 ?1176次閱讀

    NVIDIA AI Enterprise榮獲金獎

    NVIDIA AI Enterprise、GH200 Grace Hopper 超級芯片和 Spectrum-X 在 COMPUTEX 2024 獲得認可。
    的頭像 發表于 05-29 09:27 ?644次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Enterprise榮獲金獎

    借助NVIDIA DOCA 2.7增強AI 云數據中心和NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架為開發者提供了豐富的庫、驅動和 API,以便為 NVIDIA BlueField DPU 和 SuperNIC 創建高性能的應用程序和服務。
    的頭像 發表于 05-29 09:22 ?705次閱讀

    NVIDIA Spectrum-X助力IBM為AI Cloud提供高性能底座

    在混合云與 AI 的時代,企業和組織需要創建、分析和保存海量的數據,在分布式的應用環境中會形成各種各樣的數據孤島,導致復雜系統難以管理,成本不斷增加。
    的頭像 發表于 05-08 09:27 ?638次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b><b class='flag-5'>助力</b>IBM為<b class='flag-5'>AI</b> Cloud提供高<b class='flag-5'>性能</b>底座
    主站蜘蛛池模板: 免费一级特黄视频 | 龙口护士门91午夜国产在线 | 一级日本高清视频免费观看 | 中文字幕在线观看一区 | 亚洲第一伊人 | 清纯唯美亚洲综合欧美色 | 国产精品成人一区二区三区 | 激情五月宗合网 | 黄色大片在线免费观看 | 四虎永久在线精品2022 | 九九国产精品视频 | 国产主播在线看 | 伊人毛片| 大尺度视频网站久久久久久久久 | 一级片高清 | 夜夜狠狠 | 国产精品九九热 | 我要看18毛片| 一级片视频在线观看 | bt磁力在线搜索 | 亚洲综合一区二区三区 | 天天射久久 | 免费在线观看视频网站 | 日本特黄绿像大片免费看 | 一级做a爰片久久毛片一 | 如果我们是季节韩剧在线观看 | 大尺度视频网站久久久久久久久 | 最新天堂网 | 亚洲综合精品成人啪啪 | 免费的国语一级淫片 | 国产精品大片天天看片 | 黄色大秀 | 一级毛片aaa片免费观看 | 五月婷婷狠狠 | 四虎影视在线影院4hu | 日本天堂影院在线播放 | 一级黄色录像视频 | 中文字幕天天干 | 日韩伊人网 | 一卡二卡四卡无卡乱免费网页 | 四虎在线精品 |