基于京東部署的 DGX SuperPOD 集群 “天琴α”,京東探索研究院聯合悉尼大學共同研發了織女模型,一并攻克了 GLUE 兩項挑戰性任務。
京東探索研究院致力于世界前沿技術的研究,其中人工智能方向涵蓋 CV、NLP、多模態等。大規模語音模型的研究更是京東探索研究院的重中之重。
以語言模型為例,在過去 2-3 年的時間,語言模型大小每年都在以 1-2 個數量級的速度在增加,如今,則已達到萬億參數的級別。而模型的結構和復雜性日益變化,這對 GPU 集群的架構提出了不一樣的要求。
從系統層面看,既有的 GPU 計算集群主要是以支持單機任務、小規模多機任務為主,相較之下,其多機之間網絡擴展能力則較弱,而大規模擴展能力也較為受限。因此,在既有的 GPU 集群架構下,較無法滿足服務大模型的計算需求。
對于京東探索研究院而言,掌握時效是關鍵,更快的模型訓練意味著能加速迭代、擴展嘗試空間、使產品落地更迅速,并提高業務收益。在模型越來越復雜多樣、計算需求越來越大、單任務計算規模越來越大的背景下,如何快速新建一個可高效擴展并易用的 GPU 集群,以滿足應對上述挑戰,是亟待解決的核心問題。
基于以上挑戰,京東探索研究院選擇了采用 NVIDIA DGX SuperPOD 方案來提供支持,并成功給業務側帶來了巨大的提升及解決企業痛點。
1. NVIDIA DGX SuperPOD 是一套完整的解決方案,基于 DGX A100 服務器、HDR InfiniBand 200G 網卡和 NVIDIA Quantum QM8790 交換機構建了一套全互聯架構,在保證單機計算能力最強的同時,采用計算和存儲網絡相隔離的方案,最大程度地從網絡上保證集群的互聯能力。
2.安裝部署方面,NVIDIA 為 DGX SuperPOD 提供專業的部署服務,包括單機系統部署、InfiniBand 網絡配置、調度安裝調試、監控部署、多機環境、基礎性能驗證等,從基礎系統方面,保證了最快交付。
3.使用方面,NVIDIA 為 DGX SuperPOD 部署了 Slurm 調度系統,并基于 NGC 和客戶主要的幾類模型,提供了完整的作業腳本,用戶只需簡單修改幾行參數來適配自己的模型,即可一鍵方便地運行起大規模分布式任務。
4. 性能方面,DGX SuperPOD 經過一系列的基礎優化(CUDA-X, Magnum IO, NGC)和評測驗證(MLPerf),提供最好的 AI 訓練性能,在京東探索研究院針對CV、NLP、跨模態等領域設計和研發的數十個模型上,經過雙方一系列系統級的合作優化,在 DGX SuperPOD 上達到了比較理想的加速比和擴展性。
使用 DGX SuperPOD 方案,用戶只需要關注自己的 AI 模型和算法研究,無需關注硬件和系統層的配置、優化、擴展性等問題,讓 AI 研究人員把寶貴的時間和精力專注在前沿的 AI 技術研究上。
使用了 DGX SuperPOD 集群方案,極大地加速了用戶的 AI 訓練和迭代速度,為用戶進一步探索出更強大更智能的 AI 模型建立了堅實的基石。
在 DGX SuperPOD 交付給用戶僅僅兩個多月之后,京東探索研究院就聯合悉尼大學在傳統 “預訓練-微調” 的范式下,利用 DGX SuperPOD 的高效擴展能力,通過研究和工程上的全方位創新,研發出了織女模型,在通用語言理解評估基準(GLUE)的兩項挑戰性任務,即情感分析任務 SST(The Stanford Sentiment Treebank)和指代消解任務 WNLI (Winograd NLI)中首次超越人類,位居所有參賽機構第一。
京東探索研究院表示:“強悍的織女模型在京東探索研究院建設的全國首個基于 DGX SuperPOD 架構的超大規模計算集群 “天琴α” 上完成訓練,該集群具有全球領先的大規模分布式并行訓練技術,其近似線性加速比的數據、模型、流水線并行技術持續助力織女模型的高效訓練。”
NVIDIA 將參加 CES 2022, 并將在 1 月 5 日凌晨 0 點(北京時間)發表 NVIDIA 特別演講。
NVIDIA GeForce 高級副總裁 Jeff Fisher 和 NVIDIA 汽車部門副總裁兼總經理 Ali Kani 將展示加速計算在設計、仿真、游戲和自動駕駛汽車方面的新突破。
原文標題:DGX SuperPOD 加速語言模型訓練,助力京東探索研究院勇刷 GLUE 榜單
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
NVIDIA
+關注
關注
14文章
5026瀏覽量
103294 -
gpu
+關注
關注
28文章
4754瀏覽量
129094 -
AI
+關注
關注
87文章
31158瀏覽量
269535 -
人工智能
+關注
關注
1792文章
47446瀏覽量
239063
原文標題:DGX SuperPOD 加速語言模型訓練,助力京東探索研究院勇刷 GLUE 榜單
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
NVIDIA Isaac Sim滿足模型的多樣化訓練需求
NVIDIA助力Amdocs打造生成式AI智能體
華迅光通AI計算加速800G光模塊部署
NVIDIA助力丹麥發布首臺AI超級計算機
NVIDIA DGX B200首次面向零售市場:配備8塊B200 GPU
NVIDIA NIM微服務帶來巨大優勢
NVIDIA提供一套服務、模型以及計算平臺 加速人形機器人發展
英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務
英偉達推出AI模型推理服務NVIDIA NIM
進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片
英偉達Blackwell平臺網絡配置分析
NVIDIA Blackwell DGX SuperPOD助力萬億級生成式AI計算
NVIDIA推出搭載GB200 Grace Blackwell超級芯片的NVIDIA DGX SuperPOD?
英偉達推出百億參數AI模型處理方案——DGX SuperPOD
NVIDIA 推出 Blackwell 架構 DGX SuperPOD,適用于萬億參數級的生成式 AI 超級計算
![<b class='flag-5'>NVIDIA</b> 推出 Blackwell 架構 <b class='flag-5'>DGX</b> <b class='flag-5'>SuperPOD</b>,適用于萬億參數級的生成式 AI 超級<b class='flag-5'>計算</b>](https://file1.elecfans.com/web2/M00/C4/F0/wKgZomX4_3qAZn6lAAhtRzKe9pw360.png)
評論