全新 Blackwell GPU、NVLink 和可靠性技術賦能萬億參數規模的 AI 模型
全新 Tensor Core 與 TensorRT- LLM 編譯器將 LLM 推理運行成本和能耗降低多達 25 倍
全新加速器助推數據處理、工程模擬、電子設計自動化、計算機輔助藥物設計和量子計算領域實現突破
各大云提供商、服務器制造商和頭部 AI 企業紛紛采用
NVIDIA 于太平洋時間3 月 18 日宣布推出 NVIDIA Blackwell 平臺以賦能計算新時代。該平臺可使世界各地的機構都能夠在萬億參數的大語言模型(LLM)上構建和運行實時生成式 AI,其成本和能耗較上一代產品降低多達 25 倍。
Blackwell GPU 架構搭載六項變革性的加速計算技術,這些技術將助推數據處理、工程模擬、電子設計自動化、計算機輔助藥物設計、量子計算和生成式 AI 等領域實現突破,這些都是 NVIDIA 眼中的新興行業機遇。
NVIDIA 創始人兼首席執行官黃仁勛表示:“三十年來,我們一直深耕加速計算領域,力求實現像深度學習和 AI 這樣的變革性突破。生成式 AI 是我們這個時代的決定性技術,Blackwell GPU 是推動新一輪工業革命的引擎。通過與全球最具活力的企業合作,我們將實現 AI 賦能各行各業的承諾。”
許多企業都在計劃采用 Blackwell,其中包括亞馬遜云科技、戴爾科技、谷歌、Meta、微軟、OpenAI、Oracle、特斯拉和 xAI。
Alphabet 和谷歌首席執行官 Sundar Pichai表示:“通過擴展谷歌搜索和 Gmail 等服務以服務于數十億用戶,我們對于如何管理計算基礎設施有了更加深入的了解。隨著公司業務進入 AI 平臺轉型期,我們將繼續為自身產品和服務以及云客戶擴大基礎設施投資。我們有幸與 NVIDIA 建立了長期合作伙伴關系,并期待著將 Blackwell GPU 的突破性功能帶給我們的云客戶以及包括 Google DeepMind 在內的谷歌團隊,以加速未來的探索進程。”
亞馬遜總裁兼首席執行官 Andy Jassy表示:“我們與 NVIDIA 的深度合作可以追溯到13 年前,當時我們在 AWS 上推出了全球首個 GPU 云實例。如今,我們在云端提供了最為廣泛的 GPU 解決方案,以支持全球那些技術上最先進的加速工作負載。正因如此,NVIDIA Blackwell GPU 能夠在 AWS 上運行得如此出色,NVIDIA也選擇與 AWS 共同開發 Project Ceiba,將 NVIDIA 新一代 Grace Blackwell 超級芯片與 AWS Nitro System 的高級虛擬化和超快速的 Elastic Fabric Adapter 網絡結合,以用于 NVIDIA 自身的 AI 研發。通過 AWS 與 NVIDIA 工程師的共同努力,我們將持續創新,使 AWS 成為每一個想要在云端運行 NVIDIA GPU 的用戶的最佳選擇。”
戴爾科技董事會主席兼首席執行官 Michael Dell表示:“生成式 AI 對于創建更智能、更可靠和更高效的系統至關重要。戴爾科技與 NVIDIA 將攜手塑造未來科技。隨著 Blackwell 的發布, 我們將繼續為用戶提供新一代加速產品和服務,以提供推動跨行業創新所需的工具。”
谷歌 DeepMind 聯合創始人兼首席執行官 Demis Hassabis表示:“AI 的變革潛力令人難以置信,它將幫助我們解決世界上那些最重要的科學問題。Blackwell 突破性的技術性能將提供所需的關鍵算力,從而幫助那些世界上最聰明的大腦繪制新的科學藍圖。”
Meta 公司創始人兼首席執行官 Mark Zuckerberg表示:“從我們的大語言模型到內容推薦、廣告和安全系統,AI 已經在賦能一切,而且 AI 在未來將會日益重要。我們期待通過 NVIDIA Blackwell 幫助訓練我們的開源 Llama 模型,打造下一代 Meta AI 和消費產品。”
微軟執行董事長兼首席執行官 Satya Nadella表示:“我們致力于為客戶提供最先進的基礎設施,以賦能其 AI 工作負載。一直以來,我們致力于為云端優化 NVIDIA GPU,通過在我們的全球數據中心采用 GB200 Grace Blackwell 處理器,我們得以在這一進程中再進一步,助力世界各地的組織實現 AI 落地。”
OpenAI 首席執行官 Sam Altman表示:“Blackwell 實現了巨大的性能飛躍,并將加速我們提供尖端模型的能力。我們很高興能繼續與 NVIDIA 合作,共同提升 AI 計算。”
Oracle 董事長兼首席技術官 Larry Ellison表示:“Oracle 與 NVIDIA 的緊密合作將推動 AI、機器學習和數據分析領域實現質和量的突破。為了讓用戶能夠獲取更多具有可操作性的洞察,正需要像 Blackwell 這樣專為加速計算和生成式 AI 而打造的、更強大的引擎。”
特斯拉及 xAI 首席執行官 Elon Musk表示:“當下的 AI 領域,NVIDIA 硬件無可比擬。”
新架構以紀念 David Harold Blackwell 命名,他不僅是一位專門研究博弈論和統計學的數學家,也是第一位入選美國國家科學院的黑人學者。這一新架構是繼兩年前推出的 NVIDIA Hopper 架構以來的全新架構。
Blackwell 的多項創新技術
為加速計算和生成式 AI 提供助力
憑借六項變革性的技術,Blackwell 能夠在擁有高達 10 萬億參數的模型上實現 AI 訓練和實時 LLM 推理,這些技術包括:
全球最強大的芯片:Blackwell 架構 GPU 具有 2080 億個晶體管,采用專門定制的雙倍光刻極限尺寸 4NP TSMC 工藝制造,通過 10 TB/s 的片間互聯,將 GPU 裸片連接成一塊統一的 GPU。
第二代 Transformer 引擎:得益于全新微張量縮放支持,以及集成于 NVIDIA TensorRT-LLM 和 NeMo Megatron 框架中的 NVIDIA 先進動態范圍管理算法,Blackwell 將在新型 4 位浮點 AI 推理能力下實現算力和模型大小翻倍。
第五代 NVLink:為了提升萬億級參數模型和混合專家 AI 模型的性能,最新一代 NVIDIA NVLink 為每塊 GPU 提供突破性的 1.8TB/s 雙向吞吐量,確保多達 576 塊 GPU 之間的無縫高速通信,滿足了當今最復雜 LLM 的需求。
RAS 引擎:采用 Blackwell 架構的 GPU 包含一個用于保障可靠性、可用性和可維護性的專用引擎。此外,Blackwell 架構還增加了多項芯片級功能,能夠利用 AI 預防性維護來運行診斷并預測可靠性相關的問題。這將最大程度地延長系統正常運行時間,提高大規模 AI 部署的彈性,使其能夠連續不間斷運行數周乃至數月,同時降低運營成本。
安全 AI:先進的機密計算功能可以在不影響性能的情況下保護 AI 模型和客戶數據,并且支持全新本地接口加密協議,這對于醫療、金融服務等高度重視隱私問題的行業至關重要。
解壓縮引擎:專用的解壓縮引擎支持最新格式,通過加速數據庫查詢提供極其強大的數據分析和數據科學性能。未來幾年,每年需要企業花費數百億美元的數據處理將越來越多地由 GPU 加速。
一個超大規模的超級芯片
NVIDIA GB200 Grace Blackwell 超級芯片通過 900GB/s 超低功耗的片間互聯,將兩個 NVIDIA B200 Tensor Core GPU 與 NVIDIA Grace CPU 相連。
為了實現超高的 AI 性能,搭載 GB200 的系統可與同在今天發布的 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X800 以太網平臺連接。這兩個平臺均可提供速度高達 800Gb/s 的高性能網絡。
GB200 是 NVIDIA GB200 NVL72 的關鍵組件。NVIDIA GB200 NVL72 是一套多節點液冷機架級擴展系統,適用于高度計算密集型的工作負載。它將 36 個 Grace Blackwell 超級芯片組合在一起,其中包含通過第五代 NVLink 相互連接的 72 個 Blackwell GPU 和 36 個 Grace CPU。
此外,GB200 NVL72 還內置 NVIDIA BlueField-3 數據處理器,可在超大規模 AI 云中實現云網絡加速、組合式存儲、零信任安全和 GPU 計算彈性。對于 LLM 推理工作負載,相較于同樣數量的 NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的性能提升以及多達 25 倍的成本和能耗降低。
該平臺可作為一個單 GPU,具有 1.4 exaflops 的 AI 性能和 30TB 的快速內存,是組成最新一代 DGX SuperPOD 的基礎模塊。
NVIDIA 提供的 HGX B200 是一個通過 NVLink 連接 8 塊 B200 GPU 的服務器主板,支持基于 x86 的生成式 AI 平臺。基于 NVIDIA Quantum-2 InfiniBand 和 Spectrum-X 以太網網絡平臺,HGX B200 支持高達 400Gb/s 的網絡速度。
Blackwell的全球合作伙伴網絡
合作伙伴將從今年晚些時候開始供應采用 Blackwell 架構的產品。
AWS、Google Cloud、Microsoft Azure、Oracle CloudInfrastructure 將成為首批提供 Blackwell 驅動實例的云服務提供商。同時 NVIDIA 云合作伙伴計劃的公司 Applied Digital、CoreWeave、Crusoe、IBM Cloud 和 Lambda 也將提供上述服務。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、Oracle EUSovereign Cloud、Oracle US, UK,and Australian Government Clouds、Scaleway、新加坡電信、NorthernData Group 的 Taiga Cloud、Yotta Data Services 的 Shakti Cloud 和 YTL Power International 等主權 AI 云也將提供基于 Blackwell 架構的云服務和基礎設施。
GB200 還將通過 NVIDIADGX Cloud 提供,NVIDIA DGX Cloud 是一個與領先的云服務提供商共同設計的 AI 平臺,可為企業開發人員提供專門的基礎設施和軟件訪問權限,使他們能夠構建并部署先進的生成式 AI 模型。AWS、Google Cloud 和 Oracle Cloud Infrastructure 計劃在今年晚些時候托管采用 NVIDIA Grace Blackwell 的新實例。
Cisco、戴爾科技、慧與、聯想和 Supermicro 預計將提供基于 Blackwell 產品打造的各種服務器。Aivres、永擎電子、華碩、Eviden、Foxconn、技嘉、Inventec、和碩、QCT、Wistron、緯穎和 ZT Systems 也將提供基于 Blackwell 的服務器。
此外,越來越多的軟件制造商網絡,包括工程仿真領域的全球領導者 Ansys、Cadence 和 Synopsys,將使用基于 Blackwell 的處理器來加速其用于設計和仿真電氣、機械和制造系統及零件的軟件。他們的客戶可以更低成本、更高能效地使用生成式 AI 和加速計算,來加速產品上市。
NVIDIA 軟件支持
Blackwell 產品組合由生產級 AI 端到端操作系統 NVIDIA AI Enterprise 支持。NVIDIA AI Enterprise 中包含同日發布的 NVIDIA NIM 推理微服務以及 AI 框架、程序庫和工具,企業可以部署在由 NVIDIA 提供加速的云、數據中心及工作站上。
審核編輯:劉清
-
處理器
+關注
關注
68文章
19409瀏覽量
231189 -
TSMC
+關注
關注
3文章
177瀏覽量
84602 -
NVIDIA
+關注
關注
14文章
5076瀏覽量
103724 -
晶體管
+關注
關注
77文章
9746瀏覽量
138902 -
GPU芯片
+關注
關注
1文章
303瀏覽量
5898
原文標題:GTC24 | NVIDIA Blackwell 平臺發布,賦能計算新時代
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論