電子發燒友網報道(文 / 李彎彎)日前,谷歌在 Cloud Next 大會上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。據悉,該芯片預計于今年晚些時候面向 Google Cloud 客戶開放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項。
在核心亮點層面,Ironwood 堪稱谷歌首款專門為 AI 推理精心設計的 TPU 芯片,能夠有力支持大規模思考與推理 AI 模型。谷歌方面表示,它代表著 AI 發展從 “響應式” 向 “主動式” 的范式轉變,未來 AI 代理將能夠主動檢索并生成數據,進而提供深度見解,而非僅僅輸出原始數據。
在性能與能效表現上,Ironwood 取得了重大突破。其每瓦性能達到上一代 TPU Trillium 的兩倍,能效近乎首款云 TPU 的 30 倍。單芯片配備 192GB 高帶寬內存(HBM),容量為 Trillium 的 6 倍;HBM 帶寬高達 7.2TB/s,是 Trillium 的 4.5 倍。芯片間互連(ICI)帶寬提升至 1.2TB/s,為 Trillium 的 1.5 倍,這一提升有力地支持了大規模分布式訓練與推理任務。
此外,Ironwood 還是谷歌首款支持 FP8 浮點格式的 TPU 芯片。在此之前,TPU 僅支持 INT8(用于推理)和 BF16(用于訓練)。采用 FP8 計算可使 AI 訓練吞吐量翻倍,性能相較于 BF16 提升 10 倍。
Ironwood 還配備了增強版 SparseCore 專用加速器,可用于處理高級排名和推薦任務中常見的超大嵌入。憑借這一增強版 SparseCore,其能夠加速更多領域的任務,應用范圍從傳統的 AI 任務拓展至金融和科學等領域。
在系統架構與擴展性方面,Ironwood 可擴展至 9216 個液冷芯片,借助突破性的 ICI 網絡進行連接,功率接近 10 兆瓦。它提供 256 芯片和 9216 芯片兩種 Pod 配置,其中 9216 芯片的 Pod 配置整體 AI 算力可達 42.5 Exaflops。谷歌先進的液冷解決方案能夠確保芯片在持續繁重的 AI 工作負載下依然保持高性能。
谷歌的 TPU 作為專為機器學習設計的定制化加速芯片,自 2015 年首次亮相以來,已成為 AI 硬件領域的重要力量。TPU 主要應用于訓練和推理大規模 AI 模型(如 AlphaGo、PaLM、Gemini 等),并深度融入 Google Cloud 以及谷歌內部 AI 服務之中。
截至目前,TPU 已歷經多次版本迭代:TPU v1 支持 INT8 精度,主要用于谷歌內部項目(如 AlphaGo、RankBrain);TPU v2/v3 面向訓練與推理場景,支持浮點運算,v3 進一步增加了內存和互連帶寬;TPU v4 的算力達到 TPU v3 的 2.7 倍,采用液冷技術,支持 4096 芯片互聯的 Pod 集群,適用于超大規模模型(如 PaLM)。
由此可見,谷歌 TPU 憑借其專用化設計、高能效比以及與 TensorFlow 的深度集成等優勢,成為大規模 AI 模型訓練與推理的核心硬件支撐。如今,Ironwood 的推出不僅將進一步鞏固谷歌在 AI 硬件領域的領先地位,也勢必為生成式 AI 的下一階段發展提供強大的計算動力。?
-
谷歌
+關注
關注
27文章
6217瀏覽量
106987 -
TPU
+關注
關注
0文章
149瀏覽量
20985
發布評論請先 登錄
相關推薦
Google推出第七代TPU芯片Ironwood

讓大模型訓練更高效,奇異摩爾用互聯創新方案定義下一代AI計算

評論