電子發燒友網報道(文/周凱揚)對于每個想要自己開發和部署AI模型的應用開發者來說,硬件和服務器支出都是一筆不小的費用。就以英偉達的GPU為例,即便是消費級的GPU,最近也迎來了一波漲價潮,更不用爆火的A100/H100等型號了。
即便是租賃服務器,基于這些熱門硬件的服務器也遠算不上便宜,因此不少云服務廠商為了進一步拉攏更多AI應用開發者,紛紛推出了性價比更高的選項。這些選項有的是基于CPU的AI計算服務器,有的是基于第三方AI加速器打造的服務器,還有的則是由云服務廠商基于自研加速器打造且獨家提供的服務器。
谷歌高性價比TPU面世
谷歌在今年8月底發布了第五代的自研TPU,TPU v5e。谷歌稱該加速器實現了性能與成本效益的平衡。相比上一代TPU v4,TPU V5e提供了同成本下兩倍的訓練性能,以及針對LLM和生成式AI模型2.5倍的推理性能。
TPU v5e架構
單個TPU v5e Pod由256個芯片互聯,總帶寬超過400Tb/s,INT8總算力達100petaOps。而且谷歌為TPU v5e采用了更靈活的配置選項,其支持8個不同的虛擬機配置,單個切片支持單芯片到250多個芯片,如此一來客戶就可以根據自己的模型大小來選擇合適的配置。
而且過去借助谷歌TPU進行的訓練負載只局限于單個切片中,谷歌為此開發了Multislice技術,可通過芯片間互聯以及數據中心網絡中的多個TPU Pod相連,從而將訓練工作擴展到數萬個芯片上。
為了進一步擴大對開發生態的支持,TPU v5e還內置了對JAX、Pytorch和Tensorflow等領先AI框架,以及 Hugging Face 的 Transformers 和 Accelerate、PyTorch Lightning 和 Ray等一系列常用開源工具的支持。
開放使用與自用
近日,谷歌終于宣布TPU v5e進入公用階段,且在最新的MLPerf訓練3.1測試中,TPUv5e獲得了更好的表現。在該測試中,谷歌改進了創新的混合精度訓練算法,除了原生支持的BF16外,還用到了INT8精度格式。這意味著客戶在提高了模型準確性的同時,將花費更少的成本。
從谷歌云對于TPU v5e的定價表來看,v5e在成本效益上確實有著極大的優勢。不過需要注意的是,v5e與v2、v3 Pod類似,每個芯片中只有一個TensorCore,而v4 Pod的每個芯片中有兩個TensorCore。這也是為何v5e的單芯片峰值算力為197TFLOPS,而v4的單芯片峰值算力為275TFLOPS,可即便如此,在按芯片小時的定價下,其所需成本依然低于v4。
在如此高的性價比下,谷歌不僅將TPU提供給外部開發者使用,其內部一些開發項目也開始用上TPU v5e。比如其PaLM模型的創建,就用到了上文提到的Multislice技術,谷歌的Bard團隊同樣在用TPU v5e訓練這一生成式AI聊天機器人。
寫在最后
其實在TPUv5e開放使用之前,谷歌也正式開放了A3 VM這類GPU加速虛擬機的使用。這也是多數云服務廠商采用的多方案供應策略,其自研加速器只需要為客戶提供一個高性價比的方案,而追求更高性能的客戶,依然可以選擇基于H100 GPU打造的服務器。
-
AI
+關注
關注
88文章
34589瀏覽量
276236
發布評論請先 登錄
把SiC價格打下來!兩年內擬降30%,市場加速滲透
AlphaEvolve有望革新AI玩具芯片設計,算法進化驅動能效與成本雙突破
智算加速卡是什么東西?它真能在AI戰場上干掉GPU和TPU!

TPU處理器的特性和工作原理

谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

谷歌新一代 TPU 芯片 Ironwood:助力大規模思考與推理的 AI 模型新引擎?
Banana Pi 發布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發
傳DeepSeek自研芯片,廠商們要把AI成本打下來

評論