面向 AI 基礎設施的液冷技術提升了數據中心和 AI 工廠的能效。
傳統上,數據中心依賴風冷,也就是通過冷水機組循環輸送冷空氣來吸收服務器所產生的熱量,以使服務器保持最佳運行狀態。但隨著 AI 模型的規模增加以及 AI 推理模型使用越來越廣泛,保持最佳運行狀態不僅面臨更多困難、成本更昂貴,而且能耗也更大。
在數據中心內,每個機架的功率曾經只有 20 千瓦,而在如今的超大規模設施內,每個機架的功率超過 135 千瓦。在這種情況下,高密度機架散熱的難度增加了一個量級。為了讓 AI 服務器保持峰值性能,就需要一種全新的散熱方法來提高能效和可擴展性。
液冷技術是其中一個關鍵解決方案。通過減少對冷水機組的依賴并實現更高效的散熱,液冷技術正推動下一代高性能、高能效 AI 基礎設施的發展。
NVIDIA Grace Blackwell 機架式解決方案和 NVIDIA Grace Blackwell Ultra 機架式解決方案是機架級液冷系統,專為要求嚴苛的任務而設計,比如處理具有數萬億參數的大語言模型推理。它們的架構還針對測試時擴展的精度和性能進行了專門優化,使其成為運行 AI 推理模型的理想選擇,同時還能有效地管理能源成本和散熱問題。
推動 AI 數據中心實現前所未有的用水效率提升和成本節約
過去,僅散熱冷卻一項就占數據中心用電量的 40%,這使其成為了提高能效、降低運營成本和能源需求的關鍵因素之一。
液冷技術通過直接在熱源處吸收熱量,有助于降低成本和能耗。直接芯片(direct-to-chip)的液冷技術不再依賴空氣作為散熱媒介,而是通過技術冷卻系統回路傳遞熱量。這些熱量隨后通過液對液熱交換的液冷式換熱器而循環到冷卻液分配單元,最終轉移到設施冷卻回路中。由于這種熱傳遞的效率更高,數據中心和 AI 工廠可以在水溫更高的情況下有效地運行,從而在許多氣候條件下可以減少甚至無需使用機械冷水機組。
NVIDIA Grace Blackwell 機架式解決方案機架級液冷系統基于 NVIDIA Blackwell 平臺構建,在平衡能源成本和散熱的同時,可提供卓越的性能。它將每個服務器機架的計算密度提升到了前所未有的高度,與傳統風冷架構相比,其營收潛力提高了 40 倍,吞吐量提高了 30 倍,能效提高了 25 倍,用水效率提高了 300 倍。對于基于 NVIDIA Blackwell Ultra 平臺構建的 NVIDIA Grace Blackwell Ultra 機架式解決方案,其營收潛力更是提高了 50 倍,吞吐量提高了 35 倍,能效提高了 30 倍。
據 CBRE 的一份報告,數據中心的年度支出大約為每兆瓦 190 萬至 280 萬美元,其中近 50 萬美元用于散熱相關的能源和水資源成本。通過部署液冷 NVIDIA Grace Blackwell 機架式解決方案,超大規模數據中心和 AI 工廠的成本可降至傳統方案的 1/25。對于一個 50 兆瓦的超大規模數據中心來說,每年可節約超過 400 萬美元。
對于數據中心和 AI 工廠運營商而言,這意味著更低的運營成本、更高的能效指標,以及面向未來的基礎設施,從而能夠高效地擴展 AI 工作負載,同時避免傳統散熱方法不可持續的水資源消耗問題。
將熱量排出數據中心
隨著計算密度上升以及 AI 工作負載產生前所未有的熱量負荷,數據中心和 AI 工廠必須重新思考如何從基礎設施中排出熱量。傳統散熱方法適用于可預測的 CPU 擴展方案,但已經無法獨立地滿足這種需求。如今,已有多種方法可以將熱量排出設施,但當前和新興的部署方案主要采用了以下四大類方法。
主要散熱方法
機械冷水機組:機械冷水機組利用蒸汽壓縮循環來冷卻水,然后將冷卻后的水在數據中心內循環以吸收熱量。這些系統通常采用風冷或水冷方式,而水冷系統常與冷卻塔配合使用來散熱。雖然冷水機組在各種氣候條件下都可靠且有效,但其能耗極高。在極為重視能耗和可持續性的 AI 設施中,采用冷水機組會顯著影響運營成本和碳排放量。
蒸發冷卻:蒸發冷卻利用水的蒸發來吸收和排出熱量,可通過直接、間接或混合系統實現。此類系統的能效遠高于冷水機組,但耗水量大。在大型設施中,這些系統每年的每兆瓦用水量可能達到數百萬加侖。而且,其性能受氣候影響,在潮濕或水資源有限的地區效果較差。
干式冷卻器:干式冷卻器利用大型翅片管將封閉液體回路中的熱量散發到周圍空氣中(類似于汽車散熱器)。這些系統不依賴水,非常適合希望減少用水量或在干燥氣候下運行的設施。然而,其效果在很大程度上取決于周圍空氣的溫度。在較熱的環境中,除非與能夠承受更高運行溫度的液冷 IT 系統配合使用,否則干式冷卻器可能難以滿足高密度冷卻需求。
泵送制冷劑系統:泵送制冷劑系統使用液體制冷劑將數據中心產生的熱量轉移到室外熱交換器。與冷水機組不同,這些系統無需在設施內部署大型壓縮機,且運行過程中不消耗水。這種方法提供了一種熱力學效率高、緊湊且可擴展的解決方案,尤其適用于邊緣部署和水資源有限的環境。雖然需要妥善處理和監測制冷劑,但其在節能節水方面優勢顯著。
這些方法各有優勢,選擇時需考慮氣候、機架密度、設施設計和可持續發展目標等因素。隨著液冷技術的普及以及服務器設計能夠適應更高水溫,更高效、更環保的冷卻方案將逐漸變得可行,即在提升計算性能的同時還能降低能耗和用水量。
優化面向 AI 基礎設施的數據中心
隨著 AI 工作負載呈指數級增長,運營商們正在重新設計數據中心,構建專為高性能 AI 和能效打造的基礎設施。無論是將整個設施轉變為專用 AI 工廠,還是升級模塊化組件,優化推理性能對于控制成本和提高運營效率來說都至關重要。
為了實現最佳性能,僅配備高算力 GPU 是不夠的,這些 GPU 還需要能夠極速地相互通信。
NVIDIA NVLink 增強了 GPU 之間的通信,使它們能夠作為一個緊密集成的大規模處理單元運行,在 120 千瓦的全機架功率密度下實現最高性能。這種緊密的高速通信對今天的 AI 任務至關重要,因為數據傳輸每節省一秒都意味著更高的每秒 token 量和更高效的 AI 模型。
傳統風冷方案難以應對如此高的功率。為了滿足散熱需求,數據中心的空氣需要冷卻至冰點以下或以接近暴風的速度流動才能帶走熱量,這使得僅靠空氣來冷卻高密度機架變得越來越不切實際。
液冷的密度幾乎是風冷的 1000 倍,而且擁有卓越的熱容和熱導率,這使得液冷在散熱方面表現出色。通過有效地帶走高性能 GPU 產生的熱量,液冷減少了對噪音大、能耗高的冷卻風扇的依賴,從而可將更多電力用于計算,而非散熱。
液冷技術的實際應用
整個行業的創新者都正在利用液冷技術降低能源成本、提高密度并提升 AI 能效:
Vertiv 針對 NVIDIA Grace Blackwell 機架式解決方案服務器設計的參考架構每年可降低 25% 的能耗,減少 75% 的機架空間需求,并降低 30% 的用電量。
施耐德電氣的液冷基礎設施支持的功率達到每個機架 132 千瓦,提高了 NVIDIA Grace Blackwell 機架式解決方案 AI 數據中心的能效、可擴展性和整體性能。
CoolIT Systems 的高密度 CHx2000 液對液冷卻液分配單元在接近 5°C 的溫度下提供 2 兆瓦的冷卻能力,確保 NVIDIA Grace Blackwell Ultra 機架式解決方案部署實現可靠的散熱管理。此外,其采用專利分流技術的 OMNI 全金屬冷板可實現超過 4000 瓦熱設計功率的精準冷卻,同時降低壓降。
Boyd 先進的液冷解決方案融合了該公司在 HPC 行業 20 多年的經驗,包含冷卻液分配單元、液冷回路和冷板,進一步提高了高密度 AI 工作負載的能效和系統可靠性。
云服務提供商也正在積極地采用最先進的冷卻和電力創新技術。下一代 AWS 數據中心采用聯合開發的液冷解決方案,在保持用水效率的同時,其算力提高了 12%,能耗最多降低至原來的 46%。
為未來的 AI 基礎設施散熱
隨著 AI 不斷突破計算規模的極限,冷卻技術的創新對于應對后摩爾定律時代的熱管理挑戰至關重要。
通過 COOLERCHIPS 等項目,NVIDIA 正在引領這場變革。COOLERCHIPS 項目致力于開發配備下一代散熱系統的模塊化數據中心,與傳統風冷設計相比,其成本預計至少降低 5%,能效提高 20%。
展望未來,數據中心必須以可持續的方式滿足 AI 不斷增長的需求,在最大限度地提高能源和用水效率的同時,盡可能減少對環境的影響。通過采用高密度架構和先進的液冷技術,行業正在為未來更高效的 AI 發展鋪平道路。
-
NVIDIA
+關注
關注
14文章
5298瀏覽量
106240 -
服務器
+關注
關注
13文章
9777瀏覽量
87803 -
數據中心
+關注
關注
16文章
5208瀏覽量
73433
原文標題:散熱新突破:NVIDIA Blackwell 平臺將用水效率提升超 300 倍
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
NVIDIA Blackwell GPU優化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

全球各大品牌利用NVIDIA AI技術提升運營效率
NVIDIA Blackwell推動流式傳輸和數據分析的未來發展
Cadence 利用 NVIDIA Grace Blackwell 加速AI驅動的工程設計和科學應用
英偉達GTC2025亮點:NVIDIA Blackwell加速計算機輔助工程軟件,實現實時數字孿生性能數量級提升
NVIDIA Blackwell白皮書:NVIDIA Blackwell Architecture Technical Brief
NVIDIA Blackwell數據手冊與NVIDIA Blackwell架構技術解析
英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
Supermicro提高NVIDIA Blackwell機架級解決方案產量
MediaTek與NVIDIA攜手打造GB10 Grace Blackwell超級芯片
Supermicro推出直接液冷優化的NVIDIA Blackwell解決方案

評論