英偉達近期發布的Cosmos-Reason1模型在物理常識推理領域引發廣泛關注。作為專為物理世界交互設計的多模態大語言模型,它通過融合視覺感知與復雜邏輯推理,重新定義了AI對物理世界的理解邊界。以下從技術架構、訓練策略、核心能力及行業影響四方面展開深度解讀:
Cosmos-Reason 1:從物理 AI 常識到具體決策
物理 AI 系統需要感知、理解和執行物理世界中的復雜作。在本文中,我們提出了 Cosmos-Reason1 模型,該模型可以理解物理世界并通過長鏈推理過程以自然語言生成適當的具體決策(例如,下一步行動)。我們首先定義物理 AI 推理的關鍵功能,重點介紹物理常識和具身推理。為了表示物理常識,我們使用了分層本體,它捕獲了有關空間、時間和物理學的基本知識。對于具身推理,我們依賴于一個二維本體論,它泛化了不同的物理體現。基于這些功能,我們開發了兩個多模態大型語言模型,即 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我們分四個階段整理數據和訓練我們的模型:視覺預訓練、一般監督微調 (SFT)、物理 AI SFT 和物理 AI 強化學習 (RL) 作為后訓練。為了評估我們的模型,我們根據我們的本體為物理常識和具體推理構建了全面的基準。評估結果表明,Physical AI SFT 和強化學習帶來了顯著的改進。為了促進物理 AI 的開發,我們將在 NVIDIA 開放模型許可下提供我們的代碼和預訓練模型,https://github.com/nvidia-cosmos/cosmos-reason1[](https://github.com/nvidia-cosmos/cosmos-reason1 "(opens in a new window)")。
作者
出版日期
2025 年 3 月 18 日,星期二
研究領域
一、技術架構:混合架構突破物理推理瓶頸
Cosmos-Reason1采用 Mamba-MLP-Transformer混合架構 ,這是英偉達對物理AI領域的一次重要創新:
- 視覺編碼器 :使用InternViT-300M-V2.5處理圖像/視頻,將視覺信息壓縮為256個token,保留全局上下文。
- 模態對齊 :通過兩層MLP投影器,將視覺token映射到文本嵌入空間,實現視覺與語言模態的統一處理。
- 混合解碼器 :結合Mamba架構(擅長空間關系建模)與Transformer(長程依賴捕捉),彌補純Transformer在空間理解上的短板。
該架構支持80億(8B)和560億(56B)參數兩種規模,訓練時分別采用張量并行(TP=4)和流水線并行(TP=8+PP=2),可處理長達32幀的視頻輸入。
二、訓練策略:四階段強化物理常識
模型訓練分為四個遞進階段,體現英偉達在物理AI數據構建上的深度思考:
- 視覺預訓練 :
- 使用1.3億圖像文本對(含模型生成字幕)對齊視覺與語言模態。
- 僅訓練MLP投影器,凍結LLM主干以保留語言理解能力。
- 通用監督微調(SFT) :
- 在600萬圖像+200萬視頻文本數據上微調,增強基礎視覺語言任務能力。
- 數據覆蓋字幕生成、視覺問答等通用任務。
- 物理AI監督微調 :
- 創新構建物理常識與具身推理專用數據集,包含:
- 物理常識VQA :通過模型生成假設性問題(如“若視頻中的扳手松動,會如何運動?”),并提取推理軌跡。
- 具身推理SFT :從人機協作視頻中分解短時動作片段,標注任務完成驗證、行動可行性等推理標簽。
- 創新構建物理常識與具身推理專用數據集,包含:
- 強化學習(RL)后訓練 :
- 設計基于物理規則的獎勵機制,優化復雜場景下的推理能力。例如:
- 時間箭頭檢測 :判斷視頻是否正序播放。
- 空間謎題 :推理物體在遮擋后的位置。
- 物體永久性 :理解被遮擋物體持續存在的物理法則。
- 設計基于物理規則的獎勵機制,優化復雜場景下的推理能力。例如:
三、核心能力:三維物理世界的“牛頓式”推理
模型在物理常識與具身推理基準測試上表現出色,具體體現在:
- 物理法則內化 :
- 通過16層知識圖譜編碼重力、慣性等基礎物理定律。例如:
- 能計算“暴雨中卡車打滑需提前0.3秒修正方向”。
- 預判“機械臂扭矩超限可能導致設備損壞”。
- 通過16層知識圖譜編碼重力、慣性等基礎物理定律。例如:
- 長鏈思考能力 :
- 跨模態一致性 :
- 統一處理圖像、視頻、文本模態。例如:
- 通過熱成像視頻判斷火災現場承重墻狀態,規劃逃生路徑。
- 解析“用扳手敲擊玻璃”的視頻后,能推理出“玻璃可能破裂”的結論。
- 統一處理圖像、視頻、文本模態。例如:
四、行業影響:物理世界的決策革命
Cosmos-Reason1的突破將重塑多個領域:
- 自動駕駛 :
- 超越傳統視覺識別,實現物理預判。例如:
- 預判道路施工并提前規劃變道,計算車流間隙是否滿足2.3秒變道時間。
- 超越傳統視覺識別,實現物理預判。例如:
- 工業機器人 :
- 使機械臂具備“物理直覺”。如:
- 抓取零件時主動預警“當前扭矩超出軸承極限”,建議功率下調15%。
- 使機械臂具備“物理直覺”。如:
- 物理模擬與訓練 :
- 開源生態布局 :
總結:物理AI的“認知飛輪”
Cosmos-Reason1通過混合架構、強化學習、物理法則編碼三大創新,構建了從感知到推理的完整閉環。它不再是被動的“觀察者”,而是能主動運用物理法則進行決策的“參與者”。這種能力可能催生新一代具身智能體,在物理世界中展現出更接近人類的智能行為。
-
模型
+關注
關注
1文章
3437瀏覽量
49589 -
英偉達
+關注
關注
22文章
3893瀏覽量
92618
發布評論請先 登錄
相關推薦
進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片


超越英偉達Pascal五倍?揭秘英特爾深度學習芯片架構 精選資料推薦
英偉達DPU的過“芯”之處
英偉達市價突破1萬億美元
英偉達發布人形機器人基礎模型
英偉達推出AI模型推理服務NVIDIA NIM
英偉達Cosmos AI項目曝光:構建先進視頻模型
英偉達推出Eagle系列模型
黃仁勛:英偉達正發起芯片革命 RTX5090售價1999美元
英偉達發布Cosmos世界基礎模型
英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數據問題

評論