NVIDIA 近期發布了Cosmos Reason-1的 7B 和 56B 兩款多模態大語言模型 (MLLM),它們經過了“物理 AI 監督微調”和“物理 AI 強化學習”兩個階段的訓練。其中,Cosmos Reason-1-7B 已經開源,其基于 Qwen2.5-VL 使用物理常識和具身推理數據進行了后訓練。
阿里云 PAI-Model Gallery 現已集成 Cosmos Reason-1-7B 模型并提供企業級部署方案,本文介紹如何在阿里云人工智能平臺 PAI (Platform of AI) 上快速部署和使用該模型。
NVIDIA Cosmos 平臺
NVIDIA Cosmos是一個世界基礎模型 (WFM) 的開發平臺,整合了先進的分詞器、護欄以及用于加速數據處理和管理的工作流,它為世界模型的訓練提供支持,并加速智能駕駛汽車 (AV) 和機器人的物理 AI 開發。
Cosmos 提供了一系列預訓練多模態模型,開發者可以開箱即用,包括用于世界生成和后訓練的 Cosmos Predict、生成大規模可控且高保真合成數據的 Cosmos Transfer、物理 AI 推理的 Cosmos Reason 以及過濾不安全輸入并確保輸出一致性和安全性的 Cosmos Guardrail 等。
其中,NVIDIA Cosmos Reason-1 是一款可完全定制的多模態 AI 推理模型,它專門為理解運動、物體交互以及時空關系而構建。基于思維鏈 (Chain-of-thought, CoT) 推理,Cosmos Reason-1 模型可以解讀視覺輸入、根據給定的提示詞預測結果、并基于推理給出優化分析和決策。
該模型基于真實世界的物理規律實現推理,從而生成清晰且能夠感知上下文環境的自然語言回復。Cosmos Reason-1 既可以作為其他物理 AI 模型的數據清洗和質量過濾工具,也可以作為規劃模型用于推理具身智能體下一步的行為。
阿里云 PAI-Model Gallery 集成的Cosmos Reason-1-7B
PAI-Model Gallery 是阿里云人工智能平臺 PAI 產品組件,集成了眾多 AI 開源社區中優質的預訓練模型,并且基于開源模型支持零代碼實現模型訓練(微調)、壓縮、評測、部署和推理的全部過程,提供更快、更高效、更便捷的 AI 應用體驗。此外,它還提供開箱即用的 API,并且支持企業級數據安全。
Cosmos Reason-1-7B 集成到阿里云 PAI-Model Gallery,標志著用戶能夠在“AI + 云”的范式下,通過預訓練模型的即用性與模塊化設計,顯著降低多模態技術棧選型的復雜度及模型適配成本。
企業和開發者現在可以基于領先的云原生平臺,實現從原始視覺數據輸入到物理約束驅動的高級推理輸出的端到端開發,從而加速物理 AI 從原型到生產級部署的全生命周期。
在阿里云 PAI 上一鍵部署Cosmos Reason-1-7B
本節介紹 Cosmos Reason-1-7B 模型在阿里云人工智能平臺 PAI 上進行一鍵部署,以及模型驗證的實踐。
1. 在 PAI-Model Gallery 模型廣場找到 Cosmos Reason-1-7B 模型。以阿里云新加坡和中國大陸的節點為例。
2. 在模型詳情頁右上角點擊「部署」,在選擇計算資源后,即可一鍵完成模型的云上部署。
3. 部署成功后,在服務頁面可以點擊“查看調用信息”獲取調用的 Endpoint 和 Token,想了解服務調用方式可以點擊“預訓練模型”鏈接,返回模型介紹頁查看調用方式說明。
4. 使用推理服務:您可以使用 API 調用模型服務,也可以使用 PAI 提供的 WebUI 界面與模型交互。
模型實測
實測使用NVIDIA Research官網上的視頻案例作為模型輸入。視頻中一個人正在往杯子中倒牛奶,我們給模型的問題是:“視頻中的人將牛奶倒入杯子以后,下一步最合理的動作是什么?”模型的回答展示出模型考慮到了人物下一步動作的各種可能性,甚至考慮到了倒完牛奶放好奶瓶后,用勺子攪拌牛奶和咖啡,最后模型在進行了一番深入思考后得出了結論,下一步是“將奶瓶放回到臺面上”。
從這個例子可以看出,模型準確地“理解”了視頻中人的動作并給出了正確的預測,這種對運動、物體交互以及時空關系的理解及預測能力一般難以做到,而且模型輸出了完整的思維鏈,讓我們能清楚地知道模型的整個思考過程。
下面附上完整的視頻、輸入問題、模型輸出結果,供大家參考。
Question:The overall goal is "The agent pours milk into the cup". The agent in the video is currently performing one subtask out of many to complete this instruction. For the agent in the video, what is the most plausible next immediate subtask?
Model outputs:The agent is currently pouring milk into the cup. The next immediate subtask after pouring would logically be to stop pouring once the desired amount is achieved. Then, the agent would need to place the milk bottle back on the countertop. After that, they might close the bottle's cap to prevent spills. Finally, they could stir the mixture with the spoon to mix the milk and coffee thoroughly. However, since the current action is pouring, the very next step after pouring would be to stop pouring and set the bottle down. But the question asks for the most plausible next immediate subtask. Since the pouring is ongoing, the next step after completing the pour would be to place the milk bottle back on the countertop. Alternatively, if the pouring is still in progress, maybe adjusting the angle to ensure all milk is poured. But given the context, the agent is actively pouring, so once that's done, placing the bottle down makes sense. However, the answer might be to stop pouring and set the bottle aside. But the exact next step after pouring would be to place the bottle back. Alternatively, maybe the agent needs to check if the cup is full enough. But the most logical next step after pouring is to stop and place the bottle down. So the answer is likely "Place the milk bottle back on the countertop."
即將到來:基于 NVIDIA Cosmos Reason-1 tools的模型后訓練最佳實踐
NVIDIA 也開源了 Cosmos Reason-1 tools,它是用于在 Cosmos Reason-1 基準測試上訓練和評估模型的腳本。它提供的模型后訓練腳本 (SFT + RL) 將加速企業和開發者基于自有數據定制 Cosmos Reason-1 模型,從而創建專屬的 physical AI 模型。
阿里云 PAI 團隊測試的 Cosmos Reason-1 tools 的性能表現如下:在 Qwen2.5-32B-Instruct 模型和 gsm8k 數據集 (Batch size = 2,048) 組合上進行后訓練測試,相比其他開源框架,Cosmos Reason-1 tools 在小規模集群上實測有 1-2 倍的性能加速。PAI 將在近期集成 Cosmos Reason-1 tools 的模型后訓練能力。
通過阿里云 PAI 上手實踐NVIDIA Cosmos Reason-1-7B 模型
您可以根據所在區域,在阿里云國際站的新加坡或中國大陸節點,通過阿里云 PAI 使用 Cosmos Reason-1-7B 模型。
作者
黃博遠
黃博遠是阿里云大數據及人工智能平臺的產品總監。他于 2014 年加入阿里巴巴集團,負責阿里媽媽(在線廣告)和商業搜索團隊的工程工作。自 2018 年起,他擔任阿里云人工智能平臺 PAI、DataWorks 和搜索平臺的產品負責人。加入阿里巴巴之前,自 2007 年起,他曾在微軟搜索技術中心擔任搜索廣告與展示廣告團隊的資深開發負責人。
高慧怡
高慧怡是 NVIDIA 深度學習解決方案架構師,2020 年加入 NVIDIA 解決方案架構團隊,從事深度學習應用在異構系統的加速工作,目前主要支持國內 CSP 客戶在大語言模型的訓練加速工作。
金國強
金國強是 NVIDIA 資深解決方案架構師,主要負責深度學習生成式 AI 領域模型訓練、推理優化以及大模型開發與應用云端落地等技術方向合作。
-
NVIDIA
+關注
關注
14文章
5246瀏覽量
105775 -
模型
+關注
關注
1文章
3487瀏覽量
49995 -
阿里云
+關注
關注
3文章
1005瀏覽量
43869
原文標題:在阿里云 PAI 上一鍵部署和使用 NVIDIA Cosmos Reason-1 模型
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論