在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達Cosmos-Reason1 模型深度解讀

eeDesigner ? 2025-03-29 23:29 ? 次閱讀

英偉達近期發布的Cosmos-Reason1模型在物理常識推理領域引發廣泛關注。作為專為物理世界交互設計的多模態大語言模型,它通過融合視覺感知與復雜邏輯推理,重新定義了AI對物理世界的理解邊界。以下從技術架構、訓練策略、核心能力及行業影響四方面展開深度解讀:

Cosmos-Reason 1:從物理 AI 常識到具體決策

物理 AI 系統需要感知、理解和執行物理世界中的復雜作。在本文中,我們提出了 Cosmos-Reason1 模型,該模型可以理解物理世界并通過長鏈推理過程以自然語言生成適當的具體決策(例如,下一步行動)。我們首先定義物理 AI 推理的關鍵功能,重點介紹物理常識和具身推理。為了表示物理常識,我們使用了分層本體,它捕獲了有關空間、時間和物理學的基本知識。對于具身推理,我們依賴于一個二維本體論,它泛化了不同的物理體現。基于這些功能,我們開發了兩個多模態大型語言模型,即 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我們分四個階段整理數據和訓練我們的模型:視覺預訓練、一般監督微調 (SFT)、物理 AI SFT 和物理 AI 強化學習 (RL) 作為后訓練。為了評估我們的模型,我們根據我們的本體為物理常識和具體推理構建了全面的基準。評估結果表明,Physical AI SFT 和強化學習帶來了顯著的改進。為了促進物理 AI 的開發,我們將在 NVIDIA 開放模型許可下提供我們的代碼和預訓練模型,https://github.com/nvidia-cosmos/cosmos-reason1[](https://github.com/nvidia-cosmos/cosmos-reason1 "(opens in a new window)")。

作者

林宗義劉明宇

出版日期

2025 年 3 月 18 日,星期二

研究領域

自動駕駛汽車

生成式 AI

物理 AI

機器人

上傳的文件:*附件:Cosmos_Reason1_Paper.pdf

一、技術架構:混合架構突破物理推理瓶頸

Cosmos-Reason1采用 Mamba-MLP-Transformer混合架構 ,這是英偉達對物理AI領域的一次重要創新:

  1. 視覺編碼器 :使用InternViT-300M-V2.5處理圖像/視頻,將視覺信息壓縮為256個token,保留全局上下文。
  2. 模態對齊 :通過兩層MLP投影器,將視覺token映射到文本嵌入空間,實現視覺與語言模態的統一處理。
  3. 混合解碼器 :結合Mamba架構(擅長空間關系建模)與Transformer(長程依賴捕捉),彌補純Transformer在空間理解上的短板。

該架構支持80億(8B)和560億(56B)參數兩種規模,訓練時分別采用張量并行(TP=4)和流水線并行(TP=8+PP=2),可處理長達32幀的視頻輸入。

二、訓練策略:四階段強化物理常識

模型訓練分為四個遞進階段,體現英偉達在物理AI數據構建上的深度思考:

  1. 視覺預訓練
    • 使用1.3億圖像文本對(含模型生成字幕)對齊視覺與語言模態。
    • 僅訓練MLP投影器,凍結LLM主干以保留語言理解能力。
  2. 通用監督微調(SFT)
    • 在600萬圖像+200萬視頻文本數據上微調,增強基礎視覺語言任務能力。
    • 數據覆蓋字幕生成、視覺問答等通用任務。
  3. 物理AI監督微調
    • 創新構建物理常識與具身推理專用數據集,包含:
      • 物理常識VQA :通過模型生成假設性問題(如“若視頻中的扳手松動,會如何運動?”),并提取推理軌跡。
      • 具身推理SFT :從人機協作視頻中分解短時動作片段,標注任務完成驗證、行動可行性等推理標簽
  4. 強化學習(RL)后訓練
    • 設計基于物理規則的獎勵機制,優化復雜場景下的推理能力。例如:
      • 時間箭頭檢測 :判斷視頻是否正序播放。
      • 空間謎題 :推理物體在遮擋后的位置。
      • 物體永久性 :理解被遮擋物體持續存在的物理法則。

三、核心能力:三維物理世界的“牛頓式”推理

模型在物理常識與具身推理基準測試上表現出色,具體體現在:

  1. 物理法則內化
    • 通過16層知識圖譜編碼重力、慣性等基礎物理定律。例如:
      • 能計算“暴雨中卡車打滑需提前0.3秒修正方向”。
      • 預判“機械臂扭矩超限可能導致設備損壞”。
  2. 長鏈思考能力
    • 生成包含37步的維修操作思維鏈,細節精確到“砂石地面禁用千斤頂”。
    • 自動駕駛場景中,200毫秒內完成“后視鏡影像識別→相對速度計算→碰撞預判→決策延遲變道”的完整推理。
  3. 跨模態一致性
    • 統一處理圖像、視頻、文本模態。例如:
      • 通過熱成像視頻判斷火災現場承重墻狀態,規劃逃生路徑。
      • 解析“用扳手敲擊玻璃”的視頻后,能推理出“玻璃可能破裂”的結論。

四、行業影響:物理世界的決策革命

Cosmos-Reason1的突破將重塑多個領域:

  1. 自動駕駛
    • 超越傳統視覺識別,實現物理預判。例如:
      • 預判道路施工并提前規劃變道,計算車流間隙是否滿足2.3秒變道時間。
  2. 工業機器人
    • 使機械臂具備“物理直覺”。如:
      • 抓取零件時主動預警“當前扭矩超出軸承極限”,建議功率下調15%。
  3. 物理模擬與訓練
    • 可生成高真實度虛擬場景,加速機器人訓練。例如:
      • 在模擬的十萬次車禍中優化應急決策算法
  4. 開源生態布局
    • 英偉達開放8B模型及訓練框架,吸引開發者進入CUDA生態。企業若需更高性能,可能轉向其DGX服務器和Blackwell芯片。

總結:物理AI的“認知飛輪”

Cosmos-Reason1通過混合架構、強化學習、物理法則編碼三大創新,構建了從感知到推理的完整閉環。它不再是被動的“觀察者”,而是能主動運用物理法則進行決策的“參與者”。這種能力可能催生新一代具身智能體,在物理世界中展現出更接近人類的智能行為。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3437

    瀏覽量

    49589
  • 英偉達
    +關注

    關注

    22

    文章

    3893

    瀏覽量

    92618
收藏 人收藏

    評論

    相關推薦

    進一步解讀英偉 Blackwell 架構、NVlink及GB200 超級芯片

    。 **英偉Blackwell架構在數據中心方面的應用有哪些?** 1. **AI **大模型訓練 Blackwell 架構的 GPU 針對當前火爆的 AI 大
    發表于 05-13 17:16

    英偉TITAN AI顯卡曝光,性能狂超RTX 409063%!# 英偉# 顯卡

    顯卡英偉
    jf_02331860
    發布于 :2024年07月24日 17:18:28

    超越英偉Pascal五倍?揭秘英特爾深度學習芯片架構 精選資料推薦

    在被英特爾收購兩年之后,深度學習芯片公司 Nervana 終于準備將代號為「Lake Crest」的架構轉化為實際的產品了。對于英特爾來說,現在入局或許有些遲到,英偉已經占據深度學習
    發表于 07-26 07:04

    英偉DPU的過“芯”之處

    ,AI硬件正成為越來越多數據中心擴容建設的關鍵所在。當超強AI算力成為數據中心的剛需,英偉GPU憑借強大的并行計算和浮點能力,突破了深度學習的算力瓶頸,成為AI硬件的首選。這一契機才使得英偉
    發表于 03-29 14:42

    英偉市價突破1萬億美元

    但此后英偉股價轉為下跌趨勢,最終上漲2.99%,達到401.11美元,市價僅為9920億美元。要想維持市價總額1萬億美元,英偉的股價必須
    的頭像 發表于 05-31 10:30 ?792次閱讀

    英偉發布人形機器人基礎模型

    英偉在一年一度的GTC開發者大會上,由創始人黃仁勛親自揭曉了令人矚目的Project GR00T人形機器人項目,其中引人注目的是一款全新的人形機器人基礎模型。這款模型
    的頭像 發表于 03-21 11:43 ?959次閱讀

    英偉推出AI模型推理服務NVIDIA NIM

    英偉近日宣布推出一項革命性的AI模型推理服務——NVIDIA NIM。這項服務將極大地簡化AI模型部署過程,為全球的2800萬英偉
    的頭像 發表于 06-04 09:15 ?833次閱讀

    英偉Cosmos AI項目曝光:構建先進視頻模型

    近日,英偉內部一項名為Cosmos的AI項目浮出水面,引起了業界的廣泛關注。該項目尚處于保密階段,未向公眾正式發布,但其雄心勃勃的目標已初露端倪。Cosmos旨在構建一個集光傳輸、物
    的頭像 發表于 08-07 16:51 ?687次閱讀

    英偉推出Eagle系列模型

    英偉最新推出的Eagle系列模型,以其1024×1024像素的高分辨率處理能力,重新定義了視覺信息處理的邊界。該模型通過多專家視覺編碼器架構,每個編碼器專注于特定任務訓練,極大地增強
    的頭像 發表于 09-03 16:13 ?629次閱讀

    黃仁勛:英偉正發起芯片革命 RTX5090售價1999美元

    ? 英偉創始人、CEO黃仁勛在2025國際消費電子展(CES)上發表開幕主題演講。英偉一口氣發布了多個新產品,其中就包括首個生成式世界基礎模型
    的頭像 發表于 01-07 17:56 ?881次閱讀

    英偉發布Cosmos世界基礎模型

    近日,在2025年1月6日于拉斯維加斯拉開帷幕的國際消費類電子產品展覽會(CES)上,英偉宣布了一項重大創新——Cosmos世界基礎模型
    的頭像 發表于 01-09 10:23 ?508次閱讀

    英偉推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數據問題

    CES 2025展會上,英偉推出了基石世界模型Cosmos,World Foundation Model基石世界模型,簡稱WFM。 物理
    的頭像 發表于 01-14 11:04 ?548次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b>推出基石世界<b class='flag-5'>模型</b><b class='flag-5'>Cosmos</b>,解決智駕與機器人具身智能訓練數據問題

    英偉GROOT N1 全球首個開源人形機器人基礎模型

    英偉GROOT N1 全球首個開源人形機器人基礎大模型
    的頭像 發表于 03-20 11:05 ?601次閱讀

    英偉GTC2025亮點 NVIDIA推出Cosmos世界基礎模型和物理AI數據工具的重大更新

    模型可實現物理 AI 的預測、可控世界生成和推理。 兩款全新Blueprint為機器人和自動駕駛汽車后訓練提供海量物理 AI 合成數據生成技術。 1X、Agility Robotics
    的頭像 發表于 03-20 19:01 ?658次閱讀
    主站蜘蛛池模板: 成人一级视频 | 免费视频一区 | 123456成年免费视频 | 国产色吧 | 男女爱爱免费视频 | 国产在线色视频 | 国产精品三级a三级三级午夜 | 5252a我爱haose01亚洲 | 在线久综合色手机在线播放 | 手机福利在线 | 男生女生靠逼视频 | 樱桃磁力bt天堂 | 美女视频很黄很a免费国产 美女视频很黄很暴黄是免费的 | 色综合天天综合网亚洲影院 | 亚洲第一网站 | 免费不卡毛片 | 四虎影院免费视频 | 又粗又大的机巴好爽欧美 | 天天色天天射天天操 | 久久草在线视频播放 | 欧美日韩免费大片 | 免费观看欧美成人1314色 | 午夜在线观看免费高清在线播放 | www.亚洲成人 | 久久天天躁夜夜躁狠狠躁2015 | 国产精品最新资源网 | 在线观看视频h | 欧美洲视频在线观看 | 国产精品毛片天天看片 | 久操精品在线观看 | 国产高清免费午夜在线视频 | 女同性进行性行为视频 | 中文字幕精品一区二区2021年 | 美女在线看永久免费网址 | 久久精品国产99精品最新 | 色偷偷888欧美精品久久久 | 亚洲一区 在线播放 | 黄 色 大 片 网站 | 亚洲欧美国产视频 | 特级黄毛片 | h黄视频 |