在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何本地部署NVIDIA Cosmos Reason-1-7B模型

麗臺科技 ? 來源:麗臺科技 ? 2025-07-09 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,NVIDIA 開源其物理 AI 平臺NVIDIA Cosmos中的關鍵模型——NVIDIA Cosmos Reason-1-7B。這款先進的多模態大模型能夠理解視頻、進行物理推理,并規劃下一步行動。本文將一步步帶你在本地服務器上完成該模型的部署,并搭建一個直觀的 Web 交互界面,親身體驗前沿 AI 的“思考”過程。

1NVIDIA Cosmos 平臺

所謂物理 AI,即賦予機器人無人機、輔助駕駛汽車等自主機器感知、推理并與物理世界交互的能力。開發物理 AI 始終面臨兩大核心挑戰:

數據瓶頸:獲取訓練復雜模型所需的海量、高質量真實世界數據,成本高昂且難以規模化。

測試困境:在安全可控的環境中驗證模型的有效性與安全性,較為困難。

NVIDIA Cosmos 專為構建物理 AI 而生。作為一個整合前沿生成式世界基礎模型(WFM)先進分詞器、護欄以及用于加速數據處理和管理的高效工作流的集成平臺。該技術為世界模型訓練提供支持,并加速智能汽車(AV)和機器人的物理 AI 開發。

為攻克物理 AI 開發難題,NVIDIA Cosmos 引入了核心策略——合成數據(Synthetic Data)。通過在NVIDIAOmniverse及其Isaac Sim模擬平臺中創建高度逼真的數字孿生世界,Cosmos 能夠大規模、低成本地生成用于訓練和測試的結構化數據。其目標是實現“模擬到現實的零樣本部署”(Sim-to-Real Zero-Shot Deployment),在模擬環境中充分訓練和驗證的模型,無縫、高效且安全地應用于現實世界。

NVIDIA Cosmos 并非單一模型,而是一個由多個世界基礎模型(World Foundation Models)和配套工具組成的綜合性平臺,其三大支柱各司其職:

Cosmos Predict:根據文本、圖像或視頻輸入,生成符合物理規律且視覺逼真的未來場景。這允許開發者在安全的虛擬環境中,無限次地測試 AI 代理的反應,避免昂貴且危險的實體實驗。

Cosmos Transfer:能將低保真或非視覺輸入(如分割圖、CAD 模型、激光雷達點云)轉換為照片般逼真的高保真視頻,加速了高質量合成數據的生產效率。

Cosmos Reason:作為多模態推理模型,能夠理解復雜場景,進行基于物理和因果關系的推理,并以自然語言形式輸出下一步的行動建議,可稱作自主系統的“大腦”。

2NVIDIA Cosmos Reason-1-7B

本文的主角Cosmos Reason-1-7B(70 億參數),正是 Cosmos Reason 家族目前發布的兩款先進多模態大語言模型之一,另一版本為 Cosmos Reason-1-56B(560 億參數)。

Cosmos Reason-1-7B 基于“思維鏈”(Chain of Thoughts)推理模式,能將復雜問題層層分解,賦予 AI 系統在復雜的物理世界中進行時空感知和推理的能力。

簡而言之,它能“看懂”攝像頭捕捉到的視頻流,結合人類的文本指令,進行深入的邏輯思考,最終生成最佳的決策或行動方案。

3實戰教程:部署 Cosmos Reason-1-7B

接下來將帶你完成 Cosmos Reason-1-7B 模型的本地化部署,并為其創建一個簡潔的前端交互界面。整個過程分為三大核心步驟:

模型準備:從 Hugging Face Hub 下載 Cosmos-Reason1-7B 的模型權重。

后端部署:使用 vLLM 框架加載模型,以提供高性能的推理服務。

前端開發:集成 Gradio 庫,創建一個用戶友好的 Web 界面,便于模型交互。

注意:

你需要一塊或多塊性能強勁的 NVIDIA GPU 來運行此模型(部署演示中使用了 4 張NVIDIA RTX 5880 Ada);

請確保已安裝 vllm、gradio、transformers、torch 等必要的 Python 庫。

下面的 Python 腳本整合了上述所有步驟,可供直接參考使用。

importgradioasgr
fromtransformersimportAutoProcessor
fromvllmimportLLM, SamplingParams
fromqwen_vl_utilsimportprocess_vision_info


# --- 1. 配置模型路徑 ---
# 請將此路徑修改為您在本地服務器上下載的模型權重文件夾路徑
MODEL_PATH ="/data/Cosmos-Reason1-7B"


# --- 2. 初始化vLLM引擎 ---
# tensor_parallel_size 可根據您的GPU數量進行調整
llm = LLM(
  model=MODEL_PATH,
  tensor_parallel_size=4,
  pipeline_parallel_size=1,
  limit_mm_per_prompt={"image":10,"video":10},
)


# --- 3. 設置采樣參數 ---
sampling_params = SamplingParams(
  temperature=0.6,
  top_p=0.95,
  repetition_penalty=1.05,
  max_tokens=4096,
)


# --- 4. 加載處理器 ---
processor = AutoProcessor.from_pretrained(MODEL_PATH)


# --- 5. 定義核心處理函數 ---
defparse_model_output(generated_text):
"""解析模型的輸出,分離思考過程和最終答案。"""
  think, answer ="",""
# 分離標簽
if""ingenerated_text:
    think_split = generated_text.split("")
    think = think_split[0].replace("","").strip()
    answer_part ="".join(think_split[1:]).strip()
else:
    answer_part = generated_text


# 分離標簽
if""inanswer_partand""inanswer_part:
    answer = answer_part.split("")[1].split("")[0].strip()
else:
    answer = answer_part.strip()


returnthink, answer


defvideo_chat(video_path, user_prompt):
"""處理視頻和文本輸入,并返回模型的推理結果。"""
ifnot video_path ornot user_prompt:
return"請輸入視頻和問題!","請輸入視頻和問題!"


  messages = [
    {"role":"system","content":"You are a helpful assistant. Answer the question in the following format: your thought process


your answer
."},
    {
"role":"user",
"content": [
        {"type":"text","text": user_prompt},
        {"type":"video","video": video_path,"fps":4}
      ]
    },
  ]


# 構建Prompt
  prompt = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
  )


# 處理視覺信息
  image_inputs, video_inputs, video_kwargs = process_vision_info(messages, return_video_kwargs=True)
  mm_data = {}
ifimage_inputs isnotNone: mm_data["image"] = image_inputs
ifvideo_inputs isnotNone: mm_data["video"] = video_inputs


  llm_inputs = {
"prompt": prompt,
"multi_modal_data": mm_data,
"mm_processor_kwargs": video_kwargs,
  }


# 生成結果
  outputs = llm.generate([llm_inputs], sampling_params=sampling_params)
  generated_text = outputs[0].outputs[0].text


# 解析并返回結果
  think, answer = parse_model_output(generated_text)
returnthink, answer


# --- 6. 構建Gradio Web界面 ---
withgr.Blocks(theme=gr.themes.Soft())asdemo:
  gr.Markdown("#  Cosmos-Reason1-7B 視頻理解Demo")
  gr.Markdown("上傳一段視頻,提出你的問題,看看AI如何“思考”和回答。")


withgr.Row():
withgr.Column(scale=1):
      video_input = gr.Video(label="上傳視頻 (MP4)")
      prompt_input = gr.Textbox(label="請輸入你的問題", lines=2, placeholder="例如:視頻里的人正在干什么?他接下來最可能做什么?")
      submit_btn = gr.Button(" 提交", variant="primary")


withgr.Column(scale=1):
withgr.Accordion(" AI的思考過程(點擊展開/收起)",open=False):
        think_output = gr.Textbox(label="Thinking Process", lines=10, interactive=False)
      answer_output = gr.Textbox(label=" 最終答案", lines=6, interactive=False)


  submit_btn.click(
    video_chat,
    inputs=[video_input, prompt_input],
    outputs=[think_output, answer_output]
  )


if__name__ =="__main__":
  demo.launch(server_name="0.0.0.0", server_port=7860)

4模型實測:是否能理解真實意圖?

實測中拍攝了一段 MP4 格式視頻作為輸入:視頻中,一只手正準備啟動電風扇。

我們向模型提出一個微妙的問題:

Question:what is the most plausible next immediate subtask?(最可能的下一個直接子任務是什么?)

模型的回答堪稱驚艷。為了更清晰地了解其思考方式,輸出結果整理如下:

AI 的思考過程(摘要)

好的,我們來分析一下。用戶詢問手啟動風扇后的下一個直接子任務。視頻顯示,手觸摸風扇后,扇葉開始旋轉,說明風扇被打開了。

既然已經打開,下一步是什么?通常,人們會檢查風扇是否正常工作,比如調節風速或方向。考慮到這是一個“子任務”,下一個動作應該與風扇直接相關。

視頻中的風扇底座上有指示燈,這很可能對應著不同的設置。因此,在“打開”這個宏觀動作完成后,一個非常合理的、更精細化的交互就是去調整這些設置。所以,最可能的下一個子任務是調節風扇的速度。

最終答案

Adjust the fan's speed using the indicators on its base.(根據風扇底座上的指示燈調節風扇轉速。)

從這個簡單的例子可以看出,模型的回答已經超越了“打開風扇”這一基本預判,直接推斷出更具體、更符合真實使用場景的交互動作——“調節風速”。

這表明模型不僅識別了視頻中的物體(手和風扇),還深刻理解了該電器的功能屬性(可調節的風速)以及精細化的操作邏輯。這種基于對物體功能的認知,準確“理解”視頻中人的意圖并給出高度合理預測的能力,充分展現了其在運動、人機交互以及功能邏輯關系上的強大理解與預測能力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29691

    瀏覽量

    212576
  • NVIDIA
    +關注

    關注

    14

    文章

    5298

    瀏覽量

    106245
  • AI
    AI
    +關注

    關注

    88

    文章

    34990

    瀏覽量

    278612

原文標題:本地部署物理 AI!一文玩轉 NVIDIA Cosmos Reason-1-7B

文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    英偉達Cosmos-Reason1 模型深度解讀

    英偉達近期發布的 Cosmos-Reason1 模型在物理常識推理領域引發廣泛關注。作為專為物理世界交互設計的多模態大語言模型,它通過融合視覺感知與復雜邏輯推理,重新定義了AI對物理世界的理解邊界
    的頭像 發表于 03-29 23:29 ?1930次閱讀

    基于NVIDIA Triton的AI模型高效部署實踐

    NVIDIA Triton 推理服務器(以前稱為 TensorRT 推理服務器)是一款開源軟件,可簡化深度學習模型在生產環境中的部署。借助 Triton 推理服務器,Devops 和 MLops
    的頭像 發表于 06-28 15:49 ?2160次閱讀

    如何本地部署模型

    近期,openEuler A-Tune SIG在openEuler 23.09版本引入llama.cpp&chatglm-cpp兩款應用,以支持用戶在本地部署和使用免費的開源大語言模型,無需聯網也能使用!
    的頭像 發表于 10-18 11:48 ?3256次閱讀
    如何<b class='flag-5'>本地</b><b class='flag-5'>部署</b>大<b class='flag-5'>模型</b>

    NVIDIA Cosmos世界基礎模型平臺發布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺由先進的生成式世界基礎模型、高級 tokenizer、護欄和加速視頻處理管線組成,將推動自動駕駛汽車(AV)和機器人等物理 AI
    的頭像 發表于 01-08 10:39 ?547次閱讀

    NVIDIA發布Cosmos?平臺,助力物理AI系統發展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos?平臺,該平臺專為自動駕駛汽車(AV)和機器人等物理AI系統而設計,旨在推動這些領域的快速發展。 Cosmos平臺融合了先進的生
    的頭像 發表于 01-08 15:36 ?610次閱讀

    NVIDIA發布Cosmos平臺,加速物理AI開發

    NVIDIA近日宣布了一項重大創新——推出NVIDIA Cosmos?平臺。該平臺集成了先進的生成式世界基礎模型、高級tokenizer、護欄以及加速視頻處理管線,旨在推動自動駕駛汽車
    的頭像 發表于 01-13 11:06 ?788次閱讀

    英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數據問題

    汽車行業的工作,Cosmos 模型將以開放模型許可證的方式提供。開發者可以在 NVIDIA API 目錄中預覽首批模型,也可
    的頭像 發表于 01-14 11:04 ?1223次閱讀
    英偉達推出基石世界<b class='flag-5'>模型</b><b class='flag-5'>Cosmos</b>,解決智駕與機器人具身智能訓練數據問題

    DeepSeek R1模型本地部署與產品接入實操

    針對VS680/SL1680系列大算力芯片,我們的研發團隊正在研究將蒸餾后的輕量級DeepSeek模型(DeepSeek-R1-Distill-Qwen-1.5B部署到SOC本地,以
    的頭像 發表于 04-19 16:32 ?260次閱讀
    DeepSeek R<b class='flag-5'>1</b><b class='flag-5'>模型</b><b class='flag-5'>本地</b><b class='flag-5'>部署</b>與產品接入實操

    行芯完成DeepSeek-R1模型本地部署

    近日,行芯正式宣布完成 DeepSeek-R1模型本地部署,實現在多場景、多產品中應用。解鎖“芯”玩法,開啟“芯”未來!
    的頭像 發表于 02-24 15:17 ?880次閱讀

    兆芯全面部署DeepSeek R1模型

    近日,基于兆芯高性能通用處理器的PC終端、工作站以及服務器成功實現DeepSeek-R1-Distill模型(1.5B/7B/32B/70
    的頭像 發表于 02-25 13:45 ?507次閱讀

    博實結完成DeepSeek大模型本地部署

    近日,公司完成DeepSeek R1 671B模型本地部署。通過構建自主可控的AI基礎設施,公司同步實現研發智能升級、研發成本重構、數據
    的頭像 發表于 03-19 16:31 ?622次閱讀

    英偉達GTC2025亮點 NVIDIA推出Cosmos世界基礎模型和物理AI數據工具的重大更新

    、Figure AI、Skild AI 是最早采用該技術的公司。 NVIDIA 宣布推出全新 NVIDIA Cosmos 世界基礎模型 (WFM) 的重大更新,該
    的頭像 發表于 03-20 19:01 ?861次閱讀

    NVIDIA Cosmos加速機器人和自動駕駛汽車物理AI發展

    NVIDIA Cosmos 通過可預測未來世界狀態的世界基礎模型加速物理 AI 的發展。
    的頭像 發表于 04-24 11:01 ?515次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>加速機器人和自動駕駛汽車物理AI發展

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發布了 Cosmos Reason-17B 和 56B 兩款多模態大語言模型
    的頭像 發表于 06-04 13:43 ?283次閱讀

    NVIDIA GTC巴黎亮點:全新Cosmos Predict-2世界基礎模型與CARLA集成加速智能汽車訓練

    。這種向使用大模型的過渡大大增加了對用于訓練、測試和驗證的高質量、基于物理學傳感器數據的需求。 為加速下一代輔助駕駛架構的開發,NVIDIA 發布了?NVIDIA Cosmos Pre
    的頭像 發表于 06-12 10:00 ?539次閱讀
    主站蜘蛛池模板: 天天摸天天干天天操 | 黄色生活毛片 | 精品手机在线 | 8050网午夜一级毛片免费不卡 | 青草青青产国视频在线 | 性欧美成人免费观看视 | 午夜免费伦费影视在线观看 | 午夜无遮挡怕怕怕免费视频 | 美女牲交毛片一级视频 | 国产高清免费午夜在线视频 | 一级毛片无毒不卡直接观看 | 日本欧洲亚洲一区在线观看 | 亚洲美女黄视频 | 五月天婷婷色图 | 激情久久久久久久久久久 | 午夜黄大色黄大片美女图片 | 性色视频在线 | 一区二区高清在线观看 | 成 人 免 费 黄 色 | 精品精品国产理论在线观看 | 俺也来国产精品欧美在线观看 | 最近2018中文字幕免费视频 | 看逼网址 | 大又大粗又爽又黄少妇毛片 | 三级网址在线播放 | 97影院午夜在线观看视频 | 4tube高清性欧美 | 五月深爱婷婷 | 亚洲精品91香蕉综合区 | 手机在线一区二区三区 | 天堂网在线播放 | 91亚洲国产成人久久精品网站 | 亚洲最新在线观看 | 国产亚洲精品aa在线看 | 特黄一级黄色片 | 恨恨操 | 中文字幕一二三四区 | 欧美日韩色片 | 交在线观看网站视频 | 男女交性无遮挡免费视频 | 在线免费黄色网址 |