在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于擴散模型的視頻生成框架RoboTransfer

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-07-09 14:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

RoboTransfer

幾何約束&條件可控視頻生成

具身數據合成新范式

機器人操作領域,模仿學習是推動具身智能發展的關鍵路徑,但高度依賴大規模、高質量的真實演示數據,面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數據生成方案,但顯著的“模擬到現實”(Sim2Real)鴻溝,制約了仿真數據訓練策略的泛化能力與落地應用。

我們提出RoboTransfer一基于擴散模型的視頻生成框架,旨在合成高保真且符合物理規律的機器人操作演示數據。該框架創新性地融合深度-表面法向的幾何約束與多視角特征建模,確保生成視頻具備高度幾何一致性與真實感。通過拆分控制條件設計,實現對操作場景元素(如背景替換、物體外觀)的精細控制。結合物理仿真器重構空間布局與交互狀態,實現多樣化、可拓展的高保真數據合成。

RoboTransfer通過數據驅動的生成式Ai技術,建立機器人操作數據合成新范式,提供高質量、可擴展的演示數據,助力具身智能突破通用性與泛化性邊界。

近年來,隨著人工智能從感知智能向決策智能演進,世界模型 (World Models)逐漸成為機器人領域的重要研究方向。世界模型旨在讓智能體對環境進行建模并預測未來狀態,從而實現更高效的規劃與決策。

與此同時,具身數據也迎來了爆發式關注。因為目前具身算法高度依賴于大規模的真實機器人演示數據,而這些數據的采集過程往往成本高昂、耗時費力,嚴重限制了其可擴展性和泛化能力。盡管仿真平臺提供了一種相對低成本的數據生成方式,但由于仿真環境與真實世界之間存在顯著的視覺和動力學差異 (即sim-to-real gap) ,導致在仿真中訓練的策略難以直接遷移到真實機器人上,從而限制了其實際應用效果。因此如何高效獲取、生成和利用高質量的具身數據,已成為當前機器人學習領域的核心挑戰之一。

近日,地平線、極佳科技與中國科學院自動化研究所等單位提出RoboTransfer,基于擴散模型的視頻生成框架,可以用于擴充機器人策略模型的訓練數據。得益于合成數據的多樣性,下游策略模型能夠在新場景下取得251%的顯著提升,大幅提升策略模型的泛化性,為具身智能的通用性與泛化性奠定了堅實的基礎。

?論文鏈接:

https://arxiv.org/pdf/2505.23171

? 項目主頁:

https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿學習 (Imitation Learning) 已成為機器人操作領域的重要方法之一。通過讓機器人“模仿”專家示教的行為,可以在復雜任務中快速構建有效的策略模型。然而,這類方法通常依賴大量高質量的真實機器人演示數據,而數據采集過程成本高、周期長,嚴重制約了其擴展性和泛化能力。

為了解決上述問題,本項工作提出了RoboTransfer,一種基于擴散模型 (diffusion model) 的視頻生成框架,旨在實現高質量的機器人操作場景數據合成。不同于傳統的仿真方法或現有生成模型,RoboTransfer融合了多視角幾何信息,并對場景中的關鍵組成成分(如背景、物體屬性等)實現了顯式控制。具體而言,RoboTransfer通過引入跨視角特征交互機制以及全局深度圖與法向圖作為條件輸入,確保生成視頻在多個視角下的幾何一致性。此外,該框架支持細粒度的編輯控制,例如更換背景、替換目標物體等,從而能夠靈活地生成多樣化、結構合理的視覺數據。

實驗結果表明,RoboTransfer能夠生成具有高幾何一致性和視覺質量的多視角視頻序列。此外,使用RoboTransfer合成數據訓練的機器人視覺策略模型,在標準測試任務中表現出顯著提升的性能:在更換前景物體的場景下取得了33.3%的成功率相對提升,在更具挑戰性的場景下(同時更換前景背景)更是達到了251%的顯著提升。

RoboTransfer的整體框圖如下,為了在視頻生成過程中保證多視角之間的一致性,RoboTransfer引入了多視角一致性建模機制,使得生成過程能夠聯合不同視角的信息進行推理,從而提升生成結果的空間連貫性與視覺合理性。

此外,在控制條件的設計方面,RoboTransfer通過將控制信號解耦為幾何信息與外觀(紋理)信息兩個部分,實現了對生成內容的細粒度控制。具體來說,在幾何控制方面,采用深度圖 (depth map) 和表面法向圖 (surface normal map) 等具有強結構約束的表示方式,來引導生成視頻中物體的三維空間結構,確保在不同視角下生成內容的幾何一致性。而在外觀控制方面,模型利用參考背景圖像和目標物體的參考圖像作為輸入條件,這些圖像經過編碼后能夠有效保留原始場景的色彩、紋理以及上下文信息,從而在生成過程中維持物體外觀的細節還原能力。

在實驗部分,RoboTransfer證明可以通過real-to-real,以及sim-to-real兩種方式實現數據增廣,并訓練下游的策略模型提升其性能。

real-to-real數據增廣

基于真機采集的真實視頻數據,可從中提取結構化信息作為控制條件,通過調整背景桌面與前景物體的控制參數,實現新場景數據的合成。如下圖所示,左側為真實采集的數據及其對應的結構化信息,右側為合成結果,實驗表明RoboTransfer能夠靈活地實現背景桌布的替換。

改變前景:下圖所示第一行為真機采集數據,第二行為深度圖,第三行為法向圖,第四行為前景物體的控制條件,第五行為合成數據,第六行為背景桌布控制條件。以下實驗結果表明RoboTransfer可以實現對前景物體外表編輯的功能,豐富生成數據的多樣性,提升策略模型的訓練質量。

sim-to-real數據增廣

RoboTransfer不僅可以改變真機數據的前景和背景,還可以實現對仿真數據的重新渲染。利用仿真數據中的結構化信息以及真實場景的物體和背景作為控制條件,RoboTransfer可以將仿真數據的轉化為逼真的真實數據,極大地降低sim-to-real之間的gap,為通用機器人的訓練提供了一個新的范式。以下是兩個不同的仿真場景重新渲染的實驗結果,左側是疊碗,右側是放置杯子,其中第一行為仿真采集數據,第二行為深度圖,第三行為法向圖,第四行為合成數據,第五行為背景參考圖。

對比實驗結果

與其他SOTA方法的對比可以發現,RoboTransfer在時序一致性以及多視角之間的一致性上都要顯著優于其他方法。

定量實驗的實驗結果如下表所示,實驗表明對于生成數據的前背景增廣可以顯著提升策略模型在新場景下的成功率,其中對于前背景完全改變的新場景,前背景的數據增廣能夠讓策略模型獲得251%的性能提升。

c2a14bca-57f5-11f0-baa5-92fbcf53809c.png

表1:數據增廣對于策略模型在不同setting下的提升

總體來說,該方法構建了數據處理流程,可以生成包含幾何和外觀控制條件的三元組數據,以訓練基于擴散模型的機器人數據合成框架RoboTransfer。實驗和評估結果顯示,RoboTransfer能夠生成具有多視角一致、幾何一致的數據,并且可以根據參考圖像修改前景和背景紋理。生成的數據用于訓練機器人操作策略,從而顯著提升了策略模型的泛化能力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29697

    瀏覽量

    212592
  • 視頻
    +關注

    關注

    6

    文章

    1972

    瀏覽量

    73875
  • 模型
    +關注

    關注

    1

    文章

    3516

    瀏覽量

    50344

原文標題:開發者說|RoboTransfer:幾何一致視頻世界模型,突破機器人操作泛化邊界

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    4K、多模態、長視頻:AI視頻生成的下個戰場,誰在領跑?

    電子發燒友網報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節跳動最新視頻模型,支持文字與圖片輸入,可
    的頭像 發表于 06-16 00:13 ?6134次閱讀

    《AI Agent 應用與項目實戰》----- 學習如何開發視頻應用

    開發視頻內容生成Agent。 訪問語聚AI平臺官網 ,進行注冊或登錄。 在平臺首頁,了解語聚AI的功能和應用場景,特別是其支持的視頻生成相關的AI
    發表于 03-05 19:52

    字節跳動即將推出多模態視頻生成模型OmniHuman

    字節跳動旗下站式AI創作平臺即夢AI即將迎來重大更新,全新多模態視頻生成模型OmniHuman即將上線。這款模型是字節跳動自研的閉源模型
    的頭像 發表于 02-08 10:53 ?736次閱讀

    阿里云通義萬相2.1視頻生成模型震撼發布

    近日,阿里云旗下的通義萬相迎來了重要升級,正式推出了全新的萬相2.1視頻生成模型。這創新成果標志著阿里云在視頻生成技術領域的又次重大突破
    的頭像 發表于 01-13 10:00 ?822次閱讀

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無推出其視頻生成模型Sora的應用程序接口(API)的計劃。Sora模型能夠基于文本和圖像生成視頻,引發了廣泛關
    的頭像 發表于 12-20 14:23 ?521次閱讀

    中國電信發布自研視頻生成模型

    ,中國電信隆重發布了首個由央企全自研的視頻生成模型。該模型采用了創新的“VAST(Video As Storyboard from Text)二階段視頻生成技術”,實現了從文本描述到
    的頭像 發表于 12-13 15:40 ?542次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創新之作——AI視頻生成模型Sora。這新品的發布,無疑為AI技術注入了新的活力。 據悉,Sora與OpenAI旗下的AI工具DALL-E有著異曲同工之妙
    的頭像 發表于 12-12 09:40 ?699次閱讀

    OpenAI開放Sora視頻生成模型

    升級,準備迎接廣大用戶的深入探索與廣泛應用。 據官方公告介紹,Sora Turbo作為Sora的升級版本,具備強大的視頻生成能力。它能夠根據用戶的文本提示,快速創建出最長達20秒的高清視頻片段。更令人驚喜的是,Sora Turbo還能針對同
    的頭像 發表于 12-10 11:16 ?723次閱讀

    騰訊混元大模型上線并開源文生視頻能力

    近日,騰訊宣布其混元大模型正式上線,并開源了項令人矚目的能力——文生視頻。該大模型參數量高達130億,支持中英文雙語輸入,為用戶提供了更為便捷和多樣化的
    的頭像 發表于 12-04 14:06 ?520次閱讀

    字節跳動自研視頻生成模型Seaweed開放

    近日,字節跳動旗下的AI內容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這舉措標志著字節跳動在AI視頻領域邁出了堅實的
    的頭像 發表于 11-11 14:31 ?675次閱讀

    智譜視頻生成模型清影升級,開啟有聲電影新時代

    近日,智譜公司的視頻生成模型產品——清影,迎來了重要升級。此次升級后,清影能夠支持生成10秒、4K分辨率、60幀的超高清視頻,并且極大地提升了人物表演的細節表現。這
    的頭像 發表于 11-11 11:40 ?730次閱讀

    今日看點丨Vishay裁員800人,關閉上海等三家工廠;字節跳動發布兩款視頻生成模型

    企業市場開啟邀測。 ? 火山引擎介紹,豆包視頻生成模型基于DiT架構,通過高效的DiT融合計算單元,能更充分地壓縮編碼視頻與文本,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、
    發表于 09-25 15:48 ?947次閱讀

    火山引擎推出豆包·視頻生成模型

    在近期舉辦的2024火山引擎AI創新巡展上,火山引擎總裁譚待隆重推出了豆包·視頻生成模型,這舉措標志著火山引擎在視頻內容生成領域邁出了重要
    的頭像 發表于 09-25 14:11 ?626次閱讀

    阿里通義將發布視頻生成模型

    在即將召開的云棲大會上,阿里通義將震撼發布其自主研發的視頻生成模型。目前,用戶已可通過通義App頻道及通義萬相PC端預約體驗這創新功能,盡管具體使用尚未開放。
    的頭像 發表于 09-19 17:01 ?601次閱讀

    阿里首推AI視頻生成利器Tora:指尖畫圈,自由操控物體運動軌跡

    近日,阿里巴巴團隊震撼發布了項革命性的創新成果——Tora,個前所未有的AI視頻生成框架。Tora深度融合了文本、視覺與軌跡條件,依托其獨創的軌跡導向
    的頭像 發表于 08-06 16:41 ?1389次閱讀
    主站蜘蛛池模板: 亚洲人成网站色在线观看 | 在线免费视频手机版 | 色多多视频在线观看免费大全 | 人人人人凹人人爽人人澡 | 色综合天天综久久久噜噜噜久久〔 | 日韩免费观看视频 | 国产成人在线影院 | 思思久久96热在精品不卡 | 国产清纯白嫩大学生正在播放 | 天天爽夜夜爽8888视频精品 | 国产成人亚洲日本精品 | 尻美女视频 | 一级片在线视频 | 四虎影视院 | 99午夜 | 国产色产综合色产在线观看视频 | 欧美人与动性xxxxbbbb | 欧美一级视频免费观看 | 国产一区二区在线视频播放 | 在线电影天堂 | 黄色一级毛片在线观看 | 欧美不在线 | 日本免费黄色 | 国产成人啪精品午夜在线观看 | 手机在线看福利 | 欧美一级视频免费看 | 97影院理论片在线观看 | se94se最新网站 | 六月丁香激情综合成人 | 国产高清一区二区 | 无码一区二区三区视频 | 色综合天天综合网国产国产人 | 欧美色欧美亚洲高清在线视频 | 色黄网| 韩日一级毛片 | 94久久国产乱子伦精品免费 | 久久国产精品久久久久久 | 欧美性淫爽www视频播放 | 黄色网址 在线播放 | 日本在线亚洲 | 射吧亚洲|