在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

字節發布機器人領域首個開源視覺-語言操作大模型,激發開源VLMs更大潛能

新機器視覺 ? 來源:機器之心 ? 2024-01-23 16:02 ? 次閱讀

還在苦苦尋找開源的機器人大模型?試試RoboFlamingo!

近年來,大模型的研究正在加速推進,它逐漸在各類任務上展現出多模態的理解和時間空間上的推理能力。機器人的各類具身操作任務天然就對語言指令理解、場景感知和時空規劃等能力有著很高的要求,這自然引申出一個問題:能不能充分利用大模型能力,將其遷移到機器人領域,直接規劃底層動作序列呢?

對此,ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。使用簡單、少量的微調就可以把 VLM 變成 Robotics VLM,從而適用于語言交互的機器人操作任務。

OpenFlamingo 在機器人操作數據集 CALVIN 上進行了驗證,實驗結果表明,RoboFlamingo 只利用了 1% 的帶語言標注的數據即在一系列機器人操作任務上取得了 SOTA 的性能。

隨著 RT-X 數據集開放,采用開源數據預訓練 RoboFlamingo 并 finetune 到不同機器人平臺,將有希望成為一個簡單有效的機器人大模型 pipeline。論文還測試了各種不同 policy head、不同訓練范式和不同 Flamingo 結構的 VLM 在 Robotics 任務上微調的表現,得到了一些有意思的結論。

807bea80-b9b7-11ee-8b88-92fbcf53809c.png

項目主頁:https://roboflamingo.github.io/

代碼鏈接:

https://github.com/RoboFlamingo/RoboFlamingo

論文鏈接:

https://arxiv.org/abs/2311.01378

研究背景

80a369fc-b9b7-11ee-8b88-92fbcf53809c.png

基于語言的機器人操作是具身智能領域的一個重要應用,它涉及到多模態數據的理解和處理,包括視覺、語言和控制等。近年來,視覺語言基礎模型(VLMs)已經在多個領域取得了顯著的進展,包括圖像描述、視覺問答和圖像生成等。然而,將這些模型應用于機器人操作仍然存在一些挑戰,例如如何將視覺和語言信息結合起來,如何處理機器人操作的時序性等。

為了解決這些問題,ByteDance Research 的機器人研究團隊利用現有的開源 VLM,OpenFlamingo,設計了一套新的視覺語言操作框架,RoboFlamingo。其中 VLM 可以進行單步視覺語言理解,而額外的 policy head 模組被用來處理歷史信息。只需要簡單的微調方法就能讓 RoboFlamingo 適應于基于語言的機器人操作任務。

RoboFlamingo 在基于語言的機器人操作數據集 CALVIN 上進行了驗證,實驗結果表明,RoboFlamingo 只利用了 1% 的帶語言標注的數據即在一系列機器人操作任務上取得了 SOTA 的性能(多任務學習的 task sequence 成功率為 66%,平均任務完成數量為 4.09,基線方法為 38%,平均任務完成數量為 3.06;zero-shot 任務的成功率為 24%,平均任務完成數量為 2.48,基線方法為 1%,平均任務完成數量是 0.67),并且能夠通過開環控制實現實時響應,可以靈活部署在較低性能的平臺上。

這些結果表明,RoboFlamingo 是一種有效的機器人操作方法,可以為未來的機器人應用提供有用的參考。

方法

80abd52e-b9b7-11ee-8b88-92fbcf53809c.png

本工作利用已有的基于圖像 - 文本對的視覺語言基礎模型,通過訓練端到端的方式生成機器人每一步的 relative action。模型的主要模塊包含了 vision encoder,feature fusion decoder 和 policy head 三個模塊。

Vision encoder 模塊先將當前視覺觀測輸入到 ViT 中,并通過 resampler 對 ViT 輸出的 token 進行 down sample。

Feature fusion decoder 將 text token 作為輸入,并在每個 layer 中先將 vision encoder 的 output 作為 query 進行 cross attention,之后進行 self attention 以完成視覺與語言特征的融合。

最后,對 feature fusion decoder 進行 max pooling 后將其送入 policy head 中,policy head 根據 feature fusion decoder 輸出的當前和歷史 token 序列直接輸出當前的 7 DoF relative action,包括了 6-dim 的機械臂末端位姿和 1-dim 的 gripper open/close。

在訓練過程中,RoboFlamingo 利用預訓練的 ViT、LLM 和 Cross Attention 參數,并只微調 resampler、cross attention 和 policy head 的參數。

實驗結果

數據集:

80ba71c4-b9b7-11ee-8b88-92fbcf53809c.png

CALVIN(Composing Actions from Language and Vision)是一個開源的模擬基準測試,用于學習基于語言的 long-horizon 操作任務。與現有的視覺 - 語言任務數據集相比,CALVIN 的任務在序列長度、動作空間和語言上都更為復雜,并支持靈活地指定傳感器輸入。CALVIN 分為 ABCD 四個 split,每個 split 對應了不同的 context 和 layout。

定量分析:

80bff658-b9b7-11ee-8b88-92fbcf53809c.png

RoboFlamingo 在各設置和指標上的性能均為最佳,說明了其具有很強的模仿能力、視覺泛化能力以及語言泛化能力。Full 和 Lang 表示模型是否使用未配對的視覺數據進行訓練(即沒有語言配對的視覺數據);Freeze-emb 指的是凍結融合解碼器的嵌入層;Enriched 表示使用 GPT-4 增強的指令。

消融實驗:

80c5b0ca-b9b7-11ee-8b88-92fbcf53809c.png

不同的 policy head:

實驗考察了四種不同的策略頭部:MLP w/o hist、MLP w hist、GPT 和 LSTM。其中,MLP w/o hist 直接根據當前觀測預測歷史,其性能最差,MLP w hist 將歷史觀測在 vision encoder 端進行融合后預測 action,性能有所提升;GPT 和 LSTM 在 policy head 處分別顯式、隱式地維護歷史信息,其表現最好,說明了通過 policy head 進行歷史信息融合的有效性。

視覺-語言預訓練的影響:

預訓練對于 RoboFlamingo 的性能提升起到了關鍵作用。實驗顯示,通過預先在大型視覺-語言數據集上進行訓練,RoboFlamingo 在機器人任務中表現得更好。

模型大小與性能:

雖然通常更大的模型會帶來更好的性能,但實驗結果表明,即使是較小的模型,也能在某些任務上與大型模型媲美。

指令微調的影響:

指令微調是一個強大的技巧,實驗結果表明,它可以進一步提高模型的性能。

80d22774-b9b7-11ee-8b88-92fbcf53809c.gif

80fdc46a-b9b7-11ee-8b88-92fbcf53809c.gif

8125b150-b9b7-11ee-8b88-92fbcf53809c.gif

81bf1228-b9b7-11ee-8b88-92fbcf53809c.gif

82717f44-b9b7-11ee-8b88-92fbcf53809c.gif

82f82f94-b9b7-11ee-8b88-92fbcf53809c.gif

定性結果相較于基線方法,RoboFlamingo 不但完整執行了 5 個連續的子任務,且對于基線頁執行成功的前兩個子任務,RoboFlamingo 所用的步數也明顯更少。

8378a886-b9b7-11ee-8b88-92fbcf53809c.png

總結本工作為語言交互的機器人操作策略提供了一個新穎的基于現有開源 VLMs 的框架,使用簡單微調就能實現出色的效果。RoboFlamingo 為機器人技術研究者提供了一個強大的開源框架,能夠更容易地發揮開源 VLMs 的潛能。工作中豐富的實驗結果或許可以為機器人技術的實際應用提供寶貴的經驗和數據,有助于未來的研究和技術發展。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    212

    文章

    29134

    瀏覽量

    210558
  • 開源
    +關注

    關注

    3

    文章

    3509

    瀏覽量

    43188
  • 大模型
    +關注

    關注

    2

    文章

    2877

    瀏覽量

    3609

原文標題:字節發布機器人領域首個開源視覺-語言操作大模型,激發開源VLMs更大潛能

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Al大模型機器人

    金航標kinghelm薩科微slkor總經理宋仕強介紹說,薩科微Al大模型機器人有哪些的優勢?薩科微AI大模型機器人由清華大學畢業的天才少年N博士和王博士團隊開發,與同行相比具有許多優
    發表于 07-05 08:52

    ROS讓機器人開發更便捷,基于RK3568J+Debian系統發布

    本帖最后由 Tronlong創龍科技 于 2024-7-19 17:18 編輯 ROS系統是什么 ROS(Robot Operating System)是一個適用于機器人開源的元操作系統。它
    發表于 07-09 11:38

    ColorSky雙足機器人開源項目

    本帖最后由 colorsky 于 2016-4-21 14:05 編輯 大家好,我是ColorSky。這是我的雙足機器人開源項目。先發出視頻給大家看看,后面陸續會把技術資料上傳。機器人鞠躬動作
    發表于 04-21 10:51

    ROS讓機器人開發更便捷,基于RK3568J+Debian系統發布

    ROS系統是什么 ROS(Robot Operating System)是一個適用于機器人開源的元操作系統。它提供了操作系統應有的服務,包括硬件抽象,底層設備控制,常用函數的實現,進
    發表于 11-30 16:01

    機器人開源案例

    電子發燒友網站提供《機器人開源案例.zip》資料免費下載
    發表于 12-07 15:12 ?0次下載
    <b class='flag-5'>機器人</b><b class='flag-5'>開源</b>案例

    英雄機器人開源

    電子發燒友網站提供《英雄機器人開源.zip》資料免費下載
    發表于 12-14 11:39 ?0次下載
    英雄<b class='flag-5'>機器人</b><b class='flag-5'>開源</b>

    伺服機器人開源分享

    電子發燒友網站提供《伺服機器人開源分享.zip》資料免費下載
    發表于 02-01 11:07 ?0次下載
    伺服<b class='flag-5'>機器人</b><b class='flag-5'>開源</b>分享

    機器人守衛開源分享

    電子發燒友網站提供《機器人守衛開源分享.zip》資料免費下載
    發表于 02-06 10:32 ?7次下載
    <b class='flag-5'>機器人</b>守衛<b class='flag-5'>開源</b>分享

    檢測機器人開源分享

    電子發燒友網站提供《檢測機器人開源分享.zip》資料免費下載
    發表于 07-06 14:37 ?0次下載
    檢測<b class='flag-5'>機器人</b><b class='flag-5'>開源</b>分享

    國內首個!北京人形機器人創新中心成立

    據悉,北京人形機器人創新中心將面向未來打造世界首個通用人形機器人“硬件主控平臺”、首個模型+開源
    的頭像 發表于 11-09 10:41 ?1647次閱讀

    機器人基于開源的多模態語言視覺模型

    ByteDance Research 基于開源的多模態語言視覺模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo
    發表于 01-19 11:43 ?530次閱讀
    <b class='flag-5'>機器人</b>基于<b class='flag-5'>開源</b>的多模態<b class='flag-5'>語言</b><b class='flag-5'>視覺</b>大<b class='flag-5'>模型</b>

    英偉達GROOT N1 全球首個開源人形機器人基礎模型

    英偉達GROOT N1 全球首個開源人形機器人基礎大模型
    的頭像 發表于 03-20 11:05 ?719次閱讀

    NVIDIA發布全球首個開源人形機器人基礎模型Isaac GR00T N1

    NVIDIA 宣布推出一系列全新技術,助力人形機器人開發。其中包括全球首個開源且完全可定制的基礎模型NVIDIA Isaac GR00T N1,該
    的頭像 發表于 03-20 14:34 ?435次閱讀

    NVIDIA Isaac GR00T N1開源人形機器人基礎模型+開源物理引擎Newton加速機器人開發

    NVIDIA Isaac GR00T N1開源人形機器人基礎模型+開源物理引擎Newton加速機器人開發
    的頭像 發表于 03-20 16:56 ?427次閱讀

    全國首個基于開源鴻蒙的機器人操作系統M-Robots OS正式發布,中國機器人產業進入“群體智能”新時代

    2025年4月9日,深開鴻在廣東省人工智能與機器人產業創新產品與服務新聞發布會上正式發布全國首個基于開源鴻蒙的分布式異構多機協同
    的頭像 發表于 04-09 13:00 ?262次閱讀
    全國<b class='flag-5'>首個</b>基于<b class='flag-5'>開源</b>鴻蒙的<b class='flag-5'>機器人</b><b class='flag-5'>操作</b>系統M-Robots OS正式<b class='flag-5'>發布</b>,中國<b class='flag-5'>機器人</b>產業進入“群體智能”新時代
    主站蜘蛛池模板: 日本加勒比高清一本大道 | 亚洲一区二区三区免费在线观看 | 视频二区中文字幕 | 日本亚洲黄色 | 亚洲播放 | 天天干天天草天天射 | 天堂网在线www最新版在线 | 69日本xxⅹxxxxx18| 伊人精品视频在线 | 欧美色图色就是色 | www.亚洲成人| 精品综合久久88色鬼首页 | 涩涩爱影院 | 天天怕夜夜怕狠狠怕 | 一级毛片不卡 | 免费在线公开视频 | 久久天天躁夜夜躁狠狠85麻豆 | 亚洲图片综合区另类图片 | 永久黄网站色视频免费观看 | 特级黄色毛片 | 91成人免费福利网站在线 | 手机看片福利永久 | 末满18以下勿进色禁网站 | 日本免费网站在线观看 | 夜夜超b天天 | 四虎在线永久免费视频网站 | 特黄一级视频 | 免费一看一级毛片全播放 | 国产又粗又大又爽又免费 | 亚洲男人天堂2021 | 综合五月婷婷 | xvsr-365波多野结衣 | 综合欧美一区二区三区 | 亚洲综合色就色手机在线观看 | 欧美成人全部费免网站 | 伊人网站在线 | 久久精品国产夜色 | 欧美成人一区二区三区在线视频 | 黄色网大全 | 亚洲人成网站在线在线 | 国产午夜精品一区二区三区 |