在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種以圖像為中心的3D感知模型BIP3D

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-03-17 13:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

?項目主頁:

https://linxuewu.github.io/BIP3D-page/

?論文地址:

https://arxiv.org/abs/2411.14869

概述

在具身智能系統中,3D感知算法是一個關鍵組件,它在端側幫助可以幫助智能體理解環境信息,在云端可以用來輔助生成3D場景和3D標簽,具備重要的研究價值。現有主流算法主要依賴于點云作為輸入 (point-centric) ,盡管點云提供了精確的幾何信息,但由于其存在稀疏、噪聲、數據量較少等問題,仍然限制了感知算法的性能。

在本研究中,我們提出了一種新穎的以圖像為中心 (image-centric) 的3D感知模型——BIP3D,該模型利用具有顯式3D位置編碼的表達性圖像特征,以克服point-centric的方法的局限性。具體而言,我們利用預訓練的2D視覺基礎模型來增強語義理解,并引入了一個空間增強模塊來提升空間理解能力。這些模塊共同使BIP3D能夠實現多視角、多模態特征融合以及端到端的3D感知。BIP3D在多個開源數據集上獲得了卓越的性能,大幅領先現有算法。

BIP3D架構:基于Vision Foundation Model的多模態感知模型

9fbe5152-fe77-11ef-9310-92fbcf53809c.png

圖1 BIP3D模型架構圖

模型結構上,BIP3D主要包括6個模塊(圖1 (a) 所示):

1)text encoder:用于編碼文本特征,當采用decoder-only VLM作為基座時,則用text tokenizer代替;

2)image encoder:用于編碼多視角圖像,輸出多視角多尺度圖像特征;

3)depth encoder:用于編碼多視角深度圖像,輸出深度特征圖,和圖像特征保持pixel對齊,BIP3D支持純RGB輸入,因此depth encoder為可插拔模塊;

4)feature enhancer:用于融合圖像特征和文本特征;

5)spatial enhancer:利用相機模型對圖像特征加上3D位置編碼,同時融合深度特征;

6)decoder:基于spatial enhancer輸出的3D特征和文本特征,結合任務目標進行解碼;本文主要研究3D感知任務,因此采用了基于deformable aggregation的多視角特征融合算子來實現3D detection和grounding任務。

BIP3D的結構設計使其可以無縫銜接現有vision foundation model,本文采用Grounding-DINO作為基座來初始化BIP3D,以此獲得更好的泛化性、更快的收斂速度以及更高的感知精度。除了Grounding-DINO以外,也可以采用VLM類模型(如Qwen-VL)作為基座。

Spatial Enhancer:相機建模、3D編碼與深度特征融合

連接2D圖像和3D空間最重要的一步就是相機建模,我們首先利用圖像特征進行深度分布估計,得到一系列帶深度的視點及其概率,將這些視點通過相機模型投影到統一的3D空間,并對投影后的3D坐標進行高維映射,拿到3D point embedding,并將這些3D point embedding聯合所預測的概率分布進行加權求和,作為最終的3D position embedding。當模型接收深度圖作為輸入之一時,我們還會再深度估計時引入深度特征,以獲得更精確的深度分布,并在最終輸出的時候將深度特征和圖像特征進行融合,作為decoder的輸入。

我們的3D位置編碼可以提供很好的幾何信息,其特征空間的余弦距離和3D空間的歐氏距離具有顯著的正相關性,如下圖所示。

3D Perception Decoder:多視圖融合和文本特征融合

我們采用query-based detector的結構,如圖1 (d) 所示。首先生成一系列視角相關的bbox3d queries,并使用Deformable Aggregation算子實現任意視角數據的特征融合;為了實現open-set detection和grounding,還加入了text cross-attention。該decoder輸出9 DoF的3d bounding bbox及其高維特征,高維特征和文本特征的余弦距離用來表示置信度。考慮到9 DoF存在方向和尺寸歧義性,我們采用Wasserstein distance作為bbox3d的回歸損失函數。其次我們還加入了文本特征和query之間的對比損失,采用余弦距離和focal loss。具體實現見論文和代碼。

實驗結果

表1對比于BIP3D和point-centric方法的參數量分布情況,可以看出point-centric方法的主要參數量集中在3D encoder,而BIP3D集中在2D encoder,這是point-centric和image-centric的主要區別之一。

a03b565c-fe77-11ef-9310-92fbcf53809c.png

表1參數量分布對比

BIP3D在3D檢測和3D grounding上的性能顯著超越了現有方法,各項指標上都超過了EmbodiedScan的baseline。并且,當僅輸入圖像時,在沒有深度圖加持的情況下,BIP3D依然能獲得不錯的感知能力。

a04bbba0-fe77-11ef-9310-92fbcf53809c.png

表2 3D檢測結果對比

a06276c4-fe77-11ef-9310-92fbcf53809c.png

表3 3D Grounding結果對比

我們還證明了,BIP3D這種image-centric的網絡架構可以很好的發揮出vision foundation model的作用,如表4所示。

a07fd87c-fe77-11ef-9310-92fbcf53809c.png

表4 VFM的作用

更多的實驗結果可見huggingface主頁和論文。

總結與展望

在本研究中,我們提出了一種以圖像為中心的3D感知模型——BIP3D。該模型克服了點云數據的局限性,并充分利用了2D基礎模型的能力,從而在3D感知性能上實現了顯著提升。BIP3D支持多視角圖像、深度圖和文本作為輸入,使其能夠執行3D目標檢測和3D視覺定位任務。我們在EmbodiedScan基準測試中展示了BIP3D的優越性。然而,BIP3D仍有廣闊的探索空間,以下是未來工作的幾個方向:(1) 進一步優化網絡架構和訓練方案,以實現更卓越的感知性能。(2) 將BIP3D應用于動態場景,實現聯合檢測與跟蹤。(3) 引入更多感知任務,如實例分割、占據空間估計和抓取姿態估計。(4) 在BIP3D網絡框架下,改進decoder以支持更高級的任務,如action和3d reasoning。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 3D
    3D
    +關注

    關注

    9

    文章

    2956

    瀏覽量

    110454
  • 相機
    +關注

    關注

    4

    文章

    1455

    瀏覽量

    54582
  • 感知模型
    +關注

    關注

    0

    文章

    3

    瀏覽量

    5749
  • 具身智能
    +關注

    關注

    0

    文章

    131

    瀏覽量

    431

原文標題:CVPR 2025|BIP3D: 連接圖像和3D空間,提升具身智能的空間感知能力

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    #硬聲創作季 #3D打印 3D打印技術及應用-3.3.1 水杯模型設計-1

    3D打印
    水管工
    發布于 :2022年10月21日 17:05:01

    #硬聲創作季 #3D打印 3D打印技術及應用-3.3.1 水杯模型設計-2

    3D打印
    水管工
    發布于 :2022年10月21日 17:05:30

    Labview中如何導入3D模型

    Labview中如何導入3D模型,例如3Dmax生成的模型。嘗試過用.STL格式導入Labview。但是3D
    發表于 01-26 13:13

    求教,關于AD9.4 3D模型顯示的問題

    最近下載了個AD9.4,參照網上的教程已經在元器件封裝庫里,給部分封裝導入了相應的*STEP的3D模型,現在遇到的問題是,打開元器件封裝庫(*lib),
    發表于 05-08 17:16

    3D模型文件格式之OBJ詳解

    Visualizer"開發的一種標準3D模型文件格式,很適合用于3D軟件模型之間的互導,也可以通過Maya讀寫。比如你在
    發表于 04-27 17:02

    浩辰3D軟件中如何創建槽特征?3D模型設計教程!

    ,然后單擊新槽(2) 的路徑,最后單擊放置新槽 (3)。 可以每次個或每個圍欄個地添加更多槽,或者選擇多個路徑來同時創建多個槽。以上就是小編為大家梳理的浩辰
    發表于 09-28 16:16

    浩辰3D軟件入門教程:如何比較3D模型

    。浩辰3D軟件不僅提供了完備的零件、裝配、仿真、工程圖、鈑金、焊接等數十設計模塊,還提供了「比較模型」和「比較圖紙」功能,讓這過程高效且精確。01「比較
    發表于 12-15 13:45

    AD的3D模型繪制功能介紹

    共提供了4類型,類型1常規型,類型2時圓柱體模型,類型3是外部模型,類型4是球體模型。我們根
    發表于 01-14 16:48

    浩辰3D的「3D打印」你會用嗎?3D打印教程

    設計。由浩辰CAD公司研發的浩辰3D作為從產品設計到制造全流程的高端3D設計軟件,不僅能夠提供完備的2D+3D體化解決方案,還能站式集成
    發表于 05-27 19:05

    STEP與WRL 3D模型的區別

    “ KiCad 7支持兩格式的3D模型:STEP和WRL。本文簡述了STEP與WRL的區別,以及這兩格式在哪些場合應用更合理。 ” 簡介 這兩
    發表于 06-16 11:26

    3D圖像引擎,3D圖像引擎原理

    3D圖像引擎,3D圖像引擎原理 產生的背景和定義 隨著計算機軟、硬件突飛猛進的發展,計算機圖形學在各個行業的應用也得
    發表于 03-26 15:54 ?1504次閱讀

    3D模型

    3D模型, 淘寶網上買的3D元器件庫需要的自行下載
    發表于 11-04 15:36 ?0次下載

    基于3D打印的原理及應用

    3D打印原理:分層打印(2D)與層疊堆砌(3D), 3D打印(3DP)即快速成型技術的一種,它是
    發表于 09-23 10:19 ?20次下載

    PCB 3D模型和PCB 3D模型尺寸資料免費下載

    本文檔的主要內容詳細介紹的是PCB 3D模型和PCB 3D模型尺寸資料免費下載。
    發表于 11-12 08:00 ?0次下載
    PCB <b class='flag-5'>3D</b><b class='flag-5'>模型</b>和PCB <b class='flag-5'>3D</b><b class='flag-5'>模型</b>尺寸資料免費下載

    華為基于AI技術實現3D圖像數字服務

    華為3D建模服務(3D Modeling Kit)是華為在圖形圖像領域又技術開放,面向有3D模型
    的頭像 發表于 08-12 14:50 ?5343次閱讀
    主站蜘蛛池模板: 99久久亚洲国产高清观看 | 国内一国产农村妇女一级毛片 | 亚洲国产婷婷综合在线精品 | 俄罗斯一级特黄黄大片 | 午夜女上男下xx00xx00动态 | 四虎在线免费播放 | 中文字幕11页 | 在线中文天堂 | 天天搞天天爽 | 天天操天天干天天摸 | 天天干夜夜夜操 | 久久久国产高清 | vr亚洲成年网址在线观看 | 国产a一级毛片午夜剧场14 | 人色网 | 午夜影视在线视频观看免费 | 看日本黄大片在线观看 | 五月激情综合婷婷 | 1024成人 | 亚洲一区二区免费看 | 中文字幕二区三区 | 美女操网站 | 丁香婷婷综合五月综合色啪 | 亚洲区视频在线观看 | 人人澡人人澡碰人人看软件 | 日日干夜夜操视频 | 在线高清视频大全 | 黄网站视频 | 久久看片网 | 成年黄网站免费大全毛片 | 一级特黄aa毛片免费观看 | 色欧美色 | 夜夜夜操 | 欧美高清免费一级在线 | 狠狠干天天爽 | 男男互攻h啪肉np文厉世 | 在线亚洲日产一区二区 | 一级特级aaaa毛片免费观看 | 黄色三级在线观看 | 久久日精品 | 91寡妇天天综合久久影院 |