從3D場景中實(shí)例形狀重建涉及恢復(fù)多個對象的完整幾何結(jié)構(gòu)。這涉及到在語義實(shí)例級別對數(shù)據(jù)進(jìn)行處理。使用數(shù)據(jù)驅(qū)動學(xué)習(xí)來應(yīng)對場景的復(fù)雜性和室內(nèi)遮擋。方法需要大規(guī)模、高質(zhì)量的數(shù)據(jù)集來訓(xùn)練,其中包括與真實(shí)世界掃描對齊和配對的形狀標(biāo)注。已有數(shù)據(jù)集可能是合成的或不對齊的,這會限制數(shù)據(jù)驅(qū)動方法在真實(shí)數(shù)據(jù)上的表現(xiàn)。文章提出了一個名為LASA的數(shù)據(jù)集,包含了高質(zhì)量的CAD標(biāo)注和與ArkitScenes的真實(shí)場景掃描對齊的數(shù)據(jù),這些由專業(yè)藝術(shù)家手動創(chuàng)建。在此基礎(chǔ)上,文章提出了一種名為DisCo的新型基于擴(kuò)散的跨模態(tài)形狀重建方法,利用混合特征聚合設(shè)計,融合多模態(tài)輸入,并恢復(fù)高保真度的對象幾何結(jié)構(gòu)。除此之外,還提出了一種名為OccGOD的基于占據(jù)信息引導(dǎo)的3D對象檢測方法,并展示了形狀標(biāo)注提供的場景占據(jù)信息線索如何進(jìn)一步改善3D對象檢測。經(jīng)過大量實(shí)驗(yàn)驗(yàn)證,文章的方法在實(shí)例級別場景重建和3D對象檢測任務(wù)中取得了最先進(jìn)的性能。
讀者理解:
LASA 使用大型對齊形狀注釋數(shù)據(jù)集的做法非常有意義。這使得 LASA 能夠?qū)W習(xí)到更通用的形狀特征,從而提高實(shí)例重建的準(zhǔn)確性和可靠性。
LASA 使用實(shí)例分割、形狀對齊和生成對抗網(wǎng)絡(luò)等多種技術(shù)的做法非常合理。這使得 LASA 能夠生成逼真的、高質(zhì)量的實(shí)例 3D 模型。
該研究提出了以下主要方法和貢獻(xiàn):
LASA數(shù)據(jù)集構(gòu)建:LASA是一個大規(guī)模數(shù)據(jù)集,包含10,412個手工制作的高質(zhì)量CAD模型,覆蓋了920個真實(shí)場景。這些模型與ArkitScenes的3D激光掃描對齊,為數(shù)據(jù)驅(qū)動的重建算法提供了準(zhǔn)確、一致的訓(xùn)練數(shù)據(jù)。
DisCo方法:提出了一種基于擴(kuò)散的跨模態(tài)形狀重建方法。該方法利用三平面擴(kuò)散模型,結(jié)合部分點(diǎn)云和多視圖圖像,實(shí)現(xiàn)了高保真度的3D形狀重建。混合特征聚合層有效融合了不同輸入模態(tài)的局部特征,提高了特征對齊效果。
OccGOD方法:占據(jù)引導(dǎo)的3D物體檢測方法利用LASA的完整標(biāo)注生成場景級占據(jù)地面真值,指導(dǎo)3D物體檢測。這種方法在處理遮擋和稀疏物體方面相較于基線方法取得了顯著的性能提升。
1 引言
本文探討了手持RGB-D傳感器廣泛應(yīng)用的情況,指出由于傳感器精度的限制、室內(nèi)環(huán)境的復(fù)雜性和物體之間的遮擋等問題,室內(nèi)場景掃描往往存在噪音和不完整性。這限制了在虛擬/增強(qiáng)現(xiàn)實(shí)和3D行業(yè)等領(lǐng)域中對完整高質(zhì)量重建的需求。文章著重介紹了3D視覺和圖形學(xué)領(lǐng)域?qū)κ覂?nèi)實(shí)例級場景重建的迫切需求,目標(biāo)是基于傳感器捕捉的3D掃描或圖像來重建觀察到的物體形狀。深度學(xué)習(xí)方法已取得許多進(jìn)展,但這些方法需要大量配對的場景掃描和CAD模型以進(jìn)行訓(xùn)練。然而,現(xiàn)有的數(shù)據(jù)集往往是合成的或者不對齊的,限制了數(shù)據(jù)驅(qū)動方法在真實(shí)數(shù)據(jù)上的性能。文章介紹了LASA數(shù)據(jù)集的創(chuàng)建,這是一個大規(guī)模對齊的形狀標(biāo)注數(shù)據(jù)集,由專業(yè)藝術(shù)家手工制作,與920個真實(shí)世界場景的3D掃描對齊。LASA數(shù)據(jù)集的推出旨在解決當(dāng)前研究中的瓶頸,為數(shù)據(jù)驅(qū)動的室內(nèi)場景理解和重建提供了途徑。這里也推薦工坊推出的新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)》。
2 方法
LASA數(shù)據(jù)集包含10,412個獨(dú)特的CAD模型,覆蓋了920個場景,采用專業(yè)藝術(shù)家手工創(chuàng)建,并與3D掃描對齊。這些標(biāo)注為數(shù)據(jù)驅(qū)動的重建算法提供了精確一致的訓(xùn)練數(shù)據(jù)。
LASA數(shù)據(jù)集是基于ArkitScenes的3D激光掃描構(gòu)建,通過降采樣和轉(zhuǎn)換矩陣對齊實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,再通過CAD模型手動標(biāo)注和驗(yàn)證確保了標(biāo)注質(zhì)量。
LASA數(shù)據(jù)集與其他現(xiàn)有數(shù)據(jù)集相比,具有相似數(shù)量的CAD模型,并且在CAD標(biāo)注質(zhì)量和形狀多樣性方面表現(xiàn)出優(yōu)勢,同時能夠提供完整的RGB-D序列,拓展了其在下游應(yīng)用中的可能性。
DisCo方法利用三平面擴(kuò)散模型,結(jié)合了部分點(diǎn)云和多視圖圖像,實(shí)現(xiàn)了高保真度的3D形狀重建。同時,混合特征聚合層有助于更好地融合不同輸入模態(tài)的局部特征。
OccGOD利用形狀完整性先驗(yàn)從LASA的標(biāo)注中生成場景級占據(jù)地面真值,以指導(dǎo)3D物體檢測,在處理遮擋和稀疏物體方面取得了顯著的性能提升。
3 總結(jié)
通過引入LASA數(shù)據(jù)集,本研究提出了DisCo和OccGOD兩種方法,分別用于跨模態(tài)形狀重建和占據(jù)引導(dǎo)的3D物體檢測。這兩種方法在真實(shí)場景中取得了最先進(jìn)的性能表現(xiàn),證明了LASA數(shù)據(jù)集的支持對于改善室內(nèi)場景理解和重建領(lǐng)域的標(biāo)注質(zhì)量和數(shù)量至關(guān)重要。
-
傳感器
+關(guān)注
關(guān)注
2560文章
52158瀏覽量
761432 -
CAD
+關(guān)注
關(guān)注
18文章
1104瀏覽量
73543 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1220瀏覽量
25183
原文標(biāo)題:讀者理解:
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
RGB傳感器的典型應(yīng)用
多維力傳感器被廣泛應(yīng)用
如何去開發(fā)一款基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)
美國國家半導(dǎo)體溫度傳感器的廣泛應(yīng)用
基于RGB-D圖像物體識別方法

3D場景感知所需要的技術(shù)以及未來發(fā)展的方向
傳感器正廣泛應(yīng)用各個行業(yè)
基于UWB、里程計和RGB-D融合的室內(nèi)定位方法

用于快速高保真RGB-D表面重建的神經(jīng)特征網(wǎng)格優(yōu)化的GO-Surf
瞄準(zhǔn)AGV/AMR領(lǐng)域-維感科技發(fā)布高性價比RGB-D ToF相機(jī)DS86/87

一種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

兩種應(yīng)用于3D對象檢測的點(diǎn)云深度學(xué)習(xí)方法

常用的RGB-D SLAM解決方案

評論