概述
近日,全球機(jī)器人領(lǐng)域頂會(huì)ICRA 2025(IEEE機(jī)器人與自動(dòng)化國際會(huì)議)公布論文錄用結(jié)果,地瓜機(jī)器人主導(dǎo)研發(fā)的DOSOD開放詞匯目標(biāo)檢測算法與MODEST單目透明物體抓取算法成功入選。前者通過動(dòng)態(tài)語義理解框架提升復(fù)雜場景識別準(zhǔn)確率,后者結(jié)合幾何建模與語義分析技術(shù)優(yōu)化透明物體操作精度,兩項(xiàng)技術(shù)成果均已在規(guī)模化商業(yè)場景中得到有效驗(yàn)證。此次投稿的兩篇論文全部入選,不僅彰顯了ICRA對機(jī)器人感知領(lǐng)域的高度重視,同時(shí)也印證了地瓜機(jī)器人團(tuán)隊(duì)在機(jī)器人視覺領(lǐng)域的領(lǐng)先優(yōu)勢。
DOSOD開放詞匯目標(biāo)檢測算法,本期文章將圍繞MODEST單目透明抓取算法進(jìn)行重點(diǎn)介紹。
作為機(jī)器人執(zhí)行各項(xiàng)任務(wù)中繞不開的操作對象,水杯、試管、窗戶等透明物體在人類生活中無處不在。從精密制造、醫(yī)療實(shí)驗(yàn)室和家庭服務(wù)機(jī)器人等領(lǐng)域,透明物體的精確操作是提升自動(dòng)化和智能化水平的關(guān)鍵。然而,透明物體復(fù)雜的折射和反射特性給機(jī)器人感知造成了很大困難。在大多數(shù)RGB圖像中的透明物體往往缺乏清晰的紋理,而容易與背景混為一體。此外,商用深度相機(jī)也難以準(zhǔn)確捕捉這些物體的深度信息,導(dǎo)致深度圖缺失或噪聲過多,從而限制了機(jī)器人在多個(gè)領(lǐng)域的廣泛應(yīng)用。
為了解決透明物體的抓取問題,地瓜機(jī)器人聯(lián)合中科院自動(dòng)化所(簡稱:CASIA)多模態(tài)人工智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室,推出了針對透明物體的單目深度估計(jì)和語義分割的多任務(wù)框架(簡稱:MODEST)。該框架借助創(chuàng)新性的語義和幾何融合模塊,結(jié)合獨(dú)特的特征迭代更新策略,顯著提升了深度估計(jì)和語義分割的效果,尤其在抓取成功率和系統(tǒng)泛化性方面取得了突破性進(jìn)展。
MODEST算法框架作為通用抓取模型的前置模塊,即插即用,靈活高效,且無需依賴額外傳感器,僅靠單張RGB圖像,便可實(shí)現(xiàn)透明物體的抓取,效果上甚至要優(yōu)于其它雙目和多視圖的方法,可以廣泛應(yīng)用于智能工廠、實(shí)驗(yàn)室自動(dòng)化、智慧家居等場景,降低設(shè)備成本并大幅提升機(jī)器人對透明物體的操作能力。
基本原理
當(dāng)前透明物體的抓取核心在于深度信息的獲取,目前無論是深度傳感器還是多視角重建的方法都無法獲取透明物體準(zhǔn)確完整的深度信息。為了解決透明物體感知難題,傳統(tǒng)方法大多依賴特殊傳感設(shè)備或多視角圖像,增加了時(shí)間和經(jīng)濟(jì)成本,并常常受限于應(yīng)用場景。MODEST單目框架首次突破了傳統(tǒng)傳感器處理透明物體時(shí)的限制,降低了設(shè)備成本和使用復(fù)雜度,提供了更加高效、經(jīng)濟(jì)和便捷的透明物體感知方案。

單目透明物體感知框架與其他方法之間的對比
MODEST主要聚焦于透明物體的深度估計(jì),通過設(shè)計(jì)的語義和幾何結(jié)合的多任務(wù)框架,獲取物體準(zhǔn)確的深度信息,之后結(jié)合基于點(diǎn)云的抓取網(wǎng)絡(luò)實(shí)現(xiàn)透明物體的抓取。相當(dāng)于在通用抓取網(wǎng)絡(luò)前面增加一個(gè)針對透明物體的增強(qiáng)模塊。
MODEST模型的整體架構(gòu)如圖所示,輸入為單目RGB圖像,輸出為透明物體的分割結(jié)果和場景深度預(yù)測。網(wǎng)絡(luò)主要由編碼、重組、語義幾何融合和迭代解碼四個(gè)模塊組成。輸入圖像首先經(jīng)過基于ViT的編碼模塊進(jìn)行處理,隨后重組為對應(yīng)分割和深度兩個(gè)分支的多尺度特征。在融合模塊中對兩組特征進(jìn)行混合和增強(qiáng),最后通過多次迭代逐步更新特征,并獲得最終預(yù)測結(jié)果。

基于語義幾何融合和迭代策略的透明物體單目多任務(wù)框架
對于透明物體來說,語義分割任務(wù)可以為深度估計(jì)提供語義和上下文信息,而同樣深度估計(jì)可以為分割提供邊界、表面等幾何信息。為了充分挖掘兩個(gè)任務(wù)間的互補(bǔ)信息,MODEST算法框架構(gòu)建了基于注意力機(jī)制的語義幾何融合模塊,旨在同時(shí)提升兩個(gè)任務(wù)的性能。

語義幾何融合模塊結(jié)構(gòu)
當(dāng)人類觀察透明物體等不顯著物體時(shí),我們會(huì)傾向于先注意物體的整體輪廓,然后是局部細(xì)節(jié)。受人眼啟發(fā),MODEST框架提出了一種由粗到細(xì)的特征更新策略,進(jìn)一步提升預(yù)測精度。
實(shí)驗(yàn)結(jié)果
為了測試MODEST全新算法框架的檢測效果,我們選取了透明物體領(lǐng)域兩個(gè)影響力廣泛的公開仿真數(shù)據(jù)集Syn-TODD和真實(shí)數(shù)據(jù)集ClearPose,在其上與目前最先進(jìn)的透明物體雙目方法SimNet、多視圖方法MVTran以及多任務(wù)方法InvPT和TaskPrompter進(jìn)行對比實(shí)驗(yàn)。兩個(gè)大規(guī)模數(shù)據(jù)集都擁有超過100k的良好標(biāo)注圖像數(shù)據(jù),并且包含了嚴(yán)重遮擋等極端場景。
公開數(shù)據(jù)集上的定性和定量對比實(shí)驗(yàn)

仿真數(shù)據(jù)集Syn-TODD上的定性對比結(jié)果

真實(shí)數(shù)據(jù)集ClearPose上的定性對比結(jié)果
通過在兩個(gè)數(shù)據(jù)集上的定性對比結(jié)果可以看出,由于透明物體會(huì)錯(cuò)誤地折射背景,并且在RGB圖像中缺乏紋理,因此SimNet、MVTrans等方法無法獲得令人滿意的預(yù)測,從而導(dǎo)致深度圖和分割掩膜的大面積缺失。然而,通過有效的融合和迭代,在某些即使人眼都難以分析和判斷的場景,我們的方法依然能夠產(chǎn)生完整和清晰的預(yù)測結(jié)果。

仿真數(shù)據(jù)集Syn-TODD上的定量對比結(jié)果

真實(shí)數(shù)據(jù)集ClearPose上的定量對比結(jié)果
從表格中的定量對比可以看出,MODEST算法框架在各項(xiàng)指標(biāo)上都要大幅超過其他所有方法。值得注意的是,盡管只使用單張RGB圖像作為輸入,MODEST在深度估計(jì)和語義分割方面都要明顯優(yōu)于其他雙目甚至多視圖方法。并且在Syn-TODD數(shù)據(jù)集上,與排名第二的方法相比,MODEST算法框架在RMSE和REL兩項(xiàng)指標(biāo)有著超過45%的提升,語義分割的精度也均超過了90%。
真實(shí)平臺(tái)抓取實(shí)驗(yàn)
我們將算法遷移到真實(shí)機(jī)器人平臺(tái),開展了透明物體抓取實(shí)驗(yàn)。平臺(tái)主要由UR機(jī)械臂和深度相機(jī)構(gòu)成,在借助MODEST方法進(jìn)行透明物體精確感知的基礎(chǔ)之上,采用GraspNet進(jìn)行抓取位姿的生成。在多個(gè)透明物體上的實(shí)驗(yàn)結(jié)果表明,MODEST方法在真實(shí)平臺(tái)上具有良好的魯棒性和泛化性。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29533瀏覽量
211727 -
人工智能
+關(guān)注
關(guān)注
1804文章
48783瀏覽量
246887 -
檢測算法
+關(guān)注
關(guān)注
0文章
122瀏覽量
25449 -
地瓜機(jī)器人
+關(guān)注
關(guān)注
0文章
23瀏覽量
44
發(fā)布評論請先 登錄
盤點(diǎn)#機(jī)器人開發(fā)平臺(tái)
大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品
地瓜機(jī)器人RDK X5 規(guī)格書與地瓜機(jī)器人RDK X5原理圖

富唯智能最小復(fù)合機(jī)器人的強(qiáng)大抓取實(shí)力?

復(fù)合機(jī)器人抓取精度的影響因素及提升策略
地瓜機(jī)器人,和全球機(jī)器人開發(fā)者交朋友

《電子發(fā)燒友電子設(shè)計(jì)周報(bào)》聚焦硬科技領(lǐng)域核心價(jià)值 第2期:2025.03.3--2025.03.7
探索具身智能邊界,地瓜機(jī)器人邀你共戰(zhàn)ICRA 2025 Sim2Real挑戰(zhàn)賽

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊
NVIDIA在ICRA展示最新機(jī)器人研究
地瓜機(jī)器人發(fā)布一系列通用機(jī)器人套件
地瓜機(jī)器人與廣和通深度合作,共驅(qū)智能機(jī)器人商用落地

地瓜機(jī)器人與廣和通深度合作,共驅(qū)智能機(jī)器人商用落地

地瓜機(jī)器人攜手廣和通共推智能機(jī)器人新紀(jì)元
水星Mercury X1輪式人形機(jī)器人結(jié)合openc算法&STag標(biāo)記碼視覺系統(tǒng)實(shí)現(xiàn)精確抓取!

評論