0. 引言
歸功于大規(guī)模視覺語言模型,名詞指代表達(dá)理解模型已經(jīng)取得了巨大的進(jìn)展。然而,在像智能服務(wù)機(jī)器人這樣的現(xiàn)實(shí)交互中,系統(tǒng)輸入通常較為隱晦(比如舒服得坐下這樣的動(dòng)作),現(xiàn)代視覺語言模型設(shè)計(jì)是否能有效地理解動(dòng)詞所指仍然有待探索。
1. 論文信息
2. 摘要
目前的指代表達(dá)理解算法可以有效地檢測(cè)或分割名詞所指的對(duì)象,但如何理解動(dòng)詞指代仍然是一個(gè)有待探索的問題。因此,我們研究了具有挑戰(zhàn)性的面向任務(wù)的檢測(cè)問題,該問題旨在找到最好地由動(dòng)詞所指示動(dòng)作的對(duì)象,如舒適地坐在上面。為了更好地為機(jī)器人交互等下游應(yīng)用服務(wù),我們將問題擴(kuò)展到面向任務(wù)的實(shí)例分割。這項(xiàng)任務(wù)的一個(gè)獨(dú)特要求是在可能的備選方案中選擇首選候選方案。因此,我們求助于transformer體系結(jié)構(gòu),它自然地對(duì)成對(duì)查詢關(guān)系進(jìn)行建模,這構(gòu)建了TOIST方法。為了利用預(yù)先訓(xùn)練的名詞指代表達(dá)理解模型,以及我們可以在訓(xùn)練期間訪問特權(quán)名詞基礎(chǔ)事實(shí)的事實(shí),提出了一種新的名詞-代詞提取框架。名詞原型以無監(jiān)督的方式生成,并且上下文代詞特征被訓(xùn)練來選擇原型。因此,網(wǎng)絡(luò)在推理過程中保持名詞不可知。我們?cè)诿嫦蛉蝿?wù)的大規(guī)模數(shù)據(jù)集COCO-Tasks上進(jìn)行測(cè)試并實(shí)現(xiàn)比最佳報(bào)告結(jié)果高出10.9%。提出的名詞代詞提取可以將mAPbox和mAPmask分別提高2.8%和3.8%。
3. 算法分析
3.1 任務(wù)描述
TOIST這篇文章目的是解決面向任務(wù)的檢測(cè)問題,那么什么是面向任務(wù)呢?如圖1右上角所示,當(dāng)輸入為“涂抹黃油”時(shí),系統(tǒng)會(huì)輸出叉子的檢測(cè)框,因?yàn)椴孀涌捎糜谕磕S油。當(dāng)然這只是COCO-Tasks提出的目標(biāo)檢測(cè)問題,TOIST還借助現(xiàn)有的COCO掩碼將問題擴(kuò)展到實(shí)例分割問題,以此來實(shí)現(xiàn)更精細(xì)的定位。例如當(dāng)輸入為“舒服得坐著”時(shí),系統(tǒng)會(huì)分割出沙發(fā)。因此,TOIST提出的面向任務(wù)的實(shí)例分割方案(圖1底部)可以很好得在點(diǎn)云分割和三維重建等領(lǐng)域發(fā)揮作用,對(duì)于下游機(jī)器人的交互應(yīng)用具有重要意義。 圖1 左上:名詞指代表達(dá)理解,右上:面向任務(wù)的檢測(cè),下部:面向任務(wù)的實(shí)例分割。 當(dāng)然了,面向任務(wù)的檢測(cè)/分割方法的一個(gè)有趣且具有挑戰(zhàn)性的特征是內(nèi)在歧義。例如,在圖1的右上圖中,比薩餅皮也可以用來涂抹黃油。如果我們手邊既沒有叉子也沒有比薩餅皮,仍然可以用盤子涂抹黃油。以及如圖1底部所示。當(dāng)我們考慮要踩的物體時(shí),椅子是更好的選擇,因?yàn)樯嘲l(fā)很軟,桌子移動(dòng)起來很重。當(dāng)需要舒適地坐著時(shí),沙發(fā)顯然是最好的選擇。換句話說,提供動(dòng)詞的對(duì)象是不明確的,算法需要對(duì)偏好進(jìn)行建模。
3.2 算法原理
近年來Transformer大火,TOIST的作者認(rèn)為注意力機(jī)制可以很好得對(duì)候選對(duì)象之間的相對(duì)偏好進(jìn)行建模,因此設(shè)計(jì)了一種面向任務(wù)的實(shí)例分割Transformer。 眾所周知,訓(xùn)練Transformer需要大量數(shù)據(jù),而大規(guī)模的具有相對(duì)偏好的動(dòng)詞參考數(shù)據(jù)非常少見。因此作者從另一個(gè)角度出發(fā),探索了在名詞指代表達(dá)理解模型中重用知識(shí)的可能性,即使用代詞如某物作為代理,并從聚類生成的名詞嵌入原型中提取知識(shí)。 具體來說,TOIST首先使用特權(quán)名詞訓(xùn)練具有動(dòng)詞-名詞輸入的TOIST模型(例如,踩在圖1底部的底部面板的椅子上)。但是在推理過程中,不能訪問名詞椅子,因此用動(dòng)詞代詞輸入(例如,踩在某物上)訓(xùn)練第二個(gè)TOIST模型,并從第一個(gè)TOIST模型中提取知識(shí)。因此,第二TOIST模型在推理期間保持名詞不可知,并且比直接用動(dòng)詞-代詞輸入訓(xùn)練模型獲得更好的性能。這個(gè)框架被稱為名詞-代詞提煉??傮w來說,將特權(quán)名詞信息提取為代詞特征的想法非常新穎! 如圖2所示為TOIST網(wǎng)絡(luò)的具體架構(gòu),TOIST包含三個(gè)主要組成部分:多模態(tài)編碼器(棕色)用于提取標(biāo)記化特征,Transformer編碼器(綠色)用于聚合兩個(gè)模態(tài)的特征,Transformer解碼器(藍(lán)色)用于預(yù)測(cè)具有注意力的最合適對(duì)象,其中cluster loss和soft binary target loss分別用于提取特權(quán)名詞知識(shí)和偏好知識(shí)。 圖2 TOIST網(wǎng)絡(luò)架構(gòu)和名詞-代詞提煉框架 概括起來,TOIST這篇文章有以下四個(gè)方面的貢獻(xiàn): (1) 第一次將面向任務(wù)的檢測(cè)任務(wù)升級(jí)為面向任務(wù)的實(shí)例分割,這個(gè)新的解決方法對(duì)機(jī)器人交互應(yīng)用有實(shí)用價(jià)值。 (2) 不同于現(xiàn)有的兩階段模型(先檢測(cè)對(duì)象然后排序),TOIST提出了第一個(gè)基于Transformer的方法來進(jìn)行面向任務(wù)的檢測(cè)/分割。它只有一個(gè)階段,并且自然地在對(duì)象查詢上用自注意力來模擬相對(duì)偏好。 (3) 為了利用名詞指代表達(dá)理解模型中的特權(quán)信息,TOIST提出了一個(gè)新的名詞-代詞提取框架。它在mAP box和mAP mask分別提升了+2.8%和+3.8%。 (4) 在COCO-Tasks數(shù)據(jù)集上取得了SOTA結(jié)果,比mAP box的最佳結(jié)果高出10.9%。
3.3 名詞代詞提煉
TOIST有兩種輸入形式,作者發(fā)現(xiàn)由于目標(biāo)名稱(名詞)的特權(quán)信息,使用動(dòng)名詞輸入的TOIST在mAP box和mAP mask上的表現(xiàn)提升了11.8 %和12.0 %,結(jié)果如表1所示。作者還進(jìn)行了另外兩個(gè)預(yù)實(shí)驗(yàn):將動(dòng)詞-名詞模型中的代詞特征lpron或ltr直接替換為動(dòng)詞-名詞模型中對(duì)應(yīng)的名詞特征lnoun或ltr,這種替換直接提高了性能。但是在推理過程中,基本真值對(duì)象的名詞是不可用的,作者認(rèn)為一個(gè)合理的名詞-名詞蒸餾框架可以在不違反名詞不可知性約束的前提下利用動(dòng)詞-名詞模型的豐富知識(shí)。 表1 與文本相關(guān)的幾種不同設(shè)置下的定量結(jié)果 在圖2所示的網(wǎng)絡(luò)框架中,兩個(gè)TOIST模型被同時(shí)訓(xùn)練。教師(圖2頂部)和學(xué)生(圖2底部)分別將動(dòng)詞-名詞和動(dòng)詞-代詞描述作為輸入,并使用具有記憶庫和聚類提取方法來提取從名詞到代詞的優(yōu)先的以對(duì)象為中心的知識(shí)(圖2左中)。作者還使用一個(gè)軟二進(jìn)制目標(biāo)損失來提取偏好知識(shí)(圖2中右),其中Gpred是用于計(jì)算偏好得分Spred的對(duì)數(shù)。此外,由于一個(gè)任務(wù)可以由許多不同類別的對(duì)象承擔(dān),因此作者建立了一個(gè)文本特征記憶庫來存儲(chǔ)名詞特征,通過它可以選擇一個(gè)原型來代替代詞特征和提取知識(shí),作者稱這個(gè)過程為聚類蒸餾。
4. 實(shí)驗(yàn)
TOIST模型在COCO-Tasks數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),這應(yīng)該是唯一涉及實(shí)例級(jí)偏好的數(shù)據(jù)集。COCO-Tasks數(shù)據(jù)集包含14個(gè)任務(wù)。對(duì)于每個(gè)任務(wù),有3600個(gè)訓(xùn)練圖像和900個(gè)測(cè)試圖像。在每個(gè)圖像中,首選對(duì)象(一個(gè)或多個(gè))的框被用作檢測(cè)的基礎(chǔ)事實(shí)標(biāo)簽。基于現(xiàn)有的COCO掩碼,作者將數(shù)據(jù)集擴(kuò)展到實(shí)例分割版本。
4.1 與SOTA方法的比較
表2顯示,在COCO-Tasks上,帶有名詞-代詞蒸餾的TOIST取得了最好結(jié)果。TOIST提出的一階段方法達(dá)到了41.3%的mAP box和35.2% mAP mask,比之前最好的結(jié)果(Yolo+GGNN和Mask-RCNN+GGNN)分別提高了8.1%和2.8%。名詞-代詞蒸餾將TOIST的性能進(jìn)一步提升至44.1% (+10.9%)的mAP box和39.0% (+6.6%)的mAP mask。 表2 在擴(kuò)展的COCO-Tasks數(shù)據(jù)集上,TOIST與SOTA基線的比較。
4.2 影響因素
圖3(a)驗(yàn)證了自注意力機(jī)制能夠自然地建模偏好的能力,其中兩個(gè)普通的TOIST模型分別訓(xùn)練,其中一個(gè)不包含自注意力。需要注意的是,移除自注意力不會(huì)影響參數(shù)的數(shù)量。作者認(rèn)為,對(duì)于具有自注意力的TOIST,隨著偏好分?jǐn)?shù)的來源變得更加深入,性能逐漸提升:從29.6% mAP box和25.0% mAP mask提升到41.3%和35.2%。TOIST解碼器中的自注意力建模了對(duì)象候選之間的成對(duì)相對(duì)偏好。隨著解碼器的深入,對(duì)象候選之間的偏好關(guān)系逐漸被自注意力提取出來。在表3 (b)中,與基線相比,帶有軟二元目標(biāo)損失的偏好蒸餾獲得了2.1% mAP box和2.8% mAP mask的提升。 圖3 (a)自注意力和(b)集群數(shù)量影響的實(shí)驗(yàn) 表3展示了使用聚類損失和用聚類中心(名詞原型)替換代詞特征的效果。在(c)和(e)中,單獨(dú)使用兩個(gè)成分比基準(zhǔn)(a)分別增加了0.7% mAP box、1.9% mAP mask和0.7% mAP box、1.8% mAP mask。在(g)中性能提升1.0% mAP box和2.3% mAP mask。這些結(jié)果表明,聚類蒸餾方法可以提高學(xué)生的TOIST和增強(qiáng)動(dòng)詞指稱表達(dá)式的理解。 表3 針對(duì)聚類的消融實(shí)驗(yàn)
在圖4中,作者可視化了預(yù)測(cè)結(jié)果(通過0.9的偏好閾值過濾)和代詞標(biāo)記的注意力圖。在第一行中,當(dāng)沒有聚類蒸餾時(shí),TOIST錯(cuò)誤地偏好花朵而不是杯子,注意圖也證實(shí)了這一點(diǎn)。但是聚類蒸餾的TOIST正確地選擇了杯子,而對(duì)花的注意力被削弱了。這表明聚類蒸餾使學(xué)生TOIST能夠減少動(dòng)詞-代詞指稱表達(dá)式的歧義。在第二行中,刀的邊界框由兩個(gè)模型正確檢測(cè)。然而,在沒有蒸餾的情況下,在盒子內(nèi)的勺子和叉子上預(yù)測(cè)額外的實(shí)例面具。相反,隨著蒸餾,TOIST預(yù)測(cè)的面具集中在刀上,注意力更集中在它上面。這表明,在集群蒸餾的情況下,TOIST可以更好地將任務(wù)研磨到對(duì)象框內(nèi)的像素。同時(shí),即使盒子是正確的,預(yù)測(cè)的掩模也可能是不準(zhǔn)確的,這一事實(shí)使得機(jī)器人在執(zhí)行特定任務(wù)時(shí)準(zhǔn)確地抓住優(yōu)選的物體具有挑戰(zhàn)性。這證明了將面向任務(wù)的對(duì)象檢測(cè)擴(kuò)展到實(shí)例分割的重要性。
圖4 代詞標(biāo)記的預(yù)測(cè)結(jié)果和注意力圖的可視化
4.3 消融研究和定性結(jié)果
表4顯示了不同代詞輸入下的TOIST結(jié)果。在普通TOIST和帶有蒸餾的TOIST中,使用某物、它或它們會(huì)導(dǎo)致類似的結(jié)果。而一個(gè)毫無意義的字符串a(chǎn)bcd產(chǎn)生較少的改進(jìn),證明了魯棒性。 表4 針對(duì)代詞輸入的消融實(shí)驗(yàn) 表5顯示了不同任務(wù)數(shù)的消融研究,其中第一行對(duì)應(yīng)于沒有蒸餾的純TOIST,其他行顯示了不同數(shù)目下蒸餾的結(jié)果??傮w而言,較小的n會(huì)帶來更好的性能,這是因?yàn)椴煌蝿?wù)之間的交互更少而降低了問題的復(fù)雜性,這使得通過名詞-代詞蒸餾更容易提高模型理解動(dòng)詞的能力。 表5 面向任務(wù)的目標(biāo)檢測(cè)任務(wù)數(shù)消融實(shí)驗(yàn)
5. 結(jié)論
在2022 NeurIPS論文“Centroid Distance Keypoint Detector for Colored Point Clouds”中,作者基于Transformer研究了面向任務(wù)的實(shí)例分割問題。TOIST在COCO-Tasks數(shù)據(jù)集上取得了SOTA結(jié)果,雖然沒有更大數(shù)據(jù)集上的評(píng)估,但這對(duì)于許多機(jī)器人交互應(yīng)用來說已經(jīng)足夠。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29533瀏覽量
211736 -
模型
+關(guān)注
關(guān)注
1文章
3499瀏覽量
50066 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25295
原文標(biāo)題:NIPS2022開源!TOIST:通過蒸餾實(shí)現(xiàn)面向任務(wù)的實(shí)例分割Transformer
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
如何將范圍從萬到FFFF擴(kuò)展到FRQQUPWM=44100
如何利用BTA06-600C將BT131的負(fù)載能力120W擴(kuò)展到200W以上?
可以將ESP Basic擴(kuò)展到ESP32嗎?
用兩個(gè)條形信號(hào)驅(qū)動(dòng)器將10個(gè)單元擴(kuò)展到100個(gè)單元

AMD稱其融聚渠道計(jì)劃將擴(kuò)展到行業(yè)與OEM渠道
蘋果將iPhone 的保修范圍擴(kuò)展到全球
三星借助MicroLED技術(shù)可擴(kuò)展到292英寸,顯示屏與周圍環(huán)境無縫融合!
蘋果可能正在尋求將蘋果地圖的范圍擴(kuò)展到其iDevices之外
AN-1529:使用AD9215高頻VGA將10位65 MSPS ADC的動(dòng)態(tài)范圍擴(kuò)展到100 dB以上

用于實(shí)例分割的Mask R-CNN框架
將5G安全地擴(kuò)展到戰(zhàn)場(chǎng)空間
基于通用的模型PADing解決三大分割任務(wù)

基于SAM設(shè)計(jì)的自動(dòng)化遙感圖像實(shí)例分割方法

通過應(yīng)用頻率將TPS92210的調(diào)光范圍擴(kuò)展到通用AC范圍

使用外部基準(zhǔn)電壓源將VOUT擴(kuò)展到1.2 V以下

評(píng)論