來(lái)源:3D視覺(jué)工坊
0. 這篇文章干了啥?
3D多目標(biāo)跟蹤(3D MOT)在各種機(jī)器人應(yīng)用中發(fā)揮著關(guān)鍵作用,例如自動(dòng)駕駛車(chē)輛。為了在駕駛時(shí)避免碰撞,機(jī)器人汽車(chē)必須可靠地跟蹤道路上的物體,并準(zhǔn)確估計(jì)它們的運(yùn)動(dòng)狀態(tài),例如速度和加速度。盡管近年來(lái)3D MOT的發(fā)展取得了很大進(jìn)展,但大多數(shù)方法仍然使用近似的物體狀態(tài)作為數(shù)據(jù)關(guān)聯(lián)的中間特征,而不是明確地優(yōu)化模型在狀態(tài)估計(jì)上的性能。盡管存在一些跟蹤方法,它們通過(guò)采用基于濾波器的算法(如卡爾曼濾波器(KF))來(lái)預(yù)測(cè)運(yùn)動(dòng)狀態(tài),但它們通常通過(guò)復(fù)雜的啟發(fā)式規(guī)則來(lái)估計(jì)物體狀態(tài),并且無(wú)法以數(shù)據(jù)驅(qū)動(dòng)的方式輕松利用外觀特征或原始傳感器測(cè)量值。雖然有一些基于機(jī)器學(xué)習(xí)的方法將預(yù)測(cè)頭添加到檢測(cè)模型中以估計(jì)運(yùn)動(dòng)狀態(tài),但由于計(jì)算和內(nèi)存限制,它們往往無(wú)法從長(zhǎng)期時(shí)間信息中產(chǎn)生一致的軌跡。
為了解決現(xiàn)有方法的局限性,這篇文章引入了STT,一種帶有Transformer的狀態(tài)跟蹤模型,它將數(shù)據(jù)關(guān)聯(lián)和狀態(tài)估計(jì)結(jié)合到一個(gè)單一模型中。模型架構(gòu)的核心是一個(gè)執(zhí)行數(shù)據(jù)關(guān)聯(lián)的Track-Detection Interaction(TDI)模塊,該模塊通過(guò)學(xué)習(xí)軌跡與其周?chē)鷻z測(cè)之間的交互來(lái)執(zhí)行數(shù)據(jù)關(guān)聯(lián),以及一個(gè)Track State Decoder(TSD)模塊,它產(chǎn)生軌跡的狀態(tài)估計(jì)。
所有模塊都是聯(lián)合優(yōu)化的,這使得STT能夠在簡(jiǎn)化系統(tǒng)復(fù)雜性的同時(shí)獲得優(yōu)越的性能。現(xiàn)有的跟蹤評(píng)估主要使用多目標(biāo)跟蹤準(zhǔn)確度(MOTA)和多目標(biāo)跟蹤精度(MOTP)來(lái)衡量關(guān)聯(lián)和定位質(zhì)量,但它們不考慮其他狀態(tài)的質(zhì)量,例如速度和加速度。為了明確捕捉跟蹤性能的全面狀態(tài)估計(jì)質(zhì)量,將現(xiàn)有的評(píng)估指標(biāo)MOTA擴(kuò)展為Stateful MOTA(S-MOTA),它在標(biāo)簽預(yù)測(cè)匹配期間強(qiáng)制進(jìn)行準(zhǔn)確的狀態(tài)估計(jì),將MOTP擴(kuò)展為MOTPS,它適用于任意狀態(tài)變量,以便評(píng)估位置以外的狀態(tài)估計(jì)質(zhì)量。
2. 摘要
在自動(dòng)駕駛中,追蹤三維空間中的物體至關(guān)重要。為了在駕駛時(shí)確保安全,追蹤器必須能夠可靠地跟蹤物體跨幀,并準(zhǔn)確地估計(jì)它們的狀態(tài),如當(dāng)前的速度和加速度。現(xiàn)有的工作經(jīng)常專注于關(guān)聯(lián)任務(wù),而忽略了模型在狀態(tài)估計(jì)上的性能,或者部署復(fù)雜的啟發(fā)式方法來(lái)預(yù)測(cè)狀態(tài)。在本文中,我們提出了STT,一種使用Transformer構(gòu)建的具有狀態(tài)的跟蹤模型,它可以在場(chǎng)景中始終可靠地跟蹤物體,同時(shí)準(zhǔn)確地預(yù)測(cè)它們的狀態(tài)。STT通過(guò)長(zhǎng)期歷史的檢測(cè)消耗豐富的外觀、幾何和運(yùn)動(dòng)信號(hào),并針對(duì)數(shù)據(jù)關(guān)聯(lián)和狀態(tài)估計(jì)任務(wù)進(jìn)行聯(lián)合優(yōu)化。由于標(biāo)準(zhǔn)的跟蹤指標(biāo)如MOTA和MOTP不能捕捉到在更廣泛的物體狀態(tài)范圍內(nèi)這兩個(gè)任務(wù)的綜合性能,我們使用稱為S-MOTA和MOTPS的新指標(biāo)來(lái)擴(kuò)展它們,以解決這一局限性。STT在Waymo Open Dataset上實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的實(shí)時(shí)性能。
3. S-MOTA
S-MOTA度量的示意圖。MOTA只考慮了標(biāo)簽預(yù)測(cè)匹配中的欠條,而沒(méi)有揭示狀態(tài)誤差(例如,圖中所示的速度誤差)。S-MOTA通過(guò)額外的閾值化步驟來(lái)評(píng)估預(yù)測(cè)狀態(tài)的準(zhǔn)確性,從而解決了這一限制。
4. 主要貢獻(xiàn)
為了展示STT模型的有效性,作者在大規(guī)模Waymo Open Dataset(WOD)上進(jìn)行了大量實(shí)驗(yàn)。STT在擴(kuò)展的S-MOTA和MOTPS指標(biāo)上取得了58.2的MOTA競(jìng)爭(zhēng)性表現(xiàn)和最新的結(jié)果。總體貢獻(xiàn)總結(jié)如下:
1提出了一種3D MOT跟蹤器,它可以在一個(gè)可訓(xùn)練的模型中跟蹤對(duì)象并估計(jì)其運(yùn)動(dòng)狀態(tài)。
2)我將現(xiàn)有的評(píng)估指標(biāo)擴(kuò)展為S-MOTA和MOTPS,以評(píng)估跟蹤性能,明確考慮狀態(tài)估計(jì)的質(zhì)量。
3)提出的模型在標(biāo)準(zhǔn)指標(biāo)和Waymo Open Dataset上的新擴(kuò)展指標(biāo)上的基準(zhǔn)模型上取得了改進(jìn)的性能和最新的結(jié)果。
5. 基本原理是啥?
STT概述。首先使用檢測(cè)編碼器來(lái)編碼所有的3D檢測(cè),并提取每個(gè)軌跡的時(shí)間特征。這些時(shí)間特征被饋送到軌跡-檢測(cè)交互模塊中,以聚合周?chē)鷻z測(cè)的信息,并為每個(gè)軌跡生成關(guān)聯(lián)分?jǐn)?shù)和預(yù)測(cè)狀態(tài)。軌跡狀態(tài)解碼器還利用時(shí)間特征來(lái)生成前一幀(t-1)中的軌跡狀態(tài)。所有模塊都是聯(lián)合優(yōu)化的。
6. 實(shí)驗(yàn)結(jié)果
為了展示STT模型的有效性,將其與Waymo開(kāi)放數(shù)據(jù)集上發(fā)表的最新方法進(jìn)行比較。大多數(shù)3D MOT算法采用檢測(cè)跟蹤范式,每個(gè)算法都使用不同的檢測(cè)骨干來(lái)進(jìn)行跟蹤算法。由于STT是一種有狀態(tài)的跟蹤器,可以與任意檢測(cè)模型一起使用,需要將其與使用與STT相同檢測(cè)模型的跟蹤方法進(jìn)行比較。首先將STT與這些最新方法以及KF基線在Waymo開(kāi)放數(shù)據(jù)集的官方3D跟蹤指標(biāo)上進(jìn)行比較。這些指標(biāo)包括MOTA、MOTP、假陽(yáng)性(FP)、假陰性(FN)和不匹配(標(biāo)識(shí)切換)。結(jié)果如表I所示。STT在車(chē)輛類型上的MOTA得分比KF基線高出+1.7分,而在其他指標(biāo)上則與之持平,這表明在STT的學(xué)習(xí)過(guò)程中包含狀態(tài)估計(jì)的好處。需要注意的是,由于兩種方法使用了不同的截止分?jǐn)?shù),KF和STT模型的漏檢率略有不同。KF基線的良好性能還表明,這些官方指標(biāo)在很大程度上依賴于檢測(cè)的質(zhì)量。一個(gè)簡(jiǎn)單的跟蹤器可以通過(guò)使用更強(qiáng)的物體檢測(cè)器(例如我們的KF基線與CenterPoint的比較)來(lái)實(shí)現(xiàn)比其他經(jīng)過(guò)高度調(diào)整的方法更好的性能。
為了展示STT在狀態(tài)估計(jì)上的優(yōu)勢(shì),進(jìn)一步使用有狀態(tài)度量S-MOTA對(duì)其進(jìn)行了比較,如表I所示。這個(gè)度量要求預(yù)測(cè)/地面實(shí)況匹配具有足夠高的預(yù)測(cè)速度和加速度質(zhì)量。車(chē)輛的速度和加速度閾值分別設(shè)置為1.0m/s和1.0m/s2,行人的速度和加速度閾值分別設(shè)置為0.5m/s和0.5m/s2。STT的SMOTA得分比KF基線分別高出13.4分,這表明盡管STT的性能在數(shù)據(jù)關(guān)聯(lián)指標(biāo)上接近KF基線,但在狀態(tài)估計(jì)上卻明顯優(yōu)于KF模型。這個(gè)結(jié)果也表明,S-MOTA度量對(duì)于區(qū)分在MOTA結(jié)果中具有類似關(guān)聯(lián)質(zhì)量的方法是有用的。
為了評(píng)估推理時(shí)間,使用XLA對(duì)STT模型進(jìn)行編譯,使用Nvidia PG189 GPU,單獨(dú)對(duì)STT進(jìn)行推理的時(shí)間為2.9毫秒,可以實(shí)現(xiàn)端到端跟蹤的實(shí)時(shí)性能。
MOTPS結(jié)果為了進(jìn)一步了解STT對(duì)狀態(tài)估計(jì)的改進(jìn),報(bào)告了STT和兩個(gè)基線的MOTPS指標(biāo)結(jié)果:i) 卡爾曼濾波器,和ii) SWFormer+State Head(SH),其中向原始SWFormer檢測(cè)器添加了一個(gè)狀態(tài)頭來(lái)預(yù)測(cè)每個(gè)檢測(cè)到的框的速度和加速度。這三種方法都使用相同的檢測(cè)模型,這消除了檢測(cè)質(zhì)量的影。如表II所示,與兩個(gè)基線相比,STT模型在總體狀態(tài)估計(jì)結(jié)果方面表現(xiàn)最佳。在速度估計(jì)方面,令人驚訝的是,SWFormer+SH是靜態(tài)對(duì)象的最佳狀態(tài)估計(jì)器,但STT對(duì)于移動(dòng)對(duì)象的性能更好。SWFormer+SH還產(chǎn)生了| MOTPvelocity |的最高值,而STT的值最低,表明SWFormer+SH在靜態(tài)對(duì)象上的優(yōu)越性能可能是由于過(guò)擬合。另一方面,KF基線在靜態(tài)對(duì)象的狀態(tài)預(yù)測(cè)上表現(xiàn)不佳,但在移動(dòng)對(duì)象上可以取得不錯(cuò)的性能。這可能是因?yàn)殪o態(tài)對(duì)象的微小抖動(dòng)會(huì)在KF狀態(tài)估計(jì)中產(chǎn)生較大的噪聲,而基于學(xué)習(xí)的方法對(duì)此更加魯棒。
STT的相對(duì)收益在加速度估計(jì)方面更為突出。STT對(duì)于移動(dòng)對(duì)象的加速度最佳,對(duì)于靜態(tài)對(duì)象與SWFormer+SH的性能相當(dāng)。與兩個(gè)基線相比,STT具有最低的方差,如|MOTPacceleration|所反映的那樣。加速度作為二階統(tǒng)計(jì)量更具挑戰(zhàn)性。因此,模型必須能夠穩(wěn)健地處理小噪聲,并有效地推斷長(zhǎng)期運(yùn)動(dòng)。STT具備這兩種品質(zhì),其魯棒性和一致性體現(xiàn)在指標(biāo)結(jié)果中。
消融研究。STT的關(guān)鍵創(chuàng)新之一是其統(tǒng)一的學(xué)習(xí)框架,它同時(shí)優(yōu)化數(shù)據(jù)關(guān)聯(lián)和狀態(tài)估計(jì)任務(wù)。為了驗(yàn)證聯(lián)合優(yōu)化狀態(tài)估計(jì)的聲明,創(chuàng)建了一個(gè)僅使用數(shù)據(jù)關(guān)聯(lián)損失進(jìn)行訓(xùn)練的STT基線。結(jié)果報(bào)告在表III的前兩行中。通過(guò)狀態(tài)估計(jì)和數(shù)據(jù)關(guān)聯(lián)的聯(lián)合優(yōu)化,STT在車(chē)輛和行人類別的MOTA分別提高了+1.8和+4。從STT獲得的這兩個(gè)類別的SMOTA改進(jìn)分別為+17.1和+42.1。這些結(jié)果表明數(shù)據(jù)關(guān)聯(lián)和狀態(tài)估計(jì)是高度互補(bǔ)的任務(wù),應(yīng)該進(jìn)行聯(lián)合優(yōu)化。
長(zhǎng)期的時(shí)間建模可以提高數(shù)據(jù)關(guān)聯(lián)質(zhì)量和更精確的狀態(tài)估計(jì)。為了驗(yàn)證時(shí)間特征對(duì)跟蹤性能的影響,評(píng)估了具有不同軌跡歷史長(zhǎng)度的STT。如表III的第3到第6行所示的結(jié)果表明,更長(zhǎng)的軌跡歷史可以導(dǎo)致更好的跟蹤性能。隨著軌跡歷史長(zhǎng)度增加到5,MOTA得分也會(huì)增加,之后就會(huì)飽和。然而,即使對(duì)于軌跡歷史長(zhǎng)度為20的情況,S-MOTA得分仍然持續(xù)大幅增加。這表明長(zhǎng)期時(shí)間建模對(duì)數(shù)據(jù)關(guān)聯(lián)和狀態(tài)估計(jì)任務(wù)至關(guān)重要。
7. 總結(jié) & 未來(lái)工作
這篇文章提出了STT,這是一種基于Transformer的模型,它在一個(gè)模型中同時(shí)進(jìn)行數(shù)據(jù)關(guān)聯(lián)和狀態(tài)估計(jì)。STT強(qiáng)調(diào)了這種聯(lián)合估計(jì)任務(wù)對(duì)自動(dòng)駕駛的重要性,這需要對(duì)三維實(shí)際空間中的對(duì)象進(jìn)行一致的跟蹤和準(zhǔn)確的狀態(tài)估計(jì)。為了解決現(xiàn)有評(píng)估方法的局限性,將MOTA指標(biāo)擴(kuò)展到S-MOTA,它在評(píng)估關(guān)聯(lián)質(zhì)量時(shí)強(qiáng)制考慮了狀態(tài)估計(jì)質(zhì)量,并將MOTP擴(kuò)展到MOTPs,它捕獲了對(duì)象的更廣泛的運(yùn)動(dòng)狀態(tài)。評(píng)估結(jié)果表明,STT在Waymo開(kāi)放數(shù)據(jù)集上具有競(jìng)爭(zhēng)力的結(jié)果,并在狀態(tài)估計(jì)方面表現(xiàn)出色。我們希望我們提出的解決方案和擴(kuò)展的度量標(biāo)準(zhǔn)能夠促進(jìn)這一領(lǐng)域的未來(lái)工作。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29537瀏覽量
211791 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
788文章
14226瀏覽量
169771 -
多目標(biāo)跟蹤
+關(guān)注
關(guān)注
0文章
6瀏覽量
7728 -
Transformer
+關(guān)注
關(guān)注
0文章
151瀏覽量
6414
原文標(biāo)題:ICRA'24 | STT:全面提升自動(dòng)駕駛中的多目標(biāo)跟蹤!
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
FPGA在自動(dòng)駕駛領(lǐng)域有哪些應(yīng)用?
【話題】特斯拉首起自動(dòng)駕駛致命車(chē)禍,自動(dòng)駕駛的冬天來(lái)了?
自動(dòng)駕駛真的會(huì)來(lái)嗎?
自動(dòng)駕駛的到來(lái)
如何讓自動(dòng)駕駛更加安全?
自動(dòng)駕駛汽車(chē)的處理能力怎么樣?
自動(dòng)駕駛汽車(chē)中傳感器的分析
網(wǎng)聯(lián)化自動(dòng)駕駛的含義及發(fā)展方向
自動(dòng)駕駛車(chē)輛中AI面臨的挑戰(zhàn)
新技術(shù)可有效地使用目標(biāo)檢測(cè)的對(duì)抗示例欺騙多目標(biāo)跟蹤

多目標(biāo)跟蹤過(guò)程中的數(shù)據(jù)關(guān)聯(lián)技術(shù)綜述
基于MobileNet的多目標(biāo)跟蹤深度學(xué)習(xí)算法

自動(dòng)駕駛路徑跟蹤控制的種類
多目標(biāo)跟蹤算法總結(jié)歸納

評(píng)論