摘要:本文提出了一種基于最小成本線性成本分配的親和匹配多目標車輛跟蹤系統。該跟蹤系統的目標是從安裝在移動的自我車輛上的攝像機獲取的場景記錄。與其他低速跟蹤應用(例如傳統的行人跟蹤)相比,在道路場景上的車輛跟蹤和從移動的自我車輛的相機獲取的圖像放大了更大的邊界框幾何形狀變化的問題。這種擾動發生在許多跟蹤場景中,例如當高速物體從相對的車道接近時。由于自動駕駛算法需要以有效的方式使用處理資源,即使在滿足計算復雜任務(如定位,對象檢測,占用網格更新,傳感器融合和軌跡規劃)的要求時,我們的研究特別集中在開發計算輕量級的在線多物體跟蹤模型和基準測試上。為了測試和評估我們的模型,我們使用KITTI對象跟蹤 - 汽車基準數據集,我們的模型統計指標值相對較高; 我們的模型優于ML和MT的最先進方法,在MOTA和MOTP度量評估方面排名第二,與其他方法相比,處理時間快6到20倍。
I.介紹
多目標跟蹤及其對周圍動態交通場景的預測能力在自主駕駛中起著至關重要的作用,比如軌道規劃和決策制定等安全關鍵任務[1],[2]。卷積神經網絡( CNN )在運行時間和檢測精度方面的性能增強創造了“檢測跟蹤”范例[ 3 ]–[ 5 ]。提供更高精度和更低數量的假陰性的網絡需要嵌入更多的復雜性,需要調整大量的參數和更多的處理要求[ 6 ]。
鑒于自動駕駛[7],[8]中使用的定位,目標檢測、傳感器融合、占用網格更新、軌跡規劃、動態建模和控制等任務,廣泛使用都需要計算效率高且準確的解決方案。無論是使用激光雷達點云、立體對像、單相機圖像傳感器,還是采用在線或批量處理方法,多目標跟蹤器都會被劃分。我們提出了一種輕量級在線多目標車輛跟蹤方法“extraCK”,它是一種依賴于單個攝像頭的在線“檢測跟蹤”多目標車輛跟蹤器。
II.相關工作
在線多目標跟蹤(MOT)已被廣泛研究。由于噪聲檢測,與先前跟蹤的對象的關聯是一項具有挑戰性的任務。馬爾可夫決策過程(MDP)已被采用,例如“出生/死亡”和目標的“出現/消失”被視為MDP中的狀態轉換[9]。在[10]中研究了MOT的最低成本流量優化,并且學習了“檢測”,“生死”和“檢測之間的過渡”邊緣的成本。使用貪婪算法和線性規劃提取具有二次交互的最優軌跡集。在[11]中使用長短期記憶(LSTM)模型對外觀、運動和交互特征進行編碼和組合,在行人跟蹤方面獲得了有希望的結果。引入了單個基于CNN的對象跟蹤器,發現了每個目標的特定CNN分支,在線和提取的特征與目標運動模型相結合[12]。四核CNN已經在[13]中使用,跨幀的跟蹤分配是根據四倍損失完成的。對檢測到的物體進行網格劃分,并根據它們的位置、外觀相似性、目標動力學和軌跡正則化對局部流描述符進行分類,并將模型表述為所有假設集的能量最小化框架。在[14]中已經研究了物體和變化點的檢測,通過以下[15]檢測并將點軌跡定義為圖形模型,并且解決了成對電位的最小成本多切問題。
已經研究了目標特定的相似度函數,對于時間局部窗口對象,在線學習了外觀相似度函數,并且在[16]中解決了最小成本的多商品流問題。在[17]中已經提出了利用網絡流優化來跟蹤基于在線目標的外觀和運動線索。[ 18 ]關注從安裝在移動車輛上的攝像機獲取的復雜場景,這也是我們的方法遵循的類似目標。將由對象之間的位置和速度差描述的結構運動約束與檢測錨進行比較,并給出具有最小成本的分配。
III.方法
A.親和特征
對于每個檢測到的對象,可以提取各種特征用于親和度測量,例如包含邊界框坐標,寬度,高度的幾何特征,取決于立體圖像的可用性的視差度量,以及其他檢測到的對象的遮擋百分比。基于外觀的功能包括檢查顏色直方圖或關鍵點描述符[19]。準確測量兩個連續幀的檢測對象之間的成對親和度是多對象跟蹤的關鍵挑戰。由于移動視覺平臺,可以看到大量的運動場景,比如自我車輛合并右轉道路,車輛穿過對面車道。
圖1 :跟蹤器模型的流程圖。CNN處理獲取的圖像以進行對象檢測。對于每個檢測特征向量和RGB顏色直方圖與前一幀進行比較。根據其親和度測量來分配對象IDS。
在這些情況下,如果特征向量之間的給定距離足夠大,則分配新的ID,否則在擁擠情況下分配的ID之間的切換次數會增加。總的來說,選擇用于親和力測量的廣義信息特征集是一項具有挑戰性的任務。
根據跟蹤場景和情況,特定的問題可能會因不同的特性而發生。關鍵點描述符可用于被遮擋的對象,或者它們可以位于遠離小的邊界框區域內。使用距離信息看起來很直觀,但是當可以發生由環境部分遮擋的檢測到的對象時,可能存在如圖2中突出顯示的一些特定情況。在圖2中,第一行給出了來自左攝像機圖像的幀,第二行繪制了跟隨[ 20 ]的視差圖估計。在圖2中,第一行給出了來自左攝像機圖像的幀,第二行繪制了跟隨[ 20 ]的視差圖估計。即使對于低遮擋率,由于已經最小和最大差異度量沒有給出任何有用的知識,因此平均差異度量表現出不一致性。需要先進的處理方法,如遮擋姿勢估計[21],遮擋分類器[22]或直方圖比較。被檢測對象的外觀被顯示為信息豐富,RGB通道直方圖通常被入庫到任意數量的庫[ 23 ]。即使對于低數量的區間,如果將三個通道的值添加到特征向量,則吸收邊界框位置,也需要加權距離計算和權重參數的學習。
最后,如果使用一個物體與其他被檢測物體的遮擋比率,當遮擋另一個物體的最近物體消失時,這兩個物體之間會交換值。特征向量Fi由其邊界框的特定值定義如下:
其中寬度和高度相關特征根據所獲取幀的大小在0和1的范圍之間歸一化。另外,由Hi表示的i-th邊界框補丁的三維RGB直方圖用每個通道的6個區間提取。RGB直方圖被歸一化并平面化成一維,結果長度為216。
B.跟蹤器模型
使用Faster R-CNN([3])檢測獲取圖像中的對象,其中300個區域提議和錨步長為8個像素,骨干卷積網絡是在ImageNet上預訓練的預訓練的Inception-Resnet-V2模型[24] 使用KITTI 2D物體檢測數據集[4],[5]對數據集進行微調。對于每個檢測到的對象,由Fi表示的親和度特征被提取,并且對于幀 t> 1,成對的特征余弦距離矩陣Di*j被導出如下:
還使用卡方距離比較直方圖,其中Si*j表示RGB顏色直方圖的卡方距離矩陣。同樣,對于t> 1,兩個直方圖的卡方距離由下式給出:
當分配成對特征距離和直方圖相似度時,親和力成本矩陣Ci*j通過以下公式計算:
一旦建立了成本矩陣,就提取行和列的最小值,以便確定先前跟蹤的對象是否消失或者出現了新的對象。在這種情況下,計算親和力成本大于確定的閾值,緩存消失的車輛,然后交叉檢查新對象并與高速緩存的對象進行比較。圖3從上到下分別顯示了特征距離矩陣、方形直方圖距離和成本矩陣。消失的車輛列和新出現的行都從成本矩陣中移除。
存在于成本矩陣中的剩余車輛被分配求解線性和分配問題,匈牙利算法引入的二分圖的最小權重匹配[25]。如果X是布爾矩陣并且X(i; j)= 1當且僅當行i被分配給列j時,通過求解來確定最佳賦值:
對命令min(i; j)的方陣進行分配,因此如果對象未被分配給任何先前的檢測或者未被確定類似于高速緩存的對象,則分配新的軌跡。
圖2:頂行示出了用于KITTI對象跟蹤訓練序列0001,幀160到164的檢測到的車輛和底行立體視差圖。由邊界框標記的區域的平均差異值以黃色顯示。即使低的遮擋率也會導致檢測到的對象的平均差異度量在序列中波動,并且不提供穩定的親和力特征。
圖3:特征余弦距離矩陣,卡方RGB顏色直方圖相似度和成本矩陣分別從上到下表示。行索引表示對幀t處的對象的檢測,列對前一幀的對象進行索引,t-1。
C.后幀處理
當完成當前幀的軌跡分配時,預測下一幀的高速緩存和活動車輛特征。此任務有三個目的:調整成本矩陣,識別先前跟蹤的對象已消失但在下面的幀中重新出現,以及調整近處物體的邊界框行為,這些行為也可能以高速移動。通過應用最小二乘法在時間索引t處擬合線,在時間索引t + 1處為幀預測對象特征。對于活動或緩存的所有對象,如果已經為高于給定閾值的幀數提供了數據,則提取每個特征的t + 1處的擬合值。外推特征值被觀察到的特征值替換,并用于下一幀中的特征向量距離比較。
在圖5中,被跟蹤物體相對于自我車輛從相反方向接近。由于攝像機和檢測到的物體之間的相對高速度,邊界框特征顯示出相當大的變化。如果親和力模型接受這種相當大的特征距離,則在擁擠的跟蹤場景中預測性能會顯著降低。但是,將特征向量外推到下一幀可以深入了解下一個可能的邊界框以及車輛是否僅部分可見。如果在幀限制之外外推邊界框,則排除期望在框架外的部分。放置在圖5左下方的框架示出了框架97處的檢測的邊界框與框架97的預測邊界框和框架96中觀察到的邊界框之間的余弦距離。
由于CNN的遮擋或假陰性,也無法觀察到先前跟蹤的車輛。圖4示出了說明性示例。CNN在幀73處最后檢測到相同的車輛,其被繪制在第一行的最右邊,并且直到幀78被重新檢測,被繪制在第二行的最左邊。在此消失期間,外推緩存的車輛特征以最小化再現時的特征距離。
圖4:KITTI對象跟蹤測試序列0007,幀73到78。右上方的圖像顯示了車輛的最后一次檢測,其中紅色水平和垂直線代表邊界框坐標。對于框架74-77,紫色邊界框是同一車輛的預測運動。最左邊的數字,第78幀顯示了檢測到同一車輛時的邊界框。
圖5:屬于跟蹤訓練序列0008的編號為94到97的幀序列表示連續幀之間的相當大的邊界框大小變化。對于親和力匹配,預期部分可見的被跟蹤對象的邊界框被調整。
IV.評估
出于評估目的,使用[2]中的KITTI對象跟蹤評估2012數據集,僅考慮“汽車”類。訓練數據集由21個具有8.008幀的序列組成,測試數據集由29個序列和11.095幀組成。從安裝在自我車輛上的攝像機以10FPS記錄幀。所有序列都具有不同數量的對象和長度及其獨特的運動場景。在我們的評估研究中,采用以下指標:CLEAR MOT [26]以及Fragmentation(FRAG),ID-switch(IDS),Mostly-Tracked(MT)和Mostly-Lost(ML),它們在[27]中定義。
表I給出了我們方法“extraCK”的召回率、精確度、F - measure、虛警率( FAR )和真陽性( TP )、假陽性( FP )、假陰性( FN )、虛警率( FAR )的統計度量值。這些度量值是跟蹤器的目標檢測部分的結果。表II顯示了多目標跟蹤相關的統計度量值,即多目標跟蹤精度(MOTP)說明了跟蹤器估計精確對象位置的能力,多目標跟蹤精度(MOTA)是FN總和的比值,FP 和總計幀數相對于地面實況對象總數計算的不匹配,[26]。
MT定義為覆蓋超過80%的地面實際軌跡的輸出軌跡的百分比,ML是覆蓋不到20%的地面實際軌跡的輸出軌跡的百分比,IDS是跟蹤軌跡變化的次數和FRAG定義地面實況軌跡被中斷的次數。我們的方法的性能與根據KITTI跟蹤基準測試的最新方法進行了比較(例如,參見[ 2 ),列表基準目標跟蹤評估方法相對于不同的度量值可在http://www.cvlibs.net/datasets/kitti/eval_tracking.php.獲得。
在撰寫本論文時,我們的模型在MOTA指標上排名第二,因為與性能更好的方法相比,它具有更高的FN度量值和IDS值,參見表II中的七種方法。定位跟蹤對象(即MOTP值)的性能再次排名第二,并且相對接近第一排名方法。根據MT統計度量值以及ML統計度量值,為了捕獲大部分跟蹤,我們的方法“extraCK”優于其他最先進的方法。我們的方法的基準測試性能被可視化,并與圖6中最先進的方法進行比較。
圖6:“Car”類多目標跟蹤精度(MOTA),多目標跟蹤精度(MOTP),主要跟蹤(MT)和大部分丟失(MT)度量與KITTI對象跟蹤基準中的其他已發布方法的比較。
具有親和力成本矩陣的跟蹤分配的計算復雜性取決于當前和先前檢測的最小數量,詳細分析在[25],[28]中給出。鑒于在英特爾i7 - 6820HK上以2.70 GHz CPU測試包含檢測對象的幀時的運行時性能,我們的跟蹤器模型的平均運行時間為0.0295秒或34 fps,標準偏差為0.01228秒。運行時直方圖和概率分布如圖7所示。
圖7 :運行時間直方圖和概率分布圖,由當前和先前檢測到的物體數量的最小值決定。模型在KITTI物體跟蹤序列上的平均頻率≈34Hz。
V. 結論
本文提出了一種輕量級在線多目標車輛跟蹤方法“extraCK”,該方法解決了結合外觀特征的外推運動最小成本線性和分配問題。鑒于ML度量,我們的extraCK方法優于最先進的方法,同時我們的方法在MOTA、MOTP和MT測試的前三個度量結果中以KITTI對象跟蹤基準的“Car”級為基準。運行時性能(0.03秒)將進行測試和交叉檢查。與其他方法相比,速度提高了6到20倍,實現了自動駕駛的計算“輕量級”多車輛跟蹤。所實現的運行時性能使得能夠根據具有挑戰性的跟蹤場景中的周圍車輛的運動來進行軌跡規劃。沿著可接受的跟蹤度量值水平的運行時性能使得自動駕駛車輛的計算資源能夠被其他時間關鍵任務使用。
-
神經網絡
+關注
關注
42文章
4781瀏覽量
101178 -
車輛跟蹤
+關注
關注
0文章
6瀏覽量
6144 -
自動駕駛
+關注
關注
785文章
13932瀏覽量
167016
原文標題:一種輕量級在線多目標車輛跟蹤方法
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論