好看的言情小说,君子以泽,梦入神机

對自動駕駛而言，BEV（鳥瞰圖）下的語義分割是一項重要任務。盡管這項工作已經吸引了大量的研究，但靈活處理自動駕駛車輛上的任意相機配置（單個或多個攝像頭），仍然是一項挑戰。

為此，Nullmax的感知團隊提出了BEVSegFormer，這一基于Transformer的BEV語義分割方法，可面向任意配置的相機進行BEV語義分割。

這項研究的題目為《BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs》，論文鏈接：https://arxiv.org/abs/2203.04050。

為了評估這一算法的效果，Nullmax在nuScenes公開數據集以及Nullmax的自采數據集上進行了驗證。實驗結果表明，BEVSegFormer對任意相機配置的BEV語義分割，具有出色的性能表現。并且在nuScenes驗證集上，BEVSegFormer創造了新的BEV分割SOTA。

在接下來的工作中，我們還計劃針對自動駕駛以及BEV語義分割的一些其他挑戰，展開進一步的研究。

歡迎對計算機視覺及自動駕駛感知感興趣的小伙伴加入我們，一起探索！

關于BEVSegFormer

在自動駕駛或者機器人導航系統中，以BEV形式對感知信息進行表征，具有至關重要的作用，因為它可以為規劃和控制提供諸多的便利。

比如，在無地圖導航方案中，構建本地BEV地圖，不僅成為了高精地圖外的另一種選擇，并且對于包括智體行為預測以及運動規劃等感知系統下游任務而言，也非常重要。而利用相機的輸入進行BEV語義分割，通常被視為構建本地BEV地圖的第一步。

為此，傳統方法一般會先在圖像空間生成分割結果，然后通過逆透視變換（IPM）函數轉換到BEV空間。雖然這是一種連接圖像空間和BEV空間的簡單直接的方法，但它需要準確的相機內外參，或者實時的相機位姿估計。所以，視圖變換的實際效果有可能比較差。

以車道線分割為例，在一些挑戰性場景中，比如遮擋或者遠處區域，使用IPM的傳統方法提供的結果就不夠準確，如圖所示。

近年來，深度學習方法已被研究用于BEV語義分割。Lift-Splat-Shoot通過逐像素深度估計結果完成了從圖像視圖到BEV的視圖變換。不過使用深度估計，也增加了視圖變換過程的復雜度。此外，有一些方法應用MLP或者FC算子來進行視圖變換。這些固定的視圖變換方法，學習圖像空間和BEV空間之間的固定映射，因此不依賴于輸入的數據。

而基于Transformer的方法，是在BEV空間下進行感知的另一個研究方向。在目標檢測任務中，DETR3D引入了一種3D邊界框檢測方法，直接從多個相機圖像的2D特征生成3D空間中的預測。3D空間和2D圖像空間之間的視圖變換，通過交叉注意模塊的3D到2D查詢來實現。

受此啟發，我們提出了BEVSegFormer，通過在Transformer中使用交叉注意機制進行BEV到圖像的查詢，來計算視圖變換。

BEVSegFormer由3個主要的組件組成：

共享的主干網絡，用于提取任意相機的特征圖；

Transformer編碼器，通過自注意模塊嵌入特征圖；

BEV Transformer解碼器，通過交叉注意機制處理BEV查詢，輸出最終的BEV語義分割結果。