2023年6月計算機視覺學術圈CVPR舉辦兩場自動駕駛研討會,一個是端到端自動駕駛研討會 (End-to-End Autonomous Driving Workshop),另一個是視覺中心自動駕駛研討會 (Vision-Centric Autonomous Driving Workshop)。由此又引出4項算法任務挑戰賽,其中:
第一項是OpenLane Topology即開放路口車道線拓撲矢量化構建,第一名是曠視,第二名是輕舟智航,理想L6自動駕駛供應商。第三名則是美國AMD,第四名是美團。
第二項是在線高精度地圖繪制,第一名是曠視的自動駕駛子公司邁馳智行,第二名是美國獨立研究者,第三名是上海交通大學。第十名是廣汽研究院。
第四項是nuPlan即自動駕駛規劃,第一名是德國Tübingen大學,第二名是地平線,第三名是初創公司云驥智行。
第三項是最具價值的3D Occupancy network預測,也就是特斯拉帶火的占用網絡,共有149個團隊參加比賽,其中不乏業內巨頭,包括英偉達、小米、上汽、華為、海康威視。
圖片來源:https://opendrivelab.com/challenge2023/
占用網絡挑戰賽前10名,第一名有15000美元的獎金。第四名到第十名可算第三梯隊,差距很小。英偉達遙遙領先。韓國自動駕駛初創公司42dot與小米可算第二梯隊。
比賽中使用的Occ數據集來自nuScenes,要求選手在僅使用圖像這個模態的情況下,對200x200x16的3D體素空間的占據情況進行預測,其中評價指標采用mIoU,并且將僅對圖像中的可視范圍中的預測結果進行評估。在比賽中,一共有兩個Baseline可供選擇,一個是官方提供的基于BEVFormer框架的實現,另一個則是基于BEVDet框架實現的,也分別代表了在3D目標檢測現在主流的兩個實現路線,LSS和Transformer。兩種Baseline都將原來輸入檢測頭的特征,從BEV空間拉伸成200x200x16的3D體素空間,然后接上一個簡單的語義分割頭,來對3D占據的結果進行預測。
第一名英偉達的FB-OCC,其成功的關鍵還是大模型,英偉達使用了比較新的InterImage-H來作為他們的Backbone,而為了更好的應用InterImage-H,作者還將其在原先在COCO的預訓練基礎上,在object365上也進行了預訓練,使其更好的應用在此任務上。InternImage-H參數多達10.8億個,當然大模型也不是想用就能用,太大的模型容易出現過擬合,且消耗運算和存儲資源也較多。
最新2D圖像骨干網對比
圖片來源:arxiv.org
上表中,特斯拉使用META的RegNet,參數為8400萬,消耗運算資源很少,得分82.9也算不低,小米UniOcc使用META的ConvNeXt-B,參數8900萬,消耗運算資源最少,得分83.8,華為RadOcc使用微軟的Swin-B,參數8800萬,相對ConvNeXt-B消耗運算資源幾乎翻倍,得分83.5,略高。得分最高的是ConvNeXt-XL,高達87.8,參數3.5億個,消耗運算資源是Swin-B的十倍還多。
第二名是42dot,一家韓國初創公司,成功的關鍵也是大模型,其2D Backbone用了InterImage-XL,有3.35億參數,3D Backbone用了微軟的Swin-V2-L,有30億參數,但提升不大。
重點來看第三名的小米汽車,論文題目為《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》,迄今為止在網上可以找到的小米汽車的三篇論文都是圍繞Occupancy來展開的,足見小米對Occupancy的重視程度。
UniOcc框架
圖片來源:《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》
小米和接下來要說到的華為都使用了比較新穎的知識蒸餾技術,即教師學生模型,這是一種半監督深度學習方式,最早由谷歌提出,發布于2015年3月,論文為《Distilling the Knowledge in a Neural Network》。知識蒸餾技術是一種模型壓縮方法,是一種基于Teacher-Student模型的訓練方法。知識蒸餾(Knowledge Distillation),顧名思義就是將一個復雜的大模型的“知識”,蒸餾到一個簡單的小模型中,比較類似于教師(大模型)向學生(小模型)傳授(蒸餾)知識。這樣做主要是因為大模型部署起來成本驚人,通常最低都是8張英偉達A100這樣的計算和存儲資源,成本最低也在5萬美元以上,在車上完全不可能部署大模型,必須采用蒸餾模式。在Teacher-Student模型中通常有兩個階段:
① 教師模型訓練:首先訓練一個較大或復雜的教師模型,它通常具有更多的參數和復雜性,并能夠在訓練數據上表現得更好。
② 學生模型訓練:接著,使用教師模型的輸出作為輔助目標,指導較簡化的學生模型進行訓練。學生模型嘗試去模仿教師模型的預測結果,以此來學習教師模型的“知識”。在訓練學生模型時,通常會利用教師模型的軟標簽(soft labels)或教師模型的隱藏層表示(logits)作為額外的監督信號,結合有標簽數據進行訓練。這個過程中,學生模型的目標是盡量擬合教師模型的預測結果,并同時擬合真實的標簽信息。
有些外行把軟標簽(標注,標記)說成是無標簽,說什么自動駕駛數據集完全不需要標簽了,這當然是大錯特錯,絕對的無標簽無監督深度學習永遠不可能實現,頂多是半監督,硬標簽是1或者0,沒有中間狀態,軟標簽則是連續分布的概率。軟標簽可以用教師模型的SOFTMAX層輸出的類別概率做為軟標簽,某種意義上這可算是自動生成的標簽,無需人工添加。教師模型還是需要標簽數據,還是需要人工標注。
小米的創新有三點,一是使用NeRF的體渲染(volume rendering)來統一2D和3D表示監督的通用解決方案,二是通過知識蒸餾做深度預測訓練,三是用低成本的體渲染監督學習代替成本高昂稀缺的3D占用網絡語義標簽監督學習。
NeRF神經輻射場,不同于傳統的三維重建方法把場景表示為點云、網格、體素等顯式的表達,它獨辟蹊徑,將場景建模成一個連續的5D輻射場隱式存儲在神經網絡中,只需輸入稀疏的多角度帶pose的圖像訓練得到一個神經輻射場模型,根據這個模型可以渲染出任意視角下的清晰的照片。通俗來講就是構造一個隱式的渲染流程,其輸入是某個視角下發射的光線的位置o,方向d以及對應的坐標(x,y,z),送入神經輻射場Fθ得到體密度和顏色,最后再通過體渲染得到最終的圖像。顯式是離散的表達,不能精細化,導致重疊等偽影,耗費內存,限制了在高分辨率場景的應用。隱式是連續的表達,能夠適用于大分辨率的場景,而且不需要3D信號進行監督。
NeRF需要兩個MLP,一個負責 Coarse,一個負責 Fine,因此計算量比較大,存儲資源要求也比較高。自動駕駛領域使用NeRF還是相當少見的,因為它太消耗運算和存儲資源了,同時自動駕駛的視角有限,一般是5個視角,想做好NeRF相當困難。
小米的知識蒸餾DTS框架
圖片來源:《UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering》
小米的知識蒸餾DTS框架,在訓練中使用visible masks,使用更強的預先訓練的骨干,增加體素分辨率,以及實現Test-Time Augmentation(TTA)。大部分人都是使用英偉達的LSS算法獲得深度,小米的DTS可謂獨樹一幟。
第四名來自上汽AI LAB,其整體框架設計采用BEVDet的設計思路,主要提出利用多尺度信息來進行訓練和預測以及一種解耦頭的預測方法。論文異常簡單,只有4頁。
上汽OCC架構
圖片來源:上汽
最后來看華為的,華為由華為諾亞方舟實驗室出面,諾亞方舟實驗室是華為三級部門,隸屬于中央研究院。內地主要分布在北京、深圳、上海、西安。下面又分成很多組,比如計算視覺、終端視覺、自動駕駛、網絡大腦、NLP等等。主要的工作內容就是科研和落地,主要做前沿研究,之所以取名諾亞方舟就是說當華為出現大洪水那樣級別的災難時,諾亞方舟實驗室的成果足以讓華為走出困境。
最初華為諾亞方舟并未提供論文,直到2023年底才提供論文,論文題目《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》華為論文換了Occ3D的測試數據集,最好成績高達55.09,比第一名英偉達還高,當然不是一個測試數據集,沒辦法直接對比,但華為應該在挑戰賽后還是做了不少改進的地方。
華為也是采用知識蒸餾的教師學生模式。
華為RadOcc架構
圖片來源:《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》
華為RadOcc架構,思路和小米基本一致,也用了NeRF。教師網絡是多模態模型,而學生網絡僅需要相機輸入,無需激光雷達。兩個網絡的預測將用于通過可微分體渲染(differentiable volume rendering)生成渲染深度和語義。
圖片來源:《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》
現有的方法如圖a的是將特征或 logits 進行對齊。RadOcc的核心思想是對教師模型和學生模型生成的渲染結果進行對齊,如圖(b)所示。使用相機的內參和外參對體素特征進行體渲染Volume Rendering,能夠從不同的視點獲得相應的深度圖和語義圖。為了實現渲染輸出之間更好的對齊,引入了新穎的渲染深度一致性(RDC)和渲染語義一致性(RSC)損失。一方面,RDC 損失強制光線分布(ray distribution)的一致性,這使得學生模型能夠捕獲數據的底層結構。另一方面,RSC損失利用了視覺基礎模型的優勢,并利用預先提取的segment進行affinity蒸餾。允許模型學習和比較不同圖像區域的語義表示,從而增強其捕獲細粒度細節的能力。
圖片來源:《RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation》
采用視覺基礎模型(VFM),即SAM,將segments提取到原始圖像中。對每個segment 中渲染的語義特征進行segment聚合,獲得affinity matrix 。
自動駕駛的理論基礎或者說骨干被META、谷歌、英偉達和微軟這些巨頭壟斷,自動駕駛算法公司能做的就是應用層的微調,大家的技術水平都差不多。另一方面理論基礎在沒有實現重大突破之前,自動駕駛難有實質性進展。
審核編輯:劉清
-
華為
+關注
關注
216文章
34537瀏覽量
253013 -
小米
+關注
關注
70文章
14387瀏覽量
144942 -
自動駕駛
+關注
關注
785文章
13932瀏覽量
167013 -
大模型
+關注
關注
2文章
2551瀏覽量
3171
原文標題:華為小米對決自動駕駛Occupancy Network
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
華為宋曉迪出席自動駕駛網絡峰會
![](https://file1.elecfans.com/web2/M00/0A/DD/wKgaomcXUg2AKdNuAAEXvBseoXE121.jpg)
自動駕駛技術的典型應用 自動駕駛技術涉及到哪些技術
![](https://file1.elecfans.com/web2/M00/09/AC/wKgZomcQukWAJMctAAEcL1RSHjU877.jpg)
![](https://file1.elecfans.com/web2/M00/09/90/wKgZomcPKxmASQCFAAEgUWmACmg080.jpg)
![](https://file1.elecfans.com/web2/M00/0A/49/wKgaomcKSRKARKGCAADn4aW4wSM974.jpg)
FPGA在自動駕駛領域有哪些優勢?
FPGA在自動駕駛領域有哪些應用?
小米汽車招募自動駕駛技術人才
特斯拉的Occupancy Network占用網絡如何解決無法識別物體的難題呢?
![特斯拉的<b class='flag-5'>Occupancy</b> <b class='flag-5'>Network</b>占用網絡如何解決無法識別物體的難題呢?](https://file1.elecfans.com/web2/M00/C9/9E/wKgaomYeRY-ARs3UAABZxfT_FQ8019.png)
小米自動駕駛技術:算法篇
![<b class='flag-5'>小米</b><b class='flag-5'>自動駕駛</b>技術:算法篇](https://file1.elecfans.com/web2/M00/C8/88/wKgZomYcyvWACz7MAAAwc2uRFJE556.png)
評論