自DARPA舉辦2004/2005年鄉村無人車大賽和2007年城市自動駕駛挑戰賽以來,自動駕駛一直是人工智能應用最活躍的領域之一。本文概述了自動駕駛領域相關技術和未解決難題。我們參與調研的自動駕駛領域主要包括:感知、建圖和定位、預測、規劃和控制、仿真、V2X、安全等。與眾不同的是,我們闡述了如何在數據閉環框架下解決上述問題,其中,"數據閉環"是解決自動駕駛"長尾問題"的有效框架。
1 簡介
10多年來,自動駕駛一直是一個熱門話題。2004年和2005年,DARPA舉辦了鄉村無人車大賽。2007年,DARPA還舉辦了城市環境中的自動駕駛大賽。之后,斯坦福大學的S.Thrun教授(2005年冠軍和2007年亞軍)加入谷歌,建立了Google X和自動駕駛團隊。
最近有三篇關于自動駕駛的調查報告[3,9,14]。自動駕駛作為機器學習和計算機視覺等人工智能領域最具挑戰性的應用之一,已經被證明是一個"長尾"問題,即少量類別占據了絕大多少樣本,而大量的類別僅有少量的樣本。在本文中,我們研究了如何在數據閉環中研發自動駕駛技術。我們的綜述工作涵蓋了自動駕駛技術主要領域,包括:感知、建圖和定位、預測、規劃和控制、仿真、V2X和安全等。
最后,我們將討論新興大模型對自動駕駛行業的影響。
2 簡要介紹
目前存在的一些關于自動駕駛技術的綜述文章,包含整個系統/平臺到單個模塊/功能[1-2,4-8,10-13,15-33]。在本節中,我們簡要介紹圖1所示的基本自動駕駛功能和模塊,硬件和軟件體系結構,包括:感知、預測、定位和建圖、規劃、控制、安全、仿真以及V2X等。
圖 1 自動駕駛平臺的硬件和軟件
2.1 自動化水平
美國運輸部和國家公路交通安全管理局(NHTSA)采用了國際標準化組織汽車工程師學會(SAE)制定的自動化水平標準,該標準將自動駕駛車輛自動化分為6個等級,即從0級(人工駕駛員完全控制)到5級(車輛完全自主駕駛)。
在1級中,駕駛員和自動化系統共同控制車輛。在2級中,自動化系統完全控制車輛,但駕駛員必須時刻準備好立即干預。在3級中,駕駛員可以免于駕駛任務,車輛將要求立即響應,因此駕駛員仍須隨時準備干預。在4級中,與3級相同,但不需要駕駛員保持注意力來確保安全,駕駛員可以安全地睡覺或離開駕駛員座位。
2.2 硬件
自動駕駛車輛測試平臺應該能夠實現實時通信,例如使用控制器區域網絡(CAN)總線和以太網,可以準確地實現車輛的方向、油門和制動器的實時控制。進行車輛傳感器合理配置,以滿足環境感知的可靠性要求,并最大限度降低生產成本。
自動駕駛車輛的感知可以分為三大類:本體感知、定位和環境感知。本體感知:通過車輛的傳感器測量當前車輛狀態,即橫擺速率、速度、偏航角等。本體感知的傳感器包括行程計、慣性測量單元(IMU)、陀螺儀和CAN總線。定位:使用外部傳感器(如全球定位系統(GPS))或IMU讀數的里程計來確定車輛的全局和局部位置。環境感知:使用外部感測器來感知車道標線、道路坡度、交通信號牌、天氣條件和障礙物等。
本體感知傳感器和環境感知傳感器分為主動傳感器和被動傳感器。主動傳感器以電磁波的形式發出能量,并測量返回時間以確定距離等參數,例如聲納、雷達和光探測與測距(LiDAR)傳感器。被動傳感器不發出信號,而是感知環境中已經存在的電磁波(例如基于光的和紅外相機)。
另一個重要方面是計算平臺,它支持傳感器數據處理以識別周圍環境,并通過密集優化算法、計算機視覺算法和機器學習算法來實時控制車輛。目前存在不同的計算平臺,如CPU、GPU、ASIC和FPGA等。為了支持基于AI的自動駕駛,也需要云服務器來提供大數據服務,例如進行大規模機器學習和大容量數據存儲(例如高清地圖)。為了實現車路協同,還需要處理車端信息的路側通信設備和計算設備。圖2顯示了一輛自動駕駛汽車中的傳感器配置示例(來自公開數據集NuScene)。它安裝了LiDAR、相機、雷達、GPS和IMU等。
圖 2 自動駕駛傳感器硬件示例
如果需要收集多模態傳感器數據,還需要進行傳感器校準,其中涉及確定每個傳感器數據之間的坐標系統關系,例如相機校準、相機-LiDAR校準、LiDAR-IMU校準以及相機-雷達校準。此外,傳感器之間需要使用統一的時鐘(例如GNSS),然后使用某個信號觸發傳感器的操作。例如,LiDAR的傳輸信號可以觸發相機的曝光時間,實現時間同步。
2.3 軟件
自動駕駛系統的軟件平臺分為4個層次,從底層到頂層分別為:實時操作系統(RTOS)、中間件、功能軟件和應用軟件。軟件體系結構分為:模塊化結構和端到端結構。
模塊化系統由多個構件組成,連接感知輸入到執行器輸出。模塊化自動駕駛系統(ADS)的關鍵功能通常分為:感知、定位和繪圖、預測、規劃和決策以及車輛控制等。
端到端系統直接從傳感器輸入生成控制信號??刂菩盘栔饕獊碜赞D向輪和油門(加速器),用于加速/減速(甚至停止)和左/右轉彎。端到端駕駛主要包括三種方式:直接監督深度學習、神經進化和深度強化學習。
圖 3 顯示了端到端和模塊化系統的體系結構
"感知"系統通過傳感器收集信息并從環境中提取有效信息。它能對駕駛環境進行上下文理解,如檢測、跟蹤和分割障礙物、道路標志/標線和空曠的可駕駛區域。根據所采用的傳感器,環境感知任務主要通過使用LiDAR、相機、雷達或多傳感器融合來完成。在最高層次上,感知方法可以分為三類:中介感知、行為反射感知和直接感知。中介感知需要繪制車輛、行人、樹木、車道標記等周圍環境的詳細地圖。行為反射感知將傳感器數據(圖像、點云、GPS位置)直接映射到駕駛機動操作。直接感知將行為反射感知與中介感知方法的度量獲取相結合。
"建圖"是指建立包含道路、車道、標志/標線和交通規則等信息的地圖。一般來說,有兩種主要類型的地圖:平面地圖,指依賴地理信息系統(GIS)上的圖層或平面繪制的地圖;點云地圖,指基于GIS中的數據點集的地圖。高清(HD)地圖包含自動駕駛所需的有用的靜態元素,如車道、建筑、交通燈和車道標記等。HD地圖與車輛定位功能緊密相連,并與車輛傳感器(如LiDAR、雷達和相機)保持交互,從而構建自動駕駛系統的感知模塊。
"定位"確定車輛相對于駕駛環境的位置。全球導航衛星系統(GNSS)如GPS、GLONASS、北斗和伽利略等,他們使用不少于四顆衛星并以相對較低的成本估計車輛的全球位置。全球導航衛星系統可以使用差分模式來提高GNSS的精度。GNSS通常與IMU集成來設計性價比高的車輛定位系統。IMU用于估計車輛相與其初始位置的相對位置,這種方法稱為里程計。由于HD地圖已經用于自動駕駛,基于HD地圖的定位也被考慮在內。最近,出現了許多自主的里程計方法和同時定位與建圖方法(SLAM)。SLAM技術通常應用一個里程計算法來獲得當前姿態信息,然后將其送到一個全局地圖優化算法中。基于圖像的計算機視覺算法包括:特征提取和匹配、相機運動估計、三維重建(三角測量)和優化(約束調整)等,由于這些算法的缺點,目前視覺SLAM仍然是一個具有挑戰性的方向。
"預測"是指根據障礙物的運動學、行為和長短期歷史估計其軌跡。要完全解決軌跡預測問題,社會智能化非常重要。因為智能化的社會環境中,各種可能性被約束,無限的搜索空間也被約束。為了建立社會互動模型,我們需要了解智能體及其周圍環境的動態,以預測其未來的行為,防止發生任何碰撞。
"規劃"是生成一條避障的參考路徑或軌跡,使車輛在避開障礙物的同時到達目的地。規劃可以分為不同的等級:路線(任務)規劃、行為規劃和運動規劃。路徑規劃是指在有向圖中尋找點到點的最短路徑,傳統方法分為目標導向技術、基于分離器的技術、分層技術和有界跳技術四類。行為規劃決定了局部駕駛任務,該任務使車輛向目的地前進并遵守交通規則,傳統上由有限狀態機(FSM)定義。最近正在研究模仿學習和強化學習,以生成車輛所需的行為。運動規劃在環境中選擇一條連續路徑,以完成局部驅動任務,例如RRT(快速探索隨機樹)和Lattice規劃。
"控制"是通過選擇適當的執行器輸入來執行規劃的動作。通??刂瓶煞譃闄M向控制和縱向控制。大部分情況下,可以將控制解耦為兩階段,即軌跡/路徑生成階段和跟蹤階段,例如純跟蹤法。然而,它也可以同時生成軌跡/路徑并進行跟蹤。
"V2X(車聯網)"是一種能夠使車輛能夠與周圍的車流和環境進行通信的車輛技術系統,包括:車輛間通信(V2V)和車輛基礎設施通信(V2I)。從行人的移動設備到交通燈上的固定傳感器,車輛可以通過V2X訪問大量數據。通過積累來自其他車輛的詳細信息,將克服單車智能的感知范圍、盲區和規劃不足等缺點。V2X有助于提高安全性和交通效率,但車輛之間和車路之間的協同仍然具有挑戰性。
值得一提的是,ISO(國際標準化組織)26262標準適用于自動駕駛車輛,它定義了一套全面的要求,以確保車輛軟件開發的"安全"。該標準建議使用危險分析和風險評估(HARA)方法來識別危險事件,并確定了減輕危險的安全目標。車輛安全完整性級別(ASIL)是ISO 26262中定義的車輛系統風險分類方案。AI系統帶來了更多安全問題,這些問題由一個新建立的標準ISO/PAS 21448 SOTIF(預期功能的安全性)來解決。
除了模塊化或端到端系統,ADS開發中還有一個重要的"仿真"平臺。由于在道路上駕駛實驗車輛的成本很高,而且在現有的人類駕駛的道路網絡上進行實驗,會受到限制,因此仿真環境可以實現在實際道路測試之前開發某些算法/模塊。仿真系統由以下核心部分組成:傳感器模型(相機、雷達、LiDAR和聲納)、車輛動力學和運動學、行人、駕車者和騎車者的形狀和運動學模型、路網和交通網絡、三維虛擬環境(城市和鄉村場景)以及駕駛行為模型(年齡、文化、種族等)。仿真平臺存在的關鍵問題是"sim2real"和"real2sim",前者是指如何模擬真實場景,后者是指如何以數字孿生的方式進行情景再現。
3 感知
感知周圍環境并提取信息是自動駕駛的關鍵任務。使用不同傳感模式的各種任務都屬于感知范疇[5-6,25,29,32,36]?;谟嬎銠C視覺技術,相機成為使用最廣泛的傳感器,3D視覺則成為一個強大的替代方案/補充。
最近,BEV(鳥瞰視角)感知[25,29]成為自動駕駛中最活躍的感知方向之一,特別是在基于視覺的系統中。主要原因有以下兩點:首先,BEV對駕駛場景的表示可以直接由下游模塊應用,如軌跡預測和運動規劃等。其次,BEV提供了一種可解釋的方式來融合來自不同視角、模式、時間序列和智能體的信息。例如,其他常用傳感器,如LiDAR和Radar在3D空間中獲取的數據,可以輕松轉換到BEV,并直接與相機直接進行傳感器融合。
在調研報告[25]中,BEV工作可以分為以下幾個類別,如圖4所示。
圖 4 BEV工作的類別
首先,根據視圖變換方式可以分為基于幾何的變換和基于網絡的變換?;趲缀蔚淖儞Q充分利用相機的物理原理進行視圖轉換,該方法可進一步分為經典的基于同圖的方法(即逆投影映射)和基于深度的方法,通過顯式或隱式深度估計可以將二維特征提升至三維特征。
根據深度信息的利用方式,我們可以將基于深度的方法分為兩類:基于點的方法和基于體素的方法;基于點的方法直接利用深度估計將像素轉換為點云,散布在連續的三維空間中;而基于體素的方法通常直接利用深度引導將二維特征(而不是點)散布在相應的三維位置上。
基于網絡的方法可以采用自下而上的策略,即神經網絡像視圖投影儀一樣發揮作用;另一種方法可以采用自上而下的策略,即直接構建BEV查詢,并通過交叉注意力機制(基于Transformer)在前視圖像上搜索相應的特征,提出稀疏、密集或混合查詢以匹配不同的下游任務。
圖 5 BEV方案
迄今為止,BEV網絡已被用于物體檢測、語義分割、在線映射、傳感器融合和軌跡預測等。如研究論文[29]圖5所示,BEV融合算法有兩種典型的過程設計。兩者主要區別在于2D到3D的轉換和融合模塊。在透視圖方案(a)中,首先將不同算法的結果轉換到三維空間,然后使用先驗規則或人工方法進行融合。BEV方案(b)首先將透視圖特征轉換為BEV,然后融合特征以獲得最終預測結果,從而保留大部分原始信息并避免人工設計。
繼BEV之后,三維占位網絡逐漸成為自動駕駛感知領域的前沿技術[32]。BEV可以簡化駕駛場景的縱向幾何,而三維體素能夠以較低的分辨率表示完整的幾何,包括道路地面和障礙物體積,這需要較高的計算成本。基于相機的方法正在三維占位網絡中興起。圖像具有天然的像素密度,但是需要深度信息才能反向投射到三維占位中。注:對于LiDAR數據,占位網絡實際上實現了語義場景補全(SSC)任務。
在圖6中,我們解釋了BEV和占用網絡的三種模型體系結構,僅針對相機輸入,僅針對LiDAR輸入以及兩者結合輸入。
圖 6 BEV和占位網絡實例
僅多相機輸入如圖6(a)所示,多相機圖像首先通過"Backbone"模塊編碼,如EfficientNetor/RegNet加上FPN/Bi-FPN,然后分為兩路;一方面,圖像特征進入"view transform"模塊,通過深度分布或Transformer架構構建BEV特征,然后分別進入兩個不同的頭部:一個頭通過"map ele detector"模塊輸出地圖元素的矢量化表示(其結構類似于基于Transformer的DETR模型,也有一個可變形的關注模塊,并輸出關鍵點的位置和它們所屬元素的ID)和"polyline generat"模塊(它也是一個基于Transformer結構的模型,輸入這些嵌入的關鍵點、多段線分布模型可以生成多段線的頂點并獲得地圖元素的幾何表示),另一個頭通過"BEV obj Detector"模塊獲得obj BEV邊界框,它可以使用Transformer架構或類似的PointPillar架構來實現;另一方面,在"2D-3D transform"模塊中,基于深度分布將二維特征編碼投影到三維坐標,其中保留高度信息,得到的相機體素特征進入"3D decod."模塊得到多尺度體素特征,然后進入"occupancy"模塊進行類預測,生成體素語義分割。
僅LiDAR輸入如圖6(b)所示,部分模塊與圖6(a)相同。首先,在"Voxelization"模塊中,將點云劃分為間距均勻的體素網格,生成三維點與體素的多對一映射;然后進入"FeatEncod"模塊,將體素網格轉換為點云特征圖(使用PointNet或PointPillar);一方面,在"view transform"模塊中,將特征圖投影到BEV上,在BEV空間中結合特征聚合器和特征編碼器,然后進行BEV解碼,分為兩個頭:一個頭部的工作原理如圖6(a)所示。另一方面,三維點云特征圖可以直接進入"3D Decod"模塊,通過三維解卷積獲得多尺度體素特征,然后在"Occup"模塊中進行上采樣和類預測,生成體素語義分割。
相機和LiDAR同時輸入如圖6(c)所示,大多數模塊與圖6(a)和6(b)相同,除了"Feat concat"模塊將連接來自LiDAR路徑和相機路徑的特征。
注:對于基于相機的占位網絡,值得一提的是計算機圖形學和計算機視覺領域的一種新范例--神經輻射場(NeRF)[47]。NeRF不是直接還原整個三維場景的幾何圖形,而是生成一種被稱為"輻射場"的體積表示,它能夠為相關三維空間中的每一點創建顏色和密度。
4 軌跡預測
為實現安全高效的導航,自動駕駛汽車應考慮周圍其他智能體的未來軌跡。軌跡預測最近受到了廣泛關注,這是一項極具挑戰性的任務,它根據場景中所有運動的智能體的當前和過去狀態預測其未來狀態。
預測任務可分為兩部分。第一部分是作為分類任務的"意圖",它通??杀灰暈橐粋€監督學習問題,我們需要標注智能體可能的意圖。第二部分是需要預測智能體在未來N個幀中的一組可能位置的"軌跡",這個"軌跡"被稱為"路徑點"(way-points)。這建立了它們與其他智能體以及道路的交互。
文獻[10,12,34]進行了一些預測相關的研究。傳統上,我們將行為預測模型分為基于物理的模型、基于機動的模型和基于交互意識的模型?;谖锢淼哪P陀蓜討B方程構成,為不同類別的智能體建立人工設計運動模型?;跈C動的模型是基于智能體的預期運動類型的實際模型。交互感知模型通常是基于ML的系統,能夠對場景中的每一個智能體進行配對推理,并為所有動態智能體生成交互感知預測。
圖 7 L4創業公司Cruise.AI的預測模型
圖7給出了L4自動駕駛創業公司Cruise.AI[36]設計的預測模型圖。顯然,它展示了一個編碼器-解碼器結構。在編碼器中,有一個"場景編碼器"來處理環境上下文(地圖),類似于谷歌Waymo的ChauffeurNet(光柵化圖像作為輸入)或VectorNet(矢量化輸入)架構一樣;有一個"對象歷史編碼器"來處理智能體歷史數據(位置);還有一個基于注意力圖網絡來捕捉智能體之間的聯合交互。為了處理動態場景的變化,他們將專家混合(MoE)編碼到門控網絡中。例如,在停車場有不同的行為,如倒車駛出、駛出和K形轉彎、平行停車第二次嘗試、倒車和駛出、倒車平行停車和垂直駛出等。
在圖7所示的解碼器中,有一個兩階段的結構,即由一個簡單的回歸器生成初始軌跡,然后由具有"多模態不確定性"估計的長期預測器進行完善。為了增強軌跡預測器,還有一些輔助任務需要訓練,如"聯合軌跡不確定性"估計和"交互檢測和不確定性"估計,以及"占位預測"。
該軌跡預測器的一個大創新是它的"自監督"機制?;?后見之明"的觀察,他們提供"機動自動標注器"和"交互自動標注器"為預測器模型生成大量訓練數據。
5 建圖
地圖,特別是HD地圖,是自動駕駛的先驗知識。建圖技術可以分類為在線建圖和離線建圖[24]。在離線建圖中,我們在中心位置收集所有數據,這些數據采集來自安裝有GNSS、IMU、LiDAR和相機的車輛。另一方面,在線建圖使用輕量級模塊在自動駕駛車輛上進行。
所有有前途的建圖技術目前都使用LiDAR作為主要傳感器,特別是用于HD地圖。另一方面,也有一些方法只使用視覺傳感器構建地圖,如Mobileye的REM,或稱為roadbook,它基于視覺SLAM和深度學習[35]。
創建HD地圖通常涉及采集高質量的點云、對準同一場景的多個點云、標記地圖元素以及頻繁更新地圖。這個過程需要大量人力和時間,限制了其可擴展性。BEV感知[25,29]具有在線學習地圖的潛力,它根據局部傳感器觀察動態地構建高清地圖,這可能是一種可以為自動駕駛汽車提供語義和先驗幾何信息的更具可擴展性的方式,。
在這里,我們介紹在線建圖的最新工作,稱為MachMap[45],它將高清地圖構建公式化為BEV空間中的點檢測范式,以端到端的方式。基于地圖緊湊方案,它遵循基于查詢的范式,集成了CNN基礎架構(如InternImage),基于時間的實例解碼器和點掩膜耦合頭。
圖 8 MachMap框架
MachMap的框架如圖8所示。它通過圖像骨干和周圍圖像的頸部從每個視圖生成2D特征。然后,可變形注意力用于聚合不同視圖之間的3D特征,并沿z軸對其進行平均。在時間融合模塊中,新的BEV特征與BEV特征的隱藏狀態進行融合。
利用實例級可變形注意力機制執行實例解碼器可以完善內容和點特征并獲得最終結果。
6 定位
自動駕駛車輛的精準定位可對下游任務(如行為規劃)產生巨大的影響。雖然使用傳統的動態傳感器(如IMU和GPS)可以獲得可接受的結果,但基于視覺的傳感器(LiDAR或相機)顯然更適合這項任務,因為使用這類傳感器獲得的定位結果同時依賴于車輛本身及其周圍的環境。雖然這兩種傳感器都具有良好的定位性能,但它們也存在一些局限性[27]。
多年來,研究者一直在研究自動駕駛汽車定位,這大多數情況下是與建圖一起進行的,這帶來了兩種不同的路線:第一種是SLAM,即定位和建圖同時循環運行;第二種是將定位和建圖分開,直接離線構建地圖。
最近,深度學習為SLAM帶來了新的數據驅動的方法,尤其是更具挑戰性的視覺SLAM,這在論文[28]中有所提及。這里我們討論一個基于Transformer定位方法的例子[48],其中獲取姿勢是通過所提出的POse Estimator Transformer(POET)模塊使用注意機制與從跨模型特征中檢索到的相關信息交互來更新的。定位架構如圖9所示。
圖 9 使用Transformers進行地圖定位
如圖9所示,該網絡以RGB圖像和LiDAR地圖上給定初始姿態的相鄰點云的重投影深度圖像作為輸入。然后,它們分別通過對應的編碼器進行處理以獲得高維特征。之后,進行圖像特征和LiDAR特征融合,獲得融合特征。之后,把位置信息添加到融合特征后,將融合特征輸入到所提出的POET模塊中。
POET將融合特征作為輸入并初始化姿勢信息。經過與融合特征相關信息的迭代更新,姿勢信息可以被優化為圖像與初始姿態之間高精度的相對姿態。
這里應用了DETR解碼器來更新姿勢信息。解碼器由交替堆疊的自注意層和交叉注意層組成。自注意力在姿勢信息內計算,而交叉注意力在姿勢信息和處理過的代價量之間計算。
7 規劃
大多數規劃方法,尤其是行為規劃,是基于規則的[1,2,7-8],這為數據驅動系統的探索和升級帶來了巨大的負擔?;谝巹t的規劃框架負責為車輛的低級控制器要跟蹤的軌跡點序列。基于規則的規劃框架的優點是具有可解釋性,當出現故障或意外的系統行為時,可以識別有缺陷的模塊。其局限性在于需要許多手動啟發式功能。
基于學習的規劃方法已成為自動駕駛研究中的一種趨勢[15,18,33]。駕駛模型可以通過仿真學習獲取知識,并通過強化學習探索駕駛策略。與基于規則的方法相比,基于學習的方法可以更有效地處理車輛與環境的交互。盡管其概念吸引人,但當模型行為不當時,很難甚至不可能找出原因。
仿真學習(IL)是指基于專家軌跡的智能體學習策略。每個專家軌跡都包含一系列狀態和動作,并且所有"狀態-動作"對都被提取來構建數據集。IL的具體目標是評估狀態與動作之間最適合的映射,以便智能體盡可能接近專家軌跡。
為了緩解標注數據的負擔,一些科學家已經將強化學習(RL)算法應用于行為規劃或決策制定。智能體可以通過與環境交互獲得一些獎勵。RL的目標是通過試誤來優化累積數值獎勵。通過與環境持續交互,智能體逐步獲得關于達到目標端點的最佳策略的知識。在RL中從零開始訓練策略通常很耗時且具有挑戰性。將RL與其他方法(如IL和課程學習)相結合可能是一個可行的解決方案。
近年來,深度學習(DL)技術通過深度神經網絡(DNN)的奇妙特性:函數逼近和表征學習,為行為規劃問題提供了強大的解決方案。DL技術使RL/IL能夠擴展到以前難以解決的問題(如高維狀態空間)。
這里介紹一個兩階段占位預測引導的神經規劃器(OPGP)[46],它將未來占位和運動規劃的聯合預測與預測引導相結合,如圖10所示。
圖 10 兩階段式OPGP
在OPGP的第一階段,在基于Transformer骨干上建立了一個集成網絡。視覺特征是歷史占用柵格和柵格化BEV路線圖的組合,代表特定場景下交通參與者的空間-時間狀態。矢量化上下文最初關注以自動駕駛車輛為中心的參與者的動態上下文??紤]到視覺特征和矢量化上下文的交互,同時輸出所有類型交通參與者的占位預測。同時,編碼后的場景特征和占位情況在規劃頭中共享并實現有條件地查詢,規劃頭進行多模態運動規劃。
OPGP第二階段的重點是以一種優化可行的方式為細化建模來自占用率預測的明確指導。更具體地說,他們在Frenet空間(這是一個由切線和曲率決定的移動右旋坐標系)中構建了一個優化過程,用于使用變換后的占用率預測進行規劃細化。
8 控制
與自動駕駛中的其他模塊(如感知和規劃)相比,車輛控制相對成熟,經典控制理論發揮著主要作用[20,21]。然而,深度學習方法不僅能在各種非線性控制問題上獲得優異的性能,還能將先前學習到的規則外推到新的場景中,因此在自動駕駛控制領域的應用前景十分廣闊。因此,深度學習在自動駕駛控制中的應用正變得越來越流行[13]。
傳感器的配置多種多樣;有些人僅通過視覺來控制車輛,有些人則利用測距傳感器(LiDAR或雷達),還有些人利用多傳感器。在控制目標方面也存在差異,有些人將系統設計為一個高級控制器提供目標,然后通過低級控制器實現目標,這種方式通常使用經典控制技術。另一些則旨在端到端學習的自動駕駛,將觀測結果直接映射到低級車輛控制界面命令。
車輛控制可以分為橫向控制和縱向控制。橫向控制系統旨在控制車輛在車道上的位置,并實現其他橫向動作,如變道和回避碰撞動作。在深度學習領域,這通常是通過使用車載相機的圖像/LiDAR的點云捕捉環境信息作為神經網絡的輸入來實現的。
在本節中,我們將介紹一種帶有語義視覺地圖和相機的端到端(E2E)駕駛模型[16]。仿真人類駕駛是通過對抗學習來實現的,其中一個生成器模仿人類駕駛員,一個識別器使其像人類駕駛員。
訓練數據(名稱為"Drive360數據集")由前置相機和渲染的TomTom路線規劃模塊采集。然后采用HERE地圖數據對數據集進行離線增強,以提供同步的語義地圖信息。
圖 11 E2E駕駛模式框架
對于基本的E2E駕駛模型,記錄歷史圖像和地圖渲染序列,并預測動作。網絡結構如圖11(a)所示:圖像通過視覺編碼器輸入,輸出的潛變量進一步輸入LSTM,從而產生隱藏狀態h;地圖渲染也在視覺編碼器中處理,產生另一個潛變量量;然后將這三個變量連接起來預測動作。 ? 帶有額外語義地圖信息的簡單方法稱為后融合方法,其示意圖如圖11(b)所示:一個向量嵌入所有語義地圖信息,經過全連接網絡處理,輸出潛在變量量與、和h連接。 ? 最近,一種新方法被提出:根據語義圖信息提高分割網絡的輸出類別概率,其完整架構如圖11(c)所示。該方法使用語義分割網絡獲得所有19個類別的置信度掩碼,然后使用軟注意力網絡使該掩碼生成19個類別的注意力向量。 ? 在訓練駕駛模型時,決策問題可以被視為匹配動作序列(稱為drivelets)的監督回歸問題。因此可以使用生成對抗網絡(GAN)來制定模仿學習問題,其中生成器是駕駛模型,判別器識別drivelet是否類似于人類規劃的路徑。 ?
9 V2X
得益于通信基礎設施的完善和通信技術的發展(如車聯網(V2X)通信等),車輛可以通過可靠的方式傳遞信息,從而實現車輛之間的協作[4,11]。協同駕駛利用車對車(V2V)和車對基礎設施(V2I)通信技術,旨在實現協同功能:(i)協同感知和(ii)協同操縱。 ? 有一些通用的協同駕駛場景:智能停車、變道和并線以及交叉路口協同管理。車輛隊列(Vehicle Platooning),也稱為車隊駕駛,是指兩輛或兩輛以上的車輛連續在同一車道上以較小的的車間距(通常小于1秒)同速并排行駛,這是實現合作自動駕駛的一個主要用例[26]。 ? 采用集中式或分散式的策略進行有價值的研究工作主要集中在協調交叉路口的CAV和高速公路入口匝道上的并線上。在集中式的策略中,系統中至少有一項任務是由單個中央控制器控制所有車輛的。在分散控制中,每輛車根據從道路上其他車輛或協調器接收到的信息選擇自己的控制策略。 ? 分散式的策略可分為三種類型:協商、協議和緊急。最有代表性的協商類型是:協同合作問題和博弈競爭問題。協調過程的協議將產生一系列可接受的措施,甚至動態地重新確定目標。緊急問題使得每輛車根據自己的目標和感知,以一種有利于自己的方式規劃,例如博弈論或自組織。 ? 與單車感知不同,協同感知可以利用多個智能體之間的交互來豐富自動駕駛系統的感知,因此受到了廣泛關注[31]。隨著深度學習方法被廣泛應用于自動駕駛感知系統,協同感知系統的能力和可靠性也在穩步增加。 ? 根據信息傳遞和協同階段,協同感知方案可大致分為早期協同、中期協同和后期協同。早期協同采用網絡輸入端的原始數據融合,也稱為數據級融合或低級融合。考慮到早期協同的高帶寬,一些工作提出了中間協同方法,以平衡性能和帶寬之間的權衡。后期協同或對象級協同采用網絡預測融合。協同感知的挑戰性問題包括:標定、車輛定位、時空同步等。 ?
圖 12 V2X協同感知示意圖 ? 這里我們提出了一個多層的V2X感知平臺,如圖12所示。時間同步信息處理不同智能體的數據之間的時間差異。為了靈活性,數據容器優先保留一個時間窗口,例如1秒(LiDAR/雷達為10幀,相機為30幀)??臻g構建需要姿態信息,姿態信息從車輛定位和標定中獲取,大多基于在線地圖或與離線建立的HD地圖信息進行匹配。 ? 我們假設傳感器是相機和LiDAR。神經網絡模型可以處理原始數據,包括:輸出中間表征(IR)、場景分割和目標檢測。為統一協同空間,原始數據映射到BEV(鳥瞰視圖),處理結果也位于相同的空間中。 ? 為了保持有限的尺度空間,保留多個IR層,如3層,這允許不同數據分辨率的靈活融合。V2X協同感知需要接收端做更多工作,整合來自其他車輛和路側的信息,分別融合IR、分割和檢測。融合模塊可以使用CNN、Transformer或圖神經網絡(GNN)。 注意:FCL代表全連接層原始數據需要"壓縮"模塊和"解壓縮"模塊;"插值"模塊和"運動補償"模塊對基于時間同步的信號和基于在線建圖/定位/HD地圖(離線構建)的相對姿態的接收器都是有用的。 ?
10 仿真
在封閉道路或公共道路上進行實車測試既不安全,成本又高,而且并不總是可重復的。模擬測試有助于填補這項空白,然而,模擬測試的問題在于:它的好壞取決于用來測試的模擬器和模擬場景對于真實環境的代表性程度[17]。 ? 理想的仿真效果應該盡可能接近現實。然而,這意味著模擬器必須模擬三維場景環境方面高度精細,并在汽車物理等底層車輛計算方面非常精確。因此,需要在三維場景的精細度度和車輛動力學的簡化之間進行權衡。 ? 一般來說,從虛擬場景中學到的駕駛知識需要遷移到現實世界中,因此如何將在模擬場景中學到的駕駛知識適應到現實中成為一個關鍵問題。虛擬世界和現實世界之間的差距通常被稱為"現實差距"。為了處理這種差距,人們提出了各種方法,分為兩類:從仿真到現實的知識轉移(sim2real)和在數字孿生中學習(real2sim)[44]。 ? 在sim2real中逐漸發展出6種方法,包括課程學習、材料學習、知識提煉、魯棒性強化學習、領域隨機化和遷移學習?;跀底謱\生的方法旨在利用傳感器和物理模型的數據,在仿真環境中構建真實世界物理實體的映射,達到反映相應物理實體全生命周期過程的作用,如AR(增強現實)和MR(混合現實)。 ? 盡管仿真的自動駕駛測試系統相對便宜而且安全,但為了評估而制作的安全關鍵場景對于管理風險和降低成本更為重要[22]。實際上,安全關鍵場景在現實世界中并不多見,因此在仿真中生成這些場景數據的各種方法被投入研究,生成方式分為三種類型:數據驅動生成,即僅利用收集到的數據集信息生成場景;對抗生成,即利用部署在仿真中的自動駕駛車輛的反饋信息生成場景;基于知識的生成,即主要利用外部知識信息作為生成場景的約束或指導。 ?
圖 13 UniSim傳感器模擬器概述 ? 這里我們報告一個最新的神經傳感器仿真平臺[49]-UniSim,由Waabi、Toronto 和MIT構建。UniSim將車輛傳感器捕獲的單個記錄日志轉換為逼真的閉環多傳感器仿真作為可編輯和可控制的數字孿生。圖13展示了UniSim的概況。 ? 如圖13所示,UniSim是一個神經閉環仿真器,它聯合學習靜態場景和動態行為者的形狀和外觀表示,從對環境的單次通過中捕獲的傳感器數據。為了更好地處理外推視角,為動態對象引入了可學習的先驗知識,并利用卷積網絡完成未見區域。 ? 此外,UniSim中的3D場景被分為靜態背景(灰色)和一組動態行為者(紅色)。神經特征場對靜態背景和動態行為者模型進行單獨訪問,并執行體繪制以生成神經特征描述符。靜態場景由稀疏特征網格建模,并使用Hypernet從可學習潛在空間生成每個參與者的表示。最后,使用CNN將特征解碼為圖像。 ? 注意:一類稱為擴散模型[50]的新興生成模型,具有正向過程和反向過程的通用過程,以學習數據分布以及采樣過程以生成新數據,在計算機視覺中獲得了重大關注。最近,它在圖像到圖像、文本到圖像、3D形狀生成、人體運動合成、視頻合成等方面變得越來越受歡迎。期待擴散模型為自動駕駛中的仿真器合成可想象的駕駛場景內容。 ?
11 安全性
安全性是實際部署自動駕駛系統(ADS)的主要挑戰[19,23]。除了傳感器和網絡系統的可能受到傳統攻擊之外,基于人工智能或機器學習(包括深度學習)的系統,尤其需要考慮神經網絡天生易受來自對抗性示例的對抗性攻擊所帶來的新的安全問題。 ? ISO 26262道路車輛——功能安全是廣泛使用的安全指導標準,僅適用于緩解與已知部件故障相關的已知不合理風險(即已知不安全情景)。但不適用于因復雜的環境變化以及ADS如何應對它們而產生的AV駕駛風險,而車輛不存在技術故障 ? 目前,對抗防御可以分為主動防御和被動防御。主動防御集中于改善目標AI模型的魯棒性,而被動防御則針對檢測反向示例,然后再將它們反饋到模型中。主動防御方法主要有五種類型:對抗訓練、網絡蒸餾、網絡正則化、模型集成和認證防御。被動防御主要包括以下兩類:對抗檢測和對抗轉換。 ? 可解釋性是由深度神經網絡的黑盒特性引起的一個問題。簡單地說,它應該為深度學習模型的行為提供人類可以理解的解釋。解釋過程可以分為兩個步驟:提取步驟和展示步驟。提取步驟獲得中間表征,展示步驟以簡單的方式將其呈現給人類。在自動駕駛中,可視化模型主干中的特征圖或管理解碼器輸出的損失,是增強可解釋性的有效方式。 ? 為了提供安全保證,需要針對ADS將面臨的現實世界中的各種場景進行大量的驗證和確認(V&V)。V&V最大化場景覆蓋率的一個常規策略是在模擬生成的大量包含ADS的場景樣本。確保合理覆蓋率的方法分為兩類:基于場景抽樣的方法和形式化方法。 ? 場景抽樣方法是人工智能安全控制的主要方法,包括基于測試的抽樣和基于偽造的抽樣,基于測試的抽樣是為了以最小的代價獲得最大的場景覆蓋率,基于偽造的抽樣是為了發現開發人員更關注的不常見案例,如安全關鍵場景。 ?
圖 14 SOTIF的目標[23] ? ISO 21448《預定功能安全》(SOTIF)提出了一個定性目標,從高層次描述了如何最小化ADS功能設計中已知和未知的不安全場景后果[23],如圖14所示?;诓蓸拥姆椒ㄔ诎l現未知的不安全場景時偏差較小,更具探索性,并且從未知到已知的過程中,所有采樣場景都在一致的仿真環境和相同的保真度水平下進行。 ? 在AV安全性中廣泛使用的常規方法包括模型檢查、可達性分析和定理證明。模型檢查來自軟件開發,以確保軟件行為遵循設計規范。當安全規范以公理和引理描述時,然后進行定理證明以使用最壞情況假設來證明安全性。由于可達性分析可以對動態駕駛任務(DDT)的特征給出安全聲明,它估計DDT的特征,例如Mobileye的安全模型RSS(責任敏感安全)和Nvidia的安全模型SFF(安全力場)。 ?
12 數據閉環
從車輛采集數據、篩選有價值的數據、標注數據、訓練/優化預期模型、驗證目標模型并部署到車輛上等過程,構成了自動駕駛研發的數據閉環[37-41],如圖15所示。 ?
圖 15 自動駕駛研發的數據閉環 ? 作為自動駕駛研發平臺,數據閉環應包括客戶端車端和服務器云端,實現車端數據采集和初步篩選、云端數據庫基于主動學習的挖掘、自動標注、模型訓練和仿真測試(仿真數據也可加入模型訓練)、模型部署回車端。數據選擇/篩選和數據標注/標注是決定數據閉環效率的關鍵模塊。 ?
12.1 數據選擇
特斯拉是第一家在量產車上明確提出數據選擇策略的公司,被稱為在線"影子模式"??梢钥闯觯瑪祿x擇分為兩種方式:一種是在線方式,將數據采集的觸發模式設置在人類駕駛的車輛上,這樣可以最經濟地采集到所需的數據;這種方式大多用于量產和商務階段(注:商務車配備安全操作員通常直接手動觸發采集)。另一種是離線數據庫模式,一般采用數據挖掘模式,在云服務器中對增量數據進行篩選,這種模式常用于研發階段,即使是量產階段采集的數據也會在服務器端數據中心進行二次篩選;此外,在已知場景或目標數據嚴重缺乏的情況下,也可以在車輛或服務器端設置"內容搜索"模式,搜索類似的物體、場景或場景數據,以提高訓練數據的多樣性和模型的泛化能力。 ? 在自動駕駛領域,邊緣情況也有等同或類似的概念,如異常數據、新奇數據、異常值數據、分布外數據(OOD)等。邊緣情況檢測可分為在線和離線兩種模式。在線模式通常用作安全監測和預警系統,而離線模式通常用于在實驗室中開發新算法,選擇合適的訓練和測試數據。邊緣情況可以定義在幾個不同的層次:1)像素/體素;2)域;3)對象;4)場景;5)情景。最后一個情景級別的極端情況通常不僅與感知相關,還涉及預測和決策規劃。 ?
圖 16 在線和離線數據選擇 ? 在此,我們提出一個在線和離線數據選擇框架,如圖16所示。在圖16(a)所示的在線模式下,我們采用多種篩選路徑,如場景搜索、陰影模式、駕駛操作和單類分類。在內容搜索模式下,基于給定的查詢,"場景/情景搜索"模塊從圖像或連續幀中提取特征(空間或時間信息)進行模式匹配,以發現特定的對象、情境或交通行為,例如夜間街道上出現的摩托車、惡劣天氣下高速公路上的大貨車、環島中的車輛和行人、高速路上的變道、街道交叉口的掉頭行為等。 ? “陰影模式"模塊根據車載自動駕駛系統(ADS)的結果進行判斷,如感知模塊中不同攝像頭檢測到的物體匹配錯誤、連續幀檢測到的抖動或突然消失、隧道出入口強烈的光照變化,以及決策規劃中要求車輛減速但車輛實際加速或要求車輛加速但車輛實際減速的行為,檢測到前方障礙物但未試圖避讓、變道時接近并幾乎與后側攝像頭檢測到的車輛相撞等異常情況。 ? ”駕駛操作"模塊將從車輛CAN總線獲得的偏航率、速度等數據中檢測異常情況,如奇怪的之字形現象、過度加速或制動、大角度轉向或轉彎角度,甚至觸發突然緊急制動(AEB)。 ? "單類分類"模塊一般為感知、預測和規劃中的數據進行訓練異常檢測器,這是一種廣義的數據驅動的"影子模式";它依據感知特征、預測軌跡和規劃路徑的正常駕駛數據;對于車端的輕量化任務,則采用單類SVM模型。 ? 最后,根據采集路徑對"數據采集"模塊中對采集到的數據進行標注。 ? 對于圖16(b)所示的離線模式,我們同樣選擇多條路徑進行數據篩選。無論是從研發數據采集車還是量產商業車上采集的新數據,都將存儲在"臨時存儲"硬盤中,以備二次選擇。同樣,另一個"場景/情景搜索"模塊根據定義的某種情景的直接檢索數據。應用的算法/模型規模更大,計算耗時更長,但不受實時性的限制。此外,還可以使用數據挖掘技術。聚類"模塊將執行一些無監督的分組方法或密度估計方法來生成場景聚類。因此,某些遠離聚類中心點的數據會產生異常。 ? 為了進一步篩選數據,可以分步驟在數據上運行自動駕駛軟件(如LogSim風格),并可以在一系列設計的檢查點上檢測到異常。這里,自動駕駛采用模塊化過程,包括"感知/定位/融合"模塊、"預測/時間域融合"模塊和"規劃和決策"模塊。每個模塊的輸出是一個檢查點,通過"單類分類"模塊檢測異常。因為沒有實時限制,所采用這種異常檢測器更復雜。在服務器端,可以使用深度神經網絡進行單類分類。這是一種離線的“影子模式”。 ?
圖 17 預測模塊 ? "感知/定位/融合"模塊的架構與圖6相似。"預測/時空融合"模塊作為額外的輸出頭,其結構圖如圖17所示。特征進入"時序編碼"模塊,該模塊的結構可以設計為類似于RNN(GRU或LSTM)模型或基于圖神經網絡(GNN)的交互建模器,融合多幀特征。運動解碼"模塊理解類似于BEVerse模型的時空特征,并輸出預測軌跡。 ?
圖 18 規劃和決策模塊 ? 在感知和預測的基礎上,我們設計了與ST-P3類似的規劃決策算法框圖,如圖18所示。基于預測輸出的BEV時空特征,我們選擇了基于采樣的規劃方法,在 "Plan Decod"模塊中訓練代價函數來計算采樣器生成的各種軌跡,并在"ArgMin"模塊中找到代價最小的軌跡。代價函數包括安全性(避開障礙物)、交通規則和軌跡平滑性(加速度和曲率)等方面。最后,對整個感知-預測-規劃過程的全局損失函數進行優化。 ? 綜上所述,BEV/Occupancy網絡為基礎的感知、預測和規劃構成了一個端到端的自動駕駛解決方案,稱為BP3。 ?
12.2 數據標注
數據標注的任務分為研發階段和量產階段:1)研發階段主要涉及研發團隊的數據采集車,包括LiDAR,使LiDAR能夠為相機的圖像數據提供三維點云數據,從而提供三維地面真實值。例如,BEV(鳥瞰)視覺感知需要從二維圖像中獲取BEV輸出,這涉及到透視投影和三維信息推測;2)在量產階段,數據主要由乘用車客戶或商用車運營客戶提供。其中大部分沒有LiDAR數據,或者只有有限FOV(如前向)的三維點云。因此,對于相機圖像輸入,需要估計或重建三維數據以進行標注。 ? 在圖6中,我們展示了基于深度學習的端到端(E2E)數據標注模型。然而,為了訓練這樣一個E2E模型,我們需要大量的標注數據。為了緩解數據需求,我們提出了一個半傳統的標注框架,它是經典計算機視覺和深度學習的混合體,如圖19所示。
?
圖 19 半傳統的數據標注框架 ? 對于僅相機多輸入,如圖19(a)所示,我們首先在多個相機的圖像序列中使用三個模塊,即"inst seg"、"depth map"和"optical flow",以計算實例分割圖、深度圖和光流圖;"inst seg"模塊使用深度學習模型定位和分類一些對象像素,如車輛和行人;"depth map"模塊使用深度學習模型根據單目視頻估計兩個連續幀之間的像素運動,形成虛擬立體視覺來推斷深度圖;"optical flow"模塊使用深度學習模型直接推斷兩個連續幀之間的像素運動;基于深度圖估計,"SLAM/SFM"模塊可以獲得類似RGB-D+IMU傳感器的稠密3D重構點云;與此同時,實例分割結果實際上可以剔除障礙物,如車輛和行人;通過"motseg"模塊,獲得的各種運動障礙物將在下一個"SLAM/SFM"模塊(不輸入IMU)中重建,這類似于RGB-D傳感器的SLAM架構,可以看作單目SLAM的擴展;然后,它將"instseg"的結果轉移到"obj recog"模塊,并標注點云的3D包圍框;對于靜態背景,"grd det"模塊將區分靜態障礙物和道路點云,以便靜止障礙物(如停車車輛和交通錐)將"inst seg"模塊的結果轉移到"obj recog"模塊,對點云的3D邊界框進行標注;從"SLAM/SFM"模塊獲得的動態對象點云和從"grd det"模塊獲得的靜態對象點云進入"Surf Recon"模塊進行泊松重建;道路表面點云僅提供擬合的3D道路表面;從圖像域"inst seg"模塊可以獲得道路表面區域;基于自身運動學,可以進行圖像拼接;在"seman seg"模塊在拼接的道路表面圖像之后,可以獲得車道標線、斑馬線和道路邊界;然后,在"vectrep"模塊中使用多線標注;最后,所有標注都投影到車輛坐標系上,得到一幀的最終標注。 ? 圖19(b)所示,對于僅LiDAR輸入,我們經過"預處理"模塊、"SLAM"模塊和"mot seg "模塊。在"inst seg"模塊中,直接對不同于背景的運動物體進行基于點云的檢測;使用神經網絡模型(如PointNet和PointPillar)從點云中提取特征圖;對于靜態背景,經過"Grd Seg"模塊后,判斷為非路面的點云進入另一個"Inst Seg"模塊進行物體檢測,得到靜態物體的三維邊界框標注;對于路面點云,應用"Semantic Seg"模塊,基于深度學習模型,利用反射強度對與圖像數據相似的語義對象進行像素級分類,即車道標線、斑馬線、道路區域等;通過檢測道路邊界得到路緣石位置,最后在"Vect Rep"模塊中進行多邊形的標注;跟蹤到的動態物體點云和實例分割得到的靜態物體點云進入"surf recon"模塊,進行泊松重建;最后,將所有標注投影到車輛坐標系上得到一幀的最終標注。 ? 對于圖19(c)所示具有LiDAR和多相機的輸入,我們將圖19(a)中的"光流"模塊替換為"場景流"模塊,"場景流"模塊使用深度學習模型估計三維點云的運動;"深度圖"模塊替換為"深度填充"模塊,"深度填充"模塊使用神經網絡模型完成深度填充,深度填充由點云投影(插值和"填補空洞")到圖像平面得到,然后反向投影回三維空間生成點云;同時,"seg inst"模塊替換為"seman seg"模塊,該模塊使用深度學習模型標注點云;隨后,稠密的點云和IMU數據將進入"SLAM"模塊進行運動軌跡估計,并選擇標記為障礙物(車輛和行人)的點云;同時,估計的場景流也將進入"mot seg"模塊,進一步區分運動障礙物和靜態障礙物;運動物體通過"inst seg"模塊和"track"模塊后,得到運動物體的標注;同樣,靜態障礙物通過"grd seg"模塊后,由"inst seg"模塊標注;車道標線、斑馬線、道路邊緣等地圖元素通過"seman seg"模塊得到;拼接后的路面圖像和對齊后的點云進入"vect rep"模塊進行多邊形標注;通過跟蹤得到的動態物體點云和實例分割得到的靜態物體點云進入"surf recon"模塊進行泊松重建;最后將所有標注投影到車輛坐標系上得到一幀的最終標注。 ? 注意:這種半傳統標注方法也被稱為4D標注,是由特斯拉的自動駕駛團隊首先探索。因此,所提出的數據標注框架分兩階段運行:首先是半傳統4D標注,然后是基于深度學習的端到端標注。 ?
12.3 主動學習
自動駕駛機器學習模型的訓練平臺可以根據邊緣情況、OOD或異常數據的檢測方法,采用合理的方法利用這些增量數據。其中,主動學習是最常用的方法,可以有效利用這些有價值的數據。主動學習是一個迭代過程,在這個過程中,每次迭代都會學習一個模型,并使用一些啟發式方法從未標明點池中選擇一組點進行標注。不確定性估計是啟發式方法之一,在自動駕駛領域得到了廣泛應用。不確定性有兩種主要類型:感知不確定性和偶然不確定性。感知不確定性通常被稱為模型不確定性,其估計方法主要包括集合法(Ensemble method)和蒙特卡羅剔除法(Monte Carlo dropout method);偶然不確定性被稱為數據不確定性,常用的估計方法是基于貝葉斯理論的概率機器學習。 ? 注:盡管人們大多采用監督學習來訓練數據閉環中的模型,但為了提高泛化、可擴展性和效率,引入了一些新的機器學習技術,如半監督學習(同時使用有標簽和無標簽數據),甚至自監督學習(如流行的無標簽數據對比學習)。 ?
13 結論
在這篇關于自動駕駛的綜述中,我們概述了一些關鍵的創新和未解決的問題。我們提出了幾種基于深度學習的架構模型,即BEV/占位感知、V2X中的協同感知、基于BEV/占用網絡的感知與預測和規劃(BP3)的端到端自動駕駛。本文的一個新觀點是,我們更關注自動駕駛研發中的數據閉環。特別是,我們提出了對應的數據選擇/篩選和數據標注/標記機制來驅動數據閉環。 ?
13.1 ChatGPT 和 SOTA 大模型
最后,我們簡要討論大模型對自動駕駛領域及其數據閉環范式的影響。 ? 最近,由大型語言模型(LLMs)驅動的聊天系統(如chatGPT和PaLM)出現并迅速成為自然語言處理(NLP)中實現人工通用智能(AGI)的一個前景廣闊的方向[42]。實際上,諸如大規模預訓練(學習整個世界網絡上的知識)、指令微調、提示學習、上下文學習、思維鏈(COT)和來自人類反饋的強化學習(RLHF)等關鍵創新在提高LLM的適應性和性能方面發揮了重要作用。與此同時,強化偏差、隱私侵犯、有害錯覺(不真實的胡言亂語)和巨大的計算機功耗等問題也引起了人們的關注。 ? 大模型的概念已經從NLP擴展到其他領域,如計算機視覺和機器人學。同時,多模態輸入或輸出的實現使應用領域更加廣泛。視覺語言模型(VLMs)從網絡規模的圖像-文本對中學習豐富的視覺語言相關性,并通過單個VLM(如CLIP和PaLM-E)實現對各種計算機視覺任務的零樣本預測。Meta[43]提出的ImageBind是一種學習跨六種不同模態(圖像、文本、音頻、深度、熱和IMU數據)聯合嵌入的方法。它實際上利用了大規模視覺語言模型,并通過與圖像配對將零樣本功能擴展到一種新的模態。 ? 擴散模型在圖像合成領域取得了巨大成功,并擴展到其他模態,如視頻、音頻、文本、圖形和三維模型等。作為多視圖重建的一個新分支,NeRF提供了3D信息的隱式表示。擴散模型和NeRF的結合在文本到3D合成方面取得了顯著成效。 ? NavGPT是一個純粹基于LLM的指令遵循導航代理器,它通過在視覺語言導航任務中進行零樣本預測,揭示了GPT模型在具體場景中的推理能力。NavGPT可以明確對導航進行高級規劃,包括將指令分解為子目標、整合與導航任務相關的常識知識、從觀察到的場景中識別地標、跟蹤導航進度以及通過計劃調整適應異常情況。 ?
13.2 大模型在自動駕駛系統中的應用
總之,LLM的出現使得AGI從NLP到各個領域,尤其是計算機視覺領域產生了連鎖反應。自動駕駛系統(ADS)必將受到這一趨勢的影響。有了足夠多的海量數據和視覺語言模型,再加上NeRF和擴散模型,大模型的理念和操作將為自動駕駛帶來革命性的變化。"長尾"問題將在很大程度上得到緩解,數據閉環可能會轉變為另一種閉環模式,即預訓練+微調+強化學習,更不用說輕量級車載模型的仿真平臺搭建和訓練數據的自動標注了。 ? 然而,我們仍然對其魯棒性、可解釋性和實時延遲表示擔憂。安全是ADS中最重要的問題,大模型中的有害信息將導致駕駛危險。基于規則的系統可以很容易地理解一些故障導致的結果,但深度學習模型仍然缺少性能和架構之間的聯系。使用ADS最關鍵的是實時響應。到目前為止,我們還沒有看到任何一個大模型的應用可以在100毫秒內生成結果,更不用說車載工作的內存要求了。
編輯:黃飛
?
評論