1、 自動駕駛——數(shù)據(jù)驅(qū)動下的算法迭代
1.1、 自動駕駛算法是感知、預測、規(guī)劃、控制的結(jié)合體
自動駕駛算法反應了工程師們根據(jù)人的思維模式,對自動駕駛所需處理過程的 思考。通常包含感知、預測、規(guī)劃模塊,同時輔助一些地圖、定位等模塊,實現(xiàn)自 動駕駛功能的落地。
1.1.1、 感知:感知外部世界
感知模塊主要解決四類任務:(1)檢測:找出物體在環(huán)境中的位置;(2)分類: 明確對象是什么,如分辨不同類別交通標志;(3)跟蹤:隨著時間的推移觀察移動 物體,通常采用跨幀追蹤對象(將不同幀中檢測到的對象進行匹配)、BEV 加入時序 信息等實現(xiàn);(4)語義分割:將圖像中的每個像素與語義類別匹配,如道路、天空、 汽車等,用于盡可能詳細了解環(huán)境。 以 Apollo 感知算法框架為例,其算法包含預處理、神經(jīng)網(wǎng)絡模型、后處理等模 塊。首先圖像預處理主要是對圖像進行調(diào)整、畸變校正等,使之更符合機器學習的 要求。其次分別對紅綠燈、車道線、障礙物等特征進行檢測,其中紅綠燈通過檢測 邊框、顏色等進行進一步的識別;障礙物則經(jīng)過 2D 到 3D 的轉(zhuǎn)換,得出真實的信息 坐標,再融合車道線檢測信息、外部傳感器信息等得出真實世界的障礙物信息。該 部分通常采用全卷積神經(jīng)網(wǎng)絡或者 YOLO 等算法實現(xiàn)。
1.1.2、 預測:理解外部環(huán)境和當前狀態(tài)
預測模塊實際上是算法對外部環(huán)境和自車狀態(tài)的理解。預測模塊首先收集感知 模塊輸入的車道線、障礙物、紅綠燈、地圖、定位等信息對主車的狀況進行判斷。 其次場景感知模塊對外部障礙物的優(yōu)先級、路權(quán)等外部環(huán)境對主車的影響進行感知。 評估器則會根據(jù)場景信息和障礙物信息判斷出障礙物的軌跡或意圖。預測器則根據(jù) 短期的預測軌跡和意圖判斷障礙物等外部環(huán)境相對長期的軌跡。這將為未來汽車的 規(guī)劃提供重要的參考。算法層面通常以 RNN 為主。
1.1.3、 規(guī)劃:思考如何行動
規(guī)劃指找到合理路徑來到達目的地。規(guī)劃通常分為全局路徑規(guī)劃、行為規(guī)劃與 運動規(guī)劃幾個部分。其中,全局路徑規(guī)劃指智能汽車依靠地圖規(guī)劃出理想狀態(tài)下到 達目的地的路徑。行為規(guī)劃則是主車在實際行駛的過程中,面臨實時的交通環(huán)境, 做出的各類駕駛行為,如跟車、換道、避讓等。運動規(guī)劃生成與駕駛行為對應的駕 駛軌跡,包含路徑規(guī)劃和速度規(guī)劃。最后再采用一些優(yōu)化方式讓變道加速等行為變 得平順以滿足舒適性要求。算法層面,通常采用基于規(guī)則的規(guī)劃決策算法,前沿的 玩家也開始引入機器學習等方式,以提升決策效能。
1.2、 數(shù)據(jù):算法的養(yǎng)料,現(xiàn)實與虛擬的交織
算法、算力和數(shù)據(jù)是人工智能的三大要素,數(shù)據(jù)在模型訓練中擁有不可忽視的 影響。一方面,Transformer 等大模型在大體量數(shù)據(jù)集訓練下才能表現(xiàn)更佳的特性帶 來其對訓練端數(shù)據(jù)的要求激增,特斯拉在 2022 年 AI DAY 上曾表示,訓練其占用網(wǎng) 絡采用了 14 億幀圖像數(shù)據(jù)。另一方面,由于自動駕駛面臨的場景紛繁復雜,諸多長 尾問題需要在現(xiàn)實或虛擬場景中獲取。因此數(shù)據(jù)閉環(huán)在自動駕駛領(lǐng)域彌足重要。毫 末智行將數(shù)據(jù)作為“自動駕駛能力函數(shù)”的自變量,認為是決定能力發(fā)展的關(guān)鍵, Momenta 也曾表示,L4 要實現(xiàn)規(guī)模化,至少要做到人類司機的安全水平,最好比人 類司機水平高一個數(shù)量級,因此需要至少千億公里的測試,解決百萬長尾問題。
數(shù)據(jù)挖掘和針對性的訓練能顯著減少 Corner Case。以特斯拉為例,在面臨一個 看起來像臨時停車但實際上是永久停車的場景時,最初算法會將其判定為臨時停車。 當特斯拉通過數(shù)據(jù)挖掘在訓練集中增加了 1.4 萬個類似場景的視頻并訓練模型后,神 經(jīng)網(wǎng)絡便理解了這輛車里面沒有司機,將其判別為永久停車。
2、 大模型橫空出世,自動駕駛奇點來臨
早期自動駕駛方案采用激光雷達+高精度地圖為主。早期市場以傳統(tǒng)計算機視覺 和專家系統(tǒng)為基礎構(gòu)建輔助駕駛功能,隨后人工智能的蓬勃發(fā)展讓深度學習在自動 駕駛領(lǐng)域被廣泛使用,以 waymo 為代表的自動駕駛先驅(qū)玩家開創(chuàng)了激光雷達+高精 度地圖的感知范式,Cruise、百度等巨頭紛紛效仿。該方案中,對道路結(jié)構(gòu)、車道線 等靜態(tài)環(huán)境元素的感知強依賴高精度地圖,而實時的動靜態(tài)障礙物信息則強依賴激 光雷達。高精地圖成為一項“基礎設施”,將很多在線難以解決的問題提前存儲到地 圖數(shù)據(jù)中,行車時作為一項重要的感知數(shù)據(jù)來源,減輕傳感器和控制器的壓力。由 于該方案只能在有圖地區(qū)行駛,也被一些人形象的稱為“有軌電車”。
高昂的單車成本和高精度地圖成為自動駕駛大規(guī)模推廣瓶頸。Robotaxi 成本高 昂(Yole 統(tǒng)計早期 Waymo 為代表的的自動駕駛汽車改裝成本約為 20 萬美元),高精 度地圖采集制作以及合規(guī)要求繁雜(量產(chǎn)落地過程中,高精度地圖面臨:采集成本 高;人工修圖制圖費時費力;地圖鮮度不足;國內(nèi)法規(guī)嚴格等困難),帶來該方案的 泛化性較差。經(jīng)過數(shù)十年的發(fā)展,Robotaxi 的使用范圍仍被限制在特定區(qū)域,使用 對象也僅局限在商用車領(lǐng)域。市場亟待出現(xiàn)一種單車性能強大、成本低廉的自動駕 駛解決方案。
2.1、 BEV+Transformer 橫空出世,大模型推動自動駕駛邁向普及
2021 年特斯拉推出 BEV+transformer、重感知輕地圖的自動駕駛解決方案,開啟 了自動駕駛行業(yè)新的篇章。
2.1.1、 BEV 感知助力成為感知外部世界標準范式
BEV 全稱為 Bird’s Eye-View(鳥瞰圖),即通過神經(jīng)網(wǎng)絡將各個攝像頭和傳感器 獲取的信息進行融合,生成基于俯視的“上帝視角”的鳥瞰圖,同時加入時序信息, 動態(tài)的對周邊環(huán)境進行感知輸出,便于后續(xù)預測規(guī)劃模塊使用。正如人類一樣,駕 駛行為需要將各處觀察到的信息綜合到統(tǒng)一的空間中,來判別什么地方是可以行駛 的區(qū)域。究其原因,駕駛行為是在 3D 空間中的行為,而鳥瞰圖則是將 2D 的透視空 間圖像轉(zhuǎn)換為 3D 空間,不存在距離尺度問題和遮擋問題,使得算法可以直觀的判斷 車輛在空間中的位置以及與其他障礙物之間的關(guān)系。
2.1.2、 Transformer 大模型為構(gòu)建 BEV 空間提供最優(yōu)解
2021 年特斯拉在 AI Day 上第一次將 BEV+transformer 的算法形式引入到自動 駕駛,開啟了自動駕駛的嶄新時代。首先 BEV 空間的構(gòu)建,實際上就是尋找一種恰 當?shù)姆绞剑瑢⒍鄠€ 2D 的圖像和傳感器信息綜合轉(zhuǎn)化成為一個 3D 的向量空間。經(jīng)過 多次嘗試,特斯拉最終引入了 Transformer 大模型來實現(xiàn)這一轉(zhuǎn)換。 Transformer 大模型是近年人工智能領(lǐng)域的熱門算法,其主要通過注意力機制來 分析關(guān)注元素之間的關(guān)系進而理解外部世界。早年被應用于自然語言處理領(lǐng)域,后 續(xù)延展到計算機視覺等多個方向。算法的優(yōu)勢顯著:
具有更好的全局信息感知能力:Transformer 模型更關(guān)注圖像特征之間的關(guān) 系,因此會跟多關(guān)注整個圖像的信息,卷積神經(jīng)網(wǎng)絡更多關(guān)注固定大小區(qū) 域的局部信息,因此 Transformer 在面對圖像中長程依賴性的問題擁有更好 的表現(xiàn)。
天花板高企適用于大規(guī)模數(shù)據(jù)訓練場景:在圖像識別能力方面,Transformer 擁有更高的上限,隨著訓練數(shù)據(jù)量的增長,傳統(tǒng) CNN 模型識別能力呈現(xiàn)飽 和態(tài)勢,而 Transformer 則在數(shù)據(jù)量越大的情況下?lián)碛懈玫谋憩F(xiàn)。而自動 駕駛洽洽為面向海量的數(shù)據(jù)場景,要求有足夠好的精度的場景。
擁有多模態(tài)感知能力:Transformer 可實現(xiàn)多模態(tài)數(shù)據(jù)的處理,應對圖像分 類、目標檢測、圖像分割功能,并實現(xiàn)對 3D 點云、圖像等數(shù)據(jù)的融合處理。
靈活、較好的泛化性能:Transformer 可適用于不同大小的輸入圖像,同時 外部環(huán)境包含擾動的情況下仍能保持較好的檢測性能。
但 CNN 網(wǎng)絡在提取底層特征和視覺結(jié)構(gòu)方面有比較大的優(yōu)勢,而在高層級的視 覺語義理解方面,需要判別這些特征和結(jié)構(gòu)之間的如何關(guān)聯(lián)而形成一個整體的物體, 采用 Transformer 更加自然和有效。同時 CNN 也擁有更好的效率,可以采用更低的 算力實現(xiàn)效果。因此業(yè)界通常會將 CNN 和 Transformer 結(jié)合來進行物體識別。
2.1.3、 特斯拉引領(lǐng)打開自動駕駛天花板
特斯拉的自動駕駛算法結(jié)構(gòu)中,首先將攝像頭信息無損采集,送入卷積神經(jīng)網(wǎng) 絡 Regnet 來提取不同尺度的圖像特征,接著使用 BiFPN 進行特征融合,然后將這些 特征送入 Transformer 模塊,利用 Transformer 中的多頭注意力機制來實現(xiàn) 2D 圖像特 征到三維向量空間的轉(zhuǎn)換和多攝像頭特征系信息的融合,之后接入不同的“頭”如 交通標志檢測、障礙物檢測等,來實現(xiàn)不同任務的處落地,形成一套優(yōu)雅的,可完 美實現(xiàn)數(shù)據(jù)驅(qū)動的感知算法。由于不同的“頭”之間采用了共享的特征提取網(wǎng)絡, 因此被特斯拉起名為“九頭蛇”算法架構(gòu)。
特斯拉的 BEV+Transformer 算法中兩個環(huán)節(jié)尤為關(guān)鍵:
(1)2D 圖像到 3D 空間的轉(zhuǎn)換以及圖像融合: 在 2D 圖像到 3D 向量空間轉(zhuǎn)換的環(huán)節(jié),特斯拉在行業(yè)內(nèi)首次引入了 Transformer。 具體而言,先構(gòu)建一個想要輸出的三維的柵格空間,并對其進行位置編碼成為查詢 向量(Query),然后將每個圖像和自己的特征輸出相應的查詢鍵碼(Key)和值(Value), 最終輸入到注意力機制中輸出想要的結(jié)果。類似于每個圖像中的特征都廣播自己是 什么物體的一部分,而每個輸出空間的位置像素像拼圖一樣,尋找對應的特征,最 終構(gòu)建出希望輸出的向量空間。(Query、Key、Value 分別為 Transformer 算法中的參 數(shù),通過將外部世界轉(zhuǎn)化為參數(shù)而實現(xiàn)信息處理和任務輸出)
(2)加入時序信息,讓算法擁有“記憶”: 為了讓自動駕駛算法擁有類似一段時間內(nèi)“記憶”的能力,特斯拉在感知網(wǎng)絡 架構(gòu)中加入了時空序列特征層。通過引入慣性導航傳感器獲取的包含速度和加速度 等自車運動的信息,算法模型可獲取時間和空間的記憶能力。具體而言,特斯拉給 算法加入特征隊列模塊(Feature Queue),他會緩存一些特征值(包含歷史幀的 BEV 特征、慣導傳感器信息等),便于了解車輛行動,這個序列包含時間和空間記憶。然 后引入視頻模塊(Video Module)使用空間循環(huán)神經(jīng)網(wǎng)絡(Spatial RNN)/transformer 等算法將前述緩存的特征進行融合,關(guān)聯(lián)前后時刻信息,使得模型具有記憶能力, 讓自動駕駛汽車將同時能夠記住上一段時間和上一段位置的檢測信息。
2.1.4、 BEV+Transformer 大模型提供遠強于傳統(tǒng)自動駕駛算法的感知能力
(1)改善 2D-3D 空間轉(zhuǎn)換過程中深度預測難點,感知性能大幅提升
引入 BEV+Transformer 后,模型對于 2D 空間向 3D 空間轉(zhuǎn)換的精度大幅提高。 構(gòu)建 BEV 模型一大重要任務是實現(xiàn) 2D 圖片到 3D 空間的轉(zhuǎn)換,通常業(yè)內(nèi)有四大類 方式實現(xiàn) 2D-3D 視角轉(zhuǎn)換:早期通常以基于相機內(nèi)外參數(shù)(焦距、光芯、俯仰角、 偏航角和地面高度)的幾何變換的 IPM(逆透視變換)實現(xiàn),由于該方式基于地面 純平、俯仰角一定的假設,約束條件實現(xiàn)難度高;后續(xù)英偉達推出 BEV 行業(yè)的開山 之作LSS算法,但由于其計算量龐大以及精度仍然有限,難以支撐BEV的真正落地; 其后學界業(yè)界探索了眾多方案,包含基于神經(jīng)網(wǎng)絡,通過監(jiān)督學習數(shù)據(jù)驅(qū)動實現(xiàn) BEV 空間構(gòu)建等方式,但深度估計的精度均不盡人意。2021 年,特斯拉首次將 Transformer 應用于 BEV 空間的構(gòu)建,在多攝像頭視角下,相比傳統(tǒng)感知方式,大幅提升了感知 精度,該方案推出后也迅速被業(yè)界廣泛追捧。
(2)完美實現(xiàn)多攝像頭、多傳感器的信息融合,極大方便后續(xù)規(guī)控任務
BEV+Transformer 實際上引入“特征級融合”(中融合)方式。通常自動駕駛汽 車擁有 6-8 個攝像頭以及其他多種傳感器,在感知過程中,需要將各類傳感器的信息 進行融合。傳感器融合大體可分為幾大類:
數(shù)據(jù)級融合(前融合):直接將傳感器采集的數(shù)據(jù)如圖像和點云融合。該方 案優(yōu)勢在于數(shù)據(jù)損失少,融合效果好,但時間同步、空間同步要求達到像 素級別,難度較高,需要對每個像素計算,對算力消耗大,目前少有使用。
目標級融合(后融合):將每個傳感器采集信息并處理后的目標進行融合。 該方案是此前自動駕駛主流采用的方案,被廣泛應用于攝像頭之間、不同 傳感器之間的信息融合。優(yōu)勢在于算法簡單、解耦性好即插即用。但也存 在致命問題,由于融合前的處理損失了大量關(guān)鍵信息,影響感知精度,融 合結(jié)果容易沖突或錯誤。此外后融合中的融合算法仍然基于規(guī)則,無法進 行數(shù)據(jù)驅(qū)動,存在局限性。
特征級融合(中融合):則將原始傳感器采集的數(shù)據(jù)經(jīng)過特征提取后再將特 征向量進行融合。該方案的優(yōu)勢在于,數(shù)據(jù)損失少、將目標“分解”為特 征,更容易在不同相機和傳感器之間關(guān)聯(lián),融合效果好。在 BEV+transformer 算法中實際上均采用中融合的方式。
以路過大型卡車場景為例,障礙物某個時刻在 5 個攝像頭中同時出現(xiàn),且每個 攝像頭只能觀察到車的某個部分。傳統(tǒng)算法通常會分別在每個攝像頭內(nèi)完成檢測, 再融合各攝像頭的結(jié)果。通過部分信息識別出卡車整體的特征及其困難,且一旦完 成物體檢測,相當于“腦補”了看不到的部分,誤差較大拼接困難,經(jīng)常會識別為 多個目標或漏檢。而 BEV+Transformer 通過特征級融合,完美生成鳥瞰視角下的場 景,并且識別精度更高。
(3)更易融入時序信息,模型擁有“記憶”,避免遮擋等問題
感知算法中,時序融合能夠大幅提升算法連續(xù)性,對障礙物的記憶可解決遮擋 問題,更好的感知速度信息,對于道路標志的記憶可提升駕駛安全和對汽車車輛行 為預測的準確度,增強算法的可靠性和精度。在 BEV+transformer 算法中,由于所有 的感知被統(tǒng)一到 3D 鳥瞰圖空間,通過將不同時間和不同位置的特征關(guān)聯(lián)可很容易的 實現(xiàn)時序信息的融合。如在面對遮擋場景時,帶有時序信息的自動駕駛算法感知效 果遠優(yōu)于基于單幀圖像感知的算法。同時也更便于下游的規(guī)劃控制算法實現(xiàn)對障礙 物的追蹤。
(4)汽車擁有實時建圖能力,擺脫對高精度地圖的依賴
BEV+Transformer 算法可在車端實時構(gòu)建媲美高精地圖的高精度局部地圖,能夠 在任意常規(guī)道路條件下,實現(xiàn)自動駕駛所需的靜態(tài)場景深刻理解,然后以此為基礎, 端到端的輸出障礙物的軌跡和速度、車道線信息等,實現(xiàn)復雜場景下的自動駕駛應 用,而不需要依賴高精地圖。使得算法的泛化性大幅提升,成本也大幅下降。
2.2、 占用網(wǎng)絡提供 3D 世界感知,形成通用障礙物識別能力
占用網(wǎng)絡構(gòu)建通用障礙物感知體系,提升對未知物體感知效果。直接在矢量空 間產(chǎn)生統(tǒng)一的體積占用數(shù)據(jù),對于車子周圍任意的一個 3D 位置,它預測了該位置被 占用的概率,對每個位置它還會產(chǎn)生一定的語義信息比如路邊、汽車、行人、或者路上的碎片等等,用不同的顏色標出,同時觀測速度信息,形成“占用柵格”+“柵 格流(描述速度信息)”+弱語義的表達形式。對特斯拉而言,即將原有 Transformer 算法輸出的 2DBEV+時序信息的向量空間增加高度信息,形成 3DBEV+時序信息的 4D 空間表達形式。網(wǎng)絡在 FSD 上每 10ms 運行一次,即以 100FPS 的速度運行,模 型檢測速度大幅提升。
占用網(wǎng)絡優(yōu)勢顯著:(1)其改變了神經(jīng)網(wǎng)絡算法先“認識”才能“識別”的特 性,形成了動靜態(tài)物體統(tǒng)一的障礙物感知方式,可大幅減少 Corner case,提升安全 性。(2)擺脫檢測框的約束,對不規(guī)則外形障礙物的感知能力大大增強。(3)對特 斯拉來說,通用障礙物感知能力可以復用到其他產(chǎn)品如機器人上,形成了統(tǒng)一的算 法框架。
占用網(wǎng)絡的構(gòu)建并非單獨算法上得演進,而是體系能力的提升。3D 空間的距離 真值獲取實際上較為困難,即使擁有激光雷達,其稀疏的點云信息仍然難以滿足占 用網(wǎng)絡的訓練需求,而由于仿真環(huán)境中距離真值信息可以直接獲取,因此占用網(wǎng)絡 的構(gòu)建幾乎和強大的仿真場景構(gòu)建相輔相成。
2.3、 規(guī)控算法由基于規(guī)則邁向基于神經(jīng)網(wǎng),大模型開始嶄露頭角
2.3.1、 人工智能逐步滲透進入規(guī)控算法
發(fā)力安全性、舒適性和效率,規(guī)控算法成為當前頭部玩家主攻方向。人能夠基 于非常有限的感知信息完美實現(xiàn)駕駛行為,很大程度因為人類擁有強大的“規(guī)控” 能力。對自動駕駛而言,采取一種讓安全性、舒適性和效率都達到最大化的駕駛策 略無疑是各大廠商不懈追求的目標。而該環(huán)節(jié)也直接決定了自動駕駛功能的消費者 體驗,目前頭部玩家已經(jīng)將主攻方向轉(zhuǎn)移到規(guī)控算法領(lǐng)域。
“擬人化”、強泛化性,人工智能推動自動駕駛“老司機”上線。規(guī)控算法的難 度較高,存在諸多非確定(如輔路與干道沒有綠化帶隔離,輔路的車輛可隨時進入 干道)、強交互(如多個物體在同一場環(huán)境下決策會相互影響,存在一定博弈性)、 強主觀(如駕駛員的駕駛風格,很難用有限標準量化表示)的場景。同時涉及交通 法規(guī)等一系列問題。早年的算法通常采用基于專家知識和規(guī)則的模式為主,由于基 于規(guī)則的系統(tǒng)需要不斷補充新的規(guī)則以實現(xiàn)對各類環(huán)境的良好應付,日積月累代碼 量龐大,占用算力資源,且不易維護。因此依靠數(shù)據(jù)驅(qū)動的基于人工智能的規(guī)控算 法日益走向臺前。面對復雜的外部環(huán)境,人工智能模型能夠更加平滑的以“類人”的 方式對駕駛行為進行處理,泛化能力強、舒適性好,應對復雜場景的能力大幅提升。
兼顧“安全”和“性能”,神經(jīng)網(wǎng)絡和基于規(guī)則結(jié)合有望成為一段時期內(nèi)規(guī)控算 法的主流。小鵬汽車自動駕駛負責人吳新宙曾表示,基于大數(shù)據(jù)和深度學習的算法 在規(guī)控領(lǐng)域的滲透會越來越深,預計未來整個框架都將基于深度學習為基礎,但基 于規(guī)則的算法也會長期存在,因為規(guī)控算法的可解釋性很重要。基于神經(jīng)網(wǎng)絡的規(guī)控算法有諸多優(yōu)勢,但目前如訓練過程中數(shù)據(jù)的清洗、一致性;面向一些小場景特 定的算法調(diào)整;可解釋性差等問題仍客觀存在。因此諸多玩家目前仍采用以人工智 能和基于規(guī)則結(jié)合的方式來部署規(guī)控算法,制定一些規(guī)則來對人工智能產(chǎn)生的行為 進行兜底,實現(xiàn)較好的規(guī)控效果,未來隨著人工智能能力的提升,規(guī)控算法人工智 能化已經(jīng)成為大勢所趨。 交互搜索+評估模型,特斯拉規(guī)控算法行止有效。在規(guī)控方面,特斯拉采用交互 搜索+評估模型的方式實現(xiàn)舒適、有效以及傳統(tǒng)搜索算法和人工智能的結(jié)合的算法。 具體如下:(1)決策樹生成:首先根據(jù)車道線、占用網(wǎng)絡、障礙物等得到候選目標, 生成一些候選目標;(2)軌跡規(guī)劃:通過傳統(tǒng)搜索和神經(jīng)網(wǎng)絡的方式同步構(gòu)建抵達 上述目標的軌跡;(3)交互決策:預測自車以及場景中其他參與者之間的相互作用, 形成新的軌跡,經(jīng)過多次評估選擇最后軌跡。在軌跡生成階段,特斯拉采用了基于 傳統(tǒng)搜索算法和基于神經(jīng)網(wǎng)絡兩種形式,之后根據(jù)碰撞檢查、舒適性分析、駕駛員 接管可能性和與人的相似程度等對生成的軌跡打分,決定走哪條路線。基于這種方 式有效的將道路參與者的博弈考慮在內(nèi),同時完美將基于規(guī)則和基于人工智能結(jié)合, 呈現(xiàn)出強大競爭力。
2.3.2、 大模型賦能,車道線預測等復雜任務得以實現(xiàn)
復雜道路的車道拓普結(jié)構(gòu)識別難度較高。自動駕駛車輛在行駛過程中需要明確 自車的道路情況和車道線拓撲情況,以此來決定如何規(guī)劃自己的行駛軌跡。但當車 道線模糊,或者十字路口等場景下,需要算法自己計算出車道線情況,來指導自身 的自動駕駛行為。我們看到一些玩家針對這樣的場景做出了優(yōu)化,來完美應對各類 突發(fā)情況,產(chǎn)業(yè)算法不斷進化和成熟。
特斯拉采用訓練語言模型的形式來訓練車道線網(wǎng)絡模型。車道線網(wǎng)絡實際上是 嫁接在感知網(wǎng)絡上的一個 Transformer 的解碼器(Decoder)。參考自然語言處理任務 中的形式,讓模型用自回歸(綜合上個環(huán)節(jié)的結(jié)果輸出下個環(huán)節(jié)的內(nèi)容)的方式輸 出車道線的預測結(jié)果。具體而言,將車道線包含節(jié)點位置、節(jié)點屬性(起點、終點、 中間點等)、分叉點、交叉點等進行編碼,形成類似語言模型中單詞的屬性,輸入 Transformer 解碼器中,將信息轉(zhuǎn)化成為“車道線語言”,去生成下個階段的結(jié)果,進 而形成整個路網(wǎng)的車道線的拓撲結(jié)構(gòu)。
理想汽車在理想家庭日上也展示了其用于增強路口性能的算法 NPN 神經(jīng)先驗 網(wǎng)絡。為了解決大模型在十字路口不穩(wěn)定的問題,對復雜路口,提前進行路口的特 征提取和存儲,當車輛再次行駛到路口時刻,將過去提取好的特征和 BEV 感知大模 型融合,形成更加完美的感知結(jié)果。
2.4、 端到端(感知決策一體化):大模型為自動駕駛徹底實現(xiàn)帶來希望
2.4.1、 回歸自動駕駛第一性原理,端到端自動駕駛成為市場遠期共識
模塊化的自動駕駛算法設計存在諸多問題。前述文章中提到的感知、預測、規(guī) 劃等環(huán)節(jié)的算法稱為模塊化算法設計,這些方案中每個模塊獨立負責單獨的子任務, 這種方案具備簡化研發(fā)團隊分工,便于問題回溯,易于調(diào)試迭代等優(yōu)點。但由于將 不同任務解耦,各個模塊之間容易產(chǎn)生信息損失問題,且多個模塊間優(yōu)化目標不一 致,最后模塊間產(chǎn)生的誤差會在模型中傳遞。 端到端自動駕駛解決方案回歸自動駕駛第一性原理。因此業(yè)界也一直在探索端 到端的自動駕駛算法形式,即設計一個算法模型,直接輸入傳感器感知的信息,輸 出控制結(jié)果。端到端的自動駕駛算法擁有非常明顯的優(yōu)勢:(1)其遵循了自動駕駛 的第一性原理:即無論感知、規(guī)劃、決策模塊如何設計,最終是為了實現(xiàn)更好的自 動駕駛效果,因此現(xiàn)有的方法聚焦單獨某個模塊的優(yōu)化,對整體的效果提升未必有 效。(2)端到端的方式可避免極聯(lián)誤差,去掉冗余信息,提升視覺信息的表達。(3) 傳統(tǒng)模塊化的算法中需要面臨模型之間的多個編解碼環(huán)節(jié),帶來的計算的冗余浪費。 (4)規(guī)則驅(qū)動徹底轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動,理想狀態(tài)下讓汽車自動駕駛模型訓練變得簡潔。
2.4.2、 工業(yè)界已經(jīng)開啟探索,邁向完全自動駕駛
目前全球無論學術(shù)界還是工業(yè)界均對該方案進行了不懈探索。如英偉達 2016 年 即提出端到端的自動駕駛解決方案,而 Uber 更多次發(fā)相關(guān)的論文探索有關(guān)算法。最新的 CVPR2023 上商湯、OpenDriveLab、地平線等聯(lián)合發(fā)布的端到端的自動駕駛算 法 UniAD,獲得了當年的最佳論文。其采用 Transformer 將感知、決策、規(guī)劃、控制 模塊都融入到一個模型中,端到端的處理自動駕駛問題,能夠呈現(xiàn)出最佳的運行效 果。
目前英國初創(chuàng)公司 Wayve 亦致力于開發(fā)端到端的自動駕駛系統(tǒng),致力于讓汽車 通過自己的計算機視覺平臺“自己看世界”,同時可以根據(jù)它所看到的東西做出自己 的決定。馬斯克也曾在推特上表示,其 FSD V12 版本將是一個端到端的自動駕駛模 型。
2.4.3、 大模型的思考,自動駕駛或許并非終點
通識知識和強泛化能力助力人類輕松學會駕駛。人類可以在短時間內(nèi)學會駕駛, 但機器則需要海量的數(shù)據(jù)和訓練。可能的原因在于人類在學習駕駛之前就已經(jīng)充分 對整個世界有了全面的認知,并可以將這些認識泛化到各類場景下。如在學校附近 應該減速、遇到老人應當小心等,面對形狀怪異的紅綠燈人類幾乎不加思考就可理 解其想表達的意思。通識知識,強泛化能力可以對自動駕駛行為產(chǎn)生重大幫助。 GPT 受到市場追捧,也引發(fā)了自動駕駛界對模型構(gòu)建方式的思考。前文提到的 英國公司 Wayve 亦在嘗試構(gòu)建一個世界模型,通過使用與駕駛本身無關(guān)的數(shù)據(jù),如 一些文本數(shù)據(jù)預訓練模型進而提升模型的駕駛性能。此外,公司亦在嘗試將自動駕 駛模型和自然語言結(jié)合,讓自動駕駛模型能夠描述自己的行為,進而增強模型的性能和可解釋性。國內(nèi)毫末智行等也在做出相應的嘗試,建立大參數(shù)的模型,并將海 量駕駛場景編碼成語料,投喂給模型進行無監(jiān)督學習,接著再加入人類反饋強化學 習幫助其掌握駕駛員的行為,進而讓模型擁有接近人的自動駕駛能力。大語言模型 的風靡也讓市場對自動駕駛模型構(gòu)建的方式有了新的想象空間,DriveGPT 未嘗不是 一種可以嘗試的方向。
世界模型浮上水面,面向通用場景,解決通用問題。在最新的 CVPR2023 會議 上,特斯拉提出了世界模型,即構(gòu)建一個模型,可觀察所有需要觀察的事物,并將 其轉(zhuǎn)化為向量空間,鏈接各類豐富的下游任務。該模型不止用于汽車,還可用于機 器人等等嵌入式人工智能場景。通過該模型可預測未來、構(gòu)建仿真場景,通過語言 提示,讓它生成各類場景如直行、向右變道等。
2.5、 數(shù)據(jù)端:大模型推動數(shù)據(jù)閉環(huán)和仿真落地
神經(jīng)網(wǎng)絡只決定了算法的上限,而是否能讓神經(jīng)網(wǎng)絡發(fā)揮其效能,數(shù)據(jù)起到了 決定性的作用,因此如何尋找純凈且多樣化的海量數(shù)據(jù)集相比算法而言同等重要。
2.5.1、 數(shù)據(jù)閉環(huán):自動化運行,降本增效推升規(guī)模是關(guān)鍵
完整的數(shù)據(jù)閉環(huán)系統(tǒng),通經(jīng)常包含數(shù)據(jù)采集、數(shù)據(jù)挖掘、數(shù)據(jù)標注、模型訓練 等環(huán)節(jié)。其對自動駕駛功能實現(xiàn)的重要性不言而喻,但當前自動駕駛車型傳感器越 來越高端,據(jù) dSPACE 的數(shù)據(jù),若采用 4k800 萬像素的攝像頭,每秒產(chǎn)生的數(shù)據(jù)將 達到 3GB,疊加激光雷達毫米波雷達等傳感器,整車每秒將產(chǎn)生的 40G 數(shù)據(jù),每小 時產(chǎn)生 19Tb 數(shù)據(jù),對整車廠的數(shù)據(jù)處理能力提出考驗。
數(shù)據(jù)采集:通常自動駕駛算法會采取一定的觸發(fā)(Trigger)機制來開啟數(shù)據(jù)上 傳。如出現(xiàn)人類駕駛和自動駕駛不一致的情況,或不同傳感器之間一致性不同的情 況,或者不同算法出現(xiàn)沖突,以及某些指定的特殊場景如近距離跟車、加塞、光照 急劇變化、陰影車道線等等。特斯拉在 2022AI DAY 上表示其擁有 221 種觸發(fā)器。 數(shù)據(jù)清洗/挖掘:數(shù)據(jù)清洗和挖掘?qū)嶋H上是數(shù)據(jù)處理的過程,通常采集的數(shù)據(jù)包 含大量的無用數(shù)據(jù),這里需要算法將訓練模型所需要的數(shù)據(jù)提取出來,以實現(xiàn)有效 的數(shù)據(jù)收集,同時修正部分錯誤數(shù)據(jù)。這其中對于數(shù)據(jù)處理的“內(nèi)功”要求深厚。 數(shù)據(jù)標注:挖掘到有價值的數(shù)據(jù)后,需要采用人工標注或自動標注的方式,疊 加部分仿真數(shù)據(jù),形成數(shù)據(jù)集來實現(xiàn)對算法的訓練和迭代。這其中涉及 2D 標注、3D 標注、車道線標注、語義分割等,工作量大,同時影響著車企自動駕駛算法的迭代, 是數(shù)據(jù)閉環(huán)中的重中之重。
數(shù)據(jù)閉環(huán)收益顯著但成本不可忽視,降本增效是關(guān)鍵。數(shù)據(jù)標注方面,據(jù)特斯 拉 AI DAY 描述公司曾經(jīng)組建了超過千人的團隊,早期通過人工在 2D 圖片上進行精 細標注,但效率低下;后改進為在向量空間完成標注,再通過投影投射到 8 個攝像 機里面,效率大幅提升;再之后特斯拉即建立了自動標注系統(tǒng),通過離線大模型實 現(xiàn)自動標注,大幅提升標注效率。此外特斯拉通過多車輛聯(lián)合優(yōu)化等方式來提升標 注的精確度,起到了良好的效果。行業(yè)其他玩家亦開發(fā)自動標注工具以降本增效, 據(jù)小鵬汽車描述,采用自動化標注工具后,公司能夠在 17 天內(nèi)完成原本需要 200 個 人年才能完成的標注任務。數(shù)據(jù)閉環(huán)方面,特斯拉、小鵬、理想汽車均提到了各自 的自動化數(shù)據(jù)閉環(huán)體系,能夠全自動完成數(shù)據(jù)的采集、挖掘、標注、存儲等環(huán)節(jié), 大大提升模型的訓練和迭代效率。
2.5.2、 仿真:從提升效率到不可或缺
仿真是自動駕駛系統(tǒng)構(gòu)建不可或缺的環(huán)節(jié)。將數(shù)據(jù)采集過程中的實車數(shù)據(jù)經(jīng)過 聚類、場景提取、泛化與篩選,構(gòu)筑用于測試的虛擬世界,自動駕駛算法控制車輛, 與虛擬世界產(chǎn)生交互,并將交互結(jié)果輸出,在自動駕駛領(lǐng)域優(yōu)勢明顯: (1)當數(shù)據(jù)極端難以獲取的時候,仿真可以生成大量的場景供模型訓練; (2)天然帶有標注信息。當數(shù)據(jù)難以標注的時候,如幾百萬人過馬路,標注成 本極高且效率低下容易產(chǎn)生錯誤,但仿真場景下不存在上述難點; (3)仿真可以給規(guī)控算法以安全的實驗環(huán)境; (4)仿真的價格低廉,效率高。 理論上完美的仿真能夠取代實車測試,進而以較低成本達到安全測試效果,縮 短自動駕駛算法研發(fā)周期,是自動駕駛開發(fā)迭代的重要環(huán)節(jié)。
不同的算法對仿真環(huán)境的構(gòu)建提出不同要求。通常自動駕駛核心算法包括感知 算法、決策規(guī)劃算法、控制算法三大環(huán)節(jié),其中感知算法仿真需要高還原度的三維 重建場景和精準的傳感器模型;決策規(guī)劃算法仿真需要大量的場景庫為支撐;控制 算法需要引入精準的車輛動力學模型。虛擬場景構(gòu)建方面,通常需要模擬出與真實 世界一致的靜態(tài)、動態(tài)交通運行場景。靜態(tài)場景通常包含道路、車道線、減速帶、 交通標志、路燈、車站、周圍建筑等等,通常使用高精度地圖和三維重建技術(shù)構(gòu)建 (通常需要回執(zhí)高精度地圖并進行三維建模);動態(tài)場景包含動態(tài)指示設施、機動車 行為、非機動車行為、行人行為、通信環(huán)境、氣象變化、時間變化等。感知系統(tǒng)仿 真方面,包含攝像頭仿真(生成逼真的圖像并添加色彩和光學屬性等通常采用游戲 引擎來構(gòu)建,如百度阿波羅采用 Unity3D、騰訊 TADSim 引入了虛幻引擎)、毫米波 雷達仿真、激光雷達仿真。車輛動力學仿真方面,通常基于多體動力學搭建模型, 其中包含車體、懸架系統(tǒng)、轉(zhuǎn)向系統(tǒng)、制動系統(tǒng)、動力系統(tǒng)、傳動系統(tǒng)等多個真實 部件的車輛模型。
對仿真工具而言,其能夠覆蓋的場景范圍越大,自動駕駛可行駛邊界就越廣泛。 因此評價自動駕駛算法最重要的標準就是測試其是否能夠處理足夠多的場景庫。通 常仿真模型會以真實采集的數(shù)據(jù)、模擬數(shù)據(jù)、以及根據(jù)真實場景合成的仿真數(shù)據(jù)為 數(shù)據(jù)源,對場景的幾何形狀、物理運動規(guī)律、以及場景中各個元素如車流、行人等符合邏輯規(guī)律,以實現(xiàn)更好的仿真效果。
自動駕駛仿真平臺市場競爭激烈,促使平臺仿真性能提升。自駕仿真平臺布局 主體眾多,可以劃分為科技公司、自駕解決方案商、仿真軟件企業(yè)、車企、高校及 科研機構(gòu)五大類。科技公司擁有大數(shù)據(jù)優(yōu)勢,軟件開發(fā)經(jīng)驗豐富;自駕解決方案商 多針對自研發(fā)需要,較少對外提供仿真服務;不同仿真軟件企業(yè)經(jīng)驗積累程度不同, 傳統(tǒng)企業(yè)積累深厚,初創(chuàng)企業(yè)積累薄弱;車企能夠?qū)⒙窚y和仿真測試同步結(jié)合,但 限于自身軟件開發(fā)能力,多與外部仿真平臺提供商合作進行自動駕駛汽車開發(fā);高 校及科研機構(gòu)主要對自駕仿真軟件進行前瞻、基礎性研究。自駕仿真平臺參與者眾, 市場競爭激烈,具備更快迭代速度、更強仿真能力、更完善服務支持的仿真平臺將 快速成長。
DRIVE Sim:Nvidia 自動駕駛研發(fā)生態(tài)體系重要一環(huán)。DRIVE Sim 是由英偉達 開發(fā)的端到端仿真平臺,能夠進行大規(guī)模多傳感器仿真。DRIVE Sim 功能強大,能 夠提供核心模擬和渲染引擎,生成逼真的數(shù)據(jù)流,創(chuàng)建各種測試環(huán)境,模擬暴雨和 暴雪等各種天氣條件,以及不同的路面和地形,還可以模擬白天不同時間的眩目強 光以及晚上有限的視野,達到“照片級逼真且物理精確”的傳感器仿真。
DRIVE Sim 具有完善的工具鏈支持,融入英偉達自動駕駛開發(fā)生態(tài)。DRIVE Sim 可以在 Omniverse 云平臺上運行,也可以在 OVX 服務器組成的本地數(shù)據(jù)中心甚至單 顆 RTX3090 上運行。DRIVE Sim 具有開放式、模組化分特點,擁有良好的可拓展性: (1)支持神經(jīng)重建引擎(NER),該 AI 工具可以將真實世界的數(shù)據(jù)直接帶入仿真中, 開發(fā)者可在仿真環(huán)境中修改場景、添加合成對象,并應用隨機化技術(shù),大大增加真 實感并加快生產(chǎn)速度。(2)使用 NVIDIA Omniverse Kit SDK,DRIVE Sim 允許開發(fā) 人員構(gòu)建自定義模型、3D 內(nèi)容和驗證工具,或與其他模擬進行交互。(3)支持 DRIVE Replicator 生成與合成傳感器數(shù)據(jù)對應的真值數(shù)據(jù),用于訓練自動駕駛汽車 DNN。 DRIVE Sim 已融入英偉達完整的軟硬協(xié)同生態(tài),支持從概念到部署的自動駕駛汽車 開發(fā)及驗證。
51 Sim-One:本土仿真系統(tǒng)助力中國自動駕駛量產(chǎn)落地。Sim-One 是 51 World 全棧自研的云原生仿真平臺。(1)場景方面,Sim-One 具有豐富的場景生成方式, 特別是能基于語義泛化工具鏈能夠?qū)崿F(xiàn)場景的快速定義;與第三方場景庫達成合作, 擴充場景數(shù)量,提高仿真測試質(zhì)量。(2)平臺方面,Sim-One 具有豐富的功能,包 括靜態(tài)和動態(tài)數(shù)據(jù)導入、測試場景案例編輯、各類仿真、測試與回放、虛擬數(shù)據(jù)集 生成以及各類在環(huán)測試;Sim-One 基于原生云架構(gòu)仿真平臺,支持大規(guī)模并發(fā)仿真 技術(shù),日測試里程可達十萬公里。(3)評價方面,Sim-One 具備豐富的指標庫可供 用戶自行選擇進行評價,涵蓋安全性、違規(guī)性、舒適性、高效性、經(jīng)濟能耗性、控 制準確性等多個維度,并且支持多場景并發(fā)評價。
AI 應用于仿真系統(tǒng),能夠有效輔助自動駕駛系統(tǒng)升級。(1)在場景庫構(gòu)建方面, 從傳感器數(shù)據(jù)中利用 AI 進行自動化、大規(guī)模三維重建,構(gòu)建現(xiàn)實世界對象和背景的 幾何形狀、外觀和材料屬性;使用大量路采數(shù)據(jù)訓練 Agent AI,使之模仿道路場景 中的主體,賦予虛擬場景強交互性;利用已有場景庫與生成式 AI,自動生成無需標 注的各種交通場景數(shù)據(jù)。(2)在車輛仿真測試過程中,使用 AI 識別自動駕駛系統(tǒng)的 弱點,并自動創(chuàng)建對抗性場景,同時自駕系統(tǒng)使用 AI 算法自動從錯誤中學習,自動 迭代更新,無需密集手動調(diào)整算法,適應更快節(jié)奏、更大規(guī)模的訓練。AI 能使仿真 系統(tǒng)更有針對性,使自動駕駛算法調(diào)整自動化,加速自駕技術(shù)在現(xiàn)實世界落地。
3、 自動駕駛算法變革引領(lǐng)產(chǎn)業(yè)鏈變化
3.1、 兵馬未動糧草先行,云端算力軍備競賽開啟
對自動駕駛而言,大量的數(shù)據(jù)處理、訓練、自動標注、仿真等工作需要完成, 算力成為車企打造自動駕駛能力的核心,決定著車企的算法迭代效率和上限。特斯 拉表示其總算力在 2024 年將沖刺 100EFlops,而國內(nèi)領(lǐng)先玩家亦不遑多讓,紛紛構(gòu) 建自有的數(shù)據(jù)中心,自動駕駛的算力軍備競賽從車端蔓延到云端。
3.1.1、 特斯拉自研算力平臺 Dojo,2024 年沖刺 100EFlops 算力
特斯拉在應對海量訓練和仿真需求時構(gòu)建了龐大的算力體系。據(jù)特斯拉在 2021 年 AI DAY 介紹,特斯拉為了移除自動駕駛系統(tǒng)對毫米波雷達的依賴,從 250 萬個 視頻剪輯中生成了超過 100 億個標簽,需要龐大的離線神經(jīng)網(wǎng)絡和引擎。而硬件方 面,特斯拉在 2021 年 AI DAY 期間就擁有接近 1 萬塊 GPU,2022 年 AI DAY 上這一 數(shù)字提升到 1.4 萬片,其中約 50%的負載用來實現(xiàn)云端自動標注和車載占用網(wǎng)絡的訓 練。
自研 D1 芯片和 Dojo 超級計算機布局算力。為了進一步提升算力水平,2021 年 起特斯拉開始自研 D1 人工智能芯片和 Dojo 超級計算機。將 25 顆自研的 D1 芯片封 裝成 Dojo 訓練模塊,再將 120 個訓練模塊結(jié)合 Dojo 接口處理器等組件融合形成 Dojo 主機,目前 10 機柜的 Dojo ExaPOD 超級計算機將擁有 1.1EFlops 算力,并且擁有強 擴展能力,借助特斯拉強大的軟件能力,將有效提升其在算法領(lǐng)域的迭代速率。
而據(jù)特斯拉 AI 官方賬號顯示,特斯拉將在 2024 年 1 月將擁有等效 10 萬片英偉 達 A100GPU 的算力,在 2024 年的 10 月?lián)碛?100EFlops 算力,等效 30 萬片英偉達 A100GPU 算力。
3.1.2、 國內(nèi)自動駕駛領(lǐng)先玩家亦積極布局,算力成為自駕競爭“入場券”
國內(nèi)玩家亦快速布局算力領(lǐng)域,為自身算法和數(shù)據(jù)的迭代和積累鋪平道路。2022 年 8 月,小鵬汽車與阿里云共同宣布在內(nèi)蒙古烏蘭察布建成自動駕駛智算中心“扶 搖”,用于自動駕駛。“扶搖”的算力可達到 600PFLOPS,據(jù)何小鵬在小鵬科技日上 描述,智算中心將小鵬汽車的自動駕駛模型訓練效率提升百倍以上。毫末智行則聯(lián) 合火山引擎推出雪湖·綠洲智算中心,擁有 670PFLOPS 算力。此外 2023 年 1 月吉 利汽車也聯(lián)合阿里云推出吉利星睿智算中心,理想汽車在 2023 年同樣與火山引擎合 作在山西布局智算中心,蔚來等諸多車廠亦積極推動自有或云端算力的構(gòu)建。
3.2、 自動駕駛芯片格局有望被重塑
3.2.1、 Transformer 大模型對芯片架構(gòu)提出新的要求
Transformer 大模型對芯片架構(gòu)提出新的要求。芯片架構(gòu)決定著算法運行效率, 近年隨著 Transformer 算法風靡 AI 界,特斯拉引領(lǐng)下,Transformer 在自動自動駕駛 行業(yè)行業(yè)被廣泛使用,芯片對 Transformer 適配性將影響未來芯片的競爭格局。與傳 統(tǒng)卷積神經(jīng)網(wǎng)絡(CNN)架構(gòu)相比,Transformer 算法擁有顯著的不同: (1)算法對算力要求較高。Transformer 通常計算量較大,且在大參數(shù)和大數(shù)據(jù) 量的基礎上才能展現(xiàn)出更優(yōu)異的模型性能,這對芯片的算力提出新的要求。 (2)對芯片的運算精度存在一定要求。考慮到算力的限制,目前的推理側(cè)芯片 通常采用 int8(整型)精度算力(int8 為運算數(shù)精度單位,Int8 指 8 位整型數(shù),即用 8bit 來表示一個整數(shù)數(shù)字;相應的 FP16 為半精度浮點數(shù),即用 16bit 表示一個小數(shù), 精度更高),而對 Transformer 來說,由于其內(nèi)部算子較為復雜,更適合于在采用浮 點運算的平臺運行。 (3)算子復雜度高,和卷積神經(jīng)網(wǎng)絡顯著不同。相比傳統(tǒng)卷積神經(jīng)網(wǎng)絡算法中 更多以較為規(guī)則的卷積矩陣乘法運算而言,Transformer 中算子復雜度高,有較多訪 存密集型算子,對訪存帶寬和存儲容量要求較高。而傳統(tǒng) AI 芯片多基于卷積神經(jīng)網(wǎng) 絡等算法優(yōu)化,難以實現(xiàn)和 Transformer 的良好適配。
3.2.2、 芯片玩家開始著力加大產(chǎn)品對 Transformer 的適配度
鑒于上述特點,不少芯片廠商推出了可針對 Transformer 加速的芯片產(chǎn)品。未來, 能夠良好適配 Transformer 算法并幫助其在車載平臺落地的公司有望占得先機。
3.3、 自動駕駛產(chǎn)業(yè)加速成熟,配套公司全面受益
3.3.1、 BEV+Transformer 大模型的自動駕駛算法構(gòu)建形式被市場廣為接受
特斯拉發(fā)布 BEV+Transformer 的算法以來,行業(yè)廣泛認可,我們看到諸多玩家 積極跟進,推出自己的大模型算法。理想汽車在最新的理想家庭科技日上宣布自動 駕駛已經(jīng)進入大模型時代,而通勤NOA和城市NOA將成為未來消費者的剛需配置。
模型算法的落地代表著功能逐步走向成熟。2023 年以來,我們將陸續(xù)看到各大 車企紛紛落地自己的城市輔助駕駛相關(guān)車型,行業(yè)呈現(xiàn)百花齊放的狀態(tài)。這無疑將 助力整個自動駕駛產(chǎn)業(yè)鏈走向繁榮。
編輯:黃飛
評論