武道至尊帝临小说,盗墓笔记,欢乐颂第二季

電子發燒友網報道（文/梁浩斌）最近，智駕領域又出現多個“新名詞”，比如蔚來推出的NWM、多家車企和智駕供應商都在宣傳的VLA。實際上，從各家的路線來看，隨著更大算力的芯片，比如小鵬、蔚來自研的智駕芯片，以及英偉達Thor的上車，越來越多的智駕方案選擇VLA的路徑。

那么本文就梳理一下當前智駕領域集中主流的大模型技術路線，以及各家廠商實現方式的區別和發展。

VLA和VLM

VLA即Vision-Language-Ac tion，視覺-語言-動作模型。簡單來說，VLA是一種結合視覺感知、語言理解和動作決策的多模態AI模型。VLA通過統一空間智能、語言智能和行為智能，使自動駕駛系統能夠更全面地理解復雜環境并執行任務。

VLA的核心能力主要是三種，包括BEV、激光雷達等視覺輸入；理解自然語言指令或場景描述等語言處理能力；以及對車輛控制動作輸出的能力。最終通過這三種能力，實現從感知到決策的端到端閉環。

VLM即Vision-Language Model，視覺-語言模型，從名字上看，VLA就是在VLM的基礎上增加了動作的能力，事實也確實如此。

VLA在VLM核心的多模態推理和理解能力上，增加了動作生成的能力，將VLM的輸出，比如將“在這個路口要轉左”的指令輸出直接轉化為車輛的控制信號，包括油門、方向盤角度、剎車力度等。

一般來說，VLA通常也是基于預訓練的VLM基座模型，利用VLM具備的視覺和語言能力，引入動作預測模塊進行擴展，使其適應各種任務，包括機器人，自動駕駛等。

具體到自動駕駛的應用中，VLA可以直接調用VLM生成的語義理解結果，比如識別視頻畫面中的交通標志、場景描述等，結合實時感知數據來生成車輛的控制指令。同時，VLA的執行結果，也可以反向優化VLM的場景理解能力，優化決策選擇。

簡單總結下來，VLM是傾向于認知的一個模型，它通過自然語言來描述出當前車輛前方的場景，以及“看到”哪些內容，并能夠輸出一些車輛控制指令的文本；VLA是側重于動作控制，在獲得場景的自然語言信息后，解決車輛應該如何繼續行駛，比如作出避讓、變道等動作，并直接輸出油門、方向盤角度、剎車力度等具體的控制指令。

小鵬、理想、元戎落注VLA，但實現方式略有不同

目前小鵬、理想、元戎啟行等車企和智駕公司，都展示了其VLA的技術布局，并表示即將量產。

元戎啟行CEO周光在最近的2025年火山引擎Force原動力大會就宣布，將攜手火山引擎，基于豆包大模型，共同研發VLA等前瞻技術，元戎騎行VLA模型將在2025年第三季度推向消費者市場。

理想汽車此前則透露VLA模型將在今年三季度搭載于理想L9/L8改款車型。

小鵬汽車在最近小鵬G7發布會上表示，將行業首發本地端VLA+VLM大模型。小鵬在車端實現VLA的方式大致是，采用超大參數云端大模型，訓練出世界模型基座，再通過蒸餾的方式產出適配車端算力的小模型，最大限度地保留云端模型基座的核心能力。

今年4月，小鵬汽車對外宣布正在研發參數規模達到720億的云端大模型，即“小鵬世界基座模型”。該基座模型是以大語言模型為骨干網絡，使用海量優質駕駛數據訓練的VLA大模型（視覺-語言-行為大模型），具備視覺理解能力、鏈式推理能力（CoT）和動作生成能力。目前，小鵬汽車已經在后裝算力的車端上用小尺寸的基座模型實現了控車。在沒有任何規則代碼托底的情況下，新的“AI大腦”展現出令人驚喜的基礎駕車技能，能夠絲滑地加減速、變道繞行、轉彎掉頭、等待紅綠燈等等。

在上周的計算機視覺頂會CVPR 2025上，小鵬汽車也分享了其基礎模型的進展。小鵬世界基座模型負責人劉先明博士表示，小鵬汽車已經在云上訓練了10億、30億、70億、720億等多個參數的模型，并且持續向模型“投喂”更大規模的訓練數據。目前，小鵬世界基座模型累計“吃下”2000多萬條視頻片段（每條時長30秒）。

在這一過程中，研發團隊清晰地看到了規模法則（Scaling Law）的顯現。也就是說，模型的參數量越大、模型學習的數據越多，模型的性能越強。這是AI大模型浪潮以來，行業內首次明確驗證規模法則在自動駕駛VLA模型上持續生效。

理想汽車的VLA路線則略有不同，是先對基座模型進行蒸餾，產出車端的蒸餾模型，然后再進行強化學習，實現“司機Agent”。

蔚來世界模型NWM

蔚來近期推送了其最新的NWM首個版本，據蔚來的介紹，蔚來世界模型NWM是一個多元自回歸生成模型，具備空間認知和時間認知能力，能進行長時序決策與推演。蔚來世界模型 NWM同樣是多模態輸入輸出，輸入的多模態數據包含圖像、語言，輸出的多模態數據則包含圖像和行動。

所以NWM其實是包含了VLA的所有特征，但不同之處在于，NWM對于空間理解的能力，以及長時序的建模能力會更強。

蔚來用停車場自主尋路的功能來展示NWM的認知、理解與推理能力。例如，當車輛在行駛過程中看到“15-20號樓→”的標牌時，它就能理解18號樓應當向右轉；在上一個路口看到“出口直行”字樣，當前路口卻沒有標牌，車輛也能推理出出口應該繼續直行。

寫在最后

元戎啟行認為，VLA是通往完全自動駕駛的必經途徑。當前VLA確實已經成為智駕的主流發展方向，而VLA對于車端的算力需求，還將會帶動智駕芯片算力的需求爆發。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

自動駕駛

自動駕駛

+關注

關注
788

文章
14242

瀏覽量
169904

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

VLA，是完全自動駕駛的必經之路？

評論