10月31日訊,自動駕駛領(lǐng)域的先鋒Waymo,作為Alphabet旗下的一員,長久以來將其與谷歌DeepMind的緊密合作及深厚的AI研究底蘊視為其在自動駕駛競賽中脫穎而出的關(guān)鍵。如今,Waymo再邁新步,為其機器人出租車業(yè)務(wù)引入了一種基于谷歌多模態(tài)大語言模型(MLLM)“Gemini”的全新訓(xùn)練模型——“端到端多模態(tài)自動駕駛模型”(EMMA)。
Waymo最新發(fā)布的研究論文揭示了EMMA模型的面紗。這一創(chuàng)新的端到端訓(xùn)練模型能夠解析傳感器數(shù)據(jù),預(yù)測“自動駕駛車輛的未來行駛軌跡”,從而輔助Waymo的無人駕駛車輛做出精準(zhǔn)決策,無論是選擇行進路線還是規(guī)避障礙物。
尤為引人注目的是,這是自動駕駛領(lǐng)軍企業(yè)首次公開表示計劃將MLLM技術(shù)融入其核心業(yè)務(wù),預(yù)示著MLLM的應(yīng)用范圍或?qū)⒊搅奶鞕C器人、郵件整理及圖像生成等傳統(tǒng)領(lǐng)域,向自動駕駛這一前沿陣地拓展。
傳統(tǒng)自動駕駛系統(tǒng)往往采用模塊化設(shè)計,針對感知、地圖構(gòu)建、預(yù)測及規(guī)劃等特定功能分別開發(fā)。盡管這種模式在過去取得了顯著成效,但Waymo指出,其存在可擴展性問題,模塊間的誤差累積和通信限制影響了整體性能,且面對新環(huán)境時適應(yīng)性不強。
Waymo認(rèn)為,像Gemini這樣的MLLM能夠有效解決上述問題。它們作為互聯(lián)網(wǎng)大數(shù)據(jù)培育的“通才”,擁有超越常規(guī)駕駛經(jīng)驗的廣泛“世界知識”,并通過“鏈?zhǔn)酵评怼钡认冗M技術(shù)展現(xiàn)出強大的邏輯推理能力,能夠模仿人類思維,將復(fù)雜任務(wù)分解為邏輯步驟。
據(jù)Waymo介紹,EMMA模型在應(yīng)對復(fù)雜交通環(huán)境時表現(xiàn)出色,如動物穿越道路或道路施工等情況,都能為無人駕駛汽車規(guī)劃出合理的行駛路徑。
值得注意的是,特斯拉等競爭對手也在積極開發(fā)自動駕駛汽車的端到端模型。特斯拉CEO埃隆·馬斯克曾宣稱,其最新版本的FSD 12.5.5采用了“端到端神經(jīng)網(wǎng)絡(luò)”AI系統(tǒng),直接將攝像頭圖像轉(zhuǎn)化為駕駛決策。
盡管Waymo在部署無人駕駛車輛方面領(lǐng)先于特斯拉,但它同樣對端到端系統(tǒng)抱有濃厚興趣。Waymo表示,其EMMA模型在軌跡預(yù)測、物體識別和道路理解方面取得了優(yōu)異成績。
然而,EMMA也面臨挑戰(zhàn)。Waymo承認(rèn),在將模型投入實際應(yīng)用前,還需克服一些障礙,如EMMA目前無法整合來自激光雷達或雷達的3D傳感器輸入,原因是“計算成本過高”,且僅能處理有限數(shù)量的圖像幀。
此外,研究論文中未提及的一個潛在風(fēng)險是,像Gemini這樣的MLLM可能會產(chǎn)生“幻覺”,這對于容錯率極低的無人駕駛汽車而言是極大的挑戰(zhàn)。因此,在MLLM能夠大規(guī)模應(yīng)用于自動駕駛之前,仍需開展更多深入研究。
-
谷歌
+關(guān)注
關(guān)注
27文章
6231瀏覽量
108103 -
自動駕駛
+關(guān)注
關(guān)注
788文章
14312瀏覽量
170564 -
waymo
+關(guān)注
關(guān)注
2文章
314瀏覽量
25157
發(fā)布評論請先 登錄
為什么自動駕駛端到端大模型有黑盒特性?

一文帶你厘清自動駕駛端到端架構(gòu)差異

自動駕駛中基于規(guī)則的決策和端到端大模型有何區(qū)別?

端到端自動駕駛技術(shù)研究與分析
連接視覺語言大模型與端到端自動駕駛

評論