10月31日訊,自動駕駛領域的先鋒Waymo,作為Alphabet旗下的一員,長久以來將其與谷歌DeepMind的緊密合作及深厚的AI研究底蘊視為其在自動駕駛競賽中脫穎而出的關鍵。如今,Waymo再邁新步,為其機器人出租車業務引入了一種基于谷歌多模態大語言模型(MLLM)“Gemini”的全新訓練模型——“端到端多模態自動駕駛模型”(EMMA)。
Waymo最新發布的研究論文揭示了EMMA模型的面紗。這一創新的端到端訓練模型能夠解析傳感器數據,預測“自動駕駛車輛的未來行駛軌跡”,從而輔助Waymo的無人駕駛車輛做出精準決策,無論是選擇行進路線還是規避障礙物。
尤為引人注目的是,這是自動駕駛領軍企業首次公開表示計劃將MLLM技術融入其核心業務,預示著MLLM的應用范圍或將超越聊天機器人、郵件整理及圖像生成等傳統領域,向自動駕駛這一前沿陣地拓展。
傳統自動駕駛系統往往采用模塊化設計,針對感知、地圖構建、預測及規劃等特定功能分別開發。盡管這種模式在過去取得了顯著成效,但Waymo指出,其存在可擴展性問題,模塊間的誤差累積和通信限制影響了整體性能,且面對新環境時適應性不強。
Waymo認為,像Gemini這樣的MLLM能夠有效解決上述問題。它們作為互聯網大數據培育的“通才”,擁有超越常規駕駛經驗的廣泛“世界知識”,并通過“鏈式推理”等先進技術展現出強大的邏輯推理能力,能夠模仿人類思維,將復雜任務分解為邏輯步驟。
據Waymo介紹,EMMA模型在應對復雜交通環境時表現出色,如動物穿越道路或道路施工等情況,都能為無人駕駛汽車規劃出合理的行駛路徑。
值得注意的是,特斯拉等競爭對手也在積極開發自動駕駛汽車的端到端模型。特斯拉CEO埃隆·馬斯克曾宣稱,其最新版本的FSD 12.5.5采用了“端到端神經網絡”AI系統,直接將攝像頭圖像轉化為駕駛決策。
盡管Waymo在部署無人駕駛車輛方面領先于特斯拉,但它同樣對端到端系統抱有濃厚興趣。Waymo表示,其EMMA模型在軌跡預測、物體識別和道路理解方面取得了優異成績。
然而,EMMA也面臨挑戰。Waymo承認,在將模型投入實際應用前,還需克服一些障礙,如EMMA目前無法整合來自激光雷達或雷達的3D傳感器輸入,原因是“計算成本過高”,且僅能處理有限數量的圖像幀。
此外,研究論文中未提及的一個潛在風險是,像Gemini這樣的MLLM可能會產生“幻覺”,這對于容錯率極低的無人駕駛汽車而言是極大的挑戰。因此,在MLLM能夠大規模應用于自動駕駛之前,仍需開展更多深入研究。
-
谷歌
+關注
關注
27文章
6195瀏覽量
106016 -
自動駕駛
+關注
關注
785文章
13932瀏覽量
167010 -
waymo
+關注
關注
2文章
312瀏覽量
24727
發布評論請先 登錄
相關推薦
評論