在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

多智能體仿真中的統一混合模型框架研究

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-04-01 14:31 ? 次閱讀

隨著GPT大語言模型的成功,越來越多的工作嘗試使用類GPT架構的離散模型來表征駕駛場景中的交通參與者行為,從而生成多智能體仿真。這些方法展現出明顯的性能優勢,成為Waymo OpenSim Agents Challenge(WOSAC)中主流的領先方法。

在本文中,我們將GPT-Like離散模型視為采取了特定配置的混合模型(MixtureModel),嘗試探究目前主流的GPT-Like方法性能優勢的來源。在統一的混合模型框架(Unified Mixture Model,UniMM)下,我們從模型和數據兩個方面的配置展開研究發現:GPT-Like離散模型實際上采用了由Tokenization自然引l入的閉環樣本,這是其性能優勢的關鍵。

基于上述發現,我們嘗試將閉環樣本應用于更廣泛的混合模型,進一步觀察到并解決了相關的ShortcutLearning和Of-PolicyLearning問題。最終,UniMM框架下的各種變體均在WaymoOpenSim AgentsChallenge(WOSAC)展現了SOTA性能。

? 原文鏈接:

https://arxiv.org/abs/2501.17015

? 項目主頁:

https://longzhong-lin.github.io/unimm-webpage

?代碼倉庫:

https://github.com/Longzhong-Lin/UniMM

多智能體仿真

仿真 (Simulation)是評估自動駕駛系統的重要途徑,生成真實的多智能體 (Multi-Agent) 行為是其中的關鍵。近年來,許多工作采用數據驅動的方法,從真實世界駕駛數據集中學習行為模型 (Behavior Model) 來模仿人類交通參與者。要實現真實的多智能體仿真,主要挑戰在于捕捉智能體行為的多模態性 (Multimodality)和解決模型閉環運行的分布偏移 (Distributional Shifts)問題。

35664f0a-0c3a-11f0-9310-92fbcf53809c.png

圖表1 多智能體仿真

智能體行為的多模態性在運動預測 (Motion Prediction) 領域得到廣泛研究,其中主流方法采用的是混合模型 (Mixture Model)。由于任務的相似性,不少仿真領域的工作也采用類似的連續混合模型 (Continuous Mixture Model) 來表征智能體行為。最近,受大語言模型的啟發,越來越多的研究開始嘗試GPT架構的離散模型 (GPT-Like Discrete Model) ,將智能體的軌跡離散化為運動Token并進行NTP (Next-Token Prediction) 訓練,在仿真領域展現出了超越連續混合模型的性能優勢。

為了緩解模型閉環運行的分布偏移,時間序列建模領域的DaD方法繼承在線學習算法DAgger的理論保證,將訓練樣本中的真值輸入替換為自回歸模型預測,不過該方法只討論了單模態 (Unimodal) 模型。TrafficSim將類似方法應用在CVAE行為模型,迭代地將真值軌跡替換為后驗 (Posterior) 預測,從而生成閉環樣本 (Closed-Loop Sample)。

3588a6ea-0c3a-11f0-9310-92fbcf53809c.png

圖表2 UniMM研究概述

統一混合模型框架

我們注意到,GPT-Like離散模型本質上是一種混合模型,其中每個混合組分 (Mixture Component) 代表一個離散類別,而運動Token則是各組分對應的錨點 (Anchor) 。因此,本文建立統一的混合模型框架 (Unified Mixture Model, UniMM),并從模型和數據兩個方面展開研究,探索GPT-Like方法優勢的根源,并嘗試推廣到更一般的混合模型中。

359aab42-0c3a-11f0-9310-92fbcf53809c.png

圖表3 WOSAC領先方法(可視為混合模型)的配置和指標

模型配置

模型方面,我們關注的配置包括:

正組分匹配 (Positive Component Matching) :主流范式為無錨點 (Anchor-Free) 和基于錨點 (Anchor-Based) 匹配。

連續回歸 (Continuous Regression) :若Anchor-Based模型將錨點直接作為對應混合組分的預測軌跡,則無需連續回歸。

預測時長 (Prediction Horizon) :模型預測軌跡的長度。

混合組分數量 (Number of Components) :混合模型中混合組分的數量。

其中,GPT-Like離散模型采用Anchor-Based正組分匹配且不具備連續回歸,通常使用大量混合組分且預測時長較短。后面的實驗表明:模型配置的差別并不能完全解釋連續混合模型和GPT-Like離散模型之間的性能差距。采用與GPT-Like方法完全不同的模型配置,也可以達到同樣優秀的仿真性能。

35cbed9c-0c3a-11f0-9310-92fbcf53809c.png

圖表4 主流的正組分匹配范式

數據配置

數據方面,我們借鑒DaD和TrafficSim的設計理念,提出了適用于一般混合模型的閉環樣本生成方法。具體地,我們基于原始開環樣本自回歸地運行模型,將樣本中的真值輸入狀態替換為與之匹配的后驗模型預測(我們稱之為后驗規劃)。生成的閉環樣本在盡量接近真值的同時,將模型預測引入到樣本輸入中,使訓練期間模型見到的狀態更接近在閉環仿真中遇到的狀態,從而緩解分布偏移。

35e6d8d2-0c3a-11f0-9310-92fbcf53809c.png

圖表5 閉環樣本生成

對于GPT-Like離散模型,我們證明:上述閉環樣本生成方法等價于采用滾動匹配 (Rolling Matching) 的智能體運動Tokenization。后面的實驗表明:使用閉環樣本進行訓練是生成逼真多智能體行為的關鍵。進一步地,為了讓閉環樣本能夠惠及更廣泛的混合模型,我們識別并解決了Shortcut Learning和Off-Policy Learning問題。

實驗

網絡架構

實驗中使用的網絡架構包含場景編碼器 (Context Encoder) 和運動解碼器 (Motion Decoder) 。場景編碼器能夠并行處理多智能體在多個時間上的信息;運動解碼器生成特定智能體從指定時間開始的多模態未來軌跡。特別地,對于帶連續回歸的Anchor-Based模型,我們的解碼器先對錨點打分、再生成所選取組分對應的軌跡,使得其能夠像離散模型一樣高效地增加混合組分的數量。

3602c538-0c3a-11f0-9310-92fbcf53809c.png

圖表6 混合模型網絡結構

采用開環樣本訓練

我們首先探索不同預測時長和混合組分數量下的Anchor-Free和Anchor-Based模型。在這里,我們采用開環樣本訓練來保證數據的一致性,從而更好地體現上述模型配置的影響。

3615676a-0c3a-11f0-9310-92fbcf53809c.png

圖表7 采用開環樣本訓練

預測時長:

更大的預測時長 (Prediction Horizon) 帶來的額外監督信號是有效的。

過大的預測時長使模型更關注于遠期預測的優化,由于仿真僅會利用模型預測的前面一小段,所以這并不利于提升仿真的效果。

363b2d2e-0c3a-11f0-9310-92fbcf53809c.png

圖表8 不同預測時長的WOSAC指標

混合組分數量:

增加混合組分的數量確實能夠提升模型對復雜分布的表征能力。

較多數量的混合組分可能會阻礙Anchor-Free模型挑選出合理軌跡,從而影響其在仿真中的表現。

Anchor-Based模型持續受益于混合組分數量的增長。

365b6dc8-0c3a-11f0-9310-92fbcf53809c.png

圖表9 不同混合組分數量下的最優WOSAC指標

采用閉環樣本訓練

接下來展開對數據配置的研究,我們從開環樣本實驗中表現最佳的模型配置出發,從而凸顯閉環樣本的作用。

3683807e-0c3a-11f0-9310-92fbcf53809c.png

圖表10 采用閉環樣本訓練

Shortcut Learning問題:

生成閉環樣本時,若后驗策略的規劃時長 (Posterior Planning Horizon) 超過其重規劃間隔,模型會學習到捷徑,損害時空交互推理能力。

Off-Policy Learning問題:

若訓練策略的正組分匹配時長 (Positive Matching Horizon) 和樣本生成策略的后驗規劃時長 (Posterior Planning Horizon) 不一致,則其導致的Off-Policy Learning問題會阻礙閉環樣本發揮作用。

對于Anchor-Free模型,Off-Policy Learning問題的影響沒那么嚴重,這可能是因為它們的性能更依賴于各混合組分的靈活預測,而不是對混合組分的挑選。

對齊訓練策略和樣本生成策略的組分選擇Horizon可以有效緩解Off-Policy Learning問題,特別是對于十分依賴其混合組分選擇的Anchor-Based模型。

36984ab8-0c3a-11f0-9310-92fbcf53809c.png

圖表11 近似后驗策略(左)和連續回歸(右)

近似后驗策略:

我們為Anchor-Based模型設計了近似后驗策略,將后驗組分對應的錨點直接作為執行規劃,可以在顯著減少訓練時間的同時,達到相當的仿真性能。

連續回歸:

主流離散模型成功的關鍵在于閉環樣本的使用。

連續回歸 (Continuous Regression) 帶來的靈活性對于模型性能是有增益的,同時其并不需要顯著增加計算開銷。

Benchmark結果

基于上述探索,我們提交了UniMM框架下的各種變體(包括離散和連續、Anchor-Free和Anchor-Based),均在Waymo Open Sim Agents Challenge (WOSAC)中展現了SOTA性能。由此證明了:

模型配置的差別并不能完全解釋之前的連續混合模型和GPT-Like離散模型之間的性能差距。

仿真性能的關鍵在于閉環樣本的使用,采用與主流離散方法不同的模型配置也能生成逼真的行為。

通過解決Shortcut Learning和Off-Policy Learning問題,閉環樣本能夠使廣泛的混合模型受益,尤其是具有更大預測時長的模型。

36e554de-0c3a-11f0-9310-92fbcf53809c.png

總結與展望

本研究首先建立了多智能體仿真的統一混合模型框架,并針對該框架下的模型配置(正組分匹配、連續回歸、預測時長、混合組分數量)和數據配置(閉環樣本生成方法)進行深入的分析與實驗。我們通過最優的網絡結構設計、參數配置和訓練方式得到的模型僅需4M參數量的情況下,在Waymo Open Sim Agents Challenge達到了SOTA的性能。基于以上多智能體仿真的模型優化分析和實驗結論,我們今后會進一步去探索自動駕駛的運動規劃問題。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 仿真
    +關注

    關注

    50

    文章

    4184

    瀏覽量

    134776
  • 模型
    +關注

    關注

    1

    文章

    3440

    瀏覽量

    49615
  • 混合模型
    +關注

    關注

    0

    文章

    6

    瀏覽量

    6484
  • 多智能體
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6252

原文標題:開發者說 | UniMM:重新審視多智能體仿真中的混合模型

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于Agent系統的智能家庭網絡研究

    基于Agent系統的智能家庭網絡研究在分析家庭網絡智能化需求的基礎上,提出種基于Agent
    發表于 06-14 00:22

    種基于聚類和競爭克隆機制的智能免疫算法

    求解包含分布式電源的配電網無功優化問題。該方法結合了智能體系統和免疫算法,構建基于人工免疫的具有高效問題求解能力的智能體系統模型。對于代
    發表于 12-29 06:50

    Embedded SIG | OS 混合部署框架

    。「圖 2」 OS 混合部署框架的基礎架構在上述架構中,libmetal 提供屏蔽了不同系統實現的細節提供了統一的抽象,virtio queue 相當于網絡協議中的 MAC 層提供
    發表于 06-29 10:08

    基于統一混沌系統的同步及其保密通信研究

    針對最新提出的統一混沌系統模型,采用線性狀態反饋同步方法,實現了統一混沌系統精確同步問題。在此基礎上,提出了混沌保密通信方案,并將其應用于混沌掩蓋與混沌擴頻兩
    發表于 08-11 10:58 ?13次下載

    類參數不確定統一混沌系統的脈沖控制

    本文針對類參數不確定統一混沌系統,利用脈沖微分方程穩定性理論,給出了統一混沌系統穩定的充分條件,并采用脈沖控制方法來實現魯棒鎮定, 該方法較為簡單,適用范
    發表于 08-25 11:31 ?9次下載

    電子元器件在電路仿真中如何建模

    電子元器件在電路仿真中如何建模 1 引言 這里針對建模的重要性和必要性,研究當前流行的電子電路仿真工具的電子元器件模型,提出兩種建模方法:
    發表于 04-12 16:23 ?1.2w次閱讀
    電子元器件在電路<b class='flag-5'>仿真中</b>如何建模

    PSpice教程:PSpice仿真中收斂問題的研究

    PSpice教程:PSpice仿真中收斂問題的研究
    發表于 04-07 15:33 ?0次下載

    形變體仿真中材質本構模型的應用

    本構模型是形變體仿真中最重要的因素之,現有的基本本構模型的應力應變關系具有定的局限性,形變行為比較單
    發表于 12-26 11:19 ?0次下載

    和諧統一混合擇優網絡的相繼故障行為

    將耦合映像格子的相繼故障模型作用于和諧統一混合擇優網絡模型( HUHPM),通過仿真分析的方法研究
    發表于 02-04 09:51 ?0次下載

    智能算法在PID控制仿真中的應用研究教程免費下載

    本章講述了群智能算法在PID控制仿真中的應用研究,PID控制是典型的工業控制之,對于PID控制,主要難點在于PID的參數整定,現用的工業控制中,而現今的群
    發表于 10-09 08:00 ?0次下載
    群<b class='flag-5'>智能</b>算法在PID控制<b class='flag-5'>仿真中</b>的應用<b class='flag-5'>研究</b>教程免費下載

    人群緊急狀況下的智能情緒感染仿真模型

    為了從情緒的視角分析緊急情境下人群的疏散行為,梳理了現有情緒感染的研究工作,總結了人群緊急狀況下行為特點。采用智能描述人群個體,提出
    發表于 04-29 13:57 ?12次下載
    人群緊急狀況下的<b class='flag-5'>多</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>情緒感染<b class='flag-5'>仿真</b><b class='flag-5'>模型</b>

    智能路徑規劃研究綜述

    智能路徑規劃是類尋找多個智能從起始位置到目標位置且無沖突的最優路徑集合的問題,針對該問題
    發表于 06-04 11:56 ?4次下載

    基于boosting框架混合秩矩陣分解模型

    基于boosting框架混合秩矩陣分解模型
    發表于 06-11 14:41 ?13次下載

    SystemView在通信系統仿真中的應用研究

    SystemView在通信系統仿真中的應用研究(依工測試測量儀器)-該文檔為SystemView在通信系統仿真中的應用研究講解文檔,是份不
    發表于 09-30 12:10 ?8次下載
    SystemView在通信系統<b class='flag-5'>仿真中</b>的應用<b class='flag-5'>研究</b>

    Hitachi Vantara統一混合存儲產品系列

    這是Hitachi Vantara 存儲產品的戰略重塑。它涉及在塊、文件、對象、云、主機和軟件定義存儲工作負載之間創建個單的控制平面、數據框架和數據平面,由個啟用人工
    的頭像 發表于 11-23 12:43 ?906次閱讀
    主站蜘蛛池模板: 添人人躁日日躁夜夜躁夜夜揉 | 又粗又硬又猛又黄的免费视频黑人 | 黄色视屏免费看 | 亚洲香蕉毛片久久网站老妇人 | 国产一区二区三区在线观看影院 | 久久免费看视频 | 天天干免费视频 | 国产成人小视频 | 亚洲欧美在线视频免费 | 免费看h的网站 | 一区二区三区四区视频在线 | 国产日韩精品一区二区三区 | 亚在线 | 亚洲一区二区三区电影 | 亚洲色图综合图片 | 神马午夜限制 | 丁香六月激情婷婷 | 天天干天天干天天 | 美女露出尿口让男人桶爽网站 | 国产无遮挡床戏视频免费 | 日本高清视频色视频kk266 | 年轻护士女三级 | 人人看人人做人人爱精品 | 四只虎免费永久观看 | 欧美色伊人 | a免费在线 | 毛片三级在线观看 | 无遮挡很污很爽很黄的网站 | 天天干天天色综合 | 男人的天堂一区二区视频在线观看 | 国产精品一区二区综合 | 91大神精品在线观看 | 正在播放一区二区 | 国产精品国产主播在线观看 | 欧美午夜一区 | 四虎影院网 | 日本69sex护士| 青草国内精品视频在线观看 | 亚洲男人天堂岛 | 一级毛片在线看在线播放 | 国产精品va一区二区三区 |