91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多智能體仿真中的統(tǒng)一混合模型框架研究

地平線HorizonRobotics ? 來(lái)源:地平線HorizonRobotics ? 2025-04-01 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著GPT大語(yǔ)言模型的成功,越來(lái)越多的工作嘗試使用類GPT架構(gòu)的離散模型來(lái)表征駕駛場(chǎng)景中的交通參與者行為,從而生成多智能體仿真。這些方法展現(xiàn)出明顯的性能優(yōu)勢(shì),成為Waymo OpenSim Agents Challenge(WOSAC)中主流的領(lǐng)先方法。

在本文中,我們將GPT-Like離散模型視為采取了特定配置的混合模型(MixtureModel),嘗試探究目前主流的GPT-Like方法性能優(yōu)勢(shì)的來(lái)源。在統(tǒng)一的混合模型框架(Unified Mixture Model,UniMM)下,我們從模型和數(shù)據(jù)兩個(gè)方面的配置展開(kāi)研究發(fā)現(xiàn):GPT-Like離散模型實(shí)際上采用了由Tokenization自然引l入的閉環(huán)樣本,這是其性能優(yōu)勢(shì)的關(guān)鍵。

基于上述發(fā)現(xiàn),我們嘗試將閉環(huán)樣本應(yīng)用于更廣泛的混合模型,進(jìn)一步觀察到并解決了相關(guān)的ShortcutLearning和Of-PolicyLearning問(wèn)題。最終,UniMM框架下的各種變體均在WaymoOpenSim AgentsChallenge(WOSAC)展現(xiàn)了SOTA性能。

? 原文鏈接:

https://arxiv.org/abs/2501.17015

? 項(xiàng)目主頁(yè):

https://longzhong-lin.github.io/unimm-webpage

?代碼倉(cāng)庫(kù):

https://github.com/Longzhong-Lin/UniMM

多智能體仿真

仿真 (Simulation)是評(píng)估自動(dòng)駕駛系統(tǒng)的重要途徑,生成真實(shí)的多智能體 (Multi-Agent) 行為是其中的關(guān)鍵。近年來(lái),許多工作采用數(shù)據(jù)驅(qū)動(dòng)的方法,從真實(shí)世界駕駛數(shù)據(jù)集中學(xué)習(xí)行為模型 (Behavior Model) 來(lái)模仿人類交通參與者。要實(shí)現(xiàn)真實(shí)的多智能體仿真,主要挑戰(zhàn)在于捕捉智能體行為的多模態(tài)性 (Multimodality)和解決模型閉環(huán)運(yùn)行的分布偏移 (Distributional Shifts)問(wèn)題。

35664f0a-0c3a-11f0-9310-92fbcf53809c.png

圖表1 多智能體仿真

智能體行為的多模態(tài)性在運(yùn)動(dòng)預(yù)測(cè) (Motion Prediction) 領(lǐng)域得到廣泛研究,其中主流方法采用的是混合模型 (Mixture Model)。由于任務(wù)的相似性,不少仿真領(lǐng)域的工作也采用類似的連續(xù)混合模型 (Continuous Mixture Model) 來(lái)表征智能體行為。最近,受大語(yǔ)言模型的啟發(fā),越來(lái)越多的研究開(kāi)始嘗試GPT架構(gòu)的離散模型 (GPT-Like Discrete Model) ,將智能體的軌跡離散化為運(yùn)動(dòng)Token并進(jìn)行NTP (Next-Token Prediction) 訓(xùn)練,在仿真領(lǐng)域展現(xiàn)出了超越連續(xù)混合模型的性能優(yōu)勢(shì)。

為了緩解模型閉環(huán)運(yùn)行的分布偏移,時(shí)間序列建模領(lǐng)域的DaD方法繼承在線學(xué)習(xí)算法DAgger的理論保證,將訓(xùn)練樣本中的真值輸入替換為自回歸模型預(yù)測(cè),不過(guò)該方法只討論了單模態(tài) (Unimodal) 模型。TrafficSim將類似方法應(yīng)用在CVAE行為模型,迭代地將真值軌跡替換為后驗(yàn) (Posterior) 預(yù)測(cè),從而生成閉環(huán)樣本 (Closed-Loop Sample)。

3588a6ea-0c3a-11f0-9310-92fbcf53809c.png

圖表2 UniMM研究概述

統(tǒng)一混合模型框架

我們注意到,GPT-Like離散模型本質(zhì)上是一種混合模型,其中每個(gè)混合組分 (Mixture Component) 代表一個(gè)離散類別,而運(yùn)動(dòng)Token則是各組分對(duì)應(yīng)的錨點(diǎn) (Anchor) 。因此,本文建立統(tǒng)一的混合模型框架 (Unified Mixture Model, UniMM),并從模型和數(shù)據(jù)兩個(gè)方面展開(kāi)研究,探索GPT-Like方法優(yōu)勢(shì)的根源,并嘗試推廣到更一般的混合模型中。

359aab42-0c3a-11f0-9310-92fbcf53809c.png

圖表3 WOSAC領(lǐng)先方法(可視為混合模型)的配置和指標(biāo)

模型配置

模型方面,我們關(guān)注的配置包括:

正組分匹配 (Positive Component Matching) :主流范式為無(wú)錨點(diǎn) (Anchor-Free) 和基于錨點(diǎn) (Anchor-Based) 匹配。

連續(xù)回歸 (Continuous Regression) :若Anchor-Based模型將錨點(diǎn)直接作為對(duì)應(yīng)混合組分的預(yù)測(cè)軌跡,則無(wú)需連續(xù)回歸。

預(yù)測(cè)時(shí)長(zhǎng) (Prediction Horizon) :模型預(yù)測(cè)軌跡的長(zhǎng)度。

混合組分?jǐn)?shù)量 (Number of Components) :混合模型中混合組分的數(shù)量。

其中,GPT-Like離散模型采用Anchor-Based正組分匹配且不具備連續(xù)回歸,通常使用大量混合組分且預(yù)測(cè)時(shí)長(zhǎng)較短。后面的實(shí)驗(yàn)表明:模型配置的差別并不能完全解釋連續(xù)混合模型和GPT-Like離散模型之間的性能差距。采用與GPT-Like方法完全不同的模型配置,也可以達(dá)到同樣優(yōu)秀的仿真性能。

35cbed9c-0c3a-11f0-9310-92fbcf53809c.png

圖表4 主流的正組分匹配范式

數(shù)據(jù)配置

數(shù)據(jù)方面,我們借鑒DaD和TrafficSim的設(shè)計(jì)理念,提出了適用于一般混合模型的閉環(huán)樣本生成方法。具體地,我們基于原始開(kāi)環(huán)樣本自回歸地運(yùn)行模型,將樣本中的真值輸入狀態(tài)替換為與之匹配的后驗(yàn)?zāi)P皖A(yù)測(cè)(我們稱之為后驗(yàn)規(guī)劃)。生成的閉環(huán)樣本在盡量接近真值的同時(shí),將模型預(yù)測(cè)引入到樣本輸入中,使訓(xùn)練期間模型見(jiàn)到的狀態(tài)更接近在閉環(huán)仿真中遇到的狀態(tài),從而緩解分布偏移。

35e6d8d2-0c3a-11f0-9310-92fbcf53809c.png

圖表5 閉環(huán)樣本生成

對(duì)于GPT-Like離散模型,我們證明:上述閉環(huán)樣本生成方法等價(jià)于采用滾動(dòng)匹配 (Rolling Matching) 的智能體運(yùn)動(dòng)Tokenization。后面的實(shí)驗(yàn)表明:使用閉環(huán)樣本進(jìn)行訓(xùn)練是生成逼真多智能體行為的關(guān)鍵。進(jìn)一步地,為了讓閉環(huán)樣本能夠惠及更廣泛的混合模型,我們識(shí)別并解決了Shortcut Learning和Off-Policy Learning問(wèn)題。

實(shí)驗(yàn)

網(wǎng)絡(luò)架構(gòu)

實(shí)驗(yàn)中使用的網(wǎng)絡(luò)架構(gòu)包含場(chǎng)景編碼器 (Context Encoder) 和運(yùn)動(dòng)解碼器 (Motion Decoder) 。場(chǎng)景編碼器能夠并行處理多智能體在多個(gè)時(shí)間上的信息;運(yùn)動(dòng)解碼器生成特定智能體從指定時(shí)間開(kāi)始的多模態(tài)未來(lái)軌跡。特別地,對(duì)于帶連續(xù)回歸的Anchor-Based模型,我們的解碼器先對(duì)錨點(diǎn)打分、再生成所選取組分對(duì)應(yīng)的軌跡,使得其能夠像離散模型一樣高效地增加混合組分的數(shù)量。

3602c538-0c3a-11f0-9310-92fbcf53809c.png

圖表6 混合模型網(wǎng)絡(luò)結(jié)構(gòu)

采用開(kāi)環(huán)樣本訓(xùn)練

我們首先探索不同預(yù)測(cè)時(shí)長(zhǎng)和混合組分?jǐn)?shù)量下的Anchor-Free和Anchor-Based模型。在這里,我們采用開(kāi)環(huán)樣本訓(xùn)練來(lái)保證數(shù)據(jù)的一致性,從而更好地體現(xiàn)上述模型配置的影響。

3615676a-0c3a-11f0-9310-92fbcf53809c.png

圖表7 采用開(kāi)環(huán)樣本訓(xùn)練

預(yù)測(cè)時(shí)長(zhǎng):

更大的預(yù)測(cè)時(shí)長(zhǎng) (Prediction Horizon) 帶來(lái)的額外監(jiān)督信號(hào)是有效的。

過(guò)大的預(yù)測(cè)時(shí)長(zhǎng)使模型更關(guān)注于遠(yuǎn)期預(yù)測(cè)的優(yōu)化,由于仿真僅會(huì)利用模型預(yù)測(cè)的前面一小段,所以這并不利于提升仿真的效果。

363b2d2e-0c3a-11f0-9310-92fbcf53809c.png

圖表8 不同預(yù)測(cè)時(shí)長(zhǎng)的WOSAC指標(biāo)

混合組分?jǐn)?shù)量:

增加混合組分的數(shù)量確實(shí)能夠提升模型對(duì)復(fù)雜分布的表征能力。

較多數(shù)量的混合組分可能會(huì)阻礙Anchor-Free模型挑選出合理軌跡,從而影響其在仿真中的表現(xiàn)。

Anchor-Based模型持續(xù)受益于混合組分?jǐn)?shù)量的增長(zhǎng)。

365b6dc8-0c3a-11f0-9310-92fbcf53809c.png

圖表9 不同混合組分?jǐn)?shù)量下的最優(yōu)WOSAC指標(biāo)

采用閉環(huán)樣本訓(xùn)練

接下來(lái)展開(kāi)對(duì)數(shù)據(jù)配置的研究,我們從開(kāi)環(huán)樣本實(shí)驗(yàn)中表現(xiàn)最佳的模型配置出發(fā),從而凸顯閉環(huán)樣本的作用。

3683807e-0c3a-11f0-9310-92fbcf53809c.png

圖表10 采用閉環(huán)樣本訓(xùn)練

Shortcut Learning問(wèn)題:

生成閉環(huán)樣本時(shí),若后驗(yàn)策略的規(guī)劃時(shí)長(zhǎng) (Posterior Planning Horizon) 超過(guò)其重規(guī)劃間隔,模型會(huì)學(xué)習(xí)到捷徑,損害時(shí)空交互推理能力。

Off-Policy Learning問(wèn)題:

若訓(xùn)練策略的正組分匹配時(shí)長(zhǎng) (Positive Matching Horizon) 和樣本生成策略的后驗(yàn)規(guī)劃時(shí)長(zhǎng) (Posterior Planning Horizon) 不一致,則其導(dǎo)致的Off-Policy Learning問(wèn)題會(huì)阻礙閉環(huán)樣本發(fā)揮作用。

對(duì)于Anchor-Free模型,Off-Policy Learning問(wèn)題的影響沒(méi)那么嚴(yán)重,這可能是因?yàn)樗鼈兊男阅芨蕾囉诟骰旌辖M分的靈活預(yù)測(cè),而不是對(duì)混合組分的挑選。

對(duì)齊訓(xùn)練策略和樣本生成策略的組分選擇Horizon可以有效緩解Off-Policy Learning問(wèn)題,特別是對(duì)于十分依賴其混合組分選擇的Anchor-Based模型。

36984ab8-0c3a-11f0-9310-92fbcf53809c.png

圖表11 近似后驗(yàn)策略(左)和連續(xù)回歸(右)

近似后驗(yàn)策略:

我們?yōu)锳nchor-Based模型設(shè)計(jì)了近似后驗(yàn)策略,將后驗(yàn)組分對(duì)應(yīng)的錨點(diǎn)直接作為執(zhí)行規(guī)劃,可以在顯著減少訓(xùn)練時(shí)間的同時(shí),達(dá)到相當(dāng)?shù)姆抡嫘阅堋?/p>

連續(xù)回歸:

主流離散模型成功的關(guān)鍵在于閉環(huán)樣本的使用。

連續(xù)回歸 (Continuous Regression) 帶來(lái)的靈活性對(duì)于模型性能是有增益的,同時(shí)其并不需要顯著增加計(jì)算開(kāi)銷。

Benchmark結(jié)果

基于上述探索,我們提交了UniMM框架下的各種變體(包括離散和連續(xù)、Anchor-Free和Anchor-Based),均在Waymo Open Sim Agents Challenge (WOSAC)中展現(xiàn)了SOTA性能。由此證明了:

模型配置的差別并不能完全解釋之前的連續(xù)混合模型和GPT-Like離散模型之間的性能差距。

仿真性能的關(guān)鍵在于閉環(huán)樣本的使用,采用與主流離散方法不同的模型配置也能生成逼真的行為。

通過(guò)解決Shortcut Learning和Off-Policy Learning問(wèn)題,閉環(huán)樣本能夠使廣泛的混合模型受益,尤其是具有更大預(yù)測(cè)時(shí)長(zhǎng)的模型。

36e554de-0c3a-11f0-9310-92fbcf53809c.png

總結(jié)與展望

本研究首先建立了多智能體仿真的統(tǒng)一混合模型框架,并針對(duì)該框架下的模型配置(正組分匹配、連續(xù)回歸、預(yù)測(cè)時(shí)長(zhǎng)、混合組分?jǐn)?shù)量)和數(shù)據(jù)配置(閉環(huán)樣本生成方法)進(jìn)行深入的分析與實(shí)驗(yàn)。我們通過(guò)最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、參數(shù)配置和訓(xùn)練方式得到的模型僅需4M參數(shù)量的情況下,在Waymo Open Sim Agents Challenge達(dá)到了SOTA的性能。基于以上多智能體仿真的模型優(yōu)化分析和實(shí)驗(yàn)結(jié)論,我們今后會(huì)進(jìn)一步去探索自動(dòng)駕駛的運(yùn)動(dòng)規(guī)劃問(wèn)題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 仿真
    +關(guān)注

    關(guān)注

    52

    文章

    4269

    瀏覽量

    135747
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3516

    瀏覽量

    50368
  • 混合模型
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    6501
  • 多智能體
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    6279

原文標(biāo)題:開(kāi)發(fā)者說(shuō) | UniMM:重新審視多智能體仿真中的混合模型

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于Agent系統(tǒng)的智能家庭網(wǎng)絡(luò)研究

    基于Agent系統(tǒng)的智能家庭網(wǎng)絡(luò)研究在分析家庭網(wǎng)絡(luò)智能化需求的基礎(chǔ)上,提出種基于Agent
    發(fā)表于 06-14 00:22

    智能跟蹤控制系統(tǒng)的動(dòng)畫(huà)仿真設(shè)計(jì)

    調(diào)整功能,使仿真過(guò)程具有多角度可視性;利用程序的延時(shí)技術(shù)實(shí)現(xiàn)仿真速度的可控性,提高了軟件對(duì)仿真對(duì)象進(jìn)行觀察研究的能力。  2仿真軟件總體
    發(fā)表于 09-13 09:20

    種基于聚類和競(jìng)爭(zhēng)克隆機(jī)制的智能免疫算法

    求解包含分布式電源的配電網(wǎng)無(wú)功優(yōu)化問(wèn)題。該方法結(jié)合了智能體系統(tǒng)和免疫算法,構(gòu)建基于人工免疫的具有高效問(wèn)題求解能力的智能體系統(tǒng)模型。對(duì)于代
    發(fā)表于 12-29 06:50

    Embedded SIG | OS 混合部署框架

    。「圖 2」 OS 混合部署框架的基礎(chǔ)架構(gòu)在上述架構(gòu)中,libmetal 提供屏蔽了不同系統(tǒng)實(shí)現(xiàn)的細(xì)節(jié)提供了統(tǒng)一的抽象,virtio queue 相當(dāng)于網(wǎng)絡(luò)協(xié)議中的 MAC 層提供
    發(fā)表于 06-29 10:08

    基于統(tǒng)一混沌系統(tǒng)的同步及其保密通信研究

    針對(duì)最新提出的統(tǒng)一混沌系統(tǒng)模型,采用線性狀態(tài)反饋同步方法,實(shí)現(xiàn)了統(tǒng)一混沌系統(tǒng)精確同步問(wèn)題。在此基礎(chǔ)上,提出了混沌保密通信方案,并將其應(yīng)用于混沌掩蓋與混沌擴(kuò)頻兩
    發(fā)表于 08-11 10:58 ?13次下載

    類參數(shù)不確定統(tǒng)一混沌系統(tǒng)的脈沖控制

    本文針對(duì)類參數(shù)不確定統(tǒng)一混沌系統(tǒng),利用脈沖微分方程穩(wěn)定性理論,給出了統(tǒng)一混沌系統(tǒng)穩(wěn)定的充分條件,并采用脈沖控制方法來(lái)實(shí)現(xiàn)魯棒鎮(zhèn)定, 該方法較為簡(jiǎn)單,適用范
    發(fā)表于 08-25 11:31 ?9次下載

    PSpice教程:PSpice仿真中收斂問(wèn)題的研究

    PSpice教程:PSpice仿真中收斂問(wèn)題的研究
    發(fā)表于 04-07 15:33 ?0次下載

    形變體仿真中材質(zhì)本構(gòu)模型的應(yīng)用

    本構(gòu)模型是形變體仿真中最重要的因素之,現(xiàn)有的基本本構(gòu)模型的應(yīng)力應(yīng)變關(guān)系具有定的局限性,形變行為比較單
    發(fā)表于 12-26 11:19 ?0次下載

    和諧統(tǒng)一混合擇優(yōu)網(wǎng)絡(luò)的相繼故障行為

    將耦合映像格子的相繼故障模型作用于和諧統(tǒng)一混合擇優(yōu)網(wǎng)絡(luò)模型( HUHPM),通過(guò)仿真分析的方法研究
    發(fā)表于 02-04 09:51 ?0次下載

    智能算法在PID控制仿真中的應(yīng)用研究教程免費(fèi)下載

    本章講述了群智能算法在PID控制仿真中的應(yīng)用研究,PID控制是典型的工業(yè)控制之,對(duì)于PID控制,主要難點(diǎn)在于PID的參數(shù)整定,現(xiàn)用的工業(yè)控制中,而現(xiàn)今的群
    發(fā)表于 10-09 08:00 ?0次下載
    群<b class='flag-5'>智能</b>算法在PID控制<b class='flag-5'>仿真中</b>的應(yīng)用<b class='flag-5'>研究</b>教程免費(fèi)下載

    人群緊急狀況下的智能情緒感染仿真模型

    為了從情緒的視角分析緊急情境下人群的疏散行為,梳理了現(xiàn)有情緒感染的研究工作,總結(jié)了人群緊急狀況下行為特點(diǎn)。采用智能描述人群個(gè)體,提出
    發(fā)表于 04-29 13:57 ?12次下載
    人群緊急狀況下的<b class='flag-5'>多</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>情緒感染<b class='flag-5'>仿真</b><b class='flag-5'>模型</b>

    智能路徑規(guī)劃研究綜述

    智能路徑規(guī)劃是類尋找多個(gè)智能從起始位置到目標(biāo)位置且無(wú)沖突的最優(yōu)路徑集合的問(wèn)題,針對(duì)該問(wèn)題
    發(fā)表于 06-04 11:56 ?4次下載

    基于boosting框架混合秩矩陣分解模型

    基于boosting框架混合秩矩陣分解模型
    發(fā)表于 06-11 14:41 ?13次下載

    SystemView在通信系統(tǒng)仿真中的應(yīng)用研究

    SystemView在通信系統(tǒng)仿真中的應(yīng)用研究(依工測(cè)試測(cè)量?jī)x器)-該文檔為SystemView在通信系統(tǒng)仿真中的應(yīng)用研究講解文檔,是份不
    發(fā)表于 09-30 12:10 ?8次下載
    SystemView在通信系統(tǒng)<b class='flag-5'>仿真中</b>的應(yīng)用<b class='flag-5'>研究</b>

    Hitachi Vantara統(tǒng)一混合存儲(chǔ)產(chǎn)品系列

    這是Hitachi Vantara 存儲(chǔ)產(chǎn)品的戰(zhàn)略重塑。它涉及在塊、文件、對(duì)象、云、主機(jī)和軟件定義存儲(chǔ)工作負(fù)載之間創(chuàng)建個(gè)單的控制平面、數(shù)據(jù)框架和數(shù)據(jù)平面,由個(gè)啟用人工
    的頭像 發(fā)表于 11-23 12:43 ?1057次閱讀
    主站蜘蛛池模板: 素股中文字幕 | 亚洲aaaa级特黄毛片 | 夜夜爽一区二区三区精品 | 久久男人精品 | 国产一卡2卡3卡四卡精品网站 | 欧美午夜网 | hs网站免费 | 九九草在线观看 | 综合色久| 日韩美女奶水喂男人在线观看 | 老师叫我揉她内裤越快越好 | 一级特黄aaa大片免费看 | 2021最新国产成人精品视频 | 日韩精品免费一区二区三区 | 久久久午夜精品理论片 | 欧美一级鲁丝片 | 天天干天天操天天摸 | 511韩国理论片在线观看 | 日本69xxxxxxx69| 日本三级电影在线观看 | 五月天丁香花婷婷 | 欧美黑人换爱交换乱理伦片 | 免费福利午夜影视网 | sss欧美一区二区三区 | aⅴ天堂| 三级aa久久| 久久精品成人免费网站 | 视频在线观看网站 | 99色在线观看 | 精品欧美小视频在线观看 | 国产午夜精品理论片在线 | 奇米影视大全 | 久久国产精品99久久久久久老狼 | 四虎最新免费网址 | 久久综合九色婷婷97 | 精品噜噜噜噜久久久久久久久 | 999www成人免费视频 | 国产成人啪午夜精品网站男同 | 爱情岛网站亚洲禁18进入 | 奇米色婷婷 | 在线观看视频网站 |