隨著智能網聯汽車、5G通信和智能交通系統的發展,有望在保證通行安全,提升通行能力的情況下實現道路交叉口無信號燈控制。
研究背景
自動交叉口管理系統(Autonomous Intersection Management systems,AIMs)能夠實現無交通信號下對網聯智能汽車(CAV)進行控制,保障安全有效的交通流。但目前的AIM算法主要基于控制算法,不具備適應或不斷學習新情況的能力。如:
(1)基于固定時間的交通燈控制算法(Fix Time,FT)
(2)基于排隊理論的智能交通燈控制算法(iREDVD )
(3)近期提出的AIMs。
本文要解決的問題
讓AIMs系統具有對真實且復雜的交通場景(不斷變化的十字交叉口流量密度,雙向6車道,直行,左轉,右轉三個行駛方向,100m內)進行自主學習和主動協同控制CAV的能力,且保證不發生碰撞事故。
解決的方案:先進AIM方法(本文定義為adv.RAIM)?;诙说蕉硕嘀黧w深度強化學習(MADRL)(LSTM)+通過自我游戲進行基于課程的學習
方案的效果:通行時間,等待時間,和時間損失的減少,附帶的讓經濟性和排放性能都得到改善。
傳統的AIMs
主要包括兩個模塊:沖突模塊和優先級模塊 1、沖突模塊:負責確定兩輛車在接近或穿過交叉口時是否會發生沖突。四種沖突識別方法:i)基于交叉口的,ii)基于網格的,iii)基于沖突點的,iv)基于車輛自由選擇的。 2、優先級模塊:在遇到沖突時,對車輛狀態(例如速度、加速度、路線等)采取行動并管理車輛的通行權來解決沖突。通行權的分配有以下五個方法:i)基于到達交叉口的順序,先到先得(FCFS);ii)根據車輛/交叉口狀態分配優先級,如快速優先服務(FFS)(到達交叉口最快的車輛獲得最高優先級)或長隊優先(LQF)(進入隊列最長的車輛具有最高優先級);iii)使用一些啟發式方法,如動態規劃(DP)或線性混合整數規劃(MILP)(通過一系列方程和條件用于求解,實時性和復雜適應性差);iv)通過拍賣,對出價最高的車輛給予更高的優先權(不行,平等問題);v)通過人工智能機制,如遺傳算法或強化學習。
注意:在車輛流量較低的情況下,FCFS提供了更好的性能,但當交通流量較高(>800輛/小時)時,紅綠燈控制提供了更好性能。此外,當交通不對稱、突發或有主干道和街道連接時,FCFS的性能比紅綠燈控制差。
本文提出的方案:adv.RAIM(狀態/沖突編碼器+運動規劃器)
1、狀態/沖突編碼器(使用LSTM).輸入為車輛狀態(位置,速度,角度,車道,行駛方向,行駛趨勢等),輸出為待控制車輛與其他車輛之間沖突的編碼。 2、運動規劃器。包括具有ReLU激活函數的四個全連接層。 3、更新時間步長為250ms.使用雙延遲深度確定性策略梯度(TD3)優化控制器. 4、獎懲機制:如果發生碰撞給予?100(強負獎勵)。如果通過交叉口,給予+100(強正獎勵)。?timestep(弱負獎勵)鼓勵盡可能快地通過交叉口。確保車輛盡可能快地通過交叉口,同時保證安全。 5、實現更穩定和快速的訓練模型的兩個技術: i) Prioritized Experience Replay: (PER)。在DRL中,添加了一個重放緩沖區來存儲過去的經驗,最“可學習”的經驗是當預測Q值和實際Q值差值(時間差(TD)誤差)高時, 在優化過程中從重放緩沖區中選擇體驗的可能性就越大。 ii) Learning by curriculum:訓練任務由易到難,且逐漸增加仿真車輛數。 6、仿真軟件:SUMO;算法編寫:Pytorch1.5.0和Python3.7;仿真包含一個訓練場景和四個測試場景。使用的車輛分布為:35%的柴油車、35%的汽油車和30%的零排放電動汽車。 7、分析指標: (1)訓練場景:全局獎勵、碰撞次數和時間損失
(2)測試場景:直接指標:行程時間、等待時間和擁堵造成的時間損失。間接指標:排放污染物和燃油/電力消耗。
結果
訓練出的模型系統穩定性好。在最接近真實復雜交通場景的第四個測試場景中,行程時間最多減少59%。時間損失最多可減少95%。污染氣體(CO、CO2、HC、PMx和NOx)的排放量減少了37%、13%、28%、37%、50%,燃料和電力的消耗量分別減少21%和27%。(因為減少了加減速的次數)
讀后感:本文最大的創新點是將深度強化學習網絡運用到AIMs中,并且將交通場景擴展得更為復雜。
審核編輯 :李倩
-
管理系統
+關注
關注
1文章
2577瀏覽量
36109 -
信號燈
+關注
關注
2文章
70瀏覽量
13439
原文標題:未來交叉口無信號燈可行嗎?
文章出處:【微信號:智能浪尖,微信公眾號:智能浪尖】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論