第39卷第3期2023年6月Vol.39No.3Jun.2023交通科学与工程JOURNALOFTRANSPORTSCIENCEANDENGINEERINGDOI:10.16544/j.cnki.cn43-1494/u.20220314001文章编号:1674-599X(2023)03-0110-08引用格式:邓兰,吴义虎.基于异步优势强化学习的交通信号控制策略[J].交通科学与工程,2023,39(3):110-117.Citation:DENGLan,WUYihu.Trafficsignalcontrolstrategybasedonasynchronousadvantageactor-criticalgorithm[J].J.Transp.Sci.Eng.,2023,39(3):110-117.基于异步优势强化学习的交通信号控制策略邓兰,吴义虎(长沙理工大学交通运输工程学院,湖南长沙410114)摘要:为解决交通信号控制中的信号灯配时调度不合理、路口拥堵等问题,提出一种基于行动者-评论家算法的城市智能交通控制算法。该算法是一种基于异步优势的算法,可对交通状态特征进行抽象表征,并以多线程并行实现对交通状态的精确感知。该算法还参考了强化学习算法,能在最短时间内不断迭代优化其内部参数,得到交通信号控制的最优方案。为验证该算法的有效性,采用交通仿真软件SUMO,对该算法和其他3种典型的交通信号控制算法进行模拟仿真,并对仿真结果进行比较和分析。研究结果表明:与这3类典型算法中效果最好的Q-learning算法相比,该算法的交叉口车辆平均延误时间减少了14.1%,平均队列长度缩短了13.1%,平均等待时间减少了13.5%。该交通信号控制算法能有效地改善城市道路拥堵,提高道路交叉口的通行效率。关键词:智能交通信号控制;城市交通控制;深度强化学习;异步强化学习中图分类号:U491.5文献标志码:ATrafficsignalcontrolstrategybasedonasynchronousadvantageactor-criticalgorithmDENGLan,WUYihu(SchoolofTrafficandTransportationEngineering,ChangshaUniversityofScience&Technology,Changsha410114,China)Abstract:Inordertosolvetheproblemsintrafficsignalcontrol,suchasunreasonabletimingofsignallightsandcongestionatintersections,weproposeanurbanintelligenttrafficcontrolalgorithmbasedontheasynchronousadvantageactor-critic(A3C).Thisalgorithmleveragesasynchronousadvantagestoabstractandrepresenttrafficstatefeatures,enablingaccurateperceptionoftrafficconditionsthroughparallelmultithreading.Drawinginspirationfromreinforcementlearningtechniques,thealgorithmiterativelyoptimizesitsinternalparameterstoobtainth...