温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
异步
优势
强化
学习
交通信号
控制
策略
第39卷 第3期2023年 6月Vol.39 No.3Jun.2023交通科学与工程JOURNAL OF TRANSPORT SCIENCE AND ENGINEERINGDOI:10.16544/43-1494/u.20220314001文章编号:1674-599X(2023)03-0110-08引用格式:邓兰,吴义虎.基于异步优势强化学习的交通信号控制策略 J.交通科学与工程,2023,39(3):110-117.Citation:DENG Lan,WU Yihu.Traffic signal control strategy based on asynchronous advantage actor-critic algorithm J.J.Transp.Sci.Eng.,2023,39(3):110-117.基于异步优势强化学习的交通信号控制策略邓兰,吴义虎(长沙理工大学 交通运输工程学院,湖南 长沙 410114)摘要:为解决交通信号控制中的信号灯配时调度不合理、路口拥堵等问题,提出一种基于行动者-评论家算法的城市智能交通控制算法。该算法是一种基于异步优势的算法,可对交通状态特征进行抽象表征,并以多线程并行实现对交通状态的精确感知。该算法还参考了强化学习算法,能在最短时间内不断迭代优化其内部参数,得到交通信号控制的最优方案。为验证该算法的有效性,采用交通仿真软件SUMO,对该算法和其他3种典型的交通信号控制算法进行模拟仿真,并对仿真结果进行比较和分析。研究结果表明:与这 3类典型算法中效果最好的 Q-learning算法相比,该算法的交叉口车辆平均延误时间减少了14.1%,平均队列长度缩短了13.1%,平均等待时间减少了13.5%。该交通信号控制算法能有效地改善城市道路拥堵,提高道路交叉口的通行效率。关键词:智能交通信号控制;城市交通控制;深度强化学习;异步强化学习中图分类号:U491.5文献标志码:ATraffic signal control strategy based on asynchronous advantage actor-critic algorithmDENG Lan,WU Yihu(School of Traffic and Transportation Engineering,Changsha University of Science&Technology,Changsha 410114,China)Abstract:In order to solve the problems in traffic signal control,such as unreasonable timing of signal lights and congestion at intersections,we propose an urban intelligent traffic control algorithm based on the asynchronous advantage actor-critic(A3C).This algorithm leverages asynchronous advantages to abstract and represent traffic state features,enabling accurate perception of traffic conditions through parallel multithreading.Drawing inspiration from reinforcement learning techniques,the algorithm iteratively optimizes its internal parameters to obtain the optimal solution for traffic signal control within the shortest possible timeframe.To assess the algorithms effectiveness,we conducted simulated experiments using the traffic simulation software SUMO,comparing its performance with three other commonly used traffic signal control algorithms.The simulation results reveal that compared to the Q-learning algorithm,this algorithm reduces the average delay time of vehicles at intersections by 14.1%,decreases the average queue length by 13.1%,and lowers the average waiting time by 13.5%.This traffic signal control algorithm can effectively alleviate urban road congestion and improve the traffic efficiency of road intersections.Key words:intelligent traffic signal control;urban traffic control;deep reinforcement learning;asynchronous reinforcement learning随着中国经济的高速发展,中国汽车人均拥有量不断增加,交叉口拥堵也成为城市道路常态,城市路网的通行效率受到了极大的影响。交通拥堵的主要原因是交通信号配时调度不合理,控制效率收稿时间:2022-03-14作者简介:邓兰(1996),女,长沙理工大学硕士生。邓兰,等:基于异步优势强化学习的交通信号控制策略第3期低下。因此,亟须合理、高效的交通信号控制方案,提高城市道路通行效率,减少道路拥堵 1-2。许多学者在设计合理的交通信号控制方面做了大量研究,石冬花等3采用定时控制和感应控制的方法调节交叉口信号。Webster方法是较经典的定时控制方法,其以延误时间最小化为目标函数,确定参数,但该方法无法根据实时变化的交通状态来及时调整原有参数4。ARAGHI 等5-6提出的SCOOT算法能根据实时交通状况,有规律地调整每个行车方向的可通行时间,大幅提高通行效率,但该算法仍无法解决复杂路面上的交通信号控制问题。这是因为该算法只能根据当前的交通状态,从已有的配时方案中选取最合适的,但备选方案可能均不能满足实际道路的需求。姜涛等7在对潮汐特性显著的交叉口设计交通信号控制方案时,将各控制时段的最优车道方案和信号控制组合方案组合起来,得到了通行效果更好的算法。BOWLING8率先将强化学习算法运用到交通信号控制中。MARSETI9发现与固定配时算法相比,Q-learning算法能更好地缓解交通拥堵,但其仿真试验均在静态交通环境下进行,在某些实际道路中效果不佳。THORPE10通过仿真,将SARSA算法得到的配时方案与传统固定配时方案进行了对比,发现SARSA算法的配时方案能更好地改善交通拥堵,但效果不够稳定。LIU等11采用Q-learning算法,对交叉路口的信号灯进行控制,但由于该算法提供的信息有限,不能完全显示车辆状态,导致大量交通信息被忽略。综上所述,为能提出更有效的城市路网的信号灯配时方案,本研究从两个方面入手:在同一时间内,让交通信号灯根据交叉路口各个方向上不同交通流的实时状况,在较短时间内选择最适合的交通信号控制策略;将该算法与其他算法在SUMO开源软件上进行仿真与比较,验证该算法的有效性及可行性。1强化学习算法1.1行动者-评论家算法DEGRIS12将价值迭代和策略迭代两种神经网络迭代算法结合在一起,提出了行动者-评论家(actor-critic,AC)算法。在该算法框架中,行动者(actor)运用策略函数,执行动作,并与环境进行交互、合作;评论家(critic)则运用评价函数,判断行动者动作的优劣,并引导其下一阶段的动作。AC算法的原理如图1所示。该算法虽然可同时迭代两个神经网络,但稳定性不佳。状态s环境价值网络(评论家)策略网络(行动者)动作a优势函数奖励r图1行动者-评论家算法原理Fig.1Actor-critic algorithm principle1.2优势行动者-评论家算法优 势 行 动 者-评 论 家 算 法(advantage actor-critic,A2C)在AC算法的基础上增加了优势函数,并将其作为判定和选择动作的标准。如果执行动作的评价值高于期望值,则说明该动作优于平均动作,函数正在朝梯度上升方向运动;若执行动作的评价值低于期望值,则说明该函数正在朝梯度下降方向运动。A2C算法的原理如图2所示。由于该算法采取直接更新的策略,其迭代训练速度较为缓慢。动作a价值网络(评论家)策略网络(行动者)环境奖励r状态s对时间差分图2优势行动者-评论家算法网络结构Fig.2Advantage actor critical algorithm network structure1.3异步优势行动者-评论家算法异步优势行动者-评论家算法(asynchronous advantage actor-critic,A3C)算法是 MNIH13于 2016年提出的。该算法在交通系统中得到了广泛运用,是一种能明显提高道路通行效率的异步强化学习算法14。与 AC 算法和 A2C 算法相比,A3C 算法的最大改变是可以采取异步操作。为能更迅速地收集数据,该算法采取多线程并行交互的方式,进行数据的采集、学习和训练。每个线程可自主采集样本信息,独立地完成数据训练,并获取下一个阶段的参数值,最后,将其异步更新到全局神经网络中。在每一次训练后,算法都会同步全局神经网络的参111第39卷交通科学与工程数,再与环境进行交互,展开新一轮的学习与训练。且各线程采用的神经网络均与全局神经网络保持一致,但每个线程都对应不同的环境,并与之进行交互。因此,每个线程环境的数据均不同,每个线程得到的样本序列也会有差别。这对于策略学习是有价值的,它能让模型在最短的时间内掌握更多的信息和知识。A3C 算法原理模型结构如图 3 所示。在图3中,策略(s)为全局神经网络输出的策略估计值,评论家v(s)为全局神经网络输出的行动评价值。全局网络策略(s)评论家v(s)神经网络输入(s)进程2环境1环境2进程n环境n进程1策略(s)评论家v(s)神经网络输入(s)策略(s)评论家v(s)神经网络输入(s)策略(s)评论家v(s)神经网络输入(s)图3异步优势行动者-评论家算法架构Fig.3Asynchronous advantage actor-critic algorithm model architecture2异步深度强化学习交通控制算法异步深度强化学习算法对在单交叉路口的智能体、状态输入、动作相位和奖励函数进行了定义。1)智能体。智能体是具有自主活动的抽象类实体,如:无人驾驶的车辆、智能冰箱等。其能与周围环境不断地进行交流与合作,直至达到期望目标。在交通信号控制领域中,交通信号智能控制系统(交通信号灯)通过观测交叉路口的交通状况来选择合适的信号控制方案。因此,交通信号灯可作为在该智能系统中强化学习算法的智能体。2)状态输入。交通路口状态信息是交通信号灯选择信号相位的依据。为了更好地掌握交叉路口的实时交通情况,将交叉路口各个方向的每个车道中的车辆停车等待时间w、车辆排队长度l、平均车头时距h、交叉口的车辆延误时间d、交通信号灯相位变化c作为交通状态的输入变量。3)动作相位。相位能影响交通信号灯能否选择出最合适的交通信号控制方案。目前,在大多数交通信号控制算法中,交叉路口的相位顺序是固定的,算法只对相位通行时间进行调整。这些算法不能应对复杂多变的实时交通流。因此,本研究既可以调整各个相位的绿灯时长,又可以根据交通流的实时变化任意切换相位。在交叉路口的车辆的 4个动作相位设置如图5所示,本试验暂不考虑车辆右转这一情况。为避免交通冲突,规定交通信号灯一次只能选择在一个相位a上执行动作,此时,在其余相位方向上的车流均必须在停车线内等待。当a=1时,保持该通行相位;当a=0时,切换到另一相位。当交通信号灯选择相位时,算法会优先考虑最大交通需求方向上的车流,但也要顾及其他方向车流的最长等待时间wmax15。该最长等待时间wmax会因城市道路环境的不同而有所区别。112邓兰,等:基于异步优势强化学习的交通信号控制策略第3期 (a)南北直行 (b)南北左转 (c)东西左转 (d)东西直行图5交通路口车辆动作集合Fig.5Intersection vehicle action collection4)奖励函数。对于交通信号控制方案而言,奖励函数可对交通信号灯选择某一相位动作后的交通状况变化情况进行评价,判断该方案是否达到预期通行效果,并最终确定其是否为最优交通信号控制方案。某一交通信号控制方案的奖励值越大,其实际通行效果越好;反之,若某一交通信号控制方案的奖励值越小,其实际通行效果越差。随着迭代时间的延长,交通路口智能控制方案的奖励值影响会逐渐降低。为提高交叉路口的通行效率,奖励函数要考虑交通路口状况的各项评价指标,如:车辆延误时间、队列长度、等待时间等。该交叉路口奖励函数的表达式为:r=k1d+k2q+k3w+k4p (1)式中:k1、k2、k3、k4为权重系数;d为交叉口在各方向上所有车辆的延迟时间之和;q为该交叉口在各方向上所有车辆队列长度之和;w为交叉口在各方向上所有车辆等待时间之和;p 为不同相位的切换时间 16。在交通控制的异步深度学习强化算法中,智能体(交通信号灯)先根据观察的交叉路口信息,选择符合该地交通状态的动作相位;然后,执行该动作相位,并将道路交通流的变化结果反馈给智能体(交通信号灯);最后,智能体根据反馈结果自适应地调整原有参数。交通智能体(交通信号灯)的强化学习算法的流程如图6所示。回馈跟踪信息信控路口环境交通信号智能体信号控制动作集合交通状态信息图6交通智能体的强化学习算法流程Fig.6Reinforcement learning basic model of traffic signal agent3算法设计与仿真SUMO仿真软件能灵活地定义交通场景,模拟实时交通场景,在交通规划和管理中得到了广泛的应用17。本研究采用SUMO仿真软件中的TraCI接口模块来完成其与Python平台间的交流,根据交叉路口的实时交通信息,选择合适的信号配时方案 18。该算法建立在深度学习框架Tensor Flow的基础上19。3.1算法设计该算法先初始化交通信号灯参数;算法的各线程再从SUMO仿真软件中获得当前其在各自的交通环境中交叉路口的状态信息;然后,将该状态信息传输至各自的神经网络中,根据神经网络输出的反馈结果,从动作相位集合中按照一定的策略,选择其中的一个相位;最后,把当前交叉路口的交通状态信息、动作相位、下一个时间步长的回报值、交通环境状态信息组合为一个4元数组,并以此来更新全局神经网络的参数。当全局神经网络进行更新时,适当放缓更新速率,保证该神经网络学习的稳定性,使全局神经网络的输出值能更贴近目标Q值。选择具有最大的Q值的动作相位,即可得到交通信号控制方案。重复以上操作,直到交通路口的信号灯最终获得最优交通控制策略为止。设 A3C算法公共部分的全局神经网络的策略参数为,价值参数为,共享迭代轮数为N,全局最大迭代次数Nmax,步长为;A3C算法各线程的神经网络的策略参数为,价值参数为,各线程内单次迭代时间序列最大长度为Nlocal,状态特征维度为n,动作集为A,步长为,熵系数为c,折扣因子为,探索率为。113第39卷交通科学与工程算法步骤为:1)输入公共部分A3C全局神经网络参数,;重新分别设定行动者、评论家两个网络梯度:d=0,d=0;2)将全局神经网络中参数同步到各个线程中:=,=;3)令tstart=t,从初始化交通环境中得到交通状态st;4)根据策略(at|st;),选择合适的动作相位at,通过选择好的动作相位a,获得奖励值rt和下一个交通状态;定义当前的交通状态:t t+1,T T+1;5)若st为最后状态,或t-tstart=tlocal,则计算最后一个时间序列位置st的Q(s,t);否则回到步骤4)。Q(s,t)的表达式为:Q(s,t)=0 ,最终状态V(st,),不是最终状态,进入下一状态;6)计算异步梯度,i (t-1,t-2,tstart):估计目标函数Q值,计算每个时刻的Q(s,i):Q(s,i)=ri+Q(s,i+1);对累计Actor的本地梯度进行更新(判定策略梯度方向):d d+log(si,ai)(Q(s,i)-V(si,)+cH(si,);对累计Critic的本地梯度进行更新(判定价值梯度方向):d d+(Q(s,i)-V(si,);7)更 新 全 局 神 经 网 络 参 数:-d,-d;8)若N Nmax,则算法结束,输出公共部分的A3C神经网络参数、;否则,返回步骤2)。参数设置:为了保证试验公正,各对比算法都使用同样的参数设置。学习率设置为0.001,折扣因子 设置为 0.9,当算法进行学习训练时,采用-greedy算法来进行探寻和动作选择,的初值设为0.1,随着训练次数的增加,值会大幅下降。因此,在训练开始之前,需要初始化算法模型的参数,提升算法的稳定性。根据试验观察,式(1)中各系数设定为:k1=-0.25,k2=-0.25,k3=-0.25,k4=-1.00。3.2试验环境设置3.2.1路口属性设置单一交叉路口是城市交通网络中最简单、最基本的交叉路口。对单一交叉路口的控制效果是评估交通控制系统的重要基础。本次道路试验的单一交叉路口由一条南北向道路和一条东西向道路组成,试验暂时仅考虑机动车,忽略其他交通要素的影响。每条道路均设计为双向六车道,车道最高设计时速为65 km/h,如图7所示。设交叉路口4个方向均有车流。4个交通仿真环境将同时生成数据,并独立训练各自的神经网络。图7单交叉路口仿真区域Fig.7Single intersection simulation area3.2.2配时方案设置该交叉路口在饱和状态下的固定信号配时方案见表1。其具备4个相位,且其中包含左转相位。在每个相位的绿灯结束后,设定3 s的黄灯时间,保证在绿灯结束时刻冲出停车线的车辆能在红灯开启前驶离交叉路口。表1固定信号配时方案Table 1Fixed signal timing scheme相位第一相位第二相位第三相位第四相位方向南北直行南北左转东西直行东西左转绿灯时间/s29214325黄灯时间/s3333周期/s1301301301303.2.3车流量设置假设车辆到达服从泊松分布,交叉路口各个方向的车辆平均到达率、仿真时间等参数见表2。114邓兰,等:基于异步优势强化学习的交通信号控制策略第3期表2交通流量设置Table 2Traffic flow settings车流方向南北直行南北左转东西直行东西左转车辆平均到达率/(辆 s-1)0.1000.0300.1500.026仿真时间/s 7 2007 2007 2007 2004试验结果与分析Q-Learning算法与A3C算法在学习过程中平均累计奖励值与总训练次数间的关系曲线如图 8所示。训练步数0 20 40 60 80 1000-50-100-150-200-250-300-350平均奖励值Q-learningA3C图8不同算法的平均累计奖励对比Fig.8Average cumulative reward comparison从图8可以看出,在各算法的训练早期,它们均未收敛,但A3C算法和Q-Learning算法的训练值较接近。随着训练次数的增加,Q-learning算法仍处于振荡发散状态,未达到其最优的控制效果;但A3C算法则很快地收敛,进入了稳定状态。根据在该交叉路口采集的车辆信息,经A3C算法反复迭代和优化后,得到的最佳信号灯配时方案见表3。由表3可知,相比固定配时方案,A3C算法优化得到的最佳信号灯配时方案在交通需求量较大的相位上的绿灯时间和绿信比均有所增加。参考 城市道路交通管理评价指标体系(2008版)中对城市等级的划分和 城市道路设计规范(CJJ 3790)中对交叉口类型的划分,本研究选取B类城市的交叉口,对其进行数值仿真,并假设驾驶人可接受的等待时间为 120200 s。由表 3可知,各算法优化后的各方向车流的等待时间上限wmax均在设定的合理范围内。表3优化后的信号配时方案Table 3Optimized signal timing scheme相位第一相位第二相位第三相位第四相位方向东西直行南北直行南北左转东西左转绿灯时长/s53342620黄灯时长/s3333周期/s145145145145为更好地检验基于异步优势行动者-评论家算法对交通信号控制的有效性,以平均延误时间、平均队列长度、平均等待时间作为评价指标,将其与定时控制、感应控制、Q-Learning 这三类典型算法进行对比。各算法训练的对比结果如图9所示,各算法各指标的平均值对比见表 4。在相同交通状态条件下,这三个交通评价指标的平均值越小,交叉路口车辆的通行效率就越高,算法有效性也就越好。表4饱和状态下算法仿真结果对比Table 4Comparison of algorithm simulation results in saturated state算法定时控制感应控制Q-learningA3C平均延误/s75.4268.2361.2152.57平均队列长度/m66.8159.1454.9647.83平均等待时间/s61.0256.1150.3843.58100908070605040Q-learningA3C定时控制感应控制0 20 40 60 80 100训练步数平均延误时间/s(a)平均延迟115第39卷交通科学与工程0 20 40 60 80 100训练步数10090807060504030平均等待时间/sQ-learningA3C定时控制感应控制(b)平均等待时间0 20 40 60 80 100训练步数100908070605040平均队列长度/mQ-learningA3C定时控制感应控制(c)平均队列长度图9交通控制效果对比Fig.9Comparison of traffic control effects由表4可知,与3类常用算法中优化效果最好的 Q-learning算法对比,A3C算法的车辆平均延误时间减少了14.1%,平均队列长度缩短了13.1%,平均等待时间减少了13.5%。在本次仿真试验中,设置的道路流量较大,该高负载路面状态导致A3C算法的收敛速度有所下降,但A3C算法仍是这4种算法中收敛速度最快的。5结论本研究针对城市道路的单个交叉路口提出一种基于异步优势行动者-评论家算法的交通信号控制算法。该算法能有效利用城市道路交叉路口的实时状态信息,解决以往大部分算法在学习训练过程中难以得到最优的交通控制方案的问题,能有效地降低交叉路口车辆排队长度和停车等待时间,改善城市道路拥挤,缓解交通压力。本算法通过SUMO仿真软件进行了数值试验。该仿真试验仅考虑机动车对交通状况的影响,是在一种理想的道路交通环境中进行的。但实际的交通环境还会受到非机动车、行人等多因素的影响。这也是本研究接下来要做的工作。参考文献(References):1 SUN H,CHEN C L,LIU Q,et al.Traffic signal control method based on deep reinforcement learning J.Computer Science,2020,47(2):169-174.2 朱海峰,刘畅,刘彦斌,等.基于通行能力系数优化的道路交叉口单点动态控制研究 J.公路与汽运,2019(5):29-34.ZHU Haifeng,LIU Chang,LIU Yanbin,et al.Research on single point dynamic control of road intersection based on capacity coefficient optimization J.Highways&Automotive Applications,2019(5):29-34.3 石冬花,田国亮,闫彭.道路交叉口信号控制方法的发展现状与趋势 J.交通标准化,2011,39(7):193-197.SHI Donghua,TIAN Guoliang,YAN Peng.Development status and trends of signal control algorithm at road intersection J.Transport Standardization,2011,39(7):193-197.4 LO H K.A reliability framework for traffic signal controlJ.IEEE Transactions on Intelligent Transportation Systems,2006,7(2):250-260.5 ARAGHI S,KHOSRAVI A,CREIGHTON D.A review on computational intelligence methods for controlling traffic signal timing J.Expert Systems with Applications,2015,42(3):1538-1550.6 隋莉颖,李威,石建军,等.SCOOT和ACTRA信号控制系统分析 J.道路交通与安全,2007,7(2):10-13.SUI Liying,LI Wei,SHI Jianjun,et al.The analysis and application actuality of traffic signal control systemSCOOT and ACTRA in BeijingJ.Road Traffic&Safety,2007,7(2):10-13.7 姜涛,马倩楠.多时段可变导向车道设置与信号优化方法 J.交通科学与工程,2019,35(1):86-93.JIANG Tao,MA Qiannan.Multi-time variable guiding lane setting and signal optimization methodJ.Journal of Transport Science and Engineering,2019,35(1):86-93.8 BOWLING M.Multi agent learning in the presence of agents with limitations R.Carnegie Mellon Univ Pittsburgh Pa School of Computer Science,2003.9 MARSETI R,EMROV D,URA M.Road artery traffic light optimization with use of the reinforcement learning J.PROMET-Traffic&Transportation,2014,116邓兰,等:基于异步优势强化学习的交通信号控制策略第3期26(2):101-108.10THORPE T L,Anderson C W.Traffic light control using sarsa with three state representationsR.Technical report,Cite seer,1996.11LIU Y,LIU L,CHEN W P.Intelligent traffic light control using distributed multi-agent Q learning C/IEEE 20th International Conference on Intelligent Transportation Systems(ITSC).October 16-19,2017,Yokohama,Japan.IEEE,2018:1-8.12DEGRIS T,WHITE M,SUTTON R S.Off-policy actor-critic EB/OL.(2013-06-20)2021-12-16.https:/arxiv.org/abs/1205.483913V.MNIH,A.P.BADIA,M.MIRZA,A.Graves,T.Lillicrap,T.Harley,K.Kavukcuoglu,et al.,Asynchronou-s methods for deep reinforcement learning EB/OL.(2016-02-04)2021-12-26.https:/arxiv.org/abs/1602.01783.14GENDERS W,RAZAVI S.Evaluating reinforcement learning state representations for adaptive traffic signal controlJ.Procedia Computer Science,2018,130:26-33.15郭海锋,张贵军.基于无线传感网络的单点自组织信号控制方法 J.中国公路学报,2010,23(3):102-107.GUO Haifeng,ZHANG Guijun.Method of traffic self-organizing signal control for isolated intersection based on wireless sensor network J.China Journal of Highway and Transport,2010,23(3):102-107.16黄浩,胡智群,王鲁晗,等.基于Sumtree DDPG的智能交通信号控制算法 J.北京邮电大学学报,2021,44(1):97-103.HUANG Hao,HU Zhiqun,WANG Luhan,et al.Intelligent traffic signal control algorithm based on Sumtree DDPGJ.Journal of Beijing University of Posts and Telecommunications,2021,44(1):97-103.17侯德藻,高兰达,钱振伟,等.基于SUMO软件的异构交通流仿真平台车辆模型开发与集成 J.同济大学学报(自然科学版),2021,49(7):957-963,1038.HOU Dezao,GAO Landa,QIAN Zhenwei,et al.Development and integration of vehicle model for heterogeneous traffic flow simulation platform based on SUMO J.Journal of Tongji University(Natural Science),2021,49(7):957-963,1038.18王莹多.基于深度强化学习的路口自适应控制 D.大连:大连理工大学,2017.WANG Yingduo.Adaptive control of intersections based on deep reinforcement learning D.Dalian:Dalian University of Technology,2017.19朱昭俊,李雪芹.基于Python与Tensorflow的交通信号决策系统 J.综合运输,2022,44(5):74-79,143.ZHU Zhaojun,LI Xueqin.Traffic signal decision system based on python and tensorflow J.China Transportation Review,2022,44(5):74-79,143.(责任编辑:李脉;校对:罗容;英文编辑:刘至真)contact surface during rotation construction of long-span bridgesD.Guangzhou:South China University of Technology,2019.13郭大智,冯德成.层状弹性体系力学 M.哈尔滨:哈尔滨工业大学出版社,2001.GUO Dazhi,FENG Decheng.Mechanics of layered elastic system M.Harbin:Harbin Institute of Technology Press,2001.14格拉德韦尔,G.M.L.经典弹性理论中的接触问题 M.范天佑,译.北京.北京理工大学出版社,1991.GLADWELL,G.M.L.Contact problems in classical elasticity Theory M.Fan Tianyou.Trans.Beijing:Beijing Institute of Technology Press,1991.(责任编辑:欧兆虎;校对:罗容;英文编辑:刘至真)(上接第89页)117