温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
平衡
主线
匝道
交通
运行
强化
学习
控制
研究
第42卷第4期2023年4月Vol.42 No.4Apr.2023重庆交通大学学报(自然科学版)JOURNAL OF CHONGQING JIAOTONG UNIVERSITY(NATURAL SCIENCE)DOI:10.3969/j.issn.1674-0696.2023.04.12平衡主线和匝道交通运行的强化学习型匝道控制研究章立辉12,余宏鑫14,熊满初1,2,胡文琴1,王亦兵1(1.浙江大学建筑工程学院智能交通研究所,浙江杭州310058;2,浙江大学建筑设计研究院有限公司,浙江杭州310014;3,浙江大学平衡建筑研究中心,浙江杭州310014)摘要:考虑合流区域主线和匝道的交通流运行状态,提出了一种基于深度强化学习的鲁棒自适应匝道控制模型一 DRLARM模型。根据交通流运行特征,构造了平衡主线交通效率和匝道排队长度的强化学习奖励函数;为适应动 态变化的交通环境,采用多交通流场景混合训练控制模型,在不同拥堵成因、不同拥堵时长、不同需求分布等测试场 景下开展仿真实验,对比分析了无控制及DRLARM、ALINEA和P I-ALINEA模型控制的车辆平均行程时间A、车 道占有率。、匝道排队长度W和匝道损失时间比P等评价指标。研究表明:DRLARM模型控制的平均行程时间A 相比无控工况节省了 22%,略好于ALINEA模型,与P I-ALINEA模型控制效果相当;DRLARM模型在不同测试 场景下产生的匝道损失时间比P较稳定,匝道排队长度W绝对值相较于ALINEA模型和P I-ALINEA模型均缩短 了约16%;深度强化学习方法兼顾了通行效率和路权公平性,训练所得DRLARM模型在动态交通条件下表现出良 好的鲁棒性。关键词:交通工程;自适应匝道控制;深度强化学习;高速公路;匝道排队管理;鲁棒性 中图分类号:U495 文献标志码:A 文章编号:1674-0696(2023)04-087-11Reinforcement Learning Ramp Metering to Balance Mainline and Ramp Traffic OperationsZHANG Lihu i1,2,YU Hongx in1,3,XIONG Ma nc hu1,2,HU Wenqin1,WANG Yib ing1(1.Inst it u t e of Int el l igent Tr a nspor t a t ion Sy st ems,Col l ege of Civil Engineer ing a nd Ar c hit ec t u r e?Zhegia ng Univer sit y,Ha ngzhou 310058,Zhejia ng,China;2.Ar c hit ec t u r a l Design a nd Resea r c h Inst it u t e Co.,Lt d.,Zhejia ng Ur d ver sit y,Ha ngzhou 310014,Zhqia ng,Qiina;3.Resea r c h Cent er for Ba l a nc e Ar c hit ec t u r e,Zhejia ng Univer sit y?Ha ngzhou 310014,Zhqia ng,Qiina)Ab st r a c t:Consid er ing t he t r a ffic fl ow c ond it ions of b ot h ma inl ine a nd r a mp in r a mp mer ging a r ea s a r ob u st a d a pt ive r a mp met er ing mod el na med Deep Reinfor c ement Lea r ning-Ba sed Ad a pt ive Ra mp Met er ing(DRLARM)b a sed on d eep r einfor c ement l ea r ning wa s pr oposed Ac c or d ing t o t r a ffic fl ow oper a t ion c ha r a c t er ist ic s?a r einfor c ement l ea r ning r ewa r d fu nc t ion b a l a nc ing ma inl ine t r a ffic effic ienc y a nd r a mp qu eu e l engt h wa s c onst r u c t ed.To a d a pt t o t he d y na mic a l l y c ha nging t r a ffic envir onment,a mix ed t r a ining c ont r ol mod el wit h mu l t ipl e t r a ffic fl ow sc ena r ios wa s a d opt ed,a nd simu l a t ion ex per iment s wer e c ond u c t ed u nd er t est sc ena r ios su c h a s d iffer ent c ongest ion c a u ses?d iffer ent c ongest ion d u r a t ion a nd d iffer ent d ema nd d ist r ib u t ion.The a ver a ge t r a vel t ime A,l a ne oc c u pa nc y r a t io o,r a mp qu eu e l engt h W a nd r a mp l oss t ime r a d io P wer e c ompa r ed a nd a na l y zed in t he c a se of u nc ont r ol l ed,DRLARM,ALIENA,a nd P I-ALINEA mod el s.The r esea r c h shows t ha t t he a ver a ge t r a vel t ime A c ont r ol l ed b y t he DRLARM mod el ha s b een sa ved b y 22%c ompa r ed t o t he u nc ont r ol l ed wor king c ond it ion,sl ight l y b et t er t ha n t he ALIENA mod el,a nd ha s a simil a r c ont r ol effec t a s t he P I-ALINEA mod el d oes.In a d d it ion,t he r a mp l oss t ime r a t io P gener a t ed b y t he DRLARM mod el in d iffer ent t est ing sc ena r ios is r el a t ivel y st a b l e a nd t he a b sol u t e va l u e o r a mp qu eu e l engt h W is shor t ened b y a b ou t 16%,c ompa r ed wit h t he t ha t of ALIENA mod el a nd P I-ALINEA mod el.The收稿日期:20220427;修订日期:2023-04-11基金项目:国家重点研发计划项目(2018YFB1600500);浙江省重点研发计划项目(2021C01012)第一作者:章立辉(1984),男,浙江舟山人,副教授,博士,主要从事交通建模与优化方面的研究。E-ma il:l ihu izha ngzju.ed u.c n 通信作者:余宏鑫(1999),男,安徽六安人,硕士研究生,主要研究方向为高速公路管理与控制。E-ma il:22112287zju.ed u.c n88重庆交通大学学报(自然科学版)第42卷d eep r einfor c ement l ea r ning met hod ha s t a ken int o a c c ou nt b ot h t r a ffic effic ienc y a nd r ight-of-wa y fa ir ness,a nd t he t r a ined DRLARM mod el ex hib辻s good r ob u st ness u nd er d y na mic t r a ffic c ond it ions.Key wor d s:t r a ffic engineer ing;a d a pt ive r a mp met er ing;d eep r einfor c ement l ea r ning;fr eewa y;r a mp qu eu e ma na gement;r ob u st ness0引言为解决高速公路拥堵问题,J.A.WATTLE-WORTH提出了高速公路匝道控制算法;G.GOMES等研究表明匝道控制可有效缓解高速公 路拥堵提高通行效率;D.玖MASHER等提出基于 需求-容量差的开环控制算法,以下游流量最大化为 目标,通过计算匝道上下游的需求容量差来调节匝 道入流;M.P AP AGEORGIOU等提出了经典的闭 环控制模型ALINEA,通过反馈控制将主线下游车 道占有率控制在期望值附近;WANG Yib ing等将 比例积分微分控制中的积分项引入ALINEA模型 中,提出的P I-ALINEA模型能够更好地应对由于下 游瓶颈导致的拥堵;贺敬凯等建立了基于BP神 经网络的入口匝道控制器,仿真实验发现神经网络 可有效地应用于入口匝道控制;赵明等提出基于迭 代学习的入口匝道控制方法,通过数学分析和仿真实 验,证明其在匝道受限条件下仍能保持较好的控制效 果;CHEN Jiming等根据收集的&9亿条匝道车辆 纪录构建了动态拥堵阈值,设计了自适应匝道控制方 法;CI Yu sheng等引进基于小波神经网络的交通流 量预测模型来预测短时交通需求,提高了匝道控制效 果;C.JACOB 等I 将强化学习(r einfor c ement l ea r ning,RL)引入匝道控制;王兴举等】提出了不 完全信息条件下的强化学习型高速公路匝道控制方 法,实验比较了不同合流交通量下的控制效果,发现 在交通量较大的情况下控制效果非常明显;M.DAVARYNEJAD等提出了基于标准Q学习的、考虑匝道排队长度限制的强化学习匝道控制模型,并证明该模型在长时间合流拥堵的交通场景下有较 好的控制效果;K.RAZAEE等采用kNN-TD算 法,通过实际交通需求场景的验证,发现kNN-TD算 法可显著提高匝道控制模型的学习效率,能够解决 更加复杂的大规模匝道控制问题;LU Cha o等提 出了满足匝道排队长度限制的强化学习型匝道控制 一般框架,探讨了固定交通需求下不同匝道排队长 度限制对匝道控制效果的影响;冉润东利用深度 强化学习动态调整ALINEA模型中的控制参数,形 成了同时考虑了合流区域通行效率和匝道排队长度 的DDP G-ALINEA模型,并在实际交通需求场景下 进行了验证;戴昇宏等以视频图像为输入,提出 了基于图像卷积神经网络的匝道控制深度强化学习 模型,在长时间合流拥堵的场景下开展实验,发现该 模型提升了瓶颈疏散效率;ZHOU Yu e等I针对匝 道下游远距离处存在交通流瓶颈问题,提出了基于 Q-l ea ming的匝道控制方法,实验发现该方法可以减 小合流区车流密度的波动;韩靖提出了基于 SARSA算法的单匝道控制模型,并将其扩展至多匝 道的协