平衡主线和匝道交通运行的强化学习型匝道控制研究.pdf

下载文档

ID：2582023

大小：1.99MB

页数：12页

格式：PDF

时间：2023-08-01

 收藏分享赚钱赏

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 积分 0人已下载

文本预览

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。
网站客服：3074922707

平衡主线匝道交通运行强化学习控制研究

第42卷第4期2023年4月Vol.42 No.4Apr.2023重庆交通大学学报(自然科学版)JOURNAL OF CHONGQING JIAOTONG UNIVERSITY(NATURAL SCIENCE)DOI：10.3969/j.issn.1674-0696.2023.04.12平衡主线和匝道交通运行的强化学习型匝道控制研究章立辉12,余宏鑫14,熊满初1，2,胡文琴1,王亦兵1(1.浙江大学建筑工程学院智能交通研究所，浙江杭州310058；2,浙江大学建筑设计研究院有限公司，浙江杭州310014；3,浙江大学平衡建筑研究中心，浙江杭州310014)摘要:考虑合流区域主线和匝道的交通流运行状态，提出了一种基于深度强化学习的鲁棒自适应匝道控制模型一 DRLARM模型。根据交通流运行特征，构造了平衡主线交通效率和匝道排队长度的强化学习奖励函数;为适应动态变化的交通环境，采用多交通流场景混合训练控制模型，在不同拥堵成因、不同拥堵时长、不同需求分布等测试场景下开展仿真实验,对比分析了无控制及DRLARM、ALINEA和P I-ALINEA模型控制的车辆平均行程时间A、车道占有率。、匝道排队长度W和匝道损失时间比P等评价指标。研究表明:DRLARM模型控制的平均行程时间A 相比无控工况节省了 22%,略好于ALINEA模型，与P I-ALINEA模型控制效果相当;DRLARM模型在不同测试场景下产生的匝道损失时间比P较稳定,匝道排队长度W绝对值相较于ALINEA模型和P I-ALINEA模型均缩短了约16%；深度强化学习方法兼顾了通行效率和路权公平性，训练所得DRLARM模型在动态交通条件下表现出良好的鲁棒性。关键词:交通工程；自适应匝道控制;深度强化学习;高速公路;匝道排队管理;鲁棒性中图分类号:U495 文献标志码:A 文章编号:1674-0696(2023)04-087-11Reinforcement Learning Ramp Metering to Balance Mainline and Ramp Traffic OperationsZHANG Lihu i1,2,YU Hongx in1,3,XIONG Ma nc hu1,2,HU Wenqin1,WANG Yib ing1(1.Inst it u t e of Int el l igent Tr a nspor t a t ion Sy st ems,Col l ege of Civil Engineer ing a nd Ar c hit ec t u r e?Zhegia ng Univer sit y,Ha ngzhou 310058,Zhejia ng,China;2.Ar c hit ec t u r a l Design a nd Resea r c h Inst it u t e Co.,Lt d.,Zhejia ng Ur d ver sit y,Ha ngzhou 310014,Zhqia ng,Qiina;3.Resea r c h Cent er for Ba l a nc e Ar c hit ec t u r e,Zhejia ng Univer sit y?Ha ngzhou 310014,Zhqia ng,Qiina)Ab st r a c t：Consid er ing t he t r a ffic fl ow c ond it ions of b ot h ma inl ine a nd r a mp in r a mp mer ging a r ea s a r ob u st a d a pt ive r a mp met er ing mod el na med Deep Reinfor c ement Lea r ning-Ba sed Ad a pt ive Ra mp Met er ing(DRLARM)b a sed on d eep r einfor c ement l ea r ning wa s pr oposed Ac c or d ing t o t r a ffic fl ow oper a t ion c ha r a c t er ist ic s?a r einfor c ement l ea r ning r ewa r d fu nc t ion b a l a nc ing ma inl ine t r a ffic effic ienc y a nd r a mp qu eu e l engt h wa s c onst r u c t ed.To a d a pt t o t he d y na mic a l l y c ha nging t r a ffic envir onment,a mix ed t r a ining c ont r ol mod el wit h mu l t ipl e t r a ffic fl ow sc ena r ios wa s a d opt ed,a nd simu l a t ion ex per iment s wer e c ond u c t ed u nd er t est sc ena r ios su c h a s d iffer ent c ongest ion c a u ses?d iffer ent c ongest ion d u r a t ion a nd d iffer ent d ema nd d ist r ib u t ion.The a ver a ge t r a vel t ime A,l a ne oc c u pa nc y r a t io o,r a mp qu eu e l engt h W a nd r a mp l oss t ime r a d io P wer e c ompa r ed a nd a na l y zed in t he c a se of u nc ont r ol l ed,DRLARM,ALIENA,a nd P I-ALINEA mod el s.The r esea r c h shows t ha t t he a ver a ge t r a vel t ime A c ont r ol l ed b y t he DRLARM mod el ha s b een sa ved b y 22%c ompa r ed t o t he u nc ont r ol l ed wor king c ond it ion,sl ight l y b et t er t ha n t he ALIENA mod el,a nd ha s a simil a r c ont r ol effec t a s t he P I-ALINEA mod el d oes.In a d d it ion,t he r a mp l oss t ime r a t io P gener a t ed b y t he DRLARM mod el in d iffer ent t est ing sc ena r ios is r el a t ivel y st a b l e a nd t he a b sol u t e va l u e o r a mp qu eu e l engt h W is shor t ened b y a b ou t 16%,c ompa r ed wit h t he t ha t of ALIENA mod el a nd P I-ALINEA mod el.The收稿日期：20220427；修订日期:2023-04-11基金项目：国家重点研发计划项目(2018YFB1600500)；浙江省重点研发计划项目(2021C01012)第一作者:章立辉(1984)，男，浙江舟山人，副教授，博士，主要从事交通建模与优化方面的研究。E-ma il：l ihu izha ngzju.ed u.c n 通信作者:余宏鑫(1999)，男，安徽六安人，硕士研究生，主要研究方向为高速公路管理与控制。E-ma il：22112287zju.ed u.c n88重庆交通大学学报(自然科学版)第42卷d eep r einfor c ement l ea r ning met hod ha s t a ken int o a c c ou nt b ot h t r a ffic effic ienc y a nd r ight-of-wa y fa ir ness,a nd t he t r a ined DRLARM mod el ex hib辻s good r ob u st ness u nd er d y na mic t r a ffic c ond it ions.Key wor d s：t r a ffic engineer ing；a d a pt ive r a mp met er ing;d eep r einfor c ement l ea r ning；fr eewa y;r a mp qu eu e ma na gement;r ob u st ness0引言为解决高速公路拥堵问题，J.A.WATTLE-WORTH提出了高速公路匝道控制算法；G.GOMES等研究表明匝道控制可有效缓解高速公路拥堵提高通行效率;D.玖MASHER等提出基于需求-容量差的开环控制算法,以下游流量最大化为目标,通过计算匝道上下游的需求容量差来调节匝道入流;M.P AP AGEORGIOU等提出了经典的闭环控制模型ALINEA,通过反馈控制将主线下游车道占有率控制在期望值附近;WANG Yib ing等将比例积分微分控制中的积分项引入ALINEA模型中,提出的P I-ALINEA模型能够更好地应对由于下游瓶颈导致的拥堵;贺敬凯等建立了基于BP神经网络的入口匝道控制器，仿真实验发现神经网络可有效地应用于入口匝道控制;赵明等提出基于迭代学习的入口匝道控制方法,通过数学分析和仿真实验,证明其在匝道受限条件下仍能保持较好的控制效果;CHEN Jiming等根据收集的&9亿条匝道车辆纪录构建了动态拥堵阈值，设计了自适应匝道控制方法;CI Yu sheng等引进基于小波神经网络的交通流量预测模型来预测短时交通需求，提高了匝道控制效果；C.JACOB 等I 将强化学习(r einfor c ement l ea r ning,RL)引入匝道控制;王兴举等】提出了不完全信息条件下的强化学习型高速公路匝道控制方法,实验比较了不同合流交通量下的控制效果,发现在交通量较大的情况下控制效果非常明显；M.DAVARYNEJAD等提出了基于标准Q学习的、考虑匝道排队长度限制的强化学习匝道控制模型，并证明该模型在长时间合流拥堵的交通场景下有较好的控制效果；K.RAZAEE等采用kNN-TD算法，通过实际交通需求场景的验证，发现kNN-TD算法可显著提高匝道控制模型的学习效率，能够解决更加复杂的大规模匝道控制问题;LU Cha o等提出了满足匝道排队长度限制的强化学习型匝道控制一般框架,探讨了固定交通需求下不同匝道排队长度限制对匝道控制效果的影响;冉润东利用深度强化学习动态调整ALINEA模型中的控制参数，形成了同时考虑了合流区域通行效率和匝道排队长度的DDP G-ALINEA模型，并在实际交通需求场景下进行了验证;戴昇宏等以视频图像为输入，提出了基于图像卷积神经网络的匝道控制深度强化学习模型,在长时间合流拥堵的场景下开展实验,发现该模型提升了瓶颈疏散效率;ZHOU Yu e等I针对匝道下游远距离处存在交通流瓶颈问题，提出了基于 Q-l ea ming的匝道控制方法，实验发现该方法可以减小合流区车流密度的波动；韩靖提出了基于 SARSA算法的单匝道控制模型,并将其扩展至多匝道的协

侵权申述举报

此文档下载收益归作者所有

下载文档

平衡主线和匝道交通运行的强化学习型匝道控制研究.pdf

平衡主线和匝道交通运行的强化学习型匝道控制研究.pdf

猜你喜欢

你可能关注的文档

相关文章

热门推荐