温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
复杂
动态
环境
基于
深度
强化
学习
AGV
方法
蔡泽
第 卷第期计算机集成制造系统 年月 :收稿日期:;修订日期:。;基金项目:国家重点研发计划资助项目();国家自然科学基金资助项目()。:,(),()复杂动态环境下基于深度强化学习的 避障方法蔡泽,胡耀光,闻敬谦,张立祥(北京理工大学 工业与智能系统工程研究所,北京 )摘要:为提升自动导引车()在智能工厂复杂动态环境下的避障能力,使其能在全局路径引导下安全、高效地完成避障任务,提出一种基于深度强化学习的局部避障方法。首先,将避障问题表示为部分观测马尔可夫决策过程,详细描述了观测空间、动作空间、奖励函数和最优避障策略,通过设置不同的奖励实现以全局路径引导局部避障规划;然后,在此基础上,采用深度确定性策略梯度算法训练避障策略;最后,建立了仿真实验环境,并设计多种实验场景来验证所提方法的有效性。实验结果表明,所提方法可以应对复杂动态环境,减小避障时间与距离,提高运行效率。关键词:动态避障;深度强化学习;全局路径引导;智能工厂中图分类号:文献标识码:,(,):(),(),(),:;引言自 动 导 引 车(,)因其自动化程度高、应用灵活等特点逐渐成为智能工厂物料运输的关键设备。在智能工厂中,工厂布局柔性多变、多运行相互影响,使得的运行环境更加复杂,对其动态避障能力有了更高的要求。避障路径规划要求 以合理的方式躲避障碍,安全高效地完成运输任务。早期的避障路径规划多采用集中式方法,由一个中央服务器决定所有的运行,中央服务器可以获取工厂环第期蔡泽 等:复杂动态环境下基于深度强化学习的 避障方法境信息和所有 的运行状态,为多 同时规划无碰 撞 的 路 径。集 中 式 方 法 可 以 保 证 多 个安全运行,并能使路径达到近似最优,但这种方法严重依赖于实时通信和精准的状态感知,抗干扰和容错能力很差,不适用于复杂环境和有人参与的场景。与集中式方法对应的是分散式方法,分散式方法允许只感知自身局部环境信息,不需要中央服务器。分散式方法中一种经典的方法是速度障碍法,根据周围环境中障碍物的信息选择回避障碍的速度,基于此框架衍生出互惠速度障碍法(,)、最优互惠速度障碍法(,)等方法,但速度障碍避障方法需要对障碍的位置、速度和形状有精确感知,在现实应用中很难实现。机器学习、大数据等人工智能技术的发展为避障问题提供了新的解决方案,深度学习强大的表示能力与强化学习技术的结合,允许直接利用原始的传感器数据动态规划路径。基于深度强化学习技术的避障方法通常采用端到端的模式,以传感器(如激光雷达、深度相机等)采集到的数据为输入,输出 的控制指令(速度、角速度、电机转速等),因为控制指令多为连续值,所以采用基于策略的算法等。避障路径规划通常被设置为点到点的局部避障,检测到障碍后从全局路径中选取一个路点作为局部目标点,无碰撞的运行到此目标点后视为避障结束。避障过程被建立为适合强化学习解决的离散序列决策问题,在每个时刻根据环境的状态决策出运动控制指令。基于以上模式,研 究 者开始探索 在复 杂环境 中 的 避 障 方法。等 针对复杂室内场景(如迷宫等)中局部目标点难以定位的问题,将感知的第一人称环境图像作为 输 入,引 导 运 行;等 针 对 多场景下算法难以收敛的问题,提出多场景多阶段的训练方法,从简单到复杂的训练避障策略;等 考虑到人运动的随机性,融合多传感器评估行人意图,使 适应不确定运行环境。上述方法将局部避障视为点到点过程,以 是否到达目标点一定范围内作为避障结束的依据,该方式只关注了躲避障碍而没有考虑局部避障规划对后续运行的影响,避障结束后需要继续调整轨迹使回到全局路径,影响了的运行效率。因此,为解决复杂动态环境下考虑全局路径引导的避障问题,本文提出一种基于深度强化学习的局部避障路径规划方法。首先,将 避障问题表示为部分观测马尔可夫决策过程,详细介绍了观测空间、动作空间和奖励函数,在建立避障决策模型时同时考虑了路点位置和后续路径方向的引导作用;基于建立的决策过程,开发仿真环境并采用深度确定性策略梯度算法(,)训练避障策略。最后,进行仿真实验,设置多种实验场景验证提出方法的有效性。避障问题描述与数学表征 问题描述与假设在智能工厂中,设备布局柔性多变、多 同时执行物料搬运任务,的运行环境更加复杂,为了安全、高效地执行任务,需要有自感知与自决策能力。在运行过程中,通过安装的传感器实时探测周围环境,当检测到附近存在障碍物时,需要自主规划出避障路径规避碰撞风险;为完成搬运任务通常采用全局与局部相结合的路径规划方法,在执行任务前先全局规划出从起点到任务目标点的全局路径,在运行过程中遇到障碍时进行局部路径规划。因此,局部避障路径规划既要满足无碰撞的要求,也要考虑任务的影响,在全局路径的引导下完成避障。在多同时运行时,需要躲避不同速度的障碍,因此局部避障路径规划需要具有应对动态环境的能力。假设:以激光雷达感知周围环境,可以实时获取到雷达数据与自身位置姿态;在运动前规划出全局路径,全局路径以等间隔的点表示;有一定的安全运行范围,当障碍进入该范围时进行局部路径规划;可以获取到自身的运行速度(,),分别为线速度和角速度,的最大速度为 (,),即,。避障过程数学表征局部避障路径规划可以表示为在等间隔离散时间点的序列决策问题,上安装有感知周围环境的激光雷达,在开始时刻(记时刻)检测到有障碍物进入安全范围,进入避障状态,从全局路径的路点中选择局部目标点;避障过程中,在每个时刻(,)接受传感器感知的环境信息、自身的位置姿态、运行速度等状态信息以及目标点的位置信息,根据以上信息生成运动计算机集成制造系统第 卷控制指令并执行,改变自身状态;每一步决策完成后时间推进,进入下一时刻;当 无碰撞的到达局部目标点时完成避障,如果在该过程中与障碍物发生碰撞则避障失败。要解决的问题是得到局部避障策略,在每个时刻以观测到的信息为输入,输出运行控制指令。每一时间步的避障决策表示为:在时刻,观测到环境信息和自身状态信息(,),为激光雷达探测到的周围环境信息、为在全局坐标系下的位置、为 的姿态角,为行驶速度、为选择的局部目标点。由于中的数据只包含当前时刻障碍物的静态信息,为了能够大致评估障碍物在一段时间内的运动趋势等动态信息,使用从时刻()(为整数)到时刻的个观测值(),(),)作为避障策略的输入。为的输出,是对的运行控制指令,采用(,)(的线速度和角速度)控制运动。因此,局部规划过程中每一步的决策可以表示为()。局部避障需要满足以下要求:在运行过程中不与障碍物发生碰撞;局部规划以全局路径作为引导,避免过度偏离全局路径,避障结束后的运行方向与全局方向一致;避障过程消耗的时间尽可能少;确保避障路径的平滑性与 运行稳定性,控制指令不能大幅度变化。无碰撞的要求表示为:在避障过程的每一个时刻,对任何障碍物都有(,),表示 的几何形状,为障碍物的几何形状。以全局路径引导避障表示在局部避障规划时尽可能沿全局路径的轨迹行驶,不能大幅度偏离全局轨迹。全局路径由一组路点表示,在 检测到障碍时从中选择局部避障点,考虑到要用后续路径引导局部规划,选择之后的相邻路点构成全局引导向量。在每一时刻的位置与目标点构成位置向量为,在时刻执行动作后位置向量由变为,变化量为,和在的法向量上投影的模长分别为和,如图所示。在全局路径引导下意味着要尽可能保证:运行方向与全局路径相同,即,运行方向与全局引导方向呈锐角;不偏离全局轨迹,即,对全局轨迹的偏离距离不会增大。避障策略决策出的控制指令为 下一刻的预期速度,预期速度可能与当前时刻速度有较大差距,即 的加速度过大导致 的轨迹不够平滑,对的平稳运行有很大影响,同时也会带来安全问题。因此还需增加底层控制策略,采用工业控制领域常用的 控制方法,对输出的控制指令进一步处理,最后用于控制运行的实际控制指令为 (,),具体计算方法为;。()式中:是当前时刻的速度;是由控制策略生成的下一时刻预期速度;是经过 控制方法处理后的下一时刻的真实速度;、分别为比例系数、积分系数、微分系数。在下一时刻的位置和姿态为:。()式中:、分别为 位置在横纵方向的分量。考虑到在实际运行中,局部目标点可能与障碍重合,因此判定 到达目标点不必严格要求的位置与目标点位置重合或接近,只需整体运行轨迹与全局路径一致即可。结合上述全局路径引导的要求,在时到达目标点可以表示为、,即 在全局方向上超过目标点、的运行方向与全局方向一致。对观测信息做进一步补充,加入全局路径方向信息,同时将环境信息、引导向量、位置向量由全局坐标变换到以 位置为原点,以姿态方向为第期蔡泽 等:复杂动态环境下基于深度强化学习的 避障方法轴的相对坐标系下,新的观测信息表示为(,)。以 最 短 时 间 完 成 避 障 表 示 最 小化。综上所述,智能工厂环境下的 避障问题可以转化为不确定环境下的从开始避障到结束避障的序列决策问题,优化目标为:()。()决策变量为:()。()约束包括:,(,);(,);(,);。()部分观测马尔可夫决策过程构建为了求解最优策略,本文将局部避障问题构建为马尔可夫决策过程,由于观测数据只来自于对应的,是对环境信息的部分观测,该决策问题属于部分观测马尔可夫决策过程(,)。包含个元素(,),其中:为环境的状态空间,包含运行环境中的所有可能状态;为动作空间,包括对的控制指令;为状态转移函数,表示执行动作后状态转移的概率;为奖励函数,用来评价状态转移过程;为观测空间();为 对 环 境 状 态 的 观 测 函 数()。在建立的模型中,依据对环境的观测决策出控制指令,因此不需要考虑环境的相关元素,下面详细介绍避障问题中的观测空间、动作空间与奖励函数。观测空间 在时刻观测到的信息包括周围环境数据、运行速度、避障过程的全局路径引导方向以及表示 位置与局部目标点位置的,如图所示。由布置在 前端的激光雷达扫描产生,可以探测 的平面区域,角分辨率为,全部的雷达探测数据维度过高,不利于计算,因此在每个时刻等间隔()抽取 个数据()作为最终的输入,雷达测距半径为 ;为 的运行速度,由 行驶的线速度和角速度(,)表示();为表示全局路径方向的二维向量();表示 与避障目标点的位置关系,同样由二维向量表示()。单次观测包含环境中障碍物的静态信息(如形状、位置等),为了提高决策的有效性,需要利用环境中的动态信息,因此使用最近的个连续观测值组成的观测序列(),(),)推测障碍的速度、运动趋势等信息。观测序列中的观测数量越多,包含的环境信息也越充分,可以提高决策的准确率,但过多的信息会影响计算的速度,对决策的时效性产生负面影响,综合考虑本文取,即(,)作为观测序列。在开始避障的时刻,观测序列取(,)。动作空间动作 空 间 是允许 的 运 行 速 度,本 文 以的线速度和角速度作为控制指令控制其运动,即(,),的运动模型如式()。由于只能观测到前方的环境,决策出的动作只能控制 前进或者转向,设置动作的取值为,。奖励函数局部避障路径规划的目标是在无碰撞约束、全局路径引导约束、轨迹平滑约束下以最短的时间完成避障。上文通过对动作进行 控制处理实现了轨迹平滑约束,下面介绍奖励函数的设置以实现优化目标与其余两种约束。本研究的奖励函数设置为:。()固定奖励是完成避障前每一步决策的消极奖励,用于鼓励 缩短决策时间,尽快完成避障,固定奖励对应于 以最大速度、与全局方向同方向的运行距离 ,是一个负常数。切向运行奖励表示 在全局路径方向的移动得到的奖励,切向移动的距离为。计算机集成制造系统第 卷当时,表示 在前进,因此给与正奖励;当时,表示 在后退,给与负奖励。奖励值大小如式():,(前进);,(后退)。()切向奖励根据切向距离的大小与固定奖励成比例。法向运行奖励表示在靠近或偏离全局路径时得到的奖励,在时刻执行动作后位置向量由变为,和在的法向量上投影的模长分别为和,轨迹在全局路径法向上的变化量为。当时,说明偏离了全局路径,应该给与负奖励;当时,说明靠近或没有偏离全局路径,应该给与正奖励。奖励大小的设计也是以固定奖励为基础,为了鼓励能沿着全局路径运行以及在完成避障后与后续路径的方向保持一致,法向奖励为