温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
IMM
PPO
无人机
机动
目标
追踪
成旭明
第 卷 第 期 年 月弹 箭 与 制 导 学 报 ,.:收稿日期:作者简介:成旭明(),男,江苏盐城人,硕士研究生,研究方向:无人机自主规划与控制。基于 的无人机机动目标追踪成旭明,丛玉华,欧阳权,王志胜(南京航空航天大学自动化学院,南京)摘 要:针对无人机在复杂障碍物环境下追踪机动目标的问题,提出了一种基于 的导航跟踪策略,估计多模型混合的机动目标状态信息,设计基于目标跟踪性能、追踪逼近时间以及障碍物约束的奖惩函数,并在 网络结构下设计近端策略优化的算法框架,通过智能体与环境交互,训练出奖励最大化下的网络参数。训练后的决策网络能够根据环境信息完成避障导航并实现对机动目标的稳定跟踪。仿真结果表明,相比于传统避障跟踪算法,基于 的导航跟踪策略具有更好的跟踪性能、更快的追踪速度以及更短的避障导航路径,且在初始条件改变的情况下仍具有一定的自主追踪能力,在应用于无人机机动目标追踪任务中时具备更大的优势。关键词:强化学习;多旋翼无人机;目标跟踪;路径规划中图分类号:文献标志码:,(,):,:;引言随着航空、军事领域的发展,空中侦察追逃、灾后搜索救援等任务的危险和损耗与日俱增。无人机因其高机动性、低成本性,在这些任务中得到广泛的应用。如何使无人机在复杂环境下具备自主避障导航与跟踪机动目标的能力是在实际应用中需要解决的难题,为此国内外学者进行了深入研究。智能体在复杂环境中进行自主避障跟踪可以视为一类具有动态目标点的路径规划问题,在常见的路径规划问题上,等通过生成详细网格地图为智能体提供全局信息,采用改进的 算法完成路径规划。等采用 算法在环境不确定性下规划智能体轨迹。等将规划问题转换为目标优化问题,并提出了一种基于牛顿引力的启发式算法进行搜索寻优。上述的路径规划策略在全局规划上具备一定的优势,但对智能体模型与地图环境的信息有较高的要求。随着计算机技术与人工智能的发展,一些研究者尝试将强化学习应用于无人机导航任务中,取得了不错的成果。是强化学习中一种较为常用的算法,能够通过判断长期折扣奖励评估智能体的学习优劣。等设计了基于 的自适应路径探索与避障策略,用以无人机导航。等改进了 的动作选择策略并采用新的 值初始化方法,使无人机具有更强的探索最优路径的能第 期成旭明等:基于 的无人机机动目标追踪力。深度神经网络以其强大的函数逼近拟合能力,与强化学习结合衍生出许多改进算法,等将经验回放思想引入 提出了 ,相比 在无人机避障与跟踪任务上具有更快的收敛速度与更强的泛化性。等采用分布式深度强化学习框架,利用 神经网络处理时序问题的能力,提出了分层 的学习方法,能够在高动态环境中完成导航。以上方法虽然具备完成导航任务的能力,但也存在智能体动作空间离散的局限性。与这些方法中的离散动作空间不同,在实际应用中,无人机的动作空间往往是连续的,在现有的研究中,等基于连续动作空间的 算法框架,改进了演员 评价者()网络结构,使其对历史观测具备更好的拟合能力,对地面目标跟踪性能更优。在 探索中引入混合噪声,对飞行任务解构并基于迁移学习的思想进行预训练权重,在面对不确定环境时具有良好的泛化性。以上研究通过强化学习训练决策网络,能够对移动目标进行有效避障跟踪,但在面对具有混合运动模型的机动目标时,缺少了对目标的状态估计步骤,在实际任务中具有较大的偏差。针对上述缺陷,提出一种基于交互式多模型滤波()和近端策略优化()的机动目标追踪跟随策略,定义了以无人机运动模型为基础的动作空间以及用来表示环境信息的状态空间,根据追踪时间、跟踪性能以及避障约束构建奖惩函数,设计避障跟踪决策网络并进行训练。根据仿真实验分析,提出的方法相比传统算法在动态环境中具备更优秀的追踪避障及跟踪性能。问题描述 无人机运动模型研究无人机在三维空间中的动态目标追踪任务,假设能够通过自动驾驶仪使无人机运动在某一固定高度,无人机在二维坐标系中满足如下的连续运动方程:()()()()()()()()|()式中:(),()为 时刻无人机在二维坐标系中的位置;()表示 时刻无人机朝向方向的线速度;(),()分别为 时刻无人机的偏航角与偏航角速度。将运动方程离散化可以得到从 时刻到()时刻的无人机状态更新方程为:()()()()()()()()()()()|()式中 为离散时间间隔。任务目标及约束无人机在复杂障碍物环境中追踪并跟随移动目标需要综合考虑目标跟踪性能与追踪耗时,同时需要满足任务过程中的避障约束。目标跟踪性能对机动目标的跟踪性能通常可以用无人机与目标的距离表示,提升跟踪性能即缩短无人机在单位时间内与目标的距离。跟踪性能对应的目标函数可以表示为:()式中,分别表示 时刻无人机和机动目标在坐标系中的位置。追踪耗时在无人机实际执行目标跟踪任务时,会存在起始位置与目标起始位置相距较大的问题。在这种情况下,无人机需要自主规划路径以快速追踪并逼近机动目标,因此缩短无人机追踪目标的时间是需要考虑的另一个重要目标。追踪时间的待优化目标函数可以表示为:()式中 为无人机到达目标跟踪范围内的采样步数。避障约束在无人机的飞行域内存在大小、方位均未知的静止障碍物,可视为移动障碍物的敌方无人机,追踪无人机在感知到敌方无人机后能够获取其最大半径及当前时刻的状态信息。在复杂障碍物环境下,考虑到算法学习的收敛性,将实际观测窗信息进行处理,压缩至 条激光束,且每个激光束的相隔角度为 ,如图 所示。图 基于激光测距的无人机障碍物检测图中:为无人机当前的速度矢量;,弹 箭 与 制 导 学 报第 卷,为第 个从无人机出发的激光束测得的与障碍物的距离,且。任务环境中存在静止障碍与运动状态已知的移动障碍,若在无人机导航过程中发生碰撞,则任务失败,因此无人机需要与障碍物保持合理安全的距离,约束条件为:(,)()式中 为安全避障距离。基于 的无人机避障跟踪为了实现复杂环境下对机动目标更准确的跟踪,将 与 算法结合,对机动目标进行多模型融合状态估计,并将融合输出结合其他观测量构建状态空间,作为强化学习算法 网络的输入,训练无人机自主跟踪决策模型。作为一种基于策略的算法,算法解决了传统策略梯度算法收敛依赖步长选择的问题并提高了经验利用率,使训练过程能够更快收敛。跟踪目标状态估计卡尔曼滤波常用于运动目标的状态估计,而在复杂环境下,机动目标的运动模型往往不是单一的,基于 的滤波方法能够考虑多个运动模型的转移概率,通过马尔可夫转移矩阵完成模型概率更新,从而得到多个滤波器的融合输出估计。的优化过程如图 所示。图 交互式多模型滤波融合估计定义模型间的概率转移矩阵 为:|()其中(,;,)代表由模型 转换到模型 的概率,根据转移概率及概率更新计算模型混合概率为:()()()式中 ()为归一化系数。时刻模型 的状态估计()和协方差矩阵()分别为:()()()()()()()()()()()()将其作为 时刻对应于模型 的滤波器输入得到估计值()及误差协方差矩阵()。模型 的概率更新采用最大似然函数法,选取似然函数为:()()()()()()式中(),()分别为滤波残差与其协方差,由对应于模型 的滤波器输出得到,概率更新方式为:()()()其中 为归一化系数。由概率更新以及各滤波器输出得到多模型的交互融合滤波估计()为:()()()()至此完成了 时刻运动目标的状态估计。基于强化学习的目标跟踪框架 动作空间和状态空间设计参照 节中无人机运动模型,以无人机朝向方向的线速度 与偏航角速度 作为控制量输入,强化学习动作空间可表示为:(,)()状态空间从 个角度构建:)无人机自身信息;)对障碍物和动态威胁的观测量;)机动目标的状态估计。在强化学习算法中,为了消除状态信息的维度不同对训练效果造成的影响,对状态空间 (,)中不同量纲的分量进行归一化处理,分别表示为:,|(),|()第 期成旭明等:基于 的无人机机动目标追踪,()(),|()其中:(,)为当前时间步下无人机于坐标系下的位置坐标;,分别为矩形飞行域的长、宽;为无人机偏航角;为无人机最大允许线速度;表示碰撞域的状态信息;表示当前无人机和目标的连线与坐标系 轴所成夹角。无人机追踪机动目标的过程如图 所示。图 无人机追踪机动目标示意图 奖惩函数设计针对无人机自主避障跟踪的奖惩函数设计建立在指标函数与约束条件的基础之上。一种常用的设计思路是采用稀疏奖惩,即智能体仅在回合结束的情况下得到奖惩,这就需要智能体以不加引导的随机动作不断探索环境以获得奖惩,会导致算法的收敛速度降低,并且容易陷入局部最优解。因此在任务中,奖惩函数由稀疏奖惩与单步奖惩组成,稀疏奖惩仅在特定任务完成或回合结束时产生,单步奖惩则在智能体与环境的每一步交互后产生,旨在引导智能体更快地完成追踪任务。)障碍物惩罚函数根据状态空间及避障约束条件设计障碍物惩罚函数,利用状态信息,构造虚拟斥力场的思想,在无人机接近障碍物时给以较大的惩罚,而在远离障碍物时给以较小的惩罚,在未检测到障碍物时惩罚为,设置单步惩罚函数的数学形式为:()()式中 为障碍物惩罚系数。在面对具有避障功能的移动障碍物时,基于碰撞域提出一种考虑碰撞时间的惩罚函数设计方法。为了方便计算,将障碍物与无人机形状简化为其最小外接圆。如图 所示,其中,分别为无人机速度矢量和半径,分别为障碍物速度矢量和半径。图 无人机与移动障碍物示意图为了计算碰撞速度域,将无人机视为质点,则障碍物的相对半径为 ,无人机相对于障碍物的相对速度 。设处理后的无人机与障碍物圆心分别表示为,定义相对碰撞速度域为从 到 的两条切线所构成的区域,如图()阴影部分所示,其数学形式可表示为式(),定义绝对碰撞速度域 为 沿速度矢量 平移后新的区域,如图()所示,数学表达式如式()所示。其中表示闵可夫斯基和。()()图 碰撞域示意图根据碰撞域的数学形式,当无人机的线速度矢量处于碰撞域 内时,经过时间,智能体将与移动障碍物发生碰撞。基于预期碰撞时间的单步惩罚函数构造为:()()式中:为碰撞时间奖励系数;为当前状态下无人机与动态障碍物预期碰撞时间;()为布尔量,当距离弹 箭 与 制 导 学 报第 卷传感器探测到动态障碍时为,否则为。该惩罚项表示当动态障碍处于无人机传感器观测窗内时,无人机与动态障碍的预期碰撞时间越短则获得的惩罚越大,反之获得的惩罚越小,从而能够引导无人机根据环境状态调整动作(,),达到实时避障的效果。因此用于避障约束的单步罚函数表示形式为:()此外,为了缩减训练时间使其更快收敛,在无人机撞到障碍物或边界时将得到稀疏惩罚:撞到障碍物或边蜀其他()快速追踪奖励函数复杂环境下追踪目标需要无人机以较短的时间完成避障导航并快速进入目标跟踪范围,因此在避障导航阶段决策网络需要提供较大的速度决策量,设置单步奖励函数为:()()()式中:为速度奖惩系数;为时间奖惩系数;为最大允许速度;()为布尔量;为当前所在时间步;为当前时刻无人机与目标的相对距离。当无人机位于目标跟踪范围内时为,否则为。式()反应在避障导航阶段,无人机速度与最大允许速度越接近,得到的惩罚越少,反之则得到的惩罚越大。式()反应在时间步长一定的情况下,无人机与目标相距越近,得到的惩罚越小,鼓励无人机快速接近目标。因此,快速追踪的单步奖励函数表示形式为:()此外,为了鼓励无人机到达跟踪范围,在完成避障导航后,给以稀疏奖励:到达跟踪范围未到达跟踪范围()跟踪性能奖励函数为了实现更精准的无人机地面目标跟踪,需要使跟踪阶段的无人机具有与目标接近的速度,且在二维平面上无人机与目标的距离越小代表跟踪性能越好。因此设置基于速度、距离和角度的奖惩函数分别为:()()()()()|()式中:为距离奖惩系数;为角度奖惩系数;为机动目标速度;,分别表示上一时刻与这一时刻无人机与目标的相对距离;表示无人机的实际偏航角;表示当前状态下无人机的期望偏航角;()为布尔量,当无人机的速度矢量处于碰撞锥内时为,当处于碰撞锥外,或无人机未检测到动态障碍时为。式()表示无人机的速度大小与目标速度大小的差值越大获得的奖励越少,否则获得的奖励越多,鼓励无人机以和机动目标相近的速度进行跟踪。式()表示当无人机缩短与目标的距离