温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
逆向
强化
学习
无人机
路径
规划
杨秀霞
引用格式:杨秀霞,王晨蕾,张毅,等 基于逆向强化学习的无人机路径规划 电光与控制,():,():基于逆向强化学习的无人机路径规划杨秀霞,王晨蕾,张 毅,于 浩,姜子劼(海军航空大学,山东 烟台)摘 要:为了解决深度确定性策略梯度()算法在规划无人机()安全避障路径时收敛速度慢、奖励函数设置困难等问题,基于逆向强化学习提出了一种融合专家演示轨迹的 路径规划算法。首先,基于模拟器软件采集专家操纵 避障的演示轨迹数据集;其次,采用混合采样机制,在自探索数据中融合高质量专家演示轨迹数据更新网络参数,以降低算法探索成本;最后,根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数,解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明,改进后的算法能有效提升算法训练效率且避障性能更优。关键词:无人机;路径规划;逆向强化学习;深度确定性策略梯度中图分类号:文献标志码:,(,):,(),:;引言随着无人机()领域的进一步开放,城市、山地等复杂环境中的密集动态障碍使 的飞行安全受到了极大威胁。传统的路径规划算法,如,等启发式算法以及基于图论的通视图法、图法等,仅能应对提前获知障碍信息的简单环境。但由于城市、山地地形复杂多变,且难以获取障碍的具体参数,传收稿日期:修回日期:基金项目:山东省自然科学基金()作者简介:杨秀霞(),女,山东莱州人,博士,教授,博导。通讯作者:王晨蕾(),女,浙江杭州人,硕士生。统避障算法应用范围受限。不同于上述传统路径规划方法,基于强化学习的导航方法借鉴生物后天感知发育的学习方式,通过与环境的交互持续优化避障策略,不仅避免了对障碍建模和监督学习的依赖,而且具备较强的泛化能力和鲁棒性。特别是,近年来深度强化学习利用深度学习强大的感知与函数拟合能力,有效缓解了高维环境状态空间和决策空间“指数爆炸”问题,为 在密集动态障碍环境下的路径规划问题提供了新思路。、团队、伯克利大学的 以及 相继提出了 算法、异步优势()算法、置信域策略优化()算法和近端策略优化()等深度第 卷 第 期 年 月 电 光 与 控 制 强化学习算法。尽管上述算法在 路径规划方面有明显优势,但往往需要探索大量随机障碍环境样本以尝试新策略,容易陷入局部最优。此外,算法中人为设计的奖励函数大多具有强烈的主观性,仅仅通过与环境交互获取的奖励通常比较稀疏,导致算法在训练时极难收敛,路径规划效果欠佳。针对上述问题,本文基于逆向强化学习提出了一种融合专家演示轨迹的 路径规划算法,仿真实验结果表明,本文算法能够有效提升算法训练效率且避障性能更优。仿真环境和问题描述 仿真环境本文仿真环境主要分为两部分:)基于 模拟器软件中自带的复杂障碍场景获取专家演示轨迹;)基于 搭建简单障碍场景用于 同环境交互生成自探索数据样本。专家演示轨迹的采集基于运行游戏公司开发的专业无线电控制飞行模拟软件 。在 模拟器中采集专家演示轨迹,主要用到以下 个组件:)遥控器模块,使遥控器的各通道与 模型的功能相匹配,包括方向舵、升降舵、油门、副翼的杆量行程,用以控制 的运动;)模型模块,包含固定翼和旋翼等多种机型;)场景模块,提供上百种三维仿真障碍环境,可自定义风力、光照等变量模拟现实。在仿真环境里,可以通过接口函数获取 飞行速度、航向角、定位、陀螺仪、气压计等数据,并实时显示。各组件及数据显示如图 所示。图 模拟器组件及数据显示 手动操纵 模型在 模拟器中避障训练的框架如图 所示。在三维仿真障碍环境中获取环境状态信息(障碍位置、与障碍间的距离等)后,专家手动操纵遥控器方向舵、升降舵、油门、副翼杆量行程,不断调节 模型航向角、俯仰角和飞行速度等进行避障。图 模拟器训练框图 从 模拟器中收集到的部分专家演示轨迹如图 所示。图 专家演示轨迹数据集 在模拟器中收集障碍环境数据集的好处如下:)模拟器中障碍设置和场景类型复杂多变,与现实世界贴近度高;)训练完全在模拟场景中进行,可以手动操纵无人机模拟多种不同的机动动作,以确定最佳的飞行策略;)模拟器直观显示避障过程中每一时刻的单目 图像以及 的航向角、飞行速度等参数而无需使用复杂传感器感知测算;)不用考虑碰撞损坏和安全问题。图 测试环境示意图 为测试算法性能搭建如图 所示的三维障碍环第 卷电 光 与 控 制杨秀霞等:基于逆向强化学习的无人机路径规划境,使 在同环境交互中生成自探索数据集。障碍环境的长为、宽为、高为,环境内存在不同威胁程度的动、静态障碍物,障碍物的空间位置、运动速度和影响范围均未知。问题描述本文所涉及的路径规划任务描述如下:从起始点出发,通过路径规划算法寻找无碰撞路径,按规划路径飞行并躲避障碍物,最后安全达到目标点。基于上述设定,本文提出算法的目标有 个:)最快规划出 的避障路径,因此在算法训练阶段,利用高奖励值的专家演示轨迹降低训练初期探索成本,提升路径规划效率;)确保 避障路径尽可能最优。本文基于最大熵 算法,借鉴专家成熟的避障经验,从专家演示轨迹求解最优奖励函数。基于融合专家经验损失的 算法针对原始 算法探索空间大、初始阶段样本奖励值低的缺点,提出一种融合专家经验损失的改进 算法优化策略迭代。原始 算法的训练样本只包含同环境交互自探索生成的数据集,改进的算法采用混合采样机制,在自探索样本的基础上引入部分专家演示轨迹样本。对于专家轨迹数据集,引入专家经验损失函数指导策略网络参数的迭代更新,加快求解最优策略;自探索数据样本则仍根据原始 算法更新。混合采样机制在 避障训练中,为了避免 初始训练阶段随机低效探索造成的资源浪费,同时尽可能实现样本的多元化,进而突破专家策略隐含的上限,如图 所示。图 混合采样机制 本文算法的经验池由专家演示轨迹数据集 和自探索轨迹数据集 共同组成,并采用混合采样机制从两个数据集中分别采样形成最终训练数据,()式中:为从训练集 中采样的比重;为从训练集中采样的比重。优化网络参数融合专家经验损失的 算法由在线策略网络()、在线值函数网络(,)、目标策略网络()和目标值函数网络(,)部分组成,其中:为状态;为动作;,分别为在线策略网络参数和在线值函数网络参数;,分别为目标策略网络参数和目标值函数网络参数。根据贝尔曼方程,在第 个训练时间步,值函数网络的动作目标值 为 (,()()式中:为奖励函数;为折扣因子。则在线值函数网络的动作目标值与实际输出(,)之间的误差 为 (,)。()将式()代入式(),可得出在线值函数网络的损失函数为()()式中,为数学期望。通过梯度下降法最小化损失函数(),对在线值函数网络参数 进行优化更新,令()对 求导,可得其梯度值()为()(,)。()在线值函数网络参数的更新根据式()进行。在线策略网络参数的优化则分为专家演示轨迹样本和自探索样本两部分进行。对于专家示例轨迹数据,可将在线策略网络基于当前专家状态 预测的即时策略 与真实专家策略 的均方误差()作为专家经验损失引入策略网络,使得网络的预测输出策略不断趋于专家策略()()()式中,()为在线策略网络基于当前专家状态 预测的即时策略。令专家经验损失()对在线策略网络参数 求导,可得其梯度值()为()()()。()由于专家策略轨迹有限,不能涵盖整个状态、动作空间,而 能够在与环境的交互中探索更大空间,进而突破专家策略隐含的上限,提升算法稳定性。因此,在引入专家经验损失梯度优化在线策略迭代过程的同时,也保留自探索轨迹数据集并按照原始 算法的在线策略梯度值()更新在线策略网络参数,()(,)()()。()采用一种包含专家经验损失在线策略梯度()和原始在线策略梯度()的专家经验损失函数法,一方面引入高质量的专家策略节约初始阶段探索空间,提升算法收敛效率,另一方面在自我探索中不断学习,以尝试获取专家轨迹中未涉及的更优策略。最 第 期终按照()()()()采用融合梯度()更新在线策略网络的参数。式中,为融合梯度调节因子。目标网络参数的更新基于在线网络参数采用软更新的方式 ()()()式中,常数 。基于 算法求解奖励函数 算法可分为最大边际和最大熵两大类,基于最大边际的方法往往会产生歧义,即可以从相同的专家策略中推导出具有随机偏好的不同奖励函数。而最大熵模型完全基于已知数据(即专家轨迹)构建,没有对未知信息做任何主观假设的分布,有效避免了歧义性问题。因此,采用基于最大熵 算法求解专家演示轨迹中隐含的最优奖励函数。基于 算法求解奖励函数可以描述为在已知专家演示轨迹的情况下,求解产生该轨迹的隐含概率模型。已知专家操控 避障生成的轨迹 为 (,),(,),(,)()则该轨迹的奖励值()为(),(,),。()采用有限数量的重要特征函数()的线性组合拟合奖励函数,则(),(,),(,)()式中:为奖励函数的第 个特征分量;为奖励函数权重向量的第 个分量;为奖励函数中特征向量的个数。在专家操纵 避障过程中,专家操控手往往根据当前 飞行速度、与障碍物之间的方位距离等因素进行决策。因此,相对障碍物的欧氏距离、相对距离航向角、相对距离爬升角、相对障碍物的运动速度、相对运动速度航向角、相对运动速度爬升角 等信息属于 避障过程中的重要特征,故(,)(,)。()定义()为式()中各个状态的特征分量之和,即(),(,)。()将式()代入式(),则每条轨迹的奖励值为()()。()给定 条专家轨迹,则专家轨迹的特征期望为。()在已知专家轨迹的情况下,假设潜在的概率分布为(),则专家轨迹的特征期望为()()式中,为一般轨迹的特征期望。最大熵模型完全基于式()中已知的数据(即专家轨迹)构建,没有对未知情况做任何主观假设,因此可以有效避免自定义奖励函数存在的歧义问题。将求解最大熵问题转换为优化问题 ()(),式中:为熵最大的概率模型;()。将上述最优化问题转化为对偶形式()()()()式中:,为拉格朗日乘子;为第 条轨迹的特征期望。令损失函数()对专家轨迹分布概率 求导,可得()。()令式()等于零,则得到专家轨迹的最大熵概率模型 ()()()()式中,对应奖励函数中权重向量。()()()()(,(,)()式中,()为配分函数,即所有可能出现的专家轨迹概率之和。在如式()所示的概率模型中,专家轨迹出现的概率越大,即()越大,则奖励函数设置越逼近专家示例中隐含的最优策略。可将求解最优奖励函数转化为最大化专家轨迹分布的熵进行优化()()()。()将式()转化为奖励函数权重向量 的最小化负对数似然函数,求解损失量()()。()通过计算当前策略下的专家轨迹预测配分函数()()()()()式中:为当前策略下的专家轨迹;为当前策略下第 卷电 光 与 控 制杨秀霞等:基于逆向强化学习的无人机路径规划专家轨迹的数量;为当前动作选择策略。由于专家认知存在一定差异,为了减小奖励函数权重 的拟合方差,对被采样的专家轨迹中连续的专家状态 和对应的真实专家策略 做离散化处理,并从中随机批采样,将式()转化为 ()()式中,损失函数()为(),(,),(,)()。()令损失函数()对奖励函数的权重 求导,通过梯度下降法求解最优奖励函数,可得(),(,),(,)(,)()(,)()通过式()最终可以学习到奖励函数的全局最优解(,)。基于逆向强化学习的 路径规划流程根据第 章提出的融合专家演示轨迹的策略更新算法和第 章基于最大熵逆向强化学习求解奖励函数算法改进 算法,其训练框架如图 所示。图 改进的 算法训练框架 采用改进 算法避障问题可以描述为:在一系列连续的决策时刻,策略网络根据 当前状态 做出一个决策;在决策实施后,策略网络根据逆向强化学习设计的奖励函数获取即时奖励值,该奖励与网络决策和环境状态相对应,之后网络将进入决策所对应下一时刻的状态并通过融合专家监督损失的 算法正向更新网络参数;在新的训练时间步,网络将根据当前所处的新状态执行新的决策并获得新的奖励值,依此循环往复,直至网络在专家轨迹隐含的最优奖励函数下以最优策略完成飞行任务。算法执行流程如下。)随机初始化在线策略网络()和在线值函数网络(,)的网络参数 和,初始化目标网络 和 及其权重。)根据式()构造奖励函数,初始化奖励函数权重。)初