基于逆向强化学习的无人机路径规划_杨秀霞.pdf

下载文档

ID：2641160

大小：1.38MB

页数：7页

格式：PDF

时间：2023-08-20

 收藏分享赚钱赏

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

0人已下载

文本预览

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。
网站客服：3074922707

基于逆向强化学习无人机路径规划杨秀霞

引用格式：杨秀霞，王晨蕾，张毅，等基于逆向强化学习的无人机路径规划电光与控制，（）：，（）：基于逆向强化学习的无人机路径规划杨秀霞，王晨蕾，张毅，于浩，姜子劼（海军航空大学，山东烟台）摘要：为了解决深度确定性策略梯度（）算法在规划无人机（）安全避障路径时收敛速度慢、奖励函数设置困难等问题，基于逆向强化学习提出了一种融合专家演示轨迹的路径规划算法。首先，基于模拟器软件采集专家操纵避障的演示轨迹数据集；其次，采用混合采样机制，在自探索数据中融合高质量专家演示轨迹数据更新网络参数，以降低算法探索成本；最后，根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数，解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明，改进后的算法能有效提升算法训练效率且避障性能更优。关键词：无人机；路径规划；逆向强化学习；深度确定性策略梯度中图分类号：文献标志码：，（，）：，（），：；引言随着无人机（）领域的进一步开放，城市、山地等复杂环境中的密集动态障碍使的飞行安全受到了极大威胁。传统的路径规划算法，如，等启发式算法以及基于图论的通视图法、图法等，仅能应对提前获知障碍信息的简单环境。但由于城市、山地地形复杂多变，且难以获取障碍的具体参数，传收稿日期：修回日期：基金项目：山东省自然科学基金（）作者简介：杨秀霞（），女，山东莱州人，博士，教授，博导。通讯作者：王晨蕾（），女，浙江杭州人，硕士生。统避障算法应用范围受限。不同于上述传统路径规划方法，基于强化学习的导航方法借鉴生物后天感知发育的学习方式，通过与环境的交互持续优化避障策略，不仅避免了对障碍建模和监督学习的依赖，而且具备较强的泛化能力和鲁棒性。特别是，近年来深度强化学习利用深度学习强大的感知与函数拟合能力，有效缓解了高维环境状态空间和决策空间“指数爆炸”问题，为在密集动态障碍环境下的路径规划问题提供了新思路。、团队、伯克利大学的以及相继提出了算法、异步优势（）算法、置信域策略优化（）算法和近端策略优化（）等深度第卷第期年月电光与控制强化学习算法。尽管上述算法在路径规划方面有明显优势，但往往需要探索大量随机障碍环境样本以尝试新策略，容易陷入局部最优。此外，算法中人为设计的奖励函数大多具有强烈的主观性，仅仅通过与环境交互获取的奖励通常比较稀疏，导致算法在训练时极难收敛，路径规划效果欠佳。针对上述问题，本文基于逆向强化学习提出了一种融合专家演示轨迹的路径规划算法，仿真实验结果表明，本文算法能够有效提升算法训练效率且避障性能更优。仿真环境和问题描述仿真环境本文仿真环境主要分为两部分：）基于模拟器软件中自带的复杂障碍场景获取专家演示轨迹；）基于搭建简单障碍场景用于同环境交互生成自探索数据样本。专家演示轨迹的采集基于运行游戏公司开发的专业无线电控制飞行模拟软件。在模拟器中采集专家演示轨迹，主要用到以下个组件：）遥控器模块，使遥控器的各通道与模型的功能相匹配，包括方向舵、升降舵、油门、副翼的杆量行程，用以控制的运动；）模型模块，包含固定翼和旋翼等多种机型；）场景模块，提供上百种三维仿真障碍环境，可自定义风力、光照等变量模拟现实。在仿真环境里，可以通过接口函数获取飞行速度、航向角、定位、陀螺仪、气压计等数据，并实时显示。各组件及数据显示如图所示。图模拟器组件及数据显示手动操纵模型在模拟器中避障训练的框架如图所示。在三维仿真障碍环境中获取环境状态信息（障碍位置、与障碍间的距离等）后，专家手动操纵遥控器方向舵、升降舵、油门、副翼杆量行程，不断调节模型航向角、俯仰角和飞行速度等进行避障。图模拟器训练框图从模拟器中收集到的部分专家演示轨迹如图所示。图专家演示轨迹数据集在模拟器中收集障碍环境数据集的好处如下：）模拟器中障碍设置和场景类型复杂多变，与现实世界贴近度高；）训练完全在模拟场景中进行，可以手动操纵无人机模拟多种不同的机动动作，以确定最佳的飞行策略；）模拟器直观显示避障过程中每一时刻的单目图像以及的航向角、飞行速度等参数而无需使用复杂传感器感知测算；）不用考虑碰撞损坏和安全问题。图测试环境示意图为测试算法性能搭建如图所示的三维障碍环第卷电光与控制杨秀霞等：基于逆向强化学习的无人机路径规划境，使在同环境交互中生成自探索数据集。障碍环境的长为、宽为、高为，环境内存在不同威胁程度的动、静态障碍物，障碍物的空间位置、运动速度和影响范围均未知。问题描述本文所涉及的路径规划任务描述如下：从起始点出发，通过路径规划算法寻找无碰撞路径，按规划路径飞行并躲避障碍物，最后安全达到目标点。基于上述设定，本文提出算法的目标有个：）最快规划出的避障路径，因此在算法训练阶段，利用高奖励值的专家演示轨迹降低训练初期探索成本，提升路径规划效率；）确保避障路径尽可能最优。本文基于最大熵算法，借鉴专家成熟的避障经验，从专家演示轨迹求解最优奖励函数。基于融合专家经验损失的算法针对原始算法探索空间大、初始阶段样本奖励值低的缺点，提出一种融合专家经验损失的改进算法优化策略迭代。原始算法的训练样本只包含同环境交互自探索生成的数据集，改进的算法采用混合采样机制，在自探索样本的基础上引入部分专家演示轨迹样本。对于专家轨迹数据集，引入专家经验损失函数指导策略网络参数的迭代更新，加快求解最优策略；自探索数据样本则仍根据原始算法更新。混合采样机制在避障训练中，为了避免初始训练阶段随机低效探索造成的资源浪费，同时尽可能实现样本的多元化，进而突破专家策略隐含的上限，如图所示。图混合采样机制本文算法的经验池由专家演示轨迹数据集和自探索轨迹数据集共同组成，并采用混合采样机制从两个数据集中分别采样形成最终训练数据，（）式中：为从训练集中采样的比重；为从训练集中采样的比重。优化网络参数融合专家经验损失的算法由在线策略网络（）、在线值函数网络（，）、目标策略网络（）和目标值函数网络（，）部分组成，其中：为状态；为动作；，分别为在线策略网络参数和在线值函数网络参数；，分别为目标策略网络参数和目标值函数网络参数。根据贝尔曼方程，在第个训练时间步，值函数网络的动作目标值为（，（）（）式中：为奖励函数；为折扣因子。则在线值函数网络的动作目标值与实际输出（，）之间的误差为（，）。（）将式（）代入式（），可得出在线值函数网络的损失函数为（）（）式中，为数学期望。通过梯度下降法最小化损失函数（），对在线值函数网络参数进行优化更新，令（）对求导，可得其梯度值（）为（）（，）。（）在线值函数网络参数的更新根据式（）进行。在线策略网络参数的优化则分为专家演示轨迹样本和自探索样本两部分进行。对于专家示例轨迹数据，可将在线策略网络基于当前专家状态预测的即时策略与真实专家策略的均方误差（）作为专家经验损失引入策略网络，使得网络的预测输出策略不断趋于专家策略（）（）（）式中，（）为在线策略网络基于当前专家状态预测的即时策略。令专家经验损失（）对在线策略网络参数求导，可得其梯度值（）为（）（）（）。（）由于专家策略轨迹有限，不能涵盖整个状态、动作空间，而能够在与环境的交互中探索更大空间，进而突破专家策略隐含的上限，提升算法稳定性。因此，在引入专家经验损失梯度优化在线策略迭代过程的同时，也保留自探索轨迹数据集并按照原始算法的在线策略梯度值（）更新在线策略网络参数，（）（，）（）（）。（）采用一种包含专家经验损失在线策略梯度（）和原始在线策略梯度（）的专家经验损失函数法，一方面引入高质量的专家策略节约初始阶段探索空间，提升算法收敛效率，另一方面在自我探索中不断学习，以尝试获取专家轨迹中未涉及的更优策略。最第期终按照（）（）（）（）采用融合梯度（）更新在线策略网络的参数。式中，为融合梯度调节因子。目标网络参数的更新基于在线网络参数采用软更新的方式（）（）（）式中，常数。基于算法求解奖励函数算法可分为最大边际和最大熵两大类，基于最大边际的方法往往会产生歧义，即可以从相同的专家策略中推导出具有随机偏好的不同奖励函数。而最大熵模型完全基于已知数据（即专家轨迹）构建，没有对未知信息做任何主观假设的分布，有效避免了歧义性问题。因此，采用基于最大熵算法求解专家演示轨迹中隐含的最优奖励函数。基于算法求解奖励函数可以描述为在已知专家演示轨迹的情况下，求解产生该轨迹的隐含概率模型。已知专家操控避障生成的轨迹为（，），（，），（，）（）则该轨迹的奖励值（）为（），（，），。（）采用有限数量的重要特征函数（）的线性组合拟合奖励函数，则（），（，），（，）（）式中：为奖励函数的第个特征分量；为奖励函数权重向量的第个分量；为奖励函数中特征向量的个数。在专家操纵避障过程中，专家操控手往往根据当前飞行速度、与障碍物之间的方位距离等因素进行决策。因此，相对障碍物的欧氏距离、相对距离航向角、相对距离爬升角、相对障碍物的运动速度、相对运动速度航向角、相对运动速度爬升角等信息属于避障过程中的重要特征，故（，）（，）。（）定义（）为式（）中各个状态的特征分量之和，即（），（，）。（）将式（）代入式（），则每条轨迹的奖励值为（）（）。（）给定条专家轨迹，则专家轨迹的特征期望为。（）在已知专家轨迹的情况下，假设潜在的概率分布为（），则专家轨迹的特征期望为（）（）式中，为一般轨迹的特征期望。最大熵模型完全基于式（）中已知的数据（即专家轨迹）构建，没有对未知情况做任何主观假设，因此可以有效避免自定义奖励函数存在的歧义问题。将求解最大熵问题转换为优化问题（）（），式中：为熵最大的概率模型；（）。将上述最优化问题转化为对偶形式（）（）（）（）式中：，为拉格朗日乘子；为第条轨迹的特征期望。令损失函数（）对专家轨迹分布概率求导，可得（）。（）令式（）等于零，则得到专家轨迹的最大熵概率模型 ()（）()（）式中，对应奖励函数中权重向量。（）（）（）（）（，（，）（）式中，（）为配分函数，即所有可能出现的专家轨迹概率之和。在如式（）所示的概率模型中，专家轨迹出现的概率越大，即（）越大，则奖励函数设置越逼近专家示例中隐含的最优策略。可将求解最优奖励函数转化为最大化专家轨迹分布的熵进行优化（）（）（）。（）将式（）转化为奖励函数权重向量的最小化负对数似然函数，求解损失量（）（）。（）通过计算当前策略下的专家轨迹预测配分函数（）（）（）（）（）式中：为当前策略下的专家轨迹；为当前策略下第卷电光与控制杨秀霞等：基于逆向强化学习的无人机路径规划专家轨迹的数量；为当前动作选择策略。由于专家认知存在一定差异，为了减小奖励函数权重的拟合方差，对被采样的专家轨迹中连续的专家状态和对应的真实专家策略做离散化处理，并从中随机批采样，将式（）转化为（）（）式中，损失函数（）为（），（，），（，）（）。（）令损失函数（）对奖励函数的权重求导，通过梯度下降法求解最优奖励函数，可得（），（，），（，）（，）（）（，）（）通过式（）最终可以学习到奖励函数的全局最优解（，）。基于逆向强化学习的路径规划流程根据第章提出的融合专家演示轨迹的策略更新算法和第章基于最大熵逆向强化学习求解奖励函数算法改进算法，其训练框架如图所示。图改进的算法训练框架采用改进算法避障问题可以描述为：在一系列连续的决策时刻，策略网络根据当前状态做出一个决策；在决策实施后，策略网络根据逆向强化学习设计的奖励函数获取即时奖励值，该奖励与网络决策和环境状态相对应，之后网络将进入决策所对应下一时刻的状态并通过融合专家监督损失的算法正向更新网络参数；在新的训练时间步，网络将根据当前所处的新状态执行新的决策并获得新的奖励值，依此循环往复，直至网络在专家轨迹隐含的最优奖励函数下以最优策略完成飞行任务。算法执行流程如下。）随机初始化在线策略网络（）和在线值函数网络（，）的网络参数和，初始化目标网络和及其权重。）根据式（）构造奖励函数，初始化奖励函数权重。）初

侵权申述举报

此文档下载收益归作者所有

下载文档

基于逆向强化学习的无人机路径规划_杨秀霞.pdf

基于逆向强化学习的无人机路径规划_杨秀霞.pdf

猜你喜欢

你可能关注的文档

相关文章

热门推荐