温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
强化
学习
无人机
智能
任务
分配
方法
第 卷 第 期 年 月弹 箭 与 制 导 学 报 ,.:收稿日期:作者简介:费陈(),男,安徽芜湖人,硕士,研究方向:机器学习及强化学习、无人机应用。基于强化学习的无人机智能任务分配方法费 陈,郑 晗,赵 亮(武警士官学校基础部,杭州)摘 要:针对无人机群目标打击任务分配问题,提出一种基于强化学习的无人机智能任务分配方法。该方法提出一种任务分层框架,将多个无人机视为一个联盟并对目标进行分类,形成任务簇,并映射到无人机联盟中,通过多智能体强化学习算法()将任务簇内的目标与无人机联盟内的小无人机进行合理配对并对目标实施打击,得到 算法的回报值和飞行轨迹,并与 算法、算法的回报值和飞行轨迹进行对比。仿真结果表明,在小样本任务分配中,与不分层方法相比,该方法可以提高目标任务打击完成度,提升目标打击的效率;在分层框架下,相比于其他两种算法,收敛速度更快,收敛过程更加稳定。关键词:任务分层框架;多智能体强化学习;无人机联盟;任务分配;目标打击中图分类号:文献标志码:,(,):,(),;,:;引言随着对危险领域探索的逐渐深入,传统有人驾驶飞机已经无法满足相关科学研究和工程应用的需求,而无人机的出现解决了这样的难题。通常无人机是指能够自主控制或由地面操作人员操控、可自行推进飞行、能单次或循环使用的无人驾驶飞机。随着无人化、智能化和导航技术的不断发展,无人机从最初的训练靶机,逐渐发展成为具有自主决策、自主攻击的侦察打击一体化无人机。由于小型无人机单机能力有限,因此,多架无人机通过协同合作组成的无人机联盟拥有广阔的应用前景,如何在满足不同约束条件的前提下,在较短的时间内尽可能将所有任务分配给无人机编队联盟,充分发挥无人机联盟协同工作效能,以实现性能最优化,是存在的无人机任务分配问题。针对这类问题,刘畅、胡大伟等提出将无人机群的任务分配问题转化为车辆路径模型(),该模型以美军的捕食者与全球鹰为研究对象,将无人机视为车辆,侦察目标视为顾客,采用禁忌搜索算法求解此问题;等开发出一个分散的任务分配框架,涉及一个基于市场的策略,通过协商的方法为无人机群分配任务;等使用树搜索算法将任务分配给无人机群,该方法将问题表示为决策树,并使用树搜索算法来解决,同时还考虑了不确定情况下的任务分配;蒋硕等提出一种改进的阶层分级粒子群优化算法(),根据实数创建粒子和实际分配的映射关系,从而使分配问题得到解决;常松等提出将无人机任务通过对改进的合同网算法进行分配,该方法通过优化每个无人机的负载平衡,弹 箭 与 制 导 学 报第 卷结合时间和外部的约束条件,解决任务分配不合理的问题。综上所述,无人机群任务分配的研究存在处理信息量大、可靠性低、信息交互不全、任务完成度低等问题。针对上述存在的局限性,人们又提出一种无人机联盟目标打击分层框架,将多个无人机视为一个联盟并对目标进行分类,形成任务簇,并将每个任务簇映射到无人机联盟中,将复杂的目标打击任务分配问题分为几个不同层次的子问题,通过解决每级的子问题,进而将复杂的问题简单化,降低了计算复杂度,避免多个无人机执行同一任务,缩短目标打击任务分配时间,提高目标打击完成度。同时引入多智能体强化学习算法(),从状态空间、网络架构、动作集合、奖励函数 个方面进行设计,将该模型与无人机任务分配相融合,而多无人机则被视作一个联盟,联盟中各无人机协同工作,根据无人机相互之间观察互动和反馈奖励调整自身策略,以便奖励最大化,从而获得无人机联盟完成目标打击的最优策略,提升无人机目标打击的效率。问题描述与任务分层框架设计 问题描述文中场景设置如下:假设战场上有数个打击目标和威胁源,目标和威胁源位置均固定不变,每个目标任务只需要一个无人机来进行打击,每个任务之间都相互独立,无人机一旦进入威胁源范围内,将被导弹打中而无法完成任务。无人机联盟随机出现在战场上,任务均匀分布在环境中,并按照距离最短原则分配给距离最近的无人机联盟,无人机联盟内将任务进一步进行细分,确保每个无人机可以规避危险,顺利完成任务。图 场景设置因为无人机任务分配具备高维空间性与多元性的特征,所以给出简化研究问题的假定:将每个无人机看成是具备同样特点的同质性实体模型,在研究过程中,忽略无人机的外形和尺寸,并进行定义:()式中:(,)为无人机的位置坐标信息;为无人机的飞行速度;为无人机的偏航角。将环境因素理想化,忽略自然环境因素对无人机的影响,重点考虑无人机的军事威胁,军事威胁主要是敌方导弹威胁。假设在二维空间环境中,敌方防空导弹的探测范围为,相当于一个以导弹位置为中心、导弹水平探测距离 为半径的圆,定义为:()因此,导弹威胁的数学模型为:(),()式中 为无人机当前位置与导弹位置的相对距离。任务分层框架设计认知心理学指出,生物智能体解决复杂问题的能力依赖于层级化的认知机制,即将复杂的问题分解成更简单的子问题。这种分层方法能够以零样本的方式解决以前看不见的问题,无需试错。如图 所示,描绘了一只乌鸦如何解决由 个因果步骤组成的食物获取的难题:它首先拿起一根棍子,然后用棍子从管道里面拖出一个石头,最后用石头来触发机关,激活一个机制释放这个食物。受灵长类动物处理问题机制启发,提出一种基于任务分层的无人机联盟目标打击的任务分层框架,整个过程分为目标聚类、集群分配、任务目标分配。)目标聚类。目标聚类的目的是将彼此接近的目标归为一组,它是简化任务分配问题的关键和基本步骤,经过这一步,目标被划分为 个簇,等于无人机联盟的数量,为了在无人机联盟之间平均分配工作负载,聚类算法必须平衡每个集群中的目标数量。)集群分配。集群分配的目的是将 个集群分配给 个小无人机联盟,通过强化学习算法,得出该级无人机目标任务分配的最优策略,即每个小无人机联盟被分配一个任务集群。)任务目标分配。在每个小无人机联盟内,通过多智能体强化学习算法(),将小无人机联盟内的每个无人机与目标任务进行交互,获得这个小无人机联盟完成目标任务的最优策略。小无人机联盟中 获得联盟内目标任务分配的最优策略并将任务分配给每个无人机,确定攻击顺序。第 期费陈等:基于强化学习的无人机智能任务分配方法其中,目标聚类和任务集群分配由无人机控制中心集中解决,而任务目标分配由小无人机联盟内部解决。图 基于 算法的无人机任务分层框架 多智能体强化学习算法()设计 算法 框架如图 所示。图 算法结构框架图其核心思想是 网络:一个行动家网络 和一个评论家网络。网络根据获取的状态计算要执行的动作,而 网络评估行为网络计算的动作,以提高行为网络的性能。使用经验重放缓存区存储一定数量的训练经验,网络在更新网络时随机读取,以打破训练数据中的相关性,使训练更加稳定。在训练阶段,网络只从自身中获取观察信息,而 网络则获取其他主体的动作和观察等信息。在执行阶段,不涉及 网络,只需要一个 网络,这意味着执行是分散的。考虑具有 个无人机的场景,表示 个智能体的策略,表示策略参数,那么无人机 的期望回报梯度为:(),()(,)()式中:,表示联合状态;表示状态分布;,表示联合动作;(,)表示一个集中的动作值函数,其输入为所有无人机的联合动作和联合状态,其输出为无人机 的 值。然而,采用了确定性的策略梯度。如果考虑 的连续策略,则该梯度可以写成:(),()(,)()()其中 表示经验重放缓存区,包含一系列元组(,),记录所有无人机的经验,是无人机执行动作后的新的状态,为所有无人机的奖励。每隔一段时间,我们将从 中随机抽取经验来更新网络参数。网络 通过损失函数更新为:(),(,)()式中:(,)(),为参数 的目标参数集合,为参与者目标网络的输出集合。通过最小化无人机 的策略梯度来更新参与者网络,可以写为:()(,)()()式中:为样本的小批量大小;为样本的指数。动作设置、状态设置、奖励函数设置 动作设置文中无人机的动作空间是一个二维的连续空间,每架无人机的动作主要包括两个方向:一个是 方向上的速度,一个是 方向上的速度,将这两个方向上的速度进行矢量合成,形成一个 的动作。根据 时刻的状态输入,输出一个确定速度,则无人机经过 时刻的位置更新为(,):,()状态设置将每架无人机当前的位置视为该架无人机的当前状态,针对无人机 在 时刻的状态定义为:,(,)(,),(,),(,)()弹 箭 与 制 导 学 报第 卷 奖励函数设置)在威胁避开区设定一个奖励,当无人机进入威胁避开区后,会被给予一个负奖励。即 ,(),其中:为无人机与威胁区的距离;为威胁区的威胁半径。)无人机飞行过程中,假如无人机离得太近,会相互碰撞,导致各个无人机之间产生威胁,因此,为了防止无人机之间发生机械碰撞,设置一个奖励,当无人机之间距离低于安全性距离时,给予奖励。即 ,(),其中:为第 架无人机与第 架无人机之间的距离;为无人机之间的安全性距离。)在训练开始的时候,为了能精确引导无人机动作挑选,使无人机的每一步都获得奖励,制定距离奖励,并在每一步都测算无人机和目标的最近距离,将负距离做为奖励值,距离越近,奖励值越多。也就是说,其中,是每个目标和每个 之间的最小距离之和。最终无人机的奖励函数设置为:()实验结果分析 参数设置文中设计了一个 的模拟仿真地图,初始化环境仿真结果如图 所示。图 初始环境其中,()图包括 个无人机联盟(架无人机)的初始位置、个威胁区、个目标的位置;()图包括 个无人机联盟(架无人机)的初始位置、个威胁区、个目标的位置。算法模型采用确定性动作策略,即()。最大回合数为 ,辅助网络的更新率为,价值网络的学习率为 ,策略网络的学习率为 。结果分析为了验证该策略的可行性,分别形成 个无人机联盟(架无人机)和 个无人机联盟(架无人机和 架无人机),建立任务分层框架并通过 进行训练,与任务不分层框架进行对比,架无人机各自回报值变化曲线如图 所示。从图中可以看出,随着训练回合次数的增加,架无人机各自回报值都逐渐增大,直至收敛。对比任务分层框架和任务不分层框架下 算法中每架无人机回报值变化曲线,可以发现,在任务分层框架下,每架无人机的回报值都比任务不分层框架下的回报值要大,说明任务分层框架比不分层框架具有更强的稳定性,每架无人机都能够更加准确的完成任务,确保任务完成度更高,获得更高的回报值。架无人机在任务不分层的情况下,收敛速度较快,这是因为 架无人机更倾向于找最容易完成的目标去完成,虽然一定程度上能够较快的完成任务,但是很可能导致多个无人机执行同一任务,无法达到多无人机协作完成多个目标任务的目的。最终的整体回报值如图()所示,由图可知,随着训练回合次数的增多,奖励逐渐增大,且在训练回合数达到 后,两种框架策略的奖励曲线趋于平缓,总体呈收敛趋势,但任务分层框架下的整体回报值明显高于任务不分层框架下的整体回报值。由于训练过程中存在随机噪声,所以训练时无论是哪个时刻都存在振荡现象。架无人机各自回报值变化曲线如图 所示,从图中可以看出,随着训练回合次数的增加,架无人机各自回报值都逐渐增大,直至收敛。对比任务分层框架和任务不分层框架下 算法中每架无人机回报值变化曲线,可以发现在任务分层框架下,每架无人机的回报值都比任务不分层框架下的回报值大,说明任务分层框架比不分层框架具有更强的稳定性,每架无人机都能够更加准确的完成任务,确保任第 期费陈等:基于强化学习的无人机智能任务分配方法务完成度更高,获得更高的回报值。最终的整体回报值如图()所示,其训练奖励变化曲线规律与 架无人机训练奖励变化曲线(图()大体相同。图 架无人机网络参数变化图 架无人机网络参数变化 在任务分层框架下,将 与、算法进行对比,对比结果如图 所示。由图可知,在架无人机中,与、相比,算法收敛速度最快,且收敛过程波动较少,收敛更加稳定。弹 箭 与 制 导 学 报第 卷图 架无人机任务分层 联盟算法对比 种不同算法的无人机飞行轨迹对比图如图 所示。由图可知,对比 种算法,算法模型的飞行轨迹都进入各自目标区域,而且躲避了所有的威胁区;在 算法模型的飞行轨迹中,第四架无人机进入威胁区,第一和第三架无人机进入同一目标区域,其余两架无人机都进入各自的目标区域内;算法模