基于
智能
深度
强化
学习
无人机
路径
规划
司鹏搏
第 49 卷 第 4 期2023 年 4 月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.49No.4Apr.2023基于多智能体深度强化学习的无人机路径规划司鹏搏,吴摇 兵,杨睿哲,李摇 萌,孙艳华(北京工业大学信息学部,北京摇 100124)摘摇 要:为解决多无人机(unmanned aerial vehicle,UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习 UAV 路径规划框架,该框架首先将路径划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计 UAV 的状态观测空间、动作空间及奖赏函数等来实现多 UAV 无障碍路径规划.其次,为适应 UAV 搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(multi鄄agent proxi鄄mal policy optimization based on network pruning,NP鄄MAPPO)算法,提高了训练效率.仿真结果验证了提出的多 UAV路径规划框架在各参数配置下的有效性及 NP鄄MAPPO 算法在训练时间上的优越性.关键词:多无人机(unmanned aerial vehicle,UAV);复杂环境;路径规划;马尔可夫决策过程;多智能体近端策略优化算法;网络剪枝中图分类号:U 461;TP 308文献标志码:A文章编号:0254-0037(2023)04-0395-10doi:10.11936/bjutxb2022080007收稿日期:2022鄄08鄄11;修回日期:2022鄄11鄄29基金项目:国家自然科学基金资助项目(61901011);北京市教育委员会科技项目(KM202010005017);北京市教育委员会资助项目(KM202110005021)作者简介:司鹏搏(1983),男,教授,主要从事区块链技术、深度强化学习、无线通信网络和无线资源管理方面的研究,E鄄mail:sipengbo 通信作者:杨睿哲(1982),女,副教授,主要从事区块链技术、无线通信网络优化方面的研究,E鄄mail:yangruizhe UAV Path Planning Based on Multi鄄Agent Deep Reinforcement LearningSI Pengbo,WU Bing,YANG Ruizhe,LI Meng,SUN Yanhua(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)Abstract:To solve the path planning problem of multi鄄UAV(unmanned aerial vehicle)in complexenvironment,a multi鄄agent deep reinforcement learning UAV path planning framework was proposed.First,the path planning problem was modeled as a partially observable Markov decision process,andthen,it was extended to multi鄄agent by using the proximal strategy optimization algorithm.Specifically,the multi鄄UAV barrier鄄free path planning was achieved by designing the UAV蒺s state observation space,action space and reward function.Moreover,in order to adapt to the limited computing resourceconditions of UAVs,a multi鄄agent proximal policy optimization algorithm based on network pruning wasfurther proposed,which improved the training efficiency.Simulations verify the effectiveness of theproposed multi鄄UAV path planning framework under various parameter configurations and the superiorityof NP鄄MAPPO algorithm in training time.Key words:multi鄄UAV(unmanned aerial vehicle);complex environment;path planning;Markovdecision process;multi鄄agent proximal policy optimization algorithm;network pruning网络首发时间:2023-03-22 12:46:26网络首发地址:https:/ 京摇 工摇 业摇 大摇 学摇 学摇 报2023 年摇 摇 近年来,由于无人机(unmanned aerial vehicle,UAV)的灵活性与低成本等优点,已被广泛应用于军事和民用领域,如目标追踪1、通信2、监测3、农业4及灾难管理5等.UAV 路径规划的目标是生成起始点到目标点的实时全局路径.然而,实际场景中,环境十分复杂,UAV 的飞行路径往往面临飞行高度、燃料消耗及建筑、树木等障碍物的限制6,这使得合理可靠的 UAV 飞行路径成为保证UAV 自身安全及任务成功的关键7.对于 UAV 路径规划有许多有效算法,包括单元分解法8、人工势场法9、Voronoi 图法10等传统算法.文献11采用自适应单元分解算法,在递归奖励成本范式下探索和分解 3D 环境,实现了路径规划的线性加速.文献12利用人工势场法解决了UAV 在避免碰撞过程中的局部最小值问题,进而有效避开障碍物.文献13采用 Voronoi 图对障碍分布进行建模,并结合 Dijkstra 算法,实现在环境信息和目标位置信息发生变化时搜索并生成最短路径.这些传统的路径规划算法需要对空间中的障碍物进行精确建模,当环境中的障碍物较为复杂时,将导致路径规划算法计算量增大.对于状态空间较大的复杂环境的路径规划,智能路径规划方法备受关注,包括遗传算法14、蚁群算法15、粒子群优化16等算法.文献17提出将混合遗传算法(hybrid genetic algorithm,HGA)与可见性地图相结合,并使用线性规划模型来定义 UAV路线.文献18 提出基于蚁群优化(ant colonyoptimization,ACO)的 UAV 路径规划方法,将飞行区域划分为等间隔的网格,并将飞行参数的加权和作为 ACO 算法的评估函数,以此更新路径上的信息数量,获得优化指导的路径.文献19在粒子群优化(particle swarm optimization,PSO)算法中引入竞争策略,以提高粒子的收敛速度和搜索能力,生成稳健可行的全局最佳路径.然而,当 UAV 路径规划情况较为复杂,特别是具有多个约束条件时,经典的智能路径规划算法都具有较高的时间复杂度和局部极小陷阱20.随着人工智能的发展,强化学习算法在 UAV 路径规划中显示出其突出优势:1)与环境交互,通过训练动态调整参数,具有积极的适应性和鲁棒性;2)在决策过程中不涉及复杂的搜索过程,适用于需要实时决策的 UAV 路径规划;3)根据距离、能耗定义奖赏函数,无需大量人工参数调整即可实现多目标优化能力;4)不依赖环境的先验信息,适用于信息有限的动态路径规划6.文献21引入一种基于双深度 Q网络(double deep Q鄄network,DDQN)的方法,在飞行时间和导航约束下优化 UAV 路径,实现在物联网数据采集任务中控制无人机.文献22提出一种分层循环 Q 网络(layered recurrent Q network,Layered鄄RQN)算法,将 UAV 导航任务分解为 2 个简单的子任务,分别采用基于长短期记忆(long short鄄termmemory,LSTM)的深度神经网络解决,并将 2 个子解紧密堆叠成一个积分,以解决 UAV 导航问题.文献23 提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法,构建了基于视线和人工势场的奖励函数,实现了 UAV在障碍物环境下对地面目标跟踪.但是这些研究主要集中在单个 UAV 环境.实际上,应用中往往需要多个 UAV 合作完成一项或多项任务,多个 UAV 的路径规划方案成为近期研究者的探索热点.文献24采用多智能体深度确定性策略梯度(multi鄄agent deep deterministic policygradient,MADDPG)方法,对每架 UAV 的轨迹进行独立管理,但其优化目标是提升用户服务公平性及降低用户整体能耗,并未考虑 UAV 避障及能耗等条件对路径的约束.文献25提出了一种深度学习遗传算法(deep learning鄄deep learning DL鄄GA),它结合了深度学习(deep learning,DL)和遗传算法(geneticalgorithm,GA)的优势,采用 GA 从各场景中收集状态和路径来训练深度神经网络,以快速给出优化的路径.虽然该算法提高了收敛速度,但当环境复杂度增加时计算量急剧增加.另外,文献26研究了多智能体近端策略优化(multi鄄agent proximal policyoptimization,MAPPO)算法,它采用集中值函数的方法,并在星际 SMAC 任务以及多智能体任务中验证了该算法的效果.综上,提出一个多智能体深度强化学习 UAV 路径规划框架,以解决 UAV 复杂路径规划问题.该框架集成了 MAPPO 和网络剪枝算法,并考虑 UAV 与障碍物、UAV 与 UAV 之间以及 UAV 能耗等约束条件,在提高学习效率的同时,实现多 UAV 无障碍的实时路径规划.提出基于剪枝网络的多智能体近端策略优化(NP鄄MAPPO)算法,在保证系统性能稳定的同时提高了运算效率,减少了计算量及训练时间.1摇 系统模型该文主要考虑多 UAV 在复杂三维环境中避开障碍并到达目标点的最优路径规划,图 1 为多 UAV693摇 第 4 期司鹏搏,等:基于多智能体深度强化学习的无人机路径规划路径规划系统模型图,在该模型中有 M 个 UAV,由于环境的复杂性,每个 UAV 在环境 赘 中都有不同的飞行任务(不同的目标点及飞行路况),在飞行过程中,UAV 不仅需要避开环境障碍,还需要避免UAV 间的碰撞.图 1摇 多 UAV 路径规划系统模型Fig.1摇 System model of multi鄄UAV path planning摇1郾 1摇 环境建模UAVm为第 m 个 UAV,m=1,2,M,在环境 赘中飞行,在不考虑风力及空气阻力的情况下,其运动学模型27可建模为xm(t)=vm(t)cos 谆m(t)cos 鬃m(t)ym(t)=vm(t)cos 谆m(t)sin 鬃m(t)zm(t)=vm(t)sin 谆m(t)鬃m(t)=浊Horm(t)vm(t)cos 谆m(t)谆m(t)=浊Verm(t)vm(t)(1)图 2摇 UAV 俯仰角与偏航角Fig.2摇 UAV pitch angle and yaw angle式中:(xm(t),ym(t),zm(t)为 t 时刻 UAVm的位置坐标;vm(t)、谆m(t)、鬃m(t)为 t 时刻 UAVm的速