引用格式:杨秀霞,王晨蕾,张毅,等.基于逆向强化学习的无人机路径规划[J].电光与控制,2023,30(8):1⁃7.YANGXX,WANGCL,ZHANGY,etal.UAVpathplanningbasedonreversereinforcementlearning[J].ElectronicsOptics&Control,2023,30(8):1⁃7.基于逆向强化学习的无人机路径规划杨秀霞,王晨蕾,张毅,于浩,姜子劼(海军航空大学,山东烟台264000)摘要:为了解决深度确定性策略梯度(DDPG)算法在规划无人机(UAV)安全避障路径时收敛速度慢、奖励函数设置困难等问题,基于逆向强化学习提出了一种融合专家演示轨迹的UAV路径规划算法。首先,基于模拟器软件采集专家操纵UAV避障的演示轨迹数据集;其次,采用混合采样机制,在自探索数据中融合高质量专家演示轨迹数据更新网络参数,以降低算法探索成本;最后,根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数,解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明,改进后的算法能有效提升算法训练效率且避障性能更优。关键词:无人机;路径规划;逆向强化学习;深度确定性策略梯度中图分类号:TP273文献标志码:Adoi:10.3969/j.issn.1671-637X.2023.08.001UAVPathPlanningBasedonReverseReinforcementLearningYANGXiuxia,WANGChenlei,ZHANGYi,YUHao,JIANGZijie(NavalAviationUniversity,Yantai264000,China)Abstract:IntheplanningofUAVsafecollisionavoidancepath,DeepDeterministicPolicyGradient(DDPG)algorithmsuffersfromslowconvergencerateandrewardfunctionsettingdifficulties.Tosolvetheproblems,basedonreversereinforcementlearning,aUAVpathplanningalgorithmthatintegratesexpertdemonstration...