温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
PPO
算法
机器人
局部
路径
规划
国名
第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于改进 PPO 算法的机器人局部路径规划刘国名,李彩虹,李永迪,张国胜,张耀玉,高腾腾(山东理工大学 计算机科学与技术学院,山东 淄博 255000)摘要:利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO 算法。将 PPO 神经网络结构中的全连接层替换为 LSTM 记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对 LSTM-PPO算法进行仿真验证,结果表明,与传统 PPO算法和改进算法 SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。关键词:机器人;局部路径规划;长短期记忆神经网络;近端策略优化算法;虚拟目标点开放科学(资源服务)标志码(OSID):中文引用格式:刘国名,李彩虹,李永迪,等.基于改进 PPO算法的机器人局部路径规划 J.计算机工程,2023,49(2):119-126,135.英文引用格式:LIU G M,LI C H,LI Y D,et al.Local path planning of robot based on improved PPO algorithm J.Computer Engineering,2023,49(2):119-126,135.Local Path Planning of Robot Based on Improved PPO AlgorithmLIU Guoming,LI Caihong,LI Yongdi,ZHANG Guosheng,ZHANG Yaoyu,GAO Tengteng(School of Computer Science and Technology,Shandong University of Technology,Zibo 255000,Shandong,China)【Abstract】The traditional reinforcement learning algorithm has the problem of slow convergence and fails to reach the target owing to the possibility of falling into the deadlock area.Thus,based on the Proximal Policy Optimization(PPO)algorithm combined with a Long Short-Term Memory(LSTM)neural network and designed virtual target point method,this study introduces a LSTM-PPO algorithm.In this algorithm,the fully connected layer in the PPO neural network structure is replaced with an LSTM memory unit to control the memory and forgetting degree of sample information.The algorithm gives priority to learning samples with high rewards and accumulates the reward optimization model faster.A virtual target point is added and the robots guidance from the goal point is deprecated when the robot falls into the deadlock area judged by the environmental information collected by the radar sensors.This guides the robot to get out of a trapped area,approach a target point,and reduce unnecessary training in deadlock areas.Finally,the LSTM-PPO algorithm is simulated and verified in discrete obstacle and special obstacle scenes,and it is compared with traditional PPO and SDAS-PPO algorithms in the average reward and path length.The verification results show that the designed LSTM-PPO algorithm can reach the reward peak faster in various scenarios of training,enable faster convergence,reduce redundant road sections,improve path smoothness,and shorten path length.【Key words】robot;local path planning;Long Short-Term Memory(LSTM)neural network;Proximal Policy Optimization(PPO)algorithm;virtual target pointDOI:10.19678/j.issn.1000-3428.00633040概述 路径规划是机器人领域的重要组成部分,主要分为全局路径规划和局部路径规划1。全局路径规划是从整体环境出发,依据已知地图信息规划出一条从起点到目标位置的安全无碰撞路径;而局部路基金项目:国家自然科学基金面上项目(61473179,61973184)。作者简介:刘国名(1995),男,硕士研究生,主研方向为智能系统;李彩虹(通信作者),教授、博士;李永迪,硕士研究生;张国胜、张耀玉、高腾腾,硕士研究生。收稿日期:2021-11-22 修回日期:2022-02-14 Email:人工智能与模式识别文章编号:1000-3428(2023)02-0119-08 文献标志码:A 中图分类号:TP2732023年 2月 15日Computer Engineering 计算机工程径规划是在未知环境下,通过雷达传感器探测周围环境信息来进行路径规划2-3。常用的局部路径规划方法有人工势场4、模糊控制5、神经网络6、强化学习7等。其中,强化学习不需要任何先验知识,其通过机器人与环境交互、累积奖励来优化策略;而神经网络能够解决传统强化学习算法无法处理的高维连续状态和连续动作信息,可以很好地对机器人避障问题进行建模8-9。随着深度学习、神经网络以及计算能力的提升,深度学习和强化学习结合的深度强 化 学 习 已 经 成 为 目 前 机 器 人 路 径 规 划 研 究 的热点10。强化学习方法主要分为基于值函数的方法和基于策略梯度的方法11。传统强化学习通常使用基于值函数的方法,如 CHRISTOPHER 等12提出的通过Q 值表来对不同状态进行打分,但该方法需要大量资源来维护 Q 值表,当状态和动作空间高维连续时,Q 值表无法完成存储。Google Deepmind 团队提出深度强化 Q 学习(Deep Q-Learning,DQN)算法13,利用神经网络把 Q 值表的更新问题变成一个函数拟合问题;随后又证明了确定性策略梯度(Deterministic Policy Gradient,DPG),提出深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法实现了连续动作的学习,该算法更接近于基于值函数的方法14。与基于值函数的方法不同,基于策略梯度的方法是模型直接输出具体动作,并通过环境反馈利用梯度上升来直接修改策略参数 11。WILLIAMS等 15 提出的 Reinforce 算法,通过蒙特卡洛采样来更新策略所需梯度,但算法中指导更新方向的状态价值通过 回 溯 方 法 获 得,采 样 效 率 较 低。SCHULMAN等16提 出 置 信 域 策 略 优 化(Trust Region Policy Optimization,TRPO)方法限制输出域更新范围,但影响了算法的实现效率和更新速度。OPENAI团队提 出 近 端 策 略 优 化(Proximal Policy Optimization,PPO)算法,实现了更简洁的一阶更新限制幅度方法17。PPO 算法对于连续控制问题有很好的表现,其以马尔可夫决策过程(Markov Decision Process,MDP)为基础,延续了置信域策略优化算法的步长选择 机 制,借 鉴 了 基 于 策 略 的 估 计 思 想 以 及 Actor-Critic 框架中策略与价值双网络的经验18。申怡等19提出基于自指导动作的 SDAS-PPO 算法,利用增加的同步更新经验池提高了样本的利用率,但该方法在训练过程中容易产生梯度爆炸的问题。对于机器人路径规划任务,通过深度强化学习算法收集到的数据具有时序性且环境状态存在相关性,而神经网络可以通过强大的表征能力来解决连续状态动 作 空 间 问 题。长 短 期 记 忆(Long Short-Term Memory,LSTM)神经网络是一种特殊的循环神经网络,能够解决长序列训练过程中的梯度消失和梯度爆炸问题,因此,LSTM 神经网络能够很好地满足任务需要20。PPO 算法能够解决连续动作和高维连续状态的问 题,但 存 在 收 敛 速 度 慢、易 陷 入 死 锁 区 域 等 不足21。本文对 PPO 算法进行改进,引入 LSTM 神经网络,将机器人 6 个雷达传感器探测的信息以及机器人与目标点之间的距离和夹角作为网络输入,将机器人的角速度和线速度作为网络输出,记忆奖励值高的样本,遗忘奖励值低的样本;在训练过程中,通过判断机器人所处状态决定是否启用虚拟目标点,帮助机器人走出陷阱区域,从而减少模型学习时间,提高算法收敛速度。1状态、动作空间和奖惩函数的设计 本文设计合理的状态、动作空间以及奖惩函数,利用传感器探测并收集环境信息,然后将数据信息作为状态特征向量输入到网络中,根据策略选择最优动作、获取奖励,通过累积奖励来优化策略。本文采用两轮差分驱动机器人作为仿真测试平台22,利用全方位激光雷达传感器检测环境信息。雷达传感器探测范围设置如图 1所示。在图 1 中,扇形区域代表传感器 180探测范围,每 5返回一组该区域内距离机器人最近障碍物的距离信息,共测得 36组数据。把测得的 36组数据相邻分为 6 组,每组 6 个数据,将每组数据信息经特征融合之后作为该 30区域传感器测得的信息。机器人的状态空间由 8 个特征向量组成,分别为 6 个方向传感器返回的最近障碍物的距离信息 di(i=16)、机器人与目标点之间的距离信息 Dr和机器人运行方向与目标点方向之间的夹角r。状态空间s定义为:s=(d1,d2,d3,d4,d5,d6,Dr,r)(1)动作空间包括角速度 r和线速度 vr。参