温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
神经网络
深度
强化
学习
分拣
机器人
规划
技术
丁玲
收稿日期:2022 12 08基金项目:上海市教育委员会上海市民办教育发展基金会 2020年“民智计划”“民办高职院校在线教学课程质量评价体系构建”。第一作者:丁玲(1982),女,江苏泰兴人,硕士,讲师,研究方向为计算机软件应用及设计。E mail:dingling369126 com基于神经网络深度强化学习的分拣机器人避障规划技术丁玲(上海东海职业技术学院基础部,上海 200241)摘要:分拣机器人的避障决策过程较为复杂,为提高分拣机器人的工作效果,设计基于神经网络深度强化学习的分拣机器人避障规划技术。首先,在动力学场景中设置障碍物,利用马尔科夫决策过程获取分拣机器人的运动状态后,判断障碍目标。在对神经网络实施深度优化学习后,设置了导引奖赏机制,并结合人工势场法建立连续型奖励函数,引导机器人向正确方向运动。将分拣机器人运动状态输入到神经网络中,在导引奖赏机制的引导下实现分拣机器人的避障。在环境中设置了障碍物,实现环境搭建,仿真测试实验结果表明:该方法具有较高的避障能力,可引导机器人在运动过程中做出正确的动作,进而实现精准避障。关键词:分拣机器人;马尔科夫决策;神经网络;深度强化学习;避障规划中图分类号:TP242 2文章编号:1000 0682(2023)02 0046 05文献标识码:ADOI:10 19950/j cnki cn61 1121/th 2023 02 009Obstacle avoidance planning technology of sorting robot based on neuralnetwork deep reinforcement learningDING Ling(Basic Department of Shanghai Donghai Vocational and Technical College,Shanghai 200241,China)Abstract:The decision making process of obstacle avoidance of sorting robot is relatively complexTo improve the working effect of sorting robot,the obstacle avoidance planning technology of sorting robotbased on neural network deep reinforcement learning is designed First of all,obstacles are set in the dy-namic scene,and the Markov decision process is used to obtain the movement state of the sorting robot,and then the obstacle target is judged After the deep optimization learning of the neural network,a guid-ing reward mechanism is set up,and a continuous reward function is established by combining the artifi-cial potential field method to guide the robot to move in the right direction The motion state of the sortingrobot is input into the neural network,and the obstacle avoidance of the sorting robot is realized under theguidance of the guidance reward mechanism Obstacles are set in the environment to build the environ-ment The simulation test results show that the method has a high obstacle avoidance ability,which canguide the robot to make correct actions in the movement process,and then achieve accurate obstacleavoidanceKeywords:sorting robot;Markov decision;neural network;deeply strengthen learning;obstacleavoidance planning0引言近年来,分拣机器人在智能制造领域发展迅速,被广泛应用于制造加工、自动化控制、智能码头等项目中1。随着智能技术的发展,人们对分拣机器人避障规划技术也提出了更高的要求,不仅要求路径64工业仪表与自动化装置2023 年第 2 期短时方便,还要求其具有优秀的避障功能2。因此,如何提升分拣机器人避障规划技术也将成为当今人们研究的热点。相关学者也给出了一些较好的办法:董诗绘3 等人通过机器人从环境中获取累计奖赏值,通过学习最优策略展开强化学习,将学习到的图像及数据输进网络模型中展开训练完成避障规划。成怡4 等人采用 Kinect 视觉传感器获得的目标定位数据和图像场景数据信息,将以上两者信息输进网络中,用机器人的角速度及线速度当做下一指令并输出,通过改进奖励系数问题,加强了机器人的发现能力及避开障碍物的技能。孙立香5 等人首先在深度强化学习算法中优化中值函数,利用优化后的函数提取信息,将其输入深度网络中的注意力机制中获取时序特征,以此为依据利用多层感知机展开学习训练,根据训练结果惩罚机器人,实现在机器人避障。但是,当前的分拣机器人避障过程存在决策时间过长,特殊场景判断出现模糊化的问题。以提高分拣机器人工作效率为目的,本文基于神经网络强化学习过程,设计了一种新的分拣机器人避障规划技术。1分拣机器人状态与障碍目标的判断方法1 1障碍物判断在分拣机器人避障规划过程中将障碍物分为两种,第一种为静态障碍物,第二种为动态障碍物,将机器人的启动位置和停靠位置作为作业点,在规划过程中随机生成机器人的作业时间。静态障碍物指的是已知处于初始位置,且不会发生移动的障碍物,动态障碍物会在环境中发生位置变化。分拣机器人从起点到目标点运动时对应的状态即为临时状态,在作业状态下障碍物属于临时静态。所有动态障碍物在分拣机器人开始运动时处于临时动态,分拣机器人以(v0 x,v0y)初始速度从起点(a0 x,a0y)开始向目标点运动,当路径中存在的障碍物逐渐靠近机器人所处位置(atx,aty)时,属于临时静止。用 d=(x,y,x1,y1,xn,yn,x1,y1,xm,ym)表示机器人的运动环境,其中 x、y 代表横纵坐标中目标点和分拣机器人的距离差在环境中对应的比例;xi、yi代表在横纵坐标中静态障碍物与分拣机器人距离差在环境中对应的比例,上述参数的计算公式如下:x=(xp xo)/Wy=(yp yo)/Hxi=(xio xp)/Wyi=(yio yp)/H(1)式中:(xo,yo)为目标点对应的坐标;(xp,yp)为分拣机器人的中心点对应的坐标;(xio,yio)为静态障碍物i 的中心点在路径中对应的坐标;H 为机器人可移动范围的长度;W 为机器人可移动范围的宽度,根据上述对应比例情况,可确定障碍物具体位置。1 2分拣机器人状态判断本研究引入强化学习算法中的马尔科夫决策过程6 7 观测分拣机器人的状态。用(D,S,A,T,)表示分拣机器人的马尔科夫决策过程,其中 代表折扣因子;D 代表机器人状态集;T 代表回报函数;A代表机器人状态转移概率;S 代表机器人的动作集。用(s|d)=A St=s|Dt=d 表示机器人动作集在给定状态 D 时的分布,用 w(s|d)表示机器人做 s动作且处于 d 状态下的累积回报对应的期望值。强化学习的目标是在马尔科夫决策过程的基础上获取机器人运动的最优策略,获取最大回报期望*(d,s)如下所示:*(d,s)=arg maxsw(s|d)(2)通过求解式(2)获得机器人的运动状态观测值,当其状态观测值出现高、低浮动过大时,表明状态判断准确度低。2分拣机器人避障技术在上述判断环境障碍物和分拣机器人状态的基础上,设计神经网络的深度优化学习过程,并将其应用于避障规划。研究中,首先对神经网络展开深度优化学习设计。然后针对优化后的神经网络,以引奖赏机制为基准,结合人工势场法建立建立连续型奖励函数(包括引导函数、避障函数以及时间函数),将分拣机器人状态对应的特征量作为输入信息,将分拣机器人动作值作为输出信息,通过神经网络的迭代过程实现避障规划。2 1神经网络的深度优化学习设计用 W(D,s)表示动作价值函数,在深度优化学习过程中,该函数具有对应的表。对表的更新过程就是函数 W(D,s)的更新过程。函数 W(D,s)在状态属于连续空间和维数较大的情况下不能利用表格表示,此时可引入函数逼近算法8 9 描述 W(D,s),基于深度强化学习的分拣742023 年第 2 期工业仪表与自动化装置机器人避障规划技术采用神经网络表示函数 W(D,s),即 W(d,s,e)W(D,s)。神经网络的输入是上述获取的分拣机器人状态D 对应的特征向量(D),神经网络的输出 W(d,si,e)数量直接受动作集合中分拣机器人动作数量的影响。在优化训练神经网络时,假设 F 表示经验池,本文方法将分拣机器人的状态变化情况以及与环境之间的交互信息存储于 F 中10 11,后续目标值 W的更新需要经验池 W 中的样本支持。将特征向量(D)作为神经网络的输入,输出分拣机器人动作对应的 W 值。在当前 W 值输出中选择分拣机器人的动作 S,处于 D 状态的机器人执行动作 S 时,获得新状态 D下机器人动作的特征向量(D)。设置一个五元组(D),S,T,(D),is_end,其中 is_end 代表终止状态和奖励 T 的标志。上述五元组在深度学习过程中的目标值为 ui,其计算过程如下:ui=Tj,if_end=TrueTj+max W(Dj),Sj,e),if_end=False(3)在上述分析的基础上,基于深度强化学习的分拣机器人避障规划技术通过均方差损失函数结合反向传播准则12 13 对神经网络中存在的参数展开更新。2 2分拣机器人避障规划为实现精准避障,该文方法在神经网络中设置导引奖赏机制,用于评估分拣机器人的行为,从而降低机器人在运动过程中低分行为的概率,提高机器人在运动过程中高分行为的概率。在此基础上,采用人工势场法建立连续型奖励函数,其主要作用是在分拣机器人避障过程中引导其向正确方向运动,并有效缩短分拣机器人运动到目标点的时间。连续型奖励函数包括引导函数、避障函数以及时间函数。(1)引导函数利用人工势场法14 15 根据机器人目前所处的位置设定引力;根据设置的引力表示奖励信号,奖励信号根据分拣机器人在运动过程中做出的动作决定,当分拣机器人末端执行器的切割点向目标点运动时,需要对其奖励,反之对其惩罚。用 aend=(xdt,ydt,zdt)表示切割点,在状态 dt下切割点 aend=(xdt,ydt,zdt)与目标点 agoal=(x0,y0,z0)之间存在距离用Fdt表示,当距离 Fdt在分拣机器人运动过程中不断减小时,表明分拣机器人此时做出了正确的动作策略,需要进行奖励,所提方法设置的引导函数如下:Fdt=(xdt x0)2+(ydt y0)2+(zdt z0)2Fmin=Fd0i=0min(Fdi,Fmin)i 0Tgoal=l1(Fmin Fdt)Fdt 0l2Fdt=0(4)式中:Fmin代表 Fdt的最小值;Fd0代