收稿日期:2022-12-08基金项目:上海市教育委员会上海市民办教育发展基金会2020年“民智计划”—“民办高职院校在线教学课程质量评价体系构建”。第一作者:丁玲(1982—),女,江苏泰兴人,硕士,讲师,研究方向为计算机软件应用及设计。E-mail:dingling369@126.com基于神经网络深度强化学习的分拣机器人避障规划技术丁玲(上海东海职业技术学院基础部,上海200241)摘要:分拣机器人的避障决策过程较为复杂,为提高分拣机器人的工作效果,设计基于神经网络深度强化学习的分拣机器人避障规划技术。首先,在动力学场景中设置障碍物,利用马尔科夫决策过程获取分拣机器人的运动状态后,判断障碍目标。在对神经网络实施深度优化学习后,设置了导引奖赏机制,并结合人工势场法建立连续型奖励函数,引导机器人向正确方向运动。将分拣机器人运动状态输入到神经网络中,在导引奖赏机制的引导下实现分拣机器人的避障。在环境中设置了障碍物,实现环境搭建,仿真测试实验结果表明:该方法具有较高的避障能力,可引导机器人在运动过程中做出正确的动作,进而实现精准避障。关键词:分拣机器人;马尔科夫决策;神经网络;深度强化学习;避障规划中图分类号:TP242.2文章编号:1000-0682(2023)02-0046-05文献标识码:ADOI:10.19950/j.cnki.cn61-1121/th.2023.02.009ObstacleavoidanceplanningtechnologyofsortingrobotbasedonneuralnetworkdeepreinforcementlearningDINGLing(BasicDepartmentofShanghaiDonghaiVocationalandTechnicalCollege,Shanghai200241,China)Abstract:Thedecision-makingprocessofobstacleavoidanceofsortingrobotisrelativelycomplex.Toimprovetheworkingeffectofsortingrobot,theobstacleavoidanceplanningtechnologyofsortingrobotbasedonneuralnetworkdeepreinforcementlearningisdesigned.Firstofall,obstaclesaresetinthedy-namicscene,andtheMarkovdecisionprocessisusedtoobtainthemovementstateofthesortingrobot,andthentheobstacletargetisjudged.Afterthedeepoptimizationlearningoftheneuralnetwork,aguid-ingrewardmechanismissetup,andacontinuousrewardfunctionisestablishedbycombiningtheartifi-cialpotentialfieldmethodtoguidetherobottomoveintherightdirection.Themotionstateofthesortingrobotisinputintotheneuralnetwork,andtheobstacleavoidanceofthesortingrobotisrealizedundertheguidanceoft...