温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
任务
强化
学习
堆垛
调度
推荐
东宁
第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于多任务强化学习的堆垛机调度与库位推荐饶东宁,罗南岳(广东工业大学 计算机学院,广州 510006)摘要:堆垛机调度是物流仓储自动化中的重要任务,任务中的出入库效率、货物存放等情况影响仓储系统的整体效益。传统调度方法在面对较大规模调度问题时,因处理大状态空间从而导致性能受限和收益降低。与此同时,库位优化与调度运行联系密切,但现有多数工作在处理调度问题时未能考虑到库位优化问题。为解决仓储中堆垛机调度问题,提出一种基于深度强化学习算法的近端策略优化调度方法。将调度问题视为序列决策问题,通过智能体与环境的持续交互进行自我学习,以在不断变化的环境中优化调度。针对调度中伴生的库位优化问题,提出一种基于多任务学习的调度、库位推荐联合算法,并基于调度网络构建适用于库位推荐的 Actor网络,通过与 Critic网络进行交互反馈,促进整体的联动和训练,从而提升整体效益。实验结果表明,与原算法模型相比,该调度方法的累计回报值指标平均提升了33.6%,所提的多任务学习的联合算法能有效地应对堆垛机调度和库位优化的应用场景,可为该类多任务问题提供可行的解决方案。关键词:堆垛机调度;库位优化;多任务学习;深度强化学习;近端策略优化开放科学(资源服务)标志码(OSID):中文引用格式:饶东宁,罗南岳.基于多任务强化学习的堆垛机调度与库位推荐 J.计算机工程,2023,49(2):279-287,295.英文引用格式:RAO D N,LUO N Y.Stacker scheduling and repository location recommendation based on multi-task reinforcement Learning J.Computer Engineering,2023,49(2):279-287,295.Stacker Scheduling and Repository Location Recommendation Based on Multi-Task Reinforcement LearningRAO Dongning,LUO Nanyue(School of Computers,Guangdong University of Technology,Guangzhou 510006,China)【Abstract】Stacker scheduling is an essential task in warehousing automation.Inbound-outbound efficiency and storage situations affect overall efficiency.When handling large-scale problems,traditional scheduling methods cannot achieve performance because processing large state spaces is challenging.Meanwhile,optimization of repository location is closely related to scheduling operation,but most existing works ignore it when addressing scheduling problems.To solve the scheduling problem,this study proposes a method based on the deep reinforcement learning algorithm Proximal Policy Optimization(PPO).The method considers the warehousing scheduling a sequence decision-making problem.It conducts self-learning through continuous interaction between agent and environment,thereby optimizing the scheduling in a changing environment.A novel algorithm based on multitask learning network is proposed to address the optimization problem of repository location with scheduling tasks.Based on the scheduling network,the algorithm constructs an actor network of repository recommendations.The actor network participates in training through interactive feedback with the critic network,thereby promoting the overall benefit.The experimental results affirm the efficacy of the proposed scheduling method,as evidenced by its average increase of 33.6%in the index of cumulative reward in comparison to the original algorithm model.The proposed multitask learning network can effectively handle the scenarios of stacker scheduling and repository location optimization,thus providing a feasible solution for this type of multitask problem.【Key words】stacker scheduling;location optimization;multi-task learning;deep reinforcement learning;Proximal Policy Optimization(PPO)DOI:10.19678/j.issn.1000-3428.0063943基金项目:广东省自然科学基金面上项目(2021A1515012556)。作者简介:饶东宁(1977),男,副教授、博士,主研方向为智能规划、深度学习;罗南岳(通信作者),硕士研究生。收稿日期:2022-02-15 修回日期:2022-04-02 Email:开发研究与工程应用文章编号:1000-3428(2023)02-0279-09 文献标志码:A 中图分类号:TP3992023年 2月 15日Computer Engineering 计算机工程0概述 随着电子商务等行业的快速发展,物流订单井喷、土地成本快速上升,物流企业着手对仓储系统进行智能化管理。亚马逊研究开发了 Kiva Systems仓库机器人系统1,使用数百个自动导航车代替了工作人员完成货物订单的存取任务,极大地提高了货物存取操作的效率。国内企业如京东、海康等先后实现了类 Kiva智能仓储系统并推广至国内市场2。针对仓储中调度问题的建模与优化,很多学者进行了深入的研究。文献 3 针对仓库中的随机存储情况和不同类型的堆垛机,为每个存储或检索的位置选择了足够熟练的堆垛机,从而使得总使用时间最小化。于赫年等4通过分析多智能体调度系统的任务分配模式、作业流程及任务调度的约束条件,建立了以最小化任务完成时间为主要目标的数学模型。然而上述两种方法主要以时间作为优化目标,没有考虑到提高累计回报值。鲁建厦等5通过分析穿梭车仓储系统中的提升机与穿梭车的实际作业流程,建立了复合作业路径规划模型并通过人工鱼群算法求解,有效地提高了该仓储系统的运行效率。尽管以上方法针对仓储中相关调度问题提出了解决方案,但库位问题方面依然存在不足。传统的库位分配通常基于人为经验,未充分考虑库位的使用状态和整体空间分布等,导致仓库管理效率下降。合理的库位安排,可以提高堆垛机的效率和可靠性,因此需要解决面向仓储的多任务问题。堆垛机调度动作是基于时间步的动作序列,而强化学习常用于解决序列决策问题。为了实现对更大状态空间的问题实例进行更有效的求解,研究人员将深度学习的思想融入强化学习的算法中,并应用于该类调度问题中。本文通过对堆垛机调度问题进行建模,构建仓储环境,并针对堆垛机调度问题,提出一种基于近端策略优化(Proximal Policy Optimization,PPO)6强化学习的调度方法。将调度问题视为序列决策问题,使智能体与环境进行持续交互,根据环境反馈不断优化动作的抉择,从而改善实验效果。针对调度中伴生的库位优化问题,提出一种基于多任务学习的调度、库位推荐联合算法,通过构建处理库位推荐的Actor网络7,使该网络与 Critic 网络进行交互反馈,促进整体的联动和训练,以实现该算法在调度和库位问题场景下的应用。1研究背景 1.1概率规划概率规划8是人工智能的研究方向之一,描述的是马尔可夫决策问题,其主要特点是概率性和并行性,目标是最大化累计回报值。概率规划被应用于各类现实场景中。文献 9 基于概率规划的方法对股指模拟问题进行领域建模,并使用规划器求解问题。其中在国际概率规划比赛中表现最好的规划器为 SOGBOFA10。1.2强化学习随着人工智能的发展,研究人员提出了 DQN(Deep Q-Networks)11、TRPO(Trust Region Policy Optimization)12等深度强化学习算法,并在移动机器人13、路径规划14、调度问题等应用场景中取得了较好的成果。例如,针对旅行商问题和有容量限制的车辆路径问题,文献 15 在关于路径问题的改进启发式算法上,构建一个基于自注意力机制的深度强化学习架构,该架构泛化性表现良好。文献 16利用深度强化学习技术对适用于作业车间调度问题的优先调度规则进行自动学习,析取作业车间调度问题的图表示,根据该图表示提出了一种基于图神经网络的模式,并将其嵌入到状态空间。强化学习的基本思想是使智能体在与环境交互过程中获得最大的累计回报值,从而不断优化自身动作的决策17。其理论基于马尔可夫决策过程,算法构成主要包括智能体、环境、状态、动作以及奖励等。智能体若处于状态 st,根据策略函数得到动作 at并施加于环境之上,获得返回奖励 rt+1,期望回报 Gt表示在 折扣下估计的累计奖励。期望公式如下:Gt=rt+1+rt+2+T-1rT=k=0krt+k+1(1)引入状态价值函数 V(s)对 Gt进行估计:V(s)=E(Gt|st=s)(2)同时为了评价某一个状态或者动作的好坏,引入动作价值函数 Q(s,a):Q(s,a)=E(Gt|st=s,at=a)(3)而针对动作a为离散的现象,可以将其松弛化为 动 作 空 间 上 的 连 续 分 布 的 采 样。例 如,用 Softmax 将网络输出规范化为动作的概率分布,然后在此基础上采样动作并执行获得反馈。1.3近端策略优化在可扩展性和鲁棒性等方面上,Q-Learning 在许多简单的连续问题上表现较差18,而 TRPO 相对复杂,并且与包含噪声或者参数共享的架构不兼容。因此,研究人员在策略梯度算法的基础上结合 TRPO的优势,提出一种 PPO算法。不同于基于 Q 值的强化学习算法,PPO 算法6将模型参数定义在策略函数19中:(a|s,)=Prat=a|st=s,t=(4)式(4)表示