分享
基于多智能体强化学习的纺织面料染色车间动态调度方法_贺俊杰.pdf
下载文档

ID:2251376

大小:2.49MB

页数:14页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 智能 强化 学习 纺织 面料 染色 车间 动态 调度 方法 俊杰
第 卷第期计算机集成制造系统 年月 :收稿日期:;修订日期:。;基金项目:国家重点研发计划资助项目();东华大学青年教师启动基金资助项目。:,(),基于多智能体强化学习的纺织面料染色车间动态调度方法贺俊杰,张洁,张朋,郑鹏,王明(东华大学 机械工程学院,上海 ;上海交通大学 机械与动力工程学院,上海 )摘要:针对任务随订单动态到达环境下的纺织面料染色车间动态调度问题,以最小化总拖期时间为优化目标,提出了基于多智能体循环近端策略优化()强化学习的完全反应式调度方法。首先,针对染色车间调度的组批和排缸两个子问题,设计了组批和排缸两个强化学习智能体;然后,针对车间任务的动态性,引入长短期记忆网络()提取车间动态信息,提高智能体对动态环境的自适应能力;进一步提出组批智能体和排缸智能体的交互机制,实现组批与排缸全局优化;最后,抽取问题约束与优化目标的相关特征并设计奖励函数,通过动态调度机制驱动智能体的交互学习获得最优调度策略。经某印染企业的实例验证表明,所提方法对不同规模问题的求解性能均优于多种常用的高性能启发式规则,有效降低了产品的总拖期时间,提升了企业订单的准时交付能力。关键词:染色车间调度;并行批处理机;动态调度;多智能体强化学习;长短期记忆网络;总拖期时间中图分类号:文献标识码:,(,;,):,()(),();,:;计算机集成制造系统第 卷引言纺织产业是我国国民经济的支柱产业之一,面对竞争日益激烈的市场环境和多品种小批量的个性化定制生产需求,通过生产调度优化提高产品准时交付率是提升企业竞争力的有效措施。纺织面料的生产由织造和染整两个阶段组成,其中染整阶段又包括前处理、染色和后处理等工艺。染色工序由于耗时长,通常被视为纺织品生产管控的关键环节,也是制约产品订单准时交付的瓶颈所在。通过对染色车间生产过程进行调度优化以降低产品的拖期交付,对提升企业的竞争力具有重要意义。根据染色工艺特点,染色车间的调度问题可拆分为订单组批和排缸两个子问题,且需要考虑机器容量限制与不相容工件族等约束,该问题已被证明为 问题。此外,实际的染色生产以订单为驱动,染色任务随着订单动态到达。通过调研发现,染色车间存在染色回修、紧急订单、改色漂染等突发紧急任务,紧急任务的扰动会影响生产进程和降低生产效率。因此,本文将染色车间调度问题抽象为具有不相容加工族和不同的染缸容量约束,考虑任务动态到达的并行批处理机调度问题,并通过最小化总拖期时间来减少产品的拖期交付。近年来,已有众多学者针对染色车间调度问题展开研究,且现有的研究以静态调度问题为主,主要方法包括数学规划方法和智能优化算法。随着纺织企业向小批量个性化定制和面向订单驱动的生产模式转型,车间调度的动态事件频率增加,这对调度算法在动态生产环境下的自适应响应能力提出了更高的要求。动态环境下的调度策略主要包括鲁棒调度、预反应式调度和完全反应式调度类。由于染色车间动态事件发生频率较高,频繁的预反应式重调度不利于生产过程的稳定性,鲁棒调度以牺牲调度性能为代价提高鲁棒性,且不能对动态事件进行响应,而以各类启发式规则为代表的完全反应式调度方法更适用于染色车间动态事件频发的生产环境。但现有的启发式调度规则均基于特定的动态场景设计,缺乏自适应调整能力。随着机器学习技术的快速发展,其中的强化学习方法可通过学习生成复杂的调度策略,具有较强的自适应和学习能力,被广泛应用于各类实际调度问题中。张东阳等 应用 强化学习算法求解置换流水车间调度问题;肖鹏飞等 提出了基于深度强化学习的非置换流水车间调度算法并改进了网络输出层;等 将 算法用于晶圆制造 系 统 调 度,对 多 目 标 采 用 加 权 的 奖 励 函 数;等 将 强化学习算法应用于小规模的批调度问题。近年来提出的近端策略优化(,)算法 是一种基于策略的深度强化学习算法,该算法交互的经验数据可重复利用,使得其采样效率更高,该算法独有的损失函数裁剪使得该算法学习稳定性更强,在交通 、机器人 、车间调度 等智能控制领域得到了实际应用,且明显优于策略梯度(,)、信任区域策略优化(,)、优势动作评论(,)等深度强化学习算法。但在现有基于 的车间调度方法中均为独立的智能体,如何针对组批和排缸两阶段的染色车间调度使用多个 智能体协作调度,并提升任务动态到达的响应能力,是将 算法应用于染色车间调度问题的难点所在。综上所述,当前研究以静态调度为主,无法满足生产转型带来的快速响应需求,传统的强化学习调度方法 在优化调度目标时只关注了车间的实时信息而缺乏对历史动态信息的考虑。因此,本文在现有染色车间调度研究和 强化学习算法的基础上,针对任务动态到达的染色车间调度问题,以最小化总拖期时间为目标,设计具有组批智能体和排缸智能体的多智能体循环近端策略优化(,)强化学习算法。针对车间复杂约束和调度目标,抽取车间关键参数并设计奖励函数,将染色车间调度问题转化为序列决策问题;为多智能体引入长短期记忆网络(,)的记忆与预测功能,实现车间动态信息的提取;针对组批和排缸的全局优化问题,设计组批智能体与排缸智能体协作调度机制,通过智能体与车间交互训练建立高效的调度策略。问题描述与建模 问题描述染色工序要求将素色坯布放置染缸中持续浸染,直至纺织品的颜色符合预定要求。染色车间通常有多种不同容量的染缸且各染缸独立工作,染缸一旦开始染色,在工序完成之前无法被其他任务第期贺俊杰 等:基于多智能体强化学习的纺织面料染色车间动态调度方法抢占。为提高染缸的利用率,相同幅宽的坯布可经首尾缝制连接后,组批进入同一个染缸进行染色,但多个染色任务的总质量不得超过染缸的最大容量。由于印染不同的颜色所需的染料和助剂不同,只有相同颜色的染色任务才能同时进入同一个染缸生产。因不同型号的坯布纱线原料比例不同,不同批次纱线的化学处理不同可能会导致染色差异,组批时还需是同一批纱线原料织造的同型号坯布。因此幅宽、颜色、型号和纱线批号均相同的坯布可归为同一加工族,仅同族的任务才能进行组批,组批完成后进行排缸,即选择批次指派到染缸进行染色,染色任务的生产调度过程如图所示。综上,染色车间调度问题可描述为:有个染色任务动态到达,需在台并行批处理机上进行加工,已知生产工艺和加工参数等,在满足相关约束的基础上,对订单任务进行组批和排序,以使得产品订单总拖期时间最小。本文研究的问题基于以下假设:()所有任务动态到达;()不存在撤单等特殊情况;()批处理机有不同的最大容量限制;()具有不同色系、色号、幅宽或布批号的任务不兼容;()同族任务加工时间相同,且可组批加工;()连续的批次加工之间存在由颜色决定的不同准备时间;()任务在任一时刻只能由一台机器加工;()任务在机器上非抢占式加工。建立数学模型进一步建立染色车间调度的数学模型:符号与变量定义表符号与变量符号定义任务集合,索引,批集合,索引,属于批次的任务集合加工族集合,索引,属于加工族的任务集合染缸集合,索引,续表 批的最大数量任务的交货期任务的重量任务的到达时间任务的交货期 若任务属加工族染缸的最大容量 染缸依次加工族和族的切换时间加工族的加工时间表决策变量决策变量及其含义 如果任务属于批次并在染缸上加工其他 如果批次属于族并在染缸上加工其他 批次在染缸的开始加工时间 建立数学模型将染色车间调度问题建立如下数学模型:。(),;(),;()计算机集成制造系统第 卷 ,;(),;()(),;(),;(),;(),;()(,),;(),。()其中:式()表示最小化总拖期时间;约束()确保一个任务只能匹配到一个批和一个染缸;约束()表示批的最大重量不得超过加工该批的染缸的最大容量;约束()和约束()表示加工族约束;约束()表示相邻两个批次的染缸切换时间约束;约束()表示开始加工时间约束;约束()表示完工时间约束;约束()表示起始时间和完工时间必须大于;约束()表示任务的拖期时间约束,若未拖期则为;约束()表示两个决策变量为变量。基于 强化学习的染色车间动态调度方法染色车间调度问题可分解为组批和排缸两个子问题。组批是将同加工族的任务组合到一起形成批次;排缸是将组合好的批分配至染缸进行染色生产。在实际生产过程中,客户订单不断的下达,车间状态随时序演进,染色车间调度问题转化为包含组批和排缸的序列决策问题。本文研究基于多智能体强化学习的调度算法,设计动态调度机制,并驱动如图所示的组批智能体和排缸智能体分别对两个子问题进行求解,以实现总拖期时间最小。动态调度机制基于完全反应式的动态调度方法的主要思想是根据车间的实时状态实时安排待加工任务的生产。随着新任务的到达和车间加工进度的变化,需要及时地安排新任务到空闲的染缸上进行加工,不断重复上述过程直至所有任务加工完成。如图所示为本文提出的调度染色车间动态调度流程。在加工过程中依次执行如图左侧所示的组批子循环和排缸子循环,在调度策略中考虑等待实现目标优化,并通过图右侧所示的事件与时间窗结合的混合触发方法不断滚动。染色车间以订单驱动生产,在未知未来订单的第期贺俊杰 等:基于多智能体强化学习的纺织面料染色车间动态调度方法动态环境下需要考虑等待。如图中无等待的调度甘特图所示,在时刻可对进行加工,但后续到达的任务到达时,由于已进行加工且无法中断,导致和的拖期时间均有增加。因此,在动态生产环境下对任务订单进行合理的等待能有效的减少任务的完工时间。为提升动态环境下的响应能力,本文首先考虑了现有研究常用的事件驱动的调度。但因在调度策略中考虑了等待,等待成功与否同样具有不确定性,可能会发生因等待任务而导致染缸长时间空闲的情况,因此在其基础上引入时间窗口触发机制,可及时对不合理的等待方案进行修正。调度触发时间刷新表示如下:(,)。()式中:为下一事件发生时刻,为时间窗口长度参数。强化学习调度算法基于强化学习的调度方法不同于传统调度优化方法的“建模、分析、优化”的思路,而是通过对调度交互数据进行学习,根据生产系统的反馈逐步调整调度策略实现调度策略的优化。首先,针对问题特点进行了强化学习智能体的设计;然后,强化学习智能体与染色车间的调度交互过程采用马尔可夫决策过程(,)进行描述,包括调度状态空间、调度动作空间和调度奖励函数的设计;最后,在调度触发时智能体输入染色车间状态,然后输出调度决策,车间环境反馈奖励值,随时序不断地执行如图所示循环交互获得大量调度经验数据,智能体以数据驱动的方法更新模型,实现调度策略优化。调度智能体 强化学习多智能体结构如图 所示,模型包括组批与排缸两个 智能体,每个智能体有一个调度策略模块 ,各自通过一个深度神经网络实现从车间状态到组批或排缸调度动作的映射。组批 和排缸 通过动态调度机制进行序列式调度,与染色车间环境进行交互并学习的调度经验优化调度策略。两个智能体共享一个全局 和一个全局 网络。设计的全局的调度行为评价模块 用来逼近真实的系统反馈,通过一个深度神经网络建立从车间全局状态与调度决策到调度评价的映射。在 算法基础上,本强化学习多智能体针对问题动态性引入 实现动态信息融合,针对组批调度和排缸调度两个计算机集成制造系统第 卷子设计智能体交互机制实现智能体的协作调度。()动态信息融合 模块输入车间的历史状态与调度记录进行编码和记忆,实现历史动态信息的融合,并输出一维矩阵对为智能体的调度提供关键的车间动态信息。如图所示,全局状态向量和调度决策进行拼接后,输入至 网络的内部通过隐状态和进行信息传递,单元的输入输出可表示如下:(,;)。()式中:输入包括车间状态,上一时刻的调度决策,为 网络参数,和 均为 的内部隐状态,输出交互向量 是一维向量,该向量是历史车间状态记录的和预测信息的编码。交互向量输出后,作为调度智能体的输入,使得智能体调度时获得当前的车间调度关键动态信息。通过为智能体引入上述 的记忆与预测功能,实现车间动态信息的融合,进一步提高智能体的动态自适应能力。()智能体交互机制通过 为中心的调度决策输入和交互向量输出实现智能体之间的交互。智能体调度前,从 获取交互向量作为智能体的部分输入,而交互向量编码了历史调度信息,实现了历史调度的智能体到当前调度智能体的调度信息发送;智

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开