一类
基于
概率
优先
经验
回放
智能
行动
评论
算法
张严心
第 49 卷 第 4 期2023 年 4 月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.49No.4Apr.2023一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法张严心1,孔摇 涵1,殷辰堃1,王子豪1,黄志清2(1.北京交通大学电子信息工程学院,北京摇 100044;2.北京工业大学信息学部,北京摇 100124)摘摇 要:针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi鄄agent soft actor鄄critic with probabilistic prioritizedexperience replay based on a distributed paradigm,DPER鄄MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的 2 类合作和竞争关系共存的捕食者-猎物任务场景,将 DPER鄄MASAC 与多智能体软行动-评论者算法(multi鄄agent soft actor鄄critic,MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi鄄agent softactor鄄critic with prioritized experience replay,PER鄄MASAC)2 种基线算法进行对比实验.结果表明,采用 DPER鄄MASAC 训练的捕食者团队其决策水平在最终性能和任务成功率 2 个维度上均有明显提升.关键词:多智能体系统;多智能体深度强化学习;优先经验回放机制;分布式结构;抽样概率;软行动-评论者算法中图分类号:TP83;TP311文献标志码:A文章编号:0254-0037(2023)04-0456-08doi:10.11936/bjutxb2022110019收稿日期:2022鄄11鄄10;修回日期:2022鄄11鄄22基金项目:国家自然科学基金资助项目(62273082);中央高校基本科研业务费重大项目(2018JBZ006)作者简介:张严心(1976),女,副教授,主要从事复杂大系统的智能控制、无人驾驶中的智能控制、复杂交通网络控制方面的研究,E鄄mail:yxzhang 通信作用:黄志清(1970),男,副教授,主要从事无人驾驶智能决策控制、车联网及区块链方面的研究,E鄄mail:Distributed Multi鄄Agent Soft Actor鄄Critic Algorithm WithProbabilistic Prioritized Experience ReplayZHANG Yanxin1,KONG Han1,YIN Chenkun1,WANG Zihao1,HUANG Zhiqing2(1.School of Electronic and Information Engineering,Beijing Jiaotong University,Beijing 100044,China;2.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)Abstract:Aiming at a huge demand for interaction data in practical multi鄄agent tasks,based on thedistributed architecture in the single鄄intelligent domain,a multi鄄agent soft actor鄄critic reinforcementlearning algorithm together with probabilistic prioritized experience replay and distributed architecture(DPER鄄MASAC)was proposed.In DPER鄄MASAC,workers collect experience data by interacting withenvironments simultaneously.To break through the limitation of purely recent experience being extractedwith high probability in the case of multi鄄agent system of high throughput,a more universal and improvedmode based on probability of priority was put forward to sample and utilize experience data,and thenetwork parameters of agents will be updated.To verify the efficiency of DPER鄄MASAC,comparative网络首发时间:2023-03-22 15:39:30网络首发地址:https:/ 第 4 期张严心,等:一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法experiments were conducted in two types of predator鄄prey environment in which both cooperation andcompetition exist among multiple agents.Meanwhile multi鄄agent soft actor鄄critic(MASAC)and multi鄄agent soft actor鄄critic with prioritized experience replay(PER鄄MASAC)were regarded as two baselinealgorithms,compared with DPER鄄MASAC in this environment with gradually incremental鄄difficulty.Interms of the final performance and success rate,results indicate that the policy of predators,which istrained by DPER鄄MASAC,performs optimally.Key words:multi鄄agent systems(MAS);multi鄄agent deep reinforcement learning(DRL);prioritizedexperience replay;distributed architecture;sampling鄄probability;soft actor鄄critic algorithm摇摇深度强化学习(deep reinforcement learning,DRL)至今已在自动驾驶1、自动靠泊2、机器人控制3等诸多领域得到广泛的应用,极大推动人工智能和自动化技术的发展.面对越来越多的大规模复杂问题,单智能体集成的解决方案将面临各种资源和条件的约束.多智能体系统(multi鄄agent system,MAS)4因具有自主性、分布性和协调性等特点成为实现分布式人工智能的重要解决方案.DRL 已在单智能体领域取得显著成果,这促使研究人员将 DRL 的思想和算法应用于 MAS 的学习和控制中,由此催生了多智能体深度强化学习5鄄7(muti鄄agent deep reinforcement learning,MADRL),以解决多个智能体在复杂任务场景中的智能序贯决策问题.经过数年的发展创新,MADRL 已广泛应用于游戏人工智能8、交通信号灯控制9鄄11、多机协同空战12、多机器人群控制13、滴滴智能派单14和工厂智能调度15等各类现实领域.MADRL 常基于集中式训练分布式执行(centralized training decentralizedexecution,CTDE)的范式16对 DRL 算法的训练和执行阶段做出相应调整.多智能体深度确定性策略梯度算法(muti鄄agent deep deterministic policy gradient,MADDPG)17是目前 MADRL 中基于 CTDE 范式最经典的算法之一.然而,MADDPG 在每个状态下只考虑一个最优动作,易收敛于次优策略且勘探效率较差,难以解决复杂环境下的多智能体决策问题.文献18提出基于软行动-评论者的多智能体深度强化学习算法(multi鄄agent soft actor鄄critic,MASAC),策略网络的输出是由高斯分布表示的随机策略.相比于深度确定性 策 略 梯 度 算 法(deep deterministic policygradient,DDPG)19的确定性策略,随机策略在大规模复杂场景和部分可观测任务中具有更强的探索能力和决策性能.实验结果表明,MASAC 的性能优于MADDPG.尽管 MASAC 策略的随机性在一定程度上增加了智能体探索最优动作的可能性,但增加策略的随机性意味着算法需要更长的训练时间来产生更多的交互数据.考虑到复杂多智能体环境中智能体数量的增加、动作空间和状态空间均呈指数级增长使得算法对于交互经验数据量的需求远高于单智能体强化学习,训练效率仍是 MADRL 解决实际问题时一个棘手且永恒的议题.本文的工作是基于 MASAC 进一步探寻具有更高决 策 效 率 的 MADRL.在 单 智 能 体 领 域 中,DeepMind 团队提出一种分布式优先经验回放池算法(distributed prioritized experience replay,Ape鄄X)20为智能体提供了多样的数据,智能体的性能在雅达利游戏中得到翻倍的提升.为加快收敛速度,文献21对多智能体深度强化学习算法领域中的优先经验回放机制进行研究,提出一种最大化新产生交互经验优先级的带有优先经验回放机制的多智能体软行动-评论者算法(multi鄄agent soft actor鄄critic with prioritized experience replay,PER鄄MASAC算法.考虑到多智能体系统对交互经验的庞大需求,在单智能体领域 Ape鄄X 算法的基础上,本文将优先经验回放机制和分布式强化学习同时引入到多智能体领域,提出一种两者并行的机制,即具有概率优先经验回放机制的分布式多智能体深度强化学习算法(multi鄄agent soft actor鄄critic with probabilisticprioritized experience replay based on a distributedparadigm,DPER鄄MASAC),同时针对多智能体本身引起的高数据需求量,照搬原有的单智能体的优先经验回放机制会引发学习者优先抽取的都是最近产生的经验,而过去有价值的经验将难以被抽取用于模型的训练等问题.本文提出了改进原有优先经验回放机制的优先级定义方式,旨在提高多智能体经验池抽取效率.首先介绍了单智能体领域分布式优先经验回放机制的核心思想,然后介绍了 MASAC 算法的基本架构,进而引出本文提出的高效率的多智能体754北摇 京摇 工摇 业摇 大摇 学摇 学摇 报2023 年DPER鄄MASAC 算法.在实验环节,本文从重塑奖励函数的角度设计了 2 种不同难度的捕食者-猎物多智能体任