面向
群体
共识
机制
强化
学习
辨识
方法
面向群体共识机制的逆强化学习辨识方法于鑫1,吴文峻2,3*,罗杰1,3,李未1,31.北京航空航天大学计算机学院,北京 100191;2.北京航空航天大学人工智能研究院,北京 100191;3.软件开发环境国家重点实验室,北京 100191*E-mail:收稿日期:2021-08-13;接受日期:2021-11-26;网络版发表日期:2022-08-23科技创新2030-“新一代人工智能”重大项目(编号:2018AAA0102300)资助摘要作为新一代人工智能的重要研究领域,群体智能是解决开放不确定环境中大规模复杂问题的必由途径,对人工智能的其他研究领域有着基础性和支撑性的作用.群体智能系统中,智能体遵循共识机制进行交互演化产生群体共识,辨识共识机制是构建和理解群体智能系统的关键.传统的共识机制建模方法需要做过多简化假设,难以面对复杂多样的群体智能系统,应建立数据驱动的共识机制辨识方法.本文将共识机制的辨识问题转化为群体智能系统的逆强化学习问题,提出面向群体共识机制的逆强化学习辨识方法,并将上述辨识方法应用于集群系统,在多个场景中验证了对群体智能系统的辨识能力,实现了对群体智能系统的共识机制的反演.关键词系统主义,群体智能,逆强化学习1引言群体智能最早源于对自然界中蚂蚁、蜜蜂等社会性昆虫群体行为的研究,这些昆虫群体有一定的结构与组织,能够通过简单规则涌现出群体性的智慧,同时具有一定的学习能力来适应环境的变化1.其他类型的生物也有类似的群体智能行为,例如鱼群集体游动以减少阻力,大型食草动物集聚在一起躲避天敌,甚至连细菌都具备一定的集体决策能力.在人类社会中大规模复杂群体行为,如:开源社区的软件创新、基于众包众享的共享经济、各类市场中的群体商业金融博弈等,都是通过社群化的组织结构来管理、协调和运行,以竞争、合作、对抗等多种自主协同方式来共同完成挑战性任务,涌现出超越个体能力的群体智能2,3.群体智能系统的本质是动态认知复杂网络,涌现强弱决定网络演化的复杂程度.自然界和人类社会中的群体智能虽然各具形态,其蕴含的核心概念却是相同的,即复杂认知网络的群体性、涌现性、共识性、演化性.共识性是群体智能系统最重要的性质,指智能体在局部交互中,按照一定规则形成全局共识,驱动群智涌现.智能体在局部交互中所遵循的规则即为共识机制.研究表明,遵循局部共识机制的个体能够在系统的全局层面产生复杂的群体行为,辨识个体共识机制是引用格式:于鑫,吴文峻,罗杰,等.面向群体共识机制的逆强化学习辨识方法.中国科学:技术科学,2023,53:258267Yu X,Wu W J,Luo J,et al.Identification method for collective consensus mechanism based on inverse reinforcement learning(in Chinese).Sci SinTech,2023,53:258267,doi:10.1360/SST-2021-0370 2022 中国科学杂志社中国科学:技术科学2023 年第 53 卷第 2 期:258 267SCIENTIA SINICA T群体智能激发汇聚及应用专辑论 文构建和理解群体智能系统的关键4.现有对共识机制的辨识方法主要有两种,包括基于代理的建模方法(agent based model,ABM)和基于机器学习的建模方法.ABM被广泛应用于对复杂群体行为的研究,经典的群体运动模型有Vicsek模型、Cuker-Smale模型等.Vicsek模型将所有个体的共识机制设计为与邻居对齐运动方向5.作为Vicsek模型的扩展,Cucker-Smale模型指定个体通过计算其邻居速度大小的加权平均值来确定其下一时刻速度大小6.然而,不同的群体系统具有不同的行为模式,很难为所有群体运动构建统一模型7.此外,构建上述模型需要大量领域知识以及对模型参数的精心调整,增加了模型的构建难度.为了应对这些挑战,机器学习被用来以数据驱动的方式对群体行为进行建模.基于深度神经网络预测生物群体的未来运动方向取得了比以前基于代理的模型更高的准确度8.尽管这些模型在行为预测方面表现出很高的准确性,但它们并没有揭示具体的共识机制以及产生共识机制的内在激励.共识机制的辨识本质上是对智能体策略函数的辨识,而对智能体策略函数的辨识已经发展出了大量方法和范式.行为克隆(behavior cloning,BC)以监督学习来学习策略,会造成累积误差和分布漂移的问题9.逆强化学习方法包括学徒学习方法以及最大熵逆强化学习方法等,最大熵逆强化学习解决了最优策略不唯一的问题10,11.相比于行为克隆,逆强化学习能够考虑策略的长期回报,而不像行为克隆只考虑状态到动作的单步映射,具有更好的鲁棒性及泛化能力.生成对抗模仿学习(generative adversarial imitation learning,GAIL)和生成对抗逆强化学习(adversarial inverse rein-forcement learning,AIRL)利用生成对抗网络和最大熵逆强化学习之间的联系,提出了基于生成对抗架构的模仿学习,将逆强化学习和深度神经网络结合起来,拓展了模仿学习的应用场景.围绕多智能体场景的逆强化学习研究较少,大多数工作假设奖励函数由人工特征的线性组合构成,可扩展性差且无法应用于高维任务12,13.Song等人14提出了多智能体生成对抗模仿学习(multi-agent GAIL,MA-GAIL),是GAIL在多智能体场景的扩展,旨在辨识专家行为策略,适用于一般马尔可夫博弈.多智能体逆强化学习(multiagent AIRL,MA-AIRL)是AIRL在多智能体场景的扩展,能够从最优判别器中计算奖励函数15.然而MA-GAIL和MA-AIRL没有考虑群体系统的特点,不适合用来辨识大规模同构群体系统.针对群体智能的复杂系统性质,需要从其非线性、随机和动态的特征,遵循系统主义的精准智能研究范式,构建面向群体共识机制的辨识方法16.本文主要围绕群体智能系统的建模分析问题,研究基于逆强化学习的系统辨识方法.具体贡献如下:分析了群体智能系统的基本性质,并在此基础上提出面向群体共识机制的逆强化学习辨识方法;将对共识规则的辨识问题转化为对智能体策略函数和奖励函数的建模问题,提出了面向集群系统的群体逆强化学习算法;以群体运动为例,将上述群体智能理论的模型和方法应用于集群系统,通过实验验证了该方法对群体智能系统的辨识能力,实现了对群体智能系统共识机制的反演.2群体智能的共识机制群体智能的共识机制定义了智能体之间的交互模式,使得智能体通过分布式认知网络完成信息交互,推动网络中所有智能体的局部状态达成共识,从而涌现群体智能.本节首先分析了群体智能的两大类主要的共识形态,随后介绍了经典的群体共识建模分析方法.2.1群体共识机制分类自然界和人类社会存在两大类型的群体智能共识机制,一类是以蜂群、蚁群为代表的生物群体智能,另一类是人类高级群体智能.表1给出两类群体智能共识机制的比较.蜜蜂和蚂蚁这类低级生物虽然感知和认知能力很弱,不具备记忆能力、自我意识以及对同伴的相互感知意识,更没有自主的任务分配和相互协同的能力,但是蜂群和蚁群在完成觅食、筑巢这些活动时,从整体上看是以一种有组织、有协调的方式在运转的.这类活动的本质是间接式的协同机制,通过环境和智能体之间的交互而实现.其基本原则是,智能体的动作会在环境中留下轨迹(或者信息),信息量的累积和汇聚将影响其他智能体的后续行动.所以智能体与环境交互的结果实际产生了强化的效果,使得群体的行为逐渐涌现出整体性、趋同化的动作模式17.研究生物群体智能系统共识机制,对解决人工集群协同决策问题具有重要借鉴意义18.中国科学:技术科学2023 年第 53 卷第 2 期2592.2群体共识机制建模传统的群体行为研究聚焦某一类动物如何完成群体任务,例如,鱼群如何在有天敌追逐的情况下集体调整移动方向,蚁群如何群体地觅食等.研究结果最终都归结为通过针对特定任务的共识算法,来解释局部的交互如何形成全局共识,产生有利于动物群体生存和发展的结果.在生物科学和物理科学领域中,对自然中的蚁群、蜂群、鸟群等集群运动进行了大量的理论和实验研究,提出了针对不同生物集群运动的共识规则和运动方程.本节以鱼群运动为例,加以说明.(1)鱼群的集群共识规则鱼群通常包括三种主要的行为模式:避碰性、同步性、内聚性19.其共识机制可由若干条简单的个体行为规则来刻画,这些规则规范了单条鱼在根据自身的形状和运动方式特点的前提下,所采取的运动决策模式.在这些针对个体的局部规则的集合作用下,会产生鱼群的集群智能行为.排斥规则:实现避免碰撞,过于靠近的个体需要对运动速度和方向加以控制,防止互相碰撞的发生.对齐规则:实现与邻居个体的运动同步,这个规则也被称为“互效行为”,每个个体都试图调节自己运动的速度和方向,以匹配其邻居的运动矢量.吸引规则:邻居选择,根据运动过程中的注意力选择机制,来动态选择自己的邻居.上述鱼群的三类规则中对齐规则发挥着群体共识形成的核心作用,通常以Vicsek运动模型来刻画和分析.(2)生物群体Vicsek运动模型Vicsek模型最初用于研究大量群体构成的群体系统行为,借助该模型能够便捷而有效地仿真大规模群体运动的同步行为5.在Vicsek模型中,每个个体可全方位感知到所有位于自身感知范围内邻居个体,每个个体的运动方向由其邻居运动角度的矢量平均来更新,且更新方向过程中受到噪声干扰.所有个体都具有相同的速率v0,个体i在t时刻的运动方向为t()i,则其速度矢量为vi(t)=vtvtcos(),sin()ii00T.个体i在t+1时刻的位置按照式(1)进行更新:tttxxv(+1)=()+().(1)iii每个个体的运动方向按照下式进行更新:ttt(+1)=()+(),(2)iii其中t()i表示个体i包含自身在内的所有邻居个体的平均运动方向,可由下式进行计算:ttt()=arctansin()cos().(3)ijtjjtj()()iiVicsek模型虽然简单,却可以进行大规模群体运动仿真,是研究群体动力学的有力工具.理论研究结果表明:Vicsek这类分布式共识算法通过耦合交互网络和控制方程,可以建模为多输入多输出系统20.分布式共识算法通过局部智能体之间的交互,会确定收敛到一个集体的决策状态,而智能体之间的网络特征决定分布式共识算法的稳定性和收敛性21.传统的共识机制设计方法的局限在于它需要手工设计控制规则和面向具体问题的特征,这就需要大量的领域知识和工作量,很难扩展到通用的领域.要解决这一问题,需要采用基于深度神经网络的建模方法,直接从行为数据中学习模型,而不再依靠单纯的手工特征和启发式规则.3群体共识机制辨识智能群体通过不断交互信息,形成复杂认知网络,实施行为演化和智能涌现,适应动态变化的环境.通过表 1生物群体智能与人类群体智能的比较Table 1Comparison of collective intelligence between human and animal群智类型智能体性质共识机制蜂群、蚁群等生物群智受限智能体:低级智能体简单行为模式,只具备较简单的决策适应能力服从性共识:个体受周边的生物激素、同伴运动的激励,被动地模仿和趋同人类群智自由意志智能体:高级智能体,复杂行为模式,具备自主决策能力自主性共识:根据内在的需要,结合外在激励,自主选择策略,通过信息交互形成共识于鑫等:面向群体共识机制的逆强化学习辨识方法260将群体智能系统建模为马尔可夫博弈,能够将对共识机制的辨识转化为反演智能体的策略函数和奖励函数,并进一步基于逆强化学习算法进行求解.本节首先介绍马尔可夫博弈框架,随后阐述系统辨识与逆强化学习的关系,最后提出面向群体共识机制的逆强化学习辨识方法.3.1随机马尔可夫博弈框架对于上文所述群体智能系统,可以采用部分可观察随机马尔可夫博弈框架(partially observable stochas-tic g