温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
协同
空战
智能
强化
学习
关键
问题
谢育星
第43 卷第1期2023 年2 月飞机设计AICAFT DESIGNVol 43 No 1Feb2023收稿日期:2022 03 20;修订日期:2022 12 05作者简介:谢育星(1997),女,硕士研究生引用格式:谢育星,陆屹,管聪,等 协同空战与多智能体强化学习下的关键问题 J 飞机设计,2023,43(1):6 10 XIE Yuxing,LU Yi,GUAN Cong,et al Key Problems in Coordinated Air Combat and Multi-agent einforcement Learning J Aircraft Design,2023,43(1):6 10文章编号:1673 4599(2023)01 0006 05doi:1019555/j cnki1673 4599202301002协同空战与多智能体强化学习下的关键问题谢育星,陆屹,管聪,纪德东(沈阳飞机设计研究所,辽宁 沈阳110035)摘要:自从协同作战的概念提出后,各军事强国在协同空战领域均取得了重大进展,协同成为提升作战能力的倍增器。近数十年来,作为解决序列问题的现代智能方法,强化学习在各领域高速发展。然而,面对高维变量问题时,传统的单智能体强化学习往往表现不佳,多智能体强化学习算法为解决复杂多维问题提出新的可能。通过对多智能体强化学习算法原理、训练范式与协同空战的适应性进行分析,提出了协同空战与多智能体强化学习的未来发展方向,为更好地把多智能体强化学习应用于协同空战提供思路。关键词:协同空战;多智能体强化学习;训练范式;集中式训练分布式执行(CTDE)中图分类号:V11文献标识码:AKey Problems in Coordinated Air Combat andMulti-agent einforcement LearningXIE Yuxing,LU Yi,GUAN Cong,JI Dedong(Shenyang Aircraft Design esearch Institute,Shenyang110035,China)Abstract:Since the concept of cooperative operation was put forward,all military powers have madegreat progress in the field of cooperative air combat,and coordination has become a multiplier to en-hance combat capability In recent decades,as a modern intelligent method to solve sequence prob-lems,reinforcement learning has developed rapidly in various fields However,in the face of high-di-mensional variable problems,the traditional single-agent reinforcement learning often performs poor-ly Multi-agent reinforcement learning algorithms provide new possibilities for solving complex multi-dimensional problems By analyzing the adaptability of multi-agent reinforcement learning algorithmprinciple,training paradigm and cooperative air combat,the future development direction of coopera-tive air combat and multi-agent reinforcement learning is proposed,which provides ideas for betterapplication of multi-agent reinforcement learning in cooperative air combatKey words:coordinated air combat;multi-agent reinforcement learning;training schemes;central-ized training decentralized execution(CTDE)当代战争一切空中行动的前提条件是制空权。随着人工智能技术的迅速发展,空战将从能量机动制胜、信息机动制胜时代跨越进入认知机动制胜时代,未来空战的主要模式是复杂空战系统间的对抗,核心特征是协同作战1。强化学习算法近年来广泛应用于各个领域。在空战决策领域,强化学习已经解决了许多具有挑战性的问题2 3。但是,现阶段人工智能技术大多只应用于单机决策领域,解决单智能体领域问题4。随着协同空战理论的发展,空战中出现了许多新的现实问题,如有/无人协同、无人机机群控制等。面向协同作战这一新问题,单智能体解决问题能力有限,因此,针对此类多智能体的复杂空战问题,应当采用多智能体强化学习算法解决。本文对协同空战与多智能体强化学习下的关键问题进行分析研究。1智能空战与协同作战发展历程1.1智能空战领域的发展历程近几十年来,人工智能进入高速发展期。国内外智能领域里,空战决策理论与工程应用都取得了巨大的突破,智能空战的发展可以分为5 个主要阶段5:第 1 阶段专家逻辑阶段1969 年 NASA 兰利研究中心研制开发 AML 系统,采用自适应专家机动逻辑,标志着智能技术首次系统性应用于空战领域6。第 2 阶段规则生成阶段代表性空战系统为PALADIN 系统,其特点是不依靠专家经验,自动生成空战规则,形成模块化规则库。第 3 阶段规则演进阶段代表性空战系统为阿尔法空战系统,该系统基于演进式规则。2016年,在模拟环境对战中,阿尔法空战系统首次击败了退役美国空军上校 Keane,标志着人工智能在空战决策问题领域取得了突破性进展7。第 4 阶段机器学习阶段代表性空战系统为空战自适应动态规划系统8 和阿尔法狗斗,空战自适应动态规划系统采用自适应动态规划,解决二维离散动作优化问题,阿尔法狗斗面向近距空中格斗,并在模拟环境中击败飞行员。第 5 阶段演示验证阶段2020 年 6 月,美国空军发布关于空中博格人项目的视频。空中博格人验证机标志着人工智能在空战领域实用化,对于推动智能空战的发展具有里程碑意义9。1.2协同作战的发展历程上世纪70 年代,美国首次提出协同作战概念。此后,协同作战技术理论快速发展,并迅速应用、列装。基于协同作战关键技术,协同作战样式的发展过程分为 4 个阶段:第 1 阶段1970 年至 2000 年,典型代表项目是 CEC 系统项目,主要协同作战样式为超视距拦截来袭导弹,对应的关键技术包括高速数据传输与高精度符合跟踪。第 2 阶段2002 年至 2014 年,典型代表项目是 NIFC-CA 系统项目10,主要协同作战样式为跨域协同一体化火力制空,对应的关键技术为机载多功能先进数据链 LINK16。第 3 阶段2014 年至 2018 年,典型代表项目是拒止环境中协同作战项目11、忠诚僚机项目,主要协同作战样式为有/无人协同打击、无人自主协同打击,对应的关键技术包括分布式控制、高可靠通信技术。第 4 阶段2018 年至今,典型代表项目是马赛克战项目12,主要协同作战样式为灵活组建动态杀伤网、作战资源灵活分配,对应的关键技术包括人工智能技术、新体制通信技术,以及先进无人机制造技术。综上,高可靠、多节点的通信技术是协同技术的基础,随着通信技术的发展,协同作战技术实现从无到有的跨越。无人机制造技术的进步促进了无人机平台被纳入协同体系,实现了协同作战平台从有人平台为主向有人/无人并重的转变13。现阶段,人工智能技术发展日新月异,成为促进协同作战技术的关键要素。2多智能体强化学习模型协同空战问题可以描述为一个完全合作的多智能体马尔可夫决策问题,该问题可以建模为部分可观测马尔可夫决策过程(Dec-POMDP)。Dec-POMDP 可由八元组进行描述,G=S,U,P,r,Z,O,n,式中:sS 为环境的真实全局状态;uUUn为联合动作。每个步长里,智能体 aA 1,n分别选择 1 个动作,组成联合动作;P(s|s,u):S U S 为状态转移函数,表示在状态下 s 采取联合动作 u 后转移到状态 s的概率,其中 0P(s|s,u)1;r(s,u)为奖励函数,表示状态下 s 采取联合动作 u 后获取的奖励,所有智能体的奖励函数相同;zZ 为每个智能体独立的观测;O(s,u)为观测函数,表示状态 s 下采取联合动作 u 后获得联合观测7第1 期谢育星等:协同空战与多智能体强化学习下的关键问题o;n 为 n 个智能体;为折扣因子,0 1。在分布式部分可观测马尔科夫决策场景下,观测函数O(s,u)=S UZ式中:Z 为局部观测,zZ 表示每个智能体 a 获取自身观测值。每个智能体 a 的联合动作观测历史为aT(Z U)*式中:Z 为局部观测;U 为联合动作。基于联合动作观测历史获取策略a(ua|a):T U式中:a为智能体 a 的策略;ua为智能体 a 的动作。多智能体的联合策略 对应联合动作价值函数Q(s,u)=Es0,u0,t=0trtst,ut式中:E 为期望函数;st为 t 时刻的状态;u 为 t 时刻的动作;rt为 t 时刻的奖励。3协同空战与多智能体强化学习训练范式智能体通过获取数据、积累经验,根据环境反馈的奖励信号优化自身行为,该过程定义为智能体的训练过程。智能体的训练范式可以分为集中式训练和分布式训练。采用集中式范式对多智能体进行训练时,多智能体相互通信、交换信息,通过自身信息和通信信息更新策略。采用分布式范式对多智能体进行训练时,每个智能体不利用外部信息,自行执行更新,分别开发独立的策略。除了训练范式之外,智能体在执行范式的选择上也存在差异。执行范式分为集中式执行和分布式执行。集中式执行范式里存在 1 个集中式计算单元,该集中式单元计算所有智能体的联合动作,所有智能体执行此联合动作。分布式执行范式中,每个智能体根据不同的独立策略进行行动。3.1分布式训练在分布式训练方案中,每个智能体的训练与其他智能体都相互独立,并不依赖于显式的信息交换。分布式训练分布式执行(DTDE)中,如图1 所示,每个智能体 i 获取 1 个联合策略 i,通过部分观测映射到个体动作的分布 OiP(Ui)。DTDE 范式的根本缺陷是环境的非静态性。在单智能体强化学习中,单智能体仅需通过动作和环境发生交互,即能完成训练。然而,在多智能体强化学习中,在同一时刻,环境中的每个智能体都进行训练,从而同时获取新的策略。对于每一个单智能体,这意味着环境是非静态性的,当别的智能体通过训练获取新的策略,该智能体的最优策略也会相应改变,价值函数将不再准确。换言之,随着其他智能体最优策略的更新,当前场景下的最优策略在将来的场景下不再是最优策略。图 1分布式训练分布式执行(DTDE)范式将 DTDE 范式应用于多机协同空战的训练,可以描述为编队内所有飞机作战目标相同,但各架飞机之间没有通信,每架飞机根据当前本机探测到的战场态势,进行单机最优决策。DTDE 训练范式使各飞机的单机作战效能最大,但没有使空战编队的作战效能最大化,因此,DTDE 范式不适用于多机协同空战的训练。3.2集中式训练集中训练范式描述了基于互通信更新的智能体策略。虽然在训练期间启用了智能体之间的互信息共享,但在测试时这些额外的信息将被丢弃。集中式训练对联合策略建模,该策略将观测的集合映射到联合动作 OP(U)。集中式培训可