ComputerEngineeringandApplications计算机工程与应用2023,59(7)近年来,以深度强化学习技术为代表的人工智能方法在机器博弈[1]、实时策略游戏[2]、机器人控制[3]、汽车自动驾驶[4]、生物蛋白质分子折叠[5]等领域取得了广泛应用。而智能博弈对抗[6]就是将人工智能方法引入到博弈对抗问题中产生的一个全新领域。现实世界中,涉及到博弈的场景都可以建模为智能博弈对抗问题。智能博弈对抗场景中最为关键的技术是多智能体强化学习[7]。多智能体强化学习的设定中,通常包括一个共享的对抗环境和多个智能体,每个智能体与环境本身以及其他智能体进行交互。每个时刻,智能体根据自身状态依据特定的策略从动作空间中选择动作并执行,对环境产生影响进而得到奖励或惩罚,直到时间终止或任务完成。与单智能体强化学习[8]的设定不同,多智能体强化学习中存在典型的“非平稳性”(non-stationarity)问题[9],马尔可夫决策过程不再适用。这是因为在多智能体共存的环境中,环境本身和其他智能体共同构成某个智能体的学习环境,该智能体的动作效果不仅取决于共享的环境,还受到其他智能体动作的影响。而且,随着每个智能体策略学习的进行,它们的决策模型是随时间变化的(不平稳的),因此智能体学习环境的动力学模型(奖励函数和状态转移概率)不再满足马尔可夫性,使得学习变得更加困难。解决多智能体强化学习“非平稳性”问题的一个思路便是对手建模(opponentmodeling)[10-11],即对环境中对手的行为信息进行建模和预测,智能体决基于对手动作预测的智能博弈对抗算法韩润海,陈浩,刘权,黄健国防科技大学智能科学学院,长沙410073摘要:智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。提出一种基于对手动作预测的智能博弈对抗算法,对环境中的对手进行隐式建模。该算法通过监督学习获得对手的策略特征,并将其与智能体的强化学习模型融合,缓解对手对学习稳定性的影响。在1v1足球环境中的仿真实验表明,提出的算法能够有效预测对手的动作,加快学习收敛速度,提升智能体的对抗水平。关键词:对手动作预测;竞争双深度Q网络(D3QN);智能博弈对抗;深度强化学习文献标志码:A中图分类号:TP183doi:10.3778/j.issn.1002-8331.2111-0362IntelligentGameCountermea...