网络
攻击
产品
供应
协同
系统
数据
驱动
变更
控制
设计
李庆奎
SCIENTIA SINICA Informationis中国科学:信息科学2023年第53卷第2期:325343c 2023中国科学 杂志社论文网络攻击下产品与供应链协同演进系统数据驱动变更控制设计李庆奎1*,高雪峰1,彭晨2,张蕴隆1,易军凯11.北京信息科技大学自动化学院,北京 1001922.上海大学机电工程与自动化学院,上海 200072*通信作者.E-mail:收稿日期:20211226;修回日期:20220407;接受日期:20220512;网络出版日期:20230206国家重点研发计划(批准号:2020YFB1708200)资助项目摘要产品与供应链协同演进系统(product and supply chain synchronous evolution system,PSCSE)是一类复杂的分布式信息物理系统(cyber-physical system,CPS),含有大量的未建模动态与不确定性.剧烈的需求波动及突发的网络事件,使系统结构参数极易发生变化.产品设计变更是维持PSCSES稳定、满足用户需求及保证经济效益的重要手段.本文研究基于分布式CPS的PSCSES在受到DoS攻击下的应急变更控制问题.首先,针对PSCSES在网络攻击下数据包丢失问题,利用每条子链的历史数据设计基于循环神经网络(recurrent neural network,RNN)的预测器以弥补因网络攻击造成的库存数据丢失;其次,利用博弈论思想将H一致性控制问题转化为多人零和图博弈问题,提出一种应急变更补偿机制;进而基于Q-learning的策略迭代技术设计了模型未知的控制器求解算法,实现了系统的库存状态H一致性.最后,仿真实验验证了所提方法的有效性.关键词网络攻击,数据驱动,供应链,变更控制设计,多智能体1引言产品与供应链协同演进系统是由服务于产品生产设计及流通的各个节点企业如供应商、制造商、分销商和零售商等组成,通过对信息流、物流、资金流的控制实现将原材料生产为产品并交付给用户的分布式网络控制系统(networked control system,NCS)1.随着人工智能技术的迅速发展,制造业正逐步由制造自动化向协同智能制造转型.作为国家智能制造重大工程的支撑,产品与供应链协同演进系统在电力供应、智能制造、生物医药、食品加工等领域具有广泛应用前景25.传统的产品与供应链协同演进系统以满足生产需求为主导,采用专用信道进行数据传输,在运作过程中通常出现物流缓慢、信息传递不及时、无法实现定制化生产,以及因生产设计不准确而导致库引用格式:李庆奎,高雪峰,彭晨,等.网络攻击下产品与供应链协同演进系统数据驱动变更控制设计.中国科学:信息科学,2023,53:325343,doi:10.1360/SSI-2021-0435Li Q K,Gao X F,Peng C,et al.Data-driven change control design for product and supply chain synchronous evolutionsystems under cyber-attacks(in Chinese).Sci Sin Inform,2023,53:325343,doi:10.1360/SSI-2021-0435李庆奎等:网络攻击下产品与供应链协同演进系统数据驱动变更控制设计存积仓等问题,致使资源利用率极低6.得益于大数据与人工智能技术的迅猛发展,产品与供应链协同演进系统开始向数字化、智能化、可组织化转变,成为数据驱动、综合计算和网络通信于一体的信息物理系统(cyber-physical system,CPS)7.考虑到复杂产品是由各个零部件组成的,而复杂产品的各个零部件的生产往往需要由不同子供应链完成,因此,可以将产品与供应链协同演进系统看成由多个子链组成的复杂多智能体系统8.基于信息物理系统与多智能体技术,产品与供应链协同演进系统可以实现以用户需求为导向的定制化生产,同时对生产过程实施实时监控以及智能化仓储,从而极大地减少商品库存过剩现象,简化生产流程,提高企业的经营效益.基于信息物理系统的产品与供应链协同演进系统以可靠、高效、实时协同的优势为复杂产品的生产销售提供了极大的便利,但大量网络设备的引入,使得这类信息物理系统更易受到恶意网络攻击.近年来,网络攻击事件频发对企业造成了严重的经济损失.如2020年6月8日,日本本田汽车制造商的服务器遭受到工业型勒索软件Ekans攻击导致部分生产系统中断9.此类网络安全事件表明:产品与供应链协同演进系统已经成为网络攻击的主要目标,频繁的网络攻击会使得产品与供应链协同演进系统中的节点企业遭受严重经济损失,甚至会危害社会稳定和国家发展.因此,如何提高产品与供应链协同演进系统在一类突发网络攻击事件下的应急能力和稳定性具有重要的现实意义.基于CPS的产品与供应链协同演进系统的网络攻击主要分为完整性攻击和可用性攻击两类.完整性攻击是指通过篡改传输数据包中的信息,以降低系统可靠性和安全性为目标的攻击方式;可用性攻击则通过阻塞CPS各部分之间数据与控制命令的正常传输,使系统的某些服务被暂停甚至瘫痪1012.DoS攻击属于可用性攻击方式,攻击者通过占用通信资源或设备资源,以禁止数据传输,导致通信信道中正常传输数据包丢失13,进而达到削弱或破坏网络服务目的,破坏力极强.因此,如果不能有效处理DoS攻击下的数据包丢失问题,则可能导致网络崩溃,更严重者甚至会破坏物理系统1418.当前,针对一类如DoS攻击所造成的系统安全问题,研究人员已开展大量卓有成效的工作,这些研究主要来自以下几方面.(1)从攻击者角度研究最佳DoS攻击时刻,如,Zhang等19研究了CPS中能量约束DoS干扰器的最佳攻击调度,即考虑如下情形:传感器通过无线信道将数据包发送到远程估计器,而DoS干扰器启动干扰攻击以增加无线信道数据包丢失的可能性.在有限时间内,能量预算有限的DoS干扰器只能发动n次攻击,连续攻击的策略可以达到最佳攻击效果.Zhang等20进一步研究了DoS干扰器的周期性攻击策略,即在活动期间攻击无线信道n个单位,然后转移到非活动时期,以补充其在下一个攻击期间的能量,并将最佳攻击计划扩展到具有多个子系统的NCS.(2)从防御者角度研究有效控制策略,如Foroush等21针对控制信道中遇到周期性DoS干扰攻击,研究了CPS的安全控制,提出一种能量受限的DoS干扰模型,利用周期性攻击策略来破坏通信信道的质量.为对抗DoS干扰攻击的影响,在攻击策略部分已知的情形下,给出了保证CPS渐近稳定的充分条件.文献22通过选择不同的频率和持续时间值,提出了能量预算有限的DoS周期攻击策略,并研究了在DoS攻击下CPS的稳定性.(3)基于博弈论方法研究防御者和拒绝服务攻击者之间的对抗关系,如文献23根据伯努利(Bernoulli)分布定义了一个随机变量ki表示攻击对控制信道的影响,利用博弈理论提出一种弹性控制方法,以抵抗CPS中的DoS干扰攻击.Zhao等24研究了DoS干扰和触发器均为能量有限的情形下,利用完全信息零和博弈来获取双方最优策略.由上述研究结果不难发现,尽管基于CPS的安全控制问题已开展广泛研究,但基于分布式CPS且模型未知的产品与供应链协同演进系统,DoS攻击防御策略研究尚显不足.开展基于DoS攻击的产品与供应链协同演进系统应急变更防御策略,是本文的主要任务之一.326中国科学:信息科学第 53 卷第 2 期为克服控制器设计对模型的依赖,近年来,无模型数据驱动控制研究引起了学界的广泛关注并取得丰富成果2536.数据驱动控制在智能交通、航空航天、智能制造等领域已得到广泛应用,如文献31,37,38.在文献29中,分布式无模型自适应迭代学习控制方法用以解决一类未知非线性多智能体系统领导跟随一致性问题.文献35提出了一种容错无模型自适应控制方案,用以解决一类单输入单输出非线性NCS在DoS攻击下的跟踪问题.近年来,随着人工神经网络技术的发展,一种新型数据驱动技术广泛应用于系统辨识、算法设计等领域,为无模型控制提供新的解决方案,如文献28,30将神经网络技术应用于系统辨识,有效地避免了对机理模型的依赖.然而,基于神经网络的系统辨识所导致的误差,为控制器设计带来了新的不确定性,进而降低了系统性能.为克服神经网络用于系统辨识所带来的误差,强化Q-learning作为一种解决无模型问题的有效方法得到广泛应用25,32,39,40.如文献39利用Q-learning解决了无模型H控制问题,但基于多智能体及网络攻击的无模型控制亟待进一步研究.文献40设计了基于策略迭代的Q-learning算法实现多智能体系统的一致性控制,但网络攻击及扰动问题考虑不足.值得注意的是,作为一类重要的分布式CPS,产品与供应链协同演进系统存在大量未建模动态及不确定性,剧烈的需求波动及突发的网络事件,如贸易战导致的供应链断裂,新冠肺炎造成的供应链阻塞,使系统的结构与参数极易发生变化,产品设计变更是维持产品与供应链协同演进系统稳定、满足用户需求及保证经济效益的重要手段.如何利用数据驱动技术设计应急变更补偿机制解决DoS攻击下的产品与供应链系统变更控制,是本文又一重要研究任务.本文研究基于分布式CPS的产品与供应链协同演进系统在受到DoS攻击下的应急变更控制问题.针对协同演进系统传感器控制器通信信道受到DoS攻击情形,利用数据驱动技术,根据历史数据和参考信息设计应急防御变更机制,通过零和微分图博弈理论与强化Q-learning技术设计H一致性控制器,保证系统在DoS攻击导致设计变更情形下,使产品与供应链协同演进系统达到领导跟随H一致,并可以抑制不确定需求和变更设计带来的牛鞭效应(即不确定用户需求信息由供应链底层向顶层逐级放大的现象41),同时保证系统具有一定的产品适应度及用户满意度.本文的主要贡献如下:首先,利用历史数据和参考信息设计应急变更补偿机制,即当DoS攻击造成库存状态数据丢失时,利用缓存器中的历史数据设计基于循环神经网络(recurrent neural network,RNN)的库存预估器以补偿库存数据丢失;其次,结合零和动态图博弈、最优控制和强化学习理论获得最优一致性生产率,即根据库存跟踪误差性能指标函数,得出贝尔曼(Bellman)方程,利用贝尔曼最优原则得到连续时间HJI方程,从而得到最优生产率以及最坏情形下的不确定需求.值得注意的是,HJI方程通常很难得到解析解,为此,我们引入基于策略迭代的Q-learning方法求解H一致性控制器;最后通过仿真算例验证了所提方法的有效性.2预备知识与问题描述2.1预备知识G=(V,E,A)是一个有向图,其中V=1,2,.,vN和E=aij=(i,j)V V分别表示有限,非空的N个节点集合及一组边集.A=aij是一个具有邻接元素aij 0的加权邻接矩阵,对于图G中的第i个和第j个节点,当aij=(j,i)E时,aij 0(其表示节点i可以从节点j接收信息),否则aij=0.若节点i能够接收到节点j发送的信息,则称节点j是节点i的邻居,节点i的邻居节点集可表示为Ni=j:(j,i)E.若图中存在一个节点可通过有向路径到达其他任意节点,则称图包含生成树.用D=diagdi表示图的入度矩阵,其中di=jNiaij表示节点i的入度.图327李庆奎等:网络攻击下产品与供应链协同演进系统数据驱动变更控制设计的拉普拉斯(Laplace)矩阵可定义为L=D A.2.2问题描述考虑配置某产品生产的供应链由N条子链组成并协同生产,假设第i条子链的动力学方程为 xi(t)=Axi(t)+Bui(t)+D i(t),yi(t)=Cxi(t),(1)其中xi(t),ui(t),i(t)和yi(t)分别为第i条子链中的生产库存状态、生产率、用户需求及当前成品输出.从控制理论的角度出发,xi(t),ui(t),i(t)和yi(t)分别为第i个子链在t时刻的状态变量、控制输入、外界扰动和系统输出.A,B和C为系统矩阵且未知.不失一般性,由实