温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
自然
梯度
Actor
边缘
网络服务
功能
部署
方法
基于自然梯度Actor-Critic强化学习的卫星边缘网络服务功能链部署方法高 媛*方 海 赵 扬 杨 旭(西安空间无线电技术研究所 西安 710100)摘 要:鉴于低轨卫星网络的高动态性和空间环境的复杂性,如何提供在线的快速服务功能链(SFC)部署方法,成为低轨卫星边缘网络中亟待解决的问题。综合考虑节点和链路容量等约束以及服务迁移等切换代价,针对部署多接入边缘计算(MEC)服务器的低轨卫星网络,该文提出一种基于自然梯度参与者-评价者(Actor-Critic)强化学习架构的SFC在线部署方法。首先,针对低轨卫星网络的环境高动态性,对实时容量约束和迁移代价进行建模;其次,引入马尔可夫决策过程(MDP),综合考虑服务迁移和卫星坐标等因素,描述低轨卫星网络的状态转移过程;最后,提出一种基于自然梯度的在线SFC部署强化学习方法,不同于标准梯度,自然梯度法进行模型层面的更新,以避免神经网络的训练陷入局部最优解。仿真结果表明,该文方法可逼近全局最优解,并在端到端时延性能上优于基于标准梯度的强化学习部署方法。关键词:服务功能链;强化学习;低轨卫星网络;服务迁移中图分类号:TN927.2文献标识码:A文章编号:1009-5896(2023)02-0455-09DOI:10.11999/JEIT211384A Satellite Edge Network Service Function Chain Deployment MethodBased on Natural Gradient Actor-Critic Reinforcement LearningGAO Yuan FANG Hai ZHAO Yang YANG Xu(Xian Institute of Space Radio Technology,Xian 710100,China)Abstract:In view of the high dynamics in low-orbit satellite networks and complexity of space environment,theonline provisioning of Service Function Chain(SFC)has become the key problem in satellite edge networks.Considering constraints in node and link capacity and switching costs in service migration,an online SFCdeployment method based on natural gradient actor-critic reinforcement learning is proposed for low-orbitsatellites equipped with Multi-access Edge Computing(MEC)servers.Firstly,the real-time capacityconstraints and migration costs are formulated following the high environmental dynamics in low-orbit satellitenetworks,respectively.Secondly,involving the migration costs and satellite coordinates,Markov DecisionProcess(MDP)is introduced to describe the state transition in low-orbit satellite networks.Finally,a naturalgradient method-based online SFC deployment method is proposed,which facilitates the training of neuralnetwork escaping from the local optimum as compared to the standard gradient.Simulation results show thatproposed method could asymptotically approach the global optimum,and exceeds existing ones based on thestandard gradient in terms of end-to-end delay.Key words:Service Function Chain(SFC);Reinforcement learning;Low-orbit satellite networks;Servicemigration 1 引言6G空天地一体化网络愿景将低轨卫星网络纳入其中,以实现全球覆盖,满足更可靠、广泛、灵活和安全连续的服务需求。为适应未来星地网络发展,新一代卫星载荷将采用星载动态可重构架构,以及软件化和智能化技术,以实现资源虚拟化和网络动态调度 1。而低轨卫星网络将面临星上资源及计算能力有限等挑战。为将有限的计算、存储和通信等资源充分利用,文献2提出了一种云边端一体化协同网络架构,在低轨卫星集群上部署边缘云;通过人工智能、分布式信息网络和星载可重构架构等一系列技术,将软硬件基础设施资源云化,从而 收稿日期:2021-11-30;改回日期:2022-06-06;网络出版:2022-06-28*通信作者:高媛基金项目:国家重点研发计划(2020YFB1808003)Foundation Item:The National Key Research and DevelopmentProgram of China(2020YFB1808003)第45卷第2期电 子 与 信 息 学 报Vol.45No.22023年2月Journal of Electronics&Information TechnologyFeb.2023实现任务的分布式管理。目前,对卫星边缘云的研究尚处在初步阶段。文献3梳理了近年来低轨卫星通信网络的进展历程,首先对多接入边缘计算(Multi-access EdgeComputing,MEC)在天地融合网络中的应用进行了分析,然后提出了低轨卫星MEC网络的组网方式,最后对该网络架构所面临的挑战与机遇进行了总结。须指出,随着6G应用场景的扩展,卫星业务呈现出高并发以及种类多样性等特点,云边端一体化协同网络将面临如何为不同类型的业务提供定制化服务,以及如何实现资源的智能动态协同适配等挑战。而文献46则提出,将软件定义网络(Software-Defined Networking,SDN)和网络功能虚拟化(Network Function Virtualization,NFV)与云边端架构相结合,可将任务编排为多个虚拟网络功能(Virtual Network Function,VNF)的有序组合,用逻辑链路的方式合成为一条服务功能链(Ser-vice Function Chain,SFC),引导业务流依序通过,从而具备提升网络资源利用率的潜力。然而,鉴于卫星网络的高动态性及星地环境的复杂性,卫星边缘云节点无法与地面云控制中心实时联通;因此,卫星边缘云须具备自主控制和自主智能决策能力,以自主执行服务部署和服务迁移。因此,如何设计SFC编排与映射方案,以提升资源利用率并优化服务质量,实现在线智能的快速响应,构成卫星边缘云一个重要的研究内容7。与地面蜂窝网络不同,卫星边缘网络资源受限且节点快速移动,与地面中心云间的通信成本高、时延大。因此,在自主管理模式下,卫星边缘云能够以就近可通原则形成卫星集群,簇头卫星节点充当临时管理者,收集局部网络资源信息并将资源池化管理,从而具备了自主控制能力。进一步,针对临近卫星节点发送的任务请求信息,中心节点可结合当前网络的拓扑实时信息,对网络拓扑中的流量路由和虚拟化资源进行灵活调度,从而依照不同服务请求,实现对SFC的动态编排和映射。此外,在大延迟抖动、间歇联通和周期移动切换等场景中,当发生运行VNF的卫星节点失联等情况时,卫星边缘网络须根据实时网络状态进行服务迁移,由中心节点担任自主迁移的决策者2。目前,针对SFC部署的研究主要集中在地面网络。文献8针对在高速变化的5G网络资源状态下进行SFC部署的复杂度较高等问题,提出利用深度Q网络的方法进行在线求解,在满足服务的端到端时延需求等约束下,最小化系统开销。同样基于强化学习和地面网络,文献9首先建立了VNF和虚拟链路的可靠映射模型;其次,以负载均衡和VNF可靠性为联合优化目标,在线学习最优SFC部署策略。此外,面向卫星网络,文献10考虑了低轨、中轨和高轨卫星共存的网络场景,针对多域(multi-domain)和卫星自组成(satellite formation)两种模式,分别提出启发式的部署算法。文献11将空间信息网络建模为时间扩展图(Time-Expan-ded Graph,TEG),进而将SFC部署表征为线性约束的最大流路由问题,并利用基于图论的启发式算法求解。综上所述,目前已有的研究低轨卫星网络SFC部署的工作往往研究单时隙中服务功能(ServiceFunction,SF)向卫星节点的VNF实例的映射问题1012。然而,低轨卫星网络的运行和资源管理是一个长期过程,可用资源和网络环境随机变化;若只考虑单时隙SFC部署,即逐时隙利用贪婪策略做资源分配,则无法保障网络的长期奖励(性能)最大化。例如,鉴于低轨卫星网络的高动态性和空间环境的复杂性,两个相邻时隙的SFC部署结果不同,则导致快速变化的SFC路由拓扑,从而导致SFC服务(包括状态信息和数据流)迁移代价的增大 13。因此,单时隙SFC部署方案没有考虑低轨卫星网络的动态特性,无法获得最优的长期收益。因此,考虑低轨卫星网络的高动态性和空间环境的复杂性,如何提供在线的快速SFC部署方法,并综合考虑节点和链路容量等约束以及服务迁移等代价,成为低轨卫星边缘网络中亟待解决的问题。无模型(model free)强化学习可将系统动态建模为一个马尔可夫决策过程(Markov Decision Process,MDP),尽管相邻时隙之间的状态转移概率是未知的,但通过在线决策和连续采样,可获取即时奖励值来评价当前状态的价值函数,最终得到长期最优的连续SFC部署策略。从而,本文拟提出一种基于参与者-评价者(Actor-Critic)强化学习的卫星边缘网络在线SFC部署方法。首先,针对低轨卫星网络的高动态性,对容量约束和迁移代价进行定义,并对长期SFC部署问题进行建模。其次,引入MDP,综合考虑服务迁移和卫星坐标等因素,对系统状态、动作和奖励函数进行定义,描述低轨卫星网络的状态转移过程。再次,提出一种基于自然梯度(natural gradient)法的在线强化学习部署方法,以最小化服务请求的平均端到端时延为优化目标;与标准梯度(standard gradient)法中对参数进行迭代更新不同,自然梯度法进行模型层面的更新,从而避免出现模型更新不均匀的现象,保障模型收敛到全局最优解。最后,仿真结果表明,本文方法在满456电 子 与 信 息 学 报第 45 卷足节点容量和服务迁移代价等约束条件下,可最小化SFC的平均端到端时延,逼近长期平均策略函数的全局最优值。2 系统模型和问题描述N=1,2,.,NnF=1,2,.,FT=0,.,t,.,T 1t利用NFV技术,每个卫星节点服务器可被虚拟化为多个虚拟机(Virtual Machine,VM),并假设每个VM只能提供一个VNF实例。本文研究一个卫星集群内的SFC部署以及SF到VNF实例的映射,资源分配决策由集群内中心节点卫星负责,如图1所示。考虑一个虚拟化的边缘低轨卫星网络,卫星节点集合可表示为,