温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
迁移
深度
强化
学习
卫星
波束
资源
分配
方案
陈前斌
基于迁移深度强化学习的低轨卫星跳波束资源分配方案陈前斌麻世庆段瑞吉唐伦梁承超*(重庆邮电大学通信与信息工程学院重庆400065)摘要:针对低轨(LEO)卫星场景下,传统资源分配方案容易造成特定小区资源分配无法满足需求的问题,该文提出一种基于迁移深度强化学习(TDRL)的低轨卫星跳波束资源分配方案。首先,该方案联合星上缓冲信息、业务到达情况和信道状态,以最小化卫星上数据包平均时延为目标,建立支持跳波束技术的低轨卫星资源分配优化模型。其次,针对低轨卫星网络的动态多变性,该文考虑动态随机变化的通信资源和通信需求,采用深度Q网络(DQN)算法利用神经网络作为非线性近似函数。进一步,为实现并加速深度强化学习(DRL)算法在其他目标任务中的收敛过程,该文引入迁移学习(TL)概念,利用源卫星学习的调度任务快速寻找目标卫星的波束调度和功率分配策略。仿真结果表明,该文所提出的算法能够优化卫星服务过程中的时隙分配,减少数据包的平均传输时延,并有效提高系统的吞吐量和资源利用效率。关键词:低轨卫星网络;跳波束;资源分配;深度强化学习;迁移学习中图分类号:TN927文献标识码:A文章编号:1009-5896(2023)02-0407-11DOI:10.11999/JEIT211457A Novel Beam Hopping Resource Allocation Scheme of Low Earth OrbitSatellite Based on Transfer Deep Reinforcement LearningCHENQianbinMAShiqingDUANRuijiTANGLunLIANGChengchao(School of Communication and Information Engineering,Chongqing University of Postsand Telecommunications,Chongqing 400065,China)Abstract:IntheLowEarthOrbit(LEO)scenario,traditionalresourceallocationschemescancauseunbalancedresourceallocationinspecificcells.AbeamhoppingresourceallocationschemeofLEObasedonTransferDeepReinforcementLearning(TDRL)isproposedinthispaper.Firstly,consideringon-boardbufferinformation,servicearrivalstatusandchannelstatus,aLEOresourceallocationoptimizationmodelthatsupportsbeamhoppingtechnologyisproposedwiththegoalofminimizingtheaveragedelayofdatapackets.Secondly,inviewofthedynamicvariabilityoftheLEOnetwork,thedynamicandrandomchangeofcommunicationresourcesandrequirementsareconsidered,thentheDeepQNetwork(DQN)algorithmisadopted,anditsneuralnetworkisusedasanonlinearapproximationfunction.Further,torealizeandacceleratetheconvergenceprocessoftheDeepReinforcementLearning(DRL)algorithminothertargettasks,theconceptofTransferLearning(TL)isintroducedinthispaper,whichusestheschedulingtasklearnedbythesourcesatellitetofindquicklythebeamschedulingandpowerallocationstrategyofthetargetsatellite.Thesimulationresultsdemonstratethatthealgorithmcanoptimizethetimeslotallocationinthesatelliteserviceprocesswhiledecreasingtheaveragedelayofdatapacketsandimprovingthethroughputandresourceutilizationefficiencyofthesystem.Key words:LowEarthOrbit(LEO);Beamhopping;Resourceallocation;DeepReinforcementLearning(DRL);TransferLearning(TL)收稿日期:2021-12-08;改回日期:2022-03-23;网络出版:2022-03-29*通信作者:梁承超基金项目:国家自然科学基金(62071078,62001076),重庆市教委科学技术研究项目(KJZD-M201800601,KJQN-201900645)FoundationItems:TheNationalNaturalScienceFoundationofChina(62071078,62001076),theScienceandTechnologyResearchProgramofChongqingMunicipalEducationCommission(KJZD-M201800601,KJQN-201900645)第45卷第2期电子与信息学报Vol.45No.22023年2月JournalofElectronics&InformationTechnologyFeb.20231 引言宽带卫星通信系统由于其通信覆盖面广、终端架设快捷、稳定性高等特点,是全球信息高速公路的重要组成部分,也是空天地一体化的重要发展方向。作为宽带卫星通信系统的核心技术之一,多波束天线技术在波束成形和波束扫描方面具有高灵活性,目前已经广泛应用于实际卫星通信系统。低轨道(LowEarthOrbit,LEO)卫星通信系统是近年来应用多波束天线技术的热门卫星系统之一,也是未来空天地一体化的优化发展方向,对完善空天地一体化网络具有重要作用1,LEO卫星网络的进步也引起了工业界和学术界的广泛关注2,3。传统的LEO多波束技术平等分配带宽资源和功率资源,该方案星载资源损耗大,资源利用率低,容易造成特定小区资源分配策略无法满足通信需求。跳波束(BeamHopping,BH)技术通过相控阵技术控制星载波束的空间指向,并灵活分配带宽和发射功率,为卫星用户动态分配通信资源4,因此BH技术可以用于LEO场景以增加卫星资源利用效率。BH卫星系统相较于传统卫星系统在资源分配方面能大幅度地提高系统性能和资源分配效率。文献5利用遗传算法通过时分复用的方式设计与各时隙业务需求相匹配的BH方案,并展示引入BH技术对多波束卫星系统性能优化的效果。文献6提出一种联合资源优化方案,该方案利用迭代算法设计功率控制和波束成形优化策略,不仅能满足系统安全性要求,也大幅度提高资源分配效率。基于BH动态资源分配的思想,文献7以最大化高轨卫星用户性能公平性为目标,设计满足信道容量限制下的波束跳变策略,保障了瓶颈用户的通信质量。文献8,9均在提出BH系统资源分配的数学模型基础上,利用启发式算法等传统算法设计有效改善卫星前向链路的资源分配方案。为了降低传统优化问题的复杂性,文献10在BH资源分配上做了优化和改进,通过将双变量优化问题分解为两个单变量优化问题,有效地解决联合优化问题。文献11,12探索一种结合学习和优化的方法,为BH调度提供一种快速、可行和接近最优的解决方案,学习分量能够大大加快BH模式选择和分配的过程,而优化分量能保证解决方案的可行性,提高整体性能。尽管现有研究在基于BH的资源分配方面已取得较好的成果,但仍然存在3个方面的问题:(1)现有的对BH的研究集中在高轨卫星,缺乏对LEO应用BH技术的可靠研究。(2)大多数基于BH的资源分配只关注系统的吞吐量,而LEO服务时间短暂,对业务的时延敏感,因此优化问题应侧重考虑减小业务时延性能,使优化目标与系统特性相匹配。(3)由于在LEO环境下通信资源和通信需求剧烈变化,传统的BH资源分配算法复杂度高、计算量大,无法直接使用于LEO上。针对上述问题,本文提出一种基于深度强化学习(DeepReinforcementLearning,DRL)的低轨卫星跳波束资源分配方案。本文主要的贡献如下:(1)根据LEO场景特点,本文联合星上缓冲信息、业务到达情况和信道状态信息(ChannelStateInformation,CSI),以最小化卫星上数据包的平均排队和传输时延为目标,建立了可靠的支持BH技术的LEO资源分配模型。(2)针对传统BH图案设计方法无法适应LEO场景的问题,本文考虑动态随机变化的通信资源和通信需求,采用DRL算法,将卫星数据包缓存量、信道状态重构为状态空间,执行小区的波束调度、功率分配决策,根据小区数据包的积累量定义奖励函数,使LEO资源分配过程更加自动化和智能化。(3)为了降低模型的训练成本,使模型更好地适应LEO动态变化的环境,提出了一种新颖的迁移深度强化学习(TransferDeepRein-forcementLearning,TDRL)模型,将迁移学习(TransferLearning,TL)和DRL算法结合起来,根据TL的策略迁移特性,使新接入网络的卫星在训练初期拥有少量样本的条件下,也能尽快取得最优资源分配方案,提高了算法的收敛速度。2 系统模型如图1所示,本文支持BH的卫星系统包括低轨卫星、网络控制中心、信关站和卫星用户。LEO通过宽波束收集用户信令,以统计不同小区的业务需求,星载处理器通过执行智能算法得出当前时刻波束调度和功率分配决策,完成对地面热点终端的灵活资源分配。新接入LEO网络的用户数据可以通过卫星直接转发给其他用户或透明转发至地面信关站,再由信关站通过地面网络转发数据,从而建立终端之间的通信链路。2.1 天线模型多波束天线辐射特性参考国际电信联盟(Inter-nationalTelecommunicationUnion,ITU)的建议书ITU-S.672,该建议书给出了卫星单波束天线的辐射特性13,LEO天线辐射特性估算参考模型可以设定为G()=Gm 3(/)2dBi,0 2.58Gm 20dBi,2.58 6.32Gm 25lg(/)dBi,6.32 0dBi,(1)408电子与信息学报第45卷G()Gm其中,为偏轴角,为在该偏轴角下的天线增益大小;为天线最大方向性的辐射效率,即天线最大增益,该数值与卫星天线硬件参数有关;为半波束角;为式中第3个等式等于0dBi时的值。LEO卫星多波束模型可设置为由多个拥有该辐射特性的单波束组成,可计算任意时刻卫星对小区的天线增益。2.2 信道模型H信道矩阵包含低轨卫星前向链路预算信息和由于无线传播引起的相位旋转12。信道矩阵可以表示为H=ZcH(2)ZZ其中,矩阵 代表信号通过不同传播路径所引发的相位变化,矩阵 的具体表示为Zx,y=ejx,x=y0,其他(3)x,其中,为在区间上服从均匀分布的随机变量。cHcHmn矩阵包含了CSI,信道增益主要由低轨卫星多波束发送天线增益、自由空间损耗、雨衰、大气损耗和噪声功率决定。矩阵表示了波束对所服务用户的影响,其第行,第 列元素表示为hm,n=GrGn,m4dmKBTBw(4)Gn,mnmGrdmmKBTBwKBBwT假设所有的用户需求均集中在其所属小区中心。则表示第 个波束在第个小区