温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
智能
深度
强化
学习
D2D
通信
资源
联合
分配
方法
邓炳光
基于多智能体深度强化学习的D2D通信资源联合分配方法邓炳光徐成义张泰孙远欣张蔺裴二荣*(重庆邮电大学通信与信息工程学院重庆400065)(国网四川省电力公司电力科学研究院成都610093)(重庆金美通信有限公司重庆400035)(电子科技大学通信抗干扰技术国家级重点实验室成都611731)摘要:设备对设备(D2D)通信作为一种短距离通信技术,能够极大地减轻蜂窝基站的负载压力和提高频谱利用率。然而将D2D直接部署在授权频段或者免授权频段必然导致与现有用户的严重干扰。当前联合部署在授权和免授权频段的D2D通信的资源分配通常被建模为混合整数非线性约束的组合优化问题,传统优化方法难以解决。针对这个挑战性问题,该文提出一种基于多智能体深度强化学习的D2D通信资源联合分配方法。在该算法中,将蜂窝网络中的每个D2D发射端作为智能体,智能体能够通过深度强化学习方法智能地选择接入免授权信道或者最优的授权信道并发射功率。通过选择使用免授权信道的D2D对(基于“先听后说”机制)向蜂窝基站的信息反馈,蜂窝基站能够在非协作的情况下获得WiFi网络吞吐量信息,使得算法能够在异构环境中执行并能够确保WiFi用户的QoS。与多智能体深度Q网络(MADQN)、多智能体Q学习(MAQL)和随机算法相比,所提算法在保证WiFi用户和蜂窝用户的QoS的情况下能够获得最大的吞吐量。关键词:D2D通信;先听后说;免授权频段长期演进;资源分配;多智能体强化学习中图分类号:TN929.5文献标识码:A文章编号:1009-5896(2023)04-1173-10DOI:10.11999/JEIT220231A Joint Resource Allocation Method of D2D Communication ResourcesBased on Multi-agent Deep Reinforcement LearningDENGBingguangXUChengyiZHANGTaiSUNYuanxinZHANGLinPEIErrong(Institute of Communication and Information Engineering,Chongqing University of Posts andTelecommunications,Chongqing 400065,China)(Electric Power Research Institute of State Grid Sichuan Electric Power Company,Chengdu 610093,China)(Chongqing Jinmei Communication Co.,Ltd,Chongqing 400035,China)(State Key Laboratory of Communication Anti-interference Technology,University of Electronic Scienceand Technology of China,Chengdu 611731,China)Abstract:Asashort-rangecommunicationtechnology,Device-to-Device(D2D)communicationcangreatlyreducetheloadpressureoncellularbasestationsandimprovespectrumutilization.However,thedirectdeploymentofD2Dtolicensedorunlicensedbandswillinevitablyleadtoseriousinterferencewithexistingusers.Atpresent,theresourceallocationofD2Dcommunicationjointlydeployedinlicensedandunlicensedbandsisusuallymodeledasamixed-integernonlinearconstraintcombinatorialoptimizationproblem,whichisdifficulttosolvebytraditionaloptimizationmethods.Toaddressthischallengingproblem,amulti-agentdeepreinforcementlearningbasedjointresourceallocationD2Dcommunicationmethodisproposed.Inthisalgorithm,eachD2Dtransmitterinthecellularnetworkactsasanagent,whichcanintelligentlyselectaccess收稿日期:2022-03-04;改回日期:2022-05-26;网络出版:2022-05-31*通信作者:裴二荣基金项目:国家重大专项(2018zx0301016),国家自然科学基金项目(62071077),重庆成渝科技创新项目(KJCXZD2020026)FoundationItems:TheNationalMajorProject(2018zx0301016),TheNationalNaturalScienceFoundationofChina(62071077),ChongqingChengyuScienceandTechnologyInnovationProject(KJCXZD2020026)第45卷第4期电子与信息学报Vol.45No.42023年4月JournalofElectronics&InformationTechnologyApr.2023totheunlicensedchannelortheoptimallicensedchannelandittransmitspowerthroughthedeepreinforcementlearningmethod.ThroughthefeedbackofD2DpairsthatcompetefortheunlicensedchannelsbasedontheListenBeforeTalk(LBT)mechanism,WiFinetworkthroughputinformationcanbeobtainedbycellularbasestationinanon-cooperativemanner,sothatthealgorithmcanbeexecutedinaheterogeneousenvironmentandQoSofWiFiusersisguaranteed.ComparedwithMultiAgentDeepQNetwork(MADQN),MultiAgentQLearning(MAQL)andRandomBaselinealgorithms,theproposedalgorithmcanachievethemaximumthroughputwhiletheQoSisguaranteedforbothWiFiusersandcellularusers.Key words:D2Dcommunication;ListenBeforeTalk(LBT);Longtermevolutionintheunlicensedband;Resourceallocation;Multi-agentreinforcementlearning1 引言随着智能终端的迅速普及,预计到2023年智能手机、平板、车联网等网络连接设备数量将从2018年的184亿增长到293亿1。为了满足日益增长的数据业务需求以及提高频谱利用率,第3代伙伴计划(3rdGenerationPartnershipProject,3GPP)提出设备对设备(DevicetoDevice,D2D)通信技术。与传统蜂窝通信相比,D2D技术不需要基站参与就可以实现两个邻近终端设备的直接通信2,3。此外,D2D通信还可以复用蜂窝系统的频谱资源,有效地提高频谱利用率。然而,随着移动流量的爆发式增长,授权频谱资源越来越匮乏。为此,一些研究人员提出在免授权频段上使用D2D通信技术,即免授权频段D2D通信(D2DintheUnlicensedband,D2D-U)4。D2D-U用户可以通过现有的免授权长期演进(LongTermEvolutionintheUnli-censedband,LTE-U)技术访问免授权频段5。现有文献已经提出了多种免授权频段共存方法,如先听后说(ListenBeforeTalk,LBT)和占空比(DutyCycle,DC)等。LBT是一种在传输之前采用载波侦听多路访问/冲突避免机制来防止与WiFi用户发生冲突的技术6。在DC方案中,LTE-U用户通过静默一段时间为WiFi用户留出信道资源进行数据传输,以保证正交性。目前,大量文献对部署在授权频段上D2D通信资源分配进行了研究。文献7针对异构网络中D2D通信复用蜂窝用户(CellularUsers,CU)频谱存在的频谱资源分配问题,提出了一种基于改进的离散鸽群D2D通信资源优化分配方案。该方案提高了边缘用户的通信质量和频谱利用率以及系统能效,有效控制了对蜂窝用户的干扰。文献8提出了一种新颖的下行链路资源共享策略,该策略允许多个D2D用户共享同一蜂窝用户的资源。此外,该文献通过拉格朗日对偶优化方法确定每个D2D用户的最佳功率,通过制定的功率控制最大化方案很好地平衡了D2D的总发射功率和总速率。文献9研究了通过优化混合模式以及发射功率和子信道分配,在蜂窝速率约束下加权D2D总速率的最大化问题。文献10研究了联合上行和下行链路资源分配问题,将最优功率分配构建为非线性规划问题,并通过在有限集合中搜索获得最优解,提出了最大权重二分匹配的D2D最佳信道选择方案。文献11考虑D2D链路和CU与D2D用户链路之间有界信道增益不确定性的影响,提出一种D2D用户总能效最大的鲁棒资源分配方案。该方案保障了用户的服务质量(QualityofService,QoS),同时具有较好的鲁棒性和能效。随着授权频段的资源匮乏,研究人员将D2D通信拓展到免授权频段。文献12将免授权频段中的D2D通信传输建模为硬核点进程,并通过信道空闲检测(ClearChannelAssessment,CCA)机制获得D2D和WiFi接入点(AccessPoint,AP)的传输概率,在保证用户QoS的情况下,研究了D2D链路的平均发射功率。文献4提出了一种基于感知的协议,使LTE和D2D用户都能够访问免授权频段。该文献通过使用多对多匹配博弈解决了LTE-U和D2D用户的资源分配问题,提高了系统的总速率。文献13提出了一种基于分布式的信道和功率联合分配方案,该方案实现D2D-U功耗的全局最小化,同时降低计算复杂度和信令开销。文献14提出一种针对WiFi用户安全需求的免授权频段共享的资源分配方案,通过“共享共存”的免授权共存机制,允许D2D用户与WiFi用户共享免授权频谱资源。该方案提高了系统的总频谱效率,同时降低了对WiFi用户性能的影响。文献15对比了D2D-U和WiFi在LBT机制和DC机制两种不同共存方案下的网络性能,并且该文献通过仿真验证在LBT模式下WiFi网络的性能可以得到更好的保证。近年来,强化学习(ReinforcementLearning,RL)在无线网络中得到了广泛的应用。这使得每个节点都具有自组织功能,从而形成了分布式控制模式。文献16提出了一种合作Q学习方法来处理异构无线网络中的资源分配问题,以最大化网络的总容量,同时能够确保QoS和用户的公平性。文献17为能量收集问题找到了两种节能功率分配方法:即1174电子与信息学报第45卷基于收敛的Q学习和 贪婪Q学习节能功率分配方法。文献18提出了Q学习的资源分配方法,以最大化网络吞吐量。文献19提出了一种基于分布式Q