温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
DRL
抗干扰
电视
频谱
资源
分配
算法
鲍家旺
电视技术 第 47 卷第 1 期(总第 566 期)43PARTS&DESIGN器件与设计文献引用格式:鲍家旺,丘航丁,徐浩东,等.基于 DRL 的抗干扰电视频谱资源分配算法 J.电视技术,2023,47(1):43-47.BAO J W,QIU H D,XU H D,et al.DRL based anti-jamming algorithm for TV spectrum resource allocationJ.Video Engineering,2023,47(1):43-47.中图分类号:TP311.1 文献标识码:A DOI:10.16280/j.videoe.2023.01.009基于 DRL 的抗干扰电视频谱资源分配算法鲍家旺,丘航丁,徐浩东,马 驰(福州大学 电气工程与自动化学院,福建 福州 350108)摘要:将认知无线电与能量采集相结合,可以提高电视系统的频谱效率和能量效率。然而,由于无线信道的开放特性,频谱很容易受到恶意用户的干扰攻击,从而导致吞吐量下降。对此,将抗干扰频谱分配问题表述为没有任何先验知识的马尔可夫决策过程,然后提出一种基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的资源分配算法。在多种干扰环境下的仿真实验结果表明,该算法能够有效地减少恶意干扰带来的不利影响。关键词:能量采集;认知无线电;深度强化学习;干扰攻击DRL Based Anti-Jamming Algorithm for TV Spectrum Resource AllocationBAO Jiawang,QIU Hangding,XU Haodong,MA Chi(Institute of Electrical and Automation Engineering,Fuzhou University,Fuzhou 350108,China)Abstract:Combining cognitive radio with energy acquisition can improve the spectrum efficiency and energy efficiency of TV system.However,due to the open nature of the wireless channel,the spectrum is vulnerable to interference attacks by malicious users,resulting in throughput degradation.In this paper,we first describe the anti-jamming spectrum allocation problem as a Markov decision process without any prior knowledge.Then a resource allocation algorithm based on Deep Deterministic Policy Gradient(DDPG)is proposed.The results show that the algorithm can effectively reduce the adverse effects of malicious jammers through simulation in a variety of jamming environments.Keywords:energy harvesting;cognitive radio;deep reinforcement learning;jamming attacks0 引 言快速发展的物联网会产生巨量的数据,这增加了对频谱资源的需求,导致频谱资源稀缺的问题1。认知无线电(Cognitive Radio,CR)是解决这一问题的有效工具。电视的空白频段是第一个被考虑的频谱共享案例。大多数物联网设备通过无线通信技术进行互联,由电池供电。电池容量限制所造成的能量问题是制约物联网发展的另一问题。能量采集(Energy Harvesting,EH)技术可以从各种绿色能源(如光、热、风和射频源)中获取能量,延长了能量限制网络的使用寿命2。许多研究考虑将 EH 和 CR技术与物联网结合起来,提出了能量采集认知物联网(EH-CIoT)。CR 网络由于其开放的特点,比其他无线电网络更容易受到安全威胁,受到的攻击包括主用户仿真攻击、学习攻击、窃听和干扰等。其中,干扰攻击被认为是最具有威胁性的攻击,它会导致系统吞吐量下降、网络瘫痪等。文献 3 提出了一种基于批处理的安全感知协议。最近,深度强化学习(Deep Reinforcement Learning,DRL)技术被认为可以帮助物联网在环境和干扰源之间存在连续交互的情况下实现最优的传输策略。文献 4 将双 DQN(Deep Q-Network)算法和跳频策略应用于多用户环境下 作者简介:鲍家旺(1997),男,硕士,研究方向为认知无线通信系统44电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计的干扰攻击。然而,上述现有的工作以及对抗干扰策略的研究都只考虑了短视或离线模型。短视的政策只考虑即时奖励,而忽略了长期回报,这不是连续 CIoT 系统的最优策略。离线策略假设环境动态是已知的,但在发射机或控制器上是非因果关系的。在上述文献的基础上,本文将研究在干扰攻击下基于 DRL 的 EH-CIoT 传输算法,以最大限度地提高系统的长期吞吐量。1 系统模型本文考虑了 CR 的交织模式,即一种保护性的频谱共享方案。EH-CIoT 系统模型如图 1 所示,主要由三部分组成:主用户网络(Primary User Network,PUN),由M个主用户(Primary Users,PUs)和 1 个基站(Base Station,BS)组成;认知物联网络(CIoTN)由 1 个 代 理 基 站(Agent Base Station,ABS)和N个 EH-C 节点组成;1 个恶意攻击节点(Malicious Attack Node,MAN)。PUN 覆盖了K个正交电视频谱信道,CIoTN 位于 PUN 的覆盖区域内,所有设备在同步的时隙模式下工作。假设 ABS 能获得完美的频谱感知,Ik(t)=0(busy),1(idle)表示 ABS 在t时隙感知到的第k个信道的状态,空闲通道数量为()()1KkkIK tIt=(1)BSOccupied channelsIdle channelsEH-CIoT nodesPU network CIoT network PrimaryUsersAttack nodeData transmissionRF Energy harvestingMalicious attackAgentBase station图 1 EH-CIoT 系统模型1.1 EH-C 节点的两种模式选择在 CIoTN 中,每个 EH-C 节点都有相同的配置,节点不能同时执行射频能量采集和信道接入。EH-C 节点在每个时隙t的开始将自身的电池水平状态集通过专用的控制信道发送到 ABS。ABS 在当前时隙t根据感知到的信息来确定所有 EH-C 节点的工作模式(采集模式或传输模式),分配所有EH-C 节点的传输功率并广播决策。PiC(t)表示第i个 EH-C 节点在第t个时隙的发射功率,设 EH-C节点最大发射功率为PCmax,即PiC(t)0,PCmax。因此,在第t个时隙,所有 EH-C 节点的功率分配策略集合表示为P(t)=P1C(t),P2C(t),PNC(t)。第i个 EH-C节点在第t个时隙的工作模式Mi(t)可以描述为()()()CCC0(harvesting mode),01 (transmission mode),0iiiPtMPtt=若若(2)因 此,可 用M(t)=M1C(t),M2C(t),MNC(t)表 示t时隙所有 CIoT 的工作模式集合。信道增益集为G(t)=gib,gPi,gsi,gji。选择传输模式的节点数记为IC(t)。EH-C 节点的时隙如图 2 所示。其中T为时隙长度,为信息交换时隙长度。控制信息T-数据传输或能量采集信息交换阶段工作阶段图 2 EH-C 节点时隙1.2 能量采集和更新上述系统均有功率约束。主基站(Primary Base Station,PBS),MAN 和 ABS 由电网供电,EH-C节点由可充电电池供电。1.2.1 能量采集PBS对每个PU的传输功率恒定为Pkp,k=1,2,K,电视技术 第 47 卷第 1 期(总第 566 期)45PARTS&DESIGN器件与设计第t个时隙 PBS 的总传输功率为P ptotal(t)=(K-IK(t)Pkp(3)第i个 EH-C 节点在第t个时隙采集的能量Ei(t)为EiC(t)=(1-MiC(t)(T-)(P ptotal(t)gpi(t)+PiCJ(t)(4)()()()()()CJCJ1,Nissikjisj iPtPt gtPt gt=+(5)式中:表示能量转换率,PsC(t)表示与i不同的第s个 EH-C 节点的发射功率,PkJ(t)为干扰功率。第t个时间隙内所有 EH-C 节点总的采集能量集合记为E(t)=E1C(t),E2C(t),ENC(t)。1.2.2 电池更新第t个时隙中所有 EH-C 节点的电池状态集为B(t)=B1C(t),B2C(t),BNC(t)。电池容量标记为Bmax。第i个 EH-C 节点的电池状态从第t个时隙到第t+1个时隙的演变可以表示为BiC(t+1)=minBmax,BiC(t)+EiC(t)-(T-)MiC(t)PiC(t)-Fi(t)ef(6)()()()CC0,1,ifiifBteFBtet=若若(7)2 问题定式化本文考虑一种广泛使用的主动干扰攻击,它不知道设备的任何活动,只根据预定义的策略发射干扰脉冲,用策略GIk(t),PkJ(t),PkJ(t)表示,其中Ik(t),PkJ(t),PkJ(t)分别为在时隙t与信道k的干扰间隔、干扰概率和干扰功率。本文考虑两种攻击方法:(1)随机干扰器,在每个时隙t以功率PkJ(t)随机选择干扰一个信道;(2)扫描干扰器,在一个时隙t内以概率PkJ(t)从K个信道中顺序干扰KN个信道。干扰器的最大发射功率为PJmax,ABS 接收到的第i个 EH-C 节点的信噪比(Signal to Interference plus Noise Ratio,SINR)可用以下公式计算:()()()()()()()()()()()()()()C,1 0,0C,1JPt gtikkibftft MtiiJnSINRtMtiiPt gtikkibftft MtiiJn Pt gtkji=+(8)式中:fik(t)fJk(t)表示 EH-C 节点接入的信道是否与攻击节点攻击的信道相同。PiC(t)和PkJ(t)分别表示第i个 EH-C 节点和恶意攻击节点的发射功率。n表示高斯白噪声,nN(0,2)。本文的主要目的是在恶意攻击的环境下最大化长期信道吞吐量。CIoTN 的瞬时和吞吐量为()()()()C1log 1NAtiiirWMtTSINR t=+(9)式中:rtA表示第t个时隙的瞬时和吞吐量,W表示频谱带宽。SINRi(t)表示第i个EH-C节点的信噪比。第t个时间段开始的未来折扣长期吞吐量为()Av tAvv tRtr=(10)式中:01 表示折扣函数。利用干扰模型,将累积吞吐量最大化问题表述如下:()()()()()()()()()()()Cthresh1,()Co dClJmax 1,2,s.t.,AiiAytPtiifikkiiRtiNBtF t eTPtSINR tSINRftftIC tIK t=E(11)式中:E 表示期望的给定值。式(11)所列的条件保证