温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
LAA_Wi
Fi
共存
智能
竞争
信道
算法
研究
周洋
记录:数据与存储 225信息记录材料 2022年12月 第23卷第12期 0 引言为了满足频谱需求,部署在授权频段上的 LTE 开始转向非授权频段,Rel-13 提出了在未授权频谱上的授权辅助(licensed-assisted access,LAA)技术。5GHz 频段上有丰富的频谱资源,但已部署有 Wi-Fi 技术,因此 LAA和 Wi-Fi 的公平高效共存问题一直在被研究。授权辅助(licensed-assisted access,LAA)引入先听后说(listen before talk,LBT)公平机制,该机制主要是对信道进行监听,当信道显示忙碌时,等待数据传输的节点应该延迟访问进入回退阶段,它需要从竞争窗口中随机选择一个回退时间,在回退阶段结束后再传输数据。Wi-Fi 采用与此类似的带有冲突避免的载波侦听多路访问(carrier sense multiple access with collision avoid,CSMA/CA)机制1,经过一段空闲的分布式帧间间隙(distributed inter-frame spacing,DIFS)后,节点进入回退阶段,当回退时间减少至零时开始传输数据。为了获得更大的可用带宽和更高的数据传输速率,LAA 引入了多载波 LBT 机,通过聚合多个载波传输数据。该机制有两种类型,类型 A 和类型 B。在类型 A 中,每个候选载波都需要进行 LBT 过程,且使用率先完成 LBT 的载波来进行数据传输,显然在每个载波上进行 LBT 过程会造成资源的浪费。而在类型 B 中首先在候选载波中选出一个载波作为主载波在其上进行 LBT 过程,当主载波上的 LBT快结束时,在其他的辅助载波上进行一个快速的CCA过程,然后将主载波与空闲的辅助载波进行聚合来传输数据。Wi-Fi 引入了信道绑定技术,信道绑定技术是指在根据选定主信道之后再尽可能地与其他空闲连续信道进行绑定。多信道的传输虽然可以提高数据的传输效率但是也有增加节点之间碰撞的风险,因此节点在竞争信道时,信道的选取十分重要。Liu、Shen 等2提出了一种针对 B 型 LBT 的主载波选择机制,即先完成LBT过程的载波被选为主载波,不观察信道情况而随意选取主信道的方式过于随意,会降低系统的性能。高通协议提出了一种基于自延迟的 LBT 机制来实现多载波运行。每个节点将独立执行 LBT 过程,如果其中一个节点完成了 LBT 过程,则需要继续等待,直到 LBT 同步边界(LSB)允许其他节点完成退避。这种方法会使得率先完成 LBT 过程的节点因为等待其他节点上的LBT 过程而失去传输机会。Faridi A 等3在不存在碰撞的假设下,提出了利用马尔可夫链模型来提高系统性能的方法。这种方式过于理想,在现有的无线接入机制中,不可能忽略节点之间的碰撞。Kai、Liang 等4提出了一种实现 DCB 无线局域网最大吞吐量的信道分配算法。将吞吐量最大化建模为整数非线性规划问题,并采用基于分支定界法的最优信道分配算法求解该问题。这种方法计算的过程较为复杂繁琐,需要大量的计算。Lanante L 等5提出了一种通过计算阈值来确定是否绑定更宽的信道方法,该算法需要的网络参数较多,不便收集。近年来对深度强化学习(deep reinforcement learning,DRL)的研究十分广泛,DRL 是强化学习(reinforcement learning,RL)和深度学习(deep learning,DL)的结合体,RL 擅长学习解决问题的策略,但由于维度问题缺乏拓展性。DL 具有强大的函数拟合能力和表示学习特性,能在一定程度上解决了自身高维度的本质特性。DRL 包含了强化学习(RL)的学习能力和深度神经网络的泛化和逼近能力。在无线通信中,可以采用DRL 的方式来选择最佳竞争窗口来提高系统的性能6。另外,流量达到的模式也可以通过 DRL 在线学习来适应不断变化的环境7。在 LAA 和 Wi-Fi 的公平高效共存问题上,假如 LAA 或Wi-Fi 系统其中一种使用多信道数据传输的方式,则会对另一系统不公平。目前很少有论文研究当这两类异构的网络节点同时引入多信道数据传输的技术的情况。结合上述分析,本文提出了一种基于深度强化学习的智能算法。在将 LAA 的多载波 LBT 机制和 Wi-Fi 信道绑定技术同时引入信道竞争的情况下,节点通过智能信道选择来提高系统性能。另一方面,单 agent DRL 会使动作空间的大小随着网络异构节点的数量呈指数增长,严重影响了学习速度。为了加快学习速度,本文采用多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)来快速达到收敛效果。LAA/Wi-Fi 共存时智能竞争信道算法研究周 洋,周 琴,吴楚鑫(湖北大学 湖北 武汉 430062)【摘要】为了使用更宽的信道,Wi-Fi 引入了信道绑定技术,授权辅助(licensed-assisted access,LAA)引入了多载波先听后说(listen before talk,LBT)技术。一方面,多信道的使用虽然能够有效提高数据传输效率,但同时 LAA和 Wi-Fi 在竞争信道时的节点碰撞也会相应增加,影响系统间的性能。另一方面,流量负载往往呈现出动态变化。因此需要选择最合适的信道来减少网络节点之间的冲突以及避免资源的浪费。本文提出了一种基于多智能体深度确定性策略(multi-agent deep deterministic policy gradient,MADDPG)的节点竞争信道算法,仿真表明该算法具有较好的收敛性,实现了 LAA 与 Wi-Fi 的相对公平,同时与其他算法相比具有更低的平均时延和更高的系统吞吐量。【关键词】信道绑定;多载波先听后说;多智能体深度确定性策略【中图分类号】TN91 【文献标识码】A 【文章编号】1009-5624(2022)12-0225-05DOI:10.16009/13-1295/tq.2022.12.020记录:数据与存储226 信息记录材料 2022年12月 第23卷第12期 1 系统模型假设考虑有 NL 个 LAA 节点和 NW 个 Wi-Fi 节点,以及K 条 20MHz 的基本信道。Wi-Fi 节点在绑定信道时严格按照如图一所示的信道化标准8,它可以将相邻不重叠的基本信道绑定成 20 MHz、40 MHz、80 MHz、160 MHz 的宽信道,且 Wi-Fi 节点采用 802.11 ac 节点。假设 K=4,Wi-Fi 节点i可用信道集合Ci=1,2,3,4,1,23,41,2,3,4。LAA 节点 j 在使用多载波 LBT 机制时,只要聚合的载波数量在候选载波数量范围之内,载波的数量以及载波是否为连续载波不受限制,因此 LAA 节点 j 可用载波(信道)集合Cj=1,2,3,4,1,2,1,3,1,4,2,3,2,4,3,4,1,2,3,1,2,4,2,3,4,1,3,4,1,2,3,4。在整个过程中,数据传输失败的原因只考虑到节点之间发生碰撞。另一方面,时间被离散成若干个等距时隙,即 t=t1,t2,t3tend,在每一个等距的时隙内,节点要绑定的信道参数都不会发生变化。图 1 802.11 信道标准化2 DDPG算法节点竞争信道的过程可以被看成典型的马尔可夫决策问题(markov decision process,MDP),该决策完全符合强化学习。强化学习是指智能体与环境进行交互的一个过程,它包含智能体、环境、动作、状态、奖励。智能体通过与环境交互,获取状态 st并且经过不断地探索选择出最佳策略。具体来讲,智能体在每一次探索中,都会执行某个动作 at,此时环境会发生变化达到一种新的状态st+1,随后智能体会被给出奖励信号 rt。根据这个奖励信号,智能体会按照一定的策略执行新的动作,通过不断更新策略 寻找出最大预期的 Q 值,如式(1)。Q(sa)=Ert+rt+1+2rt+2+.|st=s,at=a,=Ek=0krt+k|st=s,at=a,(1)其中,Q(s,a)表示智能体在接收到当前信道的状态s后,根据策略执行动作a,所获得的未来累计奖励。0,1 为折扣因子。用未来的奖励乘以该因子来减弱此类奖励对智能体当前动作的影响,随后通过贝尔曼公式不断更新值函数直到逼近最优值函数,此时智能体能够学到最优的策略*,以及对应的Q*值,如式(2)、式(3)。*(s)=arg maxa Q*(s,a)(2)Q*(s,a)=ESrt+maxa Q*(s,a)|s,a (3)传统的RL受到维数限制,无法在大规模系统中应用,它仅仅适用于当动作空间和状态空间都比较小的场景。为了克服传统 RL 技术的维数限制,DRL 技术被提出,它将DL 集成到 RL 中,利用深度神经网络克服维数诅咒,从而能够有效地解决大规模问题。目前一些研究已经成功地将DRL 引入到了无线应用当中9-10。本文针对具有连续高维状态空间和动作空间的复杂任务,进一步引入了深度确定性策略梯度(deep deterministic strategy gradient,DDPG)。DDPG 属于 DRL 中的一种,它能够在连续的高维状态空间和动作空间中进一步完成复杂任务。该算法基于Actor-Critic 架构,通过相同的神经网络框架构成当前的Actor 网络和当前 Critic 网络,目标 Actor 网络以及目标Critic 网络,共同来完成算法的决策和更新。当前 Actor网络采用确定性策略 来输出动作 at,at=at,at=(st|),通过目标函数 J 来评价策略,用来找到最佳策略,即=argmax J(),其中 表示产生确定性动作的参数。当前 Actor 网络通过链式规则更新,如式(4)。(4)当前 Critic 网络用于拟合参数化 Q 函数为 Q(s,a|Q),通过均方差函数梯度更新,具体如式(5)所示,式中 yi=ri+Q(si+1,(si+1|Q)|Q),其中 和 Q 分别对应 Actor 网络和 Critic 网络。L=1/N i(yi-Q(si,ai|Q)2 (5)目标 Actor 网络和目标 Critic 网络的更新采用软更新的形式,能够使得目标网络参数变化小,训练更易于收敛,软更新的具体形式如(6)。+(1-)Q Q+(1-)Q (6)3 基于MADDPG的竞争信道算法本文提出了一种基于 DRL 的信道竞争方法。由于竞争信道的节点个数较多,动作空间的大小呈指数增长,严重影响到学习速度。为了加快学习速度,本文采用多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)来较快达到收敛效果。其动作、状态、奖励设计如下:3.1 动作有实验和理论分析表明,信道绑定参数(P,B)对系统性能有重要影响,其中 P 表示主信道,B 表示绑定的信道数量,为保证性能增益,应谨慎选择信道绑定参数,当基本信道 K=4 时,异构节点在 t 时刻所对应的动作空间如下。LAA 节点 i:ait=0,1,1,1,0,2,1,2,2,1,3,1,2,2,3,2,0,3,1,3,0,4,1,4,2,3,3,3,2,4,3,4 (7)Wi-Fi 节点 j记录:数据与存储 227信息记录材料 2022年12月 第23卷第12期 ajt=0,1,1,1,0,2,1,2,2,1,3,1,2,2,3,2,0,4,1,4,2,4,3,4 (8)3.2 状态LAA 节点和 Wi-Fi 节点采用相同的状态,定义如下:st=t,t-1 (9)其中 表示为队长,表示数据包的到达率。3.3 奖励整个实验的目标是降低整个网络的实验,提高系统的吞吐量,因此奖励设计如下:rt=.dt-+.t+1 (10)其中 dt-表示在 t 时刻,整个网络的平均时延。t+1表示在 t+1 时刻的平均队长。3.4 MADDPG算法一中给出了基于 MADDPG 信道竞争算法的伪码,首