温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
深度
强化
学习
无人机
组网
路由
算法
乔冠华
第 卷第 期重庆邮电大学学报(自然科学版)年 月 ():基于深度强化学习的无人机自组网路由算法收稿日期:修订日期:通讯作者:潘俊男 基金项目:中国电子科技集团公司第十研究所基金():()乔冠华,吴 麒,王 翔,潘俊男,张易新,丁 建(中国西南电子技术研究所 成都;重庆邮电大学 通信与信息工程学院,重庆)摘 要:针对无人机自组网节点密度大、拓扑变换频繁,导致移动自组网复杂的问题,提出了一种基于深度强化学习(,)的分布式无人机自组网路由算法。利用 感知学习无人机特征,使节点不断与环境交互、探索学习最优行动(路由)策略;通过存储经验知识,维护端到端路由,赋予无人机网络智能化重构和快速修复的能力,从而提高路径的稳定性,降低路由建立和维护开销,增强网络的鲁棒性能。仿真结果表明,提出的算法具有较好的收敛性能;在路由修复时间、端到端时延,以及网络适应性、扩展性方面都优于传统的路由算法。关键词:无人机自组网;深度强化学习;路由算法;路由修复中图分类号:文献标志码:文章编号:(),(,;,):,(),(),:;引 言无人机具有体积小、移动速度快、灵活性强等优点,在军事和公共管理等领域的应用十分广泛。在美军无人机和无人机系统规划中,无人机作为全球信息系统的一个重要节点,与地面无人机系统、海上无人机系统构成一体化的无人作战系统。无人机自组网不仅具有传统自组织网络的无中心化、动态网络拓扑、多跳路由、资源受限等共性,还具有能量受限、节点移动速度快、传输实时性高等特点。目前,无线网络的路由协议主要有:基于路由表的主动路由协议,如 和 路由协议;按需响应协议,如、路由协议;混合路由协议,如 协议;机会路由协议,如基于强化学习的路由算法;基于位置的路由协议,如 路由协议。基于强化学习的路由算法在复杂网络中显示出强大优势,得到了广泛的关注与研究。传统方法当中,文献提出了适用于无人机自组网的基于最短路径的改进路由算法。该算法可以实现多路径传输,并且从丢包率、端到端时延和抖动 个方面评估性能,但没有考虑动态场景的情况。文献提出了一种具有负载感知和网络拓扑变动感知能力的多指标多径优化链路状态路由协议。该协议在成功率、端到端时延和吞吐量性能上均有明显提高,进而证明所提多径路由方案的合理性。在现有的基于深度强化学习的研究成果中,文献 首次提出基于强化学习的 算法的逐跳路由算法。该算法实现自适应路由,并且在动态变化的网络中表现良好。当网络负载水平、流量模式和拓扑结构随时间变化时,其性能都优于传统的路由协议。在 算法的基础上,又出现了多种改进算法,如,等。但是,算法及其扩展方案应用到复杂的无线网络中时存在明显缺陷。基于 的路由算法要维护 表,需要消耗大量的时间和空间成本,并且无法扩展到较大的动作和状态空间。文献提出的 是基于 和 网络的流量感知无人机 网络路由协议。该协议利用邻居节点的拥塞信息实现流量平衡,并用 网络算法评价当前节点每条无线链接的质量。基于对链接的评估,该协议可在多个选择中作出合理决定,降低网络时延和丢包率。文献提出一种基于深度强化学习的集中式无线多跳网络能量高效机会路由算法,通过机会路由的方式减少传输时间,同时平衡能耗、延长网络寿命。文献提出了一种基于强化学习的分布式和能量高效无线物联网路由算法,通过仿真评估了算法的失效率、频谱和功率效率。文献提出了基于演示的优先级记忆深度 学习来加速收敛和减少内存占用。文献针对现有智能路由算法收敛速度慢、平均时延高、带宽利用率低等问题,提出了一种基于深度强化学习的多路径智能路由算法。该算法采用循环确定性策略梯度作为训练框架,引入长短期记忆网络作为神经网络,相比于其他智能路由算法降低了平均端到端时延,提高了吞吐量,减少了丢包率。路由算法大多基于固定的路由规则,面对未来无人机自组网复杂多变的网络环境,难以根据实时的网络状态与实际的应用场景需要,自适应地作出智能化的路由决策。现有基于强化学习的无人机路由解决方案中,大部分基于集中式的深度强化学习方法,使用具有集中式的智能体学习整个网络环境的状态,给网络中的每个节点发送对应的动作。一旦整个网络路由决策的控制中心受到干扰甚至瘫痪,就会严重影响整个网络路由的性能,这在无人机对抗场景中是十分致命的。为解决上述问题,本文使用深度强化学习技术研究并设计一种分布式的符合无人机网络路由特性的联合路由方案,将无人机网络的机会路由问题建模为强化学习问题,包括系统模型的定义、状态空间、动作空间,以及奖励函数的设计,使得智能体根据当前状态选择最佳的动作,不断与网络环境进行交互,最终学习到一个保证路由性能、延长网络寿命的路由策略,并解决多智能体深度强化学习中维度过大以及多智能体之间相互影响的问题。仿真结果验证了本文算法的有效性。网络建模 无人机自组网建模无人机自组网中的网络节点在部署之后将自动组网。本文将具有 个节点的无人机自组网建模成一个连通图(,),其中的每一个顶点 对应一个无人机节点,每一条边 对应两个无人机节点之间的通信链路。数据包可在网络节点之间的无线链路发送,网络中每个节点既可以是源节点,也可以是目的节点。当源节点 向目的节点 重 庆 邮 电 大 学 学 报(自然科学版)第 卷 发送大小为 的数据包 到达中继节点 时,如果,说明数据包已经到达目的节点,数据包的路由过程结束;否则,数据包将被转发到由当前智能体节点学习的路由策略选择的下一跳邻居节点上。在路由的过程中,由节点 发往下一跳节点 的数据包传输时间,定义为数据包在节点 的队列中的等待时间和无线链路的转发时间之和,即,()()式中,数据包在节点队列的等待时间 为数据包进入节点队列到离开节点队列的时间差,无线链路的转发时间通过数据包的大小 和链路的最大传输速率,的比值来衡量。每个无人机节点具备一定的初始能量,当一个节点有数据包要发送或者排队时,就视为工作状态消耗能量;否则,节点处于休眠状态,即不消耗能量。使用 表示节点 的剩余能量,为初始能量与消耗能量之差。当节点能量低于给定的阈值时,该节点被视为不活跃节点,并不可到达。能量为 时,删除该节点。智能体状态设定将无人机自组网的分布式路由问题建模为马尔可夫 决 策 过 程(,)。基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励。在模拟过程中,智能体感知当前状态,按策略对环境实施动作,从而改变环境状态并得到奖励,奖励随时间的累积被记作回报。由于本次研究的是分布式路由协议,因而将网络中每个无人机节点视为一个智能体,智能体根据网络环境的状态智能地作出决策,选择动作。马尔可夫决策过程通常情况由四元组(,)来定义,其中 是状态的有限集合,是动作的有限集合,是智能体在 时刻执行动作 后从状态 转移到状态 的转移概率,是智能体在执行动作 之后获得的即时奖励,代表当前动作在当前意义上的好坏程度。本文采用无模型的强化学习方法,在状态转移概率矩阵 未知的前提下,也可以优化改进策略。下面给出状态空间、动作空间和奖励函数的详细定义。状态空间:每个智能体的状态定义为它在时刻 观测到的联合网络状态。例如智能体的状态可表示为,代表当前节点转发数据包的目的节点,为邻居节点集合,为当前节点及其邻居节点排队的数据包集合,为当前节点及其邻居节点在前 次迭代执行的动作集合。假设邻居节点的排队数据包和其他必要信息是本地可观测的。在数据传输的过程当中,可以通过捎带确认的方式告知邻居节点。动作空间:动作 表示智能体在时间 选择的动作,表示节点 被选为下一跳节点转发数据包。奖励函数:奖励函数(,)指智能体在 时刻执行动作 后由状态 转移到状态 时环境给予智能体的即时奖励。本文提出一种分布式的奖励策略。一方面,奖励函数包括描述个体之间相互作用的局部奖励,即关于两个相邻节点之间的信息。另一方面,引入全局奖励来反映执行动作的质量,即数据包的传输方向。具体地,使用所有的数据包最终路径计算奖励,之后将奖励分配给路径中的每个智能体节点计算每个节点的价值,最后计算全局奖励。本文将数据包 最后一跳动作的即时奖励定义为 ()()式中;为折扣因子;代表转发代价;为数据包 路径中出现重复环路的个数;表示数据包 到达目的节点的跳数,代表该数据包 在对应智能体节点排队队列的等待时间;、为权重参数,代表对应指标的重要程度,均为惩罚项。之前执行的转发动作奖励为。通过定义状态空间、动作空间以及奖励函数,可以将无人机自组网路由问题表述为。智能体的目标是找到确定性的最佳策略,使总累积奖励最大化。基于前述公式,可将基于深度强化学习的无人机组网路由问题定义为最大化未来累积奖励,为了估计未来的累计奖励,将 函数表示为累计未来奖励的期望,即(,),()()式中,代表一个数据包路由过程中的总奖励。最佳策略 定义为能够最大化 函数的策略,同时能够根据给定的状态,返回最佳动作,即()(,)。算法设计 方法选择采用强化学习方法()需要把所有的 值存放在 表中,在大规模无人机协同网络中,第 期 乔冠华,等:基于深度强化学习的无人机自组网路由算法 表会异常庞大。无人机硬件的限制导致 表进行数据存储和更新的效率低下,从而影响任务的执行效能。利用深度 网络(,)算法将基于强化学习的 算法中的 表更新过程转化为函数拟合问题,可以解决 算法不适用于高维状态动作空间的问题。算法如图 所示。图 算法示意图 本文总体使用分布式设计,每一个无人机节点都可根据观测到的网络状态信息,并根据 原则选择动作。以概率 随机选择邻居节点作为下一跳,以概率 选择 值最大的邻居节点作为下一跳。之后智能体会获得奖励(,),并进入下一状态。经验信息(,)被存放在智能体的经验回放记忆单元。方法结构描述强化学习产生的数据样本之间是相互关联的,使智能体的训练难以收敛。随机采样经验回放记忆单元中的样本可以消除经验数据之间的相关性,还允许智能体使用新旧经验来进行训练,使得智能体的训练更加高效。在训练过程中,值将被改变,如果使用不断变化的值来更新 网络,那么估计值会难以控制,导致算法不稳定。为了解决这个问题,使用一个目标神经网络来频繁但缓慢地更新训练神经网络的 值,显著降低目标值和估计值之间的相关性,从而稳定算法。智能体框架如图 所示。图 智能体框架图 图 展示了 利用评估网络的 估计值来近似真实 值的模型形式。该模型包括:个输入层、个输出层和 个隐藏层。输入层由负责将信息发送到隐藏层的输入神经元组成。隐藏层负责将数据发送到输出层。每个神经元都有加权的输入、激活函数(在给定输入的前提下定义输出)和一个输出。图 智能体神经网络结构 令 表示训练神经网络的参数,表示目标神经网络的参数。神经网络的训练过程是最优化损失函数,即目标值和网络输出的估计值之间的偏差。智能体最小化损失函数定义为()(,)()(,)()()()式中:(,)是训练神经网络输出的估计值;是目标神经网络计算的目标值。本文采用梯度下降法以学习率 更新训练神经网络的参数,即()(,)(,)()()()通过将多步训练神经网络的参数复制到目标神经网络,以此更新目标神经网络的参数。该算法主要分为预训练和策略学习两个阶段。算法初始化:初始化具有随机权重 的训练神经网络和具有权重 的目标神经网络、经验回放记忆单元、数据采样比例 和预训练的步骤、收集数据并以(,)的形式存储在演示数据缓冲区 中。预训练阶段:首先,从演示数据缓冲区 中采样部分数据对智能体进行训练;其次,用目标神经网络计算损失函数;然后,用梯度下降法更新训练神经网络参数 (),每 步更新目标神经网络参数,循环 次。策略学习阶段:智能体收集网络信息获得状态 重 庆 邮 电 大 学 学 报(自然科学版)第 卷,根据 选择动作,获得奖励,并进入下一状态;将状态转移对(,)作为经验数据被添加到经验回放记忆单元 中,再从演示数据 和回放记忆单元 随机采样训练智能体,之后使用目标神经网络计算损失函数;最后,使用梯度下降方法更新训练神网络参数,每 步更新目标神经网络参数,这个过程一直循环到训练结束。仿真分析 仿真流程及参数设置本文仿真使用 编写事件驱动模拟器的代码,以 作为深度学习框架来实现基于 的路