温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
强化
学习
提升
GNSS
测向
精度
方法
研究
刘佳铭
总第341期1引言近年来,利用全球卫星导航系统(Global Navigation Satellite System,GNSS)的雷达标校技术逐渐成为主要方式,通过在远距离释放携带GNSS接收机的无人机,以及舰上安装的GNSS接收机,将两个接收机的经纬度、海拔数据转化为方位距离仰角,再经过位置间隔修正到雷达所在位置,比较雷达读数和修正后的方位距离仰角,分析其误差。由于GNSS的定位精度可以达到厘米级,因此标校精度可以达到0.01,成为了现在标校的主要技术。然而在动态测量中我们发现,由于船舶的摇摆及无人机的位置变化,以及GNSS信号的波动,在测量过程中可能会出现部分数据精度不足的问题,严重影响了标校结果。因此,本文提出一种基于GNSS 数据优化改进方位距离仰角测向定位的方法,具体来说,我们开发了一个强化学习模型来实现修正双GNSS相对位置计算的最优策略。为了加速训练过程并获得更好的性能,实现了一种最先进的并行训练架构,即异步优势参与者-批评(A3C)收稿日期:2022年5月19日,修回日期:2022年6月18日作者简介:刘佳铭,男,工程师,研究方向:船舶设计建造。段静玄,男,博士,高级工程师,研究方向:作战系统对准。张学良,男,工程师,研究方向:作战系统对准。林静,女,工程师,研究方向:作战系统对准。基于强化学习提升双 GNSS 测向精度方法研究刘佳铭1段静玄2张学良2林静2(1.海装上海局驻上海地区第五代表室上海200135)(2.中国舰船研究设计中心武汉430064)摘要GNSS测量精度是准确标校雷达的基础,为了提高 GNSS 定位精度构建了强化学习框架来,该框架无需对GNSS设备硬件参数或运动模型做出严格的假设,自动寻优最佳策略来实现原始 GNSS观测的“校正”。强化学习模型使用了一种有效的基于置信度的奖励机制,该机制独立于地理位置,从而使模型具有泛化性。通过与扩展卡尔曼滤波器算法进行比较来评估模型的性能。实验表明,与基准扩展卡尔曼滤波器模型相比,所提出的强化学习模型收敛速度快,预测方差较小,并且可以将测向定位误差减少 50%。关键词雷达标校;无人机;双GNSS;测向;强化学习中图分类号TN958DOI:10.3969/j.issn.1672-9730.2022.11.014Research on Improving Direction Finding Accuracy of DoubleGNSS Based on Reinforcement LearningLIU Jiaming1DUAN Jingxuan2ZHANG Xueliang2LIN Jing2(1.The Fifth Naval Military Representative Office of Shanghai Bureau of Naval Equipment Department in Shanghai,Shanghai200135)(2.China Ship Development and Design Center,Wuhan430064)AbstractGNSS measurement accuracy is the basis of radar calibration.In this paper,a reinforcement learning framework isproposed to improve GNSS positioning accuracy.This framework does not require strict assumptions on hardware parameters or motion models of GNSS devices.The proposed reinforcement learning model uses an optimal strategy to correct the original GNSS observations.The model uses an effective trust-based reward mechanism,which is independent of geographical location,thus makingthe model generalizable.The performance of the model is evaluated by comparing with the extended Kalman filter algorithm.Experimental results show that compared with the benchmark extended Kalman filter model,the proposed reinforcement learning modelhas faster convergence speed,smaller prediction variance,and can reduce the direction finding and positioning error by 50%.Key Wordsshipborne radar calibration,UAV,double GNSS,direction finding,reinforcement learningClass NumberTN958舰 船 电 子 工 程Ship Electronic Engineering总第 341 期2022 年第 11 期Vol.42 No.1160舰 船 电 子 工 程2022 年第 11 期协议,用于学习最优校正策略。由于缺乏对模型参数的严格假设,所提出的框架具有通用性,适用于非静止环境下的不同 GNSS 设备和位置。在提出的强化学习模型中,我们提出了一种独特的奖励机制,不同于其他深度学习或强化学习1框架中通常使用的奖励结构。我们没有使用直接分数,就像在为玩游戏而开发的模型中所做的那样,我们使用一种抽象方法来提供低方差奖励值,并通过在奖励函数中加入预测置信度来提供额外的好处。所提出的方法通过使奖励独立于地理位置来建立一个通用框架。模型性能通过合成数据以及真实世界的实验进行评估,并与扩展卡尔曼滤波器算法进行了比较,该算法是定位问题中常用的基准算法。2国内外研究现状提升双GNSS测向精度的主要方法之一是提升单点定位精度的精度,目前主要的研究可以分为基于硬件的和基于软件的两类。基于硬件的方法尝试使用额外的硬件设备来提高 GNSS精度。在整个网络中部署参考站是提高 GNSS精度性能的一种方法2。然而,建造参考站可能既昂贵又耗时。也有大量研究使用辅助硬件来增强传统 GNSS 设备,例如惯性测量单元(IMU),是提高 GNSS 定位性能的另一种方法3。基于辅助设备和增强的基础设施,设计了具有不同定位精度的不同类型GNSSGPS。惯性导航系统已广泛用于航位推算系统。差分 GPS(D-GPS)使用高质量GPS接收器和高质量参考位置来构建可以提高定位精度的系统4,而实时动态(RTK)GPS使用 RTK 网络来提高 GPS 性能5。缺点很明显:辅助硬件的故障会降低 GNSS系统的性能。大规模部署基于硬件的设备也很昂贵。另一方面,基于软件的算法已显示出提高GNSS精度的潜力。基于卡尔曼滤波器的算法是提高 GPS 定位精度的最广泛使用的算法之一67。然而,这些方法通常被开发用于线性运动和传感器模型,使其不直接适用于非线性的运动模型。虽然卡尔曼滤波器可以升级为无迹卡尔曼滤波器(UKF)或扩展卡尔曼滤波器(EKF)来解决非线性转换,但很难为此类模型找到合适的高斯噪声参数8。当状态空间变大时,识别正确的运动模型和计算雅可比矩阵在计算上也可能很昂贵9。此外,运动模型可能因测量环境和目标移动而异,因此很难开发出能够在一组适用于无人机标校的卡尔曼滤波器。强化学习(Reinforcement Learning,RL)的目的是生成将系统状态映射到动作集的策略分布,从而最大化奖励回报10。基于强化学习的方法在众多应用领域取得了令人瞩目的进展,由于它们在不同领域的广泛使用和高性能,近年来大量研究致力于改进 RL 算法11。与文献中发现的物理系统中典型的强化学习实现不同,所提出的模型不需要物理代理来控制GNSS 设备。相反,它通过“校正”动作提高了廉价GNSS 单元收集的 GNSS 经度和纬度数据的准确性。与基于硬件或软件的方法不同,所提出的模型不需要任何辅助设备,也没有对 GNSS 单元的噪声参数或其运动模型做出严格的假设。所提出的模型利用 GNSS 读数的历史,在以前未见过的环境中训练自己。与引用研究使用的方法相比,所提出的模型不使用与地理位置直接相关或受环境影响的奖励函数。相反,它引入了动作置信度以形成抽象的奖励机制,因为奖励的计算与地理位置无关,这使得模型具有泛化性。3基于强化学习的模型3.1问题描述本文的主要目的是提高 GNSS 设备的定位精度,以及双 GNSS进行测向计算时得到的方位、距离、仰角数据更加准确,以达到标校的标准。目标是在观测到的 GNSS经纬度坐标上找到最佳校正策略,以产生更准确的位置。一般过程类似于过滤强化学习模型将 GNSS设备收集的实时经纬度坐标作为输入,并利用该模型来改进定位。模型的输出是关于如何纠正观察结果以产生更准确定位的行动策略。所提出的框架的行为类似于过滤器它将GNSS设备的典型经纬度输出作为输入,并对估计的经纬度执行“校正操作”以提供更准确的输出。当接收到新的数据点时,强化学习模型会训练代理来确定需要调整观察到的经度和纬度以返回更准确定位的“单位”数量。Kollar12指出,从决策理论的角度来看,这种顺序决策问题可以建模为部分可观察的马尔可夫决策过程(Partially ObservableMarkov Decision Process,POMDP)。该模型的目标是学习一个策略(a|z,),其中 a 表示动作向量,z是观察向量,而是模型参数的向量。该策略的目标是参数化在给定特定观察 z 时执行动作的条件概率,以最大化一个人的奖励。61总第341期3.2模型设置在本节中,我们将介绍所提出的强化学习模型的细节,包括动作空间、隐藏状态、观察、信念状态、奖励机制、模型结构和训练协议。1)动作空间我们将动作定义为经纬度更新操作。为了降低所提出算法的计算复杂度,我们将连续的经度和纬度值离散为小步。通常不建议对动作空间的每个单独维度进行离散化,因为它可以成倍地增加策略表的大小。然而,离散化动作空间对于降低算法在低维动作空间中的计算复杂度可能很有用,就像这个问题中的情况一样。因此,建议的工作根据以下过程离散化动作空间:(1)定义纬度和经度的单位运算,分别用 ux和uy表示,以及一个缩放矩阵 S。不失一般性,我们为 S 定义以下范围:S=-10,-9,-8,0,1,2,10。(2)纬度和经度上的操作域,分别用 Lx和 Ly表示,是 Lx=Sux和 Ly=Suy。(3)通过结合经纬度操作将动作离散化为动作集A。离散动作 a A可以定义为 a=(x,y)LxLy(4)对经纬度的连续运算由动作集A表示,其中A包含所有可能的动作。基于上述对应的缩放矩阵 S,有限动作集A的长度为 212=441。在观察到的 GNSS 数据点上在动作空间 A中执行动作可以产生 441 个可能的输出。例如,如果观察到的 GNSS数据点是(x,y),则可能的输出是(xmux,ynuy),m,n S。当前的 GNSS设备很少报告与地面事实有太大偏差的点。因此,我们假设通过选择合理的 ux和 uy,GNSS设备的准确位置包含在所有可能的输出中。ux和 uy的合理值受相应GNSS设备精度的影响。因此,可以通过为 ux和 uy选择不同的值来修改操作范围。2)测量和模型输入GNSS 设备以特定频率报告其位置。在所提出的模型中,观察不限于最后报告的 GNSS位置,而是包含最后报告的位置以及最近的点预测历史的堆叠向量。也就是说,我们不使用报告