分享
基于多任务联合学习的跨视角地理定位方法_王先兰.pdf
下载文档

ID:2516183

大小:2.46MB

页数:11页

格式:PDF

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 任务 联合 学习 视角 地理 定位 方法 王先兰
2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1625-1635ISSN 1001-9081CODEN JYIIDUhttp:/基于多任务联合学习的跨视角地理定位方法王先兰1,周金坤1,穆楠2,王晨3*(1.武汉邮电科学研究院,武汉 430074;2.四川师范大学 计算机科学学院,成都 610101;3.南京烽火天地通信科技有限公司,南京 210019)(通信作者电子邮箱)摘要:针对现有跨视角地理定位方法中视点不变特征与视角转换方法割裂导致的性能提升瓶颈问题,提出多任务联合学习模型(MJLM)。MJLM由前置图像生成模型和后置图像检索模型组成。前置生成模型首先使用逆透视映射(IPM)进行坐标变换,显式地弥合空间域差,使投影图像与真实卫星图的空间几何特征大致相同;然后通过提出的跨视角生成对抗网络(CVGAN)隐式地对图像内容及纹理进行细粒度的匹配和修复,并合成出更平滑且真实的卫星图像。后置检索模型由多视角多监督网络(MMNet)构成,能够兼顾多尺度特征和多监督学习的图像检索任务。在University-1652(无人机定位数据集)上进行实验,结果显示MJLM对无人机(UAV)定位任务的平均精确率(AP)及召回率(R1)分别达到 89.22%和 87.54%,与 LPN(Local Pattern Network)和 MSBA(MultiScale Block Attention)相比,MJLM在R1上分别提升了15.29%和1.07%。可见,MJLM能在一个聚合框架体系内联合处理跨视角图像生成任务及检索任务,实现基于视角转换与视点不变特征方法的融合,有效提升跨视角地理定位的精度和鲁棒性,验证UAV定位的可行性。关键词:跨视角地理定位;无人机图像定位;视角转换;特征提取;深度学习中图分类号:TP391.4 文献标志码:ACross-view geo-localization method based on multi-task joint learningWANG Xianlan1,ZHOU Jinkun1,MU Nan2,WANG Chen3*(1.Wuhan Research Institute of Posts and Telecommunications,Wuhan Hubei 430074,China;2.College of Computer Science,Sichuan Normal University,Chengdu Sichuan 610101,China;3.Nanjing Fiberhome Tiandi Communication Technology Company Limited,Nanjing Jiangsu 210019,China)Abstract:Multi-task Joint Learning Model(MJLM)was proposed to solve the performance improvement bottleneck problem caused by the separation of viewpoint-invariant feature and view transformation method in the existing cross-view geo-localization methods.MJLM was made up of a proactive image generative model and a posterior image retrieval model.In the proactive generative model,firstly,Inverse Perspective Mapping(IPM)for coordinate transformation was used to explicitly bridge the spatial domain difference so that the spatial geometric features of the projected image and the real satellite image were approximately the same.Then,the proposed Cross-View Generative Adversarial Network(CVGAN)was used to match and restore the image contents and textures at a fine-grained level implicitly and synthesize smoother and more real satellite images.The posterior retrieval model was composed of Multi-view and Multi-supervision Network(MMNet),which could perform image retrieval tasks with multi-scale features and multi-supervised learning.Experimental results on Unmanned Aerial Vehicle(UAV)dataset University-1652 show that MJLM achieves the Average Precision(AP)of 89.22%and Recall(R1)of 87.54%,respectively.Compared with LPN(Local Pattern Network)and MSBA(MultiScale Block Attention),MJLM has the R1 improved by 15.29%and 1.07%respectively.It can be seen that MJLM processes the cross-view image synthesis and retrieval tasks together to realize the fusion of view transformation and viewpoint-invariant feature methods in an aggregation,improves the precision and robustness of cross-view geo-localization significantly and verifies the feasibility of the UAV localization.Key words:cross-view geo-localization;Unmanned Aerial Vehicle(UAV)image localization;view transformation;feature extraction;deep learning0 引言 跨视角地理定位(cross-view geo-localization)指从不同视角(如地面、无人机(Unmanned Aerial Vehicle,UAV)、卫星视角)检索相似度最高的图像,将无地理标记的图像与数据库中有地理标记的图像进行匹配,从而实现定位任务1-4,被广文章编号:1001-9081(2023)05-1625-11DOI:10.11772/j.issn.1001-9081.2022040541收稿日期:2022-04-18;修回日期:2022-07-04;录用日期:2022-07-05。基金项目:国家自然科学基金资助项目(62006165)。作者简介:王先兰(1969),女,湖北荆州人,高级工程师,主要研究方向:人工智能、数据通信;周金坤(1995),男,湖北荆州人,硕士研究生,主要研究方向:深度学习、计算机视觉;穆楠(1991),男,河南南阳人,讲师,博士,主要研究方向:图像处理、计算机视觉;王晨(1979),男,江苏南京人,高级工程师,硕士,主要研究方向:网络安全、深度学习。第 43 卷计算机应用泛应用于航空摄影、机器人导航、精准交付5-6等领域。在数字地图时代,通常需要估计给定图像的空间地理位置,随着计算机视觉技术的发展,基于跨视角图像匹配的跨视角地理定位技术成为一种有效且稳定的解决方案。早期的跨视角地理定位研究是基于地面视图(平行视角)和卫星视图(垂直视角)之间的图像匹配7-13。然而,这两个视图图像的成像方式有很大不同:摄像机于地面的拍摄角度近乎平行于地平线,与卫星的拍摄角度近乎垂直于地平线。由于地面和空中视图之间视点的剧烈变化会导致严重的空间域差(domain gap)问题,因此,跨视图地理定位仍然是一项非常具有挑战性的任务。随着无人机技术的发展,它已被广泛应用于各个领域,如植被细分14、车辆监测15、建筑提取16等。与传统的地面图像相比,无人机图像的遮挡物更少,它提供了接近45视角的真实视点。倾斜视角相较于平行视角更接近垂直视角,这更适合跨视角地理定位。因此,为了弥补地面-卫星跨视角地理定位方法的不足,Zheng 等17引入无人机视角,通过无人机图像与卫星图像匹配解决跨视角地理定位的问题。此外,它还可适用于两个新应用:1)无人机定位,即给定无人机图像,在参考卫星图像中检索相同位置的图像;2)无人机导航,即给定卫星图像,在无人机图像中找到它经过的最相关位置图像,如图1所示。其中:A表示给定无人机视图,查询对应卫星视图,执行无人机定位任务;B表示给定卫星视图,查询对应无人机视图,执行无人机导航任务。然而,无人机视图(倾斜视角)和卫星视图(垂直视角)之间的图像匹配算法仍处于探索阶段。目前,用于上述两种应用的现有跨视角地理定位方法17-25大多只学习基于图像内容的视点不变特征,并没有考虑无人机与卫星视图之间的空间对应关系。Zheng等17将无人机视角引入跨视图地理定位问题中提出的University-1652数据集包含了地面街景、无人机、卫星三个视图的图像。他们首次将跨视角图像匹配方法应用在无人机视图与卫星视图的匹配中,取得了不错的效果,实现了无人机定位和导航任务。但该方法忽略了邻近区域的上下文信息,因此Wang等18采用方形环特征切分策略实现了上下文信息的端到端学习。He等19基于显著性特征将特征划分为前景与背景,利用背景特征作为辅助信息,使图像更具鉴别性。Ding等20提出了一种基于位置分类的跨视角图像匹配方法,缓解了卫星图像与无人机图像之间输入样本不平衡带来的影响。为了减小图像缩放、偏移对图像匹配的影响,Zhuang等21改进了Wang等18提出的方形环特征切分策略,此外还利用注意力机制提取更加有效的特征;Dai 等22引入Transformer作为骨干网,提取图像的热力图,然后基于热力图进行特征切分、对齐、匹配,以增强模型理解上下文信息和实例分布的能力。田晓阳等26首次将视角转换方法引入无人机-卫星跨视角地理定位中,在 LPN(Local Pattern Network)18检索模型基础上显著提升了无人机定位和导航性能;但该方法将视角转换模型割裂地视为视点不变特征检索模型和预训练模型,两个模型的训练彼此独立,未充分发挥神经网络的联合学习功能。周金坤等25在统一的网络架构下学习全局和局部特征,以多监督方式训练分类网络并执行度量任务,同时提出多视角平衡采样策略以及重加权正则化策略来缓解数据集视角样本不平衡导致的训练问题。以上方法均直接提取无人机视图和卫星视图间几何一致且显著的视点不变特征,但依然难以消除域差过大带来的视觉外观畸变、空间布局信息缺失等影响。因此,本文将视角转换方法应用于无人机与卫星图像间的跨视角地理定位中,采用视角转换模型与视点不变特征提取模型联合训练的方式,为无人机

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开