温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
深度
学习
相机
估计
方法
综述
王静
2023,59(7)热点与综述基金项目:国家自然科学基金(61701393)。作者简介:王静(1986),女,博士,讲师,主要研究方向为计算机视觉、雷达信号处理;E-mail:;金玉楚(1997),女,硕士研究生,主要研究方向为人工智能、位姿估计;郭苹(1988),女,博士,讲师,主要研究方向为运动目标检测与成像、合成孔径雷达成像;胡少毅(1997),男,硕士研究生,主要研究方向为计算机视觉、深度学习。收稿日期:2022-09-19修回日期:2022-12-02文章编号:1002-8331(2023)07-0001-14Computer Engineering and Applications计算机工程与应用从虚拟现实到送货无人机,到自动驾驶,再到自主移动机器人,对于这些应用来说,位置信息都是至关重要的。相机位姿估计是实现自动驾驶汽车以及自主机器人的关键一步,也是增强现实和虚拟现实系统的先决条件。同时,相机位姿估计也是 SLAM(simultaneouslocation and mapping)1系统以及VO(visual odometry)2技术中的关键模块。其目标是在已知环境下根据给定图像精确地估计相机在世界坐标系中的六自由度位姿,即三维位置坐标和三维角度偏转,也叫作相机定位。相机位姿估计分为基于特征点的传统方法和基于深度学习的方法,传统方法包括基于几何结构的方法和基于图像检索法。其基本流程如图1所示,几何法首先基于深度学习的相机位姿估计方法综述王静,金玉楚,郭苹,胡少毅西安科技大学 通信与信息工程学院,西安 710054摘要:相机位姿估计是指在已知环境下精确地估计相机在世界坐标系中六自由度位姿的技术,该技术是机器人技术和自动驾驶中的关键技术。随着深度学习的飞速发展,使用深度学习来优化相机位姿估计算法已经成为了当前的研究热点之一。为了掌握目前相机位姿估计算法的研究现状与趋势,对基于深度学习的相机位姿估计的主流算法进行了综述。简单介绍了传统的基于特征点的相机位姿估计方法。重点介绍了基于深度学习的方法:根据核心算法的不同,从端到端的相机位姿估计、场景坐标回归、基于检索的相机位姿估计、层级结构、多信息融合和跨场景的相机位姿估计六个方面进行了详细的阐述和分析。对研究现状进行了总结,并基于深入的性能分析指出了相机位姿估计领域面临的挑战,展望了其发展动向。关键词:深度学习;相机位姿估计;场景坐标回归;多信息融合文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2209-0280Survey of Camera Pose Estimation Methods Based on Deep LearningWANG Jing,JIN Yuchu,GUO Ping,HU ShaoyiSchool of Communication and Information Engineering,Xi an University of Science and Technology,Xi an 710054,ChinaAbstract:Camera pose estimation is a technology to accurately estimate the 6-DOF position and pose of camera in worldcoordinate system under known environment.It is a key technology in robotics and automatic driving.With the rapiddevelopment of deep learning,using deep learning to optimize camera pose estimation algorithm has become one of thecurrent research hotspots.In order to master the current research status and trends of camera pose estimation algorithms,themainstream algorithms based on deep learning are summarized.Firstly,the traditional camera pose estimation methodsbased on feature points is briefly introduced.Then,the camera pose estimation method based on deep learning is mainlyintroduced.According to the different core algorithms,the end-to-end camera pose estimation,scene coordinate regression,camera pose estimation based on retrieval,hierarchical structure,multi-information fusion and cross scenescamera poseestimation are elaborated and analyzed in detail.Finally,this paper summarizes the current research status,points out thechallenges in the field of camera pose estimation based on in-depth performance analysis,and prospects the developmenttrend of camera pose estimation.Key words:deep learning;camera pose estimation;scene coordinate regression;multi-information fusion1Computer Engineering and Applications计算机工程与应用2023,59(7)图1相机位姿估计流程Fig.1Camera pose estimation process相机位姿特征点与场景模型对应关系特征点特征提取查询图像特征匹配场景模型位姿解算R,tCamera Pose Estimationfrom 2D-3D Correspondencesusing RANSAC(a)基于几何结构的相机位姿估计相机位姿查询图像与近邻图像对应关系全局描述特征编码查询图像特征匹配近邻图像位姿解算R,t图像数据库检索近邻图像(b)基于图像检索的相机位姿估计查询图像查询图像场景模型查询图像参考图像神经网络位姿回归基于检索的相机位姿估计相机位姿场景坐标位姿解算场景坐标回归端到端的相机位姿估计位姿回归R,tR,tR,t(c)基于深度学习的相机位姿估计提取查询图像中的特征点,然后匹配2D特征点与场景模型中的3D坐标点间的关系,最后对相机位姿进行解算;图像检索法则先对查询图像进行特征编码,检索出近邻图像,然后匹配图像上2D特征点间的关系,最后对相机位姿进行解算;使用深度学习进行相机位姿估计,不需要像传统方法一样进行特征点的提取和匹配,直接使用神经网络回归相机位姿或场景坐标,模型简单、计算量小。几何法中输入数据为查询图像和场景模型;图像检索法的输入数据为查询图像和图像数据库;深度学习法中除场景坐标回归中需要使用场景模型初始化模型训练外,其余方法基本均只使用图像作为输入数据。本文根据核心算法将深度学习方法分为六类,其中端到端的方法、场景坐标回归和基于检索的方法为最基本的三类,层级结构、多信息融合以及跨场景的方法指在这三类方法的基础上加入层级结构、融合场景几何信息、分离场景几何与模型参数。相比于陈宗海等人3从构建场景模型、匹配场景信息以及解算相机位姿三个方面对传统方法和深度学习方法进行系统的介绍;Shavit等人4从端到端的相机位姿估计以及混合位姿学习两方面进行介绍;本文重点围绕深度学习,采用更细粒度的分类方法、更全面地对更多方法的思路和特点进行阐述。本文专注于对相机位姿估计的已有研究工作进行综述,根据算法所使用的核心方法对近几年相机位姿估计中涌现出的代表性深度学习算法进行细致地梳理和分析,为从事相关领域研究的学者了解领域的进展提供了参考5。首先,从特征提取、特征匹配和位姿解算三方面简单介绍了基于特征点的相机位姿估计方法。其次,重点从端到端的相机位姿估计、场景坐标回归、基于检索的相机位姿估计、层级结构、多信息融合和跨场景的相机位姿估计六个方面详细总结了基于深度学习的方法。最后,概述了相机位姿估计中常用的数据集及评价指标;对相机位姿估计算法中存在的挑战、下一步研究和发展进行总结和展望,旨在启发研究人员在该领域取得进一步的突破。1基于特征点的相机位姿估计几何法依赖于匹配局部视觉描述符。通常通过最近邻搜索,估计出查询图像与场景的三维点云模型之间对应的2D-3D匹配关系,然后根据这种匹配关系计算查询图像的相机位姿。这种匹配关系的获取,主要是通过关联空间中的点所对应的视觉特征来实现。而图像检索法则依赖于匹配全局视觉描述符,这样做的目的是为了提高算法的效率。通常直接从已有的图像数据库检索出与查询图像最近邻的图像,然后将近邻图像的位姿作为查询图像的位姿6;或计算查询图像与近邻图像之间的相对位姿,然后将相对位姿作为查询图像的位姿7,这样得到的位姿较为精确。几何法需要将提取到的所有特征点保存在内存中,对内存需求较高;而图像检索法将特征点聚合为全局描述,节省了内存占用。但相比图像检索,几何法的精度更高。两种方法的流程如下:(1)特征提取。在特征点提取阶段,几何法通常使用 SIFT(scale invariant feature transform)8、ORB(oriented FAST and rotated BRIEF)9等局部描述子。图像检索法中通常使用VLAD(vector of locally aggre-gated descriptors)10对图像进行全局描述。上述手工提取的特征描述子存在适应性不佳且计算量较大等缺点,会对算法的泛化性以及运行效率等产生不小的影响。因此,DeTone等人11使用深度学习对特征描述子进行改进,提出了一种使用神经网络对特征点进行提取的算法。并在此基础上计算局部特征描述子,这样得到的描述子适应性更好、计算量也更小;Li等人12提出了一种针对弱监督局部特征学习的解耦训练描述和检测,性能优于以往的完全和弱监督方法。Arandjelovic等人13使用深度学习模拟VLAD描述子的编码过程,对其进行了可微化,这样得到的图像特征更有区分度、增强了编码的判别性。22023,59(7)表1典型的基于深度学习的相机位姿估计算法Table 1Typical camera pose estimation algorithm based on deep learning类型端到端的相机位姿估计场景坐标回归基于检索的相机位姿估计层级结构多信息融合跨场景的相机位姿估计发表时间2015年2017年2019年2020年2017年2018年2020年2021年2017年2020年2019年2019年2020年2018年2020年2021年2022年2019年2021年算法PoseNet22LSTM-PN23AtLoc24GRNet25DSAC26DSAC+27EMOSC28VSNet29NNnet30EMR31HF-Net32CamNet33HSC-Net34VLocNet35KFNet36VMLoc37BiasAttNet38SANet39PixLoc40特点首个利用CNN完成端到端的位姿估计首次使用LSTM进行端到端的位姿估计