温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
胶囊
卷积
网络
视图
三维重建
胡荣林
第 23 卷第 1 期2023 年 3 月南京师范大学学报(工程技术版)JOUNAL OF NANJING NOMAL UNIVESITY(ENGINEEING AND TECHNOLOGY EDITION)Vol.23 No.1Mar,2023收稿日期:20220915基金项目:江苏省研究生实践创新计划项目(SJCX221676)通讯作者:胡荣林,博士,副教授,研究方向:人机交互技术 E-mail:huronglin hyiteducndoi:103969/jissn16721292202301007基于胶囊卷积网络的多视图三维重建胡荣林,付浩志,何旭琴,张新新,陆文豪(淮阴工学院计算机与软件工程学院,江苏 淮安 223003)摘要 从深度神经网络对重建效果影响的角度,提出了基于胶囊卷积网络的多视图三维重建模型 Caps-MVSNet,包括特征提取、构建代价体、代价体正则化、回归深度图和细化深度图 5 个阶段 提出了 FENet-T 特征提取网络和 3D-CapsCNN 网络,并分别应用于模型的特征提取阶段和代价体正则化阶段 其中,FENet-T 利用高效的 Block 计数比率以及大尺度空洞卷积和分组卷积提高网络的特征提取效率 3D-CapsCNN 使用比卷积神经网络更强空间表示能力的 3D 胶囊网络来正则化代价体 Caps-MVSNet 在 DTU 数据集上完成了效果测试,结果表明,与先前主流重建方法相比该模型在完整性上达到了最优结果,在准确性、整体性上均取得较大提升 另外,与基准模型 MVSNet 相比,该模型在准确性、整体性和完整性上分别提高 33%、49%和 82%,参数量减少 33%关键词 特征提取网络,3D 胶囊网络,空洞卷积,分组卷积,多视立体匹配 中图分类号 TP391 文献标志码 A 文章编号 16721292(2023)01004610Multi-View 3D econstruction Based on Capsule Convolution NetworkHu onglin,Fu Haozhi,He Xuqin,Zhang Xinxin,Lu Wenhao(Faculty of Computer and Software Engineering,Huaiyin Institute of Technology,Huai an 223003,China)Abstract:By exploring the influence of deep neural networks on the reconstruction effect,the paper proposes a multi-view3D reconstruction model Caps-MVSNet based on a capsule convolutional network Caps-MVSNet includes five stages:feature extraction,construction cost volume,cost volume regularization,regression depth map and refinement depth mapThis paper focuses on the FENet-T feature extraction network and the 3D-CapsCNN network,which are used for thefeature extraction stage and the cost volume regularization stage of the model,respectively Among which,FENet-T usesan efficient block counting ratio,large-scale dilated convolutions and group convolutions to improve the feature extractionefficiency of the network 3D-CapsCNN uses 3D capsule networks with a stronger spatial representation than convolutionalneural networks to regularize the cost volume Caps-MVSNet has completed the effect test with the DTU datasets Theresults show that compared with the previous mainstream reconstruction methods(Colmap,Tola,Camp,Gipuma,Furu,SurfaceNet),the model proposed by this study achieves the optimum of the current reconstruction method in terms ofintegrity,and significantly improves the accuracy and completeness Furthermore,it shows that compared to the model ofMVSNet as benchmark,the accuracy,completeness and overall of the proposed model are improved by 33%,49%and82%,respectively,the number of parameters is reduced by 33%Key words:feature extraction network,3D capsules network,dilated convolution,group convolution,multi-view stereomatching从 GB 图像中重建三维几何图形是一个经典的计算机视觉问题 基于多视角的三维重建算法近年来应用于诸多领域,如:物体识别、医疗诊断、机器人导航、场景理解和文物修复等多视图立体1(multi-view stereo,MVS)是多视角三维重建算法的重要组成部分,从二维图像中恢复丢失的维度是经典 MVS 算法的目标 经典 MVS 方法注重于从数学的角度理解和形式化 3D 到 2D 的投影过程 从略有不同的视角中捕获图像,并在图像间进行特征匹配,然后通过几何原理恢复图像像素的 3D 坐标2 这些方法在准确度方面已取得了优异成果,但过渡依赖于精良设备 若要实现高质量的三维重建,就必须依赖标定良好的高精度相机拍摄的高质量图像 然而,在实际应用中并未能提供高质量图像 弱光64胡荣林,等:基于胶囊卷积网络的多视图三维重建照条件,目标外形较复杂,存在遮挡或物体表面纹理特征较弱都会影响图像质量进而影响重建效果基于深度卷积网络(Convolutional network,CNN)的 MVS 方法可以很好地解决上述问题 实际上,由于CNN 强大的特征提取能力3,不仅提高了匹配精度也提高了重建速度和效果 因此,将 CNN 应用到 MVS重建算法上是三维重建的必然发展趋势当前,基于深度学习的 MVS 重建算法主要包括 3 种方法:基于点云表示的重建方法45、基于体素表示的重建方法6 以及基于深度图表示的重建方法 其中,基于点云表示的方法直接对点云进行处理生成稀疏点云,然后通过聚类局部和全局特征不断细化稀疏点云得到稠密点云,该方法存在的问题是它们不是规则结构,不适合利用空间规律性的卷积结构 基于体素表示的方法直接从二维图像回归出 3D 体素网格7,其主要问题在于这些方法受到计算复杂度和内存的限制,导致产生的体素网格分辨率较低 由于上述两种表示方法存在低效性8,基于深度图的表示方法不直接从二维图像重建三维物体,而是将深度图作为中间步骤9,先对一组图像进行推断得到深度图,再根据深度图构建三维点云模型 最新 MVS 基准测试显示10,将深度图作为中间层的表示方法更加高效 以此方法衍生出的端到端网络模型可以直接从输入的图像实现深度图推断,如 Yao 等11 提出的 MVSNet、Yu 等12 提出的 Fast-MVSNet,网络的准确性虽然得到了验证,但其均通过 3D-CNN 回归生成深度图,不仅占用大量内存,且限制了深度图的分辨率从视觉角度来看,相比于 3D-CNN 方法,胶囊网络1314 不仅有更强的空间表示能力,也有很强的逆渲染性能,即可根据图像反推出图像中物体的空间几何、位姿信息 为了提高模型的重建效率和重建效果,本文提出了一种基于分组卷积和 3D 胶囊网络进行三维重建的端到端监督学习模型 该模型实现深度推断的过程如下:(1)提取深度视觉图像特征 从一组图像提取深度视觉特征,在特征提取网络中使用分组卷积以减少计算量提高计算效率,同时采用大卷积核提高感受野,增加全局特征,从而提高深度推断中远程依赖关系(2)构建平面扫描代价体 首先利用可微分单应性变换将源图像投影到参考视角视锥平面上,计算匹配代价并建立代价体(3)正则化匹配代价体和深度图回归与细化 首先利用 3D-CapsCNN 模型对代价体进行代价聚合,然后提取全局代价信息以及相邻像素间的依赖关系,最后回归细化得到最终深度图 在本文设备上实现的 Colmap、MVSNet 以及本文模型的重建效果对比效果如图 1 所示(c)Caps-MVSNet(本文)重建效果(a)Colmap重建效果(b)MVSNet重建效果图 1Colmap、MVSNet、Caps-MVSNet 重建效果对比Fig.1Comparison of reconstruction effects of Colmap,MVSNet,Caps-MVSNet1相关工作三维重建方法可概述为经典 MVS 重建方法和基于深度学习的重建方法,后者首先从提取的视觉特征中构建匹配代价体,然后正则化代价体,接着回归出深度图11MVS 三维重建方法经典的 MVS 重建方法通过视图一致性和光学一致性原则来实现深度场景表示,具有代表性的方法有Colmap、OpenMVG 等开源方法 Colmap 是 Schonberger 等15 在 2016 年提出的开源三维重建系统,该方法以 NCC 作为图像间光学一致性的测度,并利用轮廓特征匹配(Patch-based match)16 进行深度传递并使用74南京师范大学学报(工程技术版)第 23 卷第 1 期(2023 年)GEM 算法做进一步深度图优化 在增量式三维重建算法的基础上提出了一种新的 SFM17 技术并取得了巨大进步 由于图像冗余特性不可避免,对于比较稠密的场景,Colmap 在深度图完整性和连续性方面会存在一些问题,推断出的深度图存在较多漏洞,并且该系统运行速度过慢Moulon 等18 提出的 OpenMVG 是一个关于三维重建的开源库,该开源软件封装了丰富的重建算法并且在摄影测量、计算机视觉和机器人领域有重要应用 OpenMVG 虽然能够准确计算多视立体几何位姿且模型算法稳定,但是开源库中个别模块函数嵌套冗杂、灵活性低,且缺乏大规模 SFM 处理算法,Cernea 提出了开源库 OpenMVS19 以解决 OpenMVG 存在的摄影链流问题,旨在提供一套完整算法恢复待重建物体的完整表面 但 OpenMVS 依然存在弱纹理表面重建效果准确率差的问题随着深度学习的不断发展,研究人员将深度学习方法应用于三维重建算法中 早期研究2021 并没有形成一种端到端的学习方式,只是将深度学习应用于重建算法其中的一个步骤,例如:Han 等20 首先提出利用深度网络来实现两个图像的匹配,GCNet21 利用 3D-CNN 来正则化代价体,这些方法虽然解决了一些问题,但算法执行比较复杂早期端到端的三