温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
结合
图像
特征
迁移
深度
估计
方法
罗少聪
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程结合图像特征迁移的光场深度估计方法罗少聪1,2,张旭东1,2,万乐1,2,谢林芳1,2,黎书玉1,2(1.合肥工业大学 计算机与信息学院,合肥 230601;2.工业安全与应急技术安徽省重点实验室,合肥 230009)摘要:光场相机可以通过单次曝光同时采集空间中光线的位置信息和角度信息,在深度估计领域具有独特优势。目前光场真实场景数据集的深度标签难以获取且准确度不高,因此现有的多数光场深度估计方法依赖光场合成场景数据集进行训练,但合成数据集与真实数据集在图像特征分布上的差异,导致网络在将子孔径图像与深度图之间的映射关系应用于真实数据集时容易出现偏差。提出一种新的光场深度估计方法,利用基于对抗学习的图像翻译网络,使合成场景子孔径图像逼近真实场景子孔径图像的特征分布。在图像翻译网络中实施多视图角度一致性约束,保证图像翻译前后不同视角子孔径图像之间的视差关系保持不变。设计一种多通道密集连接深度估计网络,利用多通道输入模块充分提取不同方向子孔径图像堆栈特征,并通过密集连接模块进行特征融合,提升网络特征提取和特征传递的效率。在光场合成数据集 4D Light Field Benchmark 和光场真实数据集 Stanford Lytro Light Field上的实验结果表明:与 Baseline网络相比,该网络的均方误差和坏像素率平均降低 23.3%和 8.6%;与 EPINET、EPI_ORM、EPN+OS+GC等方法相比,基于该网络的估计方法有效提升了深度估计的准确度,具有良好的鲁棒性和泛化能力。关键词:光场;深度估计;对抗学习;特征迁移;角度一致性;密集连接模块开放科学(资源服务)标志码(OSID):中文引用格式:罗少聪,张旭东,万乐,等.结合图像特征迁移的光场深度估计方法 J.计算机工程,2023,49(4):206-216.英文引用格式:LUO S C,ZHANG X D,WAN L,et al.Light field depth estimation method combining image feature transfer J.Computer Engineering,2023,49(4):206-216.Light Field Depth Estimation Method Combining Image Feature TransferLUO Shaocong1,2,ZHANG Xudong1,2,WAN Le1,2,XIE Linfang1,2,LI Shuyu1,2(1.School of Computer and Information,Hefei University of Technology,Hefei 230601,China;2.Anhui Province Key Laboratory of Industry Safety and Emergency Technology,Hefei 230009,China)【Abstract】Light-field cameras can simultaneously collect the position and angle details of light in space through a single exposure,which possesses unique advantages in the field of depth estimation.As the depth labels of light-field real-scene datasets are difficult to obtain and the accuracy is not high,most existing light-field depth estimation methods rely on a large number of light-field synthetic scene datasets for training.However,the difference in the image feature distributions between the synthetic and real datasets leads to deviations in the mapping relationship between the sub-aperture image and depth map learned by the network in the synthetic dataset when applied to the real dataset.A new light-field depth estimation method is proposed in this study.First,the image translation network based on adversarial learning is used to approximate the feature distribution of the real-scene image using the synthetic-scene-centered sub-aperture image,thereby implementing the multi-view angle consistency constraint in the image translation network to ensure the sub-apertures of different views before and after image translation.The disparity relationship between the images does not change.Second,a multi-channel Dense Connection(DC)depth estimation network is designed,in which the multi-channel input module extracts the features of sub-aperture image stacks along different directions.The feature fusion is performed using the DC module,which improves the efficiencies of network feature extraction and feature transfer.Finally,the experimental results of the light-field synthetic dataset,i.e.,4D Light Field Benchmark,and light-field real dataset,i.e.,Stanford Lytro Light Field,indicate that the values of the Mean Square Error(MSE)and Bad 基金项目:国家自然科学基金(61876057、61971177);安徽省重点研发计划科技强警专项(202004d07020012)。作者简介:罗少聪(1996),男,硕士研究生,主研方向为光场深度估计、计算机视觉;张旭东(通信作者),教授、博士;万乐、谢林芳、黎书玉,硕士研究生。收稿日期:2022-03-04 修回日期:2022-05-12 Email:图形图像处理文章编号:1000-3428(2023)04-0206-11 文献标志码:A 中图分类号:TP391.41第 49卷 第 4期罗少聪,张旭东,万乐,等:结合图像特征迁移的光场深度估计方法Pixel(BP)indicators of the proposed network are reduced by 23.3%and 8.6%compared with the Baseline network results,which are comparable to the existing ones.Compared with the EPINET,EPI_ORM,and EPN+OS+GC methods,the proposed estimation method based on the network above effectively improves depth estimation accuracy and demonstrates better robustness and generalization ability.【Key words】light field;depth estimation;adversarial learning;feature transfer;angle consistency;Dense Connection(DC)moduleDOI:10.19678/j.issn.1000-3428.00640970概述 光场深度估计作为获取场景深度的一种重要方式,在虚拟与增强现实1、超分辨率重建2-3、3D 场景重建4-5等领域应用广泛,具有重要的研究意义。近年来,基于深度学习的光场深度估计方法可以在控制计算成本的同时取得较高的估计精度,具有很高的执行效率。通常这类方法需要大量的具有场景深度标签的光场图像用于训练,然而基于光场相机拍摄的光场真实场景数据集的深度图获取难度大,成本较高,得到的深度图结果精确不高。与之相比,光场合成场景数据集的高精度深度图更加容易获取。因此目前大多数方法都是基于光场合成场景图像训练网络模型,其中由海德堡大学提供的 4D Light Field Benchmark 数据集6被广泛使用,并作为深度估计算法评价的标准。由于计算机仿真技术的局限性,通过 3D 建模软件模拟真实场景渲染出的光场合成场景图像,与光场相机获取的光场真实场景图像,在纹理、光照、阴影等方面存在差异。深度估计模型主要学习子孔径图像与深度图之间的映射关系7,当合成场景子孔径图像与真实场景子孔径图像的特征分布存在明显差异时,特征提取网络学习到的光场合成场景图像与深度标签的映射关系应用于光场真实场景图像与深度标签的映射会出现错误8。因此将仅使用光场合成场景数据集训练的深度估计模型直接应用在光场真实场景数据集上的表现不佳,泛化能力较差。针对上述问题,本文提出一种基于图像特征迁移的光场深度估计方法。为解决光场合成场景与真实场景单张子孔径图像特征分布之间的差异问题,设计一种基于对抗学习的图像翻译网络,通过特征迁移(Feature Transfer,FT)模块,使合成场景子孔径图像逼近真实场景子孔径图像的特征分布,实现单张子孔径图像由合成场景到真实场景的特征迁移。由于光场图像是一种类似于双目图像9的多视角图像,根据光场的几何特性,相邻视角子孔径图像之间具有一定的视差关系,因此本文引入多视图角度一致性约束(Multiview Angle Consistency Constraints,MACC)模块,保证单张子孔径图像特征迁移前后不破坏原有的视差关系。为充分利用光场结构信息,设计多通道密集连接深度估计网络提取不同方向的子孔径图像堆栈的特征,并进行特征融合,得到估计的深度图。通过缩小光场合成场景与真实场景子孔径图像特征分布之间的差异,使最终训练得到的模型在应用于光场真实场景和光场合成场景时均具有很好的鲁棒性和泛化性。1相关工作 光场图像中包含丰富的场景信息,这使得对场景深度信息的挖掘成为可能。然而传统的光场深度估计方法一般先利用特定方法得到场景的初始深度图,再设计优化框架结合局部平滑和全局优化细化初始深度图,但是这种方法泛化性能较差,而且时间计算成本较高。因此,近