三维
变换
视角
智能
微观
形貌
重建
方法
闫涛
SCIENTIA SINICA Informationis中国科学:信息科学2023年第53卷第2期:282308 2023中国科学 杂志社论文三维时频变换视角的智能微观三维形貌重建方法闫涛1,2,4,钱宇华1,3,4*,李飞江1,4,闫泓任1,4,王婕婷1,4,梁吉业3,郑珂银1,4,吴鹏1,4,陈路1,4,胡治国1,2,4,乔志伟2,4,张江峰1,2,4,翟小鹏51.山西大学大数据科学与产业研究院,太原 0300062.山西大学计算机与信息技术学院,太原 0300063.山西大学计算智能与中文信息处理教育部重点实验室,太原 0300064.山西省机器视觉与数据挖掘工程研究中心,太原 0300065.北京汉德图像设备有限公司,北京 102699*通信作者.E-mail:收稿日期:20211118;修回日期:20220227;接受日期:20220321;网络出版日期:20230207国家自然科学基金重点项目(批准号:62136005)、国家重点研发计划(批准号:2020AAA0106100)、科技创新 2030 重大项目(批准号:2021ZD0112402)、国家自然科学基金(批准号:62006146,62106132,62071281,62003200)和山西省自然科学基金计划(批准号:201901D211169,20210302123455,202103021223026)资助项目摘要基于图像聚焦信息的三维形貌重建方法通常对微观物体的景深图像序列采用统一的聚焦评价标准,这类重建方法往往会忽视图像序列之间的联系,难以修正图像纹理稀疏或低对比度导致的连续帧深度误差.鉴于三维数据特有的多维度信息关联特性,本文将微观物体的不同景深图像序列视为三维数据,在重建过程中引入全部图像序列之间的关联关系,从三维数据时频变换的视角构造了以多视角分析、稳定性聚类、选择性融合逻辑耦合的微观三维形貌重建框架.首先从理论上分析三维数据相较于传统二维图像处理重建问题的优势,通过构造三维时频变换实现三维数据到不同尺度、区域和方向深度图像之间的映射;然后从增强深度图像特征的角度构建基于多模态纹理特征的局部稳定性聚类算法,实现同质性较好深度图像的自适应选择;最后提出选择性深度图像融合的策略,通过构造层筛过滤平衡树对滤除离散噪声后的多层深度图像进行融合,实现微观物体高精度的三维形貌重建.模拟数据与真实场景数据均验证了本文方法的有效性.三维时频变换视角的智能微观三维重建方法为基于图像聚焦信息的三维形貌重建提供一个崭新的研究视角,在精密制造、亚微米级工业测量等领域具有重要的理论意义和应用价值.关键词三维重建,无监督学习,稳定性聚类,深度图像,时频变换1引言微观三维形貌重建属于机器视觉领域的重要分支,广泛应用于医疗、生物、精密制造等领域微观物体表面的三维建模与量化分析1.现阶段微观三维形貌重建技术不仅要应对时效性和精确性的技术引用格式:闫涛,钱宇华,李飞江,等.三维时频变换视角的智能微观三维形貌重建方法.中国科学:信息科学,2023,53:282308,doi:10.1360/SSI-2021-0386Yan T,Qian Y H,Li F J,et al.Intelligent microscopic 3D shape reconstruction method based on 3D time-frequencytransformation(in Chinese).Sci Sin Inform,2023,53:282308,doi:10.1360/SSI-2021-0386中国科学:信息科学第 53 卷第 2 期挑战,也要面临精细测量、智能分析和辅助决策等多场景应用需求2.现有方法主要分为激光共聚焦与图像恢复法两类.激光共聚焦运用激光束对微观物体表面进行扫描成像,只有处于物体焦平面的点才能通过反射光进入探测针孔成像,经过逐点、逐行、逐面连续扫描得到微观物体的三维结构3,但受限于使用成本昂贵、重建时效性低与硬件耦合度高等因素,这类方法往往缺乏普适性,难以应用于更广泛的领域.而图像恢复法则是运用二维图像中蕴含的深度线索恢复物体的三维形貌,较高的重建效率与更低的硬件成本使得这类方法逐渐受到学术与工业界的关注.但现有的一些基于体视4、阴影5和纹理6等线索的方法容易受到光照条件和物体材质的影响,无法实现微观场景更高精度的重建,而基于图像聚焦信息的恢复方法7则通过评价待测物体不同景深图像序列的聚焦程度来获得深度信息,较低的环境敏感性与易于高分辨率成像等特点使其在微观三维形貌重建领域具有较大潜力.基于图像聚焦信息的三维形貌重建方法遵循以下模式:即从单帧图像的聚焦水平测量入手,然后对所有图像序列采用统一的聚焦测量函数进行评价,选择图像序列中所有位置聚焦测量函数最大值所在帧聚合为初始三维形貌重建结果,最后采用形貌近似算法得到最终的三维形貌重建结果.而对于微观领域的物体重建而言,为实现微观物体的高分辨率重建,需要缩短物镜与微观物体间的距离,这会导致光线进入微观物体的难度增大.假使微观物体本身存在陡坡、稀疏纹理等形貌,在图像中不可避免地会产生一些噪声和低对比度区域.如在超高精度激光雕刻制版领域,图1(a)为一角硬币中出厂年份数字1中的上半部分,凸起纹理的表面积约为100 m2,图1(b)(d)是激光雕刻测试版数据,用于测试超高精度激光雕刻机的制版精度,图1(b)与(c)中矩形区域表面积分别约为50 m2与150 m2,图1(d)的类平面样本表面积约为200 m2.由图可知,图1(a)(c)中所示的黄色矩形位置是由于采集过程中缺乏足够光照导致的噪声和低对比度区域,图1(d)的类平面样本黄色矩形区域表面细节信息较少.由于实际应用场景的真值难以获取,现有重建方法对于上述出现深度误差的区域普遍采用后处理的方式进行修复8,可能产生过渡平滑的结果,无法准确反映场景真实的形貌变化.综上可知,现阶段基于图像聚焦信息的三维形貌重建方法在解决微观场景三维重建问题方面主要面临如下挑战:(1)图像序列采用一致的聚焦评价函数,低对比度和稀疏纹理区域容易导致连续帧深度误差;(2)真实场景中无参考深度图像条件下,高精度三维形貌重建结果的自适应生成困难;(3)传统方法获取的深度图像中,难以利用图像序列蕴含的结构线索恢复完整深度信息.对于同一场景的不同景深图像序列而言,场景内容会随着图像序列发生聚焦离焦连续变化,采集六组激光雕刻测试版中微观样本的图像序列,计算每一帧图像与其他帧图像之间的相关系数,通过绘制相关系数热力图(见图2)可以发现:所有样本图像序列的连续帧之间存在极为紧密的联系,这种联系甚至可以延伸至相隔较远的图像之间.因此,图像序列之间的关联关系可能会为微观物体三维形貌重建过程提供某些关键信息,特别是对于处在焦平面位置但受到低对比度干扰和稀疏纹理影响的区域而言,这种前后图像帧之间的联系对这类区域的精确重建尤为重要.综上所述,本文结合图像序列间关联关系的重要性与频率域空间全局耦合的优势,将微观物体的二维图像序列视为一个完整的三维图像数据,在频率域提取深度信息过程中不仅考虑二维图像本身的焦点信息,还加入全部图像帧之间的关联关系,创新性地提出多视角分析、稳定性聚类和选择性融合三个逻辑耦合的关键步骤,构建三维时频变换视角的智能微观三维形貌重建全新框架,并在此基础上提出具体的实现方法,有效提升真实场景中稀疏纹理与低对比度区域的重建精度.本文主要贡献如下:(1)在三维形貌重建过程中引入图像帧之间的关联关系,从三维时频变换角度建立微观场景三维重建结果的多视角表达,提升噪声类重建结果的分离性.(2)联合深度图像与融合图像的多模态图像特征,提出具有良好抗噪性的局部稳定性深度图像聚283闫涛等:三维时频变换视角的智能微观三维形貌重建方法(a)(b)(c)(d)图1激光雕刻制版领域中不同形貌微观样本的低对比度与稀疏纹理区域Figure 1Regions of low contrast and sparse texture in the microscopic samples of laser engraving with different shapes.(a)Convex sample;(b)complex sample;(c)concave sample;(d)plane sample101208090100304050607010102020808090303040405050606070701012080909010208030405060709010208030405060709010208030405060709010208030405060709010208030405060709010030405060701020809010030405060701102080901003040506070110208090100304050607011020809010030405060701(a)(b)(c)(d)(e)(f)010208090304050607010208090304050607010208090304050607010208090304050607010208090304050607001.000.950.900.850.800.750.701.000.980.960.940.920.900.880.860.841.000.980.960.940.920.900.880.860.840.821.000.950.900.850.800.750.700.650.601.000.950.900.850.800.750.700.650.601.00.90.80.70.60.50.40.30.20.1图2六组激光制版领域微观样本图像序列间相关系数热力图Figure 2Correlation coefficient heat maps of six sampled image sequences in laser engraving.(a)Complex sample;(b)concave sample;(c)convex sample;(d)plane sample;(e)concave sample;(f)convex sample类算法,可实现真实场景中高质量深度图像的自适应选择.(3)针对多幅深度图像构造的选择性融合策略可保证离散噪声的有效滤除,通过多层深度图像融合的方法实现微观物体高精度的三维形貌重建.本文第2节主要介绍图像聚焦信息恢复三维形貌的原理及研究进展.第3节提出基于三维时频变284中国科学:信息科学第 53 卷第 2 期换视角的智能微观三维形貌重建框架,并对其三个关键核心步骤进行理论分析.第4节构造了用于本领域研究的模拟数据集(DFF Datasets),给出对比算法与参数设置,并对各核心步骤进行有效性分析.第5节在模拟与真实样本数据上验证了本文方法的有效性和先进性.最后对本研究进行总结和展望.2相关工作2.1基于图像聚焦信息的三维形貌重建原理基于图像聚焦信息的三维形貌重建方法首先调节相机与待测物体之间的初始位置,通过相机与待测物体之间的等间隔移动得到可以覆盖待测物体全部景深的图像序列;然后运用图像聚焦测量函数对图像序列的聚焦程度进行评价.现有的图像聚焦测量函数主要分为时域9,10、频域11和统计12三大类方法,运用这些图像聚焦测量函数计算每帧图像的焦点水平,选择聚焦测量结果最大值所在帧作为待测物体的初始深度结果13:Dx,y=argmax16i6NFMix,y,1 x W,1 y H,(1)其中,图像序列总数为N,单帧图像大小为H W,FMix,y表示图像i中x,y位置的焦点测量结果,Dx,y表示x,y位置对应的深度信息,最后对初始深度结果采用形貌近似类算法得到待测物体的三维形貌结构14.2.2图像聚焦信息的三维形貌重建研究进展基于图像聚焦信息的三维形貌重建方法主要包括聚焦评价和形貌近似两个核心步骤,围绕这两个步骤的改进方法大体分为时域模型构造、局部连续假设与频域信息增强三大类.