基于
深度
学习
LoFTR
算法
路面
图像
拼接
基于深度学习 LoFTR 算法的路面图像拼接张瑞1,袁博1,杨明1,丁健刚1,徐政超2,李伟11(长安大学信息工程学院,西安710064)2(西安工程大学计算机科学学院,西安710048)通信作者:徐政超,E-mail:摘要:相比基于特征点的传统图像特征匹配算法,基于深度学习的特征匹配算法能产生更大规模和更高质量的匹配.为获取较大范围且清晰的路面裂缝图像,并解决弱纹理图像拼接过程中发生的匹配对缺失问题,本文基于深度学习 LoFTR(detector-freelocalfeaturematchingwithTransformers)算法实现路面图像的拼接,并结合路面图像的特点,提出局部拼接方法缩短算法运行的时间.先对相邻图像做分割处理,再通过 LoFTR 算法产生密集特征匹配,根据匹配结果计算出单应矩阵值并实现像素转换,然后通过基于小波变换的图像融合算法获得局部拼接后的图像,最后添加未输入匹配网络的部分图像,得到相邻图像的完整拼接结果.实验结果表明,与基于 SIFT(scale-invariantfeaturetransform)、SURF(speededuprobustfeatures)、ORB(orientedFASTandrotatedBRIEF)的图像拼接方法比较,研究所提出的拼接方法对路面图像的拼接效果更佳,特征匹配阶段产生的匹配结果置信度更高.对于两幅路面图像的拼接,采用局部拼接方法耗费的时间较改进之前缩短了 27.53%.研究提出的拼接方案是高效且准确的,能够为道路病害监测提供总体病害信息.关键词:路面图像拼接;弱纹理图像;注意力机制;LoFTR 算法;深度学习;小波变换;特征匹配;局部拼接引用格式:张瑞,袁博,杨明,丁健刚,徐政超,李伟.基于深度学习 LoFTR 算法的路面图像拼接.计算机系统应用,2023,32(2):170180.http:/www.c-s- Image Mosaic Based on Deep Learning LoFTR AlgorithmZHANGRui1,YUANBo1,YANGMing1,DINGJian-Gang1,XUZheng-Chao2,LIWei11(SchoolofInformationEngineering,ChanganUniversity,Xian710064,China)2(SchoolofComputerScience,XianPolytechnicUniversity,Xian710048,China)Abstract:Thefeaturematchingalgorithmbasedondeeplearningcanproducelargerscaleandhigherqualitymatchingthanthetraditionalalgorithmbasedonfeaturepoints.Thisstudyaimstoobtainawiderangeofclearpavementcrackimagesandsolvetheproblemofmissingmatchingpairsinweaktextureimagemosaics.TheroadimagemosaicisrealizedbasedonthedeeplearningLoFTR(detector-freelocalfeaturematchingwithTransformers)algorithm.Giventhecharacteristicsofroadimages,thelocalmosaicmethodisproposedtoshortentherunningtimeofthealgorithm.Firstly,thesegmentationofadjacentimagesisconducted,andthedensefeaturematchingisproducedthroughtheLoFTRalgorithm.Secondly,thehomographymatrixvalueiscalculatedaccordingtothematchingresultsandthepixelconversionisrealized.Thirdly,imagesafterlocalmosaicsareobtainedthroughtheimagefusionalgorithmbasedonwavelettransform.Finally,someimagesthatarenotinputintothematchingnetworkareaddedtogetthecompletemosaicresultofadjacentimages.Theexperimentalresultsshowthat,comparedwithmethodsbasedonSIFT(scale-invariantfeaturetransform),SURF(speededuprobustfeatures),andORB(orientedFASTandarmy),theproposedmethodhasabettereffectonroadimagemosaicandhigherconfidenceofmatchingresultsinfeaturematchingstage.For计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(2):170180doi:10.15888/ki.csa.008920http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041收稿时间:2022-06-14;修改时间:2022-07-12;采用时间:2022-07-29;csa 在线出版时间:2022-09-08CNKI 网络首发时间:2022-11-16170软件技术算法SoftwareTechniqueAlgorithmthemosaicoftworoadimages,thetimeconsumedbythelocalsplicingmethodisshortenedby27.53%comparedwiththatbeforetheimprovement.Theproposedmosaicschemeisefficientandaccurate,whichcanprovideoveralldiseaseinformationforroaddiseasemonitoring.Key words:roadimagemosaic;weaktextureimage;attentionmechanism;detector-freelocalfeaturematchingwithTransformers(LoFTR)algorithm;deeplearning;wavelettransform;featurematching;localmosaic交通是经济发展的基础和纽带,对城市群的建立和发展有巨大的支撑和带动作用1.早期城市道路以水泥砼路面为主,成年累月、经轮载反复作用和受环境因素影响,已出现不同程度的破损,道面承载力降低,直接影响车辆平稳行驶,维修问题已引起各级行业主管部门的高度重视2.关于道面的病害检测,很多学者都对其进行了研究.目前普遍采用的是检测车检测手段3,现有检测车受道路限制,检测的宽度一般小于 3.75m,单张图像对应的路面区域非常有限4,既不能满足较长纵向裂缝和大规模网状裂缝的研究、测量,也无法对某个面积较大的道路破损作出全面的展示,且在需要对路面破损目标进行统计分析时,对单张图像进行检测也极易发生漏检、错检等现象.因此实现路面图像的拼接是必要的,即可以提高检测效率,也可以给道路管理部门定位病害提供帮助5.水泥路面图像是一种弱纹理图像.弱纹理表面的图像配准一直以来是计算机视觉领域具有挑战性的问题6.由于弱纹理表面本身缺少丰富的纹理信息,其像素邻域的灰度分布具有相似性,因而像素点可分性较差,常见的基于灰度梯度的特征提取算子如 Harris、SIFT、ORB 等在弱纹理表面不再适用7,8.De-Maeztu等人9和 Chen10提出了一种基于能量函数优化的方法,通过平滑约束项实现了对弱纹理区域匹配准确率的提升,然而在对于大面积的弱纹理区域而言,其配准错误率仍然较高.Jiang 等人11尝试通过颜色分割的方式实现小面积的弱纹理区域配准,但是该方法依赖于颜色分割的精度,同时当弱纹理区域面积较大时其准确率不高,在路面场景下,水泥弱纹理表面色彩单调导致其不能适用.DeTone 等人12提出一种估计配准单应性矩阵的神经网络用于图像配准过程,利用神经网络学习待配准图像之间进行图像变换的映射关系,在给定两幅待配准图像之后,直接端到端计算出单应性矩阵,可以避免了中间参数的转换,在对弱纹理图像配准中达到了很好的效果.这也给本文使用神经网络进行路面图像的配准13提供了良好的思路.为了将小面积的弱纹理路面图像进行完整、精确的拼接14,本研究以智能手机作为路面图像的采集工具,结合神经网络,提出了一种基于 LoFTR 算法15的图像拼接方法.为了缩短神经网络处理的时间,本文提出先局部拼接再扩展的思想,在确保拼接准确度的同时提高了拼接速度16.1LoFTR 特征匹配算法原理LoFTR 是一种局部图像特征匹配方法,其目的是找到输入的两幅图像中同时存在的相同物体实例,并输出其位置信息、匹配关系.区别于传统基于特征点的匹配算法,如 SIFT、ORB 算法等,该算法没有检测特征点的步骤,由模型直接输出匹配对.具体的算法流程区别如图 1.输入原始图像对特征点检测特征点方向描述生成特征描述子特征向量匹配输入原始图像对特征提取特征展平+LoFTR 处理粗略匹配精细匹配图 1基于特征点和基于深度学习的匹配算法流程对比由图 1 可知基于深度学习的特征提取替代了传统算法的特征点检测部分,且配准网络是基于特征向量的,后续步骤则是各方法的具体流程,结果都是产生可靠匹配对.因此,基于深度学习的特征匹配替代传统的2023年第32卷第2期http:/www.c-s-计 算 机 系 统 应 用SoftwareTechniqueAlgorithm软件技术算法171特征匹配是可行的.1.1 算法基础1)特征提取网络图像配准网络是对图像的特征图进行匹配,因此原始图像需经过特征提取网络转化成特征图,才能进行特征匹配.特征提取采用特征图金字塔网络(featurepyramidnetworks,FPN),金字塔的结构同时融合了高层和低层的语义特征信息,使得每一层的语义信息都得到了加强.其网络结构如图 2,左侧自底向上,每经过一次卷积,特征图尺寸减半,共生成 3 级特征图.中间 11 卷积是对左侧特征进行组合,同时对主干网络起到梯度缓冲作用.低分辨率的特征图经上采样后与下一层按元素相加,迭代直到生成最终的分辨率图.最右侧33 卷积生成最终的特征映射,同时减少了上采样的混叠效应.最终,本文需要的是原图的 1/2 级和 1/8 级特征图,即 P2 和 P4.2)注意力机制注意力机制是对输入模型的每一项进行分配权重的机制,权重取决于输入项之间的相互作用.因此,注意力机制有信息聚合的作用,图像配准阶段使用注意力机制可以使得两幅图像中相似的特征点凸显出来,利于后续精确匹配.注意力值的计算公式为:Attention(Q,K,V)=Softmax(QKT)V(1)Conv1(BN+ReLU)Conv2_xConv3_xConv4_xC4C3C2Conv2d11,s2Conv2d11,s1Conv2d33,s1Conv2d33,s0Conv2d11,s2UpsampleUpsampleP4P3P2912684341634212841634212822817119611485256Conv2d33,s211485256228171256416342196114852562281