温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
金字塔
特征
级联
注意力
路面
裂缝
检测
苗翔宇
2023 年第 3 期计算机与数字工程收稿日期:2022年8月18日,修回日期:2022年9月11日作者简介:苗翔宇,男,硕士,研究方向:图像处理,深度学习。刘华军,男,博士,副教授,研究方向:图像处理,深度学习。1引言公路的建设极大地方便了人们的日常出行,行车安全也越来越凸显其重要性,及时修补破损路面是道路管理部门的一项重要工作。因此,快速掌握路面状况,并高效地实现自动化裂缝检测是亟待解决的工程实践问题。传统的路面检测方法是由专业人员人工排查,根据损毁严重程度进行专业的评估,但是这种方式不仅工作量大,而且效率很低,检测成本非常高。为了更加高效地检测路面裂纹,基于图像处理的方法得到了广泛的应用,常用的传统图像处理方法主要包括阈值分割1、边缘检测24、小波变换56以及基于形态学7的方法。但是由于光照,阴影,背景和纹理这些因素的影响,这些检测的结果往往不尽人意。近年来,深度学习作为机器学习的一个分支,在各种视觉识别任务取得了良好的表现。深度学习通过神经网络自动学习裂缝图像的特征,不再需要人为地设计特征提取器。随着全卷积神经网络基于金字塔特征和级联注意力的路面裂缝检测苗翔宇刘华军(南京理工大学计算机科学与工程学院南京210014)摘要路面裂缝检测是道路病害自动检测一个关键环节,传统图像检测方法效率不高且易受环境干扰。论文基于卷积神经网络设计了一种在金字塔特征上采用级联注意力(Cascaded Attention)机制的CANet新结构。该网络以ResNext50为骨架网络提取路面图像金字塔特征,进而生成跨层和跨尺度的两级注意力掩膜对裂缝的卷积特征进行增强,并在不同尺度输出的裂缝特征采用双向融合方式生成裂缝预测图。CANet 网络新增三个新模块,分别是 Layer Attention(LA)模块、Scale-Attention(SA)模块以及Multi View Enhance(MVE)模块。该网络分别在CrackLS315和DeepCrack-DB两个数据集上进行了训练和测试,ODS和OIS指标都取得了当前最好结果。关键词注意力机制;裂缝检测;多尺度融合;膨胀卷积中图分类号U41DOI:10.3969/j.issn.1672-9722.2023.03.017Road Crack Detection Based on Pyramid Features and CascadedAttentionMIAO XiangyuLIU Huajun(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing210014)AbstractPavement crack detection is a key link in automatic road disease detection.Traditional image detection methods arenot efficient and are susceptible to environmental interference.Based on the convolutional neural network,this paper designs a newCANet structure that uses the cascaded attention mechanism on the pyramid features.The network uses ResNext50 as backbone toextract the features of the road image pyramid,and then generates a cross-layer and cross-scale attention masks to enhance the convolutional features of the cracks,it uses the bidirectional fusion method to generate the cracks at different scales predicted map.Three new modules have been added to the CANet network,namely the Layer Attention(LA)module,the Scale-Attention(SA)module and the Multi View Enhance(MVE)module.The network is trained and tested on two data sets,CrackLS315 and DeepCrack-DB respectively,the ODS and OIS indicators have achieved the best results currently.Key Wordsattention mechanism,crack detection,multi-scale fusion,dilated convolutionClass NumberU41总第 401期2023 年第 3期计算机与数字工程Computer&Digital EngineeringVol.51No.3629第 51 卷的发展,涌现出一批诸如FCN8、U-Net9、Segnet10、FusioNet11、DeepCrack12等网络结构,可以实现像素级语义分割,能够进行端到端的裂缝检测。这种像素级的分类任务其难点在于如何提升分类的精度,减少错误分类的误差。因此,本文在金字塔特征融合的基础上加入了多级注意力机制,构建出一个新型的网络结构(Cascaded attentions Networks,CANet),能够有效地提升裂缝图像的识别精度,具体包含如下设计工作:1)Layer-Attention 模块:该模块利用了注意力机制,可以提升裂缝像素部分的权重,帮助神经网络捕捉到裂缝的特征,提升识别精度。2)Scale-Attention模块:该模块同样是基于注意力机制,利用主干网络的不同阶段的特征图生成掩膜强化另一个输出结果,进而提升识别精度。3)Multi View Enhance 模块:单一尺寸的卷积不能兼顾各种尺寸的裂缝特征,本文使用了一种基于膨胀卷积的多视野融合模块,在不同感受野下提取图像特征,提升了网络对不同尺寸裂缝特征的识别能力。4)双向融合网络:通过从特征提取浅层到深层,以及从深层到浅层双向融合的方法生成预测结果,同时可以近似得到每一尺度下的Lable,进而有针对性的训练网络,加速网络收敛。2模型架构本文结合裂缝图像的特点,设计了一种基于金字塔特征结构的多尺度融合架构,以Resnext5013为基本的特征提取框架,并在此基础上设计了Layer-Attention 模块(LA),Scale-Attention 模块(SA)以及 Multi Vision Enhancement模块(MVE),形成一种新型级联注意力网络(Cascaded attentions Networks,CANet)。为了提升网络的训练能力,本文又使用了一种双向融合的方案,使每一个尺度有对应的Lable。网络的具体结构如图1所示,上半部分是一个Resnext50结构,可以按照特征图的尺度分成五个阶段,在后面的四个阶段采用了残差块的结构进行特征提取,四个阶段包含的残差快数量分别为3、4、6、3。InputConv11-1UnsampleLAMVELAMVELAMVELAMVESAPsd1LossConv11-1UnsampleSAPsd2LossPds1Pds2Conv11-1UnsampleSAPsd3LossConv11-1UnsampleSAPsd4LossPds3Pds4图 1CANet的组成结构本文在后面的四个阶段中进行了如下操作:首先获取每个阶段的输出并通过MVE模块进行多感受野特征提取,每个阶段通过LA模块生成一个对应的掩膜并用来强化MVE模块生成结果,生成的特征图尺寸分别为(W/4,H/4,32),(W/8,H/8,32),(W/16,H/16,32),(W/32,H/32,32)。本文使用了两个单独分支分别进行Conv11-1卷积和上采样操作,最后通过SA模块的强化输出两个预测结果Psdi和Pdsi,两个结果叠加即为该尺度下的输出。最后,融合了各尺度下的输出生成最终预测结果。2.1多级注意力结构2.1.1Layer-Attention模块为了提升检测的质量,帮助网络准确获取裂缝部分信息,本文提出了一个全新的Attention模块,如图2所示。苗翔宇等:基于金字塔特征和级联注意力的路面裂缝检测6302023 年第 3 期计算机与数字工程conv11-32conv11-32conv11-32conv11-32Stage3conv11-32MVEconv11-1unsampleSigmoidAttentionBlock图 2第三阶段的LA模块结构该模块的主要思路是将Resnext50进行特征提取的过程分成五个阶段,在第二、第三、第四和第五阶段中分别设置了k个残差模块,k3,4,6,3。在阶段i中,可以获取到ki个大小相同的特征图Xkii,经过多次卷积操作后,裂缝区域被强化,而非裂缝部分作为噪声被削弱,此时得到的特征图可以被近似的视为一种能强化裂缝部分的掩膜,本文从中得到启发,利用每个阶段的前一部分特征图生成一个LMask矩阵,即:LMaski=LA()X1i,X2iXki1i(1)再将生成的LMask用来强化该阶段的输出,在这个过程中,针对于裂缝图像大小分布不均匀,考虑到单一感受野无法更好识别粗细不同的裂缝,本文对每一个阶段的输出结果进行了不同膨胀系数的膨胀卷积操作,即图1中的MVE模块,该过程可以表示为D()Xkii=Conv331()Xkii+x4,8,12DConvrConv3332()Xkii(2)Conv33-1表 示 一 个 3 3-32 的 卷 积 操 作,DConvr表示膨胀系数为r的膨胀卷积操作。本文将每个阶段的输出结果先进行降维操作后,分别进行了膨胀系数为4、8、12的膨胀卷积,并将卷积后的特征融合。最后,用该阶段生成的LMask强化融合后的特征图,即Xouti=LMaskiD()Xkii(3)Xouti即为该阶段的强化结果并参与到后续的计算中去,关于LA()的具体实现方法,在本文中采用了叠加融合的方式,先将多个特征图融合,再使用Sigmoid函数放缩到 0,1,每个阶段都有对应的特征掩膜,图3是掩膜可视化效果图,可以看出网络把注意力集中在裂缝像素周围。图 3不同阶段LMask的可视化效果图2.1.2Scale-Attention模块类比于 Layer-Attention 模块,本文在每一个尺度的输出部分也运用了Attention机制增强检测效果,并把该部分命名为Scale-Attention模块。从图1可以看出,阶段2、阶段3、阶段4和阶段5的输出,分别经过MVE模块的多视野卷积,以及Layer-Attention 模块强化,最后结果上采样到原始图片尺寸,可以得到4个输出,如图4。Scale1SigmoidScale2Scale3Scale4Mask4Mask4Mask4Mask4Scale1Scale1Scale1Scale1图 4SA模块组成结构本文利用其中三个特征图生成SMask去强化剩下一个输出,运算过程可以表示为SMaski=SA()Xscalejj=1,2,3,4且ji(4)Pi=SMaskiXscalei(5)Xscalei表示该尺度下,经过上采样恢复为原图尺寸大小的特征图,Pi表示在该阶段生成的预测结果。在本文中SA()方法的具体实现过程类似于LA模块中的LA()方法,也是将多个特征图叠加融合后用Sigmoid函数放缩,即可得到该尺度下的掩膜。这种Attention