温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种
注意力
机制
特征
融合
目标
检测
模型
海燕
第51卷 第3期2023 年 3 月华 中 科 技 大 学 学 报(自 然 科 学 版)J.Huazhong Univ.of Sci.&Tech.(Natural Science Edition)Vol.51 No.3Mar.2023一种注意力机制特征融合的小目标检测模型陈海燕 甄霞军 赵涛涛(兰州理工大学计算机与通信学院,甘肃 兰州 730050)摘要 针对图像中小目标的特征难以有效提取,从而对小目标的检测不利的问题,提出了一种通道-空间注意力机制特征融合的小目标检测模型该模型以Faster R-CNN作为基础检测模型,首先设计了一种基于通道-空间注意力机制的特征融合方法,用于降低特征融合过程中引起的混叠效应;然后设计了一种跳跃残差连接模块用于降低特征融合过程中高层特征信息的丢失;最后基于ResNet101深层特征提取能力强的特点,使用其提取特征,将提取的特征采用通道-空间注意力机制特征融合方法融合生成特征金字塔网络,并将生成的特征金字塔网络作为Faster R-CNN的主干网络在NWPU VHR-10数据集上对小目标检测的实验结果表明:本文模型的平均检测精度为82.5%,高于DSSD(55.4%)、FSSD(77.3%)、TDFSSD(76.8%)、Faster R-CNN(44.2%)和FPN(68.9%)的平均检测精度关键词 小目标检测;特征融合;注意力机制;混叠效应;特征金字塔网络中图分类号 TP391.4 文献标志码 A 文章编号 1671-4512(2023)03-0060-07Small object detection model based on feature fusion of attention mechanismCHEN Haiyan ZHEN Xiajun ZHAO Taotao(School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China)Abstract Aiming at the disadvantage of small object detection caused by the difficulty of feature extraction in the image,a small object detection model was proposed based on the feature fusion of channel-space attention mechanismIn this model,Faster R-CNN was used as the basic detection model First,a feature fusion method was designed based on channel-space attention mechanism to reduce aliasing effect caused by feature fusion Secondly,a jump residual connection module was designed to reduce the loss of high-level feature information in the process of feature fusion Finally,based on the strong deep feature extraction ability of ResNet101,it was used to extract features in fast Faster R-CNNThe extracted features were fused using the feature fusion method of channel spatial attention mechanism proposed to generate the feature pyramid network,and the generated feature pyramid network was used as the backbone network of Faster R-CNNThe experimental results of small object detection on NWPU VHR-10 data set show that,the average detection accuracy of this model is 82.5%,which is better than deconvolutional single shot detectors 55.4%(DSSD),feature fusion single shot multibox detectors 77.3%(FSSD),top-down feature fusion single shot multiBox detectors 76.8%(TDFSSD),Faster R-CNNs 44.2%and feature pyramid networks 68.9%(FPN)Key words small object detection;feature fusion;attention mechanism;aliasing effect;feature pyramid network小目标检测是计算机视觉中一个具有挑战性的任务,被广泛应用于自动驾驶、医疗诊断及农业监测等领域1-3得益于深度卷积神经网络(DCNN)强大的特征表征能力,出现了许多检测性能优异的基于 DCNN 的目标检测模型4-12Faster R-CNN 是代表性的基于 DCNN的目标检测模型之一,其在检测过程中,首先使用 RPN(region proposal network)在主干网络的顶层特征上进行感兴趣区域候选,然DOI:10.13245/j.hust.238491收稿日期 2021-10-09作者简介 陈海燕(1978-),女,副教授,E-mail:基金项目 国家自然科学基金资助项目(62161019,62061024)第 3 期陈海燕,等:一种注意力机制特征融合的小目标检测模型后将候选的感兴趣区域输入Fast R-CNN(fast region-based convolutional neural network)分类和回归,从而实现目标检测11小目标在图像中的内容占比低、特征不显著和易被干扰等特点,使其可用检测特征较少,而Faster R-CNN在特征提取过程中经过多次池化,进一步丢失了小目标的特征,容易造成小目标漏检和误检1为了提高基于 DCNN 目标检测模型对小目标的检测精度,学者们对基于 DCNN的检测模型展开了大量的研究,发现 DCNN提取的低层特征具有丰富的细节信息,有利于目标定位;而高层特征具有丰富的语义信息,有利于目标的分类13同时发现融合不同深度的特征,能够提高模型的检测性能13。根据这一发现,学者们提出了大量基于特征融 合 的 检 测 模 型,比 如 DSSD14,FSSD15,TDFSSD13和 FPN16,用于小目标的检测以上文献表明:特征融合能提高基于 DCNN的模型对小目标的检测精度,但使用基于元素求和通道连接的方法融合特征会引入大量背景噪声和冗余信息,容易造成混叠效应,从而对小目标的检测不利17同时,顶层特征在自顶向下的传递过程中存在信息丢失,使低层特征不能充分地利用顶层的特征信息针对特征融合引入的冗余信息问题,学者们提出使用注意力机制来降低混叠效应18-20LU等21在遥感图像目标检测中,首先融合主干网络提取的用于检测的特征,其次在融合的特征上使用 SE(squeeze-and-excitation)注意力机制消除冗余信息,在一定程度上消除了冗余,但由于其只在通道方向消除,对混叠效应的抑制有限18GUO等19在特征融合中使用 SE 构建空间自适应特征融合方法,降低了融合过程中引入的背景噪声,但其只在通道方向抑制无用信息ZOU等20在遥感目标检测中使用SE注意力机制消除特征融合引入的冗余信息,以此来增强检测特征,但其也只在通道方向对特征进行了增强以上文献表明:在特征融合的基础上使用注意机制不仅能进一步提高模型的检测性能,也能够降低特征融合造成的混叠效应为了提高Faster R-CNN对小目标的检测精度,设计了一种基于通道-空间注意力机制的特征融合方法,记为FFBAM(feature fusion method based on attention mechanism),不仅在通道上抑制无用信息,而且也在空间上抑制无用信息,用于降低特征融合过程中引入的混叠效应;文献22表明,残差网络结构在特征提取过程中能够降低特征信息的丢失,设计了一种跳跃残差连接模块用于降低特征融合过程中高层特征信息的丢失,记为 SRCM(skip residual connectional module);最后基于 Resnet101能够提取不同深度特征的优势,用Resnet101作为Faster R-CNN 特征提取网络,将提取的特征使用FFBAM融合生成特征金字塔网络,并用生成的特征金字塔网络作为Faster R-CNN的主干网络,来更为充分地提取小目标特征,以便更为有效地进行目标检测1 目标检测模型 目标检测模型结构如图 1 所示,由主干网络Backbone、区域候选网络RPN和Fast R-CNN网络组成Backbone负责提取图像特征,RPN网络生成候选区域,Fast R-CNN分类候选网络检测到的目标为了提取到细粒度小目标特征,设计了FFBAM 和 SRCM 两个结构,用于生成金字塔网络图中:C2,C3,C4和 C5为 Backbone 提取的特征;P2,P3,P4和 P5为融合之后用于检测的特征FFBAM是提出的基于通道-空间注意力机制的特征融合方法,图中橙色部分是提出的跳跃残差连接模块SRCM(skip residual connectional modul)值得注意的是,本文模型与Faster R-CNN相比,只有主干网络、PRN和ROI不同,其他都相同。主干网络的特征P2,P3,P4和P5被依次输入RPN和ROI(region of interest)提取用于回归和分类的特征,RPN和 ROI图1本文模型的整体结构61华 中 科 技 大 学 学 报(自 然 科 学 版)第 51 卷的结构设置与文献16一致,因此这里仅详述提出的FFBAM和SRCM1.1基于通道-空间注意力机制的特征融合方法提出的基于通道-空间注意力机制的特征融合方法在通道和空间两个方向重标定融合特征,用于消除特征融合中引入的混叠效应,结构如图 2 所示,图中:为Sigmoid函数;GAP为全局平均池化;MOC为最大池化;为模型的超参数首先使用全局平均池化获取特征的全局信息,其次在通道和空间两个方向重标定特征,最后将重标定的特征在通道方向分割并相加,得到用于检测的特征将融合的高层特征和低层特征依次记为F1RC H1 W1和F2 RC H W,将F1使用双线性插值上采样到F2的尺寸,并将上采样的F1和F2在通道方向连接并记为F R2C H W,将F的 Feature maps记为Uk RH W(k=1,2,2C)为了获取特征的全局信息,借鉴文献21的方法,将F的2C个Feature map使用全局平均池化聚合为特征描述子Z R2C 1 1全局平均池化的计算表达式为Zk=1W HiHjWui,j(1 i H,1 j W,1 k 2C),式中:Zk为F的第k个Feature map的聚合值;ui,j为F的第k个Feature map在(i,j)点的值在得到特征全局信息后,借鉴文献23的思想,采用2个卷积加一个Sigmoid函数组成一个门机制,并将其记为:WC=(W2(W1Z),用于学习通道之间的依赖关系,增强关键通道特