温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种
基于
YOLOv5
小样
目标
检测
模型
侯玥
第 47 卷 第 1 期燕山大学学报Vol.47 No.12023 年 1 月Journal of Yanshan UniversityJan 2023文章编号:1007-791X(2023)01-0064-09一种基于 YOLOv5 的小样本目标检测模型侯玥,王开宇*,金顺福(燕山大学 信息科学与工程学院,河北 秦皇岛 066004)收稿日期:2022-04-08责任编辑:唐学庆基金项目:国家自然科学基金资助项目(61872311);秦皇岛市重点研发计划资助项目(202101A015)作者简介:侯玥(1996-),女,湖北荆州人,硕士研究生,主要研究方向为小样本学习;*通信作者:王开宇(1978-),男,河南开封人,博士,副教授,主要研究方向为分布式计算,机器学习,Email:wangky ysueducn。摘要:深度学习技术在目标检测领域取得了显著的成果,但是相关模型在样本量不足的条件下难以发挥作用,借助小样本学习技术可以解决这一问题。本文提出一种新的小样本目标检测模型。首先,设计了一种特征学习器,由 Swin Transformer 模块和 PANET 模块组成,从查询集中提取包含全局信息的多尺度元特征,以检测新的类对象。其次,设计了一种权重调整模块,将支持集转换为一个具有类属性的权重系数,为检测新的类对象调整元特征分布。最后在 ImageNet-LOC、PASCAL VOC 和 COCO 三种数据集上进行实验分析,结果表明本文提出的模型在平均精度、平均召回率指标上相对于现有的先进模型都有了显著的提高。关键词:小样本;目标检测;Swin Transformer;通道注意力机制;YOLOv5中图分类号:TP3914文献标识码:ADOI:103969/jissn1007-791X2023010070引言近年来,在图像分类领域研究成果的基础上,以深度学习为核心的目标检测技术得到飞速发展。其在智能实时监测 1、船舶检测 2、自动驾驶 3、人脸识别 4 等领域得到广泛的应用。目前,基于深度学习的目标检测模型想要训练出好的效果,须要以大量的标注样本为基础,但是在实际应用中,很难获得大规模样本数据。而小样本学习只需要少量样本就可以实现对新类目标的分类识别,减少对大规模标签数据的依赖。受到小样本学习的启发,小样本条件下的目标检测技术也在不断崛起。基于包含足够标记样本的数据集,小样本目标检测只需检测新类别中的少量标记样本,然后构建正确的训练方法,设计合适的模型结构以及与训练相对应的损失函数,就可以得到具有泛化性能的检测模型。这大大提高了模型开发的效率。目前,小样本目标检测方法有基于单阶段或两阶段的目标检测算法。文献 5以 Faster-CNN 为骨干网络,也有一些研究基于单阶段目标检测算法。文献 6-7 使用 YOLO 作为骨干网络,文献 8 使用 SSD 作为小样本目标检测的骨干网络。近年来,研究者在不断地将注意力机制与卷积神 经 网 络 相 结 合。例 如,自 注 意 力 机 制Transformer 9 在自然语言处理领域取得突破,例如iGPT 10 和 ViT 11。2020 年,Detection Transformer(DET)12 的提出将 Transformer 成功引入到计算机视觉领域。文献 13在 Deformable DET 14 的基础上,将 Transformer 与元学习相结合,提出了一种图像级元学习小样本目标检测模型。2021 年文献 15提 出 了 Transformer 的 改 进 模 型 SwinTransformer,其在分类、检测和分割任务中取得了优异的成绩,并且成为一个新的热点模型。例如,文献 16利用 Swin Transformer 实现腰部图像的精准分割。小样本目标检测过程不仅需要提取高层次的语义信息来完成分类任务,还需要低层次的像素信息来实现目标定位。因此,针对上述因素,本文以 YOLOv5 模型为主干网络,设计出一种新的小样本目标检测模型 STFS(Swin Transformer based第 1 期侯玥 等一种基于 YOLOv5 的小样本目标检测模型65Few-Shot Learning),它充分利用图像的上下文信息来寻找不同类别之间的可区分特征,以此可以实现图像分类,但图像中包含的无关信息可能会误导目标的定位和识别。因此,增加了注意力机制来提取重要目标周围的有用信息,抑制无关信息的干扰,有助于小样本目标检测的定位和分类。具体工作如下:1)设 计 了 一 个 元 特 征 提 取 网 络(SwinTransformer based YOLOv5,ST-YOLO)。它由两部分组成:Swin Transformer 模块,通过自注意力的方式扩大全局感受野,并获取全局上下文信息;PANET 模块,实现深、浅层之间多尺度的特征融合。2)设计了一个权重调整模块(eweightingbased ECA,EW-ECA),通过少量的支持集生成具有类属性的权重系数,并自动调整元特征分布以检测新类对象。1小样本目标检测模型本文提出的小样本目标检测算法 STFS 结构如图 1 所示,一共包括三大模块。1)ST-YOLO 模块为元特征提取器,用于学习多尺度元特征。它主要是通过注意力的方式逐渐增强全局感受野,获取全局上下文信息,从而建立对目标的远距离的依赖。2)EW-ECA 模块为元学习器,用于生成权重系数。权重系数是一个具有类属性的全局变量,这个全局变量具有感兴趣的类别对象的语义信息。该类别的语义信息被集成到元特征中,以增强元特征中待检测对象的类别语义信息的表达。3)预测模块负责接收 ST-YOLO 和 ECANet 的输出,并生成目标检测结果。具体来说,它将元特征和权重系数聚合为一组特定于类别的特征,然后使用 YOLOv5 的检测头预测回归位置和分类信息。图 1小样本目标检测框架 STFSFig1Few-shot object detection framework STFS11ST-YOLO 模块本文设计的 ST-YOLO 模块是在 YOLOv5 模型基础上进行改进的。其主要任务是学习从基类中提取全局上下文信息,并聚合高层强语义信息和低层强定位信息。对于小样本训练,YOLOv5 模型的原主干网络无法通过有限的标注样本学习全局上下文信息,虽然可以通过堆叠卷积神经网络来增加感受野,但深层卷积网络会大大增加计算量。因此,将用作特征提取的主干网络替换为 Swin Transformer 模块,其自注意力机制用来学习整个数据集中同类的相同特征和不同种类的可区分全局特征,从而解决小样本容易忽略数据集内部特征之间关系的问题。Swin Transformer 是一个基于自注意力机制的网络。它具有专注于全局信息建模的能力,可以用作 视 觉 和 语 言 处 理 的 统 一 模 型。在 SwinTransformer 模型中,对输入向量进行线性变换后,将得到的矩阵均分为三部分,这三部分成为Transformer 中查询向量 Q、关键向量 K 和位置向量 V 的三个特征,注意力机制的计算公式为Attention Q,K,V()=SoftmaxQ KTdk+B()V,式中,B 表示相对位置偏差,dk表示特征 K 的方66燕山大学学报2023差,Softmax 为归一化指数函数。可以看出,该机制是为了在图像中找到关键信息而设计的,这是一种寻找全局特征的方法。在 Swin Transformer 用于特征提取的过程中,会失去大量位置信息,不利于目标的定位。因此,将提取的全局特征输入 PANET 模块,特征金字塔网络(Feature Pyramid Network,FPN)将高层的强语 义 特 征 传 递 下 来,像 素 聚 合 网 络(PixelAggregation Network,PAN)将低层的强定位信息传递上去,实现对目标的精确定位。总体而言,ST-YOLO 模块主要是利用自注意力机制和特征金字塔结构,增强了骨干网络在小样本图像中捕获全局语义信息的能力,并将高层语义信息和低层细粒度信息完美融合,以此提高小样本检测模型学习特征的能力。12EW-ECA 模块如前所述,EW-ECA 模块的功能是生成感兴趣区域的全局变量,该变量具有感兴趣区域中对象的类特征。为此设计的系数生成网络有两个主要功能:一是提取有类别信息的语义特征;二是突出感兴趣的区域。第一点直接使用层数合适的卷积神经网络。第二点通过引入注意力机制来实现。注意力机制借鉴人类的视觉系统获得关键信息的内部处理过程。例如人类要在嘈杂的市场寻找结伴的伙伴,视线内所有事物的形状、颜色等信息量过于巨大,于是可以选择忽略一部分无关紧要的信息(水果颜色、货物形状),重点观察人的衣服颜色、体型、发色等特征,从而找到相应的目标对象。注意力机制的信息处理过程具体可以表示为Attention=f g x(),x(),式中,g()为处理输入特征和产生注意力的过程,f()表示结合注意力对输入特征进行处理。对于自注意力机制 self-attention,上述过程可以具体表示为Q,K,V=Linear x()g x()=Softmax QK()f g x(),x()=g(x)V。注意力机制主要分为空间注意和通道注意。在本文中,为了弥补卷积层不考虑每个通道之间依赖关系的缺陷,选择通道注意力 ECA 在每个卷积通道之间分配资源,并设计了 ECANet 网络来生成任务所需的权重系数。总的来说,EW-ECA 模块将支持集作为其输入,学习将支持集的信息转换为全局向量,该向量具有感兴趣区域中对象的类特性。在该模块的作用下,将增强查询集中新类对象的特征,有助于检测头的预测。121通道关注模块通道关注模块(Efficient Channel Attention,ECA)的设计主要考虑到捕获所有通道之间的依赖关系不是必要的,且效率会很低。因此,通过局部跨通道之间的信息交流产生通道之间的注意力,相比与所有通道之间交互有效地降低了模型的复杂度,并保持较高的模型效率。每个通道只与其相邻的才 k 个通道进行相互交流,通道 yi的权重计算为wi=kj=1jiyji(),其中,yjiki,ik表示 yij的 k 个相邻通道的集合。使用卷积的共享权重的方法,以此来进一步提高模型的性能。跨通道信息交互的覆盖率由卷积核 k 的大小决定,其计算公式为k=C()=log2C+bodd,式中,|X|odd为与 X 距离最近的奇数,C 为通道维数。原始 ECA 模 块 通 过 全 局 平 均 池 化 操 作(Global Average Pooling,GAP)获取全局信息,并提取全局完整信息。针对小样本条件下的目标检测任务,将 ECA 模块进行了修改。本文修改后的ECA 模块结构如图 2 所示,利用全局最大池化操作(Global Max Pooling,GXP)替换原先 GAP,以便它可以关注图像中最感兴趣的区域。图 2优化后 ECA 网络结构Fig2Architecture of optimized ECA第 1 期侯玥 等一种基于 YOLOv5 的小样本目标检测模型67122ECANet 网络结构本文设计的 ECANet 网络利用 ECA 模块,通过网络有选择地增强信息量最大的特征,方便后期的处理,降低噪声。整体网络设计如图 3 所示。网络的下采样方法采用局部最大池化,利用最大值增强和突出感兴趣区域。同理,在生成最后一个嵌入向量时也使用全局最大池化。图 3ECANet 网络结构Fig3Architecture of ECANet13预测模块预测模块主要任务是接收 ST-YOLO 模块和EW-ECA 模块的输出,并输入到 YOLOv5 检测头中生成目标检测结果。具体来说,它将查询特征和生成的权重系数通过聚合操作,生成一组特定于类别的特征,调整从查询集中获得的元特征的分布。然后,YOLOv5 预测层将特定类别的特征和少量固定数量的对象查询作为输入,并生成相应类别的检测结果。该模块解决了图像级的目标检测问题,既保证了小样本目标检测的