温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
YOLO
DAW
基于
窗口
内部
双重
注意力
机制
目标
检测
模型
第 卷第 期 年 月东 南 大 学 学 报(自 然 科 学 版)().:./.:基于窗口内部双重注意力机制的目标检测模型殷智伟邵家玉张 宁(东南大学复杂工程系统测量与控制教育部重点实验室 南京)(东南大学教育部智能运输系统研究中心 南京)摘要:为了将注意力机制引入 模型从而提高算法的特征融合能力和检测准确率提出一种基于窗口内部双重注意力机制改进的 模型().在 层中模型在特征金字塔网络和路径聚合网络中进行特征融合时分别引入通道注意力和空间注意力机制并将注意力机制的计算限制在不同大小的窗口内以降低模型的计算复杂度.不同性质的注意力机制能够为前向特征提供更大感受野的全局特征信息极大加强了模型对不同特征的理解能力.实验结果表明:模型在公开数据集 以及 上的 分别达到了.和.对比同参数量的 在 和 上均有.的领先.改进后的模型能够更好地融合局部特征与全局特征使其满足更复杂场景下的检测要求.关键词:目标检测注意力机制特征融合基于全连接层的上采样中图分类号:.文献标志码:文章编号:():()():()().:收稿日期:.作者简介:殷智伟()男硕士生邵家玉(联系人)男博士副教授.引用本文:殷智伟邵家玉张宁.:基于窗口内部双重注意力机制的目标检测模型.东南大学学报(自然科学版)():.:./.自从 被提出之后卷积神经网络一直在计算机视觉领域的研究中占据主流地位.作为计算机视觉领域最为重要的研究方向之一大部分目标检测模型倾向于使用纯卷积神经网络搭建模:/.型框架.根据不同的候选框生成方法算法可以分为单阶段和两阶段目标检测算法.常见的两阶段算法为基于区域卷积神经网络()的目标检测算法诸如 、.两阶段目标检测算法往往需要引入额外的区域提议网络()进行锚框的预测区域提议网络虽然增加了锚框的预测精度但是模型的推理耗时也随之增加.不同于两阶段算法单阶段算法在前向推理时直接利用特征图进行锚框以及物体类别的预测.这种做法在保证模型推理速度的同时检测精度也没有明显的下降典型的单阶段 目 标 检 测 算 法 有、.目前在目标检测领域中应用最为广泛的便是基于纯卷积网络设计的.卷积神经网络利用卷积核能够快速提取图像的局部特征以及完整保留图像特征的空间位置信息使得卷积神经网络长期以来都是计算机视觉领域的主流模型架构.然而受卷积结构的限制卷积核只能在相对较小的感受野上对局部特征建模随着网络的增大模型性能会逐渐趋向于饱和而如果采用较大的卷积核以增大感受野模型的参数复杂度和计算复杂度都将大大增加.年()首次将注意力机制从自然语言处理领域引入计算机视觉后 一 系 列 基 于 的 特 征 提 取 网络 的性能已经超越了卷积神经网络.通过对全局特征的建模基于 的特征提取网络相比于卷积神经网络有着更大的感受野也对更加复杂的全局特征有更强的理解能力随着网络的增大其性能也不会出现明显的饱和.然而在下游的网络设计中大部分研究仍然更倾向于使用卷积神经网络作为后续网络的基本模块.因为对于密集预测的任务诸如目标检测、图像分割等基于注意力机制的 模型的计算复杂度要远远大于卷积神经网络.单阶段目标检测网络通常由主干网络、层以及 层组成.在 层中其结构的核心就是由特征金字塔网络()和路径聚合网络()构成的多尺度特征融合层.这 个网络都需要从上游网络中获取对应大小的特征图并与前向特征相融合.因此本文重新设计了 模型中的 层利用双注意力机制对上游网络中的特征进行不同尺度的全局建模使模型在 层能够融合图像的全局特征以及局部特征.这种方法在将基于注意力机制的 模块引入到目标检测网络的同时模型的整体计算复杂度增长仍然在一个合理的范围之内.模型是 年提出的端到端的单阶段目标检测算法.自 发布以来有源源不断的后续工作对 进行优化.年发布的 凭借优异的性能迅速成为运用最为广泛的目标检测算法之一.是一个基于纯卷积的目标检测算法由 模块和 模块作为构成整个网络的基本模块 其构成如图 所示.的主干网络采用了 网络 层采用 的架构.此外 在训练时还采用了 数据增强的方法即每次读取 张图片对图片和锚框进行组合后作为整体进行训练.在损失函数的选择上 采用了 作为锚框的损失.这些改进措施使得 在各种目标检测数据集上都展现出相当优异的性能.图 模块和 模块结构示意图 模块由卷积层、批量归一化层以及带泄露的线性修正单元()构成一个基本的单元.其中批量归一化层为前向特征的分布添加了额外的特征约束.在引入 个可学习的参数 和 后批量归一化层将前向特征限制在一个特定范围之内大大增加了模型的泛化性能降低了训练过程中出现的过拟合现象.则为网络带来了非线性特征.第 期殷智伟等:基于窗口内部双重注意力机制的目标检测模型:/.在 模块中存在 条前向分支在每个前向分支中模块都将通道特征的通道数减半并在后续的网络中拼接来自 条分支中的输出特征.在保证输入输出的特征维度一致性的情况下模型能够利用 条分支学习到不同性质的特征从而使特征提取的效果最大化.模型改进方法.网络结构基于 窗 口 内 部 双 重 注 意 力 机 制 改 进 的 模型()在 的基础上对 层进行了改进其结构总览图如图 所示.输入图像在经过 的主干网络之后得到了不同大小的特征.在 层的 网络中前向特征经过一个基于通道维度改进的全连接层后实现上采样操作.与此同时从主干网络中得到的对应大小的特征图在输入到通道注意力模块后与上采样后得到的特征图进行拼接送入后续的卷积模块进行特征融合.在 结构中需要对前向特征下采样后进行空间注意力计算并与 中对应大小的特征图拼接后在后续的网络中进行特征的融合.最后由 层给出最后的预测结果.图 结构总览图.基于窗口的注意力机制实时性是评判一个目标检测模型性能的重要指标.自然语言处理领域中标准的 模型通常是对整个特征图进行全局的注意力计算.在图像领域这种处理方式带来的算力需求增长在目标检测这种注重实时性的下游任务中是不可接受的.如果将注意力计算限制在一个固定大小的窗口内模型的整体复杂度也随之变为线性.以空间注意力机制为例对于大小为 、通道数为 的特征图如果将窗口大小设置为固定值 便可以得到全局注意力和窗口注意力的计算复杂度其计算公式如下:()()()()().基于窗口的通道注意力在计算机视觉领域大部分特征提取网络都是利用空间特征进行注意力计算的这种设计范式使得研究者忽视了通道之间信息也存在极大的关联度.在 中研究者提出了通道混合的多层感知机来对通道特征信息进行处理.据此 等提出了通道注意力机制即在全局特征图的通道之间进行注意力计算.在通道注意力中空间维度定义了特征向量的大小而通道数量则定义了特征向量的数量.通道维度上的每一个特征向量都能够反映出图像信息在全局空间上不同的属性特征的全局表示对其进行注意力运算则能够为模型补充不同属性的全局特征.在 层的 中从主干网络中获取的特征送入基于窗口的通道注意力模块后与经过上采样后的前向特征拼接并在后续的卷积模块融合特征其结构如图 所示.通道注意力机制是将每一个通道上的所有像素作为通道特征打包成一个特征块后进行注意力计算.不同于用于分类的主干网络在 层的设计中全局的通道注意力机制可能会极大地损害待检测目标特征的局部性.这是因为和空间特征相比不同检测目标在通道维度上的特征表示要远远弱于空间特征.因此本文提出将注意力计算限制在一个 的窗口内在满足局部性要求的同时也能够使目标特征的全局感受野最大化.窗口内通道注意力机制的计算公式的东南大学学报(自然科学版)第 卷:/.定义如下:()()式中 分别表示查询向量()、键向量()和值向量()表示通道特征向量、的维度表示一个窗口内特征向量的总数.图 基于窗口的通道注意力模块此外多头操作根据通道数量将通道均分为 组在每个通道组内的注意力计算用于提取图像中不同性质的特征.在后续的通道投影层中也仅对窗口内的通道特征进行特征融合而不是在空间维度融合特征.这种方法既节约了算力资源也降低了模型的参数复杂度多头操作公式如下:()()()()()式中 分别为多头操作中、的投影参数 为多头向量合并后、的投影参数为特征图的特征通道数 /.基于窗口的空间注意力由于图像数据存在巨大的信息冗余这使得 模型的计算复杂度将随着图像的大小平方倍增加收敛难度也随之增加.为了解决引入注意力机制后产生的复杂度以及收敛问题研究者在 一文中提出了基于窗口注意力机制.不同于 模型在整个特征图上进行注意力计算 将特征图分为 个固定大小的窗口并在每个窗口中独立地进行注意力机制的计算.这使得模型的复杂度随着特征图大小线性增加模型的收敛性能也大大增加.在 层的 结构中前向特征首先要经过一个卷积层进行特征下采样.下采样后的特征被送入基于窗口的空间注意力模块计算后与来自 层中对应大小的特征图在通道维度进行拼接后送入后续的卷积网络进行进一步的特征融合其结构图如图 所示.其窗口内空间注意力机制的计算公式如下:()()式中 表示空间特征向量的维度.图 基于窗口的空间注意力模块模型采用了层归一化()作为正则化方法.不同于批量归一化层归一化是在每个样本内部对特征进行归一化操作.由于注意力机制是计算单个样本内的特征相似度层归一化更加适合于注意力机制计算.对单个样本 层归一化计算公式如下:()()()()式中()和()分别为样本的均值和方差和 为 个可学习的参数 为一个无穷小量.窗口的设置因为每个窗口的划分都是非重叠的所以各个窗口内的注意力计算都是相互独立的.这使得相邻窗口之间缺少了必要的特征信息交换.采用 个连续的 模块并在第 期殷智伟等:基于窗口内部双重注意力机制的目标检测模型:/.第 个模块中采用滑动窗口的方式.尽管这种基于滑动窗口的空间注意力已经极大地降低了模型计算复杂度连续的注意力计算在目标检测中仍然会极大地影响模型的实时性.本文提出了一种十分简单但是有效的解决思路即大小窗口的设计具体如图 所示.在对基于窗口的空间注意力模块的窗口大小进行设计时采用大小为/的窗口.由于 层中模块的窗口大小为 经过空间注意力模块计算后的特征在与 层中的特征图进行融合时便能够与相邻窗口实现信息的交互.图 大小窗口的划分.基于全连接层的上采样 采用了最近邻插值作为上采样的方法这种简单的零阶插值法在与主干网络的特征图进行特征融合时可能会极大地损害模型的局部特征.在通道注意力模块中由于注意力机制会在更大的感受野上进行全局的注意力计算最近邻插值提供的劣化局部特征会极大地降低模型的绝对性能.受到 一文的启发本文提出了基于全连接层的上采样方法该方法在实现上采样功能的同时能够为前向特征提供极为丰富的局部特征.如图 所示模块将特征图在通道维度上划分为 个大小相等的不重叠窗口并为每个窗口附加上可学习的绝对位置编码.将窗口展平成一维向量后特征向量将会损失图像信息中最为重要的位置信息.可学习的绝对位置编码则保证了窗口内的特征在展平输入全连接层后能够最大程度地保留其位置信息.在经过全连接层之后每个窗口大小变为 .至此特征图完成了上采样操作.图 基于全连接层的上采样 实验和讨论.实验设置在本次实验中进行模型训练的硬件平台为 、和 .网络模型是以 作为基准模型使用 进行开发设计.在训练时模型直接在 数据集进行训练然后将从 数据集上训练后得到的预训练权重迁移到 数据集上继续进行训练最后得到模型在标准数据集下以及实际路况场景中的目标检测性能.在参数设计上实验以 作为基准模型.模型在 个数据集上均迭代训练 个轮次并将测试得到的最终检测性能与 进行对比.所有的输入图片大小都被自适应地缩放至 像素并采用与 相同的数据增强方法.在本次实验中采用 和 两个数据集测试模型的性能.包含了真实生活场景中的各类目标检测数据提供了极高质量的图片以及相应的标注信息.数据集包含了 个大类和 个小类检测目标一共有 张训练图片以及 张测试图片.是由华为公司发布的一个基于真实路况的车辆检测数据集.该数据集中包含了上海市不同时间段的实际路况信息能够很好地反映出实际交通场景中复杂多变的路况信息.提供了有高质量标注的 张图片的训练集和 张图片的测试集.整个数据集中一共包含了种车辆分类.消融实验将本文中提出的模块在 上进行消融实