温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
YOLOX
融合
注意力
FSA
FPN
方法
安鹤男
电子技术应用 2023年 第49卷 第3期Artificial Intelligence人工智能基于 YOLOX 融合自注意力机制的 FSA-FPN 重构方法安鹤男1,管聪2,邓武才1,杨佳洲2,马超2(1.深圳大学 电子与信息工程学院,广东 深圳 518000;2.深圳大学 微纳光电子学研究院,广东 深圳 518000)摘 要:随着目前目标检测任务输入图像分辨率的不断增大,在特征提取网络的感受野不变的情况下,网络提取的特征信息会越来越局限,相邻特征点之间的信息重合度也会越来越高。提出一种 FSA(Fusion Self-Attention)-FPN,设计 SAU(Self-Attention Upsample)模块,SAU 内部结构通过 CNN 与自注意力机制(Self-Attention)进行交叉计算以进一步进行特征融合,并通过重构 FCU(Feature Coupling Unit)消除二者之间的特征错位,弥补语义差距。以YOLOX-Darknet53 为主干网络,在 Pascal VOC2007 数据集上进行了对比实验。实验结果表明,对比原网络的 FPN,替换 FSA-FPN 后的平均精度值 mAP.5:.95 提升了 1.5%,预测框的位置也更为精准,在需要更高精度的检测场景下有更为出色的使用价值。关键词:FSA-FPN;特征融合;SAU;自注意力机制中图分类号:TP391.4 文献标志码:A DOI:10.16157/j.issn.0258-7998.223139中文引用格式:安鹤男,管聪,邓武才,等.基于 YOLOX 融合自注意力机制的 FSA-FPN 重构方法J.电子技术应用,2023,49(3):61-66.英文引用格式:An Henan,Guan Cong,Deng Wucai,et al.FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOXJ.Application of Electronic Technique,2023,49(3):61-66.FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOXAn Henan1,Guan Cong2,Deng Wucai1,Yang Jiazhou2,Ma Chao2(1.College of Electronics and Information Engineering,Shenzhen University,Shenzhen 518000,China;2.Institute of Microscale Optoelectronics,Shenzhen University,Shenzhen 518000,China)Abstract:With the increasing resolution of the input image of the current target detection task,the feature information extracted from the feature extraction network will become more and more limited under the condition that the receptive field of the feature extraction network remains unchanged,and the information coincidence degree between adjacent feature points will also become higher and higher.This paper proposes an FSA(fusion self-attention)-FPN,and designs SAU(self-attention upsample)module.The internal structure of SAU performs cross calculation with self-attention mechanism and CNN to further Feature fusion,and reconstructs FCU(feature coupling unit)to eliminate feature dislocation between them and bridge semantic gap.In this paper,a comparative experiment is carried out on Pascal VOC2007 data set using YOLOX-Darknet 53 as the main dry network.The experimental results show that compared with the FPN of the original network,the average accuracy of MAP.5:.95 after replacing FSA-FPN is improved by 1.5%,and the position of the prediction box is also more accurate.It has better application value in detection scenarios requiring higher accuracy.Key words:FSA-feature pyramid networks;feature fusion;SAU;self-attention mechanism0 引言目标检测是致力于解决确定图像中所需物体类别并标识出物体具体位置的一类任务。自从以卷积神经网络(Convolutional Neural Networks,CNN)为代表的深度学习技术在多个领域取得突破性成功后,基于 CNN 的目标检测方法也凭着卷积运算的特性做到对图像特征信息的深层次提取,从而达到较为优秀的检测性能。目前 主 流 目 标 检 测 任 务 大 多 还 是 分 为 两 类,分 别 是 以Faster-RCNN1为 代 表 的 双 阶 段 检 测 与 以 YOLO2和SSD3为代表的单阶段检测算法,它们都以 CNN 作为特61Artificial Intelligence人工智能www.ChinaAET.com征提取核心。FPN4(Feature Pyramid Network)是自顶向下的一种特征融合方式,通过将不同尺寸的特征信息进行融合,对不同尺寸的物体检测均有较为出色的适应性。整体来说,CNN 受制于其卷积层的大小,感受野有限,所以更多地是对局部特征的提取。Transformer5开创了自注意力机制(Self-attention)的先河,在全局特征的提取上有着 CNN 无法比拟的优势。而现在的目标检测算法大部分还是以 CNN 为主要特征提 取 手 段,虽 然 也 有 以 ViT6、Swin-Transformer7等 以Self-attention 为特征提取核心的目标检测算法,但是其计算量巨大,且实际落地受到硬件设施、计算资源的限制,通 用 性 不 如 Faster-RCNN 和 YOLOv38、SSD 等 以CNN 为特征提取核心的目标检测算法。本文对 Conformer9提出的一种 CNN 分支与 Transformer 分支互相弥补语义差距、消除特征错位的方法做出改进,并结合 Darknet-53 的结构,在其 FPN 的特征融合 过 程 中 引 入 自 注 意 力 机 制,设 计 了 SAU(Self-Attention Upsample)模块,通过对特征图进行重新编码以对齐自注意力输入的特征维度,同时设计多次的自注意力计算与上下层之间的联动结合,提出的 FSA-FPN 在融合不同尺寸物体的特征时同时也注重了自身全局信息的特征提取以提升其整体检测效果,在需要更高精度的检测场景下有更大的使用价值。1 YOLOX-Darknet53 算法YOLOX-Darknet5310是 在 YOLOv3 的 Backbone 的基础上,检测头由直接生成包含置信度(conf)、anchor 偏移量(x,y,w,h)、物体类别(cls)等信息改为类别预测和偏移量预测分开进行的解耦头,也即是将分类任务和回归任务进行解耦。整体损失函数分为三部分,分别为边界框损失 Lreg、分类损失 Lcls与置信度损失 Lobj。边界框损失采用 IOU损失,而分类损失和置信度损失均采用二值交叉熵损失(Binary Cross Entropy,BCE)。它 们 的 计 算 方 式 分 别如下:Lreg=-log(IOU(Bgt,Bpred)(1)式(1)为边界框损失的计算公式,其中 IOU 为计算交并比损失,具体为 1-(iou)2,iou 为真实框与预测框的交并比。Lcls=-i=1n()tilog()pi+()1-tilog()1-pi(2)式(2)为分类损失与置信度损失的计算公式,其中 ti为真实值,pi为预测值。2 FPN 的基本结构如图 1 所示,在 YOLOX-Darknet53 中,C3 与 C4 分别是尺度为 8080 和 4040 的较浅层的 Feature map,而 C5是尺度为 2020 的深层特征,也是 Backbone 部分的最深特征层。3 对自注意力机制的优化3.1 整合 q q、k k、v v 的计算方式原始自注意力的计算方式是针对查询向量 q 与键向量 k 的相似度计算作为权重施加到值向量 v 上的,具体公式计算如下:attn1=v Softmax(q kT)(3)其中,为矩阵点乘。由于 q 与 k 的选取是固定的,本文认为这种方式可能会导致矩阵在初始化的时候限制了网络的训练方向,因此本文针对这种计算方式做出改动,具体如下所示:attn1=v Softmax(q kT)(4)attn2=k Softmax(q vT)(5)attn3=q Softmax(k vT)(6)attn=attn1+attn2+attn3(7)如上式,同时也使用 q 与 v 和 k 与 v 都进行相似度的计算,即,在一定程度上模糊了 q、k、v 的职能界限,在此基础上为每一组计算出来的结果分别施加可训练的权重、,这些权重初始值设定为 1/3,以此来约束后续的训练过程中每一组对最终结果的影响比重。本文对此项优化只是试探性尝试,经实验后发现,这种方式仅可以加快前期模型的收敛速度。3.2 约束自注意力的计算范围与此同时,本文还注意到,在目标检测任务中,大部图 1原 FPN 结构图62Artificial Intelligence人工智能电子技术应用 2023年 第49卷 第3期分待检测物体所占整体图像像素的比例不会超过 50%,因此自注意力机制的全局特征提取能力会在一些毫不相干的像素内容上被影响一部分,即这些没有内容关联的像素值也会占据 attn 的一部分。具体情况说明如图 2所示。假设某一特征点序列在 attn 矩阵中位置为 p1,其对应在特征图中的坐标假设为(x1,y1),以图 2 作举例说明,设定以该点为中心,r 为半径的正方形范围内是与该点有内容关联的特征点。则坐标(x2,y2)的特征点在attn 矩阵中的位置则为 p 2=p1+(h(x2-x1)+(y2-y1),即 maskp1,p2=1,其中 h 为特征图的分辨率大小,mask 矩阵为据每个特征点在以 r 为半径的正方形范围内特征点都进行了位置计算得到的掩盖矩阵,除了范围内的点外,其他点的 mask 值全部为 0,这样即可一定程度上消除距离过远的特征点相互之间在进行自注意力计算后对结果产生的影响。这种计算方式可以增