温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
YOLO
MCA
图像
检测
算法
第 卷 第 期 年 月南昌工程学院学报 收稿日期:基金项目:国家自然科学基金资助项目()作者简介:李永健(),男,硕士生,通信作者:朱华生(),男,教授,硕士生导师,文章编号:()基于 的 光图像检测算法李永健,朱华生,何明智,唐树银,孙占鑫(南昌工程学院 信息工程学院,江西 南昌 )摘要:算法直接用于 光图像检测时存在提取特征不明显问题,特别是违禁物与安全物存在折叠交叉时,容易导致漏检、多检现象。为此本文提出一种 算法,该算法在 基础上,增加了一个多卷积融合坐标注意力机制分支模块,该模块通过多支路连通的方式增大感受野,注重位置信息提取,增强提取有效特征能力,可改善物体折叠交叉导致的漏检、多检问题。在 数据集上的实验结果表明,所提出的 算法的 达到 ,比原模型算法的精度更高;达到 ,满足实时检测需求。关键词:光图像检测;坐标注意力机制;多支路;感受野中图分类号:文献标志码:,(,):,:,;,:;目前的安检系统大多采用人工 光安检设备进行安检,这样的安检方式过分依赖安检人员的经验与集中度,且 光安检机输出图像显示时间短,输出图像内物体通常相互重叠遮掩,容易产生误判。利用深度学习中的目标检测或目标跟踪 等方法作为辅佐检测能更有效地降低误检率。近年来,目标检测算法也逐渐应用于 光检测当中,基于深度学习的 光检测算法可以分为基于 的两阶段算法和基于回归的一阶段算法。一阶段算法将检测问题转化成回归问题,减少参数量的同时保证精度,代表算法有 和 。目前,学者们将研究重心放在一阶段算法当中。张友康 等在 算法的基础上,通过非对称卷积多视野的神经网络提供局部与全局之间的上下文特征信息,改善了背景干扰问题,在多种不同检测难度的自制数据集中平均精度分别达到 、。郭瑞鸿 等同样对 算法进行改进,使用 作为主干网络,以反卷积上采样、跳跃连接的方式进行多尺度特征融合,增强浅层特征图的表征能力,在自制数据集中平均精度达到 。郭守向 等基于 算法,结合复合骨干网络,引入特征增强模块,增强特征的非线性表达能力,有效提升小目标的检测效果,在 数据集中平均精度达到 。穆思奇等 在 算法的基础上设计一种空洞密集卷积模块和加入注意力模块,在 数据集中平均精度达到 。吴海滨 等同样在 基础上加入空洞空间金字塔池化模块,增大网络感受野,有效降低了 光安检图像中危险违禁品的误检率,在 数据集中平均精度达到 。虽然以上网络的改进带来了精度的提升,但是考虑到硬件要求,以上改进网络均没有保证模型检测的实时性。年 团队发布了 ,其性能与 相当,但推理速度更快,且模型框架更便于工程部署。作为一种检测精确、速度快的检测算法,在大型开源数据集中中有优异的表现,但针对 光检测任务中存在许多较小物体折叠交叉现象,缺少共享空间位置信息编码,容易存在漏检、多检问题。本文提出了一个多卷积融合坐标注意力机制分支模块,构建一个新的 (嵌入 模块,)目标检测模型,满足对于重叠遮挡的 光图像的精准检测、定位和实时性要求。算法实现 算法总体结构本文构建的 模型算法流程由训练模块、检测模块两部分构成。如图 所示。图 算法流程模型训练将训练数据集通过网络结构进行训练,实现权重更新,获得最佳网络权重数据,通过检测模块保留置信度最高的预测框作为检测结果。训练模块训练数据集经过整体网络结构 ,通过损失函数,优化器对模型学习能力进行调整,反向迭代,更新网络参数,最终达到最优效果。结构针对 光违禁物检测速度、精度、设备成本要求,本文提出的 模型是以 轻量化模型为基准模型进行改进,并针对原模型 对物体之间存在相互折叠交叉导致识别效果不佳问题,本文提出的 模块能通过多支路的信息互通,并加入坐标注意力模块实现在同一个空间上捕获更多信息依赖关系,提高整体网络的特征提取能力,解决了原模型对于本文所使用的 光数据集特征提取能力不足的问题,从而改善重叠遮挡的违禁物检测效果。本文设计的 模型如图 所示,由三部分构成,分别是主干网络()、颈部网络()、检测网络()。图 网络结构图 网络由 ()、()、(改进空间金字塔池化层,)模块构成。为 个 最大池化层,通过级联方式实现最大池化层之间相互计算,增大感受野。目标特征分别有类别特征和位置特征两大类,类别特征代表目标所属类别,位置特征代表目标位置信息。其中,位置信息在低层特征显著,类别特征在高层特征显著,颈部网络借鉴特征金字塔网络(,)和路径聚合网络(,)通过上采样(模块)进行高低层信息融合;同时,添加 模块,能实现空间位第 期李永健,等:基于 的 光图像检测算法置信息编码的共享,进一步实现高、低层信息特征的融合,提高网络的特征提取能力。网络结构针对 光 下 物 品 遮 挡 严 重 问 题,以 及 原 模型缺乏共享空间位置信息编码,对于折叠遮挡目标特征提取能力不足,本文提出一个多卷积融合坐标注意力机制分支的 模块,如图 所示。用 模块代替颈部网络第 层卷积,通过多次卷积和连接,有效地提高了整体网络的特征提取能力,其模型如下式所示:(,),()式中,为输入特征;为第 支路输出特征;为第 支路输出特征;为第 支路输出特征。图 模块结构图针对 光处理后背景信息单一问题,如何有效抑制梯度消失,解决重叠物体目标特征不明显问题成为关键。在原 网络结构中,颈部网络第层为 卷积层,其主要目的是降低通道维度。因为输入图像尺寸设为 ,从主干网络出来后的特征图仅为 ,颈部网络第 层直接对通道进行降维处理会造成整体权重信息的丢失。针对信息丢失问题,本文提出增强特征提取的三卷积支路互通网络代替原卷积层网络,实现减少主要信息的丢失情况。三卷积支路互通网络结构如图 所示,信息从输入端进来,同一时间输入到 条分支当中,再借鉴 网络思想,将第 支路 的卷积得到的信息共享到第 支路 的卷积层中,第 支路形成两个 的卷积网络,等价于 个 的卷积层网络,且参数量减少,这样第 支路卷积信息不仅包含第 支路卷积信息,且在第 支路信息的基础上能更好地提取特征。同样,第 支路通过连接的方式将信息共享到第 支路的卷积中,第 支路卷积形成 个 的卷积,等价于一个 的卷积,增大其感受野;加入 ()层能进一步控制梯度爆炸,防止梯度消失和防止过拟合问题。卷积模型计算如下式所示:,()其中 表示输入通道数;表示输出通道数;为卷积核大小。网络结构本文还在改进的基础上添加了坐标注意力模块(,),构成 网络结构。网络结构图如图 所示,坐标注意力模块是一种将位置信息嵌入信道的方法,与 注意力模块 不同,利用全局自适应池化层在通道域上捕获全局信息,随后压缩并加权到特征通道上,忽略了对信道之间的信息编码;也与 注意力机制 不同,利用一个最大池化层和一个平均池化层对通道域信息整合,最后通过空间域,对信息整合和加权,忽略了信息远程依赖关系。而坐标注意力机制的基本流程是将信道分解为两个一维特征编码信息,分别沿着两个空间聚合特征,两方向聚合特征信息是为了能在同一个空间上捕获到更多信息依赖关系,同时在另一个空间方向上保持精确的位置信息。最终,输入的特征图信息会通过一对不同的空间方向信息进行编码,共享获取的信息。图 注意力模块结构图 模型表达式如下:,(),(,()()),()()()()(),()其中 为非线性激活函数,、分别为输入图像高、宽、通道数,为 模块和一个一维卷积结合体,为 函数。是轻量化的注意力模块,对计算开销造成微小影响,所以在 条支路的卷积后都添加了 注南昌工程学院学报 年意力机制,保证 条支路位置信息共享。通过实验发现,如图 的级联结构方式组成的 模块特征提取效果最佳。原因是经过第 支路 模块后,获取的空间方向信息更多,连接第 支路时能共享权值信息,在第 支路的空间方向信息基础上进行特征提取,以此类推,可以减少原本基础三支路的信息丢失。检测模块将训练好的目标任务权重作为检测所使用的权重,由于检测中会生成多个预测框,需要保留置信度最高的预测框。非极大值抑制(,)模块作为检测关键模块,抑制非最大的置信分数,只保留局部的极大值。如图 所示,图()为未经过 处理获取多个预测框,图 ()为经过 处理,最终保留一个最贴近真实框的预测框作为最终的检测结果。图 检测 实验与分析 实验数据 数据集 是 光违禁物的新型数据集。本次实验选取了 中 数据集的 张图片(物体的锚框重叠)构建 数据集,一共有 类违禁物,分别是 、,、。按照 的比例随机划分为训练集和验证集。训练集和验证集的数量分别为 和 。实验环境本文实验的设备 为 ,运行内存 ,显卡为 ,操作系统为 ,位。实验框架为 ,。实验分析 客观评价网络训练模型阶段,输入网络尺寸均为 ,迭代批量设置大小为 ,衰减系数为 ,初始学习率为 ,使用的优化器为 ,动量 设为 。训练损失由置信度损失()、分类概率损失()及边框回归损失(,其采用 损失函数 )构成。、的训练损失如图 所示,横坐标为训练次数 ,纵坐标为训练总损失值,其表达式如下式所示:()图 模型的训练损失图从训练损失中可以得出 的损失值比原模型的损失值低,说明本文嵌入的 模块对信息特征提取性能优于原模型。目标检测的常用评价标准是 ()。本文采用的是 评价标准,交并比()阈值为 ,步长为 的 ,其是衡量不同 阈值下的综合表现,以此更加准确、综合地评判网络的好坏。越高,说明模型高精度边界回归能力越强,检测框与真实框拟合更精准,代表结果更可信。此外,本文还采用每秒处理的图片数量()作为模型检测速度的评价指标,采用 张图片作为检测图片,计算得出平均每一张图片所使第 期李永健,等:基于 的 光图像检测算法用的实际检测时间 (前向传播时间、模型推理时间、时间之和),定义如下:()实验分别引入了 、种轻量化注意力模型。与原模型 对比,种注意力机制替换的位置一致,如表 所示。对比 组实验结果,可以发现 种注意力机制的计算量()大致相同,作为 种注意力机制中参数量()最低的模块,其 指标最高,且 指标不低于 和 。表 不同注意力机制实验数据 表 中列出本次实验数据集中包含的 类违禁物对应的 及本次实验的平均精度 。从表 中可以看出本文提出的模型 指标优于原模型,各类 基本优于原模型,且 在本次实验环境中能达到 ,足够满足检测的实时性。表 改进模型与原模型的数据对比 针对一阶段算法进行对比,实验使用不同版本的 算法进行比较,输入训练网络尺寸均为 ,和 算法模型参数量和计算量较大,且 不及 ;和 虽然在速度和模型大小都优于本实验模型,但 指标远不及本实验模型(表 )。表 各网络对比实验数据 主观评价在获取模型检测结果时,置信度阈值、交并比等参数设置均保持一致,分别为 和 。模型检测先进行一轮筛选,将预测分数低于置信度阈值的预测框去除(大幅度减少框的数量,减少后续计算),并取出预测分数最高的预测框,计算其与第一轮筛选后预测框的重合程度,重合程度大于 则剔除。检测的视觉效果如图 所示,其中,一个预测框的标签包括预测物体名称和预测分数。通过观察 、模型两组检测结果对比图(均有重叠物体的 光图像),发现在第组检测图像中,对比同一种违禁物,本文模型检测的预测分数皆高于原模型检测的预测分数;第 组检测图像对比,检测图中有 个真实违禁物,本文模型检测图像的预测框与真实框个数相同,而原模型出现多检情况;第 组检测图像对比,检测图中同样有 个真实违禁物,本文模型检测图像的预测框与真实框个数相同,而原模型出现漏检情况。综上所述,本文提出的 模型比原模型的预测分数高,且改善了多检、漏检问题。结论针对 光违禁物品的目标检测,在 模型基础上增加了 模块,通过多支路共享空间位置信息编码,增强对 光处理图的特征提取能力,改善多个物体折叠交叉所带来的多检、漏检问题。在 的数据集中验证表明,嵌入 模块后比 的 提升 。本文仅对 数据集中的 个类别违禁物品进行检测识别,但安检违禁物品远不止 类,在未来工作中,还需要完善数据库,进一步优化目标检测速度和精度,同时针对 光数据集,对其锚框进行研究,并结合实际应用,开发完整的界面系统,实现算法部署。南昌工程学院学报 年图 与 检测结果对比图参考文献:王军,尹鹏,章利民,等 基于孪生神经网络的目标跟踪算法综述 南昌工程学院学报,():,:,:,:,:张友康,苏志刚,张海刚,等 光安检图像多尺度违禁品检测 信号处理,():郭瑞鸿,张莉,杨莹,等 基于改进 的 光图像管制刀具检测与识别 激光与光电子学进展,():郭守向,张良 :基于单阶段网络的 光图像违禁品检测 激光与光电子学进展,():穆思奇,林进健,汪海泉,等 基于改进 的 射线图像违禁品检测算法 兵工学报,():吴海滨,魏喜盈,刘美红,等 结合空洞卷积和迁移学习改进 的 光安检危险品检测 中国光学,():,():,:,:,:,:,:():,:,:,():第 期李永健,等:基于 的 光图像检测算法