温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
YOLOv7
融合
图像
多目标
检测
方法
第 卷 第 期兵 器 装 备 工 程 学 报 年 月 收稿日期:修回日期:基金项目:国家自然科学基金项目()山西省基础研究计划资助项目()山西回国留学人员科研资助项目()作者简介:薛震()男博士副教授:.:./.基于改进 的融合图像多目标检测方法薛 震张亮亮刘 吉(.中北大学 数学学院太原 .中北大学 信息与通信工程学院太原)摘要:针对微光环境下目标检测精度较低的问题提出了一种基于改进 的微光与红外融合图像的多目标检测方法 结合可见光、红外图像的优点利用生成对抗网络法制作融合图像数据集 在 模型中引入 结构使网络更加关注整体图像信息提升特征提取能力从而提高行人和汽车检测的准确率并将回归损失函数由 改进为 降低自由度加速网络收敛得到了 的改进算法 在公开数据集 和 上进行了实验 结果表明:相比可见光或红外图像 对融合图像的检测精度较高改进算法对融合图像取得了.的平均精度均值较原始 模型提高了.算法在检测行人和汽车等目标时漏检和误检率较低具有较好的准确性和实时性可以满足微光环境下多目标探测的要求关键词:目标检测图像融合深度学习本文引用格式:薛震张亮亮刘吉.基于改进 的融合图像多目标检测方法.兵器装备工程学报():.:.():.中图分类号:文献标识码:文章编号:()(.):.().().()().:引言在微光环境下的军事侦察、遥感探测、野外救援和视频监控等任务中由于有效目标区域的丢失对图像融合、多尺度目标检测和图像到图像的转换等各种视觉任务都具有挑战性 在此情况下将可见光和红外图像进行融合可以提供丰富的纹理细节信息和有效的目标区域便于图像的识别检测 对融合图像进行多目标检测是指从融合后的图像数据中识别出行人和汽车等目标同时指出它们的位置和大小 传统的多目标检测算法多采用人工特征提取的方法主观性较强且特征单一难以用于微光等复杂环境下的多目标检测 而基于深度学习的多目标检测算法解决了传统方法需要人工提取特征的问题通过对大规模数据的自主学习借助深度卷积神经网络算法自行提取出目标物复杂多样的图像特征信息使其特征特异性减弱可同时适用于多种目标的检测提高了检测算法的有效性和稳定性其中以()系列 为代表的“一步法”在对目标的实时性检测方面有着卓越的表现近年来关于可见光与红外融合图像的目标检测已取得了一些研究成果 文献综述了已有的红外和可见光图像融合的 类方法(包括基于多尺度变换的、基于稀疏表示的、基于神经网络的、基于子空间的、混合方法等)及其在目标检测与识别、目标追踪、图像增强、遥感等方面的广泛应用文献提出了一种使用生成对抗网络融合()红外和可见光图像信息的方法结果表明该方法可以生成清晰的、干净的融合图像而不受红外信息上采样所引起的噪声的影响文献研究了可见光与红外图像融合目标检测问题提出了一种基于 的特征融合目标检测算法实验结果表明该算法对行人、汽车、摩托车、信号灯等多目标有较高的检测精度文献针对帧间差法检测融合图像目标时会出现背景噪声的问题在利用小波变换得到融合图像后将彩色参考图像与融合图像在 空间进行颜色传递提出了一种采用帧间差法和形态学相结合的运动目标检测方法文献通过引入()通道注意力模块、优化网络结构等策略提出了一种基于 和可见光与红外图像融合的行人检测方法本研究中以 算法框架为基础通过引入()结构改进损失函数提出了一种基于改进 的融合图像的多目标检测方法该方法使网络更加关注整体图像信息有利于网络提取特征从而提高微光环境下的行人和汽车检测的准确率 目标检测算法.算法 系列算法见证了深度学习时代目标检测算法的演化 目前 是 系列中最先进的算法在速度和精度上超越了、等目标检测算法 相同体量下比 快 在 的 上速度达到 达到.网络由输入()、主干网络()和头部()部分组成如图 所示 与 不同的是它将 层与 层合称为 层实际上功能未发生改变 各部分的功能与 相同如 用于提取特征 用于预测图 网络结构.薛 震等:基于改进 的融合图像多目标检测方法 的 由若干()层、高效层聚合网络()层和 层构成 由 层、若干 层、若干 层以及后续输出的重参数化结构 层等组成首先对输入的图片进行预处理对齐成 大小的 图片然后输入 网络中根据其输出在 层经过 和 输出三层不同大小的 最后得到预测结果.改进 算法.网络结构的改进自注意力机制为获取全局信息提供了新的思路使用它会使模型的参数减少避免了卷积神经网络参数堆叠造成的模型臃肿现象同时也可以提高精度在计算机视觉领域使用自注意力机制的一种方法是用多头自注意()层替换空间卷积层 是一个引入自注意力机制的概念简单但功能强大的主干架构广泛应用于图像分类、目标检测和实例分割等计算机视觉任务 块是 瓶颈块的改进模型将其最后 个 空间卷积层替换为(见图)以加强网络的特征识别能力且不会增加太大的计算量 将 模型中的 改进为 超参数不变在 实例分割基准集上的 比原来提升了.在实例分割和目标检测方面显著改善了基线同时还减少了参数从而使延迟最小化 本研究中将 结构引入 对其网络结构做了如下改进:首先在 中将 层之后和末端的 结构替换为 结构对输入的特征进行全局建模提高特征提取能力通过自注意力机制让网络更加关注全局性提取出更多不同的特征以区分行人、汽车和其他高亮目标的背景信息提高检测的准确率其次在 层中将全部 结构替换为 结构在减小参数量的同时更好地融合 提取的特征改进后参数量大小为.较原 模型的参数量减少了.得到改进模型 其网络结构如图 所示图 瓶颈块和 块的结构.图 网络结构.损失函数的改进损失函数的质量直接影响训练速度和探测器性能 包括回归损失()、置信度损失()和分类损失()等 种损失其中回归损失函数采用了()公式为:()()其中:和 分别表示预测框和真实框的中心点()表示这 个中心点间的欧氏距离 是同时包含预测框和真实框的最小外接矩形框的对角线的长度 用来衡量两个框宽高比的一致性 为权重函数且有:兵 器 装 备 工 程 学 报:/./()().().()其中:和 分别表示真实框的宽和高 和 分别表示预测框的宽和高、()和 等损失函数主要从预测框和真实框的重叠区域、距离和长宽比等三方面进行考虑而未考虑真实框与预测框之间不匹配的方向 该不足导致收敛速度变慢且效率较低因为预测框可能在训练过程中“四处游荡”难以收敛并最终产生更差的模型 为此文献重新定义了惩罚指标提出了()损失函数 损 失 包 括 角 度 损 失()、距 离 损 失()、形状损失()和 损失()部分 角度损失:()()()其中:()()()为两框中心点间的高度差()()为两框中心点间的距离 大于 时换成其余角 即从 轴上的角度考虑换成 轴、等参数的含义如图 所示图 角度损失计算示意图.在角度损失的基础上重新定义距离损失:()()其中:()()和 表示真实框和预测框的最小外接矩形框的宽和高形状损失:()()其中:()()表示网络对形状的注意力其值在 和 之间实验中接近 综上可得 损失函数为:()使用 损失函数替换 算法中的 损失函数考虑预测框与真实框之间的角度使用角度损失对两框间的距离重新进行描述降低自由度加速网络收敛从而提升预测精度 实验结果与分析.实验环境实验所采用的硬件和软件配置为:为 .为英伟达架构 为.版本为.深度学习框架采用搭建其版本为.操作系统采用.实验数据集为了验证本研究中所提出的 算法的有效性在公开数据集微光视觉下可见光红外图像对()和多光谱道路场景()上进行训练测试 包含 对图像其中大多数图像在非常黑暗的场景下拍摄所有图像在时间和空间上严格对齐 包含 对高质量的对齐图像对它删除了 数据集中 个未配准的图像对收集了已配准的 个夜间图像对和 个日间图像对利用图像增强算法优化了红外图像的对比度和信噪比融合图像由生成对抗网络融合()法得到它吸收了 种图像的优点既能保持红外图像的热辐射信息又能保持可见光图像的清晰外观纹理信息可以获得对于场景的全面准确的图像描述降低外界因素对多目标检测的影响适用于全天候全时段的目标检测任务 的架构主要包含生成器和判别器如图 所示图 的结构框架.在图 中生成器是包含 个卷积层、个批量归一化层、个漏式 激活函数和 个 激活函数的五层卷积神经网络判别器也是五层卷积神经网络它包含 个卷积层以提取输入的特征图、个线性层用于分类、个批量归一化层和 个漏式 激活函数 对抗过程中生成器在保留红外光热辐射信息的同时不断使融合图像中包含可薛 震等:基于改进 的融合图像多目标检测方法见光图像中更多、更丰富的纹理细节信息 训练时先将可见光图像与红外图像叠加在一起输入生成器再将生成器生成的融合图像与可见光图像一起输入判别器让其区分最后将判别结果反馈给生成器形成一个对抗的过程直至判别器无法区分融合图像与可见光图像时训练结束 在测试过程中使用已训练好的生成器去融合可见光与红外图像得到最终的融合图像可见光、红外、融合 种类型均包含 幅图像按照 比例将图像随机划分为训练集、验证集和测试集原始图像大小为 包含 数据增强但由于 数据集中汽车图片的数据较少属于不平衡数据所以利用 方法来增强汽车数据的数量将数据集扩充为 幅图像训练时的超参数为:初始学习率为.周期学习率为.权重衰减为.动量系数为.迭代轮次()为 训练批次为.评价指标本研究中采用精确率()、召回率()、平均精度()、平均精度均值()以及帧率()等指标来评价模型性能计算公式为:()()()()()()其中:()为真正例()为假正例()为假负例 为检测的类别数 是 曲线下的面积衡量算法对某类目标的检测精度()表示对第 类目标检测的 值 是各类 的算术平均值从整体上评估模型的检测性能该值越大模型的检测性能越好.表示 为.时的 是每秒钟处理的图像帧数用来评价目标检测模型的速度、和 为评价多目标检测算法准确性和实时性的常用指标.消融实验和算法性能对比为了验证本研究中所提出改进的有效性在数据集上开展了消融实验改进用“”表示未改进用“”表示 对融合图像进行检测结果如表 所示由表 可以得到如下结论:引入 结构时对行人和汽车的检测精度均有所提升.值提升了 速度提升了.将回归损失函数改进为 时.值提升了.速度细微提升 同时做这 种改进时对行人的检测精度提升了.对汽车的检测精度提升了.平均精度均值和检测速度较原始 分别提升了.和.表 算法消融实验 /./.为进一步证明改进算法的检测性能选取 、等主流算法进行性能比较实验使用相同的实验环境和训练超参数结果如表 所示表 算法与其他主流算法的性能比较 /./.由表 可以看出 算法的检测精度比、和 分 别 提 高 了、.、.、.算法的检测速度可以达到 分别为 、和 的.倍、.倍、.倍和.倍这说明改进算法的检测精度和速度比 等主流算法均有提升可以满足实时检测的要求使用 模型分别在可见光()、红外()和融合()图像上进行训练并绘制精度曲线进行定性比较分析 图 给出了 模型对 种类型图像检测的.对比 由图 可以看出 对融合图像检测的平均精度均值高于可见光和红外图像 这是因为融合图像可以进一步增强目标与背景信息之间的特征差异从而提升多目标检测的准确性.检测结果可视化分析为了直观比较 和 算法对可见光、红外和融合图像的检测效果从测试集中随机选择了一些图像进行实验验证 图 给出了在公开数据集 和 上行人和汽车目标的检测结果其中目标框上的数字表示置兵 器 装 备 工 程 学 报:/./信度从左到右三列分别表示对可见光、红外和融合图像的检测结果图 对三类图像检测的.对比.图 和 的检测结果对比.由图 可以看出使用 模型检测时存在漏检情况:比如图 ()中可见光图像漏检一个行人和汽车红外光图像漏检行人融合图像漏检一个行人图 ()中可见光图像漏检行人红外光图像漏检汽车 而相比 模型使用 模型检测时漏检情况在一定程度上得到改善:比如图()的 类图像均未出现漏检图()中仅可见光图像出现漏检 除漏检情况得以改善外改进模型的检测精度均比原始模型高 无论 模型还是 模型对融合图像检测效果最理想检测准确率比单独使用可见光或红外图像要高 综上所述对融合图像使用 模型进行多目标检测时有更好的效果 结论提出了一种基