分享
基于三目注意力机制的高效轻量化麦穗检测算法_董燕.pdf
下载文档

ID:2573653

大小:2.02MB

页数:8页

格式:PDF

时间:2023-07-24

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 注意力 机制 高效 量化 麦穗 检测 算法 董燕
年月第 卷第期计算机工程与设计 基于三目注意力机制的高效轻量化麦穗检测算法董燕,刘运东,李卫杰,刘洲峰,李春雷(中原工学院 电子信息学院,河南 郑州 )摘要:针对复杂大田环境下基于卷积神经网络的麦穗检测方法实时性差、检测精度低的问题,提出一种基于三目注意力机制的高效轻量化麦穗检测算法。采用 作为主干网络对特征进行高效提取;通过融合通道、空间和位置的特征信息设计三目注意力机制,提升模型对关键特征的敏感度;基于条件卷积设计全局多头自注意力机制,增强全局特征的提取能力;选择 作为边框回归损失函数,增强遮挡及重叠目标的检测效果。实验结果表明,与其它优秀的算法相比,所提算法在减少模型容量的同时,提升了检测精度和速度。关键词:复杂场景;麦穗检测;深度学习;轻量化;三目注意力机制;全局多头自注意力机制;条件卷积中图法分类号:文献标识号:文章编号:():收稿日期:;修订日期:基金项目:国家自然科学基金项目(、);河南高校科技创新团队基金项目()作者简介:董燕(),女,河南兰考人,硕士,副教授,研究方向为计算机视觉;刘运东(),男,河南驻马店人,硕士研究生,研究方向为图像处理与目标检测;李卫杰(),女,河南周口人,硕士研究生,研究方向为信息处理;刘洲峰(),男,河南新乡人,博士,教授,研究方向为图像处理与模式识别;通讯作者:李春雷(),男,河南周口人,博士,教授,会员,研究方向为计算机视觉。:,(,):,:;引言传统的人工田间调查方法耗时费力,且难以大面积准确的进行产量估计,严重限制了其在选种育种、病虫害防治、基因性状表达和田间管理等方面的应用。近年来,利用深度学习技术对小麦进行麦穗检测受到广泛关注,已经成为该领域的研究热点。深度学习技术应用到麦穗检测任务中,不仅可以提高检测效率,还有助于推动高科技农业的发展和进步。目前,已有相关学者将其成功应用于麦穗检测任务当中。等采用 ()实现对麦穗的正确检测,模型精度达到 ;等利 用 ()进行麦穗检测,该方法对成熟阶段的麦穗显示第 卷第期董燕,刘运东,李卫杰,等:基于三目注意力机制的高效轻量化麦穗检测算法出很好的鲁棒性;郝王丽等基于 ()模型提出改进的小麦检测方法,在自建的数据集上检测精度达到 。谢元澄等基于 (:)网络模型,通过引入特征金字塔网络提升麦穗特征的表征能力,进而实现对麦穗的正确检测,最后基于圆形 ()纹理特征及()分类器对麦穗检出结果进行复验。尽管上述基于深度神经网络的麦穗检测方法取得了很大的进展,但是这些检测方法并没有在检测速度、检测精度和模型容量方面取得很好的平衡。本文以 ()算法框架为基础,提出一种基于三目注意力机制的高效轻量化麦穗检测算法 ()。首 先 采 用 ()作为主干网络,降低模型容量和复杂度;然后,分别在通道维度、空间维度以 及特征图的任意两个位置之间引入注意力机制,提升模型对重叠麦穗 的 检 测 精 度;同 时 采 用 多 头 自 注 意 力 机 制,使目标建立远距离依赖关 系,突出麦穗 目 标 特 征;最 后使用 ()损 失 代 替 原 来 的 ()损 失,提 高 模 型 的收敛能力,加快网络模型的训练 速度,提升预测 框 的回归准确度。提出算法针对麦穗检测中存在的背景复杂,目标密集且有较多重叠,导致现有方法检测精度不高的问题。本文基于三目注意力机制提出一种高效轻量化的麦穗检测方法 ,的整体结构如图所示。该算法采用 作为主干网络提取特征,生成 这个特征层,其中选取、这个有效特征层来构建、这种不同尺度的检测层,分别对应检测小尺度、中等尺度及大尺度的麦穗目标。同时,基于条件卷积设计多头 自 注 意 力(,)模块,提升对上下文全局特征的获取能力,并设计三重注意力(,)模块,在降低模型容量和复杂度的同时,提升麦穗特征表示能力。为了丰富特征信息以及加强信息交流,利用自上而下的路径与主干网络特征图进行融合,实现强语义特征信息传递,再采用自下而上的路径实现强定位特征信息传递。最后,采用 作为边界框回归损失函数,综合考虑目标与先验框之间的距离、重叠率、尺度差异以及惩罚因子,进而提升遮挡及重叠目标的检测效果。图 网络结构 骨干网络 检测模型采用具有较强特征提取能力的 作为主干网络,但是该网络结构相对复杂,并且随着残差单元个数和网络通道数的增加,导致网络模型参数量过大,从而影响在移动或嵌入式设备上的部署。是用于计算和功率受限设备上的高效卷积神经网计算机工程与设计 年络,具有模型容量小、精度高的特点,因此本文采用 作为特征提取主干网络,具体网络结构见表,第四列代表是否使用()注意力机制;第五列代表激活函数类型,“”代表 激活函数,“”代表 激活函数。表骨干网络结构输入尺寸类型 步长 ,为了能够有效利用高层的语义特征和低层的纹理特征,提升对不同尺寸目标的表征能力,选取第个 ()模块的输出层为 层,取第 个 模块的输出为 层,取第 个 模块的输出为 层,然后分别构建、和 这个不同尺度的检测层,对应大、中、小尺寸的麦穗检测,从而提升检测的准确性和鲁棒性。三目注意力机制由于农田场景复杂且多变,深度网络难以有效表征有用的目标信息,造成检测精度不高。注意力机制通过建模人类视觉感知机制,使网络有效提取关键信息,并抑制无关冗余信息,被广泛应用于 深度 学习模 型 中。本 文 借 鉴 ()的思想,认为可以通过融合通道、空间和位置信息建立三分支结构来计算注意力权重,再将得到的新特征图进行对应元素的求和取平均。三目注意力机制的网络结构如图所示,图中代表特征图的通道数,和 分别代表通道的高和宽,代表像素的数量。通道注意力模块 ()主要用于衡量通道的重要性,从而有利于通道信息的选择。图三重注意力()网络结构该模块首先通过全局平均池化来获得未降维的特征信息,然后通过尺寸为的一维卷积来获取本地的跨通道交互信息,再经过 激活函数得到通道维度上的权重系数。最后与原输入特征图相乘得到新特征图。空间 注 意 力 模 块()主要用于突出特征图中目标所在位置的特征信息。该模块首先对输入特征图进行最大池化和平均池化,并在通道上完成拼接,然后经过卷积和 激活得到空间维度上的权重系数。最后与原输入特征图相乘得到新特征图。位置注意力模块()主要用于捕获特征图任意两个位置之间的空间依赖。该模块首先通过卷积层获取个特征图 ,然后将特征图 和 进行转置相乘得到原特征图两个位置点的关系强度,再与特征图 相乘得到新特征图。最后再与原输入特征图进行相加计算。全局多头自注意力机制由于在复杂麦田场景中,麦穗受到杂草、麦叶等因素干扰,背景纹理复杂。仅利用局部特征信息进行检测,易造成误判和漏检。利用全局上下文信息可使目标建立远距离的依赖,从而从整体图像角度来抑制复杂背景,突出麦穗目标区域。因此,全局特征的提取对于麦穗检测至关重要。卷积神经网络通过卷积核逐层抽取高级特征,但由于其更多关注局部信息的聚合,对上下文全局信息的提取能力不足,全局自注意力机制则可以通过全局相关性的计算捕获下文全局信息。因此,本文选用 ()捕获全局特征。第 卷第期董燕,刘运东,李卫杰,等:基于三目注意力机制的高效轻量化麦穗检测算法但是,自注意力机制所需要的内存和计算量是空间维度上的二次方,当使用高分辨率的图片进行训练时,自注意力机制需要占用较大的资源空间。本文受 ()的启发,基于多头自注意力 设计了一种全局特征提取模块,网络结构如图所示。首先将特征层划分为两部分,上支路采用 ()、层以及 激活函数提取局部深度细化特征信息,下支路采用动态卷积抽取大尺度图像的特征信息并降低特征图分辨率,然后引入多头自注意力机制处理和汇总特征图中包含的麦穗信息,从而提升麦穗图像的表征能力。最后使用跨阶段层次结构将两条支路合并,使得网络能够实现更丰富的梯度组合信息。多头自注意力 层是 模块的核心单元,主要捕获特征的内部相关性,提升全局的表征能力,具体如图所示。其中 代表特征图的通道数,和 分别代表通道的高和宽,分别表示查询、键、值和位置编码,和表示高度和宽度的相对位置编码。将位置编码当成空间注意力来处理,嵌入两个可学习的向量可以看成是横纵两个维度的空间注意力,然后将相加融合图模块网络结构后的空间向量与相乘得到 ,并将 和 逐元素相加融合,最后与相乘得到空间敏感的相似性图,从而使得该模块关注麦穗目标区域,提升网络收敛速度。图 网络结构深度卷积神经网络性能的提升依赖于模型的大小和容量。通常可以通过加大模型的宽度、深度以及通道数来提升模型的容量,但这不可避免的加大了模型的计算量和实际部署的难度。旨在网络结构与计算消耗中找到一个平衡,在不增加网络的深度或宽度情况下增加模型的特征表达能力。根据输入图像自适应的调整卷积的参数,在每层设置多个尺度和通道数相同的卷积核,并通过各自的注意力权重进行动态聚合,从而得到该层的卷积核参数。由于卷积核参数仅需计算一次,相比卷积计算,这些额外的计算量可以忽略。可以为每个样本学习一个特定的卷积核参数,通过替换标准卷积,可以提升模型的尺寸与容量,同时保持高效推理。损失函数重叠度(,)是目标检测中判断预测框准确度的常用指标,用于衡量预测框与真值框重叠区的相对大小,计算公式为 ()式中:和分别表示预测边界框和真实边界框。当预测框与真实框没有重叠的时候,值变为零,此时损失函数不可导,无法进行学习训练。同时,无法精确反映和的位置关系。如图所示,种情况 值都相等,但是重合度不同。损失函数通过加入包含预测框和真实框的最小计算机工程与设计 年图种不同的 重叠方式矩形框来解决两框之间没有重叠的问题。计算公式为 ()式中:和分别表示预测框和真实框,是和的最小包围框。然而,当预测框和真值框之间存在包含关系时,损失便会退化为普通的 损失。另外,当预测框和真实框在水平方向和垂直方向且距离比较远时,会消耗大量的时间 在 预 测 框 尝 试 与 真 实 框 接 触 上,影 响 损 失 的 收 敛速度。在 损失函数的基础上,损失函数引入预测框宽高比的尺度信息,并且将预测框与真值框的中心点距离加入损失计算,从而提升收敛速度和求解精度。具体计算如下 (,)()式中:、分别代表预测框和真实框的中心点位置,代表两个中心点的欧氏距离,代表能够同时包含预测框和真实框的最小包围框的对角线距离;是惩罚项的参数,是用来度量宽高比的相似性计算如下 ()()()式中:和 分别代表目标实际的宽度和高度,和分别表示预测目标的宽度和高度。在麦穗检测任务中,由于麦穗密集且重叠度较高,原始 采用 损失函数作为边界回归损失函数难以有效检测。不仅考虑预测框和真值框的重叠面积和中心点距离,还将预测框长和宽的比值作为惩罚项,从而使预测框的回归效果更加稳定。因此,选择优化更好的 作为边界回归损失函数。实验与分析 数据集为了验证所提算法的有效性,本文选用全球小麦麦穗检测数据集(,)进行实验。该数据集于 年至 年由个机构在 个不同地点进行收集,涵盖了来自欧洲、北美、澳大利亚和亚洲的基因型,这些多样性使得图像具有广泛的特性,有助于训练深度学习模型,增强模型的普适性。数据集共有 张图像,尺寸为 像素,每张图像含有 个麦穗,部分代表性图像如图所示。图来自不同子数据集的麦穗图像 评价指标本研 究 采 用 平 均 精 度 均 值(,)作为性能评价指标,值越大神经网络模型效果就越好,的 定 义 可 以 参 考 文 献 ,其 由 查 准 率()和召回率()组成。查准率和召回率的公式可表达为 ()()式中:表示正样本类被检索,表示负样本被判定为正样本,表示正样本被判定为负样本。的计算公式如下()()式中,为 关 于 查 准 率()和 召 回 率()的积分。可以观察 曲线围成的面积来评估一个分类器的性能。本文所指的 值均为预测框与真值框的 大于等于 情况下准确预测的概率()。代表平均每秒检测的图像数量,用于衡量模型的检测速度。训练细节本研究使用的服务器型号为 ,型号为 ,编 程 语 言 为 ,深 度 学 习 框 架 为 ,版本 ,版本 。第 卷第期董燕,刘运东,李卫杰,等:基于三目注意力机制的高效轻量化麦穗检测算法在 训 练 之 前,随机将 张 麦 穗 图 片 作为 训

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开