分享
基于可变形上下文感知网络的多尺度仪表检测_何永春.pdf
下载文档

ID:2372503

大小:1.66MB

页数:9页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 变形 上下文 感知 网络 尺度 仪表 检测 永春
第 卷第 期重庆邮电大学学报(自然科学版)年 月 ():基于可变形上下文感知网络的多尺度仪表检测收稿日期:修订日期:通讯作者:何永春 基金项目:国网内蒙古东部电力有限公司科技项目():,()何永春,申永伟,吴 涛,陈淑波,费 丹(国网内蒙古东部电力有限公司 兴安供电公司,内蒙古 乌兰浩特;北京交通大学 轨道交通控制与安全国家重点实验室,北京)摘 要:针对复杂背景下多尺度仪表设备检测面临较大挑战的问题,提出一种基于可变形上下文感知网络的仪表检测方法。针对工业环境干扰较多、小目标容易漏检的问题,设计了一种新颖的特征金字塔结构;通过引入可变形上下文信息、自适应扩展感受野,多尺度层级的空间和语义信息得到充分利用,有效提升检测效果并降低虚警率;对通用的检测头进行改进,预测额外的定位置信度来抑制低质量的检测框,使得目标框的回归更加精准。基于构建的仪表检测数据集验证了提出方法的有效性。实验结果表明,相比于基准网络,提出的方法在检测效果上有显著的提升。关键词:仪表检测;卷积神经网络;多尺度目标;可变形上下文感知网络中图分类号:,文献标志码:文章编号:(),(,;,):,:;引 言随着变电站智能化技术的不断发展,许多场合致力于实现无人值守的运行模式。调度中心通过实时监看前端采集的环境数据等信息,进行远程的监控,并对突发情况做出及时的处理。变电站中存在大量的电力仪表,其中指针式仪表因其制造成本低、容易维护等特点,被广泛用于电力设备监测。由于现有的监测技术有限,因而需要采用人工方式进行巡检。为了降低人工成本、减少主观因素的干扰,智能化的仪表检测技术成为新的研究热点。实际应用中,仪表检测主要存在以下几点困难:其一,工业环境复杂,传统仪表检测技术难以应对干扰严重的环境(例如雨、雪、雾、强光等);其二,仪表数量众多、外观差异较大且分布不固定,难以进行高效且精准的检测;其三,前端获取的图像质量受到拍摄角度、距离、环境等因素的影响,仪表设备存在较大的尺度、成像差异,容易出现漏检、误检等问题。因此,研究和发展适用于复杂场景的多尺度仪表智能化检测技术具有重要的学术意义和应用价值。传统仪表检测主要基于人工设计特征的方法。文献提出一种基于模板匹配和霍夫圆检测的方式,将预先定义的仪表模板与图像进行匹配获取目标大致位置,再通过霍夫圆检测获得表盘位置及中心坐标。文献提出一种图像增强算法滤除图像噪声干扰,并利用基于形态学和边缘检测的方式来提取目标。文献结合仪表的结构特性,利用尺度不变特征变换特征对目标进行定位。这些方法对于特定场景而言具有较好的适应性,然而对于复杂的工业场景来说仍然存在较多的问题。特别是在干扰较强、仪表几何纹理特征不明显的情况下,算法泛化能力较弱,难以对多尺度仪表设备进行高效的定位。近年来,深度学习技术发展迅速,神经网络被成功应用于计算机视觉领域并成为目标检测任务的主流方法。由于具有强大的特征提取和表征能力,卷 积 神 经 网 络(,)逐渐代替传统仪表检测算法并取得了卓越的成效。文献在 方法基础上,修正网络因上采样导致的关键点偏差,从而提升了仪表设备定位精度。文献针对小目标检测问题在 网络上进行改进,加入多尺度特征金字塔结构丰富底层特征的语义信息,使用 损失函数使得仪表边界框回归更加高效。文献提出一种改进的 仪表检测算法,对主干网络、先验框聚类等进行提升,检测精度和速度达到了较好的平衡。虽然现有方法一定程度上提升了仪表检测性能,但是对于复杂的工业场景来说,多尺度的仪表检测效果仍然不够理想,漏检、误检情况较多,且泛化能力较差。针对以上问题,本文提出了一种基于可变形上下文感知网络(,)的多尺度仪表检测算法。主要工作及创新点如下:设计了一种新颖的多尺度特征金字塔结构。通过引入可变形上下文信息,对感受野进行自适应调整。提出动态特征融合机制充分利用目标的空间及语义信息,有效提升多尺度目标的检测效果并降低虚警率。对网络中通用的检测头进行改进。为了抑制特征图上预测不准的低质量检测框,引入额外的定位分支,加强多任务之间的联系,使得模型对仪表设备的定位更加精准。算法介绍本文提出的仪表检测网络结构如图 所示,其中主要包括 个部分:主干网络,用于特征提取;金字塔结构,用于多尺度特征融合;检测头,输出最终结果。考虑到一般场景中仪表数量较少,基于锚框的网络会造成大量计算冗余,本文采用基于密集预测的无锚框网络作为基准网络。在此基础上,设计了可变形上下文感知的金字塔(,)结构,对语义及空间特征进行自适应选择。此外,本文对多任务检测头进行改进,目的是得到更加精准的检测框。基准网络基于密集预测的无锚框网络采用通用范式,即在特征金字塔后连接两个任务相关的子网络。本文采用 作为基准网络,去掉原有特征金字塔结构最顶层,如图 所示。特征金字塔是连接在主干网络后具有横向连接的自上而下的结构,顶层特征图分辨率较小、语义信息丰富,低层特征图分辨率较高、空间细节信息丰富。本实验使用 作为主干网络,根据网络中各层特征图的尺寸大小将其分为 个阶段,最后 个阶段的输出定义为(,),对应的特征金字塔各层输出定义为(,)。其中,()()(,);是输入图像大小;是通道维数,;重 庆 邮 电 大 学 学 报(自然科学版)第 卷是下采样率。检测头中包含两个任务分支,其中一个分支用于在特征图每个像素上预测物体存在的概率,另一个分支用于预测编码后的边界框。每个分支含有 个 卷积层及 个 卷积层。图 仪表检测网络结构图 本文采用与 相同的训练策略,物体边界框被编码为一个 维向量来描述特征图上像素点到目标框边界的相对距离。如果某个像素点在真值框内,则该点被视为正样本点,否则记为负样本点。实验中,分类分支采用交叉熵损失函数,回归分支采用交并比(,)损失函数。可变形上下文感知金字塔结构仪表的背景环境较为复杂,存在变电箱、管道等物体的干扰,复杂场景下的仪表检测任务较为困难,容易出现漏警、虚警等问题。通常情况下,目标周围环境可以提供更多的语义信息来对物体进行鉴别。为了更有效利用物体的上下文信息,本文在原特征金字塔的基础上设计 结构,对不同尺度目标的空间及语义特征进行自适应选择,结构如图 所示。图 网络结构图 图 中,第 层融合后的特征定义为(,)()(),主干网络特征 经过 卷积后的输出定义为 (,)()(),和 表示第 个通道维数的特征。对 进行上采样,并与 相加得()()()式中,通过可变形上下文(,)提取器后得到()()。提取模第 期 何永春,等:基于可变形上下文感知网络的多尺度仪表检测块结构如图 所示。图 中,输入特征先通过 卷积预测空间采样点的偏移量,然后送入可变形卷积自适应调整感受野的大小。后续对提取特征的全局上下文信息进行建模。对于输出特征图上任意位置,有 ()()()式中:为全局注意力池化的权值,用来聚合所有位置特征以获得全局上下文信息;为可学习参数;和 用于捕获通道之间的依赖关系。特征 通过全局平均池化得到通道加权向量。后续的多层感知机变体用于指导特征自适应选择。具体而言,全连接层 先被用于生成中间向量 (为维度压缩率,默认为);然后,两个分开的全连接层 和 用于增加中间向量的维度,输出分别记为(,)和(,)。通过 操作可以得到 ,()()式中,和 是相对于候选特征 和 的第 个通道维度的权重。通过通道加权融合可以得到图 提取模块结构图 最终输出为(,)()()()()多任务检测头传统的非极大值抑制(,)算法中,所有的检测结果都是根据分类置信度进行排序的,忽略了定位置信度。换言之,具有低分类置信度高 的检测框会被具有高分类置信度低 的检测框抑制。文献引入了 的概念,以降低靠近目标边界位置的权重。虽然此方法可以抑制一些远离目标中心位置预测的低质量检测框,但是仍然没有考虑到分类和回归任务之间的联系。针对此问题,本文对网络的检测头进行了改进,引入额外的 预测分支用于指导检测框的选择。如图 所示,本文引入的 预测分支同样包含 个 卷积层及 个 卷积层,用来预测回归框和真值框之间的。分数可以看作是一种定位置信度,有助于自适应降低不准确边界框的权重。网络将分类和回归的特征相加后通过 卷积层与 分支特征进行融合,用于后续预测。在推理过程中,最终的检测置信度通过将分类分数与 分数相乘来得出。实验与结果分析 数据集及参数设置本实验采用开源及项目提供的不同电力场景仪表数据构建数据集来验证提出方法的有效性。该数据集一共包含 张图像,不同背景下的多种样式仪表共计 个。本文按照 的比例将数据集随机划分为训练集、验证集和测试集。实验中,采用随机尺度、平移、颜色变换等数据增强的方式,所有图像的尺寸调整为 像素作为检测器的输入。本文使用在 数据集上预训练的 网络权重对主干网络进行初始化。特征金字塔和检测头中的卷积层采用与 相同的初始化方式。模型采用随机梯度下降法(,)训练 轮,批处理量设置为。初始学习率为,并在第 轮时下降为原来的十分 重 庆 邮 电 大 学 学 报(自然科学版)第 卷之一。所有实验基于 实现,并使用 进行运算。评价指标为了评估模型的仪表检测效果,本文采用召回率()、精度()、值及平均精度(,)作为评价指标,召回率和精度计算公式为 ()()()()式中,、分别代表正确检测的目标数量、虚警数量以及未检测到的目标数量。通常情况下,当检测框与真值框的 大于 时,该检测框被视为正确的。多个检测框匹配到同一个真值框时,具有最高检测置信度的被视为正确检测结果。值是召回率和精度的调和平均值,定义为 ()指标用于评估检测器的综合性能,定义为一组召回率 ,下对应的平均精度,计算公式为 ()由于 一般情况下是在 阈值为 时计算得到的,因此,将其表示为。除此之外,本文还使用了更加严格的 阈值,即,此时的 指标记为,其可以更好地评估检测框的质量并反映定位准确性。实验结果及分析本文在基准网络之上进行了两方面的改进:构建 结构;在检测头中添加 预测分支。为验证每种改进对网络性能的影响,本文进行了消融实验。所有对比实验使用相同模型参数设置,实验结果如表 所示。由表 可以看出,相比于基准网络,每种改进都有一定程度的提升,同时单张图像推理时间只略有增加。的 提高了 ,相应的精度召回率(,)曲线对比如图 所示。提升了,这意味着预测的检测框更加精准。表 不同改进对所提出方法的影响 方法 预测召回率 精度 推理时间 图 本文方法与基准网络的 曲线对比 与基准网络相比,本文提出的 结构在和 指标上分别提升 和 ,二者的检测结果对比如图 所示。基准网络对仪表周围几何特征相近的物体容易误判,而且在光照、天气不好的场景,会出现小目标漏检的情况。相比之下,结构能够有效提升复杂场景下的多尺度仪表检测效果,降低虚警率,且受光照、天气、背景环境等因素影响较小,鲁棒性更高。整体检测性能明显提升的主要原因是,通过引入可变形上下文信息,自适应地增大感受野能够捕获长距离依赖关系,这种动态结构充分利用了多尺度特征层级的空间和语义信息。从表 可以看出,检测头中引入 预测分支,在 指标上可以带来 的显著提升,这意味着模型可以实现更高的定位精度。图 展示了改进检测头的效果。图 显示,改进后的检测头可以第 期 何永春,等:基于可变形上下文感知网络的多尺度仪表检测更加精确地定位仪表的边界。中引入 分支来提升定位效果,如表 所示,本文的 分支能够更好地抑制一些低质量的检测框,模型的整体性能更佳。图 的效果 图 改进检测头效果 表 不同检测算法性能对比 方法召回率 精度 推理时间 本文将提出的方法与近期经典检测算法进行了对比,实验结果如表 所示。表 中,、和 是有锚框检测算法代表,和 是无锚框 重 庆 邮 电 大 学 学 报(自然科学版)第 卷检测算法代表。由表 可以看出,本文方法在所有指标上均取得了最优的效果。图 为本文方法和 、算法检测效果对比图。方法在光线较暗的情况下存在漏检的问题,此外仪表附近几何形状相似的物体易被误判,部分目标边界框回归不够准确。方法虽然指标相较于其他算法有所提升,但是也存在小目标漏检的问题。相比之下,本文提出的方法在复杂场景下能够取得较优的检测效果。本文对不同方法进行了

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开