温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
特征
相似性
学习
抛洒
检测
方法
郭恩强
第 51 卷 第 6 期2023 年 6 月Vol.51 No.6June 2023华 南 理 工 大 学 学 报(自 然 科 学 版)Journal of South China University of Technology(Natural Science Edition)基于特征相似性学习的抛洒物检测方法郭恩强 符锌砂(华南理工大学 土木与交通学院,广东 广州 510640)摘要:针对当前以目标检测为核心的抛洒物检测算法无法识别“未知类别”的缺陷,以抛洒物引发外观特征变化的视角切入,提出基于特征相似性学习的抛洒物检测方法。首先,在抛洒物体过程中采集参考图像和待检图像,通过参数共享的孪生卷积神经网络得到两张图像的外观特征,然后利用欧式距离等特征相似性函数计算图像区域之间的特征变化并得到欧式距离热力图,最后经阈值筛选得到抛洒物检测结果。为了提升算法对光照等噪声的抗干扰能力,提出全新的注意力掩膜单元,并通过构建长跨度上下文信息和强监督学习的方式提升注意力掩膜的语义判别性能,引导特征响应聚焦于抛洒物引起的外观变化,同时忽略噪声产生的扰动,最终解决噪声干扰和抛洒物产生的特征缠绕问题。为了验证方法的有效性,本研究在真实高速公路场景下进行视频影像数据采集、标注、构建成标准数据集。结果表明:注意力掩膜单元有效提升了特征的语义判别性能,大幅度提高抛洒物检测精度,其中调和均值F1提高6.4个百分点,同时算法运行速度稳定在30帧/s,满足实时性需求;利用特征序列状态转移方式构建的长跨度上下文信息更有利于注意力掩膜聚焦抛洒物特征信息,抗噪声干扰能力更强;通过强监督学习得到的注意力掩膜轮廓更为准确,模型精度更高。关键词:抛洒物识别;深度学习;特征相似性学习;注意力机制;上下文信息中图分类号:U495文章编号:1000-565X(2023)06-0030-12抛洒物因可预见性差、事故危害大、二次事故诱发几率高等特点成为了影响交通安全的突出隐患1,已引起交通从业人员的广泛关注。于此同时,随着图像处理技术的日益成熟,以图像处理算法为核心的视频交通事件监控让抛洒物的实时预警和快速处理成为了可能,这不仅有利于维护交通的稳定通畅,而且能有效保障人民的生命财产安全使之不受威胁。传统基于图像处理的抛洒物检测算法通常采用图像差分的方式,其核心思想是将抛洒区域视为前景,非抛洒区域设定为背景,通过帧间区域的变化对比实现抛洒物识别。在此背景下,李清瑶、Din、Zeng 等2-4提出背景差分和帧间差分融合的方法,先利用像素区域的帧间变化获取目标前景,再根据前景的运动轨迹或运动状态完成抛洒物确认。为了增强算法对复杂环境的抗干扰能力,夏莹杰、Fu等5-6提出了基于高斯混合模型的动态背景建模方法,进行背景快速迭代,以达到适应环境快速变化的目的。汪贵平等7将抑制车辆阴影算法融入至前景检测,降低因阴影产生的抛洒物误报。上述方法在单一噪声下取得不错的效果,但受限于底层特征孱弱的表达能力,传统方法很难应对多种噪声干doi:10.12141/j.issn.1000-565X.220604收稿日期:20220915基金项目:国家自然科学基金资助项目(51778242,51978283)Foundation items:Supported by the National Natural Science Foundation of China(51778242,51978283)作者简介:郭恩强(1990-),男,博士,主要从事智能交通系统研究。E-mail:第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测方法扰(例如光线突然变化、雨水反光、树叶晃动等),导致算法泛化性能差,容易产生虚警误报。近年来,深度学习在计算机视觉领域取得重大突破,该算法借助于强大的特征表达能力,将图像分类、目标检测等算法性能指标推向前所未有的高度。在此背景下,研究人员尝试采用目标检测算法对抛洒物进行识别。其中,金瑶等8对YOLOV3模型进行多尺寸模块改造,实现对石头、木块、落叶等抛洒物体识别;章悦等9利用CenterMask模型对石块、废弃纸盒等4类抛洒物进行定位和识别。借助于主流目标检测算法的优良性能,此类方法在特定的抛洒物类别识别上达到了非常高的精度。但该方法依旧存在应用的局限性,其中最突出的问题在于方法和应用场景之间存在天然的矛盾:一方面,交通场景的开放性和不确定性决定了抛洒物测试数据是开集合,并且类别数不可穷举;另一方面,主流目标检测算法只能识别训练数据涵盖的类别,当场景出现训练数据不存在的类别时,该方法无法识别“新类别”。如何突破方法的局限,将深度学习更好地应用于抛洒物检测是值得探究的问题。遵循基于图像差分的抛洒物检测方法的核心思想,抛洒物的出现必然会导致参考图像与待检图像之间产生外观差异,因此如何更准确地度量图像之间差异是解决该任务的关键。近几年,特征相似性学习广泛应用于人脸验证、图片匹配、变化检测等计算机视觉任务,此类方法通过孪生卷积神经网络将两张图像从样本空间映射至特征空间形成特征对,然后通过计算特征对的欧式距离等度量指标量化图像区域的相似程度。以特征相似性学习的视角重新审视抛洒物检测任务,首先将抛洒物区域定义为外观特征不相似,背景区域定义为外观特征相似,然后通过识别特征不相似的区域完成抛洒物定位。不难看出,基于特征相似性学习的抛洒物检测方法巧妙地将抛洒物检测问题转化为局部特征是否相似的二分类决策任务,可有效推广到“未知”类别的抛洒物识别,避免了基于目标检测方法的类别局限。在此基础上,复杂多变外界环境产生的噪声干扰(光照变化、车辆快速运动等)与抛洒物产生特征缠绕依旧是亟需解决的难题。针对这一问题,本研究在特征相似性学习的基础框架下加入了注意力掩膜单元,目的是利用注意力掩膜排除背景区域的噪声干扰,引导特征响应聚焦于抛洒物引起的变化,同时忽视噪声产生的扰动,进而提升特征的语义表达性能。为进一步加强注意力掩膜对抛洒物和噪声干扰的语义判别性能,本研究还提出利用特征序列状态转移的方式构建长跨度上下文信息以及强监督的学习方法,实验证明该方法有效提升了抛洒物检测率。综上所述,针对训练数据闭合性、类别有限与真实场景开放性、类别不可穷举之间的矛盾,本研究提出了基于特征相似性学习的抛洒物检测框架。在此基础上,本研究融入了全新的注意力掩膜单元,并通过构建长跨度上下文信息和强监督学习的方式提升注意力掩膜的语义判别性能,引导特征响应聚焦于抛洒物区域,有效解决了光照变化等噪声干扰与抛洒物在特征空间的缠绕问题。本研究通过精度指标对比证明该方法有效提升了特征语义判别性能,确保算法在复杂场景下依旧具有较强的抗噪声干扰能力。1抛洒物检测算法1.1算法基础框架本研究的算法检测思路如下:首先对实时视频流按照K帧间隔(本研究将K设置为16)进行图像对采集,将当前帧(记为T1时刻图像)设定为待检图像XT1,前K帧(记为T0时刻图像)设定为参考图像XT0,然后对待检图像和参考图像进行逐区域比较。假如帧间有物体抛出,那么待检图像和参考图像之间一定存在外观特征的差异,可通过识别外观差异完成抛洒物检测。可以看出,准确量化外观特征差异是识别抛洒物的关键。为了准确描述外观特征之间的差异,本研究提出了基于特征相似性学习的抛洒物检测基础框架(Dropped Objcet Detection Network,以 下 简 称 为DODNet)。如图 1所示,DODNet主要包括基于孪生卷积神经网络的主干(backbone)模块、基于注意力机制的特征增强颈项(neck)模块以及基于特征相似性对比的网络输出(head)结构。在主干模块部分,本研究选用参数共享的孪生网络,通过卷积操作分别对T0时刻参考图像XT0和T1时刻待检图像XT1进行特征提取,并得到特征FT0和FT1。其中,采用孪生网络的目的是保证参考图像和待检图像之间的外观特征差异只与图像信息有关,而和模型参数无关。在主干模块提取的特征基础之上,引入基于注意力掩膜单元(Attention Masking Unit,以下简称为AMU)的特征增强颈项模块。该模块目的是通过生成的注意力掩膜引导特征响应聚焦于抛洒物区域,从而排除光线、雨滴等瞬时自然环境变化以及车辆31第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)快速移动引发的语义混淆,提升算法的抗干扰能力。具体操作中,AMU会生成3个不同层级的注意力响应图 M1Att,M2Att,M3Att,通过权重聚合的方式生成增强特征FT0Att和FT1Att。最后,在网络输出模块部分,网络采用相似性对比的方式,利用欧式距离量化图像特征FT0Att和FT1Att之间的差异。最后通过固定阈值二值化决策的方式将距离值较大的区域判定为抛洒物,得到最终的结果图。1.2注意力掩膜单元注意力掩膜单元(以下简称AMU)基本结构如图2所示。为了方便阐述,本研究将T0时刻图像特征FT0和T1时刻图像特征FT1记为F。如图 2所示,AMU通过特征通道分离操作将输入特征F按通道数平均切分为FEN和FA,并分别流向两个分支:特征编码分支和注意力分支。其中特征编码分支通过常规的卷积核单元将输入特征FEN映射为特征FDE,而注意力分支则将输入特征FA映射称为注意力掩膜MAtt。在此基础上,将特征FDE和MAtt按照式(1)进行加权聚合得到增强特征:FAtt=FDE MAtt(1)其中,表示为逐元素相乘,MAtt取值范围为 0,1。由于MAtt权重响应反映了不同区域信息的重要程度,因此加权聚合生成的特征FAtt能够关注到最重要的特征信息,这对模型抗干扰能力的提升至关重要。如上文所提,注意力分支的作用在于生成一张注意力掩膜MAtt,并且掩膜权重响应应聚焦于最相关的特征信息。依据文献 10-12 的研究结论,搜索最相关的特征信息的前提在于尽可能地利用长跨度的上下文信息。为了实现这一目的,本研究将采用特征序列状态转移方式构建进行上下文信息构建。具体操作中,将特征图的每一行或列看作是一维序列,利用门控循环单元13(以下简称GRU)的图1基于相似性学习的抛洒物检测算法基础框架Fig.1Detailed architecture of dropped object detection network based on similarity learning图2注意力掩膜单元示意图Fig.2An illustration of the proposed attention mask unit32第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测方法状态转移矩阵将前一个空间位置的特征信息转移至下一个空间位置,此时每一行或列的特征均建立了长跨度的上下文信息依赖。GRU 推理过程如式(2)-(5)所示:zt=(Wzxt+Uzht-1+bz)(2)rt=(Wrxt+Uzht-1+br)(3)h?t=tanh(Whxt+Uh(ht-1rt+bh)(4)ht=(1-zt)h?t+ztht-1(5)其中,表示的是逐像素相乘运算,代表Sigmoid函数。xt、ht分别表示t时刻原始输入和隐层特征,rt为重置门,zt为更新门。W z,W r,W h,U z,U r,W h均为状态转移矩阵,bz,br,bh 均为偏置向量,隐层状态ht和记忆单元h?t均通过状态转移矩阵进行更新。为方便描述,可将式(2)-(5)简写为G(),具体如式(6)所示:ht=G(W,xt,ht-1)(6)其中,W=W z,W r,W h,U z,U r,W h,bz,br,bh 代表了整个计算模块的状态转移矩阵和偏置向量。参照式(6)的形式,本研究将时间序列上下文信息依赖转化成空间位置序列的上下文信息构建,其中t时刻的原始输出xt转变为空间位置p的特征xp,t-1时刻的隐藏特征ht-1转变为前一个空间位置p-1的上下文信息Cp-1,t时刻的隐藏特征ht转变为空间位置p的上下文信息Cp。空间位置p的上下文信息计算如式(7)所示:Cp=G(W,xp,Cp-1)(7)为了使每一个空间位置得到更为全局的视野,本研究提出四方向上下文信息编码