温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
交叉
注意力
编码器
改进
视频
异常
检测
戚小莎
第 卷第 期 年 月南京师大学报(自然科学版)().,收稿日期:基金项目:国家自然科学基金项目()通讯作者:吉根林,博士,教授,研究方向:大数据分析与挖掘技术:双交叉注意力自编码器改进视频异常检测戚小莎,曾 静,吉根林(南京师范大学数学科学学院,江苏 南京)(南京师范大学计算机与电子信息 人工智能学院,江苏 南京)摘要 针对视频中包含的异常事件数量稀少,信息密集的特征容易被遗漏等问题,本文提出一种双交叉注意力自编码器的视频异常事件检测方法 首先预处理视频集,提取视频帧中表观和运动特征,然后设计双交叉注意力模块融入自编码器中,使特征图在自编码器中能够更好地关联全局特征 其次将提取后的特征放入各自的自编码器中学习正常行为,使含有正常事件的视频帧能被模型重构,含有异常事件的视频帧则无法被重构 最后通过检测模型得到各个视频帧的重构误差从而进行异常事件判定 该方法可以以局部特征关联全局特征的方式有效提高视频异常事件检测的准确率,通过在多个公开数据集中进行实验验证,证明该方法优于其他同类方法关键词 异常检测,自编码器,帧,重构,深度学习,神经网络,特征提取,融合中图分类号 文献标志码 文章编号(),(,)(,):,:,随着科技快速发展,监控摄像头的应用范围越来越广,相关视频数量日益增加,以往的视频异常检测方法已经不能满足日益增长的社会需求 因此在计算机视觉这一领域中,如何创新并改进视频异常检测方法这一课题重新焕发生机,吸引了许多学者前去探索 在现实场景中,大多数事件是否异常需要取决于当时的场景,且异常事件发生概率十分低,因此视频异常检测仍然存在着许多难点 近几年,为了应对这些难点,学者通常针对某一特定的异常提出相对应的视频异常检测方法并建立模型 例如,为了辨别行人是否翻越栏杆或跌倒等相同类型的异常行为或动作,研究员通常会采用人体轨迹或者动作识别的方法去检测视频中的行人异常与否 然而,在非空旷场景下,交通通常较为拥挤,会发生行人或车辆被遮挡等现象,这给采取上述两种方法的研究者带来了一定的困扰,使他们在特征提取时只能提取到无遮挡戚小莎,等:双交叉注意力自编码器改进视频异常检测的特征,无法完整提取被遮挡的特征,因此无法得到完整准确的特征信息,从而导致异常识别准确率的降低 针对上述方法所存在的不足,本文将背景减除法与前景提取法相结合,提出了帧差法和光流法相结合的特征提取融合算法帧流法来提取运动特征,并采用方向梯度直方图(,)来提取视频中的纹理信息以得到表观特征 采用神经网络的帧流法能够很好地提取相对完整的运动特征,避免由于运动目标移动缓慢所导致的信息遗漏 则能够较为清晰地显示视频中所包含的多种纹理信息,且该特征提取算法较为简单,易于上手 采用多种特征提取算法相结合的方式,能够更好地得到完整的视频特征,从而提高视频异常检测模型的准确度在现实场景下,大多数事件都为正常事件,只有极少数异常事件 因此,本文采用跳跃卷积自编码器并仅用正常事件对模型进行训练,通过重构正常事件使得重构得到的图像与原视频帧相差无几,以便在测试时使得模型无法重构异常帧,即异常图像与重构图像不相似 由于现有的自编码器只能加强视频帧中相邻像素点的特征信息关联度,为了更好地在局部特征中关联全局上下文特征信息,降低时间和空间复杂度,引入了双交叉注意力模块 该模块能够使视频帧特征图中的每个像素点都能更好地关联到其他像素点的特征信息 本文主要贡献如下:()为减少运动特征在提取时被遗漏的可能性,采用新的融合特征 帧流特征作为运动特征;()为提高全局特征与局部特征的关联性,引入双交叉注意力机制以捕获长距离上下文依赖特征信息;()提出一种新的视频异常检测方法 双交叉注意力自编码器(,),使其能够提高视频异常事件的检测率 相关工作视频异常检测中关键的步骤为特征提取与模型建立 其中,特征提取是视频异常能否被准确检测到的关键性指标 最初研究者通常采用手工设计的方式以提取视频帧特征并建立模型 由于深度学习发展迅速,深度学习方法被广泛地应用到视频异常检测方向,这大大地提高了特征提取的有效性以及异常检测的准确性 针对视频中非平稳性的问题,文献首先通过时间递归差分网络进行视频帧预测,其中差分网络被用来处理视频数据的非平稳性,其次对视频异常检测进行自回归移动平均估计,并通过在 个空中视频数据集和两个标准异常检测视频数据集上得到结果,证明了所提方法的有效性 文献提出了新的卷积自编码器架构,该网络结构可以将空间与时间分开表示,以达到分别提取时间与空间信息的目的 同时为了提高对快速移动异常事件的检测性能,引入方差注意力模块以突出大的运动区域 该架构在多个数据集中实验并证明有效 为了解决弱监督下的视频异常检测问题,文献设计了一个用于清理标签噪声的图卷积网络,该网络整合了特征相似性与时间一致性两个异常分析的关键特征,并以端到端的方式进行检测,试验结果表明了该网络的优越性 文献提出了一种骨架预测网络,将图卷积网络与骨骼特征相结合,更好的提高了模型检测能力 文献将深度学习与传统方法相结合,提出了一种用于视频异常检测的深度概率模型 该模型将视频异常检测问题转移到了密度估计问题中,能够将视频异常检测作为一种无监督离群点检测任务来解决,用来解决下潜特征空间中的异常 文献为了能够充分利用表观和运动特征,提出了一种孪生网络 该网络能够同时捕捉外观和动作信息,并通过记忆增强模块使异常样本能够更好地被辨认自编码器是目前较为常见的深度学习模型之一,主要由编码器和解码器两部分组成 在训练阶段用不含异常事件的正常视频集通过自编码技术提取全局特征,建立全局高斯模型,通过提取正常视频相邻数帧的结构相似性,建立局部高斯模型 在测试阶段,将测试视频集分别输入两个高斯模型中,通过马氏距离计算测试视频集与正常视频集的相关性 在最后的决策阶段,综合两个模型的结果,将两个模型都判定为异常的视频帧判定为异常 文献结合空间流与时间流提出双流时空自编码器以提取空间时间特征来检测异常情况,该模型有着较高的精确度 为获得精确的时空特征,文献提出对抗三维卷积自动编码器来学习正常的时空特征,将事件与视频中学习到的正常模式进行对比,若与正常模式相反则判定为异常事件 编码器捕捉到视频的空间和时间维度之间的低级关联,并产生代表视觉时空信息的独特特征,解码器从编码后的特征中重新构建原始视频,并以无监督的方式学习正常的时空模式,最终提高自编码器南京师大学报(自然科学版)第 卷第 期(年)的重构能力用以辨别异常事件 文献为了降低视频异常检测方向的计算成本,通过分析 设计的便利性,提炼并联合时空训练,比较两种不同的自编码器训练过程,证明使用较小的自编码器网络架构可以较好地减小计算成本 文献在考虑正常样本多样性的前提下,提出一种时序多尺度自编码器网络,该网络能够建立视频连续帧之间的关联,在保证实时性的同时提升了检测精度注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制 注意力机制可以快速提取稀疏数据的重要特征,因此被广泛用于计算机视觉任务 自注意力机制则是对注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉特征的内部相关性 为了解决在弱监督下难以在训练时准确识别正常与异常事件的问题,文献提出了能够在特征层面和分数层面将异常实例与正常实例进行区分的相似度注意力网络框架 该框架将局部时空的不相似性考虑在内,使得它能够在实时场景中检测异常,而不需要额外的窗口缓冲时间 文献提出了一种未来帧预测的视频异常检测方法,该方法使用生成对抗网络和注意力机制 其中生成对抗网络中的生成器由 型神经网络以及注意力模块演变而来,判别器则由带有自注意机制的马尔科夫模型构成,它可以影响生成器的预测能力从而提高未来视频帧的生成质量 实验结果表明注意力模块的应用层次越深,检测效果越好 文献为了能同时描述视频中表观和运动信息,提出了利用注意力机制的多示例学习视频异常检测算法 该算法利用三维特征 和光流特征图,通过注意力机制获取特征的权重参数,通过改进的 排序算法,最终提升了视频异常事件检测的准确度 视频异常检测方法 处理流程为解决视频中重要特征遗漏导致视频异常检测准确率下降等问题,本文结合运动特征和表观特征,提取得到较完整的视频特征,其中运动特征通过帧流法提取得到,表观特征则由 特征表示 同时,将跳跃连接部分和双交叉自注意力模块融入卷积自编码器中,作为视频异常检测模型的重要组成部分,以此提高局部特征的整体关联性,并降低视频帧的平均重构误差,最终达到提高视频异常检测准确率的效果 本文方法主要步骤如下(如图 所示):图 视频异常检测方法结构.()数据预处理:首先清洗数据,将原始视频集按不同的视频样本拆分多个帧级别的序列,;()运动特征提取:其次提取视频帧的运动特征 由于单一的光流特征经常会有信息遗漏等问题,本文采用帧差法,将得到的图像序列中相邻帧对应像素值相减后得到差分图像,并将其二值化,从而有效地得到运动目标位置 同理,将相邻视频帧输入 中得到视频帧的光流特征 将帧差特征与光流特征相结合,则得到本文所需帧流特征,该特征能较好地避免运动物体速度缓慢所导致的信息遗漏;()表观特征提取:再者提取各个视频帧的表观特征 由于在视频帧中,表观特征为局部目标的表象戚小莎,等:双交叉注意力自编码器改进视频异常检测和形状,本文采用 特征提取方法,将待检测的视频帧用梯度或边缘的方向密度分布很好地描述出其表象及形状;()异常检测模型:最后建立视频异常检测模型 将训练样本提取到的运动特征与表观特征分别输入相对应的自编码器 中进行训练,得到训练样本的重构特征及模型 将测试样本提取到的运动特征与表观特征分别输入已经训练好且相对应的 中进行测试 由于引入了双交叉自注意力模块,在训练与测试时能更好地将全局特征与局部特征相关联 在训练时,通过从正常训练样本中提取到的帧流特征以及 特征学习正常的运动模式,在测试时更准确地重构测试样本特征,得到重构特征,并根据得到的重构误差判定测试样本是否存在异常图 特征融合.特征提取为较完整地提取视频特征,表观特征由 提取,运动特征则根据帧差特征和光流特征从有限数量的视频卷中提取 帧差特征和光流特征可以正确地描述运动异常,如人群恐慌、跑步和其他突然变化 本文将这两个特征融合在一起,得到一个新的融合特征,称为帧流特征 从图 中不难看出,帧流特征可以很好地反映物体的异常运动,降低检测错误率 光流特征和帧差特征的公式如公式()、()所示:(,)(),(),()(,)(,)(,)()式中,是视频帧中的像素总数,()和()分别对应于光流的水平和垂直成分 同样地,表示帧数图 结构.双交叉注意力自编码器网络结构基于双交叉注意力机制和自编码器,本文设计了自编码器 网络用于对训练样本特征进行学习,训练好的模型能够检测视频集内是否存在异常事件,若存在,则确定为视频中的哪一帧 与传统自编码器的区别在于传统自编码器网络的基本结构为全连接层,这会使得二维图像丢失一定的空间信息;而 采用卷积结构对输入特征图进行转换,卷积层能有效地保留所需空间信息,同时在卷积与反卷积中采用跳跃连接,并引入双交叉注意力模块,使得全局特征能够在局部特征中很好地被关联,从而提高视频异常检测模型的准确率 不同于其他文献采用传统全连接自编码器的方法,本文将训练样本的帧流特征以及 特征输入相对应的 中进行重构,使模型在该过程中学习何为正常事件,以便于在测试时能够更好地重构测试样本的帧流特征以及 特征并计算其重构误差,这能够更好地判定异常事件是否发生 自编码器 网络结构如图 所示,主要由编码器以及解码器构成 首先,将得到的特征统一压缩为 的图像输入进编码器中 编码器由两个 的卷积层以及一个 的池化层重复构成,每经过一次下采样,特征图的大小变为上一特征图的一半,通道数翻倍,即得到双倍的深度特征图,共南京师大学报(自然科学版)第 卷第 期(年)进行 次迭代以获得不同尺度的深度特征 编码器中的 卷积层能够以加权叠加的方式增加输入特征图局部的上下文信息,得到更低维的多个特征向量,最终得到深度特征,该特征相较于输入的特征图更