温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
YOLOV5
营业厅
视频
智能
监控
方法
今 日 自 动 化Automation Today智能制造与设计Intelligent manufacturing and Design46 2 0 2 3.5 今日自动化2 0 2 3 年第5 期2023 No.51 研究现状1.1 通用目标检测发展现状在现今阶段,通用的目标检测算法可分类成一阶段和两阶段监测算法,在一阶段目标检测算法中,Over Feat 能够直接利用卷积特征图预测定位与分类的相关数值进行工作;YOLOV1和 YOLOV3能够直接识别图像网格回归对象边界和类别概率;SSD 对不同规模的多层特征单阶段检测工作,进行了升级与改进;Retina Net 提出了 Focal 损失,对“前景背景”不平衡问题进行了相应的处理;Corner Net 利用三组关键点来表达附加中心点,生成用于检测的左上角和右下角的热图;FCOS 和 ATSS 为无锚检测引入了中心分支;Foveabox 和 Iqdet 深入研究样本分配策略。两阶段检测算法中的 Faster RCNN 利用感兴趣区域的池化特征,对对象分数和边界进行预测;RFCN使用位置敏感的分数图,实现 ROI 特征计算;Denet预测和搜索对象边界的稀疏角分布;Cascade RCNN使用级联 RCNN 阶段,来逐步细化检测到的框;Grid RCNN 引入了像素级网格点来预测对象位置;动态RCNN 调整标签分配 IoU 阈值和回归超参数以提高检测质量;稀疏 RCNN 为区域提议学习固定的稀疏候选集1。1.2 视觉Transformer发展现状最近基于 Transformer 的检测器 DETR,将目标检测制定为直接集合预测任务,并取得了优良的效果。DETR 通过使用编码器、解码器,参与对特征图的查询来预测一组对象。DETR 的原始架构简单地基于Transformer,其中包含多层注意力编码器和解码器。DETR 中的集合预测训练,基于预测和真实对象之间的二分匹配。虽然 DETR 优于竞争性 Faster RCNN 基线,但其仍然存在空间分辨率有限、小物体检测性能差和训练收敛速度慢的问题。目前已经有方法来解决这些问题,如 Deformable DETR 考虑了自然图像中的移位等效性,并在 DETR 的编码器和解码器中,引入了多尺度可变形注意力算子;SMCA、Conditional DETR 和 Anchor DETR 显式地对前景对象的位置注意力进行建模,以加快收敛速度。TSP 将 FCOS 和RCNN 头集成到集合预测问题中,以实现更快的收敛。YOLOV5算法通常使用卷积特征对检测对象进行检测,是当前使用较多的算法之一,但利用卷积特征进行图像处理工作存在一定的局限性。故而,可在YOLOV5算法的基础上,利用 Transformer 技术中的自注意力计算,对图像区域存在的关系进行计算,提高视频智能监控工作水平。2 YOLOV5模型2.1 整体结构YOLOV5模型通常情况下有4种类型,分别为YOLOV5s、YOLOV5l、YOLOV5x 和 YOLOV5m。这4种 YOLOV5类型最主要的差别是卷积核与特征提取模块的数量有一定的差值。这4类 YOLOV5网络模型结构中,模型的各类参数与模型大小的数量不同。因为当前这一阶段,营业厅视频智能监控场景工作中轻量化与实时性的性能要求普遍较高,所以文章全面地考虑了检测模型的规模、效率以及准确性,并摘 要利用视频智能监控,对营业厅内的人员或异常事件进行智能化监控,并及时对其进行预警,对营业厅内的人员以及硬件资源进行监控与管理,能够在一定程度上提高营业厅的管理工作水平以及服务水平。文章提出了基于改进 YOLOV5的营业厅视频智能监控方法,旨在提高营业厅视频智能监控工作水平,增强对营业厅的管理与控制能力。关键词YOLOv5模型;视频智能;监控方法中图分类号TM73 文献标志码A 文章编号20956487(2023)05004603Intelligent Monitoring Method of Business Hall Video Based on Improved YOLOV5LI ChanghuiAbstractThe use of video intelligent monitoring of the business hall,the personnel or abnormal events in the business hall,and timely warning,the personnel and the hardware resources in the business hall table transformation monitoring and management,can improve the management level and service level of the business hall to a certain extent.In this regard,this paper puts forward the intelligent monitoring method of business hall based on improved YOLOV5,aiming to improve the level of intelligent monitoring of video in the business hall and improve the management and control ability of the business hall.KeywordsYOLOv5 model;video intelligence;monitoring method基于改进Y O L O V 5 的营业厅视频智能监控方法李昌卉(国网上海市电力公司青浦供电公司,上海201799)今 日 自 动 化Automation Today智能制造与设计Intelligent manufacturing and Design2 0 2 3.5 今日自动化 472 0 2 3 年第5 期2023 No.5根据营业厅视频智能监控工作的实际运营情况,对YOLOV5s 网络模型做出了相应的调整。YOLOV5s类型模块网络结构通常由颈部网络、骨干网络以及检测头组成。YOLOV5s 骨干网络通常由 CSB、跨阶段部分网络 Bottleneck CSP 以及 SPPF 串联空间金字塔池化组成;YOLOV5s 颈部网络通常以 PANET 路径聚合网络为基础,建立起特征金字塔。该网络通常利用高级语义特征以及双向融合低级空间特征进行工作,以此提高营业厅视频智能监控设备对不同物体的检查与测量能力。在检测头中输入测算出的尺度特征,经过一系列的信息与数据处理工作后,得出目标类别、目标预测框以及目标置信度等信息2(见图1)。图像StemStemCBLCBLCBLCBLCBLCBLCBLCBLCBLBottleneckCSPBottleneckCSPUpsampleTBTBP3P4P5TBTB卷积+批归一化+LeakyRELU卷积+批归一化+LeakyRELU跨阶段部分连接网络串行空间金字塔池化Transformer模块2位上采样BottleneckCSPBottleneckCSPBottleneckCSPConv2DConv2DConv2DBottleneckCSPBottleneckCSP20*20*6040*40*6080*80*60UpsampleUpsampleConcatConcatConcatConcatBottleneckCSPBottleneckCSP骨干网络颈部网络检测头SSPFSSPF图 YOLOV5整体结构2.2 YOLOV5的分类(1)输入。YOLOV5信息的输入方式,通常使用与 YOLOV4相同的马赛克数据增强模式,其在小目标检测中的工作效果较为突出。YOLOV5添加了自适应锚框计算功能,在每次信息处理以及数据计算的过程中,自适应计算会在所有信息数据中选择最优锚框的值。(2)骨 干 网 络。6.1 版 本 之 前 的 YOLOV5算 法,通 常 情 况 下 使 用 Focus 结 构 完 成 切 片 操作。以 YOLOV5s 为 例,在 Focus 结 构 中 输 入 原有的6406403的图像,对其进行切片,产生32032012的特征图像,再通过32的卷积操作卷积核,最后得出32032032的特征图。但值得注意的是,Focus 模块在某些工作设备上的部署情况存在一定的局限性,在6.1版本 YOLOV5算法中清除Focus 模块,使用 Stem 模块,利用卷积核,将骨干网络中输入的3通道图像转化为66的卷积核、批归一化层和 SILU 层。并且 YOLOV5骨干网络中还存在CSP 模块,该模块在一定程度上能够提高网络学习能力,减少存储工作的成本。在骨干网络中调整空间金字塔池化模块、SPP 结构,通过输入并行多个不同大小的最大池化,然后做进一步融合,能在一定程度上解决目标多尺度问题。(3)颈部网络。YOLOV5的颈部网络工作原理是,利用 PAN 路径聚合网络以及 FPN 特征金字塔网络进行工作,实现图像处理工作的高底层特征互补效果。FPN 特征金字塔网络通常由上而下进行采样工作,然后对新特征进行传递与融合,以此来获得预测的特征图。PAN路径聚合网络通常利用特征金字塔进行工作,路径网络与特征金字塔能够在一定程度上减少图像处理的局限性,提高模型的提取水平。在6.1版本的YOLOV5算法模块中,其颈部网络部分将 SPP 转化为了作用相同的 SPPF。将两节55最大池化进行串联,相当于99的最大池化;将三节55的最大池化进行串联,相当于1313的最大池化。使用 SPPF模块,能够在确保检测精度的前提下,减少一半的信息数据推理与运算工作时间。()预测头。YOLOV5预测头通常包含损失函数和 NMS 非最大值抑制。利用 CLoU 充当损失函数,对边界框不重叠现象进行处理,在目标预测结果后,利用加权非最大值抑制方法,选择出最优预测框3。2.3 改进的颈部网络YOLOV5的骨干网络和颈部网络,可以提取到细粒度更高、特征质量更强的高级语义特征。文章将带残差的 Transformer 结构引入颈部网络结构最后端。FPN 和 PAN 网 络 会 生 成 3 个 特 征 层 P3、P4和 P5、他们分别预测小目标、中等目标和大目标。以预测中等目标的特征层 P4为例(分辨率为4040512),先将聚合的特征按通道维度展平,得到1 600512的序列特征,然后对图像区域进行绝对位置编码。为降低模型的复杂度,使用自注意力机制,这样可以减少计算量和参数量,与原始的多头自我注意力(MSA)模块计算方式相同,输入 X Rndm 被线性转化为查询 Q Rndk。以预测中等目标分支为例,其中 n 为块的数量;k 为头的数量。文章将 n、k设置为8,k 是每个头的维度。为减少计算开销,将X 重塑为(512,40,40),然后使用内核为22、步长为2的深度卷积,来减少 K 和 V 的尺寸大小。新的 Tokens 的尺寸为(512,20,20),高度和宽度维度缩减了两倍,经过线性转换得到 K R40064,V R40064。3 营业厅视频智能监控3.1 视频智能监控系统的特点与优势传统意义下的营业厅视频监控工作中,存在着许多的问题:传统营业厅视频监控工作,大多数依靠人力观看视频监控画面,监控人员在观看监控的过程中,易产生疲劳反应。在营业厅较多、视频监控工作者数量不足的情况下,极易出现错漏,降低视频监控工作的整体工作水平。在营业厅数量较多的情况下,今 日 自 动 化Automation Today智能制造与设计Intelligent manufacturing and Design48 2 0 2 3.5 今日自动化2 0 2 3 年第5 期2023 No.5监控人员无法快速高效地对营业厅中人员的身份进行识别。传统视频监控工作仅能完成投诉等事件的事后调查工作,不能够对各类事件做出及时的预警工作。与传统营业厅视频监控工作不同,视频智能监控系统利用人工智能样本学习与计算技术,对人脸进行识别,并且视频智能监控系统还能够与音频系统进行对接,开发视频流获取功能以及控制功能,对营业厅进行模块化自动监控,提供环境评估、客户排队提醒、服务行为识别以及安全入侵警告等服务功能。3.2 视频智能监控系统需要解决的问题(1)人员上岗身份验证。在视频智能监控系统中使用 YOLOV5技术,能够实现对营业厅工作人员的身份验证,通过对工作人员进行人脸识别,将人脸识别信息与后台员工档案信息进行自动对比,员工信息比对完成后,对其进行上/下班考勤记录,发现陌生人及时发出预警。(2)员工服务行为的管理与识别。利用 YOLOV5算法的数字化技术,建立员工工作的标准化动作数字模型,利用该模型,对员工的动作进行监控与识别。在员工工作期间,若系统识别到员工存在玩手机等与工作无关的活动时,系统应自动对员工进行提醒。(3)工作环境评估。基于改进 YOLOV5的智能视频监控系统,应对营业厅工作环境进行定时的采样,将识别到的营业厅内部环境进行处理并存储在系统内,对营业厅的宣传公示、卫生状况以及管理设备等进行综合的评估。(4)员工脱岗检测。YOLOV5视频智能监控系统应对员工的工作状态进行实时监测,判断员工的工作状态,自动对脱岗的员工进行记录与警告。(5)客户排队提示。利用 YOLOV5视频智能监控技术,对营业厅工作进行自动化干预。同时,可对营业厅业务量、业务受理平均时长与客户最大排队数进行统计,为营业厅布局、业务受理流程设计、工作人员配置等提供数据支持。(6)安全入侵预警。在营业厅视频监控范围内,设定相关监控区域,当工作人员下班后,若该区域存在可疑人员滞留的情况,系统应当自动发起预警,确保营业厅的安全与正常运行。4 基于改进YOLOV5的营业厅视频智能监控方法的优势4.1 可视化对 YOLOV5不同层的热力图进行可视化,来说明TB模块如何收集全局信息。可得知通过TB模块后,特征的重点部分变为当前检测目标的边缘部分。营业厅不同工作场景的检测结果可视化,能够在一定程度上提高边界框包围区域的准确度与契合度。4.2 高效率基于改进 YOLOV5的视频智能监控,能够对数据进行存储与分析,为营业厅销售决策和优质服务的升级与改进,提供了可信参考。并且随着基于改进YOLOV5的营业厅智能监控系统的应用,能够对省级客户服务中心和市、县营业厅服务指挥中心的监控人员,进行系统化的管理,提高营业厅视频智能监控工作的工作水平。同时也能够在一定程度上,为客户服务过程状态感知、人机交互、万物互联等现代化工程,提供一定的发展空间,推进 YOLOV5技术的升级与发展,推进营业厅视频智能监控工作的运行。5 结束语综上所述,文章以改进 YOLOV5为基线,提出结合 Transformer 的营业厅视频智能监控算法,将多头自注意力的 Transformer 模块整合到颈部网络,对不同图像相关性数据以及信息进行提取,并将提取到的信息与原始的卷积特征相结合,实现检测器工作性能的提升。并且使用幂变换的 CIoU 边界框回归损失函数,提高 IoU 阈值的平均检测与边界框回归坐标的准确度,提高营业厅视频智能监控的整体工作水平。参考文献1 高志华,王居正,樊旻,等.基于 5G 网络切片在线映射算法的电力通信远程视频指挥系统设计 J.内蒙古电力技术,2021(5):114-116.2 王新,王赛.基于改进 YOLOv5 算法的交警手势识别 J.电子测量技术,2022(2):71-72.3 谈世磊,别雄波,卢功林,等.基于 YOLOv5 网络模型的人员口罩佩戴实时检测 J.激光杂志,2021(2):147-149.