温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
改进
YOLOv5
用于
跌倒
行为
检测
张振亚
改进后的YOLOv5用于跌倒行为检测张振亚,何明艳,王萍(安徽建筑大学 电子与信息工程学院,安徽 合肥 230022)摘要:随着全球人口老龄化不断加剧,由于跌倒致死的比例也随之增加,及时发现跌倒行为对降低死亡风险至关重要。针对现有跌倒检测算法在实际应用场景中出现漏检、准确率低等问题,本文将改进后的YOLOv5目标检测方法用于跌倒行为检测。具体改进措施:将YOLOv5的边界框损失函数GIoU更换为-IoU;引入卷积块注意力机制模块(CBAM),使网络可以更专注地学习跌倒特征;在特征融合层引入加权双向特征金字塔网络结构(BiFPN)以充分利用不同尺度的特征,从而提高检测精度。实验结果表明,改进的YOLOv5模型对跌倒行为的检测精度mAP达到了98.8%,比改进前提高了4%,满足对实际应用场景下跌倒检测的要求。关键词:计算机视觉;跌倒检测;YOLOv5;-IoU;加权双向特征金字塔;卷积块注意力机制中图分类号:TP 391.4文献标志码:A文章编号:1007-4260(2023)01-0072-07Fall Behavior Detection Based on Improved YOLOv5ZHANG Zhenya,HE Mingyan,WANG Ping(College of Electronic and Information Engineering,Anhui Jianzhu University,Hefei 230022,China)Abstract:As the global population aging continues to intensify,the proportion of human death also due to falls is increas-ing.Timely detection of falls is crucial to reducing the risk of death.Aiming at the problems of missing detection and low accu-racy of existing fall detection algorithms in practical application scenarios,this paper applies the improved YOLOv5 target de-tection method to the fall behavior detection.Replace the bounding box loss function GIoU of YOLOv5 with-IoU,the con-volutional block attention module(CBAM)is introduced,so that the network can more focus on learning the feature of falling.In the feature fusion layer,the weighted bidirectional feature pyramid network structure(BiFPN)is introduced to make fulluse of the features of different scales,so as to improve the detection accuracy.The experimental results show that the detectionaccuracy(mAP)of the improved YOLOv5 model for fall behavior reached 98.8%,which is 4%higher than that before im-provement,and meets the requirements of fall detection in practical application scenarios.Key word:computer vision;fall behavior detection;Yolov5;-IoU;BiFPN;CBAM世界老年人口正在迅速增长,我国65岁以上人口已占总人口数的10.1%,到2050年将增加至35%左右1。随着年龄增长,老年人逐渐不能稳定地控制自己的运动,以致跌倒次数增多,老人跌倒会带来潜在风险,如关节扭伤、骨折、头部创伤和组织损伤2。从2018年世界卫生组织发布的数据可知,跌倒已经成为世界上造成人类意外死亡的第二大原因3。近年来,检测跌倒行为主要有佩戴穿戴式传感器、在室内部署环境传感器,以及基于计算机视觉的方法。穿戴传感器的方法主要是通过佩戴特定的传感器来获取老年人的行为状态或位置信息。大部分收稿日期:2022-06-15基金项目:安徽省高校自然科学研究重点项目(KJ2020A0470),安徽省高校学科拔尖人才学术资助项目(gxbjZD2021067)和安徽建筑大学质量工程项目(2021jy14,2021jy47)作者简介:张振亚(1972),男,安徽合肥人,博士,安徽建筑大学电子与信息工程学院教授,研究方向为智能技术和数据挖掘。E-mail:2023年2月第29卷第1期安庆师范大学学报(自然科学版)Journal ofAnqing Normal University(Natural Science Edition)Feb.2023Vol.29 No.1DOI:10.13757/34-1328/n.2023.01.013第1期研究都是基于加速度计的研究4-5,其通过分析和采集多个轴的加速度来判断是否发生跌倒。例如,Chaitep等让实验人员佩戴加速度计在特定场景下跌倒,通过比较加速度计记录的值是否超过设定阈值来判断是否存在跌倒行为6。Shahzad等设计了一种基于加速度计的跌倒事件检测系统7。Yacchirema等将3d轴加速度计嵌入到穿戴设备中来收集加速度计变化值,然后使用决策树算法来检测跌倒行为8。这种方法的最大缺点是侵入性很强且舒适感较差。在部署环境传感器时9-11多将其按照一定方位放置在室内不同角落,以便于检测压力、振动、音频、红外阵列、Wi-Fi、雷达等信号,其主要原理是通过上述信号值的变化来判断物体周围环境的变化,最终判断人体行为状态。相比于可穿戴式设备,其优点是可在老年人不戴任何设备的情况下判断是否发生跌倒,起到了很好的隐私保护作用,但是这种方法成本较高,且其检测范围受传感器的部署位置所限制。随着深度学习的快速发展,跌倒检测方式也在不断进步。通过计算机视觉技术来检测跌倒行为已经成为当前主要方法之一12-14,其优势主要在于检测精度高、鲁棒性强及入侵性小。根据是否设置候选框,可将目标检测算法分为两种:一种是需要提前设置候选框的两阶段目标检测算法,主要包括RCNN系列算法和SPP-NET算法,此类算法在刚出现时准确率很高,但由于候选框的设置使得模型的检测速度降低。另一种则是不需要提前设置候选框的一阶段目标检测算法,主要包括YOLO系列算法和SSD算法,由于取消了候选框使得模型的检测速度大大增加,并且随着深度学习的发展,其准确率也在不断提高。1YOLOv5介绍YOLOv5是2020年发布的基于PyTorch框架的一阶段目标检测算法,其在YOLOv4基础上做了比较大的改进以致于检测速度和精度都有很大提升。目前,YOLOv5一共有4个版本(v5s、v5m、v5l和v5x),各版本在整体结构和框架上并没有区别,主要是模型中的卷积核通道数以及残差模块数不同,从而使得各版本的模型深度及宽度有所不同。YOLOv5网络模型从结构上可以划分为输入端(Input)、主干网络(Backbone)、颈部(Neck)和预测端(Prediction)四部分,如图1所示。1.InputFocus2.BackboneCBLCBLCBLCBLSPPCBLCBL3.Neck4.Prediction640*640*3C3C3C3C3C3UpsampleConcatUpsampleConcatC3CBLConcatC3ConcatC3CBLCBLConvBNLeakyreluCBL CBLCBLBNLeakyreluResunitC3addCBAMCBAMResunitConcatCBLCONVCONVCONVSPPCBLCBLCBLConcat80*80*25540*40*25520*20*255MaxpoolMaxpoolMaxpoolFocusConcatslicesliceslicesliceX个残差组件图1YOLOv5网络结构1.1输入端YOLOv5 输入端主要包括数据增强、锚框计算以及缩放图像三部分。其中,数据增强部分采用的是与YOLOv4相同的Mosaic数据增强,其可以通过缩放、剪裁和随机排列等操作来拼接四张图片,有助于数据集的扩充以及提升小目标的检测效果,如图2所示。自适应锚框计算可以根据不同类别来训练出最佳锚框。而自适应缩放图片是采用缩减黑边的方式将原图片缩放到统一尺寸,且通过对不同尺寸的图片自适应添加不同大小的黑边,使得其在推理阶段减少计算以提高目标检测速度。图2Mosaic数据增强效果张振亚,何明艳,王萍:改进后的YOLOv5用于跌倒行为检测 73安庆师范大学学报(自然科学版)2023年1.2主干网络主干网络主要包含Focus、C3和SPP三个模块。其中,Focus 模块通过对输入图片进行切片操作,从而得到2倍信息的下采样特征图,C3模块主要是对输入图片进行特征提取,而SPP模块主要是增强网络非线性表达能力。具体模块结构如图1所示。1.3Neck模块为了在目标检测过程中能够融合不同尺度的特征以及增强模型对其特征的检测能力,YOLOv5使用了FPN+PAN的方式来作为Neck的特征融合结构。FPN是一种自上而下的金字塔结构,其能够传递很强的语义信息,但是由于下采样等操作使得网络在获取特征图的空间信息上有很大缺失。而PAN是一种自下而上的金字塔结构,可以弥补FPN在自上而下传递特征信息过程中丢失掉的定位信息。两者联合可使得模型能更好地融合主干网络传递来的各类特征。1.4输出端YOLOv5有3个不同尺度(20*20、40*40、80*80)的输出,故可用于检测不同尺度的目标。同时,其输出端的激活函数采用Sigmoid,边界框损失函数采用GIoU,并使用NMS(非极大值抑制)防止同一个目标出现多个预测框。2模型的改进及优化2.1主干网络的改进在实际应用场景中,人体周围环境往往很复杂,在发生跌倒后很可能出现身体的一部分被其他物体所遮挡的情况,而此时很多跌倒检测算法容易出现漏检。针对上述问题,在目标检测算法中引入注意力机制可以增强复杂背景中跌倒目标的特征表达能力,从而有效提高目标定位精度。本文在YOLOv5模型的 C3 模块残差组件 Resunit 后引入了卷积块注意力模块(Convolutional Block Attention Module,CBAM)15,从而形成新的C3模块(CBAMC3),如图3所示,CBAM是一种轻量级的注意力机制,其结构如图4所示,其将通道注意力模块(CAM)和空间注意力模块(SAM)以先后顺序的方式结合起来。输入特征提取网络所提取到的特征,经过CAM一系列操作后再与输入元素相乘以获得通道注意力调整后的特征,随后再将其特征作为SAM的输入,经过 SAM 系列操作后再与输入元素相乘,最终得到经过CBAM模块处理后的新特征。CAM将特征提取网络所提取的特征作为输入,在经过最大池化和平均池化操作后得到两个不同特征,随后将其传递到同一个多层感知机(Multilayer Perception,MLP)中,最后将CAM与输入元素相乘以获得通道注意力调整后的特征(图5)。计算公式为Mc()F=()W1()W2()Fca+W1()W2()Fcm,其中,W1和W2为权重,Fca和Fcm为平均池化和最大池化后的feature map,为sigmo