温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
深度
学习
人体
行为
识别
定位
方法
巍巍
基于深度学习的人体行为识别与定位方法蔡巍巍(西南交通大学计算机科学与人工智能学院,四川 成都030699)Human Behavior Recognition and Location Method Based on Deep Learning摘要:人体行为识别技术广泛应用于工业安全系统、第三方支付系统等领域。提出的方法遵循Kpkl等人提出的YOWO架构,在其基础上,重新构建通道融合模块以及重写边界回归策略的部分算法:在通道融合与注意力机制模块的基础上添加average pooling模块,进而达到提高待训练模型学习能力的效果;重新设计ResNext-101模块,提高模型的表达能力,同时采用CIoU回归损失函数来衡量模型输出与真实标注框之间的差异对模型进行收敛,最终提高边界框回归的稳定性。在公开数据集UCF101-24和J-HMDB-21上的实验结果表明,该方法能够有效地增强视频特征的表达能力,在识别与定位人体行为视频的检测精度、定位精度以及稳定性上优于相应的同类算法。关键词:YOWO;特征提取;相关系数矩阵;人体行为识别;损失函数Abstract:Human behavior recognition technology is widely used in industrial security systems,third-party payment sys-tems and other fields.The method proposed in this paper follows the yoyo architecture proposed by Kpkl et al.On itsbasis,it reconstructs the channel fusion module and rewrites some algorithms of boundary regression strategy:Add theaverage pooling module method to the channel fusion and attention mechanism module,So as to improve the learning abili-ty of the model to be trained.Redesign the resnext-101 module to improve the expression ability of the model.At thesame time,the CIO regression loss function is used to measure the difference between the model output and the real an-notation box to converge the model,and finally improve the stability of the bounding box regression.The experimental re-sults on the public data sets UCF101-24 and J-HMDB-21 show that the method proposed in this paper can effectively en-hance the expression ability of video features.It is superior to the corresponding similar algorithms in the detection accura-cy,location accuracy and stability of human behavior video recognition and location.Keywords:YOWO,feature extraction,corresponding coefficient matrix,human behavior recognition,loss function近年来,智能手机、数码像机的广泛应用,促进各种自媒体、短视频的发展,抖音、西瓜视频等互联网平台每天都会创作出海量的图片以及智能视频数据。如何快速对人体行为做出准确的定位以及识别是当前计算机视觉领域的研究热点之一。在人体行为识别领域中,针对精度与速度这两个方面的检测往往很难做到平衡,尤其是在自制的数据集上,缘于有限的样本特征,导致实验中模型学习到的特征也很有限,最终使得模型的检测精度往往偏低,在执行回归任务时,定位精度也存在相同的问题1。针对上述问题,本文旨在运行速度不受影响的前提下,提高模型的定位及检测精度,同时会在公开数据集UCF101-24、J-HMBD-21以及自制的数据集上进行实验验证。早期的行为识别分析的研究可以追溯到上个世纪Johans-son2的实验,作者首次阐述了12点人体模型。这种关于点模型方法的描述对后期基于人体结构的行为描述算法的发展起到了至关重要的作用。至此,关于行为识别的研究进程大致可以分为三个阶段,第一阶段为上世纪70年代行为识别的初步研究阶段,第二阶段是上世纪90年代,这期间行为识别得到逐步发展,第三阶段缘于大数据等相关技术的发展,促使了最近几年来行为分析的快速发展。从文献3-8这几篇较有名的行为识别论文可以看出,研究行为识别的学者在不断增加,相关的论文数量也是有一定的量的积累,与此同时催生了众多重要的算法和思想。迄今为止,基于深度学习方法的人体行为识别的算法大致可以分为三类:基于RNN的算法、基于3D卷积的算法和基于双流的算法。1相关工作视频中人体行为识别与定位是一个复杂的课题,实验预期输出除了包含行为分类,还需考虑视频帧中行为的位置。其主要体现在两个方面:时空定位和空间识别与定位。空间方面主要涉及识别与分类视频帧相关联的像素行为,而时空方面意味着视频的开始和结束时间执行的行动。近年的研究表明,基于深度学习方法进行建模具有算力更强、结果更准确的优势。YOWO9(You Only Watch Once)是基于YOLO v210提出的。该模型不仅能在RGB上运行,还可以添加模块分支,以满足其他方面的需求,譬如光学流量、深度等。本节采用了可分离的三维时空卷积方法提取特征。特殊视频帧处理:特殊视频帧的分类通常意味着不平衡的分类,因为这些分类所占的比率较小,除此之外还很难学习。然而,只考虑使用高损失的测试样本,模型可能会将易处理的样本信息丢失。本文提出了一个加权损失函数来优化该模型,该方法不仅侧重于视频帧小样本,而且同时能兼顾到其他视频帧简单信息的丢失的情况。2人体行为定位智能系统设计与分析方法本节主要介绍人体行为定位智能系统设计与分析方法的整体架构。2.1系统整体架构如图1所示,该系统是基于YOWO改进而来,包括以下四个主要部分:3D-CNN分支、2D-CNN分支、通道融合以及边界框回归部分。将视频剪辑中的每一帧发送到3D-CNN分支和2D-CNN分支处理。然后,将这两个分支的输出通过通道融合进 行 融 合,最 后 用 于 分 类 和 定 位。类 似 与YOWO架 构,ResNext-101和YOLO v211分别为3D-CNN和2D-CNN分支的主体部分。为了能够更好地获取开始帧的时空特征,在基于深度学习的人体行为识别与定位方法100工业控制计算机2023年第36卷第1期ResNext-101部分前设计了average pooling模块,以便更多地保留视频帧的背景信息生成合理的连续帧作为3D-CNN分支的输入。此外,在该系统中还使用可分离的三维空间重新设计了ResNext-101模块。最后,设计了一个加权损失函数从而提高边界框回归的稳定性。图1人体行为边界框定位及行为分类图2.2 average pooling模块针对处理索引小于8的视频这个问题,YOWO处理如下:从剪辑的末端循环选择帧填充输入来解决这个问题。这种随机凑拼的处理方式存在不合理的地方,因为第一个开始的视频帧和最后一个视频帧可能完全不同,导致此类填充策略可能会增加异常问题。本实验,采用了一种简单而有效的方法:先计算输入视频帧到所需的长度,再让平均池填充输入视频帧到所需的长度。具体思路是,我们首先将输入视频DCHW形式中DC转置变成CDHW形式,然后将输入发送到平均池化层,最终将D扩展到8。此方法更有利于时空学习。2.3 ResNext-101模块YOWO原生模块ResNext-101同时训练空间信息和时间信息,这样不利于进一步优化。本实验采用以下处理方式:首先先通过133空间卷积来学习空间信息,然后,再通过311时间卷积学习时间信息,进一步提高网络的性能。此外,在空间卷积与之间时间卷积还增加了一个激活函数Leaky ReLU来增加非线性因素,进一步提高模型的表达能力。2.4损失函数设计YOWO架构中损失函数主要包含两部分:模型的检测损失;由通道注意机制产生的相关性损失。本实验主要考虑模型的检测损失,对于回归损失,采用CIoU回归损失函数来衡量模型输出与真实标注框之间的差异来帮助模型收敛,该回归函数考虑了预测框和目标框的长度比,计算公式如公式(1)(3)所示:=(1-IoU)+(1)=42(arctanwgthgt-arctanwh)2(2)CIoU=1-IoU+2(A,B)c2+(3)其中,是衡量长宽比一致性的参数,w和h分别为预测框的宽和高,wgt和hgt分别为真实框的宽和高,预测框的宽高比越接近真实框,宽高比损失项越接近于0。3对比实验结果实 验 使 用 了 两 个 公 开 基 准 数 据 集:UCF101-24和J-HMDB-21。3.1不同数据集上的实验如表1和表2所示,在实验中,本文方法在UCF101-24和J-HMDB-21数据集上的性能都比同类的实验方法有相应的提高。表1UCF101-24数据集上性能对比表2J-HMBD-2数据集上性能对比此外,相应结果也表明我们的策略在不断改进。经过多次实验,误差在0.2%以内,这也说明了实验结果是相对稳定的。3.2在选定的起始帧数据集上进行实验如表1和表2所示,按照自适应的开始帧的平均填充的方法获取的改进不太明显。下面我们选用以下方法:从UCF101-24、J-HMDB-21这两个数据集的每个测试视频剪辑中选择前15帧的视频帧,从而构成两个较小的子数据集,然后重复实验来测试在新构成的两个子数据集的实验性能。实验结果如表3所示。在数据UCF101-24基础上构造的子数据集,本实验方法实现了0.2%的增长。与此同时,我们还在此训练好的模型上对由J-HMDB-21构成的子数据集上进行了测试,实验结果表明实现了0.1%的增长。在子数据集构成上面,由UCF101-24数据集构成的子数据集仅占全量数据集的1/17,由J-HMDB-21数据集构成的子数据集仅占全量数据集的1/9,对总体结果影响不大。子数据集上的实验结果进一步说明了我们方法是有效性的。表3所提方法与相关方法的对比结果3.3模型实验结果分析为了能够进一步阐述本文提出的模型有一定的改进,该模型除了在公共数据集基础上构造的子数据集上有一定的性能优化,同时,还与其他模型架构的实验结果进行对比。考虑到实验结果对比的公平性,本文实验以及对比模型架构都选用公共基准数据集:UCF101-24和J-HMDB-21。表1展示了实验中智能系统在数据集UCF101-24上的相应模型架构比较。实验中模型方法在frame-mAP指标提升了3.4,在一定程度上优于表中其他指标,这也证实了本文选择在YOWO9架构的基础上进行改进的合理性;从video-mAP指标上来看,该模型使用特征融合的CFAM模块在不同阈值下也有一定程度上性能优化的表现。表2展示了实验中智能系统在数据集J-HMDB-21上的相应模型架构比较。我们选择的IoU阈值分别为0.2、0.5和0.75,在IoU阈值为0.2、0.5时框架始终优于表中给出的模型架构的最新结果,可以看出我们提出的系统模型在一