基于
改进
双流
ResNet
网络
人体
行为
识别
算法
研究
Vol.42,No.2Journal of Inner Mongolia University of Science and Technology第42 卷第2 期June,20232023年6 月内蒙古科技大学学报基于改进双流 ResNet 网络的人体行为识别算法研究贾永乐,周李涌,刘月峰,弓彦章?(1.内蒙古科技大学信息工程学院,内蒙古包头0 140 10;2.内蒙古自治区纪监察大数据实验室包头大数据研发应用中心,内蒙古包头014000)摘要:针对现有的双流卷积神经网络,无法充分的融合视频的时序信息,从而对视频的行为理解不充分的问题,提出了一种改进的双流网络模型首先在原双流网络中,分别将VGG-16神经网络替换为改进的ResNet神经网络,对单顿RGB图像特征进行预处理,将提取到的数据特征输入到改进的残差网络中,其次,在时间流部分,将连续光流图作为改进的ResNet网络结构的输入:最后,将得到的空间静态信息和运动信息在Fusion层进行融合,利用Softmax最大似然函数完成行为识别的任务,得到最终结果实验结果表明:在UCF-101和HMDB-51数据集上,识别算法的平均精度分别为9 4.2%和6 8.4%,与传统方法相比,准确率有所提升,验证了该方法的有效性.关键词:ResNet;光流图;时空特征;人体行为识别中图分类号:TS749.7文献标识码:A文章编号:2 0 9 5-2 2 9 5(2 0 2 3)0 2-0 145-0 4D0I:10.16559/ki.2095-2295.2023.02.009Research on human behavior recognition algorithm basedon improved dual-current ResNet networkJIA Yongle,ZHOU Liyong,LIU Yuefeng,GONG Yanzhang?2(1.Information Engineering School,Inner Mongolia University of Science and Technology,Baotou 014000,China;2.Baotou DataResearch and Application Center,Discipline Inspection and Supervision Big Data Laboratory,Inner Mongolia Autonomous Region,Baotou 014000,China)Abstract:Aiming at the problem that the existing two stream convolutional neural network can not fully fusing the timing information ofvideo,and thus can not fully understand the behavior of video,an improved dual-flow network model is proposed.Firstly,in the orig-inal two stream network,the VGG-16 neural network is replaced by the improved ResNet neural network.The features of single frameRGB image are preprocessed,and the extracted data features are input into the improved residual network.Secondly,in the time flowpart,the continuous optical flow diagram is used as the input of the improved ResNet network structure.Finally,the spatial static in-formation and motion information are fused in the Fusion layer,and the maximum likelihood function of Softmax is used to complete thetask of behavior recognition,and the final result is obtained.Experimental results show that on UCF-101 and HMDB-51 datasets,theaverage accuracy of the proposed algorithm is 94.2%and 68.4%,respectively.Compared with traditional methods,the accuracy isimproved,which verifies the effectiveness of the proposed method.Key words:ResNet;optical flow graph;the space-time characteristics;human action recognition*基金项目:内蒙古自治区自然科学基金资助项目(2 0 19 M506021);内蒙古自治区研究生教育教学改革研究与实践资助项目(YJG 2 0 19 10 12 7 10);内蒙古科技大学专项资助项目(2 0 19 ZD025).作者简介:贾永乐(19 9 2),男,内蒙古科技大学硕士研究生,研究方向为计算机视觉.通信作者:e-mail:g l z l y i mu s t.e d u.c n收稿日期:2 0 2 2-0 3-171462023年6 月第42 卷第2 期内蒙古科技大学学报目前,双流卷积神经网络是行人行为识别任务最广泛的方法1,对比传统的机器学习方法2 双流卷积不仅对图片可以进行静态的特征提取,还可以对视频中的人物运动进行时序上的动作特征提取.FEICHTENHOFER等3 人提出3D卷积,就是将传统的2 D卷积核扩展成3D卷积核原双流神经网络以VGG-16网络为基础模型4,网络结构较浅,无法充分提取图像之中的特征信息,因此对其网络结构进行替换并且改进以改进的ResNet网络模型替代原VGG-16模型,并且在每一层,由运动信息到空间信息的单向传递,融合静态和运动特征.最后,利用Softmax函数分类器对视频进行动作分类,从而实现人体行为识别5 1研究方法1.1数据预处理为防止模型训练中出现过拟合,在实验中,对原数据进行角落裁剪和中心裁剪的数据增强方法6 .从12 5 6,2 2 4,19 2,16 8 4个像素尺度中,随机选取裁剪的宽度和高度,裁剪后的图像4个角和1个中心如图1所示的a,b,c,d和e.将处理之后的图像大小变为2 2 42 2 4,作为时间流和空间流的输入:e原图d图1数据增强1.2改进的时空双流融合网络原双流网络中的2 路网络都采用VGG-16,网络层较浅,对特征的提取非常不充分对时间流和空间流获得的特征信息的识别结果仅取平均值进行融合,忽略了时间信息和空间信息的联系7 因此,针对上述问题,将原网络中的时间流和空间流均采用改进的ResNet网络替换在改进的ResNet网络中,将每个原残差块的输人特征向量分为4个通道其中,除第一个通道外,其余3个通道都使用33的卷积核进行特征提取,并且每个通道间都会进行用堆叠的方式进行特征之间的融合,更充分的提取了图像的特征相较于原网络中的VGG-16,ResNet网络具有更深的网络结构,具体结构设置如图2 所示。Spatital StreamconvlconvsX门X1y1yl332Xy2X2Xy2F3+333x3Re3Xy31CXy3Re3333x4y4lux4y41uFuXXRGB图片顿33sisoftmaxconvlconv5onC1x171ylx1y133X2y22y2F3XXX3X3+x3Re3y3C1y33X1Re3333x4y4lu4y4luXX堆叠的光流图33Temporal Stream图2改进后的双流卷积网络如图2 所示将原视频数据分预处理为RGB视频顿图像和连续的光流图,分别输人到单独的网络模型中空间流处理单帧RCB图像信息,以获取图像的静态特征信息。时间流输人堆叠的光流图,检测目标147贾永乐,等:基于改进双流ResNet网络的人体行为识别算法研究的动态运动信息最后在Fusion层利用堆叠融合方式对2 个网络中获取的特征信息进行融合.空间流由10 1个卷积层和1个全连接层组成.如图3(a)所示从Convl到Conv5,每层由11,33,11不同数量的卷积块组成其中Convl由64个7 7 的卷积核组成,后接一层大小为33,步幅为2 的最大池化层,输出大小为112 112 6 4的特征图.Conv2由3组116 4,336 4,11256的卷积块组成,输出大小为5 6 5 6 2 5 6 的特征图.Conv3由4组1112 8,3312 8,11512的卷积块组成.Conv4由2 3组112 5 6,33256,111024的卷积块组成,输出大小为14141024大小的特征图.Conv5由3组11512,33512,112048的卷积块组成,输出大小为14142 0 48 大小的特征图后输入到全连接层,输出1140 9 6 的特征图.时间流部分输入的是堆叠好的连续光流图,大小为2 2 42 2 42 L,如图3(b)所示其中L为连续光流的视频帧数,在卷积网络中执行过程与空间流相同.(a)1121126456x56x2562242243282851214141 0247204811x4096输出特征向量11211264(b)56x562562242242L282851214141 0247x72048 114096输出特征向量图3双流卷积神经网络2实验结果与讨论2.1实验环境与数据实验在Window10系统下进行,计算机显卡为为NVIDIAGeforceRTX3080Ti,搭载了Pytorch框架,2.2参数设置用ImageNet神经网络训练平台中预训练好的ResNet网络初始化特征和网络权重,采用随机梯度下降法优化网络模型,经过对原视频图像的预处理,分别输人到时间流和空间流中,在光流图上的连续长度设置为L=108,初始学习率设置为0.001.其中,2 路网络分别最大训练epoch为500轮,其中空间流每15 0 epoch学习率下降为原来的10%,时间流每经过2 0 0 epoch学习率变为原来的10%.2.3评价指标为综合评估模型的分类性能,采用准确率(A c c)作为评估指标,即:TP+TNAcc(1)TP+FP+FN+TN式中:TP,TN为被正确分类的样本数据;FP,FN为被错误分类的样本数据:2.4实验结果分析1)不同的网络结构模型对比表1不不同的网络结构模型中的实验结果单双流网络结构形态UCF-101HMDB-51单网络结构RGB 帧85.2%53.4%光流图像87.9%58.6%双流网络结构RGB+光流88.3%62.3%分析表1可知:(1)在单网络模型结构中,在1482023年6 月第42 卷第2 期内蒙古科技大学学报UCF-101数据集中,光流图像的单网络结构模型比RCB顿的网络模型识别的准确率高出2.6%.在HMDB-51数据集中,高出5.2%说明在双流网络结构中,光流对结果的影响具有更重要的导向率。(2)双流网络模型的行为识别方法准确度要高于仅光流和仅RGB顿的单网络模型说明在行人行为识别任务中,双流的网络模型方法能够结合静态数据和动态数据,有效地提升了行为识别的精确度。2)与其他的方法对比与其他方法相比,具体如表2:表2与其他算法作比较MethodUCF-101HDMB-51Two-stream+LSTM992.1%55.9%Two-stream+Bi-LSTM1086.9%58.0%CNN+LSTM82.9%61.8%Two-stream fusion 1088.6%54.6%LTCRGB+Flow12 91.7%62.7%本文实验方法94.2%68.4%分析表2 可知:本文实验方法在UCF-101和HDMB-51数据集中的准确度均高于Two-stream+LSTM,Two-stream+Bi-LSTM,CNN+LSTM,Two-streamfusion和LTCRGB+Flow等方法其他算法与本文算法相比较,虽然能够利用时间属性,解决了视频的时间特征难以有效使用的难题但是在输人的过程中,需要对信息特征进行压缩,容易造成时间信息的缺失,使得准确度大大降低在改进的双流网络模型中,采用分割通道方法,对特征间的信息进行充分的信息交换,最大程度避免的特征信息的损失经过实验验证,对视频中的人体行为识别任务,具有更高的识别准确率。3结论提出一种改进双流模型特征融合的视频行为识别方法网络首先对原始视频进行图像预处理,并且利用旋转,裁剪等方法进行数据增强引入光流数据信息,获取多顿之间的时序行为特征,将获取的空间特征和光流信息在网络的全连接层进行融合在UCF-101和HMDB-51数据集上的实验结果验证了本文方法的有效性。参考文献:1TRAN D,BOURDEV L,FERCUS R,et al.Learningspatio temporal features with 3D convolutional networksC/Proceedings of the IEEE international conferenceon computer vision.Santiago,Chile:IEEE,2015:4489.2张继凯,顾兰君.基于骨架信息的人体动作识别与实时交互技术J.内蒙古科技大学学报,2 0 2 0,39(03):266.3FEICHTENHOFER C,PINZ A,ZISSERMANA.Convo-lutional two-stream network fusion for video action recog-nitionCJ/Proceedings of the IEEE conference on com-puter vision and pattern recognition.Las Vegas,NVUSA:IEEE,2016:1933.4周帅骏,任福继,堵俊,等.融合背景先验与中心先验的显著性目标检测J.中国图象图形学报,2 0 17,2 2(5):584.5HE K,ZHANG X,REN S,et al.Deep residual learningfor image recognition CJ/Proceedings of the IEEE con-ference on computer vision and pattern recognition.Las,Vegas,NV,USA:IEEE,2016,770.6ZACH C,POCK T,BISCHOF H.A duality based ap-proach for realtime TV-Lloptical flow CJ/Proceedingsof the 2007 joint pattern recognition symposium,LNCS4713.Heidelberg,Germany,2007:214.7张继凯,马浩宇.基于单目RCB摄像头的空间结构识别算法.内蒙古科技大学报,2 0 19,38(0 3):2 6 5.8SIMONYAN K,ZISSERMAN A.Two-stream convolution-al networks for action recognition in videos CJ/Pro-ceedings of the 27th international conference on neural in-formation processing systems.Cambridge:MIT Press,2014:568.9王毅,马翠红,毛志强.基于时空双流融合网络与Attention模型的行为识别.计算机应用与软件,2020,37(08):156.10DAI C,LIU X,LAI J.Human action recognition usingtwo-stream attention based LSTM networksJJ.AppliedSoft Computing,2020,86:105820.11黄友文,万超伦,冯恒.基于CNN 与LSTM 的多特征融合人体行为识别算法.激光与光电子学进展,2019,56(7):71.12VAROL G,LAPTEV I,SCHMID C.Long-term tempo-ral convolutions for action recognition JJ.IEEE Trans-actions on Pattern Analysis&Machine Intelligence,2018,40(6):1510.(责任编辑:师宝萍)