基于
改进
网络
儿童
动作
分类
陈庆澎
2023.04 科学技术创新基于改进残差网络的儿童动作分类陈庆澎1,管雪梅2*,徐岗翔2,让博慧2,周一鸣2(1.东北林业大学 信息与计算机工程学院,黑龙江 哈尔滨;2.东北林业大学 机电工程学院,黑龙江 哈尔滨)引言处于学前阶段的儿童,活动能力尚弱,活动范围小,根据 中国儿童伤害报告 的报告表明,36 岁的儿童每天在室内的时间占比高1-2,而此阶段的儿童对于危险的感知较弱,无法及时辨认环境危险。针对室内情况下的儿童动作识别可以对即将到来的危险进行预警,从而避免悲剧的发生。当前,姿态评估的数据集常见数据集有 KTH 数据集3,HMDB 数据集4。KTH 数据集人物背景单一,不适合室内的复杂情况,HMDB 数据集中人物背景复杂,但儿童部分数据过少。本文使用室内场景较多且包含儿童的 A2D 数据集。本文采用 2D 卷积网络5,以残差网络 Resnet(Residential network)6作为分类网络,对图像中的人物动作进行分类。由于室内环境复杂,物品多,因此,人物背景信息的冗余信息多。为解决传统残差网络在训练的过程中无法很好地学习标签特征,其对测试集的准确率低,泛化性能差,过拟合现象严重的问题,本文引入 CABM(Convolutional Block Attention Module)注意力模块7-9,通过注意力机制向不同的样本,将注意力图与输入特征图相差以进行自适应特征优化,从而缓解过拟合现象。1网络架构1.1残差网络残差网络 Resne 是何凯明等人在 2015 年提出的模型,作者通过加入残差结构解决退化问题。Resnet在处理深层网络表现出较好的效果,见图 1。图 1残差结构1.2CBAM 卷积注意力模块Mnih 等最初在图像处理方面引入了注意力机制概念,通过计算输入数据的权重,突出某个关键输入摘要:对室内无人或室内弱监督情况下的儿童动作分类可以很好的预防儿童危险行为的发生。传统姿态分类公开数据集 KTH,HMDB 中人物背景单一。对此,采用实景拍摄的 A2D 公开数据集,人物背景较为复杂。传统残差网络在此数据集的中提取有效特征的能力较差。对此,首先将数据集进行多种数据增强,在残差网络Resnet34 中引入通道与空间上的注意力机制 CBAM(Convolutional Block Attention Module),最后将提取特征送入全连接层,实现对图片中的儿童动作的分类。结果显示,改进残差网络在测试集上的准确率为 79.8%,比传统残差网络的准确率提升了 10%,满足室内儿童动作分类的要求。关键词:儿童危险;注意力机制;残差网络;动作分类中图分类号:TP391文献标识码:A文章编号:2096-4390(2023)04-0097-04基金项目:国家级大学生创新创业计划资助项目(202210225376)。作者简介:陈庆澎(2001),男,本科,研究方向:计算机视觉。通讯作者:管雪梅(1980),女,博士,副教授,研究方向:计算机智能配色。97-科学技术创新 2023.04对输出的影响。注意力机制是将模型注意力集中在局部关键信息的机制,分成两步:首先,全局扫描发现局部有用信息;其次,对有用信息增强同时抑制冗余信息。CBAM 是一种注意力机制模块,结合了空间(spatial)和通道(channel)的注意力机制模块。相比于Senet 只关注通道(channel)的注意力机制可以取得更好的效果。根据图 2 可以看到,从卷积层输出的结果,先通过一个通道注意力模块,进行加权之后,再通过一个空间注意力模块,加权得到最终结果。2数据集2.1数据集介绍本实验采用 A2D 公开数据集。相对于 KTH,HMDB 公开数据集,A2D 数据集中来自日常生活数据,人物背景更加复杂,更贴近真实情况。A2D 数据集中的儿童部分包含三类动作共计 343个视频,并且视频同时标有像素级 actor 和采样帧的action。本文采用等间隔截取视频帧,将视频数据集图片集。转化为其中,前 80 段为训练集,后 20 段为测试集。其中训练集,训练测试集,训练结束测试集按照 4:1 的比例划分,见表 1。表 1儿童数据集介绍2.2数据增强数据增强技术很大程度上减小了网络过拟合问题,提高了模型的泛化性10。此外,与数据增强后的实验结果相比,数据增强处理前的训练集与测试集准确率的差值更大,数据增强使得模型泛化能力得到提升,同时改善模型的过拟合,见表 2。表 2数据增强3实验以及结果分析3.1实验环境见表 3。表 3实验环境3.2训练结果本文通过将 Resnet 网络模型和添加 CBAM 的Resnet 识别效果进行对比,对模型的精准度进行测试。二者在训练过程中的准确率见图 3,损失值见图 4。动作 图片数量 伏地 1783 攀爬 1284 直立 1283 数据增强方法 参数 图片尺寸格式化(400,400)图片亮度 0.2-2 随机翻转角度 15 随机水平翻转 True 实验环境 版本 GPU Geforce RTX3090(24G)CPU Xeno Go1d 6130 Torch 1.8.0+Cu111 Torchversion 0.9+Cu111 图 2CBAM 模块98-2023.04 科学技术创新图 5测试集的正确率可以看出,添加 CBAM 后的 Resnet 训练过程中的准确率与损失没有明显变化。二者在测试集的数据见图 5,可以看到,Resnet 在测试集的准确率在到达 60%开始波动,但训练集的准确率依旧上升,表明模型陷入过拟合,在添加 CBAM后 Resnet 的准确率开始上升,最高可达到 79.6%。实验表明,添加 CBAM 后的 Resnet 很好地缓解了过拟合现象。4结论儿童动作的识别可以很好地为儿童无人监管情况下的安全问题引入一个新的思路。由于数据集数据量小,模型无法避免过拟合现象,但通过引入CBAM 结构,可以很好地缓解模型过拟合问题。通过改进残差网络,对儿童动作进行识别,其正确率满足实际要求。参考文献1宋娟,邵凯,张丙亮,等.中国城区 06岁儿童家庭内非故意伤害危险行为量表编制及考评 J.中华流行病学杂志,2021,42(9):1662-1669.2王孜宇,胡明,余涛霖,等.长沙市城区06 岁儿童伤害发生现状及影响因素分析J.中国卫生统计,2020,37(1):14-17.3Shou,Z.,Gao,H.,Zhang,L.,et al.(2018).AutoLoc:Weakly-SupervisedTemporalActionLocalizationinUntrimmed Videos.Computer Vision-ECCV 2018,162-179.4H.Kuehne,H.Jhuang,E.Garrote,et al,HMDB:A large video databaseforhumanmotionrecognition,2011InternationalConferenceonComputerVision,2011,pp.2556-2563,10.1109/ICCV.2011.6126543.5Feichtenhofer C,Fan Haoqi,JitendraMalik,etal.SlowFastnetworksforvideorecognitionalC/IEEEInternationalConferenceonComputerVision.2019:6202-62116He K,Zhang X,Ren S,et al.Deep residuallearning for image recognition C/Proceedings of2016IEEEConferenceonComputerVisionandPatternRecognition.WashingtonDC:IEEE,2016:770778.图 3训练过程中的准确率图 4训练过程中的损失值99-科学技术创新 2023.04Action Classification of Children Based onImproved Residual NetworksChen Qingpeng1,Guan Xuemei2*,Xu Gangxiang2,Rang Bohui2,Zhou Yiming2(1.Department of Information and Computer Engineering,Northeast Forestry University,Harbin,China;2.Department of Electrical and Mechanical Engineering,Northeast Forestry University,Harbin,China)Abstract:Classifying childrens movements when there is no indoor or weak indoor supervision can wellprevent the occurrence of childrens risky behaviors.The traditional pose classification public dataset KTH,HMDB has a single background of characters.In this regard,the A2D public dataset used in real actionshooting has a complex background of the characters.Traditional residual networks have a poor ability toextract valid features from this dataset.In this regard,a variety of data enhancements are made to thedataset,and the attention mechanism CBAM(Convolutional Block Attention Module)on the channel and spaceis introduced in the residual network Resnet34,and finally the extracted features are sent to the fullyconnected layer to realize the classification of childrens actions in pictures.The results show that theaccuracy of the improved residual network on the test set is 79.8%,which is 10%higher than that of thetraditional residual network,which meets the requirements of indoor childrens motor classification.Key words:child danger;attention mechanisms;residual network;action classification7张宇,张雷.融入注意力机制的深度学习动作识别J.电讯技术,2021,61(10):1205-1212.8WooS,ParkJ,LeeJY,etal.CBAM:convolutional block attention module C/Proceedingsof European Conference on Computer Vision.Munich:Springer,2018:319.9Mnih V,Heess N,Graves A.Recurrent models ofvisual attention J.Ad