2023.04科学技术创新基于改进残差网络的儿童动作分类陈庆澎1,管雪梅2*,徐岗翔2,让博慧2,周一鸣2(1.东北林业大学信息与计算机工程学院,黑龙江哈尔滨;2.东北林业大学机电工程学院,黑龙江哈尔滨)引言处于学前阶段的儿童,活动能力尚弱,活动范围小,根据《中国儿童伤害报告》的报告表明,3~6岁的儿童每天在室内的时间占比高[1-2],而此阶段的儿童对于危险的感知较弱,无法及时辨认环境危险。针对室内情况下的儿童动作识别可以对即将到来的危险进行预警,从而避免悲剧的发生。当前,姿态评估的数据集常见数据集有KTH数据集[3],HMDB数据集[4]。KTH数据集人物背景单一,不适合室内的复杂情况,HMDB数据集中人物背景复杂,但儿童部分数据过少。本文使用室内场景较多且包含儿童的A2D数据集。本文采用2D卷积网络[5],以残差网络Resnet(Residentialnetwork)[6]作为分类网络,对图像中的人物动作进行分类。由于室内环境复杂,物品多,因此,人物背景信息的冗余信息多。为解决传统残差网络在训练的过程中无法很好地学习标签特征,其对测试集的准确率低,泛化性能差,过拟合现象严重的问题,本文引入CABM(ConvolutionalBlockAttentionModule)注意力模块[7-9],通过注意力机制向不同的样本,将注意力图与输入特征图相差以进行自适应特征优化,从而缓解过拟合现象。1网络架构1.1残差网络残差网络Resne是何凯明等人在2015年提出的模型,作者通过加入残差结构解决退化问题。Resnet在处理深层网络表现出较好的效果,见图1。图1残差结构1.2CBAM卷积注意力模块Mnih等最初在图像处理方面引入了注意力机制概念,通过计算输入数据的权重,突出某个关键输入摘要:对室内无人或室内弱监督情况下的儿童动作分类可以很好的预防儿童危险行为的发生。传统姿态分类公开数据集KTH,HMDB中人物背景单一。对此,采用实景拍摄的A2D公开数据集,人物背景较为复杂。传统残差网络在此数据集的中提取有效特征的能力较差。对此,首先将数据集进行多种数据增强,在残差网络Resnet34中引入通道与空间上的注意力机制CBAM(ConvolutionalBlockAttentionModule),最后将提取特征送入全连接层,实现对图片中的儿童动作的分类。结果显示,改进残差网络在测试集上的准确率为79.8%,比传统残差网络的准确率提升了10%,满足室内儿童动作分类的要求。关键词:儿童危险;注意力机制;残差网络;动作分类中图分类号:TP391文献标识码:A文章编号:2096-4390(2023)04-0097-04基金项目:国家级...