温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
高分辨率
网络
轻量型
人体
姿态
估计
研究
钟宝荣
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程基于高分辨率网络的轻量型人体姿态估计研究钟宝荣,吴夏灵(长江大学 计算机科学学院,湖北 荆州 434000)摘要:现有人体姿态估计网络通常采用增加网络模型深度的方式来提高预测精度,但是导致网络模型的参数量以及运算复杂度增加。为此,在高分辨率网络的基础上提出一种融入 Ghost模块、Sandglass模块以及注意力机制的轻量型人体姿态估计网络 GSENet。参考基础残差模块 Bottleneck以及 Basicblock,将 Bottleneck模块中的标准卷积替换为 Ghost卷积,并且将 Basicblock模块中的卷积替换为 Sandglass模块,通过这种方式重新构建基础模块 GSEneck以及GSEblock。在此基础上,加入注意力机制以保证网络的预测精度。实验结果表明,相比 HRNet,GSENet在 COCO数据集上的参数量和运算复杂度分别减少84.6%和76.1%,在MPII数据集上的参数量和运算复杂度降低84.6%和76.8%,在保持一定预测精度的情况下,GSENet网络模型能够有效地减少网络参数量并降低运算复杂度。关键词:人体姿态估计;高分辨率网络;轻量型网络;注意力机制;深度卷积神经网络开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(4):226-232,239.英文引用格式:ZHONG B R,WU X L.Research on lightweight human pose estimation based on high-resolution network J.Computer Engineering,2023,49(4):226-232,239.Research on Lightweight Human Pose Estimation Based on High-Resolution NetworkZHONG Baorong,WU Xialing(College of Computer Science and Technology,Yangtze University,Jingzhou 434000,Hubei,China)【Abstract】The existing human pose estimation network improves the prediction accuracy by increasing the depth of the network model,which leads to an increase in the number of parameters and computational complexity of the model.Therefore,a lightweight human pose estimation network GSENet is proposed,based on a high-resolution network,integrating the Ghost module,Sandglass module,and attention mechanism.Referring to the basic residual modules Bottleneck and Basicblock,the standard convolution in Bottleneck is replaced by Ghost convolution,and the convolution in Basicblock is replaced by the Sandglass module.The basic modules GSEneck and GSEblock are rebuilt so as to reduce the number of parameters and the complexity of the calculation.An attention mechanism is added to ensure the prediction accuracy of the network.The experimental results show that compared with HRNet,the number of parameters and computational complexity of GSENet are reduced by 84.6%and 76.1%,respectively,on the COCO dataset and by 84.6%and 76.8%,respectively,on the MPII dataset.The GSENet network model can effectively reduce the number of network parameters and computational complexity while maintaining a certain prediction accuracy.【Key words】human pose estimation;high-resolution network;lightweight network;attention mechanism;deep Convolutional Neural Network(CNN)DOI:10.19678/j.issn.1000-3428.00652620概述人体姿态估计是从图像或者视频中检测和定位出人体关节的坐标位置以及方向。人体姿态估计作为计算机视觉的基本任务之一,在动作识别1、智能识别2、人机交互3等领域都有着极其重要的作用。人体姿态估计算法主要分为基于图模型和基于深度学习的两种方法4。FISCHLER 等5提出的图结构模型算法是在图结构和形变部件模型的基础上设计人体部件检测器,通过图模型建立各部件之间基金项目:国家自然科学基金(62006028)。作者简介:钟宝荣(1963),男,教授,主研方向为图形图像处理、机器学习;吴夏灵(通信作者),硕士研究生。收稿日期:2022-07-18 修回日期:2022-09-05 Email:图形图像处理文章编号:1000-3428(2023)04-0226-07 文献标志码:A 中图分类号:TP391.4第 49卷 第 4期钟宝荣,吴夏灵:基于高分辨率网络的轻量型人体姿态估计研究的连通性,并参考人体运动学不断优化图结构模型。这种算法的优点在于实现简单、匹配速度快,但是在复杂背景环境下(例如,角度的不同以及人体结构被遮挡),其准确性会大幅度下降。在深度学习迅速发展的情况下,融入深度卷积神经网络(Convolutional Neural Network,CNN)6的人体姿态估计方法逐步取代传统的图结构模型,成为主流的人体姿态估计方法。TOSHEV 等7提出的DeepPose将人体姿态估计看作对人体关键点的回归问题,有效提高人体姿态估计的准确性。WEI 等8提出的 CPM 使用级联卷积结构学习隐式空间模型,进一步提高人体关键点检测的准确度。NEWELL等9提出的堆叠沙漏网络 Hourglass通过重复地将高分辨率图像下采样降低到低分辨率,再上采样恢复高分辨率,这种方法能获得更强的语义信息,从而提高准确率。SUN 等10提出高分辨率网络 HRNet,通过并联方式将不同分辨率的网络进行连接,在整个网络模型中都保持高分辨率特征图,有效地提高对人体关键点预测的准确度。LIU 等11在视频人体姿态估计方法中采用一个三阶段多特征深度卷积的方式来提高对人体关键点的预测。CHENG 等12提出的 Higher-HRNet 在 HRNet 的基础上通过加入多尺度监督以及反卷积的模块,提高特征图的分辨率,从而获得更好的预测效果。GENG 等13提出 DEKR,通过单独对每个关键点进行特征提取和回归的方式来提高关键点预测的准确度。上述人体姿态估计算法性能的提升通常伴随着网络模型参数量和运算复杂度的增加,在保证网络模型高性能的基础上不增加参数量和运算复杂度是当前改进人体姿态估计网络模型需要考虑的问题之一。XIAO 等14提出的 Simple Baseline 模型主要是在主干网络后添加反卷积来得到高分辨率的特征图,在保证一定精度的情况下减少参数量和运算复杂度。ZHOU 等15在 MobileNeXt 中提出的 Sandglass模块是在保证网络模型性能的基础上减少模型的参数量和运算复杂度。HAN 等16在 GhostNet 中提出一种 Ghost模块用于改进普通卷积,以降低参数量和运算复杂度。YU 等17在 Lite-HRNet中提出一个新的轻量级单元,将人体姿态估计网络轻量化,但预测精度大幅度下降。本文在高分辨率网络(HRNet)的基础上引入Sandglass 模块以及 Ghost 模块,提出一种轻量型人体姿态估计网络 GSENet,在保证一定精度的情况下降低模型参数量以及运算复杂度。GSENet 参考Bottleneck 和 Basicblock 设 计 GSEneck 和 GSEblock两 个 基 础 模 块,将 Bottleneck 的 标 准 卷 积 替 换 为Ghost 模 块,以 Basicblock 的 标 准 卷 积 替 换 为Sandglass 模块的方法,达到使高分辨率网络 HRNet轻量化的目的,在此基础上,引入轻量级的高效通道注意力(Efficient Channel Attention,ECA)18机制,提高 GSENet的预测精度。1相关工作1.1高分辨率网络在高分辨率网络(HRNet)提出前,传统网络大多采用先降低分辨率再恢复高分辨率的串行连接方式,而 HRNet采用多分辨率并行的方式使网络能够始终保持高分辨率。HRNet通过高分辨率和低分辨率之间的信息交互达到增强特征信息的目的,相比于传统网络减少了信息损耗。HRNet网络可以分为四个阶段。第一阶段主要包含一个高分辨率子网,从第二阶段开始每一阶段添加一个低分辨率的子网,新增子网的分辨率是上一阶段最低分辨率的 1/2。每一阶段都会通过多分辨率块进行信息交互,多分辨率块包括多分辨率组卷积以及多分辨率卷积两种。多分辨率组卷积和多分辨率卷积的结构分别如图 1和图 2所示。不同尺度的特征可以通过不同分辨率的特征图展现,因此,融合后的特征能够提高人体姿态估计的准确度。1.2轻量型网络网络模型性能的提升通常伴随着参数量和计算量的增加,而模型加速方法主要包括轻量化网络设计和图 1多分辨率组卷积结构Fig.1Structure of multi-resolution group convolution图 2多分辨率卷积结构Fig.2Structure of multi-resolution convolution2272023年 4月 15日Computer Engineering 计算机工程模型压缩。轻量化网络是在保持原有骨干网络精度的基础上对卷积神经网络的深度或者宽度进行改进,以达到减少参数量和计算量的目的。KRIZHEVSKY等19在AlexNet中提出的分组卷积将特征图分给多个GPU进行处理,最终融合多个GPU的处理结果。WANG等20提出的MobileNetV1通过将常规卷积替换成深度可分离卷积的方式来构建轻量型网络模型,这种方式在达到同样卷积效果的同时有效降低参数量和运算复杂度。1.3注意力机制注意力机制的本质是通过网络自主学习得到的一组权重系数,并给重要信息分配高权重,使网络关注更重要的信息,从而提高网络模型的预测精度。注意力机制分为软注意力和硬注意力两类:硬注意力把区域被选中的概率作为权重,权重值只有0 和 1 两种,不可优化学习;软注意力把区域被选中的比例作为权重,权重值在 0,1 内,并且可学习优化。软注意力机制包括空间注意力、通道注意力和自