温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
堆叠
沙漏
网络
动物
姿态
估计
张雯雯
第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于改进堆叠沙漏网络的动物姿态估计张雯雯1,徐杨1,2,白芮1,陈娜1(1.贵州大学 大数据与信息工程学院,贵阳 550025;2.贵阳铝镁设计研究院有限公司,贵阳 550009)摘要:堆叠沙漏网络在动物姿态估计任务中得到成功应用,但其编码-解码过程容易丢失网络的浅层信息,影响了检测精度。针对该问题,提出基于改进堆叠沙漏网络的动物姿态估计模型。设计一种基于 SE 注意力机制的多尺度最大池化模块,完成多尺度信息的提取,解决池化后信息大量丢失的问题,提高网络获取全局信息的能力,同时提出多级特征融合方法,充分提取和融合特征信息。在此基础上,嵌入 CBAM 注意力机制,学习特征融合权重,提升网络对多通道信息的提取能力,抑制无效特征,使网络提取出更丰富、细腻的特征。在 TigDog数据集和合成动物数据集上进行训练和测试,结果表明,该模型估计性能优于 Syn、BDL、CyCADA 和 CC-SSL 模型,其对于马和老虎的 PCK0.05 指标较次优的 CC-SSL 模型分别提高 4.6%和 3.5%。消融实验结果也验证了整个网络体系结构的先进性和有效性。关键词:动物姿态估计;堆叠沙漏网络;多尺度信息提取;注意力机制;特征融合开放科学(资源服务)标志码(OSID):中文引用格式:张雯雯,徐杨,白芮,等.基于改进堆叠沙漏网络的动物姿态估计 J.计算机工程,2023,49(2):263-270.英文引用格式:ZHANG W W,XU Y,BAI R,et al.Animal pose estimation based on improved stacked hourglass network J.Computer Engineering,2023,49(2):263-270.Animal Pose Estimation Based on Improved Stacked Hourglass NetworkZHANG Wenwen1,XU Yang1,2,BAI Rui1,CHEN Na1(1.College of Big Data and Information Engineering,Guizhou University,Guiyang 550025,China;2.Guiyang Aluminum-magnesium Design and Research Institute Co.,Ltd.,Guiyang 550009,China)【Abstract】The Stacked Hourglass Network(SHN)has been successfully applied in animal pose estimation tasks,but it easily loses the shallow information of the network during the encode-decode process,which affects the detection accuracy.To address this problem,an animal pose estimation model based on improved SHN is proposed.A multi-scale maximum pooling module based on Squeeze-and-Excitation(SE)attention is designed to complete the extraction of multiscale information,address the large loss of information after pooling,and improve the ability of the network to obtain global information.Simultaneously,a multilevel feature fusion method is proposed to fully extract and fuse the feature information.Based on the Convolutional Block Attention Module(CBAM),an attention mechanism is embedded to learn feature fusion weights,improve the networks ability to extract multichannel information,suppress invalid features,and make the network extract richer and more detailed features.The proposed model is trained and tested on the TigDog and synthetic animal datasets.The results show that the proposed model outperforms the Syn,BDL,CyCADA,and CC-SSL models;its PCK0.05 index for horses and tigers is 4.6%and 3.5%higher than that of the suboptimal CC-SSL model,respectively.The experimental ablation results also verify the advancement and effectiveness of the entire network architecture.【Key words】animal pose estimation;Stacked Hourglass Network(SHN);multi-scale information extraction;attention mechanism;feature fusionDOI:10.19678/j.issn.1000-3428.00636990概述 人体姿态估计作为计算机视觉领域的主要研究方向1,应用范围十分广泛。目前,姿态估计存在2个方面的难点2:不同摄影机角度和遮挡目标的检测与识别以及运算效率。姿态估计最初基于图像结基金项目:贵州省科技计划(黔科合支撑 2021 一般 176)。作者简介:张雯雯(1997),女,硕士研究生,主研方向为计算机视觉、机器学习;徐 杨(通信作者),副教授、博士;白 芮、陈 娜,硕士研究生。收稿日期:2022-01-05 修回日期:2022-03-12 Email:开发研究与工程应用文章编号:1000-3428(2023)02-0263-08 文献标志码:A 中图分类号:TP182023年 2月 15日Computer Engineering 计算机工程构3,即使用树形结构来模拟身体各部分之间的空间关系。但是当身体存在遮挡时,会导致重复计算。随着机器视觉的快速发展,研究者开始采用卷积神经网络的方法进行计算,大幅提高了姿态估计的准确性4。近年来,动物姿态估计在动物学、生态学、生物学和农业等领域广泛应用5。动物姿态估计的基本目标是定位并解析动物关键点,如下巴、腿和臀部等。目前,用于研究动物姿态估计的网络主要是深度卷积神经网络,其按阶层结构对输入信息逐层提取抽象特征并学习计算,最终得到动物关键点。现有包含动物图像的数据集多数都是为分类和检测而构建的,只有极少数是为解析动物关键点而构建的6,而为动物标注大量数据集代价非常高。目前,采用深度学习方法进行人体姿态估计已经获得了显著的成果,但由于缺乏大量动物标注数据集,深度学习方法并不适合解析动物,将现有的深度学习方法直接应用于动物姿态估计是不可行的。由于合成动物数据集7的成本较低,产生具有丰富真实地面的合成动物数据集也更容易,因此许多研究者在进行实验时使用合成数据。然而,合成数据和真实数据之间存在很大的域间隙8,从而使得在合成数据上训练的模型不能很好地应用到真实数据上。研究者经实验发现,通过联合使用合成动物数据集和真实动物数据集,可使成本最小而效果达到最优9。CHANG 等10创建了包含多种 3D 模型的ShapeNet,但其中 SMPL是为人类构建的;CAO 等11提出一种跨域自适应方案来学习人类和动物图像之间的共享特征空间,从现有的人类姿势数据集中进行学习,此外,还根据置信度得分选择伪标签进入训练;ZUFFI等12为了恢复更详细的动物三维形状,提出从真实动物复制纹理,并以端到端的方式预测动物的 3D 网格;VAROL 等13为研究可变形对象的解析,渲染了真实的合成人体模型以缩小合成数据和真实数据之间的差距;TOSHEV 等14提出深度姿态DeepPose 估计网络,针对人体关键点进行深度神经网络回归学习,但该网络很难检测到精确的小目标;CHEN 等15提 出 的 级 联 金 字 塔 网 络(Cascaded Pyramid Network,CPN),使人体被遮挡关键点的检测性能得到改善,但因缺乏关节间的结构信息,该方法对多尺度的姿态估计泛化性能较差;NEWELL等16提出用于姿态估计的堆叠沙漏网络(Stacked Hourglass Network,SHN),其改进版本在人体姿态估计领域得到了成功应用17,但在高低分辨率恢复过程中会产生误差,导致检测精确度不高。本文将堆叠沙漏网络作为动物姿态的基本网络框架并进行改进,联合使用合成动物数据集和真实动物数据集训练模型,解决动物姿态估计缺乏数据标签的问题。设计基于 SE(Squeeze-and-Excitation)注意力机制的多尺度最大池化模块 MMPM-S,融合4种不同尺度下的图像特征,解决池化操作后特征信息大量丢失的问题。针对沙漏网络在编码-解码过程中丢失网络浅层定位信息的问题,设计基于 CBAM(Convolutional Block Attention Module)注意力机制的改进沙漏模块 IHNM-C,并进行多级特征融合,从而提高网络对多通道信息的提取能力,优化需要融合的特征信息,以最小的参数代价有效提高网络精度。1堆叠沙漏网络 堆叠沙漏网络(SHN)利用多尺度特征来识别姿态,其由多个沙漏模块(Hourglass Module,HM)串联而成,能够在多尺度空间中进行特征提取及融合,解决模型参数量大和计算量大的问题18。如图 1 所示,HM 形状呈沙漏状,结构类似镜像结构(彩色效果见 计算机工程 官网 HTML版,下同)。HM 使用编码-解码(encode-decode)的结构,主要由下采样和上采样操作构成。下采样的目的是降低分辨率和计算的复杂度,上采样通过最近邻插值法进行,目的是提高图像特征的分辨率,这种自上而下和自下而上的设计使得网络在每个尺度上都能提取关节点特征,层层叠加后得到最后一层特征图,既保留了所有层的信息,又能和原图的大小一致。本文使用的堆叠沙漏网络由 4 个主要的沙漏网络构成。由于沙漏网络整合了局部和全局的信息,因此 SHN 对每个沙漏网络的输出热图和真实热图都进行了损失计算,通过级联结构的沙漏网络和多阶段中间监督对整个图像的初始特征和检测结果进行预测,如图 2所示。2本文模型 本文以 SHN 作为基础网络进行改进,设计多尺度最大池化模块 MMPM-S,解决模型容易丢失网图 2中间监督过程Fig.2Process of intermediate supervision图 1沙漏模块结构Fig.1Structure of hourglass module264第 49卷 第 2期张雯雯,徐杨,白芮,等:基于改进堆叠沙漏网络的动物姿态估计络 浅 层 信 息 的 问 题;同 时 设 计 单 个 沙 漏 模 块IHNM-C,提高网络对多通道信息的提取能力