分享
联合人体解析与姿态估计的轻量级网络_黄雨行.pdf
下载文档

ID:2289754

大小:2.53MB

页数:3页

格式:PDF

时间:2023-05-05

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
联合 人体 解析 姿态 估计 轻量级 网络 黄雨行
人体解析与姿态估计作为人类行为理解领域的两个主要任务,在视觉上具有很强的相关性,合理地对这两个任务联合学习不仅能够让它们互相受益,而且能够节省计算资源。最开始学者们使用传统算法来联合人体解析与姿态估计,早期的传统算法1使用手工设计的算子来对图片提取特征,并分布执行人体解析与姿态估计。2017年,文献2首次提出了基于深度学习的方法来联合这两个任务,利用卷积神经网络(CNN)设计了两个分支的结构,先后完成姿态估计和人体解析。然而,该网络并不是端到端的,后续的研究逐渐往端到端的方向发展。人体解析和姿态估计可以看作两个独立的任务,粗糙地组合它们会极大地增加模型的资源占用,且严重地影响推理速度。其次,另一个需要解决的问题是如何对两个任务的相关性进行建模,从而保证两个任务有一致性的性能。为了改进这些问题,本文提出了一个轻量级的联合网络来快速地实现两个任务的性能一致性。1研究方法1.1网络整体结构本文所提出的轻量级联合网络如图1所示,该网络可以划分为三个阶段。首先,输入图片经过倒三角骨干网络提取骨干特征;然后,由于人体解析与姿态估计共享上述提取的骨干特征,为了获取两个任务的判别性特征,本文设计了一个交互解耦模块,从骨干特征中分别解耦出解析特征与姿态特征;最后,解析特征与姿态特征分别经过解析头与姿态头来进行输出预测。图1总体框架1.2倒三角骨干网络为了设计一个轻量级的联合网络,本文提出了一个轻量而高效的倒三角骨干网络,其细节结构如图2所示。首先,输入图片经过两层步长为2,卷积核大小为33的卷积,其分辨率降到原图的1/4。然后,使用三层步长为2的卷积进行下采样,使特征的分辨率逐渐降到原图的1/32。这样可以获取4个尺度的特征,其分辨率分别为原图的(1/4,1/8,1/16,1/32)。紧接着,对这4个尺度上的特征并行前向传播。这个并行前向传播的过程可以分为多分支单独传播和多分支交互传播。其中,多分支单独传播过程中每个分支是单独传播,互不干涉的;而多分支交互传播每个尺度的分支将会与其他分支进行交互,聚合多尺度信息。图2倒三角骨干网络结构具体而言,从四个尺度收集的特征通过逐元素相加融合多尺度信息。设四个尺度的输入特征用Fi表示,i=14,18,116,132,则在不同尺度上聚合后的特征计算方法为:Faggi=iConv(Fi)(1)其中Conv(Fi)代表对Fi实行卷积操作。在经过上述两个传播过程后,倒三角骨干会输出一个1/4尺度的特征,它融合了不同尺度的信息。其次,整个倒三角骨干的前向传播深度只有6层,这说明本文设计的骨干网络是非常轻量级的。这两个优点为设计一个轻量级联合网络提供了极大的帮助。1.3交互解耦模块为了从骨干特征中解耦出针对不同任务而言的判别性特征,本文提出了一个高效的交互解耦模块。图3展示了交互解耦模块的细节构造。交互解耦模块将骨干特征作为输入,通过两个分支并行传播,并且在两个分支中穿插交互,最后输出姿态特征与解析特征。联合人体解析与姿态估计的轻量级网络黄雨行张俊杰曾丹(上海大学通信与信息工程学院,上海200072)A Lightweight Network for Joint Human Parsing and Pose Estimation摘要:人体解析与姿态估计是人类行为理解领域中两个重要的研究方向。其中,人体解析旨在区分人体图像的各个区域,而姿态估计的目标则是在图像中找出人的关节点。由于这两个任务存在天然的相关性,采用一个统一的模型同时实现两个任务,可以使两者相互受益并节省资源消耗。针对该问题,旨在设计一个高效的轻量级网络,以较少的计算资源实现两个任务一致性的高性能。在公开数据集LIP上的实验表明,提出的算法能加快推理速度并具备优良的性能。关键词:人体解析;姿态估计;联合任务;轻量级网络Abstract:Human parsing and pose estimation are two important research directions in the field of human behavior un-derstanding.Among them,human body parsing aims to distinguish various regions of human images,and the goal of poseestimation is to find the joint points of people in the image.Due to the natural correlation between these two tasks,adopt-ing a unified model to realize both tasks can benefit each other and save resource consumption.Aiming at this problem,this paper aims to design an efficient lightweight network that achieves high performance consistent with two tasks with lesscomputing resources.Experiments on the public dataset LIP show that the algorithm proposed in this paper can speed upinference and have excellent performance.Keywords:human parsing,pose estimation,joint task,lightweight network联合人体解析与姿态估计的轻量级网络102工业控制计算机2023年第36卷第2期图3交互解耦模块结构具体而言,首先骨干特征经过两个卷积核大小为33的卷积,来生成两个分支的初始特征。然后,本文使用不同尺寸的全局平均池化来收集多尺度上下文信息。设初始姿态特征为Finipos,初始解析特征为Finipar,全局平均池化函数用GAPss()表示,其中下标ss代表池化后的尺寸。本文考虑了四种不同的池化尺寸,分别为11,22,33以及66:Fssz=GAPss(Finiz)z=pos,par(2)初始姿态特征和初始解析特征池化后,它们会从二维展平到一维,并将四个尺度的特征全部拼接到一起。本文用Fflapos和Fflapar分别表示展平后的姿态特征与解析特征,它们的维度50d,50代表总共的特征数量,d代表特征的维度。为了对两个分支的相关性进行建模,本文使用注意力机制来为每个分支构造一个亲和矩阵。亲和矩阵里包含的是两个分支交互而产生的注意力权重,它融合了来自当前分支和另一个分支的注意力信息,可以为初始的特征在空间维度重新聚合信息。设两个分支的亲和矩阵分别为Apos和Apar,它们可以作为权重矩阵与初始特征进行矩阵的乘法运算。同时,本文使用了残差机制3来生成最终的姿态特征Fpos与解析特征Fpar:Fz=Finiz+AzFinizz=pos,par(3)1.4头结构解析头:本文使用常用的上下文聚合模块PPM3来聚合全局上下文。其次,为了使解析特征能够在学习过程中更加精细,人体解析的头结构还设计了一个额外的辅助分支,使用边缘标签进行监督。最终的解析头结构如图4所示:图4解析头结构姿态头:为了增强多尺度检测能力,本文提出了一种多尺度金字塔融合(Multi-Scale Pyramid Fusion,MSPF)模块,其结构如图5所示。其次,本文在姿态头也添加一个额外的辅助分支,只使用一层卷积核大小为33的卷积进行输出,且该分支的标签为高斯模糊后的姿态估计的热力图标签。1.5损失函数由于人体解析属于分类任务,故使用了交叉熵损失。而姿态估计属于热力图回归任务,其使用的损失函数为均方误差损失。最后,本文使用了不确定性损失结合方法5来结合两个任务的损失:L=112Lpar+log(1)+122Lpos+log(2)(4)其中1和2是可学习的参数,用于平衡两个任务之间的损失。2实验结果分析2.1数据集及评价指标本文在公开数据集LIP6上进行训练和测试,使用mIoU和PCK两个指标分别评估人体解析和姿态估计的性能。LIP数据集包含50 462张图片,其中30 462张用于训练集,10 000张用于验证集,10 000张用于测试集。每张图片都具有19个人体解析的标签和16个姿态估计的关节点标签。2.2实验设置本文使用Pytorch框架搭建模型并使用Adma优化器来训练模型。模型的初始学习率设为0.001,总共训练了120轮,并且在第85轮跟第105轮的时候将学习率降低10倍。2.3实验结果在表1中展示了所提出的轻量级联合网络与相关方法在姿态估计任务上的性能对比。与其他单任务网络相比,本文提出的方法PCK为85.5,在表中所有算法中达到最高。并且,本文的算法在所有关节点上基本都有较大提升,这意味着该算法可以利用人体的语义信息来让辅助所有关节点的检测,从而改善姿态估计性能。这进一步证明,本文提出的联合网络能够利用两个任务的相关性。表1LIP姿态估计性能对比表2展示了所提出的轻量级联合网络与相关方法在人体解析任务上的性能对比。本文提出的方法mIoU为53.58,在表中6个算法中达到最高。本文提出的网络在glove、pants、l-arm、r-arm、l-leg、r-leg、l-shoe、r-shoe这些类别上的性能有巨大提升。这些类别中往往包含着比较显眼的关节点,这表明该网络能够利用到姿态信息来辅助人体解析。表2LIP人体解析性能对比在表3中,本文与联合这两个任务的方法在性能与计算代价、运行速度方面进行了对比。本文提出的联合网络以18.3 M的最低参数量和21.5 G的最低浮点运算次数实现了最高的53.58的mIoU,且PCK依然能达到85.5。除此之外,本文的联(下转第106页)图5MSPF结构表3与联合网络的性能对比103(上接第103页)合网络在单张TITAN XP显卡上的测试速度高达21 fps。这些实验都表明,本文提出的轻量级联合网络可以快速高效地实现两个任务性能的一致性。图6对比了本文方法与JPPNet与MuLA的可视化效果,可以看到,JPPNet在人体解析的性能上比姿态估计好,相对地,MuLA则在姿态估计的性能上更优,而本文的方法能够超越它们,实现两个任务的性能一致性。图6可视化结果对比3结束语本文在公开数据集LIP上进行实验,在人体解析和姿态估计上都获得了优良的性能,并且推理速度远超其他联合算法,证明了本文算法的有效性。参考文献1YAMAGUCHI K,KIAPOUR M H,ORTIZ L E,et al.Parsingclothing in fashion photographsC/CVPR.2012:3570-35772XIA F,WANG P,CHEN X,et al.Joint multi-person pose es-timation and semantic partsegmentation C/CVPR.2017:6769-67783HE K,ZHANG X,REN S,et al.Deep residual learning forimage recognition C/CVPR,2016:770-7784ZHAO H,SHI J,QI X,et al.Pyramid scene parsing networkC/CVPR,2017:2881-28905KENDALL A,GAL Y,CIPOLLA R.Multi-task learning usinguncertainty to weigh losses for scene geometry and seman-ticsC/CVPR,2018:7482-74916GONG K,LIANG X,ZHANG D,et al.Look into person:Self-supe

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开