人体解析与姿态估计作为人类行为理解领域的两个主要任务,在视觉上具有很强的相关性,合理地对这两个任务联合学习不仅能够让它们互相受益,而且能够节省计算资源。最开始学者们使用传统算法来联合人体解析与姿态估计,早期的传统算法[1]使用手工设计的算子来对图片提取特征,并分布执行人体解析与姿态估计。2017年,文献[2]首次提出了基于深度学习的方法来联合这两个任务,利用卷积神经网络(CNN)设计了两个分支的结构,先后完成姿态估计和人体解析。然而,该网络并不是端到端的,后续的研究逐渐往端到端的方向发展。人体解析和姿态估计可以看作两个独立的任务,粗糙地组合它们会极大地增加模型的资源占用,且严重地影响推理速度。其次,另一个需要解决的问题是如何对两个任务的相关性进行建模,从而保证两个任务有一致性的性能。为了改进这些问题,本文提出了一个轻量级的联合网络来快速地实现两个任务的性能一致性。1研究方法1.1网络整体结构本文所提出的轻量级联合网络如图1所示,该网络可以划分为三个阶段。首先,输入图片经过倒三角骨干网络提取骨干特征;然后,由于人体解析与姿态估计共享上述提取的骨干特征,为了获取两个任务的判别性特征,本文设计了一个交互解耦模块,从骨干特征中分别解耦出解析特征与姿态特征;最后,解析特征与姿态特征分别经过解析头与姿态头来进行输出预测。图1总体框架1.2倒三角骨干网络为了设计一个轻量级的联合网络,本文提出了一个轻量而高效的倒三角骨干网络,其细节结构如图2所示。首先,输入图片经过两层步长为2,卷积核大小为3×3的卷积,其分辨率降到原图的1/4。然后,使用三层步长为2的卷积进行下采样,使特征的分辨率逐渐降到原图的1/32。这样可以获取4个尺度的特征,其分辨率分别为原图的(1/4,1/8,1/16,1/32)。紧接着,对这4个尺度上的特征并行前向传播。这个并行前向传播的过程可以分为多分支单独传播和多分支交互传播。其中,多分支单独传播过程中每个分支是单独传播,互不干涉的;而多分支交互传播每个尺度的分支将会与其他分支进行交互,聚合多尺度信息。图2倒三角骨干网络结构具体而言,从四个尺度收集的特征通过逐元素相加融合多尺度信息。设四个尺度的输入特征用Fi表示,i={14,18,116,132},则在不同尺度上聚合后的特征计算方法为:Faggi=∑iConv(Fi)(1)其中Conv(Fi)代表对Fi实行卷积操作。在经过上述两个传播过程后,倒三角骨干会输出一个1/4尺度的特征,它融合了不同尺度...