温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
全局
特征
信息
感知
网络
二维
人体
姿态
估计
第 卷 第 期 年 月北 京 信 息 科 技 大 学 学 报 .文 章 编 号:():/./.基于全局特征信息感知网络的二维人体姿态估计梁国政罗倩张帆郭亚男(.北京信息科技大学 信息与通信工程学院北京.北京信息科技大学 信息产业部重点实验室北京)摘 要:针对高分辨率网络()在人体姿态估计任务中全局特征信息获取能力不足导致的人体关键点预测不够准确的问题提出一种基于全局特征信息感知网络的人体姿态估计模型 该模型采用双分支结构包括 分支和全局特征信息感知分支其中全局特征信息感知分支中全局特征信息获取模块将图片分割成多个序列块再通过编码器获取其全局特征最后通过全局特征信息融合模块将全局特征信息高效地嵌入 分支中 在 数据集和 数据集上的实验结果表明与其他传统的人体姿态估计模型相比改进后模型的精度有明显提升关 键 词:深度学习人体姿态估计特征融合关键点估计中图分类号:文献标志码:(.):().:收稿日期:作者简介:第一作者:梁国政男硕士研究生通信作者:张帆女博士副教授 引言人体姿态估计是计算机视觉领域的重要课题之一其目的是从给定的图像或视频中检测人体关键点的位置信息得到人体骨架图 根据检测人物数量的不同人体姿态估计分为单人人体姿态估计和多人人体姿态估计 卷积神经网络为单人人体姿态估计提供了一个良好的解决方案 等率先提出将卷积神经网络应用于人体关键点检测将整幅带有人物的图片放入七层卷积神经网络做人体关键点回归同时使用级联的卷积神经网络检测器提高关键点的预测准确度 等侧重于使 北京信息科技大学学报第 卷用深层卷积神经网络提取人体关键点之间的内在联系并回归热图提高模型预测结果的稳定性 等提出先获取不同尺度下的人体关键点的特征图再将对应的关键点累加得到最终的关键点特征图多人人体姿态估计分为自顶向下的方法和自底向上的方法 自顶向下的人体姿态估计方法先利用检测器 检测出图片中的人物然后对人物进行姿态估计 例如 等在每个关键点的像素位置生成一个标记之后用检测值匹配与其最接近的标记值对人体关键点进行预测从而实现人体姿态估计 等提出的网络模型以整个图像为输入用双分支卷积神经网络来联合预测人体关键点其中一个分支用于回归人体关键点另一个则回归人体关键点之间的连接最后将人体关键点连接起来形成完整的人体姿态 等提出根据人物尺度大小动态地调整热图高斯核的标准差解决了由于目标人物尺度差异引起的检测率不高的问题 等提出的网络利用多个分支关注每个关键点周围的像素特征并利用这些特征回归关键点的位置从而提高了人体关键点检测的准确率 等提出一种高分辨率网络()为了减少在下采样和上采样过程中特征信息的损失摒弃了之前特征图分辨率由高到低再到高的思想 特征图全程都用高分辨率表示并且不同分辨率特征信息进行多次融合最后输出高分辨率特征图自底向上人体姿态估计方法是检测出图片中人物的关键点然后将关键点逐一连接形成人体姿态例如 等将多个沙漏网络堆叠前一个沙漏网络输出的关键点热图作为后一个沙漏网络的输入因此后一个沙漏网络可以捕捉前一个热图中各个关键点之间的联系从而提升了关键点的预测精度 等同时预测关键点的位置和关键点之间的偏移量对于两个相距较远的关键点使用循环优化方法来得到精确的位置最后模型使用贪婪解码的方式分配关键点到对应的目标人物中 等提出的模型对于一些外观相似而难以区分的关键点如肘关节与膝关节等通过使用注意力模块提取这些关键点周围其他特征信息来确定关键点的归属虽然目前的人体姿态估计方法已经取得了不错的效果但是仍然受到卷积核感受野大小的限制对图片全局信息的感知能力不足 对此本文以 为基础框架提出基于全局特征信息感知网络的二维人体姿态估计 全局特征信息感知网络借助全局特征信息获取模块对输入图片进行分割将其变换为一维序列然后通过编码器中多头注意力机制获取各个部分的特征信 息 最 后 通 过 全 局 特 征 信 息 融 合 模 块 与 进行融合提升模型对图片全局特征信息的感知能力 二维人体姿态估计方法.整体框架本文的网络模型如图 所示分为 和全局特征信息感知两个支路 分支从左至右分为 个阶段后一阶段并行子网比前一阶段多一个额外的低分辨率子网 在每一阶段中并行的子网络之间通过上采样和下采样进行重复的多尺度融合最后由第四阶段的高分辨率子网络输出的特征图进行人体关键点预测图 模型结构全局特征信息感知分支包括全局特征信息获取模块和全局特征信息融合模块 全局特征信息获取模块先将图片分割为多个图像块再将各个图像块通过卷积转换为一维序列输入至编码器中经过多头注意力机制将不同特征信息结合起来形成图片的全局特征信息然后将全局特征信息与 分支中第三阶段低分辨率子网络特征图进行拼接最后全局特征信息融合模块对特征图的空间维度和通道维度分别进行一系列池化、卷积和激活操作实现对特征图的空间特征和通道特征权重分配从而生成 分支中第四阶段的最低分辨率子网络并且该子网络参与后续第四阶段的多尺度融合完成全局特征信息的嵌入.分支该分支以 为主体将图片经过两个 第 期梁国政等:基于全局特征信息感知网络的二维人体姿态估计 卷积核输出的特征图作为第一阶段输入逐步下采样添加低分辨率子网形成新的阶段 不同分辨率子网之间进行多尺度融合以确保不同分辨率特征图的信息能够融合最终输出高分辨率特征图 每个阶段形成新子网络的公式为 ()()式中:为每个阶段的输出 为每个阶段的输入()表示每阶段结束进行的降采样操作()表示每阶段间各个子网进行多尺度融合.全局特征信息获取模块为了提高模型对图片全局信息的感知能力本文利用 模型构建全局特征信息获取模块模块结构如图 所示图 全局特征信息获取模块结构首先给定任务图片 和 分别为图片的高和宽将 切割成 个部分 由式()计算得出 /()式中:为切割后每个图像块的边长接着利用大小为 的卷积核对每个图像块进行卷积并将其变成一维序列再将序列输入编码模块中 其公式如下:()()式中:为第 个图像块生成的一维序列()函数对卷积后的图像块进行扁平化处理使其变为一维序列表示 的卷积操作为输入的第 个图像块编码模块主要由多头自注意力组成将输入经权重矩阵线性映射为()、()、():()()()()()()式中:和 分别为图像块序号和单头注意力的数目、和 为权重矩阵然后匹配()与()之间的距离即计算两个向量之间的加权内积 其运算公式如下:()()/()式中:为两个映射之间的加权内积 为()与()的维度 为了避免两个向量的内积因为维度而增大此处对其做归一化处理 通过式()得到单头注意力值 ()()()最后将取得的单头注意力进行拼接拼接后的结果通过权重矩阵 进行融合得到多头注意力值:()()式中:()表示拼接操作 编码模块的输出经过张量转换得到特征图 综上可知原始图片经过 结构首先被分割成多个图像块图像块被映射为向量然后编码模块提取每个图像块的特征信息最后多头注意力机制将来自不同单头注意力提取到的特征信息结合起来完成图片全局信息的获取.全局特征信息融合模块为了将获取的全局特征信息有效地嵌入模型中本文提出全局特征信息融合模块对全局特征信息进行空间和通道加权 将与人体关键点相关的特征信息赋予较高的权重比例对其他无关特征信息赋予相对低的权重比例从而使得全局特征信息高效地嵌入 分支 融合过程如图 所示图 全局特征信息融合模块结构具体融合步骤为:)把全局特征信息获取模块输出的特征图 与低分辨率分支的特征图 进行拼接经过卷积操作并激活后得到融合模块的输入 其过程可表 北京信息科技大学学报第 卷示为 ()()式中:为激活函数表示 的卷积操作)对输入特征图 分别沿高和宽进行平均池化和最大池化操作得到两个向量两个向量通过全连接层后相加采用激活函数得到注意力向量与输入特征图 相乘获得特征图 该过程可表示为 ()()()式中:表示全连接操作 和 分别表示平均池化操作和最大池化操作)对特征图 沿通道进行平均池化和最大池化操作得到两个向量将两个向量按通道拼接并经过卷积变换和激活得到注意力向量与特征图 相乘取得最终特征图 其运算过程如下:()()()式中:表示 的卷积操作)通过 损失更新模型参数其表达式为()()()()()()式中:为超参数本文设定为 为真实值()为预测结果 采用分段损失当预测值与真实值的误差绝对值小于或等于超参数 时随着函数梯度的逐渐减小模型也逐渐取得最优值当预测值与真实值的误差绝对值大于超参数 时函数梯度近似为超参数 保证模型快速更新参数以取得最优解 实验与分析.数据集本文采用 数据集和 数据集进行实验 数据集中用到训练集图像约 万张测试集图像约 万张每个目标人物都标注了 个关键点 数据集中用到训练集图像约 张测试集图像约 张每个目标人物都标注了 个关键点.评估标准 数据集中的样本图片主要为多人场景因此选用侧重于多人姿态估计任务的人体关键点相似度()作为评估指标而 数据集中的样本图片主要以单人场景为主因此选取侧重于单人姿态估计任务的正确关键点头部归一化概率()作为评估指标 的计算式为 /()()()式中:为目标人物的编号 为关键点编号 为标注与预测关键点的欧氏距离为数据集中第 个目标人物的第 个关键点的标注当 取值为 时表示关键点未标注此时函数()的值为 当 取值为 时表示关键点已标注且没有被遮挡此时函数()的值为当 取值为 时表示关键点已标注但被遮挡此时函数()的值为 为检测尺度大小 是第 个关键点的归一化因子 使用平均精度()表示 为.时的平均检测准确率 和 分别表示 .、.时的检测准确率 和 分别表示中等尺寸目标和大尺寸目标的检测准确率 的计算式为()式中:为目标人物的编号 为关键点编号 为标注与预测关键点的欧氏距离 为第 个目标人物的尺度因子 为常数(一般 .)为头部框对角线的长度 时表示第 个目标人物的第 个关键点预测正确此时函数()的值为.实验设置本文实验基于 .位系统使用 块 显卡深度学习框架为 .数据集中的图像大小缩放至 数据集中的图像大小缩放至 此外测试过程中 数据集和 数据集的参数设置相同训练轮数()为使用的网络模型优化器为 初始学习率为 数据集的批处理大小()为 第 期梁国政等:基于全局特征信息感知网络的二维人体姿态估计 .实验结果与分析.消融实验为了证明融合模块以及全局特征提取模块对模型性能的影响本文进行了消融实验实验结果如表 所示 实验代表本文的基础框架并未进行全局特征提取和支路融合 实验代表在 基础上进行全局特征提取但没有使用融合模块将两个支路融合 实验代表本文的方法即使用融合模块将全局特征信息和基础框架的特征融合 由实验结果可知 实验比 实验的准确率提升了.证明全局特征提取有利于模型检测准确率的提高 实验比 实验的准确率提升了.证明融合模块能够有效地将全局特征信息嵌入模型网络中提升模型的检测准确率 实验比 实验的准确率提升了.验证了本文模型中全局特征信息获取模块和全局特征信息融合模块的有效性表 消融实验编号全局特征信息融合模块全局特征信息获取模块.数据集实验本文模型与其他先进模型在 数据集上的对比实验结果如表 所示 可以看出本文方法在各项指标上性能最优 以 性能为例本文方法与方法相比提升了.与基准方法 相比提升了.与 方法相比提升了.与 方法相比提升了.表 数据集实验性能比较网络模型.本文方法.数据集实验本文选用阈值为.的 .作为评估标准评估的关键点为头部、肩部、肘部、手腕、臀部、膝盖和脚踝 对本文方法和其他方法在 数据集上进行了实验结果如表 所示 可以看出本文方法的检测准确率总体高于其他方案 其中相比于 方法性能提升了.相比于基准方法 性能提升了.相比于 方法性能提升了.相比于 方法性能提升了.表 数据集实验性能比较(.)网络模型头部 肩部 肘部 手腕 臀部 膝盖 脚踝均值.本文方法.模型大小和运行时间对比在硬件条件相同的情况下将 模型和本文模型的参数量、每秒 亿次的浮点运算数()、训练时间以及测试时间进行了对比结果如表、表 所示 与原模型相比本文模型在运行时间和模型大小方面以较小的代价换来人体关键点检测准确率的明显提升在 数据集和 数据集上准确率分别提升了.和.表 模型大小与时间性能分析(数据集)