分享
基于多尺度融合特征网络的表情识别研究.pdf
下载文档

ID:2641131

大小:7.12MB

页数:8页

格式:PDF

时间:2023-08-20

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 尺度 融合 特征 网络 表情 识别 研究
第 卷 第 期 重庆科技学院学报(自然科学版)年 月基于多尺度融合特征网络的表情识别研究郭帅龙 杨 波 张家旗 杨 鑫 马海娟(重庆科技学院 电气工程学院 重庆)收稿日期:基金项目:重庆市科技局自然科学基金项目“基于注意力机制和深度学习模型的手指静脉活体检测研究”()作者简介:郭帅龙()男在读硕士研究生研究方向为图像处理、深度学习通信作者:杨波()男博士教授研究方向为模式识别与智能系统、光谱分析技术与 色彩测量、机器视觉与图像处理摘要:在人脸表情识别任务中场景和表情数据丰富且复杂的情况下卷积神经网络难以提取具有代表性的表情特征因此提出一种多尺度融合特征网络 首先在卷积神经网络前端引入具有不同大小卷积块的 结构既增强了网络模型提取表情图片局部特征的能力又减少了网络模型的训练参数量然后利用 热力权重可视化技术绘制热力权重分布图通过 卷积块构建融合特征使其同时兼具浅层局部特征和深层语义特征最后将 结构和 结构引入改进网络结构中以防止模型出现过拟合或欠拟合问题 在公开数据集 和融合数据集(、和)上进行实验结果表明该方法的识别准确率更高、泛化能力更强关键词:融合特征 卷积神经网络 表情识别中图分类号:.文献标识码:文章编号:()前 言无论在人类交流还是人机交互的过程中情感信息往往需通过面部表情来体现 有研究证明日常交流中只有 的信息通过语言传递而高达的信息通过表情传递 生气、讨厌、开心、伤心、害怕、惊讶和中立是人类最常见的 种表情 随着计算机技术的高速发展人脸表情识别技术在公共安全、教育心理学和卫生医疗等领域有着广阔的应用前景 人脸表情识别技术是目前的研究热点之一 由于人脸表情存在较多的特征信息且人为定义的表情特征缺乏解释性因此选取卷积神经网络进行表情识别 等人构建了一个包含 层网络的 并在最后一层连接层采用 分类器将表情分为 类使模型在.数据集上的识别率达到了 等人在 训练之前对数据进行预处理使模型在 数据集上的识别率达到了且训练时间更短 等人通过 训练 模型应用 损失函数调参使用数据增强方法使识别率提高了 等人利用不同尺度、不同方向的 小波来提取人脸表情的幅值特性图和频率特性图并将其送入双通道 进行训练相较于直接训练人脸表情的模型该模型在准确率和实时性上都有较大的提升 吕鹏等人针对稠密网络可能会导致特征冗余和内存负担等问题利用 算法提取图像梯度方向的纹理信息将其与稠密网络进行特征融合并在 和 数据集上进行验证准确率分别达到了.和.曾曦等人在卷积神经网络框架下利用郭帅龙等:基于多尺度融合特征网络的表情识别研究 聚类算法得出性别约束下的人脸表情类间关系构建主干网络和通道注意力机制的分支网络并在 、和 数据集上进行验证准确率分别达到了.、.和.卷积神经网络在 大赛中将 错误率降至.增加了网络深度提升了网络性能 人脸表情识别技术可将该网络作为基准模型但现有的人脸表情数据集仍存在数据量不足和种类不均衡等问题且 模型的特征提取结构比较单一容易造成欠拟合或者过拟合的问题 因此为了进一步提升人脸表情识别模型的性能本次研究引入 结构来获得更多不同尺度的局部表情特征信息并加入 结构和 结构以防止出现过拟合问题 利用 技术绘制热力权重分布图将具有较强局部表情特征信息提取能力的 层输出与具有深层语义信息的 层输出进行特征拼接以提升网络的分类能力 数据集选取和预处理.数据集选取本次研究选取 、和 等 个开源数据集融合 、数据集的所有数据和 数据集的部分数据作为训练样本和测试样本并对数据集中的人脸图像进行预处理 数据集包括 个人的 个图像序列其中带标签的图像序列 个包括愤怒、厌恶、恐惧、高兴、蔑视、悲伤和惊讶等 种基本表情 数据集的表情示例如图 所示图 数据集的表情示例 数据集共有 张图片由 名日本女性的人脸表情组成包括愤怒、厌恶、恐惧、高兴、中立、悲伤和惊讶等 种基本表情 数据集的表情示例如图 所示图 数据集的表情示例 数据集由位于荷兰奈梅亨的拉德伯德大学奈梅亨行为科学研究所发起采集对象包括白种人的成年男性、女性和孩子其中有部分是摩洛哥的荷兰男性 该数据集图像包括愤怒、厌恶、恐惧、高兴、中立、悲伤、惊讶和蔑视等 种基本表情 数据集的表情示例如图 所示图 数据集的表情示例郭帅龙等:基于多尺度融合特征网络的表情识别研究 中有大量从现实生活场景中采集的表情数据包括各种年龄、姿态和肤色的人脸表情以及漫画人物表情和表情包等 其中共有 张人脸表情图片包括愤怒、厌恶、恐惧、高兴、中立、悲伤和惊讶等 种基本表情部分示例如图 所示图 数据集的表情示例.数据预处理由于 、和 数据集的图片背景信息比较复杂因此采取 中 库的 功能调用函数接口以实现人脸表情检测对原始表情图片进行裁剪将图片大小统一调整为 如图 所示图 裁剪效果图为了方便网络训练将所有图片转化为灰度图并利用直方图均衡化方法对图片进行光照均衡化处理如图 所示 经过增强处理后图片中与表情相关的脸部区域更加明显图 光照均衡化效果图 多尺度融合的卷积神经网络模型.结构由于人脸表情数据丰富且复杂只通过 单一尺度卷积层的堆叠达不到较好的提取效果因此引入 结构来提取人脸表情特征 结构旨在减少卷积层堆叠避免冗余计算保证模型准确率 结构先后历经了、等多个版本的发展本次研究采用的是 结构如图 所示图 结构图首先 结构将上一层网络的输出经过 卷积操作分配给 的卷积层由 个 的卷积层代替原始 结构中 的卷积层和 的最大池化层然后并行地执行不同的卷积运算最后通过拼接操作形成 个包含不同尺度的特征图 这样就能提取更丰富的特征信息使网络获得不同尺度的感受野降低主干网络中因简单卷积层的重复堆叠所造成的庞大计算代价.深浅层融合特征 是由 等人于 年提出的一种深层网络模型其基本单元为密集连接块 的核心思想是每个密集连接块的输入都是前几个密集连接块的输出能够实现特征通道上每个密集连接块的特征重用 提取的特征图包括浅层特征和深层特征等 个部分郭帅龙等:基于多尺度融合特征网络的表情识别研究通过 技术绘制 网络的热力权重分布图对 块输出进行拼接如图 所示图 网络的热力权重分布图 网络中、提取的面部特征具有较好的局部表情信息其权重主要分布在与表情相关性较强的区域如眉毛、嘴巴等部位 提取的面部特征具有较好的全局语义信息其权重主要分布在面部表情区域且呈现一种向内收敛的形态 为了使特征图同时包括浅层局部特征和深层语义特征用、和 的输出构建融合特征并通过 卷积来改变不同 输出的特征通道数以实现特征拼接 特征融合结构示意图如图 所示图 特征融合结构示意图.与 在改进的网络结构中添加批量归一化()与 以提高网络的泛化性能防止模型出现过拟合或欠拟合问题 是 团队于 年提出的一种卷积神经网络训练优化方法 网络训练过程中以 为最小单位不断迭代由于每次的 有差异因此通过滑动平均来计算均值与方差对于输入的部分数据 ()引入学习参数、则输出为 ()在前向传导过程中有:()()()()()()式中:表示 样本均值 表示第 个输入数据 表示 归一化后的值 表示 样本大小 表示 样本方差 表示误差表示第 个输出数据每个神经元都包含 对、参数可使网络恢复出原始网络所要学习的特征分布 训练完成后在推断阶段利用、样本均值与样本方差计算 层的输出 是由 等人于 年提出的一种正则化方法 的核心思想是:在深度学习的训练过程中对于神经网络单元首先利用概率为 的伯努利分布函数随机生成与节点数相同的、值然后将这些值与输入值相乘其中与 相乘的节点被保留、与 相乘的节点被屏蔽最后对这些节点值进行计算 的具体公式如式()式()所示:()()()()()()式中:表示第层第个神经节点的丢弃概率设定值表示处理后的第 层输出值表示第 层的丢弃设定值表示原来的第 层输出值表示第 层第 个神经节点的权重输出值表示第 层 第 个神经节点的权重值表示第 层第 个神经节点的偏置值表示第 层第 个神经节点的激活函数输出值每一轮训练都会根据丢弃概率随机丢弃部分神经元 不同的网络产生不同的过拟合这样 就可以减少过拟合的发生减弱神经元之间的相互作用.多尺度融合网络模型根据以上方法本次研究提出一种多尺度融合特征网络的表情识别方法其网络结构如图 所示 首先对图片进行预处理将图片裁剪成大小为 的灰度图然后将预处理后的图片输入多尺度融合特征网络中进行特征提取最后进行 分类 通过含有不同尺度卷积层的 结构获得不同感受野下的局部细节特征将、和 的输出作为最终的融合表情特征图 网络参数说明如表 所示郭帅龙等:基于多尺度融合特征网络的表情识别研究图 多尺度融合特征网络结构表 网络参数说明序号网络层类型 尺寸步长 重复次数输出尺寸 卷积层 分支 卷积层 最大池化层 卷积层 分支 卷积层 最大池化层 卷积层 卷积层 最大池化层 卷积层 拼接层 最大池化层 全连接层 卷积层 全局平均池化层 全连接层 实验结果分析本次实验采用的操作系统为 专业版实验环境为 .深度学习框架为.硬件平台为 ()()内存为 为 的 为了验证模型对不同数据集的适应性分别在 数据集和包含 、与 的融合数据集上进行训练在 数据集上进行 轮次的迭代训练优化器为 初始学习率为.、动量为.、为 训练集、验证集和测试集的比例为 在测试集上验证模型性能得到的混淆矩阵如图 所示图 识别结果的混淆矩阵由混淆矩阵可以看出本模型对高兴、中立和惊讶的识别效果较好对恐惧和愤怒的识别效果较差因为恐惧和愤怒都有眉头紧锁、嘴巴向下弯曲等相似特征且都属于消极情绪因此其在面部表情上的差异比较细微 另外样本数量不均衡如高兴和恐惧的样本数量相差 个左右这也是本模型识别效果不佳的原因之一将本方法与其他方法进行对比分析结果如表 所示 实验发现本方法比其他方法的识别准确率更高表 不同方法在 数据集上的识别准确率方法识别准确率文献方法.文献方法.文献方法.文献方法.本方法.融合数据集中共有 张图片、类表情标签 由于融合数据集中的图片数量比 数据集少因此将融合数据集按照 的比例分为训练集和测试集在训练集上采用十折交叉验证法进行训练融合数据集的训练参数设置与 数郭帅龙等:基于多尺度融合特征网络的表情识别研究据集相同 融合数据集识别结果的混淆矩阵如图 所示图 融合数据集识别结果的混淆矩阵由图 可以看出本模型能够很好地进行表情分类 识别错误的图片主要为悲伤和中立这是因为部分图片之间存在嘴角下弯、眉毛平平等相似表情特征 另外 数据集的样本数量比其他 个数据集少因此模型对 数据集的识别效果较差将本方法与其他方法在不同数据集上进行对比分析结果如表 所示 实验发现本方法在 和 数据集上比其他方法的识别准确率更高表 不同方法在不同数据集上的识别准确率方法识别准确率 文献方法.文献方法.文献方法.文献方法.文献方法.文献方法.本方法.为了进一步验证本方法的有效性选取准确率作为评价指标进行消融实验步骤如下:)以 网络为原始模型将原始模块记为)引入 结构记为 )引入 模块改变 网络的 部分记为 )引入深浅层融合特征对 网络的、和 的输出进行融合拼接记为 )多尺度融合特征网络模型包含以上各个部分记为 ()训练过程曲线如图 所示消融实验结果如表 所示图 训练过程曲线由消融实验结果可知引入 模块减少了模型参数量提升了网络学习速度提高了模型在 数据集上的准确率引入 结构在网络前端拆分特征提取通道减少了模型参数量提高了准确率引入融合特征模块降低了准确率因此为了验证 融合特征分支的作用开展融合特征可视化实验 利用可视化技术输出 融合特征模型和 模型的浅层、深层及郭帅龙等:基于多尺度融合特征网络的表情识别研究融合特征图即 和 的特征输出 不同模型的特征输出对比如图 所示表 消融实验结果模型参数量准确率 .图 不同模型的特征输出对比在 输出层 模型和 模型的浅层特征提取模块基本都能提取到面部的轮廓信息但引入了 结构的 模型能够较好地剔除面部的干扰像素点 在 输出层 模型提取的面部特征不均匀局部偏差较大分类精度不高 模型提取的面部特征凸显了与表情高度相关的区域(如嘴巴、眉毛和眼睛等)加大了表情区域与非表情区域的差值更容易计算出最终的分类结果进而提高模型的分类

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开