分享
融合并行网络特征的人脸表情识别算法_苗壮.pdf
下载文档

ID:2328627

大小:573.59KB

页数:8页

格式:PDF

时间:2023-05-07

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合 并行 网络 特征 表情 识别 算法 苗壮
第 27 卷第 6 期2022 年 12 月哈 尔 滨 理 工 大 学 学 报JOUNAL OF HABIN UNIVESITY OF SCIENCE AND TECHNOLOGYVol.27No.6Dec.2022融合并行网络特征的人脸表情识别算法苗壮1,程卫月2,林克正1,李骜1(1.哈尔滨理工大学 计算机科学与技术学院,哈尔滨 150080;2.黑龙江工商学院,哈尔滨 150025)摘要:针对单一卷积神经网络对人脸表情特征提取不充分和参数量较大等问题,提出了一种融合并行网络特征的人脸表情识别算法。该算法首先对 esNet 网络中的残差块进行修改,减少网络参数量同时使用预激活来减小错误率。之后将改进后的 esNet 网络提取到的特征与剪层后的VGG 网络提取到的特征进行融合,得到网络模型 P-esNet-VGG,其中损失函数使用交叉熵损失函数。该模型已在 FE2013 和 JAFFE 数据集上进行了大量实验。实验结果表明,该模型比其他几种模型在 FE2013 和 JAFFE 表情数据集上准确率都有所提高,具有更好的鲁棒性。关键词:深度学习;卷积神经网络;人脸表情识别;并行网络;特征融合DOI:10 15938/j jhust 2022 06 012中图分类号:TP391.4文献标志码:A文章编号:10072683(2022)06009508Facial Expression ecognition AlgorithmCombining Parallel Network FeaturesMIAO Zhuang1,CHENG Wei-yue2,LIN Ke-zheng1,LI Ao1(1.School of Computer Science and Technology,Harbin University of Science and Technology,Harbin 150080,China;2.Heilongjiang College of Business and Technology,Harbin 150025,China)Abstract:Aiming at the problems of insufficient extraction of facial expression features by a singleconvolutional neural network and large amount of parameters,a facial expression recognition algorithm fused withparallel network features is proposed.The algorithm first modifies the residual block in the esNet network,reduces the amount of network parameters and uses pre-activation to reduce the error rate.After that,the featuresextracted by the improved esNet network and the features extracted by the VGG network after the cut layer aremerged to obtain the network model P-esNet-VGG,in which the loss function uses the cross-entropy loss function.This model has been extensively tested on the FE2013 and JAFFE datasets.Experimental results show that thismodel has improved accuracy on FE2013 and JAFFE expression data sets than other models,and has betterrobustness.Keywords:deep learning;convolutional neural network;facial expression recognition;parallel network;feature fusion收稿日期:2021 09 23基金项目:国家自然科学基金(62071157);黑龙江自然科学基金(F2015040)作者简介:苗壮(1996),男,硕士研究生;林克正(1962),男,博士,教授,硕士研究生导师通信作者:程卫月(1988),女,硕士,讲师,E-mail:cheng_weiyue sina cn0引言人类用于表达自身情感的方式多种多样,但是最为直接的还是通过人的表情去表达。根据表情可以猜测对方的心理活动和情绪。人脸表情识别是计算机视觉方向的热点之一。其应用领域也十分广泛。具体包括人机交互、安全驾驶、智能监护、辅助驾驶和案件侦测等。早期表情识别研究是基于手工制作的特征1。在 ImageNet 大型视觉识别竞赛上2,AlexNet3 网络模型的成功使深度学习在计算机视觉领域得到广泛应用。人脸表情识别(facial expression recognition,FE)挑战4 在早期提出使用深度学习的方法。2013 年 FE 挑战赛中发挥最好的是深度卷积神经网络5,手工特征模型仅排在第四位6。2017 年,唐传高等7 使用深度学习获得表情识别领域的竞赛冠军。之后卷积神经网络在表情识别领域上取得很好的成绩,但随着研究的深入发现了更高效的方法也发现了存在的问题。褚晶辉等8 提出的基于注意力模型的网络在CK+数据集上得到97.45%的准确率。卢官明等9 设计 7 层 CNN 在 CK+上进行表情识别仅获得了81.5%的准确率。可以推断出网络层数太少、单网络模型提取特征单一等是导致识别率较低的原因。Mao 等10 和 Shanthi 等11 对 LBP 算法进行改进研究,提高了特征提取的有效性。Mishra 等12 提出了线性稀疏近似与多模态特征融合方法,开发新的特征向量,以获得更好的分类精度。Li 等13 使用了生成对抗网络多姿态进行识别,对多姿势数据集效果更佳。Wang 等14 研究了关于光流方向直方图和深度多视图网络的方法,能够有效地描述微表情的变化提高识别率。Li 等15 研究了胶囊网络与卷积网络的鲁棒性对比,在复杂的现实世界环境中胶囊网络的表情识别效果更好,Zhang 等16 研究了深度神经网络驱动的多视角面部表情识别,针对非正面面部表情数据识别效果更好。使用卷积神经网络能取得较好的识别效果,构造更深更宽的网络结构能有效提高模型的识别率,但同时会导致计算量增大,计算性能下降。针对偏小尺寸的表情数据集,深层网络容易导致梯度的消失或爆炸以及过拟合等问题。因此本文提出了一种融合并行网络特征的网络模型。首先对 esNet 网络中的残差块进行改进,对网络层数进行修改并引入预激活方法。之后将其网络与修改后的 VGG 网络进行特征融合,得到 P-es-Net-VGG(pre-activated residual network and visual ge-ometry group)双 通 道 的 网 络 结 构,针 对 数 据 集FE2013 和 JAFFE 进行实验,融合后的网络结构提取特征信息更丰富,鲁棒性更强,可以提高样本的识别率。1深度学习模型1.1VGG 网络模型VGG 网络是采用连续的 3 3 卷积核代替较大卷积核,对于给定的感受野,使用多个小卷积核效果更好,通过激活函数可以实现非线性操作,能训练出更好的网络结构,同时代价不会增加。激活函数选择 eLU 函数,可以弥补 eLU 函数的缺点,其公式为eLU(x)=x,x 0ax,x0(1)eLU 函数中的 a 是从给定均匀分布的范围内随机抽取的值,在测试环节就会固定下来。解决了eLU 函数可能导致神经元死亡的问题。1.2ESNET 网络模型esNet 网络将残差的概念添加到了卷积神经网络中,网络由多个残差块组成,残差块需要拟合出有关恒等映射的残差映射 f(x)x。残差映射在实际中更容易优化,残差块如图 1 所示。图 1残差块Fig.1esidual block69哈尔滨理工大学学报第 27 卷残差单元公式可以表示为yl=h(xl)+F(xl,Wl)xl+1=f(yl)(2)其中 xl和 xl+1分别为第 l 个残差单元的输入和输出;F 为残差函数,而 h(xl)=xl表示恒等映射;f 为eLU 激活函数。基于式(2)可以求从浅层 l 到深层 L 的学习特征为xL=xl+L 1i=lF(xi,Wi)(3)并通过求得反向传播中的梯度进行参数更新。1.3随机梯度下降采用随机梯度下降(stochastic gradient descent,SGD)进行优化操作。目标函数是数据集中各个样本的损失函数平均值。设 fi(x)是有关索引为 i 的训练数据样本的损失函数,n 是训练数据样本数,x是模型参数向量,目标函数为f(x)=1nni=1fi(x)(4)目标函数在 x 处的导数为f(x)=1nni=1fi(x)(5)随机梯度下降的每次迭代中,随机均匀采样的一个样本索引为 i 1,n,并通过计算梯度fi(x)来迭代 x,即x=x fi(x)(6)其中 是学习率,每次迭代计算开销从梯度下降的O(n)降到常数 O(1)。并且随机梯度fi(x)是对梯度f(x)的无偏估计,如式(7)所示,这意味着平均来说,随机梯度下降是对梯度的一个很好的估计:Eifi(x)=1nni=1fi(x)=f(x)(7)2P-esNet-VGG 网络结构2 1改进后的 ESNET 网络为了提取图像中更丰富的面部特征,提高表情识别的准确率,对 esNet 网络中的残差块进行改进。对网络的改进是将残差块改为三层卷积层,前后各一个卷积核为 1 1 的卷积层,中间卷积层的卷积核大小没改变,这样增加了一个卷积操作,并且网络的参数量也大大减少了。在此基础上,为了防止梯度消失,防止过拟合发生,以及增强网络的非线性表达能力,在每个卷积之后都加入了 eLU 激活函数,如图 2 所示。同时使用 BN 层进行批量归一化处理,BN 层具有提高网络泛化能力的特性,BN 层允许使用较大的学习率,能够改善流经网络的梯度,加快网络模型的收敛速度,使得较深的神经网络训练变得更加容易,提高训练后模型的准确度。之后将 BN 层和激活层提到卷积层之前,可以实现预激活,改变后的P-esNet 网络比原始 esNet 网络训练速度加快,并且误差会减少,对于较深的网络更有帮助,如图 3所示。图 2修改后的残差块Fig.2Modified residual block图 3预激活流程图Fig.3Preactivation flow chart79第 6 期苗壮等:融合并行网络特征的人脸表情识别算法然后将修改后的残差块添加到原始网络中,输入为原始图片,经过多个残差块处理之后生成特征图,然后传入到后面的全连接层再进行分类处理。2.2损失函数通过将神经网络提取到的特征向量与标签值带入到损失函数中可以得到预测结果的损失值。并通过损失值的反向传播进行梯度优化,多分类损失函数使用交叉熵损失函数L1=Ni=1y(i)logy(i)+(1 y(i)log(1 y(i)(8)其中:N 表示总样本数;y(i)表示第 i 个样本正向传播的输出值;y(i)表示 i 个样本为正样本的概率;L1表示总损失值。2.3整体网络结构网络深度增加意味着参数量更大、训练时间更长以及优化更难。因此整体网络结构是将 VGG19层数进行裁剪操作,然后和 P-esNet 网络进行融合。并且将浅层信息与深层信息相融合一起输入到下一个卷积层,这样可以使得提取到的特征信息更完整。这样的网络结构可以在增加少量训练时间的情况下,更好地获得有利于分类

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开