温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
表情
识别
课堂
质量
分析
戴海云
第 51 卷收稿日期:2022年8月15日,修回日期:2022年9月27日作者简介:戴海云,女,硕士研究生,研究方向:计算机视觉。张明,男,副教授,研究方向:理论研究:机器学习、模式识别与人工智能、粗糙集决策支持理论研究等;工程应用研究:嵌入式智能终端硬件/软件开发,安卓与IOS系统应用开发。1引言目前将人脸表情识别作为课堂质量分析的研究还不够广泛。而且在现实中,课堂中往往缺乏老师与学生的沟通交流,只重视老师对课堂所教学的内容的同时,会忽视对课堂能给出直观感受的学生的反馈信息。虽然也有传统的课堂质量分析,比如专业人员进行人工记录或者学生课后问卷打分1,这些都带有主观因素和滞后性。全国都在推行素质教育,而课堂作为教学最关键且最主要的方式,所以老师对学生的脸部表情的反馈更能够知道该学生对自己的教学是否适用。比如,老师在课堂上看见学生是眼睛张开,嘴角上扬,愉悦地望向自己,他应该就会知道这个学生对自己的教学内容有了理解,那么此刻老师就可以适时地进入下一个讲解,但若是看见学生眉毛紧皱,嘴角下拉,甚至是疲惫的状态,那么老师可以结合自己的多年教学经验得出此刻学生有疑惑或未理解,那么老师即可作调整。但是老师不会一直将注意力放在学生的表情和对其的分析上,也不能全面兼顾到全班所有同学基于人脸表情识别的课堂质量分析戴海云张明(江苏科技大学计算机科学与工程学院镇江212003)摘要课堂是教师授课与学生学习的主阵地,所以课堂质量分析体现着一所学校的教学水准和教师授课于学生的的适用性的高低。然而,在当今教育业中,对于课堂质量的分析,每个学校或者每个教育机构都有着参差不齐的理论基础和评价方法,始终都没有达成一个统一且高效的标准。因此,对于结合人脸表情识别技术,研究出新的低成本或成本可控、高精度以及较高可靠性的课堂质量分析是我们现在亟需解决的难点问题。论文提出的一种基于视频序列表情识别的新模型,即特征融合-BiLSTM模型在常用的数据集中验证了表情识别的效果,并将其使用于论文给出的新的课堂质量分析体系中,结果显示可以为现阶段的课堂教学分析提供相对可靠的参照。关键词人脸表情识别;特征融合;BiLSTM;课堂质量分析中图分类号TP301DOI:10.3969/j.issn.1672-9722.2023.03.033Classroom Quality Analysis Based on Facial Expression RecognitionDAI HaiyunZHANG Ming(School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhenjiang212003)AbstractClassroom is the main position for teachers to teach and students to learn,so the analysis of classroom quality reflects the teaching level of a school and the applicability of teachers to students.However,in todays education industry,for the analysis of classroom quality,every school or every educational institution has uneven theoretical foundations and evaluation methods,and has never reached a unified and efficient standard.Therefore,combining facial expression recognition technology to develop anew low-cost or cost-controllable,high-precision and high-reliability classroom quality analysis is a difficult problem that we urgently need to solve.This paper proposes a new model based on video sequence expression recognition,that is,the feature fusion-BiLSTM model,which verifies the effect of expression recognition in commonly used data sets,and uses it in the new classroom quality analysis system given in this article.The display can provide a relatively reliable reference for the current classroomteaching analysis.Key Wordsfacial expression recognition,feature fusion,BiLSTM,classroom quality analysisClass NumberTP301总第 401 期2023 年第 3 期计算机与数字工程Computer&Digital EngineeringVol.51 No.37162023 年第 3 期计算机与数字工程的表情变化,用计算机技术来作为辅助老师对自己的学生的表情识别和记录,对课堂质量做出分析,从而调整教学进度和改善教学方法,那么是非常实时、客观且有意义的事情。2基于视频序列的表情识别模型在基于深度学习方法的静态表情识别2学习研究中,虽然取得了良好的识别效果,但是在课堂中学生的表情的发生是一个持续的过程,所以基于静态图像的表情识别忽略了表情的动态信息。为解决这一问题,本文提出了一种特征融合-BiLSTM模型用于视频序列人脸表情识别。该网络模型是融合了提取的空间信息和时序信息,再结合使用BiLSTM。2.1BiLSTM循 环 神 经 网 络(RNN)和 长 短 期 记 忆 网 络(LSTM)3两种模型对结果的预测仅仅是依赖当前状态的若干个前序状态,是没有办法做到对后序信息的编码操作。但是,由前序若干状态和后序若干状态共同作为输入对结果的预测会更好。双向循环 神 经 网 络(Bi-directional Short-Term Memory,BiLSTM)4可满足以上叙述的要求。前序LSTM和后序LSTM共同组合成BiLSTM,其神经元状态不仅和上一刻的本身状态有关,而且和下一刻的自身状态也相关。能够从前序 LSTM提取到过去的特征,从后序LSTM提取到未来的特征。结构如图 1 所示。图中圆圈为逐点运作;蓝线为后向传播;绿线为前向传播。从双向层看,它从垂直向和水平向获得信息,最终再将上层的处理信息输出出来。2.2提取空间特征信息人脸表情的特征是由表情图像的空间特征提供的。为了能提取出更多的更有效的表情特征,本文使用的空间特征提取网络是静态表情识别网络,如图2所示。此网络提供了卷积神经网络设计的一个关键点深度。同时将此网络结合 Inception结构,再进行分解卷积和维度,能较大程度地减少计算成本。实验证明此模型在提取静态表情特征中提供了良好的效果。yt-1ytyt+1tanhtanhtanhLSTMLSTMBidirectionallayertanhxt-1LSTMLSTMBidirectionallayertanhxtLSTMLSTMBidirectionallayertanhxt+1蓝线绿线图1BiLSTM结构softmaxoutput:116output:11768FCFCoutput:55128CONVPOOLoutput:55768softmaxoutput:116output:112048FCoutput:8820482 Inception-Coutput:881280POOLReduction-Boutput:8812804 Inception-Boutput:1717768Reduction-A3 Inception-ACONVsoutput:1717768output:3535288图2静态表情识别网络2.3提取时间序列信息提取表情动态的特征是由时序信息提取网络完成的,如图3所示。图3的说明如下:输入两张表情序列图片,这种方式的输入可以使用网络提取到短期记忆的带台信息,与上一节所说的空间信息提取不同的是,空间特征提取是给出详细的空间表情特征,此节所说的网络是将表情的时序性放于重心处。所以在时序信息网络的挑选中本文优先使用有最好识别效果的较浅的卷积神经网络。这个结构包含两层Conv,两层最大Pooling,而且在每个卷积层后都使用了批量正则化层(Batch Normalization,BN)5,批量正则化的优点在于能更快收敛到局部最优。模型的最后是一个全连接层,即FC。Deep Temporal NetworkConvPoolingPoolingConvFC128图3提取表情动态特征717第 51 卷2.4特征融合-BiLSTM前两节提取到的表情空间特征和短期时序信息有相同的维度,就可以将两种特征进行融合。融合方法有三种,最大融合、连接融合和相加融合。经过在CK+数据集上进行十字交叉验证法,并重复3次,不同融合方法的识别效果如表1所示,根据结果最终采用连接融合特征。设PA和PB表示提取的空间特征的特征向量和提取的时序信息的特征向量,用L,W和D代表特征向量长、宽和通道数,Q则代表融合后的特征。在式(1)中,pA,PBRLWD,qcatRLW2D且1iW,1jW。qcatm,n,2r=pAm,n,r,qcatm,n,2r-1=pBm,n,r(1)上述融合特征之后,两个网络的特征向量就被转换成时间序列。然而。这个是短期的时序信息,我们需要的是整个表情绪里的叠加时序信息,需要采用BiLSTM循环神经网络。整个过程表示如下:hft=(Afxt+Bfhft-1+ef)(2)het=(Aext+Behet-1+ee)(3)yt=(Cfhft+Cehet+ey)(4)在以上三个公式中,xt表示经过融合特征之后的向量,yt表示输出向量,hft,het代表前向传播隐含层和后向传播隐含层,表示sigmoid激活函数,e是偏置向量,A、B、C表示权重向量。表1不同融合方式的准确率Fusion_MethodMaxCatSumPrecision/%98.499.699.02.5实验结果本文模型与其他模型分别在CK+数据集上进行对比试验,结果如表2所示,从表中可看出本文提出的模型比最新的模型的精确度提高了,说明特征融合-BiLSTM使得识别效果得到了提升。表2不同模型在CK+数据集上的识别效果ModelLomo6IDT+FV7DTAGN8ARDfee9PPDN10Model from this paperPrecision/%95.1595.8297.3497.8698.2698.58表 3表示本文的特征融合-BiLSTM 模型在数据集CK+上的混淆矩阵。可以看出,可能由于happy和angry两个表情特征比较明显,这两种的识别表现良好,而其他的就会较容易出现FN类型的错误。表3特征融合-BiLSTM模型-数据集CK+混淆矩阵AngerDisgustFearHappySadSurprisedContemptAnger99.200.130.450.020.260.250.27Disgust0.0898.740.460.120.440.300.29Fear0.210.2697.320.080.490.350.37Happy0.050.100.2699.550.080.13