分享
基于表情识别的课堂状态检测分析_李燕苹.pdf
下载文档

ID:2251338

大小:2.30MB

页数:3页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 表情 识别 课堂 状态 检测 分析 李燕苹
李燕苹(上海大学教务部,上海200444)李一凡(上海大学通信与信息工程学院,上海200444)Analysis of Classroom Status Detection Based on Expression Recognition摘要:随着科学技术的不断发展,人工智能技术也逐渐应用于日常教学之中。设计了一种基于表情识别的课堂状态检测分析方法,该方法通过实时检测学生的表情信息和学生在课堂中的专注率指标检测课堂状态。其中,表情信息的获取算法以深度学习技术为背景,卷积神经网络技术为基础,建立了表情识别模型。该模型以残差网络ResNet18为主干网络,并添加了注意力机制作为辅助模块进一步引导表情特征融合过程,提高了模型的泛化能力和识别准确性。所设计的课堂状态检测方法能够高效地检测和记录学生的上课状态,为老师了解授课质量和改变授课方式提供一个有力的参考依据。关键词:课堂状态检测分析;深度学习;卷积神经网络;表情识别Abstract:This paper designs a classroom state detection and analysis method based on expression recognition,whichdetects the classroom state by real-time detection of students expression information and students concentration rate in-dex in the classroom.Among them,the algorithm of obtaining expression information is based on deep learning technologyand convolutional neural network technology to establish the expression recognition model.The model uses the residual net-work ResNet18 as the backbone network,and adds the attention mechanism as an auxiliary module to further guide theexpression feature fusion process,which improves the generalization ability and recognition accuracy of the model.Theclassroom status detection method designed in this paper can efficiently detect and record students classroom status,pro-viding a powerful reference basis for teachers to understand the quality of lectures and change the teaching methods.Keywords:classroom state detection and analysis method,deep learning,convolutional neural network,expression recognition2021年“国际人工智能与教育会议”在线上举行,会议的主题为“确保人工智能服务共同利益,促进教育变革”。随着科学技术的不断发展,传统领域与人工智能技术融合成为了时代趋势。传统的课堂教育主要依靠授课老师主观观察来判断学生的听课状态,但老师在课堂上应更注重教学环节,而且当教学任务繁重时,过多地关注学生听课状况可能会出现顾此失彼的情况,降低授课质量。在课堂中,老师通常可以通过学生的表情信息得到学生的听课状态。因此,本文设计了一种基于表情识别的课堂状态检测分析方法,该方法使得老师能以智能识别获得的学生课堂表情结果和专注率指标为依据判断其听课状态,对未来的智慧教育1发展有着重大的意义。1表情识别模型本文以深度学习技术2为基础,建立了端到端的卷积神经网络(Convolutional Neural Networks,CNN)3模型,对人脸表情进行智能识别。该方法从大量的数据中自动学习表情特征,具有很强的噪声抗干扰性。图1为表情识别模型的训练流程图。由图1可知,该模型通过CNN得到表情预测结果,在此过程中会实时计算预测结果和表情真实标签之间的差异值(即损失函数值),并根据梯度方向反向传播至CNN中调整其参数,之后经过多次上述循环直至网络达到拟合。图1模型训练流程图1.1表情识别模型主干网络CNN是由卷积层、池化层、全连接层等模块相互堆叠形成的深度网络。从理论层面来说,深度越大的CNN拥有更好的特征提取能力,但单纯的深度增加会使模型退化,并出现梯度消失的问题,使得模型在训练的过程中变得难以收敛。为了解决该问题,文献4提出了ResNet网络,该网络创新性地设计了残差模块(Residual Block)用于CNN的结构之中,其结构如图2所示:图2模型整体框架图2a为基本残差模块(Identity Basicblock),该模块建立了一条捷径连接,使得模块的输入和输出直接相连,这样的方式使得网络在训练的过程中不仅能够学习到深层特征,同时也能关注到浅层特征,降低了整体模型的拟合能力。图2b为卷积残差模块(Convolutional Basicblock),该模块在捷径连接中增加了一个33卷积核,目的是当输入和输出维度不匹配时,用于调整特征图像的分辨率大小和通道数。本文选用18层的残差网络(ResNet18)作为表情识别模型的主干网络,其整体结构如图3所示。主干网络由8个残差模块构成,其中分为4个基本残差模块(由实线框表示)和4卷积残差模块(由虚线框表示)。此外,图中全局平均池化层(Global基于表情识别的课堂状态检测分析基于表情识别的课堂状态检测分析116工业控制计算机2023年第36卷第1期图3ResNet18网络结构图Average Pooling)的作用是空间降维,全连接层的作用是分类输出。1.2注意力机制为了进一步提升表情识别模型的准确性,本文引入了注意力机制作为主干网络的辅助结构。深度学习算法中的注意力机制类似于人类视觉特点:当人眼捕捉外部画面时,会将更多的注意力资源投入感兴趣的部分。注意力机制会更注重学习特征图像中信息较大的部分,例如:眼睛、嘴等能体现表情信息的重要部位,并增加这部分的权重。相反地,对于一些边缘部分或者信息量较小的部分,则会相对忽略。注意力机制的基本原理是学习一组权重来突出特征图中的重要区域。在先前的研究中,文献5提出了卷积块注意模块(Convo-lutional Block Attention Module)。该方法分为通道注意力模块和空间注意力模块,易于集成和植入,本节引入了两类模块并进行了一些改进,使得整体网络能够更好地提取表情特征权重。卷积神经网络的特征图像可以被表示为FRchw,该特征图像属于三维张量,其中c代表特征通道数,h和w代表单通道内的特征图的长和宽。通道注意力模块(Channel Attention Module)关注的是通道信息中哪些特征需要被增强,其结构图如图4所示。该模块通过空间维度的平均池化操作和最大池化操作抑制了空间信息,接着本文通过增加两个11卷积核进一步学习通道权重,再将池化结果相加,接着使用一个33卷积融合对于通道特征的权重信息。最终得到通道域的重要性权值,即哪些通道的二维特征图需要被增强,其表达形式如公式(1)所示。图4通道注意力模块结构图Fchannel=Conv(Sigmoid(Conv(Favg)+Conv(Fmax)(1)其中,FavgFc11和FmaxFc11分别代表平均池化操作和最大池化操作的输出,Conv代表卷积核运算,Sigmoid代表激活函数用于提升模块的非线性能力。与通道注意力模块不同的是,空间注意力模块(Spatial At-tention Module)主要关注二维特征图像哪些位置需要被增强,即单个通道内的重要性权值问题,其结构如图5所示。为了获取空间权值矩阵,该模块仍然使用分支结构的平均池化操作和最大池化操作,但此时需要沿着通道轴进行运算。接着将平均池化特征图和最大池化特征图进行矩阵拼接,而后同样使用一个33卷积核代替原文中77卷积核进一步学习空间特征权值信息,得到空间注意力权值矩阵,这是由于本文的模型的是对表情信息的权重进行提取,应更注重细节信息,而小尺寸卷积核的小感受野才能更加注重对于细节权值特征的提取。最后将权值矩阵作用于输入特征图中,该模块能够凸显特征空间内重要性更高的区域,其表达形式如公式(2)所示:Fspatial=Sigmoid(Conv(Favg,Fmax)(2)其中,FavgF1hw和FmaxF1hw分别代表平均池化操作和最大池化操作的输出,Conv代表卷积核运算,Sigmoid代表激活函数,代表矩阵拼接操作。1.3模块排列组合通道注意力模块和空间注意力模块作为两个相对独立的模块,分别计算了通道域和空间域的特征图权值。这就意味着模块间不同的排列顺序,直接影响特征提取结果。本文会在下一章节进行验证分析以确定模块之间的排列顺序。2验证分析本 文 进 行 了 六 类 实验,如图6所示,包括单独使用两类注意力模块以及两种 注意 力 模 块 分别 以“通道-空间”“并行连接”和“空间-通道”的顺序排列,其实验结果如表1所示。其中,实验序号与图中排列方式相对应。分析消融实验的结果可得,当主干网络仅仅添加单个注意力模块时,为整体模型带来的增益效果并不明显,甚至当仅提取通道特征时反而会带来抑制的效果。当通道注意力模块和空间注意力模块同时作用于网络时,“空间-通道”的排列方式对于网络的增益效果最为显著,这是因为通道注意力模块关注通道域层面的权值分布,如果先经过该模块,则会在整体特征的权值提取过程中更注重的通道特征,但表情识别任务更需关注于空间域内的重点区域,因此“空间-通道”的排列顺序更为合理;而两个模块的平行排列的“双分支”结构并没有同时经过两类注意力模块的作用使得特征权重进行集成,平行排列得出结果的仅仅是两类特征权值矩阵在数值上的拼接,并没有进行实质上的权值共享。综上所述,表情识别模型选择以“主干网络-空间注意力模图6注意力模块排列顺序图图5空间注意力模块结构图表1注意力模块消融实验117(上接第115页)过程,那么中间文件既是下一次继续加工的信息素材,也是上一次加工的知识结果。如果说信息是人对变化的解读,知识是人对变化趋势的总结的话,可见作为个人日常的活动空间有必要隔离出来,这样能更多代表个人的行为,也就是可以低代价地获得人的活动的重复。而作为个人活动的结果,有保留的必要,一是一般是有意义的,二是可以作为下次继续活动的起点。那么就建立了三个活动空间,一个是全局空间,一个是使用空间,一个是存档空间。这三个空间对于个人就是个人的轨迹,对于组织就是组织的轨迹。信息化之所以是生产力,除了其即时性、有价性外,还有一个重要方面,就是其可操作性,就是说事物的本真的操作损耗一般大于其信息的操作损耗,主要是能量消耗的不同所致。对于有利于对事物变化的把握的信息的操作一般对人都是有益,有价值的。信息化的实现之知识化的仿真推演的创造价值的可能性和积极性,对于这个仿真推演的过程,其始点就是信息的全面,可控性就是人的即时参与,包括人总结的知识的即时参与,也包括人作为知识创造者的这种主观能动性的即时参与。对于元宇宙操作系统,实现的底层是思维导图,信息变化的过程也是思维导图,就是说思维导图不局限于文字的及平面的,它也可以是立体的及信息的。配备一副增强现实的眼镜和一只手势检测的手环,在增强现实眼镜里可以显示平面的、文字的思维导图,而手势的手腕朝四个方向的拨动可以控制思维导图按照一

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开