温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
改进
YOLOV5
算法
学生
课堂
行为
识别
研究
杨明远
信息记录材料 2022年12月 第23卷第12期 51论 著0 引言在智慧教育相关的课题研究中,学生课堂行为识别问题一直是研究的重点内容。随着计算机存储和计算技术的发展,人工智能融入教育领域,为学生课堂行为量化分析提供了可能。疫情以来,线上课堂已成为教学中不可或缺的一部分,如何在线上课堂掌握学生的学习状况,为教师提供客观的课堂情况是亟待解决的问题。因此,将深度学习引入教学活动,了解学生的上课状态,对教学改革具有积极意义1-2。在针对学生行为识别的研究中,对于学生相似动作难以区分识别的情况,张鑫褆3基于人体 2D 骨架提出多维融合的LSTM网络,在克服梯度弥散的条件下,提高了对相似动作的识别率;周叶4在经典的实例分割算法 Faster R-CNN 的基础上,利用特征金字塔解决不同尺度学生课堂行为检测的同时,将视频中上一帧的检测结果作为当前帧的目标候选框,实现了比较准确的学生身份关联;柯斌等5用Inception V3网络对学生行为进行识别,但模型忽视了手机,笔和课本等重要信息的特征,使得看书,低头玩手机行为容易混淆;Abdallah 等6对数据集进行数据增强,通过深度迁移学习的方法,在学生课堂表情识别中取得 79.4%的准确率;Lin 等7使用 OpenPose框架收集骨骼数据,提出一种基于姿态估计和人物检测技术的误差校正方案,以减少骨架数据中的错误连接,构建表示人体姿势的特征向量。采用关节位置、关节距离和骨角度等特征对学生行为分类。上述方法虽然对学生行为进行识别,但模型识别准确率不高、鲁棒性较差、有效特征的提取不足。本文在 YOLOV5 模型的基础上改进,加入 CA注意力模块从空间和通道两个维度提升网络的特征提取能力,提高特征提取的有效性,增加模型的鲁棒性,在保证模型实时检测的情况下,实现了对学生课堂抬头听课、玩手机、睡觉等七种行为识别率的提高。1 目标检测算法1.1 YOLOV5 目标检测模型YOLOV5 是 Ultralytics 公司 2020 年 5 月发布的目标检测网络模型。YOLOV5 输入端有自适应缩放,Mosaic 数据增强,目的是为了增加数据的多样性,使模型的泛化性能更好。Backbone 有 Focus、CSP、SPP 等网络模块,主要目的是提取特征图。Neck 部分是特征融合阶段,采用 FPN+PAN(特征金字塔和路径聚合网络)网络。基于改进 YOLOV5 算法的学生课堂行为识别研究杨明远,左 栋(华北水利水电大学数学与统计学院 河南 郑州 450046)【摘要】将人工智能引入课堂教学活动,基于深度学习的方法智能识别学生在课堂上的行为,及时了解学生的上课状态,对教学改革具有积极作用。传统的学生行为识别方法有鲁棒性差,准确率不高等缺点。本文使用深度学习的方法,自建学生课堂行为数据集,在 YOLOV5 的基础上引入 CA 注意力机制,在模型检测速度不变的情况下,增强模型的鲁棒性,注意力机制从通道和空间两个维度有效提取学生课堂行为特征。仿真表明,与 YOLOV5 模型相比,加入注意力机制的模型对抬头、低头、玩手机、举手、记笔记、睡觉、交头接耳七类学生课堂行为识别提升了 2%左右的 mAP(mean Average Precision);对睡觉、玩手机、举手行为的识别准确率达到 90%。【关键词】深度学习;学生行为识别;YOLOV5;注意力机制【中图分类号】TP274 【文献标识码】A 【文章编号】1009-5624(2022)12-0051-04Research on student classroom behavior recognition based on improved YOLOV5 algorithmYANG Mingyuan,ZUO DongCollege of Mathematics and Statistics,North China University of Water Resources and Electric Power,Zhengzhou,Henan 450046,China【Abstract】The introduction of artificial intelligence into classroom teaching activities,intelligently identify students behavior in the classroom based on deep learning methods,and timely understand the status of students classes,which has a positive effect on teaching reform.The traditional student behavior recognition method has the disadvantages of poor robustness and low accuracy,this paper uses the method of deep learning,self-built student classroom behavior data set,on the basis of YOLOV5,the introduction of SE,CBAM,CA attention mechanism,Enhance the robustness of the model with a constant model detection speed,attention mechanism from the channel and space two dimensions to effectively extract student classroom behavior characteristics.Simulation shows that compared with the YOLOV5 model,the model with attention mechanism increased the recognition of classroom behaviors of students in seven categories of head up and down,playing mobile phones,hands raising,taking notes,dozing off,whispering by about 2%compared with the YOLOV5 model,and the recognition accuracy of dozing off,playing mobile phones,and raising hands reached 94%.【Key words】Deep learning;Student behavior recognition;YOLOV5;Attention mechanismDOI:10.16009/13-1295/tq.2022.12.033信息记录材料 2022年12月 第23卷第12期 52 论 著Prediction 部分使用三个大小不同的候选框分别预测小、中、大物体。其网络结构如下图所示:图 1 YOLOV5 网络结构图1.2 注意力机制注意力机制最早是自然语言处理中为了使模型更注重语言中的关键词提出的,后来被应用在计算机视觉中,简单来说,注意力机制就是模仿人类在观察这个世界,接受视觉信息时的处理方式。当阅读一篇论文时,一般会把注意力放在眼睛看到的这句话上,而周围的其他信息会被过滤掉,注意力机制就是源于这种思想。在特征提时,给有用的信息更高的权重,无用的信息对应更小的权重。1.3 坐标注意力机制(coordinate attention,CA)CA 使用信息嵌入和注意力生成的方式8,不仅提取到不同特征图的重要性,还获取到特征图上的位置信息。CA 注意力模块如图所示:图 2 CA 注意力机制模块信息嵌入阶段:为了使注意力模块能够获得具有精确的位置信息和通道信息,CA 对全局池化进行分解,转化为两个一维特征编码操作:给定输入 X,先使用大小为(h,1)和(1,w)的池化单元沿水平方向和垂直方向对每个通道进行编码。高度为 h 的第 c 通道的输出可以表示为:(1)同样,沿垂直方向宽度为 w 的第 c 通道的输出可以表示为:(2)编码后得到沿两个方向聚合特征的一对方向感知的特征图,这种特征编码可以获得沿着一个空间方向的通道信息,并保存沿着另一个空间方向的位置信息,这有助于网络更准确地获取感兴趣的目标。注意力生成阶段:注意力生成主要利用捕获到的位置信息和通道信息,使感兴趣的区域被准确地捕获。根据图 2 所示,信息嵌入后的特征图先进行 concatenate 操作,然后进入卷积变换得:x=(f(xh;xw)(3)然后沿着空间维数将 x 分解为两个单独的张量 xh和xw,再利用两个卷积变换将他们变为具有相同通道数的张量得:gh=(fn(xh)(4)gw=(fw(xw)(5)最后,CA 注意力机制模块的输出为:Y=Xghgw (6)2 基于注意力机制的课堂姿态识别2.1 网络结构选择YOLOV5 有四种网络结构,结构的框架是一样的,网络宽度和深度越来越大,模型的检测准确率不断增加,但检测速度在不断下降。本文研究的主要目的是在保证模型检测速度的情况下,提高模型的鲁棒性,因此选择了YOLOV5s,在此基础上加入注意力机制模块。改进后的网络结构如图所示:图 3 YOLOV5s+CA 网络结构2.2 数据集获取及标注本文的数据来源于真实的课堂场景,在课堂上拍摄真信息记录材料 2022年12月 第23卷第12期 53论 著实的学生课堂视频数据,将数据转换为图片格式后,把学生行为动态分为抬头听课,低头,玩手机,记笔记,举手,睡觉,交头接耳等七类,然后对图片进行标注,标注后的数据输出为 YOLO 格式。把数据按 4:1 的比例划分为训练集和测试集。2.3 模型参数2.3.1 学习率调整相关参数表 1 学习率调整相关参数参数设置值初始学习率lr0:0.01SGD momentum/Adam beta1momentum:0.937optimizer 权重衰减系数weight_decay:0.0005前 3 个 epoch 进行 warmupwarmup_epochs:3.0warmup 初始化动量warmup_momentum:0.8warmup 初始 bias 学习率warmup_bias_lr:0.1模型采用不同的策略来学习不同的权重,对网络的权重参数使用权重衰减来优化,偏置和 BN 层的权重用基于梯度的移动加权平均(SGD+Momentum)优化,这种方法可以解决 SGD 优化算法更新摆动幅度大的问题,同时可以使网络的收敛速度加快。学习率的更新使用预热和余弦退火算法,当损失函数值较大时,以较大的学习率来训练模型;损失函数值接近全局最优损失值时,余弦退火算法会给一个较小的学习率来接近全局最优。2.3.2 损失函数相关参数表 2 损失函数相关参数参数设置值box iou 损失系数box:0.05cls 分类损失系数cls:2.0cls BCELoss 正样本权重cls_pw:1.0Obj 回归损失系数obj:1.0obj BCELoss 正样本权重obj_pw:1.0聚焦损失函数fl_gamma:1.5如表2所示,设置预测框损失、分类和回归损失的比例,分类和回归的正样本权重都设置为 1,同时聚焦损失函数,增加对难负样本的训练。2.3.3 算法训练在 RTX3060 的显卡下,配置完成 YOLOV5s 模型的环境,在模型的 backbone 中加入 CA 注意力机制,根据硬件配置及数据集特点,设置训练参数:迭代次数 300 次,输入图片大小为 640640,batch-size 为 8,聚焦损失函数,标签平滑正则化设置为 0.1。表 3 改进后模型与 YOLOV5s 对比