温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
随机
森林
算法
超星
平台
数据
挖掘
研究
海林
2023.6电脑编程技巧与维护1概述教育数据挖掘和机器学习是近年来大数据研究的热门领域,随着大数据技术的不断发展,教育数据的采集、存储、分析和应用已经成为现代教育的重要组成部分。对于学生的学习成绩,传统的评价方法往往依赖于老师的主观判断和测试的成绩,而这种方法没有充分利用教育数据的优势,也无法满足学生、家长和教育管理者想要了解学生学习情况的需求,虽然学校和教育部门普遍使用学生的成绩数据评估教学质量和学生的学习成果,但效果并不明显。随着教育信息化的发展,各种电子学习平台广泛应用于教育教学中,超星学习通作为国内优秀的在线学习平台之一,每年都会有大量的学生在其平台上进行学习。然而,目前在学习过程中通过学生成绩的优异程度来看,往往只是以定性的方式进行评价,缺乏客观的数据支撑,虽然学校和教育部门普遍使用学生的成绩数据来评估教学质量和学生的学习成果,但由于数据规模庞大、数据质量不一、数据类型多样等,教育数据的处理和分析变得非常复杂和困难,导致学生的成绩数据没有得到充分利用。因此,利用教育数据挖掘算法对学生的学习情况进行分析和预测,已经成为一个非常重要的研究方向。2研究内容研究聚焦于某学院校级一流课程“数据库原理与应用”,旨在通过应用教育数据挖掘中的随机森林算法来探究学生的学习行为和成绩之间的关系。为了实现这一目标,研究将采用定量研究的方法,基于超星学习通成绩数据,通过建模和预测,探究学生的学习行为对成绩表现的影响,并构建学生学习行为数据与学习成绩之间的关系,以分析学生课程成绩的主要影响因素。研究旨在提高教师的教学效率和教学质量,帮助学院进行科学的管理和决策,并为学生个性化、多元化学习提供更好的支持和指导。教育数据挖掘已成为提高教学质量和效率的重要工具。研究将学生学习行为和成绩表现之间的关系作为研究重点,通过随机森林算法的建模和预测,揭示学生学习行为对成绩表现的影响,并探索学生课程成绩的主要影响因素。这不仅有助于学校针对不同学生提供个性化的教学方案,提高学生的学习效果和成绩,还能为学校的管理和决策提供科学依据。另外,对于教师来说,学生学习数据的分析和挖掘可以提高教学效率和教学质量,为教师提供更多的参考和指导,帮助他们更好地了解学生的学习状况和需求,帮助学校进行科学地管理和决策,从而促进教育的发展和进步。3研究条件3.1研究的参与者(1)大学学生。学习“数据库原理及应用”课程的所有学生,共12个班,762人。(2)高校教师。共5人,有教授1人、副教授1人、讲师3人。(3)研究使用教务管理系统和超星平台获取相关的数据,包括学生的课程视频观看时间、章节完成率、章节测验数、任务和作业的完成情况、考试情况、平时成绩、总成绩和成绩五级制。3.2项目所用工具(1)PyCharm编辑器。(2)超星学习通平台。作者简介:黄海林(2002),男,本科,研究方向为网络安全与人工智能;王金恒(1982),女,通信作者,副教授,硕士,研究方向为计算机网络技术、人工智能、云计算;曾志豪(2001),男,本科,研究方向为网络安全与人工智能;王煜林(1982),男,副教授,硕士,研究方向为网络安全与人工智能。基于随机森林算法对超星平台数据的挖掘与研究黄海林,王金恒*,曾志豪,王煜林(广州理工学院计算机科学与工程学院,广州510540)摘要:以某学院校级一流课程数据库原理与应用课程为研究对象,基于教育数据挖掘的随机森林算法对超星学习通平台的校级一流课程“数据库原理与应用”线上课程学习数据进行研究。研究结果表明,随机森林预测模型预测准确率高达 81%,在探究学生在线上学习行为与学生成绩研究预测中,选取两个特征标签,即章节授课进度和学生学习总时间,可知学生学习总时间对于学生成绩的影响很大。关键词:教育数据挖掘;随机森林算法;自定义的 colormap 方案;Scikit-learn 库;学习行为研究85DOI:10.16184/prg.2023.06.0302023.6电脑编程技巧与维护(3)机器学习库Scikit-learn(sklearn)。(4)数据收集Excel。(5)数据可视化分析matplotlib。(6)数据操作与分析库pandas。(7)科学计算库Numpy。3.3项目所用算法随机森林算法是一种用于解决分类、回归等问题的算法,它会把多个决策树组合成一个随机森林,通过对随机样本和随机特征的选择,提高模型的准确性和泛化能力。随机森林算法的基本流程如下:(1)从训练集中随机采样出一定数量的样本和特征;(2)对每个采样的样本集建立一棵决策树;(3)将多个决策树组合成一个随机森林模型。在预测时,随机森林模型将多个决策树的预测结果进行平均或投票,得到最终的预测结果。随机森林算法具有较好的抗噪声能力和泛化能力,且不需要对数据进行归一化处理和特征选择,因此在实际应用中具有很大的优势。随机森林算法流程如图1所示。4实施方案与目标研究主要是运用教育数据挖掘技术中的随机森林算法,建立一个可用于分析“数据库原理与应用”课程成绩影响因素的随机森林模型。研究共分为4个阶段,分别是数据预处理、特征选择、标签选择、模型构建、模型评估与结果分析。在这个过程中,研究团队对数据进行初步的处理,从中选择出相关特征和标签,然后运用随机森林算法构建模型,最后对模型进行评估和结果分析。4.1数据的预处理首先,需要对超星学习通成绩数据进行数据预处理,包括数据清洗、数据集成、数据转换和数据归约等操作,以提高数据质量和可用性。该研究使用了学院计算机科学与工程学院21级学生的成绩数据,共6 096条记录。大一、大二的课程主要包括公共基础课和专业基础课;而大三的学生开始学习关键的专业知识;大四的学生则主要是实习和毕业设计。由于学生成绩数据存在缺失、多余和无用值等问题,所以需要进行数据处理具体如下。(1)将转专业、退学、作弊学生成绩记录删除。(2)缺考或申请缓考的学生成绩用相应补考成绩填补,将无补考成绩的学生成绩删除。(3)多次考试采用第1次有效成绩。(4)将每门课的成绩划分为5个等级,10090分为A、9080分为B、8070分为C、7060分为D、60分以下为E。学生成绩数据等级划分标准如图2所示。4.2特征选择和特征标签选择利用seaborn库绘制多个直观的图表,从不同角度展示数据之间的关系,从而探究不同特征对之间的相关性,以及利用卡方检验进行对特征标签的统计提取,特征标签的统计如图3所示。项目选择章节进度与学习时间作为两个特征标签进行研究。4.3模型建立利用Scikit-learn库构建一个随机森林模型,它将图1随机森林算法的流程图2学生成绩数据等级划分图3特征标签的统计随机选择特征构成k棵决策树学生原始成绩数据数据预处理与清洗处理后的学生成绩数据特征筛选成绩数据样本1成绩数据样本2成绩数据样本N决策树模型1决策树模型2决策树模型K投票待分析数据RF结果分析1.00.80.60.40.20.01.00.80.60.40.20.01.00.80.60.40.20.0600400200015010050chapter learing Numberview video timeChapter progressCourse video progresspercentage point completionPercentage point completionCourse video progressChapter progressview video timechapter learing NumberGeneralGoodExcellentPassFaildRank_numerical_one862023.6电脑编程技巧与维护数据分成训练集和测试集,为随机森林分类器定义参数,并在训练集上训练分类器。首先定义将提供给随机森林分类器的参数,再对数据集进行划分,80%为训练集,20%为测试集,随机森林模型参数如图4所示。该模型的max_depth根据数据进行调优,可视化max_depth如图5所示。4.4模型评估与结果分析选用准确率作为指标来评估随机森林模型的性能,使用交叉验证来评估模型的性能,例如,k折交叉验证。在评估随机森林模型的性能时,可以通过特征重要性排名来确定哪些特征对模型的预测最重要。模型预测的准确率如图6所示,特征对模型的预测重要性如图7所示。从以上研究数据可知,随机森林预测模型的预测准确率高达81%,在探究学生在线上学习行为与学生成绩研究的预测中,选取章节授课进度和学生学习总时间两个特征标签可知,学生学习总时间对于学生成绩的影响更大。5制定个性化的教育教学方案针对以上研究结果,根据学生的学习总时间对学生成绩的影响更大这一结论,制定个性化的教育教学方案如下。(1)强调学习时间管理。学生学习总时间对于学生成绩的影响更大,因此教师需要引导学生合理安排学习时间,做到有目标地安排时间,合理分配时间和任务,减少无效时间的浪费。在课堂教学中,教师可以引导学生做好学习计划,明确学习目标和任务,鼓励学生利用零碎时间进行有效学习,提高学生的学习效率。(2)调整章节授课进度实验表明,章节授课进度对学生成绩有影响。因此,在授课进度上,建议教师在尽量保证知识点完整性的前提下,适当放缓章节授课进度,给学生留出更多的时间巩固学习。如果某个章节的掌握情况不理想,教师可以根据学生的反馈情况和测试成绩等信息,及时调整课程进度,保证每个学生都能够掌握重点知识点,做到学以致用。(3)提供个性化的学习支持和辅导。基于数据分析可以对学生的学习行为和学习成绩进行个性化、多元化的分析和诊断,从而针对学生的学习特点和问题,提供个性化的学习支持和辅导,方案如下。1)提供针对性的学习建议和学习辅导,帮助学生解决学习难点和问题。2)鼓励学生参加学习小组和讨论,促进学生之间的学习互动和合作。3)提供定制化的学习方案和学习资源,满足不同学生的学习需求。(4)优化教育教学体系针对学生学习总时间对学生成绩的影响更大这一结论,建议在教育教学体系中优化教学模式和教学资源,提高教学效率和教学质量。具体来说,可以结合机器学习和人工智能、前后端交互等技术,建立个性化学习平台,为学生提供个性化的学习资源和学习服务,从而提高学生的学习效果和学习成绩。6结语项目所训练的数据量只有6096条,其中用于训练模型的有4876条,数据量相对较小,准确率达到了81%。随着教学工作的不断深入,网络平台上会积累更多的学生学习数据;随着数据量的增长,模型也会训练图4随机森林模型参数图5可视化max_depth图6模型预测准确率图7特征对模型的预测重要性predictive quality0.640.620.600.580.560.540.520.50max_depth2468101.000.950.900.850.800.750.700.650.60learning time1.018.3%1.081.7%Percentage Point872023.6电脑编程技巧与维护ratebasic)进行识别,这里识别的返回值可以提取成数据封装格式(JSON)的数据,也可以以单词列表的形式一行行枚举由程序得到,解析JSON数据可以运用其官方库或第三方开源库进行循环遍历。4应用示例在此所述的这种交互式编程技术,可以在绝大部分需要人工机械性参与的Android端人机交互环境中应用。其更多的是用在县级新媒体App的一些功能性辅助测试中,用批量的模拟浏览、转发、留言、点赞等操作来测试应用的健壮性,也可制作一些小工具,例如,微信视频通话的自动接听(让手机成为监控)、手机隔时自动拍照、网络视频自动播放的后台守护服务程序等,当然这类应用前端仅仅是几个按钮,更多的功能是一些算法和驻留后台的操作。下面是实际开发一个媒体App交互工具重要环节的截图,如图3图5所示。5结语智能掌端设备的兴起,颠覆了人们以往Windows平台下的传统认知,Android的用户体量是巨大的,并且一直以来呈现快速发展的势头,相比于Windows终端,它虽起步较晚,但技术革新发展较快,可以用相关技术让这些掌端设备提供一些有趣的操作,但要与