温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
机器
学习
开放
教育
在线
文本
情感
分析
张黎娜
引言开放大学是我国开展继续教育的重要力量,在加快建设学习型社会、大力提高国民素质的背景下,怎样提高开放教育学习者的在线学习质量和学习效果成为各界关注的热点。以往开放教育的学习评价、效果评估,通常是采用一些结构化数据分析技术,如分析网上的行为数据,包括登录天数、发帖数、形考等。但是,对于一些非结构化、交互式的在线文本数据,如课程评论、聊天群文本、论坛等数据缺乏相应研究。这些在线文本数据反而更能贴切地反映出开放教育学习者在网络学习平台学习时所关注的话题及情感倾向1。以关键词“文本数据”“Text Data”在中国知网和万方数据库进行检索,总共检索到文献31 013 篇,再以关键词“情感分析”检索到文献527 篇如下页图 1 所示,再以关键词“开放教育”检索到文献 1 篇。从“文本数据情感分析”为关键词检索到的文献结果示意图中可以看出,以文本数据进行情感分析来改善教学平台、提升学习者的学习效果和学习质量、开展课程评价的文献占比不足 10%,应用于开放教育的文献不多,基于文本数据进行开放教育情感分析的研究更少。通过对开放教育在线文本数据情感倾向研究,探索教师、学生使用学习平台参与线上教学过程中的情感态度。在理论上对师生情感的问题进行归纳和总结,寻找有效的干预措施,旨在为提高在线教、学质量提供帮助;为学习平台的优化提供建设性意见;为管理者进行教学监督、质量监控提供非结构性数据参考;为同类型的学习平台进行网上学习产生的文本数据情感分析提供可参考的研究方法。基于机器学习的开放教育在线文本情感分析*张黎娜檀娟伢李梅董露露(安徽开放大学信息与建筑工程学院,安徽合肥230001)摘要 教育信息化的快速发展,各个网络学习平台上的文本情感数据迅速增长,在线文本数据的情感研究广受关注,但开放教育在线文本数据情感分析的研究较少。文章针对现有研究的不足,通过检索、分析,阐述研究价值,介绍当前广泛用于文本情感分析的方法,构建了朴素贝叶斯分类模型,采用此模型进行开放教育在线文本数据情感倾向分析。根据分析结果,管理者可以采取合理的干预措施,为完善教学平台、提高在线教学的质量提供借鉴。关键词 开放教育;在线文本;机器学习;情感分析 中图分类号 TP391.1 文献标识码 A 文章编号 1008-7656(2023)02-0016-06*基金项目 安徽省高校自然科学研究重点项目“基于成人学习者网上课程讨论区的数据挖掘和情感分析”(编号:KJ2020A1220);安徽省高校自然科学研究重点项目“基于数据挖掘技术的个性化学习模式研究”(编号:KJ2020A1218)收稿日期 2023-02-16第 34 卷第 2 期广西广播电视大学学报Vol.34 No.22023 年 3 月JOURNAL OF GUANGXI OPEN UNIVERSITYMar.202316第 34 卷第 2 期广西广播电视大学学报Vol.34 No.22023 年 3 月JOURNAL OF GUANGXI OPEN UNIVERSITYMar.2023图 1以“文本数据-情感分析”为关键词的文献检索结果示意图一、研究设计(一)方法理论在线文本的情感分析是指通过对在线文本数据进行量化,找出文本数据隐含的情感态度和观点,探索用户的情感倾向。常用的文本情感分析方法有情感词典分析方法和机器学习方法。基于情感词典的情感分析方法是通过对文本数据中的每一个情感词与人工构造的情感词典进行比较,然后计算出情感词数量,再根据情感得分计算规则算出文本数据的情感得分,最后得出文本数据的情感类别。情感词典是人工采集建立的。采用情感词典进行文本数据情感分析时,词典的质量直接影响文本数据情感分析的质量,因此,需要根据情感分析的需求不断地更新和完善现有的情感词典。但是,基于各行业的专用词语、网络新兴的词语不断涌现,仅通过人工数据需求来扩充情感词典,不仅耗时耗力,也难以囊括所有的词语。基于机器学习的文本数据情感分析方法是利用几个经典的机器学习算法,由人工提取文本特征,利用计算机按照特定的算法进行文本处理与情感分类。这种方法具有以下两个优势:第一,可以有效地减少研究人员的工作量及情感分析过程中的一些感性判断;第二,可以根据数据库的变化动态地对词库进行更新,具体方法如下。1.支持向量机支持向量机是定义在特征空间上间隔最大的二分类算法。可理解为求解凸二次规划的问题2。简而言之,就是解凸二次规划的最优化过程,解是一个最优超平面,这个解到两边间隔距离最大,如图 2 所示。图 2SVM 算法基本原理图其中,“wx+b=0”为分类超平面,这种超平面的解是无穷多的,情感判定的过程就是要求解间隔最大的分类超平面。若要处理的数据集是文本数据(非线性的),求解的过程中需要把文本数据17数据字段(Lable)评论内容(Review)1地理位置还不错,到哪里都比较方便0服务比较差1酒店位于市中心,比较方便0感觉不好,房间太旧而房价太贵,早餐也比较差1夜景不错,房间不错,早餐很不错,服务比较满意1找酒店时看到这家每条点评都有回馈,觉得服务不错,就订了注:表中“1”表示正面评论,“0”表示负面评论。张黎娜等/著基于机器学习的开放教育在线文本情感分析由低维空间映射到高维空间,这样就可以把需要处理的数据由非线性转换成高维的线性数据来处理,更容易求解。2.朴素贝叶斯分类算法朴素贝叶斯分类算法是基于贝叶斯理论和特征条件独立假设的分类算法。它在贝叶斯的基础上作了一些改进。两者的区别在于,朴素贝叶斯认为,一个特征的出现概率与其他的特征属性是否出现无关。传统的机器学习算法普遍应用于情感分类,针对文本数据数量不大的,朴素贝叶斯分类器在文本数据情感判别方面分类效果好、算法复杂程度低34。定义文本数据 qk=q1,q2,.,qn,文本数据的情感类别为 C=C正,C负,C正为正面,C负为负面。文本数据情感类别的计算公式为(1)。(1)(2)(3)其中,公式(2)计算的是情感类别的先验概率,qtk(qi)为聊天记录文本 qk 中词 qi 的权值,公式(3)为情感类别的后验概率,NUM(Cj)为属于情感类别 Cj 的聊天记录文本数。3.决策树决策树是一种常用的分类方法,它是一种树形结构,每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。此方法采用树形结构进行情感倾向分析,它是一种有监督的分类学习算法。非叶子节点是属性的测试,边为测试结果,叶子节点为判定后的情感类别。判定过程如下:自根节点起,逐个判定条件分支,确定情感类别,直到某叶子节点,该叶子节点的类别就是文本的情感类别。(二)研究思路下文主要从情感分类模型的构建和开放教育在线文本数据的采集与分析两个方面加以介绍。情感分类模型的构建:使用公开数据集,随机分为训练集与测试集两部分,训练分类模型。通过对比模型分类准确率,选取分类效果较好的模型进行文本数据情感分析。开放教育在线文本数据的采集与分析:数据采集后,首先进行文本预处理和文本向量化,然后运用分类模型进行文本情感倾向分析,具体采用的技术方法如图 3 所示。图 3研究思路与方法示意图(三)文本情感分类器构建1.数据集用于情感分析的文本数据一般是通过网络爬虫获取或是人工制作,数据集建立的过程耗时耗力,为了方便研究,从网络获取现有 ChnSenti-Corp_htl_all 数据集进行模型训练。此数据集是某酒店评论文本数据,数据字段(Label,数值 1 表示正面评论,数值 0 表示负面评论)和评论内容(Review),共采用 7 000 条评论数据,正面数据5000 条,负面数据 2000 条。数据格式如表 1 所示。表 1数据集的数据格式及部分评论表18第 34 卷第 2 期广西广播电视大学学报Vol.34 No.22023 年 3 月JOURNAL OF GUANGXI OPEN UNIVERSITYMar.2023时间正面/条负面/条总计/条2022 年 3 月421234442022 年 4 月687617482022 年 5 月524705942022 年 6 月6891518402022 年 7 月5311176482022 年 8 月360323922022 年 9 月1 1312831 4142022 年 10 月8372221 059模型训练集测试集支持向量机0.910 80.887 5朴素贝叶斯0.901 30.900 7决策树0.914 20.826 32.文本预处理经过文本数据预处理过程,将文本数据处理成计算机便于识别的自然语言。预处理过程主要包括以下几个步骤:第一,数据清洗,将采集数据中的图片、语音、视频、系统消息等无效本文、重复文本数据进行剔除;第二,分词,使用比较成熟的 Python 中 jieba 分词库对文本进行分词操作;第三,使用已有的停用词词库去除数据中容易影响情感分析的无用、停用词。3.文本向量化采用 Word2vec 中的连续词袋模型5,通过对给定语料库的学习,生成不同维度的词向量,满足文本情感倾向性分类要求。词袋模型有分为三层:第一层为输入层,输入当前词 W 前后的 n 个词向量;第二层为隐藏层,将输入层的 2n 个词向量进行累加;第三次为输出层,输出层为一棵二叉树,以词库中的词作为叶子结点,以词频为权重计算出来的概率最高的词向量。4.模型训练用 三 种 机 器 学 习 算 法 训 练 模 型。使 用train_test_split 函数将原始数据集按照 82 的比例进行随机划分成训练集和测试集。文本数据较多的作为训练集进行模型训练,数量少的作为测试集拟合模型,数据代入模型进行训练,计算模型准确率。训练过程重复进行 60 次,得到 60 个训练集和测试集准确率,计算 60 次结果的平均值6,结果如表 2 所示。表 2训练模型准确率表由表 2 可以看出,决策树模型在训练集上的准确率为 0.914 2,结果较好,但在测试集上的准确率为 0.826 3,在三种训练模型中排最后。支持向量机模型在训练集、测试集的准确率为 0.910 8、0.887 5,训练结果都不错。使用朴素贝叶斯训练出来的模型在训练集准确率为 0.901 3,测试集准确率为 0.900 7,在三种模型中最好。对比三种模型训练结果,朴素贝叶斯模型在两个数据集上的训练结果都较好,数值比较接近。因此,开放教育在线文本情感分析最终采用朴素贝叶斯模型。二、开放教育文本数据情感分析(一)数据获取2022 年 10 月 26 日,笔者从“一网一平台-安徽分部”在线服务聊天群中导出自群建立以来的聊天记录,总共 9 747 条。通过 txt、word、execl等处理工具进行去段落标记、空格,分列,形成一条聊天数据一行记录,再对一些聊天中的图片、语音、视频、系统消息等无效聊天本文、重复聊天文本数据进行剔除,得到有效文本数据 6139 条7。(二)数据处理与分析对有效文本数据进行预处理和文本向量化,选择朴素贝叶斯模型进行文本情感倾向分类,模型输出结果为正面情感文本和负面情感文本。1.正面、负面情感文本统计基于朴素贝叶斯模型的开放教育在线文本情感倾向分析,得到的正面情感文本、负面情感文本数量按月统计后如表 3 所示。可以看出,每个月的正面文本数量高于负面,师生在群里进行交流时情感还是偏于正面。表 3文本数据情感倾向统计表19月份前 5 位词语3 月注册、权限、管理、培训、登录4 月课程、教务、注册、系统、数据5 月分班、异常、编排、课程、系统6 月作业、系统、课程、照片、考场7 月成绩、采集、招生、系统、照片8 月招生、学籍、照片、系统、显示9 月课程、照片、注册、选课、登录10 月课程、密码、系统、注册、视频张黎娜等/著基于机器学习的开放教育在线文本情感分析2.负面情感分析可以对负面情感文本数在总文本数量中占比进行分析,横向为时间,纵向为负面情感在总文本数中的百分比。2022 年 3 月份负面情感倾向占比最少,2022 年 10 月份负面情感倾向占比最多。2022 年 3 月至 7 月负面情感文本占呈递增趋势。3月份处于春季学期开学、平台启用前期,