科技与创新┃ScienceandTechnology&Innovation·16·2023年第04期文章编号:2095-6835(2023)04-0016-05数据分析报告自动评分研究*夏稳,宋捷(首都经济贸易大学统计学院,北京100070)摘要:为了实现没有标准答案及确定主题的数据分析报告的自动评分算法,利用文本分词等技术将数据分析报告处理为结构化数据,量化评分特征利用机器学习模型学习评分过程,找出重要特征变量,从而完成数据分析报告自动评分算法的实现。实验结果表明,使用随机森林的MPE约为3.85,优于3种主要的对比模型,最重要的特征变量是工作变量和描述性变量。没有把人工打分考虑的非语义因素纳入模型,可能导致机器自动评分和人工打分的结果存在差异。利用自然语言处理技术和机器学习模型,在没有标准答案对比及确定主题分析的前提下,实现了数据分析报告的自动评分且评分结果和人工评分结果差异不大。关键词:数据分析报告;自动评分;文本分词;随机森林中图分类号:TP311.52文献标志码:ADOI:10.15913/j.cnki.kjycx.2023.04.0051研究背景随着信息时代的快速发展,数据正呈爆炸式增长,大数据时代已经来临,越来越多的数据被储存。如何让这些被储存的数据发挥作用是数据科学的目的所在。中国的数据竞赛正在逐渐崛起,目前全球范围内的各类数据竞赛总量已突破1000余场,中国市场超过了400场,这背后涉及大量数据分析报告的评分工作。在大学的期末考察范围内,也存在大量期末论文评分工作,由于这些期末论文多以实证性分析问题为主,其本质也即数据分析报告。而这些数据分析报告的评分工作,往往需要在短时间内给出公平公正的评分结果,手工评分的过程耗时、缺乏可靠性[1]。因此,如何显著地降低评分所耗时长及保证评分的客观性是本文的研究重点。在人工智能及机器学习普遍适用的背景下,将人工评分实现自动化能有效地提高评分效率,这涉及到的是中文文本评分。基于已有历史数据,通过算法学习,建立一个合适的自动评分系统,从而减少人工评分的人工工作量,且能极大地保证评分的可靠性和一致性。目前关于中文文本自动评分的研究主要集中在作文和主观题评分方向,对于数据分析报告的自动评分算法研究鲜有学者涉猎;另外现有的自动评分系统都基于已有标准参考答案或是确定的作文主题进行自动评分,而数据分析报告的特点是主题具有多样性、包含许多数据分析类的统计专有名词、没有标准答案以供参考,因此现有自动评分算法是不适用于数据分析报告的。鉴于以上特点,本文将提出...