温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
决策树
高校
招生
宣传
策略
研究
交叉与综合Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)本栏目责任编辑:李雅琪基于决策树的高校招生宣传策略研究常 赛(苏州大学招生就业处,江苏 苏州 215000)摘要:招生宣传效率一直是高校招生部门关注的重点,目前招生宣传方式多依赖于工作经验进行布局设计,形式固定,受人为因素干扰较大,宣传效果不理想。为提高招生宣传效率,设计了基于决策树的招生宣传模型,针对不同区域利用多元化宣传方式进行精准化和个性化的招生宣传,提高了考生的认可度和宣传效率,有利于高校招生宣传工作可持续性发展。关键词:决策树;招生宣传;宣传策略;个性化中图分类号:G647文献标识码:A文章编号:1009-3044(2023)04-0119-04开放科学(资源服务)标识码(OSID):1 引言2014年9月国务院印发了 国务院关于深化考试招生制度改革的实施意见,是进一步深化改革,促进教育公平,提高人才选拔水平的重要举措。该意见提出要形成分类考试、综合评价、多元录取的考试招生模式,健全促进公平、科学选才、监督有力的体制机制1。如何能够保证公平公正地录取到更多高素质人才,一直是各高校招生部门的工作重点,而招生宣传则是其中的核心环节。我国高校招生扩招从1999年开始,录取率首次突破50%,随后高考报名人数呈逐年攀升的趋势,2008年达1050万,但从2009年开始有所下降,2018年下降至975万人,相较2008年减少了75万人。由此引发了激烈的生源竞争,即使近两年高考报名人数呈现回暖趋势,2021年达1078万人,也没有缓解各高校间愈演愈烈的生源竞争热度。高校想方设法通过各种途径扩大招生宣传范围及力度,虽然相对粗放型的扩张模式在短期内有所收效,但耗费大量人力和物力,不利于高校招生宣传的长期可持续性发展2。现阶段高校招生宣传工作主要存在时间局限性、地域局限性和信息投放盲目性的问题。(1)时间局限性。一方面在招生宣传集中填报志愿的较短时间段内,各高校信息以爆炸式的方式呈现,考生很难短时间接纳如此庞大的信息并有效分析,容易造成信息丢失,降低招生宣传的有效性3。另一方面在平时的宣传中,由于高中生学业压力大,高考前时间极为紧张,宣传时效覆盖面有限,很难有效发挥平时招生宣传的应有作用。(2)地域局限性。研究表明,招生宣传中的招生宣讲会及进校园宣传的效果最好,此模式下考生可以和心仪的高校进行面对面详细咨询,高校也可定点定向针对匹配学生进行宣传。但此类方式受地域限制明显,特别是在目前全球新冠疫情的情况下,高校能参与的招生宣讲会及进中学校园活动受到限制,容易造成宣传密度不均,影响招生宣传的公平性4。(3)信息投放盲目性。为减少时间和地域局限性影响,高校愈发侧重新媒体宣传模式5。但目前新媒体信息投放呈现撒网式特点,有一定的盲目性,无法根据地域、中学、学生等情况精准化个性化投放。虽然新媒体方式如QQ、微信等方式可实现咨询互动,一定程度上解决学生个性化咨询问题,但受工作人员数量和工作时间影响,咨询并非能得到及时回复,且效率不高,用户体验受到影响。为解决上述问题,本文构建基于决策树的高校招生宣传模型,在此模型中根据决策树的分类策略进行招生宣传布局,解决信息盲目投放问题,提高投放效率,有针对性地进行宣传,加强招生宣传精准度及公平性。2 决策树决策树算法是一种经典的数据挖掘方法,生成的收稿日期:2022-05-30基金项目:江苏高校哲学社会科学研究立项课题“大数据与人工智能:新高考改革中招生创新选拔模式研究”(项目编号:2020SJA1351)、苏州大学2021年高等教育教改研究课题立项课题“新高考背景下高校招生培养就业联动机制中招生计划配置的研究”的阶段性研究成果,主持人:常赛作者简介:常赛(1985),江苏苏州人,苏州大学招生就业处助理研究员、硕士研究生,主要研究方向为招生考试,招生管理研究。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.19,No.4,February2023119DOI:10.14004/ki.ckt.2023.0185交叉与综合Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)本栏目责任编辑:李雅琪模型呈树形结构,常用于处理分类和回归问题。算法流程示意图如图1所示。开始训练集D=(x1,y1),(x2,y2),(xm,ym)属性集A=a1,a2,a3,.an生成节点nodeD中样本属于同一类别标识叶子节点A=空 OR D中样本在A上取值相同标识叶子节点,其类别标识为D中样本最多的类从A中选择最优划分属性a*遍历a的每一个值为node生成一个分支;令Dv表示D中在a*上取值为样本子集Dv为空标识叶子节点,其类别标识为D中样本最多的类以TreeGenerate(Dv,Aa*)为分支节点TreeGenerate(D,A)否是是是图1决策算法流程示意图ID3和C4.5是决策树算法中的两个较为经典的算法。ID3(Iterative Dichotomiser3)算法是 20 世纪 80年代由J.R.Quinlan提出的,核心思想是以信息增益作为分裂属性选取的依据,选择具有最高信息增益的属性作为节点N的分裂属性。式1为D中元组分类所需信息熵。式2为以属性A划分D中元组所需的信息熵。Info()D=-i=1mpilog2(pi)(1)InfoA()D=j=1vDjD Info(Dj)(2)信息增益为原来的信息需求(式1)与新需求(式2)之间的差,如式3所示。Gain()A=Info()D-InfoA(D)(3)ID3算法具有较快的分类速度和测试速度。但该算法在设计之初未考虑如何处理连续属性、属性缺失以及噪声等问题。1993年J.R.Quinlan针对ID3算法的不足设计了C4.5算法,引入信息增益率的概念,如式4所示。C4.5算法克服了ID3算法无法处理属性缺失和连续属性的问题,并且引入了优化决策树的剪枝方法,使算法更高效,适用性更强。SplitInfoA()D=-j=1v|Dj|D|log2(|Dj|D|)GainRation()A=Gain(A)SplitInfo(A)(4)剪枝的基本策略有“预剪枝”和“后剪枝”两种策略。“预剪枝”策略是在分类进行之前进行评估,如果泛化能力不到预期则不进行划分,该节点记作叶子节点。“后剪枝”策略是在决策树完成后,自低向上进行评估,将不满足泛化预期的节点删除子树后转换成叶子节点6-7。C4.5算法的优点是产生的规则易于理解且准确率较高,因此本文选择C4.5作为决策树生成算法。3 招生宣传模型新时代信息化高度发达,高校在招生过程中积累了大量的数据,通过分析发现在招生宣传过程中无论是学生对高校专业的了解程度还是学生对宣传手段的认可程度,都存在一定规律性,从规律中能发现招生宣传过程中存在的不足8。基于决策树的高校招生宣传模式分为五个步骤。划分区域目标:根据不同省份区域的专业计划投放目标划分基础区域范围;采集数据:主要包括各区域的学生入学前的咨询数据及新生调查问卷数据;数据预处理:对采集的信息进行清洗整理、去除杂质;建立决策树,为下一步的具体宣传决策提供决策机制基础;生成宣传决策:为不同区域或不同类型的对象生成个性化招生宣传策略。基于决策树的招生宣传模型层次结构如图2所示。该模型分为三层:数据层、处理层和应用层。应用层应用层处理层处理层数据层数据层调查问卷数据互联网采集招生策略宣传平台生成决策树数据预处理图2招生宣传模型层次结构图数据层主要涉及招生数据、宣传数据的采集工作。数据来源分为两个模块,第一是调查问卷数据模块,数据来源主要是新生入学调查问卷内容;第二是互联网数据模块,主要包括:学生入学前各类咨询数据。数据层技术主要包含离线采集、实时采集、互联网爬虫解析等。利用上述技术采集各类相关数据,以供处理层分析。处理层主要实现数据处理。先对数据进行预处理,去除杂质,生成决策树,为应用层决策提供支撑依据。应用层根据应用需求,为不同地区、不同层次、不120交叉与综合Computer Knowledge and Technology电脑知识与技术第19卷第4期(2023年2月)第19卷第4期(2023年2月)本栏目责任编辑:李雅琪同中学的学生生成个性化招生策略,并通过线上线下招生宣传平台,实现高效、精准、个性化宣传。4 决策树模型本文对S大学2021年的6232份新生调查问卷数据级及各类咨询数据进行统计分析,根据属性归类划分将数据整理成数据集样本D,如表1所示。属性集合A=了解途径、填报志愿决定者、家庭所在地,类别集合宣传效果L=强、弱。其中类别中的强弱标准依据调查问卷中学生通过招生信息对高校了解程度来进行划分,超过50%为强,低于50%为弱。决策分类属性中“了解途径”的信息增益率最高,被选为根节点分类属性,以此类推,逐渐生成决策树,如图2所示。表1数据集样本序 号12345678910111213141516了解途径网 络网 络网 络网 络网 络网 络招生咨询会招生咨询会招生咨询会招生咨询会报纸电视报纸电视报纸电视中学宣讲会中学宣讲会中学宣讲会填报志愿决定者学 生学 生学 生家 长家 长家 长学 生学 生家 长家 长学 生学 生学 生学 生家 长家 长家庭所在地省会直辖市地级市乡镇农村省会直辖市地级市县 城省会直辖市地级市乡镇农村地级市省会直辖市地级市乡镇农村省会直辖市地级市乡镇农村宣传效果强强弱弱强强强强弱弱弱弱弱弱强弱5 基于决策树招生宣传策略的优点基于决策树的高校招生宣传相较于传统招生宣传策略更具多元化、个性化及精准化特征。高校可以多角度、全方位地利用不同阶段的学生数据进行分析预测,对学生的报考咨询数据、入学及培养数据进行分析,掌握内在规律,制定精准化招生策略,改变目前广撒网式、盲目性的宣传问题,节约招生宣传成本、提高招生宣传效率。5.1 多元化宣传方式通过数据分析可知,新时代大学生对于填报志愿更具有独立性和自主性,家长、亲友、老师对学生本身志愿填报意愿的权威性影响越来越不明显。这与新媒体时代信息的高效传播存在密切关系,学生能够通过各种渠道获取到各类招生信息,追求各种渠道的“安利”。这对高校的宣传工作提出了更高要求,需要与时俱进地采用新时代年轻人喜闻乐见的方式宣传学校相关内容,制定适应新时代青年的宣传材料,使学生能够自我决定,并在观念上认同报考高校。5.2 个性化信息推送在招生宣传过程中有三个重要的组成部分即宣传主体、宣传客体及宣传本体。首先,宣传主体为高校实施招生宣传的组织和队伍;其次,宣传客体为招生宣传面向的对象,主要包括学生、家长、中学;最后,宣传本体为招生宣传的信息和内容,包括宣传材料、宣传视频、宣传政策等。传统招生宣传中宣传主体起主导作用,宣传客体仅处于被动接收的状态。宣传本体的组织完全取决于宣传主体的宣传意愿。但基于决策树的招生宣传模型中,宣传本体的设置一方面需要依赖于宣传主体的宣传意愿,另一方面更需要根据宣传过程中主客体产生的数据进行挖掘分析,制作精准化的招生宣传本体。在宣传主客体相互作用下,产生的宣传本体才能够更加精准化及高效性。5.3 精准化信息投放通过新生调查问卷数据构建的决策树显示,对于S大学而言,家庭所在地为地级市的新生对于S大学的基本了解程度较高,接下来依次是省会城市直辖市、县城乡镇,来自农村地区的新生对学校的基本了解程度较其他地区的新生更低。首先,农村了解程度低,究其原因是农村学生的了解各个大学的消息途径相对闭塞。其次,省会城市或直辖市的学生相对而言各类高校选择的机会更多一些,因此关注S大学的信息可能会相对弱一些。最后,地级市、县城、乡镇的同学对于S大学的期待更高,也会更加关注相关信息。由此可见,不同地区的学生对不同层次的高校的关注度是有区别的,因此高校在进行信息投放时应该区