基于
数据
画像
个性化
创新
创业
教育
模式
明丽
收稿日期:2 0 2 2-1 1-2 3基金项目:山西省哲学社会科学专项项目“面向区域创新生态构建的山西高校创新创业教育体系优化研究”(2 0 2 2 Y D 1 2 1);山西省研究生教育教学管理改革项目“强化研究生科研创新能力培养的实践与探索研究-基于大数据画像视角”(2 0 2 2 Y J J G 2 1 0)作者简介:张明丽,太原科技大学法学院辅导员、讲师;丁月华,太原科技大学经济与管理学院副教授,管理学博士。基于大数据画像的个性化创新创业教育模式张明丽 丁月华【摘 要】聚焦学生创新创业能力培养,文章构建了创新创业教育领域的多维数据学生画像系统,详细阐述了该领域中学生画像的数据采集、数据处理、标签提取、标签体系建立四个步骤。在利用大数据对学生画像的基础上,提出了个性化创新创业教育的路径,包括个性化教育资源精准供给、个性化教学方式改革和个性化培养效果评价。以某高校机器人创新团队为案例,对创新创业教育领域的学生大数据画像和个性化人才培养模式进行了实证分析。最后,提出推进大数据画像的三点工作建议,即加强大数据专业研究、构建个性化教育支持系统、对数据进行动态监控。【关键词】创新创业教育 大数据 学生画像 精准发展 随着我国“双创”战略的深入实施,高校创新创业教育也得到不断推进。从目前实施情况来看,高校的创新创业教育还普遍存在无效供给和重复供给等问题。1高校只有转变目前普适性创新创业教育模式为个性化教育模式,实现精准化的识别、预测、服务、评价,根据学生个体需求或能力短板提供教育资源,才能有效避免无效供给和重复供给。从创新创业的本质特征来看,人的创新性与个性是紧密联系的,创新性首先表现为对某一事物浓厚的兴趣,其次表现为具有批判思维和独立判断能力,再次表现为能提出新想法并付诸行动。而创新创业教育就是要培养人的开创性个性,挖掘潜能、智慧、创造力。大数据时代催生了海量的数据资源,其中蕴藏着大量有价值的教育规律、学生身心发展规律等方面的信息,通过分析学生日常学习、生活、创新创业活动等各个维度的数据,并对其进行画像,就可以精准判断学生的兴趣偏好、知识结构、创业特质、创新能力等方面的特征,挖掘学生对于创新业教育服务的个性化需求,为其提供精准化的教育资源。本文详细阐述了创新创业教育领域学生画像系统构建的方法和步骤,在此基础上,提出了个性化创新创业教育模式,探讨了个性化教育资源精准供给、个性化教学、个性化教育效果评价的实现路径。一、面向创新创业教育的学生大数据画像(一)用户画像基于大数据的用户画像最早由“交互设计之父”A l a nC o o p e r于1 9 8 3年提出,被定义为通过利用客观现实数据对目标用户构建一套标签体系,以刻画其全貌特征,进而为其提供个性化的服务或产品供给。2用户画像与一般用户研究不同,它试图从刻画用户全貌出发,帮助人们了解用户特征、挖掘用户需求、改进用户服务。目前人们主要利用画像方法来进行用户行为预测、个性化推荐、兴趣挖掘,应用范围涉及电子商务、图书馆、医疗健康、旅游等领域。3比如,E d w a r d s利用本体方法构建了网络购物者画像模型4;王仁武利用图书馆用户的访问日志数据,构建了用户标签体系5;L i u等利用L D A模型,对用户在社交网络中的留言数据,建立了用户兴趣画像模型6;何振宇等从养老服务视角构建了城市老年人用户画像模型。7在创新创业教育领域,人们已经认识到个性化教育的重要性,并对如何推进个性化创新创业教育进行了探讨,比如,董同强和马秀峰研究了在创客运动背景下,有效开展高校个性化创新创业教育的途径8;李江等研究了在互联网背景下,开展个性化创新创业教育的途径。9这类研究大多数聚焦于在特定条件下个性化创新创业教育体系的构建路径,没有探讨如何利用大数据技术挖掘和预测大学生的个性特征和需求,而挖掘学生个性特征和需求恰恰是开展个性化创新创业教育的起点和基础工作,只有对接学生个性化需求,才能精准开展个性化创新创业教育。因此,如何应用381多源和多模态数据,对学生个体进行画像仍属创新创业教育研究领域的一个空白点。(二)创新创业教育领域的学生大数据画像定义用户画像方法的基本思路是将现实用户用标签表征出来。这种思想运用于创新创业教育,为解决学生创新创业能力难以识别和判断的问题提供了一种新思路。本文根据用户画像思想,提出了创新创业教育领域的学生大数据画像概念模型,并将其定义如下:通过系列语义标签,对学生自然属性、兴趣偏好、人格特征、知识结构、创新创业思维、创新创业成果等现有信息进行综合描述,以客观、全面反映学生的创新创业素质和能力,形成多维数据画像模型。通过构建画像模型,充分揭示学生在创新创业教育中的学习、参加活动等方面的行为轨迹,进而深入研判学生创新创业能力和水平,发掘能力短板,预测创新创业教育服务需求。二、面向创新创业教育的多维数据学生画像系统构建用户画像作为一种新的大数据技术,还正处于探讨阶段,没有一套成熟的方法可供使用。徐芳和应洁茹在梳理用户画像研究的基础上,总结出用户画像的流程包括搜集特征数据、研究用户信息、细分标签、丰富画像描述等过程。参考两位作者总结出的用户画像流程,结合创新创业教育实际,本文构建了创新创业教育领域学生画像系统,提出了一套学生画像构建的流程和方法,如图1所示。(一)创新创业教育数据采集随着高校信息化建设的不断推进,教育大数据资源也越来越丰富,各种采集器采集的数据、业务系统数据和第三方数据等高度关联了学生的日常学习、知识结构、兴趣偏好、参加竞赛活动等情况,成为创新创业教育开展所依据的核心数据资源。采集器采集的数据通过传感器、动态脚本等方式获得,包括课堂实录数据、学习行为数据、团队研讨交流数据等,具有实时性、非结构化的特征。校内业务系统数据通过学生管理系统、教学管理系统、科研管理系统、实验管理系统等业务系统获得,具有结构化、半结构化的特点。第三方数据通过校外互联网、学术网站、社交媒体、第三方数据机构调研等方式获得,具有异构性、不确定性的特点。通过对这些大数据的采集和整理,可以全方位反映学生个体在创新创业教育中的全貌,是对学生进行画像的基础性工作。创新创业教育领域的学生画像数据构成及来源如表1所示。表1 创新创业教育领域学生画像的数据构成类型作用内容数据来源自然属性对学生 基 本 信息 的描述姓 名、性 别、院 系、年级、专业等学生管理系统线下学习行为对创新 创 业 相关 课程、专业课程课堂学习的描述学习态度、课堂表 现、学习成绩等教务管理系统、传感器、课堂实录等线上学习行为对网络 在 线 学习 行为的描述网页浏览、网页收 藏、数据库访问记录、文献下载、在线阅读、远程学习培训等历史搜索记录、用户日志、图书馆系统等创新创业行为对参与 创 新 创业 活动竞赛情况的描述创新创业项目承担、团队 角 色、课 外 实 践 活动、创业实践、参加活动态度、参加活动表现等教务管理系统、科研管理系统、团队成员、指 导 教 师、学院或系、创新创业基地等创新创业成果对创新 创 业 业绩 的描述专利申请、竞赛获 奖、成果转化等创 新 与创 业 教育专题网站、科研管理系统等 从表1中可以发现,创新创业教育大数据全方位描述了学生在创新创业教育过程中的全貌,这些数据贯穿于整个创新创业项目实施生命周期,随着时间、地点及学生状态的变化而进行实时更新。然而,由于这些数据来自于不同的数据库,各数据库根据自己的业务需要或使用方便进行收集,收集标准和格式不统一,存在很多无效数据、冗余数据、重复数据、缺失数据、敏感数据和错误数据,必须经过清洗、数据标准化处理才能进行标签抽取,因此画像的第二步是数据处理。(二)数据处理文本数据处理的基本步骤是:数据清洗。一般使用的方法是去冗、补缺、脱敏。去冗是指消除重复文本,简单文本可以通过手工去冗,复杂文图1 创新创业教育领域的学生画像系统481 高等工程教育研究 2 0 2 3年第2期本可以通过F o x t a b l e软件去冗。补缺是指补充缺失的标签主题词,比如,发现某个学生的创新兴趣主题词存在缺失,可以从数据源中进行推导,或者通过访谈、问卷调查等方式进行补充完整。对于数据值的缺失,可以通过计算平均值、中间值或概率统计函数值代替。脱敏是指去除涉及个人隐私或者商业秘密方面的信息。分词。常用的方法是P y t h o n第三方中文分词库中的j i e b a分词方法,可选择精确模式、全模式和搜索引擎模式三种,默认为精确模式,比如,输入“高校创新创业教育”后,进行分词后的结果是“高校”“创新创业教育”。分词优化。主要任务是对分词得到的关键词进行优化调整,保留与学生创新创业教育相关的关键词,同时利用 同义词词林 词典合并同义词,利用“哈工大停用词词库”“百度停用词表”等停用词表剔除停用词。分词统计。对优化调整后的关键词进行数量统计,分析出现的频次,作为抽取标签的基本依据。(三)标签提取标签是指按照一定的逻辑构建的具有语义、可读性强、易理解的短文本。用户画像的关键环节就是要生成刻画用户全貌特征的标签。创新创业教育领域中的学生画像标签抽取要从分析创新创业教育场景开始,设计针对学生创新创业能力的功能标签。具体方法有:直接抽取法。是指根据文档分词结果直接抽取能代表文档内容的关键词。高频关键词或共现关键词对抽取法。高频词是指抽取文档中出现频率较高的、能表达文档主要内容的、快速理解文档意思的关键词。共现关键词对是指从文档中直接抽取共同出现的关键词对,这是由于如果两个关键词一直共同出现,则认为它们之间具有语义之间的联系,可以把它们组合成一个新词作为标签使用,比如,“创新”和“创业”两个词是两个意思不相同的词,但往往以组合方式出现,所以将“创新创业”作为一个标签使用。文档主题生成 法L D A。运 用 步 骤是:首先从某个文档的主题分布中抽取一个主题,然后再从属于该主题的词语分布中抽取一个词语,重 复 以 上 步 骤 直 到 遍 历 文 档 中 所 有 的 单词。1 0比如,要了解某个学生创新创业课程学习情况,可以将理论课程、实践课程作为主题词,然后,再从这些主题词中抽取具体课程作为细分标签。T F-I D F算法。基本思想是:如果某一词语在目标文档中出现的频率高而在别的文档中出现的频率低,那么就抽取该词语作为标签。1 1比如,在某个学生创新创业教育文本数据中,诸如获奖、有想法之类的词汇出现的频率可能远远高于其他词汇,就可以作为该学生的特征标签,而创业、创新、性格、竞赛之类的并无实质价值的高频词汇,就要剔除掉。(四)建立标签体系用户标签往往是多维的,就对创新创业教育能力的描述而言,按照人才胜任力模型中的冰山理论,可以分为内隐和外显两类1 2,具体来说,由内向外分为人格特征、思维特征、知识结构、创新创业行为等。同时,标签是分层次的,经过层层分解后的标签体系像一棵树,从树根标签分解到树叶标签,最高级的是叶子标签。教育管理人员可以采用层次分析法、模糊综合评价法等方法,科学确定各个画像标签的权重,最后通过加权算法计算树根标签值,确定创新创业教育对象的类型。参照段肖阳的研究结论1 3,建立以下创新创业教育领域学生标签体系:图2 创新创业教育领域学生画像标签体系通常情况下,标签的确定受教育管理者的工作经验、个人认知、画像算法选择等因素的影响,所以,不同的人对学生创新创业能力画像时,设计的标签体系也不同。确定了两级标签后,我们还可以进一步细分下一级标签,比如,对于二级标签“创新创业知识”,可以进一步分为三级标签:营销知识、经营管理知识、财务知识、税收知识、风险管理知识等。本文以某高校机器人创新团队为例,用图2中的二级标签作为学生创新创业能力画像标签,对学生个体进行画像。该团队成员大多来自于机械、材料、电子、控制、计算机等专业的学生,规模为3 0人,以学生A为例,构建的画像模型如图3所示。三、基于大数据画像的创新创业个性化培养路径当学生的创新创业能力以画像标签表现出来后,就可以判断学生的全貌特征和需求,从而为其提供精准化、个性化的教育,实现由传统大水漫灌式的教育方式向精准滴灌式的育人模式转变。581基于大数据画像的个性