分享
基于逻辑回归分类算法的大学生就业去向模型研究_谭英.pdf
下载文档

ID:2372743

大小:1.64MB

页数:7页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 逻辑 回归 分类 算法 大学生 就业 去向 模型 研究 谭英
-6-理论研究创新创业理论研究与实践 2023 年 2 月第 3 期基于逻辑回归分类算法的大学生就业去向模型研究谭英,王闯(江汉大学生命科学学院,湖北武汉 430056)摘要:就业去向的选择是大学生就业指导的首要工作。该文基于大学生的在校数据,从个体属性、家庭环境、学习背景、在校表现四个方面选定变量参数,运用逻辑回归算法构建大学生就业去向模型。对模型识别效果进行验证,结果显示分类效果较好,为大学生就业指导提供了新的工作方法。关键词:逻辑回归分类;大学生就业;就业指导;机器学习;就业选择;就业去向 中图分类号:G642 文献标识码:A 文章编号:2096-5206(2023)02(a)-0006-07Research on College Students Employment Destination Based on Logistic Regression ClassifierTAN Ying,WANG Chuang(School of Life Sciences,Jianghan University,Wuhan Hubei,430056,China)Abstract:The determination of employment destination is the fundamental of college students employment guidance.According to the data of college students,this paper establishes a database based on four aspects:individual attributes,family environment,learning background,school performance.The Logistic Regression Classifier is used to construct the employment destination model.Through the verification of the model,the results show the classification effect is reliable,which provide a new method for college students employment guidance.Key words:Logistic regression classifier;College students employment;Employment guidance;Machine learning;Employment choice;Employment destination基金项目:2020 年湖北省高校学生工作精品项目(重点项目):利用大数据技术构建学生精准就业帮扶模式(项目编号:2020XGJPF2006)。作者简介:谭英(1986-),女,湖北武汉人,硕士,研究方向:思想政治教育、大学生就业指导。中机器学习理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。机器学习包括无监督学习、监督学习和强化学习等类型。由于毕业生的就业去向大多数是确定的,可以采用监督学习的方法构建学生就业去向的模型,为来年毕业生就业去向的选择提供参考。综上,应用机器学习理论可以作为大学生就业指导工作的新方法,它可以预测学生选择某种就业去向的成功率,帮助学生缩短就业迷茫期,减少慢就业学生比例。1研究综述监督学习是机器学习中最常用也是最成功的机器学习类型之一,解决的问题主要有两种,分别叫作分类与回归,对大学生就业选择的模型构建属于分类问题。监督学习算法包括 K 邻近、线性模型、朴素贝叶斯分类器、决策树、决策树集成等。K 临近是一种简单的机器学习算法,但是预测速度慢且不能处理具有很多特征的数据集,因此在实践中往往不会用到。决策树易出现过拟合、泛化性能很差的情况,在实际的使用过程中,大多数会采取决策树集成的方法。线性模型是在实践中广泛使用的一类模型,几十年来被广泛研究,它既可以应用于回归问题,也可以随着每年应届大学毕业生数量的增长,又适逢我国经济发展的转型时期,对大学生就业指导工作的要求也逐年增高 1。2022 届高校毕业生规模达 1 076 万人,同比增加 167 万,规模和增量均创历史新高2,迫切需要对大学生的就业选择进行科学有效的引导。高校毕业生存在职业生涯决策困难、就业意向的实现率较低等问题3,传统的大学生帮扶主要采取谈心谈话的方式,具有一定程度的主观性。2021 届全国普通高校毕业生就业创业工作网络视频会议提出,要更好地发挥就业反馈作用,力促质量提升4。对已经毕业的大学毕业生信息进行深入分析,挖掘掩藏在数据背后的特征和规律,将有助于准确发现影响大学生就业去向的主要因素。对毕业大学生进行信息分析首先依赖于大学生基础数据的把握,然而大学生的各类信息是复杂、多维度的,需要整合多方面的资源并采用可靠的技术方法。近年来,人工智能技术取得了突飞猛进的发展,其-7-理论研究创新创业理论研究与实践 2023 年 2 月第 3 期用于分类问题,最常见的两种线性分类算法是 Logistic 回归(logistic regression)和线性支持向量机(linear support vector machine,线性 SVM),线性模型的训练速度非常快,预测速度也很快。这种模型可以推广到非常大的数据集,对稀疏数据也很有效。朴素贝叶斯分类器是与线性模型非常相似的一种分类器,它通过单独查看每个特征来学习参数,并从每个特征中收集简单的类别统计数据,它的训练速度往往更快,但泛化能力要比线性分类器稍差。随机森林是解决决策树过拟合问题的一种方法,它本质上是许多决策树的集合,其中每棵树都和其他树略有不同,可以对每棵树的结果取平均值来降低过拟合,但对于维度非常高的稀疏数据,随机森林的表现往往不是很好5。1.1 国外研究现状国外对于大学生就业选择方面的研究文献较少,在方法上以回归分析为主。STONER,J.C.通过对四年制中西部研究机构的住院助理进行调查,利用定性数据分析方法评估了研究变量(情绪衰竭、自我感丧失、个人成就感)在不同性别、工作年限、是否继续雇佣中群体之间的差异,并探讨了它们之间的关系6。Peter A Bamberger 等人研究了学生饮酒行为对就业的影响,采用逻辑回归分析方法,假设正常数量和频率的饮酒,以及酗酒(HED)对毕业后的就业概率产生不利影响,收集了来自美国 4 所不同地理位置大学的 827 名毕业生的数据,发现正常饮酒对毕业后就业的可能性没有负面影响,但酗酒对求职有显著的负面影响7。Dernat等人报告了一项关于农村兽医学生在教育过程中职业选择的研究结果。根据社会表象理论,研究了学生在课程中构建的代表性项目是如何受到其生涯的社会空间因素(包括童年和工作地点)的影响8。Arranz N 等人以安达卢西亚大学 1 053 名本科生为样本,研究大学生的创业意向以及大学生在创业过程中所感受到的障碍。该研究采用回归分析的方法,发现经济障碍、缺乏经验和培训是学生创业的主要障碍9。Mohammed 研究影响学生就业选择的不同就业因素的相对重要性,探讨了影响就业选择的因素。这项研究是在大学的会计专业本科生中进行的,采用主成分分析法,发现起薪、独立工作能力和未来前景是影响大学生就业选择的最主要变量10,该方法是机器学习中无监督学习的经典方法。1.2 国内研究现状国内对大学生就业去向的研究主要包括两个方面的内容,一是大学生就业意愿的研究,一是实际的大学生就业去向数据。在方法的使用上,对于就业意愿的研究多以传统的回归分析方法为主,周骏宇用二分变量逻辑回归的方式对影响大学生是否愿意“先就业后择业”的因素进行了分析11,朱生玉、周晓蕾基于我国中西部地区 10 个省份的数据,并运用回归分析方法,对影响我国大学生就业期望的因素进行分析12,在指标的选择上二者都包括了个体、家庭背景和学科背景。机器学习理论被更多地运用于实际的大学生就业去向的模型构建中,刘哲、赵志刚利用决策树,对辽宁省内部分高校的毕业生信息进行了分析,通过分类规则寻找影响毕业生就业单位性质的主要因素,在指标的选择上考虑了学生成绩和学生基础信息,但未考虑学生个人兴趣等指标13。李冬梅、路春艳、张雅惠以哈尔滨商业大学经济学院 2017 级毕业生信息为基础,根据其数据特征模拟数据库,分析非学生的实际就业信息,准确率达到62.3%14。夏朋斌基于校园大数据(如:一卡通信息、成绩信息、就业信息等),对学生在校行为进行分析和计算,最后利用随机森林算法建立大学生就业预测模型,构建的预测模型准确率达 70.8%15。李路瑶以层次聚类策略为技术支撑,架构出一种就业去向短期预测系统,该方法是无监督学习的经典方法16。孙怡帆等使用机器学习领域的 Lasso-logistic 算法,构建了精准度高达 70%以上的毕业生去向的预测模型17。2数据的来源与处理2.1 数据的来源本研究选择了来自武汉某省属高校某学院 2014-2017 级(即 2018-2021 届毕业生)的相关数据,数据来源于学院学生工作办公室、学校教务系统、学校就业管理系统和问卷调查。由图1 可以看出2018年-2021年,学院大学毕业生人数呈逐年上涨趋势,大学生的主要就业去向仍然是升学或者就业。不同年份中的大学生去向有细微的变化,反映在 2018 年、2019 年有少部分学生毕业选择创业而近两年选择创业学生减少,与之相反,近两年选择自由职业的学生增多,由于非升学和协议就业的学生人数较少,很难进行统计分析,所以不在本研究范围内,仅选取协议就业和升学作为研究对象。由于很难对已经毕业的学生做问卷调查,本研究选取 2021 届毕业学生进行研究分析。2.2 分类指标的选取和数据处理大学生的就业去向受性别、家庭经济背景、学科背景、城乡背景等多种因素影响12,也有学者从个体属性特征、家庭环境、学习背景和学生人力资本因素四方面来考查大学生就业期望的内在影响关系 18,本研究在已有的研究成果上,从个体属性、家庭环境、学习背景、在校表现这四个方面选取了 10 个指-8-理论研究创新创业理论研究与实践 2023 年 2 月第 3 期金等级的赋值中,对不同等级的助学金进行不同分数赋值,然后将各年度的助学金分数取平均数。通过以上方式,在一定程度上能够更加科学地衡量学生的定量指标(见表 3)。在指标的选择过程中,有一个需要注意的问题是各指标不应有显著相关性,为了避免上述问题,将学生获得综合奖励和平均学分绩点进行了相关性分析,通过Pearson 相关性分析得知,学生获得综合奖励和平均学分绩点的相关系数为 0.40,属于弱相关,这是由于本校在奖学金评定时按照综合测评成绩进行评定,学习成绩占综合测评成绩的 70%,且体测成绩不达标的学生无法获得高等级的奖学金或者无法获得奖学金,故学生的平均学分绩和获得综合奖励可以同时作为分类指标。2.3 各项指标的单因素分析结果为了初步了解各单个因素对学生就业选择的影响,分别对各分类指标和定量指标进行了卡方检验和T 检验。对各项分类指标进行的卡方检验显示,不同性格类别和学生是否入党对学生最终是否考研有较大数据来源:本研究整理图 1 从 2018-2021 届毕业生就业去向柱形图,不同颜色代表不同就业去向人数表 2 定性指标分类指标名称分类性别女男专业食品质量与安全园艺(专升本)生物技术(专升本)生物技术园艺民族汉壮白苗布依侗土家生源地湖北广西贵州四川河南浙江江西安徽新疆重庆性格类型IRCASE是否党员是否数据来源:本研究整理表 1 学生就业去向模型构建指标维度指标指标类别个体属性性别定性指标性格定性指标家庭环境民族定性指标生源地定性指标助学金等级定量指标学习背景专业定性指标平均学分绩点定量指标在校表现社会实践奖励定量指标综合奖励定量指标是否党员定性指标数据来源:本研究整理标,构建了学生就业去向模型构建的指标体系(见表1),其中 6 个

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开