温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
SMOTE
贝叶斯
优化
ightGBM
匹配
算法
刘付谦
计算机与现代化JISUANJI YU XIANDAIHUA2023年第3期总第331期0引言据教育部数据1,2021届全国普通高校毕业生总规模909万人,同比增加35万人。在疫情防控常态化的背景下为了保证就业工作和招聘工作的顺利推进,线上招聘成为最佳的选择。教育部大力拓展市场化就业渠道,推出校园网络招聘服务,已累计向2021届高校毕业生提供岗位信息1451万条,投递简历3763万人次。面对如此多的简历,招聘单位如何能尽快地招募到合适的员工,即让人才与岗位精准匹配成为亟待解决的问题。因此,研究高效的人岗匹配算法十分有意义。近年来,不少学者在人岗匹配、智能招聘等有关领域展开科学研究。在国外,Sekiguchi2对人与组织匹配(Person-Organization fit,PO)以及人与工作匹配(Person-Job fit,PJ)的概念进行了综述,为人力资源管理的理论和实践提供有价值的知识和见解;Kumar等人3利用适当的PJ匹配和PO匹配来提高员工基于SMOTE和贝叶斯优化的Adj-LightGBM人岗匹配算法刘付谦,秦华妮,赖惠慧(五邑大学数学与计算科学学院,广东 江门 529020)文章编号:1006-2475(2023)03-0090-06收稿日期:2022-05-09;修回日期:2022-06-07基金项目:国家自然科学基金资助项目(11871379);2021年广东省大学生创新创业训练计划重点支持领域项目(202111349071)作者简介:刘付谦(2000),男,广东东莞人,本科生,研究方向:数据挖掘,E-mail:;秦华妮(1977),女,湖南常德人,副教授,博士,研究方向:智能信息处理与数据挖掘,E-mail:;赖惠慧(2001),女,广东惠州人,本科生,研究方向:数据挖掘,E-mail:。摘要:近2年由于新冠疫情的影响,各行各业受到了巨大的冲击,传统招聘方式难以实行,一方面招聘单位人才缺口大,另一方面求职者无法线下应聘。网络招聘的出现为求职者和招聘单位带来了一定的方便,但仍存在人岗匹配效率低、匹配不平衡的问题,如何精准且快速地完成人岗匹配工作成为需要解决的迫切问题。针对该问题,提出一种基于SMOTE和贝叶斯优化的Adj-LightGBM人岗匹配算法。首先对人岗数据集进行数据预处理;其次使用SMOTE算法对匹配成功样本进行过采样处理,处理后的正负样本比例为1:3;然后在验证集上使用贝叶斯优化寻找最优的LightGBM模型;最后对该模型进行测试与评价,得出该模型的F1-score为0.974,Auc为0.971。通过与支持向量机、随机森林以及XGBoost算法进行对比,发现本文提出的Adj-LightGBM算法不仅在人岗匹配预测上具有更高的准确性,而且在模型训练效率上也有着显著优势。关键词:人岗匹配;不平衡数据;过采样技术;贝叶斯优化;轻量级梯度提升机中图分类号:TP391.1文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.03.016Person-post Matching Adj-LightGBM Algorithm Based on SMOTE and Bayesian OptimizationLIU Fu-qian,QIN Hua-ni,LAI Hui-hui(School of Mathematics and Computational Sciences,Wuyi University,Jiangmen 529020,China)Abstract:COVID-19 has a significant impact on all walks of life during the last two years.The traditional recruitment tactics aredifficult to put into practice.On the one hand,the recruitment gap is large,on the other hand,job seekers have nowhere to applyfor a job.The emergence of online recruitment has brought some convenience to job seekers and recruitment units,but there arestill issues such as low efficiency and unbalanced matching betheen person-post.How to execute job matching effectively andswiftly has become an urgent issue that need to be addressed.To solve this problem,a person-posts matching algorithm of Adj-LightGBM based on SMOTE and Bayesian optimization is proposed.Firstly,the post data set is preprocessed.Secondly,SMOTEalgorithm is used to over sample the successfully matched samples with a positive-to-negative sample ratio of 1:3.Then,Bayesian optimization is used to find the optimal LightGBM model on the verification set.Finally,the model is tested and evaluated.The optimal Auc and F1-score of the model is 0.974 and 0.970.Compared with support vector machine,random forest and XGBoost algorithm,it is discovered that the proposed algorithm not only has higher accuracy in person-post matching prediction,but also has substantial benefits in model training efficiency.Key words:person-post matching;unbalanced data;SMOTE;Bayesian optimization;LightGBM2023年第3期的资产管理技术,结果表明印度钦奈的IT专业人员通过匹配,使得敬业度、生产率、幸福感和工作满意度均有所提高;Malinowski等人4认为人与岗位的良好匹配需要同时考虑招聘者和求职者的偏好,构建了一种双向的人岗推荐系统,改善了人与岗位之间的匹配。在国内,沈文海5先分析了人岗匹配相关理论,再提出动态匹配、人岗均衡、用人所长等6项人岗匹配原则,最后建立人岗匹配模型,使公司职位和员工得到精简,保证了公司的核心竞争力;赵希男等人6在建立人岗匹配测算模型的基础上提出了截面匹配度,有效地弥补了单一考虑横向匹配的弊端;易斌等人7基于支持向量机和模拟综合评价法建立新的人岗匹配度的测算模型,实验结果表明支持向量机在小样本问题上精度要优于BP神经网络;张毅等人8对简历中的长文本进行深度语义特征挖掘,实现人才与岗位之间的精准匹配。人岗匹配研究虽然得到了很大发展,但是仍然存在不足:1)关于人才初筛应用的人岗匹配模型缺乏。目前大多数人岗匹配模型主要研究入职后的人才与岗位之间的匹配度,而关于入职前人才与岗位之间的匹配模型研究几乎没有。2)缺乏基于大数据支持的人岗匹配研究,例如文献 9-12 建立了基于BP神经网络的人岗匹配度测算模型并在不同领域进行验证,但是所用研究样本不足200个,而运用BP神经网络需要大量的训练样本,难以应用到包含海量人岗匹配数据的实际招聘中。3)没有考虑人岗匹配数据集不平衡的情况。现实生活中,简历的数量会显著大于岗位的数量,传统机器学习方法在面对不平衡数据,通常会产生较大的偏向性,极易将匹配成功的样本错分为匹配失败的样本,导致模型分类效果较差。为解决上述问题,本文做了以下工作:1)将机器学习应用在求职者与岗位之间信息精准匹配的人岗匹配模型中;2)提出一种基于SMOTE和贝叶斯优化的改进LightGBM算法(Adj-LightGBM)对人岗匹配进行分类预测;3)对该算法进行消融实验分析。实验发现所提出算法能够适应样本量较大以及数据不平衡的情况,能很好地完成网络招聘中求职者与岗位信息的精准匹配。1基于SMOTE和贝叶斯优化的Adj-LightGBM算法的人岗匹配预测模型1.1SMOTE算法类别不平衡问题会导致模型的训练结果出现较大的偏差。而现实生活的人岗匹配过程中,能匹配成功的数量会显著少于匹配失败。为了减少数据不平衡对人岗匹配预测的影响,本文采用SMOTE算法对数据进行过采样处理。SMOTE是一种随机向上抽样策略的改进算法13,通过对原始数据集中少数类样本执行一些操作产生新的合成样本,有助于减少分类模型的过度拟合,增加模型的泛化能力。图1为SMOTE过采样算法示意图。SMOTE算法提出了一种假设:少数类样本中附近的样本依然是少数样本14。基于该假设,SMOTE的做法是:确定距离某个少数类样本最近的k个负类样本,并在这k个近邻样本中从中选取n个样本(nk),然后在该样本与其相近的样本连线上随机选取一点生成少数类样本,合成公式为:xnew=x+(xi-x),i=1,2,3,n.其中,xnew表示人工合成的新样本;表示从区间(0,1)的随机取值;x表示选择的原始少数类样本;xi表示从k个x的最近样本中选取的n个样本。图1SMOTE过采样算法示意图1.2LightGBM算法LightGBM15是由微软亚洲研究院团队开源的基于决策树算法的梯度提升(Gradient Boosting Decision Tree,GBDT)框架。随着网络招聘的流行,岗位数据和人才简历数据的规模变得越来越巨大,传统GBDT模型的训练速度以及准确性面临极大的挑战。面对高维大数据的问题,LigthGBM主要提出了2种改良算法来提升训练速度:直方图算法和单边梯度采样算法(Gradient One-Side Sampling,GOSS)。1.2.1直方图算法为了减少内存消耗和降低特征维数,LightGBM采用基于直方图算法代替了传统的预排序算法16。首先将连续特征值离散为k个特征值,并构造一个宽度为k的直方图(见图2)。在遍历数据时,计算直方图中每个离散值的累积量,最后根据离散值索引遍历找到最优分割点。传统预排序算法在计算信息增益时需要计算每一个特征值,而直方图算法只需要遍历k次,提高了寻找最优分割点的效率;不需要存储预排序结果,只需要保存特征离散化后的值,降低了算法的空间复杂度;时间复杂度从O(datafeature)降低至O(kfeature),其中data为样本个数,feature为样本特征,k为直方图的宽度。图2直方图算法示意图少数类近邻人工合成多数类.连续型数据离散型数据.直方图特征feature宽度为kdata特征featurek刘付谦,等:基于SMOTE和贝叶斯优化的Adj-LightGBM人岗匹配算法91计算机与现代化2023年第3期1.2.2单边梯度采样算法关于样本采样,传统的GBDT算法17使用所有的样本点来计算梯度。而在实际招聘中海量人岗匹配数据不仅数据样本大而且存在高维特征,计算所有样本点的信息增益非常耗时。为了减少计算资源和加快运行速度,LightGBM 采用了单边梯度采样算法(GOSS算法)18。其主要思想是保留所有