技术广角58基于自适应GA-RF的用户流失预测研究摘要针对电信用户流失问题,文章提出一种自适应遗传算法优化随机森林的预测模型。首先对Kaggle平台提供的电信数据进行数据清洗、特征提取及无量纲化处理,然后运用SMOTE过采样以解决数据不平衡问题,对决策树、随机森林等模型预测的召回率、F1和AUC值进行对比。最后提出一种自适应遗传算法优化随机森林的电信用户流失预测模型。结果表明,自适应遗传算法优化的随机森林模型的预测性能优于单一分类模型。关键词用户流失;自适应;遗传算法;随机森林;SMOTE赵峰徐丹华安徽工业大学马鞍山243032引言近年来,随着互联网的高速发展,电信行业已经由最初具有较大的市场需求逐渐转变为饱和状态,因此获取新客户会给企业带来高昂成本。研究表明,开发一个新用户的成本是维护一个老用户成本的4至5倍,如果用户的留存率提高5%,利润率将提高25%[1],提高用户留存率是影响企业发展的关键所在。用户大规模丢失不但会减少企业的收入,而且可能会给企业发展带来阻碍,比如:损害企业估值、降低企业信誉、打击员工士气等。因此,预测可能流失的用户并及时采取措施保留用户对企业发展具有重要意义。针对用户流失这一现象,国内外学者不断进行研究和分析并尝试利用粗糙集理论[2-3]或建立模型等来预测用户流失。EugenStripling[4]和SebastiaanHöppner[5]等人分别建立了客户流失利润度的Logistic模型和决策树模型,并使用优化算法使利润度最大化。与之不同的是,FlorisDevriendt、JeroenBerrevoets[6]等人在客户基金项目:国家自然科学基金项目(71872002);安徽省高校人文社会科学研究重点项目(SK2019A0072)流失最大利润模型的基础上引入了新的评估指标,该指标允许根据采用提升模型可实现的最大潜在利润来评估绩效。ChongrenWang[7]和AlaeChouiekh[8]等人针对用户流失预测问题提出了一种基于卷积神经网络的用户流失预测模型,但是其建立的只是单一的预测模型,没有对模型进行优化,而HossamFaris、LiKohGuan等人[9-11]将粒子群优化算法与其它算法智能混合,建立了更高效的用户流失预测模型。其中,HossamFaris[9]建立了一种基于粒子群优化和前馈神经网络的智能混合用户流失预测模型,结果表明,该模型可以显著提高客户流失预测准确率。J.Vijaya、E.Sivasankar[10]建立了基于模拟退火的粒子群优化算法的客户流失预测模型,并将预测结果与普通分类模型进行对比,结果显示,该模型预测效果更优。LiKohGuan、MarikannanBoom...