2023.6电脑编程技巧与维护1概述运用数据挖掘技术分析信用风险,对信用卡行业甚至整个信贷市场进行有效的信用风险预测至关重要。关于信用违约预测的研究有很多,Ramakrishnan等[1]以某企业为研究对象进行贷款违约预测,将集成分类器与逻辑回归、决策树等单一分类器模型进行比较;Namvar等[2]对分类器和采样技术进行组合后应用于不平衡信贷数据集上;Daoud[3]分别把XGBoost(极端梯度提升)和CatBoost(梯度提升加类别型特征)模型应用在信用数据上。关于集成学习算法的研究也有很多,Dai等[4]提出一种基于AdaBoost(迭代算法)的迁移学习TrAdaBoost算法;Chen等[5]对GBDT算法(梯度提升决策树)进行改进并提出XGBoost算法;陈霞[6]对信用预测模型中的随机森林算法、XGBoost算法、TrAdaBoost迁移学习算法进行分析,对比得出TrAdaBoost迁移学习算法模型的预测效果较为显著的结论。综合以上模型思想,拟将两种典型的集成学习算法进行融合,将集成后的模型用于解决信用违约预测问题,期望能够提高集成模型的分类精度和泛化能力,从而进一步提高对违约风险的识别率。2集成模型的构建2.1数据获取与处理选择阿里云天池数据集上公开的信用违约预测数据集。该数据来自某信贷平台的贷款记录,总数据量超过30万条,变量主要包括贷款人个人基本信息、贷款额度、债务信息几种类型。从中选取20万条数据作为训练集、5万条作为测试集。接下来对数据进行缺失值处理,由于缺失数据占比不到10%,结合实际情况,有些缺失数据可能是借款本人没有填写,在此将贷款年限特征中的缺失值进行删除,对于匿名系列中的缺失数据用众数对缺失值进行填充。2.2特征衍生与筛选只有特征的缺失值超过50%以上,才能对特征进行删除,因此对所有特征变量都予以保留,先按照商业情景的需要对特征进行衍生,包括数字型和类别型的特征衍生,再将衍生的特征变量与原始的特征变量进行合并,共计149个特征变量。用随机森林对所有的特征进行特征筛选。根据随机森林中变量的重要程度按由高到低的顺序排序后,设定临界值为0.003,筛选出有效特征。按照上述步骤处理后,一共筛选出51个变量。2.3数据平衡处理SMOTE过采样(合成少数类过采样)会生成噪声数据,导致模型出现过拟合;在TomekLinks欠采样(相反类样本配对)过程中一些重要样本可能会被误判删除,因此模型效果不理想。基于以上两种因素,为提高不平衡数据集中少数类的分类精度,在建立模型的过程中,先用SMOTETomek算法进行混合采样,再训练...