第55卷第2期2023年4月Vol.55No.2Apr.2023南京航空航天大学学报JournalofNanjingUniversityofAeronautics&Astronautics代价敏感惩罚AdaBoost算法的非平衡数据分类鲁淑霞,张振莲,翟俊海(河北大学数学与信息科学学院,河北省机器学习与计算智能重点实验室,保定071002)摘要:针对非平衡数据分类问题,提出了一种基于代价敏感的惩罚AdaBoost算法。在惩罚Adaboost算法中,引入一种新的自适应代价敏感函数,赋予少数类样本及分错的少数类样本更高的代价值,并通过引入惩罚机制增大了样本的平均间隔。选择加权支持向量机(Supportvectormachine,SVM)优化模型作为基分类器,采用带有方差减小的随机梯度下降方法(Stochasticvariancereducedgradient,SVRG)对优化模型进行求解。对比实验表明,本文提出的算法不但在几何均值(G⁃mean)和ROC曲线下的面积(AreaunderROCcurve,AUC)上明显优于其他算法,而且获得了较大的平均间隔,显示了本文算法在处理非平衡数据分类问题上的有效性。关键词:非平衡数据;惩罚AdaBoost;自适应代价敏感函数;平均间隔;随机梯度下降中图分类号:TP391文献标志码:A文章编号:1005⁃2615(2023)02⁃0339⁃08ImbalancedDataClassificationBasedonCostSensitivityPenalizedAdaBoostAlgorithmLUShuxia,ZHANGZhenlian,ZHAIJunhai(CollegeofMathematicsandInformationScience,HebeiProvinceKeyLaboratoryofMachineLearningandComputationalIntelligence,HebeiUniversity,Baoding071002,China)Abstract:Howtoimprovetheclassificationaccuracyofminorityinstancesisoneofthehottopicsinmachinelearningresearch.Inordertosolvetheproblemofimbalanceddataclassification,apenalizedAdaBoostalgorithmbasedoncostsensitivityisproposed.InthepenalizedAdaboostalgorithm,anewadaptivecostsensitivefunctionisintroduced,whichgiveshighercostvaluetotheminorityinstancesandthemisclassifiedminorityinstances.Itcanobtainalargeraveragemarginbyintroducingpenaltymechanism.Theweightedsupportvectormachine(SVM)optimizationmodelisusedasthebaseclassifier.Thestochasticvariancereducedgradient(SVRG)withvariancereductionmethodisusedtosolvetheoptimizationmodel.Thecomparativeexperimentsshowthattheproposedalgorithmisnotonlysuperiortootheralgorithmsintermsofgeometric⁃mean(G-mean)andar...