2023年1月Jan2023DigitalTechnology&Application第41卷第1期Vol.41No.1数字技术与应用13中图分类号:TP274文献标识码:A文章编号:1007-9416(2023)01-0013-03DOI:10.19695/j.cnki.cn12-1369.2023.01.04一种改进SMOTE的AdaSMOTE过采样算法东北大学汤晶晶本文从过采样的角度对不平衡数据集进行了优化,从而改善了分类器在少数类样本中的预测准确率。为了量化边界样本学习的难易程度,引入分类硬度来求取边界样本所需要合成的样本数目,以实现更准确的过采样策略。从过采样角度,提出AdaSMOET算法实现边界样本的自适应取样,克服了原始的SMOTE算法不能按照样本的重要程度取样的缺点。实验结果表明,提出的AdaSMOET算法优于原SMOTE算法。随着科技的发展,人们对数据的收集、存储能力越来越强,大量的数据被广泛地应用于各个领域,人们也在不断地挖掘这些数据的潜力,同时,大数据、人工智能等技术也在飞速发展。在这种背景下,人们对数据挖掘、机器学习等方面的研究也日益重视。分类问题是目前数据挖掘中的一个热门课题,其代表有决策树、支持向量机、K最近邻、朴素贝叶斯、神经网络等。这些方法对一般的分类问题都有很好的处理效果。但是随着数据的规模越来越大,数据类型越来越复杂,数据不平衡,用传统的机器学习方法对数据进行分类已经越来越无力。在许多实际问题中,不平衡数据集的产生越来越频繁。对于不平衡的数据,传统的分类器在训练数据时,通常会预先假定样本是均衡的,从而使各样本的误分率相同。因此,对少数类别样本的分类效果往往不佳。但是,在现实问题中,少数类别的样本研究价值更高,值得重视。在一个分类工作中,不同类别的样本数量差异很大时,我们一般称之为“类别不平衡”。在医疗行业中,癌细胞的数量要比癌细胞多得多,失衡的比例有可能达到100:1或更加高于此比例,如果把癌变细胞测成正常细胞,也就是说误判了,那就是致命的;在信用卡诈骗检测中,有欺骗行为的用户如果被识别成诚信用户,将会造成巨大的经济损失;在故障诊断、用户流失预测、网络入侵检测[1]等方面也出现了数据不均衡的问题。因此,提高分类器对少数类样本的分类精度,既有很强的理论意义,又有重要的应用价值。当前,关于不平衡数据集的分类问题,研究者主要从数据层次和算法层次两个方面进行了深入的探讨。数据层次的研究主要包括欠采样、过采样和混合采样三种[2,3],都是在训练前对原始的数据重新取样,来改变数据集合的分布,以达到均衡。在传统的分类任务...