分享
基于SMOTE不平衡扩充采样算法的改进_宣晶雪.pdf
下载文档

ID:2515455

大小:1.46MB

页数:3页

格式:PDF

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 SMOTE 不平衡 扩充 采样 算法 改进 宣晶雪
:基于 不平衡扩充采样算法的改进宣晶雪 张 权 李晓红 王书宜齐齐哈尔大学理学院 黑龙江齐齐哈尔 摘 要:针对不平衡数据集少类样本分类精度低的现象,本文提出了一种新的不平衡数据扩充采样算法。改进算法通过距离度量,在少类样本中心与其近邻间进行随机线性插值,使数据平衡。改进算法与 算法、算法分别对 个不平衡数据集进行扩充分类对比实验,基于、值与 值评价指标及成对样本 检验,证明改进算法能有效缓解类不平衡,并具有更优异的不平衡数据处理性能。关键词:不平衡数据;算法;安全点;噪声点;随机森林算法 随着人工智能领域的飞速发展,基于大数据的分类研究被认为是可期待的新技术。由于采样环境差异,大数据通常存在类不平衡。类不平衡问题会产生许多标准学习算法分类性能的严重障碍。分类器进行训练时,往往更易学习多类(负类)样本的特性,从而引起少类(正类)样本被误分,导致严重后果。例如,医学研究的分类问题中,如若有正常样本 个,患病样本 个,即使所有的患病样本都被误分,分类模型的准确率仍能达到。但就实际问题而言,误诊会产生严重影响。因此,不平衡数据集的扩充分类显得尤为重要。算法分析 算法是由 提出的不平衡数据扩充的常见算法。其基本原理是在少类样本与其近邻样本间进行随机的线性插值来完成数据扩充,以达到一定的不平衡比率。不平衡比率为样本集合中少类样本数目与多类样本数目的比值。算法的具体步骤为:对任意的一个少类样本(,),计算 与其他少类样本的距离,得到样本的 个近邻。再从 个近邻中任意选取 个近邻样本,记作(,),通过在 与 之间进行随机的线性插值构造新的少类样本。插值公式为:(,)()其中 表示人为构造的少类样本,是区间,上满足均匀分布的随机数。改进算法 改进算法设计首先,算法虽在一定程度上改善了不平衡数据集的分类效果,但其 值需人为确定,具有一定的盲目性。其次,对于边缘点而言,经 算法扩充后的样本点仍可能是边缘点,导致扩充数据边缘化,且易模糊正负类边界。本文提出改进算法,依据一定的划分规则,将少类样本划分为安全点与噪声点,仅在安全点与少类样本中心点(少类样本均值)间以线性插值的方式构造少类样本。使得扩充的少类样本分布在原始少类样本中心点附近,有效避免扩充数据边缘化,且规避 算法中 值选取的不确定性。改进算法流程假设原始数据维度为,为样本总个数,为样本特征总个数。其中少类样本维度为,多类样本维度为()。()归一化预处理。分别对少类、多类样本进行归一化处理,使所有样本取值介于,之间,避免量纲差异产生误差。其中 为已进行归一化预处理后的第 个特征属性下的第 个样本,为原始数据中第 个特征属性下的第 个样本,为样本基于第 个特征属性下的最大值,为样本基于第 个特征属性下的最小值。()计算少类样本中心点。依据下式,取归一化后各特征属性下的均值为少类样本中心点,记作。(,)其中是 为已进行归一化预处理后的第 个特征属性下的第 个样本,为少类样本个数。()划分少类数据为安全点和噪声点。计算少类样本中心 与每个少类样本点 之间的欧氏距离,记作(,)。并计算少类样本中心 与多类样本点间欧氏距离的平均值,记作。若,则第 个少类样本点记为噪声点;若,则第 个少类样本点记为安全点。()数据扩充。在少类样本中心点 与安全点之间通过如下公式进行数据扩充。科技风 年 月科技创新(,)()其中 为新扩充的少类样本,为安全点集合中的少类样本,是区间,上满足均匀分布的随机数。()选取不平衡比率。文献中研究表明不平衡比率为 时,扩充融合数据分类效果最优。故本文当不平衡比率达到 时停止扩充。()更新总数据集。将扩充后的少类样本与预处理后的数据集合融合,随机抽样划分训练集与测试集为 ,并利用随机森林模型对更新后的数据集进行分类。改进算法流程图如图 所示:图 改进算法流程图 对比实验分析 实验评估指标本文不平衡数据扩充分类实验中的评价指标为 值、袋外误差、值与 值。实验环境实验数据来源于 数据库中、个不平衡数据集,表 为其具体信息。本文提出的改进算法由、与 共同实现。用于划分安全点与噪声点,扩充算法由 与 共 同 实 现,随 机 森 林 算 法 使 用 软件编程实现,成对样本 检验通过 实现。随机森林模型进行分类时,采用 折交叉验证防止过拟合,通过 指数选取最优特征,每棵决策树选取的特征个数依据经验公式 计算,为每个数据集中总特征个数,每棵决策树选取的 个特征是随机的。表 不平衡数据集特征数据集合样本个数正类个数负类个数特征属性个数不平衡比率 数值实验本文提出改进算法与 算法、算法分别对 个不平衡数据集进行扩充,并用随机森林模型对扩充后的融合数据分类。为获取科学准确的实验结果,重复扩充分类实验 次,取其平均值为最终实验结果。实验结果分析 对比试验结果分析、和 数据集的实验结果如图 图 所示,粗体表示实验效果较好的数据组。图 实验结果图图 实验结果图图 实验结果图图 实验结果图科技创新科技风 年 月图 实验结果图根据图 图 可知,对于 个数据集合而言,均是改进算法组对应的 值、值、值最高,值最低。因此本文提出的改进算法对应的扩充分类效果优于原始未扩充数据、算法和 算法。成对样本 检验分析为了进一步说明改进算法较 算法具备更良好的不平衡扩充性能,采用成对样本 检验对其进行验证。双侧值是成对样本 检验的主要评价指标,若 双侧值小于,则配对样本有显著性差异,否则不具有显著性差异。配对样本为 个不平衡数据集基于改进算法与 算法连续 次扩充分类实验的 值,表 为 组数据的成对样本统计量表格,粗体为实验效果较好的数据组。表 为 组数据成对样本检验结果。表 成对样本统计量配对数据集算法均值样本数标准差标准误差均值改进算法改进算法改进算法改进算法改进算法表 成对样本检验结果配对数据集算法均值标准差置信区间下限上限双侧改进 改进 改进 改进 改进 根据表 可知,改进算法组对应的泛化误差更小,标准差与标准误差更低。即与 算法相比,改进算法对应的扩充分类效果更好,对不平衡数据的处理能力更优。根据表 可知,组配对样本数据的 双侧值均小于,因此改进算法与 算法分别对 个不平衡数据集进行扩充,再经随机森林模型进行分类,其分类效果具有显著性差异。结语本文提出了一种基于 算法的不平衡数据扩充采样算法。基于数据层面,模拟原始少类样本的分布特性,围绕少类样本中心,在安全点内线性插值构造数据,使得扩充数据分布在中心点附近,有效克服扩充数据边缘化。实验表明,改进算法显著提升不平衡数据集的分类效果,有效缓解了不平衡数据集分类难的现象。不平衡数据扩充其本质是希望提高原始少类样本的分类效果。未来,可从原始少类样本角度出发,尝试增加仅评估原始少类样本分类效果的评价指标,对算法扩充性能进行验证。参考文献:唐思均基于优化 算法的非平衡大数据集分类研究沈阳工程学院学报(自然科学版),():,():张天翼,丁立新一种基于 的不平衡数据集重采样方法计算机应用与软件,():,:,():李志强,余炫朴基于 的大学生学术失信预测研究东北师大学报(哲学社会科学版),():王文博,曾小梅,赵引川,等基于 的变压器缺陷预测华北电力大学学报(自然科学版),():基金资助:黑龙江省省属高等学校基本科研业务费科研项目()作者简介:宣晶雪(),女,汉族,黑龙江齐齐哈尔人,硕士,助教,研究方向:系统分析与优化研究。科技风 年 月科技创新

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开