分享
基于特征聚类优化的KM-FCM-RF算法研究_罗超.pdf
下载文档

ID:2251767

大小:2.04MB

页数:4页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 特征 优化 KM FCM RF 算法 研究
信息记录材料 2022年12月 第23卷第12期 39论 著0 引言在常用的决策树算法中,最常见的算法是随机森林算法。随机森林算法的优点在于通过对数据噪声的高度容忍度来得到较高预测精确度。Chai1将随机森林算法运用到化工故障分类,提高了故障检测精度;Cheng2在网络安全方面运用随机森林算法,极大提升了网络安全监测正确率;Zafari3在化工项目评估管理领域运用随机森林算法,得到了更加准确的评估预测结果。在具有明显优点的同时,随机森林算法也存在一些缺点,例如对数据集的特点相近似聚类的检索效率比较低,对数据集的动态聚类数据泛化特征时造成的误差估值往往比较大。针对这些缺陷,也有很多学者做了大量的研究以改进。王德军等4、刘曙光等5、王磊6分别采用时间序列特征泛化聚类、遥感数据多时相动态聚类、加权平均泛化数据后聚类的方法,得到了对精度不同程度的提高,并且聚类的效率也得到了相应的改善。对随机森林算法提出了非常有用的改进和补充。本文将尝试采用将特征聚类 KM 算法与 FCM 算法相结合,对随机森林算法进行优化,形成 KM-FCM-RF 算法优化模型。对多模动态 K 均值聚类和模糊 C 均值互相融合与补充的方法,采用对多模动态数据集的特征数据进行聚类,对传统的随机森林算法进行优化后,再计算特征优化的差异化 DBI 的值,重新对 DBI 序列值进行排序,筛选相关的特征,在聚类多模动态数据时达到提高效率的目的。1 传统随机森林算法如果研究人员用 Ntree表示决策树中多维特征的数量,OOBi 表示第 i 棵决策树的多模动态数据的特征数据,ErrOOBi 代表的是 OOBi 中错误数据样本的数量,如果有一个数据集的特征有 d 个,那么这个数据集可以称之为数据集 D,XJ(j=1,2,d)表示该数据特征集的度量,其算法步骤如下:步骤1:首先基础得到多雾的样本数量ErrOOBi的值;步骤 2:置换后,得到了 XJ,再次置换后得到 OOBi;步骤 3:均值计算 OOBi 得到的值,可以表示为jiErrOOB;步骤 4:重复以上步骤 1 到步骤 3,执行次数限定为Ntree次,循环结束后可以得到 ErrOOBi,i=1,2,L,Ntree和,1,2,jitreeErrOOB iN=L步骤 5:根据以上两个输出结果,可计算粗聚类变化的均值:()1JjiiitreeVI XErrOOBErrOOBN=(1)基于特征聚类优化的 KM-FCM-RF 算法研究罗 超,彭玉涛(井冈山大学网络信息中心 江西 吉安 343009)【摘要】针对传统的随机森林算法(RF)在对聚类效率欠佳导致训练精度不高的缺陷,本文提出了一种基于特征聚类的随机森林算法(KM-FCM-RF),首先用传统 RF 方法对初始数据集聚类后,然后使用 K 均值聚类(KM)和模糊 C 均值(FCM)结合根据样本相似度划分族群,得到最终的高维特征序列。将 KM-FCM-RF 算法应用于特征数据集 KddCup99 和Minst,并与传统的RF比较,实验结果表明,KM-FCM-RF算法具有更好的聚类效果、提高了预测精度,具备良好的可行性。【关键词】特征聚类;随机森林;KM-FCM-RF【中图分类号】TP39 【文献标识码】A 【文章编号】1009-5624(2022)12-0039-04Research on KM-FCM-RF Algorithm Based on feature Clustering OptimizationLUO Chao,PENG YutaoNetwork Information Center,Jinggangshan University,Jian,Jiangxi 343009,China【Abstract】Aiming at the shortcomings of traditional random forest algorithm(RF)in slow computing speed and poor clustering efficiency,this paper proposes a random forest algorithm based on feature clustering(km-fcm-rf).Firstly,the initial data set is clustered by traditional RF method,and then K-means clustering(km)and fuzzy C-means(FCM)are combined to divide the population according to sample similarity to obtain the final high-dimensional feature sequence.The KM-FCM-RF algorithm is applied to the feature data set colon tumor,and compared with the traditional RF and FSRF algorithms,the experimental results show that the KM-FCM-RF algorithm has better clustering effect,faster training speed and good feasibility.【Key words】Feature Clustering;Random Forest;KM-FCM-RFDOI:10.16009/13-1295/tq.2022.12.028信息记录材料 2022年12月 第23卷第12期 40 论 著则可以认为多模动态数据集的聚类集合就是 VI(XJ)。通过步骤 1 到步骤 5,可以看到随着多模特征集中特征维度的增加,循环训练需要更多的时间,结果就必然减缓了训练速度,进而降低多模数据特征集的训练效果。本文拟采用高维多模聚类的方法,对以上的算法进行优化改进,已加快训练速度和提高性能。2 基于多模高维聚类优化的方法2.1 聚类方法介绍将 K 均值聚类(KM 聚类)和模糊 C 均值聚类结合后,划分多模动态特征族,排序后进行聚类。优化后得到训练误差均值DBI,DBI中最小值的聚类特征则为最终的结果,也是最佳结果。2.1.1 K 均值聚类根据春花等7的研究,K 均值算法中,多模数据集中数据特征样本的距离与相似度是反比关系。已知出事聚类和聚类中心,分别用 K 和 C 表示,则(C=i,1 i K)。迭代计算的步骤为:步骤1:得到每一个多维动态特征样本的中心聚类值;步骤 2:重新聚类分簇,并计算 DBI。重复执行步骤 1 和步骤 2,步骤 3:计算误差平方和(SSE),一直到符合收敛条件。(SSE)的计算公式为:SSE=ki=1 x i(|x-i|)2 (2)2.1.2 模糊 C 均值算法(FCM)模糊 C 均值算法主要计算数据集中样本与聚类中心的关联隶属度,来完成对多维特征数据分类8。存在多维动态数据集 Dnp,其中的样本数量为 n,隶属度矩阵 U 的计算公式为:U=ujicn (3)再计算每个样本集聚类中心 V,计算公式为:V=(v1,v2,L,vc)(4)则 J(U,V)可以用下式表示:J(U,V)=ni=1cj=1 umji|xi-vj|2cj=1 uji=1,0 uji 1;(5)0 cj=1 uji 1,2 j c|xi-vj|表示样本各个聚类中心的均值。2.1.3 离散相关度计算使用 KM 和 FCM 算法对动态多模数据集的特征计算中心差异聚类时,计算出 DBI 的值,用来表示离散相关度索引的值。利用以下的公式来计算聚类中心最佳值:(1)均值离散相关隶属度:iix CiiXZSC=(6)(2)各聚类中心的距离值:,1,11maxkijki jk ijiijSSDBIkZZ=+=L (7)根据朴尚哲等9的研究,此时 DBI 的值为最佳聚类中心的值。2.2 HDC-RF 算法2.2.1 KM-FCM-RF 特征评估算法对多维数据集进行聚类,并且根据聚类中心值的均值误差来进行排序。步骤 1:采用传统随机森林算法,计算出样本数据多维特征,并以此为排序的根据。根据 Alon10的研究,使用皮尔逊相关性系数 xy来衡量族内特征与分类信息的相关性。()()()()12211npxxpyypxynnpxxpyyppxZxZxZxZ=(8)在上式中,特征 x 的均值用 Zx来表示,特征 y 的均值则用 Zy来表示,xy表示皮尔逊相关系数,系数越大,则表示数据集特征之间具有越大的相关程度。步骤 2:根据阈值,筛选出相关系数 xy 的高维特征。本文改进的阈值 计算公式表示为:=EX+Csd(X)(9)根据式(9)计算出多维动态数据集特征,采用排序的规则为簇内优先、簇间其次。最终,计算得出了多维动态数据集的特征簇序列。2.2.2 K 均值和 C 均值优化的随机森林算法流程在以上算法的基础上,将 K 均值 C 均值优化的随机森林算法优化流程用下图 1 表示。信息记录材料 2022年12月 第23卷第12期 41论 著图 1 算法流程图3 实验分析3.1 实验准备采用 Alon 等10和 Golub 等11提供的高维多模动态特征数据集作为输入的样本数据集。输入之前,先将数据和特征清除冗余,最终数据表征如下表 1 所示:表 1 实验数据集数据集名称类数样本数特征数KddCup9947 20041Minst127 500450根据表 1 的结果可以看出,多个高维特征数据集差别不大时,KddCup99 由于具有更小的特征数,可以更方便地对数据集中的少量非高位数据集进行特征提取,并进行输出对比。反之,Minst则由于具有更多的特征数和更高维度,更适用于高维数据集的特征提取和对比。在进行仿真实验时,决策树采用的是具有 200 个决策树的 C4.5 基本分类器,并将其最佳聚类范围设置为/2,mm。实验结果的预测阈值评价采用 ACC 标准。如果阈值越大,则算法的优化效果越好、聚类数据集的性能就越高。3.2 实验结果将本文的优化算法与传统的随机森林算法分别运行在KddCup99 和 Minst 数据集进行比较,为了得到更稳定的结果,将算法运行 30 次的均值作为最终结果。实验结果对比如下图 2、图 3 所示:图 2 KddCup99 中 KM-FCM-RF、RF 预测精度对比 图 3 Minst 中 KM-FCM-RF、RF 预测精度对比根据以上两图可以得到如下结论:(1)根据图 2 的结果可知,在 KddCup99 的中低维数据集训练中,KM-FCM-RF 算法在前 200 个样本时,预测精度略比 RF 略小,但从 2 000 个样本开始,预测精度一直高于传统 RF 算法。(2)图 3 表明,在 Minst 的高维数据集上的训练过程中,KM-FCM-RF 的精度自始至终都比传统 RF 算法高。4 结论针对传统的随机森林算法在多维特征数据集预测精度不高,本文提出了一种基于 K 均值和 C 均值优化聚类的随机森林算法,即在对多维特征数据集样本聚类后,集合 K均值模糊 C 均值算法结合,计算得到 DBI 指标并对该指标排序后,进一步得到的阈值比较,最终得到多维特征数据集的特征序列。实验结果表明,经过本文优化后基于K 均值和 C 均值优化聚类的随机森林算法,具有更好的聚类效果、预测精度更高,具备良好的可行性。【参考文献】1CHAI Z,ZHAO C H.Enhanced random forest with concurrent analysis of static and dynamic nodes for industrial fault classification J.IEEE Trans Ind Inform,2020,16(1):54-66.2CHENG L,CHEN X W,DE VOS J,et al.Applying a random forest meth

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开