2023年4月Apr.,2023第39卷第2期Vol.39,No.2滨州学院学报JournalofBinzhouUniversity【工程与技术研究】基于廿SNE降维的密度峰值聚类算法何婷霭,李秦(兰州交通大学数理学院,甘肃兰州730070)摘要:为了提高密度峰值聚类(DPC)算法处理复杂高维数据的能力,提出了一种基于z-SNE降维的密度峰值聚类算法OSNE-DPC)。该算法用f-SNE算法对数据进行预处理,将高维数据点间的关系用概率分布映射到低维空间中,通过最小化相对爛最大化保留数据餉本质特征,使用密度峰值聚类算法进行聚类操作。仿真实验结果表明,f-SNE-DPC可以高效地对高维数据进行聚类,在AMI指标上的聚类结果可达0.828。关键词:聚类分析;密度峰值聚类比SNE算法;有效性度量中图分类号:TP181文献标识码:ADOI:10.13486/j.cnki.1673-2618.2023.02.014聚类分析是数据挖掘技术的基础与核心,它能够在无监督的条件下探索数据背后潜在的关系。依据原理的不同,将现有的聚类分为5类划分聚类、层次聚类、网格聚类、基于密度的聚类和模型聚类,每种聚类方法都有其独特的优势。密度峰值聚类(DensityPeaksClustering,DPC)算法⑷是2014年由意大利学者AlexRodriguez和AlessandroLaio提出的,该算法不仅简单易懂、参数少,而且不需要迭代,能够对任意形状的数据集进行高效聚类。正是基于这些优势-DPC算法被广泛应用于机器学习、模式识别和图像处理等多个领域。但该算法也有不足之处:高维数据集聚类效果不佳;算法中的唯一参数一截断距离需人工选取,对聚类结果影响较大;不适用于大规模数据的聚类分析。在对高维数据进行聚类研究时发现,进行降维操作可以减少数据冗余,提高聚类效率。主成分分析(PrincipalComponentAnalysis,PCA)⑴可以去除部分噪声并发现数据中的部分数据结构,但对于非线性数据,并不能很好地发现数据的隐含信息;线性判别分析(LinearDiscriminantAnalysis,LDA)™是一种基于监督学习的数据降维方法,但可能过度拟合数据;等度量映射(IsometricMapping,Isomap)™使用测地线距离计算数据点间的距离,但对噪声敏感且它的拓扑结构不稳定。基于上述表述,将分布随机近邻嵌入(/-distributedStochasticNeighborEmbedding,t-SNE)这一降维方法引入DPC算法中,提出了一-种基于f-SNE降维的密度峰值聚类算法(z-SNE-DPC).J-SNE-DPC将高维数据点通过概率分布映射到低维空间中,随后用传统的DPC算法将其进行聚类,通过实验验证,t-SNE-DPC对高维数据有很强的实用性。1DPC算法密度峰值聚类算法是基于密度的聚...