2023-05-10计算机应用,JournalofComputerApplications2023,43(5):1467-1472ISSN1001-9081CODENJYIIDUhttp://www.joca.cn基于相似和差异双视角的高维数据属性约简李元江,权金升,谭阳奕,杨田*(智能计算与语言信息处理湖南省重点实验室(湖南师范大学),长沙410081)(∗通信作者电子邮箱math_yangtian@126.com)摘要:针对数据维度过高、冗余信息过多导致维度灾难的问题,提出一种基于异同矩阵的高维属性约简算法(ARSDM)。该算法在区分矩阵的基础上加入对同类样本的相似度衡量,形成对所有样本的综合评估。首先,计算样本在每个属性下的距离,并基于这些距离得到同类相似度和异类差异度;其次,建立异同矩阵,形成对整个数据集的评价;最后,进行属性约简,即将异同矩阵的每一列求和,依次选择值最大的特征进行约简,并将相应样本对的行向量置为零向量。实验结果表明,与经典属性约简算法DMG(DiscernibilityMatrixbasedonGraphtheory)、FFRS(FittingFuzzyRoughSets)以及GBNRS(GranularBallNeighborhoodRoughSets)相比,在分类回归树(CART)分类器下,ARSDM的平均分类准确率分别提高了1.07、6.48、8.92个百分点;在支持向量机(SVM)分类器下,ARSDM的平均分类准确率分别提高了1.96、11.96、12.39个百分点;运行效率上ARSDM优于GBNRS和FFRS。可见,ARSDM能够有效去除冗余信息,提高分类准确率。关键词:异同矩阵;区分矩阵;属性约简;粗糙集;粒计算;数据挖掘中图分类号:TP181;TP311.13文献标志码:AAttributereductionforhigh-dimensionaldatabasedonbi-viewofsimilarityanddifferenceLIYuanjiang,QUANJinsheng,TANYangyi,YANGTian*(HunanProvincialKeyLaboratoryofIntelligentComputingandLanguageInformationProcessing(HunanNormalUniversity),ChangshaHunan410081,China)Abstract:Concerningofthecurseofdimensionalitycausedbytoohighdatadimensionandredundantinformation,ahigh-dimensionalAttributeReductionalgorithmbasedonSimilarityandDifferenceMatrix(ARSDM)wasproposed.Inthisalgorithm,onthebasisofdiscernibilitymatrix,thesimilaritymeasureforsamplesinthesameclasswasaddedtoformacomprehensiveevaluationofallsamples.Firstly,thedistancesofsamplesundereachattributewerecalculated,andthesimilarityofsameclassandthedifferenceofdifferentclasseswereobtainedbasedonthesedistances.Sec...