2023-05-10计算机应用,JournalofComputerApplications2023,43(5):1497-1503ISSN1001-9081CODENJYIIDUhttp://www.joca.cn基于不同敏感度的改进K-匿名隐私保护算法翟冉1,2,3,陈学斌1,2,3*,张国鹏1,2,3,裴浪涛1,2,3,马征1,2,3(1.华北理工大学理学院,河北唐山063210;2.河北省数据科学与应用重点实验室(华北理工大学),河北唐山063210;3.华北理工大学唐山市数据科学重点实验室,河北唐山063210)(∗通信作者电子邮箱chxb@qq.com)摘要:针对机器学习的发展需要大量兼顾数据安全性和可用性的真实数据集的问题,提出一种基于随机森林(RF)的K-匿名隐私保护算法——RFK-匿名隐私保护。首先,使用RF算法预测出每种属性值的敏感程度;然后,使用k-means聚类算法将属性值根据不同敏感程度进行聚类,再使用K-匿名算法根据属性值的敏感程度集群对数据进行不同程度的隐匿;最后,由用户自主地选择需要哪种隐匿程度的数据表。实验结果表明,在Adult数据集中,与K-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为3、4时的准确率分别提高了0.5、1.6个百分点;与(p,α,k)-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为4、5时的准确率分别提高了0.4、1.9个百分点。RFK-匿名隐私保护算法在保护数据的隐私安全的基础上能有效提高数据的可用性,更适合应用于机器学习中的分类预测。关键词:随机森林;K-匿名;隐私保护;k-means;聚类算法中图分类号:TP391文献标志码:AImprovedK-anonymityprivacyprotectionalgorithmbasedondifferentsensitivitiesZHAIRan1,2,3,CHENXuebin1,2,3*,ZHANGGuopeng1,2,3,PEILangtao1,2,3,MAZheng1,2,3(1.CollegeofSciences,NorthChinaUniversityofScienceandTechnology,TangshanHebei063210,China;2.HebeiProvincialKeyLaboratoryofDataScienceandApplication(NorthChinaUniversityofScienceandTechnology),TangshanHebei063210,China;3.TangshanKeyLaboratoryofDataScience,NorthChinaUniversityofScienceandTechnology,TangshanHebei063210,China)Abstract:Toaddresstheproblemthatthedevelopmentofmachinelearningrequiresalargenumberofrealdatasetswithbothdatasecurityandavailability,animprovedK-anonymityprivacyprotectionalgorithmbasedonRandomForest(RF)wasproposed,namelyRFK-anonymityprivacyprotection.F...