分享
基于不同敏感度的改进K-匿名隐私保护算法_翟冉.pdf
下载文档

ID:2515832

大小:1.60MB

页数:7页

格式:PDF

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 不同 敏感度 改进 匿名 隐私 保护 算法 翟冉
2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1497-1503ISSN 1001-9081CODEN JYIIDUhttp:/基于不同敏感度的改进K-匿名隐私保护算法翟冉1,2,3,陈学斌1,2,3*,张国鹏1,2,3,裴浪涛1,2,3,马征1,2,3(1.华北理工大学 理学院,河北 唐山 063210;2.河北省数据科学与应用重点实验室(华北理工大学),河北 唐山 063210;3.华北理工大学 唐山市数据科学重点实验室,河北 唐山 063210)(通信作者电子邮箱)摘要:针对机器学习的发展需要大量兼顾数据安全性和可用性的真实数据集的问题,提出一种基于随机森林(RF)的K-匿名隐私保护算法RFK-匿名隐私保护。首先,使用RF算法预测出每种属性值的敏感程度;然后,使用k-means聚类算法将属性值根据不同敏感程度进行聚类,再使用K-匿名算法根据属性值的敏感程度集群对数据进行不同程度的隐匿;最后,由用户自主地选择需要哪种隐匿程度的数据表。实验结果表明,在Adult数据集中,与K-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为3、4时的准确率分别提高了0.5、1.6个百分点;与(p,k)-匿名算法处理过的数据相比,RFK-匿名隐私保护算法处理过的数据在阈值分别为4、5时的准确率分别提高了0.4、1.9个百分点。RFK-匿名隐私保护算法在保护数据的隐私安全的基础上能有效提高数据的可用性,更适合应用于机器学习中的分类预测。关键词:随机森林;K-匿名;隐私保护;k-means;聚类算法中图分类号:TP391 文献标志码:AImproved K-anonymity privacy protection algorithm based on different sensitivitiesZHAI Ran1,2,3,CHEN Xuebin1,2,3*,ZHANG Guopeng1,2,3,PEI Langtao1,2,3,MA Zheng1,2,3(1.College of Sciences,North China University of Science and Technology,Tangshan Hebei 063210,China;2.Hebei Provincial Key Laboratory of Data Science and Application(North China University of Science and Technology),Tangshan Hebei 063210,China;3.Tangshan Key Laboratory of Data Science,North China University of Science and Technology,Tangshan Hebei 063210,China)Abstract:To address the problem that the development of machine learning requires a large number of real datasets with both data security and availability,an improved K-anonymity privacy protection algorithm based on Random Forest(RF)was proposed,namely RFK-anonymity privacy protection.Firstly,the sensitivity of each attribute value was predicted by RF algorithm.Secondly,the attribute values were clustered according to different sensitivities by using the k-means clustering algorithm,and the data was hidden to different degrees by using the K-anonymity algorithm according to the sensitivity clusters of attribution.Finally,data tables with different hiding degrees were selected by different users according to their needs.Experimental results show that in Adult datasets,compared with the data processed by K-anonymity algorithm,the accuracies of the data processed by the RFK-anonymity privacy protection algorithm are increased by 0.5 and 1.6 percentage points at thresholds of 3 and 4,respectively;compared with the data processed by(p,k)-anonymity algorithm,the accuracies of the data processed by the proposed algorithm are improved by 0.4 and 1.9 percentage points at thresholds of 4 and 5.It can be seen that RFK-anonymity privacy protection algorithm can effectively improve the availability of data on the basis of protecting the privacy and security of data,and it is more suitable for classification and prediction in machine learning.Key words:Random Forest(RF);K-anonymity;privacy protection;k-means;clustering algorithm0 引言 大数据及相关技术给社会和科技发展带来了重大的影响,数据的开放共享也给科学研究、社会治理等领域提供了支撑条件,但数据开放共享的同时,也不可避免地造成了数据隐私的泄漏。为解决这一问题,研究人员提出了许多隐私保护方法。目前,应用较广泛的隐私保护方法有数据加密技术、数据失真技术和数据匿名化技术1。数据加密技术指将信息使用加密函数转换为密文,如同态加密技术2;数据失真技术指通过添加噪声的方式保护数据的安全,差分隐私技术3为常见的数据失真技术;数据匿名化技术指对数据进行泛化或隐匿。K-匿名4技术是目前应用较广泛的基于数据文章编号:1001-9081(2023)05-1497-07DOI:10.11772/j.issn.1001-9081.2022040552收稿日期:2022-04-21;修回日期:2022-08-10;录用日期:2022-08-18。基金项目:国家自然科学基金资助项目(U20A20179)。作者简介:翟冉(1998),女,河北唐山人,硕士研究生,CCF会员,主要研究方向:数据安全、网络安全、隐私保护;陈学斌(1970),男,河北唐山人,教授,博士,CCF会员,主要研究方向:数据安全、物联网安全、网络安全;张国鹏(1996),男,甘肃武威人,硕士研究生,CCF会员,主要研究方向:网络安全、隐私保护;裴浪涛(1997),男,山西运城人,硕士研究生,CCF会员,主要研究方向:数据安全、隐私保护;马征(1997),男,河北唐山人,硕士研究生,CCF会员,主要研究方向:数据安全、隐私保护。第 43 卷计算机应用匿名化的隐私保护技术之一,原理为对数据进行泛化处理,使得对数据集中的每一个数据都有K-1个数据与之相同。传统的隐私保护方法主要考虑对数据进行保护,忽视了数据的可用性5。对拥有多个属性的数据集进行K-匿名处理时,由于属性的数量过多,为了使多个属性同时满足K-匿名特征,会产生过度隐匿现象,破坏数据的可用性。为了解决这个问题,本文提出一种基于随机森林(Random Forest,RF)的K-匿名隐私保护算法RFK-匿名隐私保护。本文首先用 RF 算法6预测不同属性值的敏感程度,由于使用RF算法对属性值的敏感程度进行预测会存在误差,因此利用k-means聚类算法7将不同敏感程度的属性值分成不同集群,使每个集群中的属性敏感程度相近。最后根据不同属性集群对属性进行不同程度的隐匿,用户可以根据自己的需求选择隐匿数据表。该方法在保障数据隐私安全的基础上增加了数据的可用性。本文的主要工作如下:1)与传统K-匿名技术中的无差别隐匿不同,本文根据属性敏感度的不同,对属性信息进行不同程度的隐匿,在保证数据的安全性的同时,减少了数据的损失。2)使用真实数据集进行机器学习训练时有数据泄漏的风险,考虑到直接对真实数据集进行K-匿名处理会由于属性数量太多导致过度隐匿,而使用过度隐匿的数据进行机器学习训练时训练准确率会明显下降的情况,本文对真实数据集根据属性的敏感程度不同进行 RFK-匿名处理,并使用处理后的数据进行机器学习预测。与K-匿名算法、(p,k)-匿名隐私保护算法相比,在阈值E较大时,本文方法的预测准确率有所提升。1 相关工作 1.1隐私保护在数据隐私保护的基础上,保证数据的可用性至关重要。针对这一问题,研究人员提出了一系列研究方案。蒲东等8根据属性值不同的敏感等级,采用不同的匿名方法,例如分类型数据中,对于较低敏感程度的属性,泛化到所在树的上一层节点,对于较高敏感程度的属性,泛化到更高一层的节点;同时,根据阈值确定属性值出现的频率,使泛化后等价类中各个敏感属性值出现的频率平均,在减少数据损失的同时降低了隐私泄漏的可能。张王策等9提出了一种将缺损数据与完整数据混合匿名的算法,能有效地提高数据的可用性。吴梦婷等10在 K-匿名中考虑 K 最近邻(K-Nearest Neighbor,KNN)聚类思想11的离群点问题,降低了数据的损失。苏林萍等12提出了一种个性化(,l,k)匿名隐私保护模型。在最大程度保证个性化匿名需求的同时根据敏感属性值敏感等级的不同,对各个等价组中的敏感属性值分别采取不同的匿名方式,优先泛化高敏感度等级的属性值,使等价组中的每个敏感属性满足对出现频率以及多样性l的约束条件,从而有效降低数据集中高敏感等级信息的泄露风险,并提高数据的可用性。王楠13提出的(p,aisg)-敏感性k-匿名差异化地限制了敏感组出现的总频率,实现了在敏感组维度的个性化保护,并根据敏感值的敏感度设置了有区别的多样性约束的(pi,aisg)-敏感性 k-匿名,敏感值维度也达到了个性化匿名效果,减少了对低敏感信息保护过度造成的冗余信息损失。对于(p,aisg)-敏感性k-匿名模型和(pi,aisg)-敏感性k-匿名模型存在语义相似性攻击的威胁,对敏感值进行语义类别划分,王楠13提出了针对语义相似性攻击的具有对敏感组个性化保护特性的(psc,aisg)-敏感性k-匿名,在此基础上还添加了面向语义类别的个性化保护的(pisc,aisg)-敏感性k-匿名,以较少的数据可用性为代价在隐私性方面表现出了突出优势。张强等14提出了一种基于最优聚类的k-匿名隐私保护机制,通过建立数据距离与信息损失间的函数关系,将k-匿名机制的最优化问题转化为数据集的最优聚类问题;然后利用贪婪算法和二分机

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开