温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
DAGUARD
联邦
学习
分布式
后门
攻击
防御
方案
余晟兴
2023 年 5 月 Journal on Communications May 2023 第 44 卷第 5 期 通 信 学 报 Vol.44 No.5DAGUARD:联邦学习下的分布式后门攻击防御方案 余晟兴1,陈泽凯2,陈钟1,刘西蒙2(1.北京大学计算机学院,北京 100871;2.福州大学计算机与大数据学院/软件学院,福建 福州 350108)摘 要:为了解决联邦学习下的分布式后门攻击等问题,基于服务器挑选最多不超过半数恶意客户端进行全局聚合的假设,提出了一种联邦学习下的分布式后门防御方案(DAGUARD)。设计了三元组梯度优化算法局部更新策略(TernGrad)以解决梯度局部调整的后门攻击和推理攻击、自适应密度聚类防御方案(AdaptDBSCAN)以解决角度偏较大的后门攻击、自适应裁剪方案以限制放大梯度的后门增强攻击和自适应加噪方案以削弱分布式后门攻击。实验结果表明,在联邦学习场景下,所提方案相比现有的防御策略具有更好的防御性能和防御稳定性。关键词:联邦学习;分布式后门攻击;聚类;差分隐私 中图分类号:TN92 文献标志码:A DOI:10.11959/j.issn.1000436x.2023086 DAGUARD:distributed backdoor attack defense scheme under federated learning YU Shengxing1,CHEN Zekai2,CHEN Zhong1,LIU Ximeng2 1.School of Computer Science,Peking University,Beijing 100871,China 2.College of Computer and Data Science/College of Software,Fuzhou University,Fuzhou 350108,China Abstract:In order to solve the problems of distributed backdoor attack under federated learning,a distributed backdoor attack defense scheme(DAGUARD)under federated learning was proposed based on the assumption that the server se-lected no more than half of malicious clients for global aggregation.The partial update strategy of the triple gradient op-timization algorithm(TernGrad)was designed to solve the backdoor attack and inference attack,an adaptive density clustering defense scheme was designed to solve the backdoor attacks with relatively large angle deflection,the adaptive clipping scheme was designed to limit the enhancement backdoor attack that amplify the gradients and the adaptive noise-enhancing scheme was designed to weaken distributed backdoor attacks.The experimental results show that in the federated learning scenario,the proposed scheme has better defense performance and defense stability than existing de-fense strategies.Keywords:federated learning,distributed backdoor attack,cluster,differential privacy 0 引言 近年来,物联网和移动设备在移动通信领域有着广泛应用,并且在日常生活中也越来越普遍。由于其本地数据及算力极其有限,用户通常将数据和计算外包给云服务器集中处理。数据在外包计算的过程中面临隐私泄露的风险,因此联邦学习(FL,federated learning)应运而生。与传统的集中式深度学习不同,FL1允许客户端将数据集留在本地进行训练,本地训练后仅上传模型权重或梯度进行全局模型的训练,这种方法间接实现了不同客户端之间的协作学习,极大地降低了数据泄露的风险,节省了通信开销。随着新兴隐私保护法规的盛行,FL因其能够潜在保护用户数据而受到了广泛的认可收稿日期:20230112;修回日期:20230412 通信作者:陈钟, 项目基金:国家自然科学基金资助项目(No.62072109,No.62102422)Foundation Item:The National Natural Science Foundation of China(No.62072109,No.62102422)第 5 期 余晟兴等:DAGUARD:联邦学习下的分布式后门攻击防御方案 111 和使用。例如,相关网站使用 FL 来实现信用风险预测2;在 Melloddy 项目中,10 多家领先的制药公司利用 FL 进行药物发现3;Google 在 Android Gboard4上部署 FL 进行键盘输入联想预测,其中FedAvg1是由 Google 开发的一种流行的 FL 方案,该方案的全局模型更新为各客户端本地模型更新的加权平均值,权重为各客户端本地训练数据集的大小。FL 由于其分布特性,很容易受到恶意客户端对抗操纵的影响,恶意客户端可能是攻击者伪造的客户端或向攻击者妥协的真实客户端。恶意客户端通过毒化本地数据5-6或者篡改本地模型梯度进行中毒攻击7,进而损坏全局模型。被损坏的全局模型会将目标测试样本预测为攻击者选择的错误标签,而其他非目标测试样本将不受影响8-10。目前,在 FL 中普遍使用的 FedAvg 全局模型聚合方式较脆弱,单个恶意客户端就可以采用多种攻击方式将其攻破11-12。近年来,FL 攻击已经受到广泛的讨论,如 FL容易受到后门攻击9-10,13以及推理攻击14-16的影响。后门攻击通过操纵模型更新或者梯度来影响全局模型,即攻击者选择的输入会导致全局模型预测错误。在推理攻击中,对手通过分析模型更新来学习客户端本地数据的信息。现有研究12-13,17-18致力于在少数恶意客户端并且服务器确保诚实的背景下增强 FL 的鲁棒性,例如,Blanchard 等12提出的Krum 方案在N个本地更新中选择与上一轮迭代更新距离最小的一个作为每次迭代的全局更新,然而,上述机制的一个主要缺点是只适用于诚实客户端占绝大多数的情况;Median 方案11中,服务器选择所有上传的模型更新的中位数作为全局更新,但无法保证较高的准确率;Shen 等19提出的后门防御策略无法有效地抵御分布式后门攻击(DBA)9。FLAME 方案20虽然对后门攻击有较好的防御效果,但是由于其需要上传完整的模型,无法抵御推理攻击并且在某些数据集下防御稳定性较差。针对目前防御方法存在的问题,为有效保护联邦学习下的模型安全,本文提出了联邦学习下的分布式后门攻击防御方案(DAGUARD)。本文的主要贡献如下。1)为了防御推理攻击和对梯度局部调整的后门攻击,本文采用 TernGrad21的方式对神经网络每层的梯度进行 Ternarize 转换,即使用每层绝对值最大的梯度作为当前层的梯度。2)根据联邦学习下服务器每轮挑选不超过半数恶意客户端进行全局聚合的假设,利用基于密度的带噪声应用空间聚类(DBSCAN)22设计了自适应密度聚类方法。由于大多数的中毒模型梯度相比于良性模型梯度有较大的角度偏差,一个较好的聚类策略可以在很大程度上消除恶意客户端的攻击。FLAME 方案20采用的是 HDBSCAN(hierarchical DBSCAN)23聚类方法,其设置聚类数目上限仅为客户端数量的一半,聚类结果不够准确,无法有效剔除与良性梯度相近的恶意梯度。本文采用自适应中位数作为标准,动态调整 DBSCAN22领域半径进行相近恶意梯度后门攻击的防御。3)本文基于 TernGrad 方法设计了自适应裁剪方案和自适应加噪方案。目前的 FLAME 方案20采用的裁剪方法是直接对梯度大小进行裁剪,恶意梯度可以通过适当缩放躲避裁剪,而本文方案是对各客户端每轮训练后的梯度经过 TernGrad 方法转换后进行裁剪,可以更好地削弱恶意客户端模型梯度的增强攻击。同时,采用差分隐私加噪的方式可以削弱联邦后门攻击,本文根据神经网络每层的最大梯度更新的第二范数计算出每层的高斯噪声,为每层神经网络添加自适应高斯噪声,平滑经过DBSCAN 聚类后的模型更新,有效减少后门攻击的影响。4)本文设计的 DAGUARD 方案在不同非独立同分布情况下均具有较好的防御效果,且在不同数据集和数据投毒率下均有较高的防御稳定性,实验表明 DAGUARD 的防御效果优于目前主流的FedAvg、Median 以及 FLAME 方案。1 相关工作 1.1 聚类 聚类24是一种无监督的机器学习算法,它将数据分成多个有意义的子组,这些子组使聚类后的簇内差异最小化,簇间差异最大化,目前常用的聚类算法大致可以分为四类:基于层次、基于分区、基于网格和基于密度。基于层次的聚类算法25是从最初的一些集群开始逐渐收敛的解决方案,其主要缺陷在于计算复杂度较高,并且如果数据存在奇异值,则会对聚类效果产生很大的影响。基于分区的聚类算法将数据集划分为初始 K 个聚类,并根据目标函数迭代提高聚类质量,如 K-means26就是基于分区的聚类算法,而该类算法需要明确指定聚类数目且聚类效果受其影响较大。在基于网格的聚类算112 通 信 学 报 第 44 卷 法27中,整个数据集被一个规则的超网格覆盖,同一个网格中的数据点被归为一簇。在基于密度的聚类算法22中,当区域内点的密度大于最小密度值时,该区域被称为密集区域或密度相连区域。由于基于密度的聚类算法基于密集连通性扩展集群,该类算法可以找到任意形状的集群。DBSCAN 就是基于密度的聚类算法,因此其可以对任意形状的稠密数据集进行聚类且可发现异常点。1.2 联邦学习 假设有n个客户端,每个客户端都有训练数据集,1,iD in,协同训练全局模型W。集中学习的本地数据集必须在训练前由中央服务器收集,而联邦学习6仅要求客户端将本地模型(|iw in)上传到服务器,在服务器上进行联邦聚合得到全局模型,表示为 11niiWwn(1)具体来说,联邦学习主要优化损失函数,表示为 1min()()niiikF wL wK(2)其中,()iL w和ik是损失函数和第i个客户端的本地数据集大小。1.3 分布式后门攻击 分布式后门攻击9使用多个不同色彩或不同灰度的补丁作为触发器并将其分成几个部分,分别设置在不同的客户端上。不同于传统的集中式后门攻击,在分布式后门攻击中,每个恶意客户端会被分配后门触发器的一部分客户端进行协同攻击。如果指定触发部分被中心服务器所学习,则该触发器被触发,后门攻击成功。独立的触发器的攻击强度相比于集中式触发器弱,具有更高的隐蔽性,其中分布式后门攻击将一个集中式攻击公式分解为M个分布式子攻击问题9,表示为 poicln11(,);argmax()iitijij Stiijjj SPGR x PGxy(3)其中,i表示第i个攻击者,1,iM,j表示第j个数据库,t表示第t轮次,P表示预测准确率,表示投毒间隔,G表