温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
面向
联邦
学习
裁剪
梯度
优化
隐私
保护
方案
向前
第 31 卷 第 1 期北京电子科技学院学报2023 年 3 月Vol31 No1Journal of Beijing Electronic Science and Technology InstituteMar2023面向联邦学习的学习率裁剪梯度优化隐私保护方案*孟向前刘腾飞谢绒娜北京电子科技学院,北京市100070摘要:联邦学习中,攻击者通过模型梯度攻击来恢复训练数据集,使训练数据集的隐私性受到威胁。为保护数据隐私性,差分隐私技术被引入到联邦学习中,但在神经网络训练过程中存在学习率过大导致梯度爆炸不收敛或学习率过小导致梯度收敛过慢的问题,降低学习的准确率。针对上述问题,本文提出一种具有自适应学习率的梯度优化算法(CAdabelief 算法),该算法在神经网络中引入学习率裁剪动态界限的概念,动态调整学习率达到理想的值,并趋于稳定;继而将CAdabelief 算法引入联邦学习差分隐私框架,提出了面向联邦学习的学习率裁剪梯度优化隐私保护方案,并采用 MNIST 数据集进行测试实证。实验表明,在相同的隐私预算下,CAdabelief 算法训练结果的准确率高于常用的 SGD、Adam、Adabelief 算法。关键词:联邦学习;差分隐私;自适应;学习率裁剪;梯度优化中图分类号:TN01文献标识码:A文章编号:1672464X(2023)14553*基金项目:国家重点研发计划项目(项目编号:2017YFB0801803)作者简介:孟向前(1997),男,通信作者,研究生在读,研究方向:网络空间安全。E-mail:sdsdpxmxq 126com刘腾飞(1994),男,硕士,研究方向:计算机应用技术。E-mail:1149069821 qqcom谢绒娜(1976),女,博士,教授,研究方向:网络与系统安全、访问控制、密码工程。引言近几年,联邦学习快速发展,在商业、医疗、交通等领域都有大量应用,并取得了良好的效果。联邦学习无需训练数据聚合,通过本地训练模型将结果聚合上传服务器,实现数据在本地进行协同训练的目的。然而,联邦学习中数据隐私信息仍存在泄露的风险,文献 1 发现攻击者可以通过模型梯度攻击来恢复训练数据集,威胁训练数据集的隐私性。针对联邦学习的隐私安全问题,多种隐私保护方案被提出,其中差分隐私是主要的解决方案之一。除此之外,为了提高联邦学习中隐私保护的效果,很多文献2,3 采用加入差分隐私噪声的方法,提高用户端的本地数据隐私保护的能力。但加入差分隐私噪声的方法会使模型训练的准确率降低。文献 4 提出 Adabelief 算法,将梯度下降与曲率结合,解决了“梯度大、曲率小”区域下降慢的问题,提升了梯度下降速度。但 Adabelief算法在步幅过大时,可能导致梯度“爆炸”不收敛;在步幅较小时,则会影响收敛速度。针对这一问题,本文引入学习率裁剪动态界限的概念,提出了具有自适应裁剪学习率的梯度下降算法(CAdabelief 算法)。北京电子科技学院学报2023 年本文的主要贡献如下:(1)提出了一种具有自适应裁剪学习率的梯度下降算法,即 CAdabelief 算法。在联邦学习模型训练过程中,CAdabelief 算法在学习率的变化范围引入了动态的界限,学习率随着梯度下降动态变化,学习率的上界与下界随着训练的推进逐渐靠近,趋于稳定。CAdabelief 算法避免了因步长过大导致训练不收敛,以及因步长过小导致收敛过慢的问题。(2)将本文提出的 CAdabelief 算法引入到差分隐私神经网络,得到基于 CAdabelief 梯度优化的差 分 隐 私 神 经 网 络 算 法(DP-CAdabelief-CNN),再将 DP-CAdabelief-CNN 引入到联邦学习差分隐私框架中,得到面向联邦学习的学习率裁剪梯度优化隐私保护方案。(3)对本文所提出的方案,采用 MNIST 数据集进行测试实验。与常用的三种梯度下降算法SGD、Adam、Adabelief 进行对比。证明了在相同的隐私预算下,CAdabelief 算法的联邦学习差分隐私训练结果均优于上述三种算法。1相关工作Hitaj5 等人首次提出了参与训练的协同者窃取其他训练者数据的 GAN 重构攻击。协同成员在不知情的状态下,恶意攻击者仅仅在本地训练 GAN 模型就能恢复参与协同训练的样本数据。Wang6 等人首次尝试通过来自恶意服务器的攻击来探索针对联邦学习的用户级隐私泄露,介绍了一种基于 GAN 和多任务识别的 mGAN-AI 框架。Mohassel7 等人提出了支持两台服务器在半诚实状态下进行深度学习的 SMC 协议。Jeong8 等人为了减少设备间的通信开销,提出了联邦蒸馏算法,这是一种分布式模型训练算法,其通信负载大小远小于基准方案联邦学习,特别是在模型较大时。Wang9 等人研究了在保留每个训练实例隐私,同时估计具有底层稀疏结构高维模型的问题,利用知识迁移的理念开发了一个不同的差分隐私高维稀疏学习框架。Le10 等人提出的攻击者是不可信的服务端,服务端将每一轮的模型参数进行分析,进而获取协同参与训练者的样本数据信息。Ammad11 等人介绍了一种用于个性化推荐的联邦协作过滤方法,该方法将标准协同过滤与随机梯度下降结合起来。Zhang12 等人设计了一种机械故障诊断的 FL 方法,提出了一个基于 FL 框架的动态验证方案,自适应地调整模型聚合过程。此外,还提出了一种自监督学习方案,从有限的训练数据中学习结构信息。Sijing13 等人提出了一个基于深度学习的联合云视频推荐框架 Jointec,将 JointCloud架构整合到移动物联网中,实现了分布式云服务器之间的联合训练,用于视频推荐。2预备知识2.1差分隐私保护技术差分隐私是 Dwork14 在2006 年提出的关于数据库安全性问题的隐私权定义。在数据中引入随机数据是差分隐私的基本理念,也就是增加噪声。添加噪声的意义在于查询数据时,能够确保最大限度内减少数据隐私泄露的风险,同时能够确保查询结果的准确率,既保证了用户数据的隐私性,又保证了用户数据的可用性,使二者达到了很好的平衡。差分隐私在数学上的形式:定义:给定相邻的数据集 D1与D2,数据集 D=(x1,x2,xn)中每一个向量xi都是一条记录,向量 xi的 d 个元素表示每条记录的 d 个属性。算法 A 的任意输出结果为 S,值域为 an(A),若算法 A 满足不等式P(A(D1)S)eP(A(D2)S)+(1)则称算法 A 满足(,)差分隐私。其中,P(*)是由 A 算法随机控制的,参数 是隐私预算,为松弛因子。2.2联邦学习差分隐私保护框架通用的联邦学习差分隐私保护框架如图 164第 31 卷面向联邦学习的学习率裁剪梯度优化隐私保护方案所示。服务器 Server 首先将随机初始化的模型结构和参数分发给参与训练的客户端 Client。客户端 Client 对本地数据利用梯度下降优化算法进行模型训练;训练的梯度在本地进行差分隐私处理,即添加高斯噪声 N(0,2),向服务器上传训练的模型参数结果,服务器 Server 汇总参数后聚合计算,更新模型参数,重新分发;循环以上步骤,直到完成收敛性要求。通过上述流程,联邦学习训练者的数据可以得到一定程度的保护。图 1通用的联邦学习差分隐私保护框架示意图2.3梯度下降优化算法随机梯度下降(Stochastic Gradient Descent,SGD)15 优化算法,在每一轮的参数更新时,只通过随机的方式抽取一个样本计算梯度,将此样本的梯度估算做全局梯度。在实际训练的过程中,由于数据样本存在噪声,利用 SGD 算法训练数据,经常难以沿着最合适的方向更新参数。在数据集量多的情况下,为了提高训练效率、减少震荡,每一次迭代后都需要将步长减少。手动调节步长不符合实际情况,同时快速找到模型的最优值也是一种困难。如果设定的步长太短,那么优化过程就会变得很慢,而当设定的步长太长,就会使振荡偏离最佳方案。科研工作者提出了自适应步长的梯度下降算法 Adam16,Adam 结合矩估计的思想,使用一阶矩估计和二阶矩估计,实现了步长的自动调整。Adam 在处理稀疏梯度和不稳定目标方面具有优势,尤其是在大数据和高维空间中,它具有很好的性能,但在“梯度大、曲率小”区域遇到下降慢的问题,严重影响模型在训练集与测试集上的精准度。Zhuang4 等人引入“梯度信仰”概念:如果观测到的梯度与“预测梯度”差距较大,则称为对观测有“弱信念”,下一个步幅较小;如果观测到的梯度与“预测梯度”差距较小,则称为对观测有“强信念”,并迈出一大步。在此基础上提出 Adabelief 算法,能够有效解决在“梯度大、曲率小”区域遇到下降慢的问题。Adabelief算法描述如下:算法 1:Adabelief 算法1:初始化 0,m0=0,s0=0,t=0/迭代次数,初始化 t 为 02:While t不收敛3:tt+14:gt ft(t1)/计算梯度5:mt 1mt1+(1 1)gt/计算 gt的指数移动平均6:st 2st1+(1 2)(gt mt)2/计算(gt mt)2的指数移动平均Bias Correction7:mtmt1 t1、stst1 t2/偏差校正Update8:tF,st(t1 mts t+)其中,t 表示迭代循环次数,t表示模型参数,gt表示第 t 次的梯度值。mt代表 gt的一阶矩估计,同时,mt还表示 t 时刻观察到梯度 gt的指数移动平均;st代表(gt mt)的二阶矩估计,同时 st是(gt mt)2的指数移动平均。1,2 0,1)代表衰减常数,1表示一阶矩估计参数、2表示二阶矩估计参数,mt)、st)表示对 mt、st进行偏差校正,表示初始化学习率。3面向联邦学习的隐私保护方案本节针对 Adabelief 算法存在的问题,引入74北京电子科技学院学报2023 年学习率裁剪动态界限的概念,提出自适应裁剪学习率优化算法 CAdabelief,并将 CAdabelief 算法引入联邦学习差分隐私框架中,提出面向联邦学习的学习率裁剪梯度优化隐私保护方案。3.1CAdabelief 梯度优化算法设计Adabelief 算法将梯度下降过程与曲率结合,解决了 Adam 算法存在的“梯度大、曲率小”区域下降慢的问题,提升了梯度下降速度。但Adabelief 算法在步幅过大时,可能导致梯度“爆炸”不收敛,而在步幅较小时,会影响收敛速度。针对 Adabelief 算法存在的问题,首先引入学习率裁剪动态界限的概念:在神经网络中,学习率紧随梯度下降发生改变,随着训练的推进,学习率的上界与下界逐渐靠近,学习率逐渐趋于稳定。本文在 Adabelief 算法中使用学习率裁剪,在 Adabelief 算法的基础上提出自适应裁剪学习率优化算法 CAdabelief。CAdabelief 算法在 Ada-belief 算法的基础上应用以下操作:t=Clipst)+,l(t),h(t)上式对学习率巧妙裁剪,使输出范围被限制在(l(t),h(t)内,使用 l(t)和 h(t)作为 t的函数,l(t)和 h(t)分别随时间 t 变化,也即是学习率有动态的边界,而不是恒定的上下界,上界和下界的初始化分别是无穷大和零。具体地,如果学习率低于最小值 l(t),则取学习率为 l(t);如果学习率高于最大值h(t),则取学习率为 h(t);如果学习率在(l(t),h(t)之 间,取 实 际 值。其 中,函 数l(t)和 h(t)分别设置为:l(t)=(1 1(1 2)t+1)*、h(t)=(1+1(1 2)t)*,l(t)是一个非递减函数,以时间 t=0 开始,从 0 渐渐收敛到*;h(t)是一个非递增函数,以时间 t=0 开始,从无穷大逐渐收敛到*。在本文实验中,*取 0.1 效果较好。根据上文,CAdabelief 梯度下降优化算法可描述如下:算法 2:CAdabelief1:初始化 0,m0=0,s0=0,t=0/迭代次数,初始化 t 为 02:Whilet不收敛3:tt+14:gt ft(