温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
联邦
学习
综述
张传尧
BIG DATA RESEARCH 大数据122联邦元学习综述张传尧1,2,司世景1,王健宗1,肖京11.平安科技(深圳)有限公司,广东 深圳 518063;2.中国科学技术大学,安徽 合肥 230026摘要随着移动设备的普及,海量的数据在不断产生。数据隐私政策不断细化,数据的流动和使用受到严格监管。联邦学习可以打破数据壁垒,联合利用不同客户端数据进行建模。由于用户使用习惯不同,不同客户端数据之间存在很大差异。如何解决数据不平衡带来的统计挑战,是联邦学习研究的一个重要课题。利用元学习的快速学习能力,为不同数据节点训练不同的个性化模型来解决联邦学习中的数据不平衡问题成为一种重要方式。从联邦学习背景出发,系统介绍了联邦学习的问题定义、分类方式及联邦学习面临的主要问题。主要问题包括:隐私保护、数据异构、通信受限。从联邦元学习的背景出发,系统介绍了联邦元学习在解决联邦学习数据异构、通信受限问题及提高恶意攻击下鲁棒性方面的研究工作,对联邦元学习的工作进行了总结展望。关键词联邦学习;元学习;数据异构;联邦元学习;隐私保护中图分类号:TP181 文献标志码:A doi:10.11959/j.issn.2096-0271.2022051Federated meta learning:a reviewAbstractWith the popularity of mobile devices,massive amounts of data are constantly produced.The data privacy policies are becoming more and more specified,the flow and use of data are strictly regulated.Federated learning can break data barriers and use client data for modeling.Because users have different habits,there are significant differences between different client data.How to solve the statistical challenge caused by the data imbalance becomes an important topic in federated learning research.Using the fast learning ability of meta learning,it becomes an important way to train different personalized models for different clients to solve the problem of data imbalance in federated learning.The definition and classification of federated learning,as well as the main problems of federated learning were introduced systematically based on the background of federated learning.The main problems included privacy protection,data heterogeneity and limited communication.The research work of federated metalearning in solving the heterogeneous data,the limited communication environment,and improving the robustness against malicious attacks were introduced systematically ZHANG Chuanyao1,2,SI Shijing1,WANG Jianzong1,XIAO Jing11.Ping An Technology(Shenzhen)Co.,Ltd.,Shenzhen 518063,China2.University of Science and Technology of China,Hefei 230026,China2022051-1123STUDY 研究2022051-2starting from the background of federated meta learning.Finally,the summary and prospect of federated meta learning were proposed.Key wordsfederated learning,meta learning,heterogeneous data,federated meta learning,privacy protection0 引言随着移动设备的普及,海量的数据在不断产生,合理有效地利用这些数据成为重点研究方向。由于隐私政策的保护,很多数据不能被轻易地获取,数据间相互隔离,形成了一个个数据“孤岛”。如何建立数据“孤岛”间沟通的桥梁,打破数据之间的界限,成为一个热点问题。联邦学习为解决该问题提供了一个新的方向。联邦学习在满足数据隐私要求、保护数据安全、遵守政府法规的前提下,进行数据的使用和建模,即通过只在各节点间传递模型参数,而不分享节点间数据的方式训练一个共享的数据模型1。许多早期的研究旨在在数据不公开的情况下分析和利用分布在不同所有者手中的数据。早在20世纪80年代,对加密数据进行计算的研究就已经展开,直到2016年,谷歌研究院2正式提出联邦学习这一术语,对分布式数据的隐私保护研究才开始归于一类。联邦学习成为解决数据隐私保护问题的一个有力工具。在传统的机器学习中,通常需要大量的数据样本进行训练,才能获得一个较好的模型。例如在神经网络中,需要大量的标签数据进行模型训练,才能使模型具有良好的分类效果,并且一个训练好的神经网络模型往往只能解决某一类问题。在某些情况下,数据本身是稀缺的,大量的有标签数据是不容易获得的,往往只有少量的样本能够进行数据训练。人类可以通过少量的某一类动物的图片学习到这种动物的概念,再见到这种动物时能够很快地识别出来。这种通过少量样本图片快速学习到新概念的能力,对应机器学习中元学习的概念。元学习的训练目标是训练一个模型,这个模型只需要通过少量的数据和迭代训练就可以快速适应新的任务,即训练一个具有很强适应能力的模型3。元学习能够很好地解决训练数据不足的问题。元学习算法由两个部分构成:基础学习者和元学习者2。基础学习者在单个任务的水平上工作,其特征在于只有一小组标记的训练图像可用。元学习者从几个这样的情节中学习,目的是提高基础学习者在不同情节中的表现。一般认为元学习系统应当具有以下3个特征:拥有一个基础学习子系统;具有能够利用先前的经验获取知识的能力;能够动态地选择学习偏差。元学习的早期研究工作主要集中在教育科学相关的领域,主要研究并控制自身的学习状态。随着机器学习的发展,元学习开始进入机器学习领域。元学习的第一个例子出现在20世纪80年代2,参考文献4提出了一个描述何时可以动态调整学习算法归纳偏差,从而隐式地改变其假设空间元素顺序的框架。参考文献5提出具有两个“嵌套学习层”的元学习方法。元学习可以跨越多个问题进行经验的积累,以适应基础假设空间3。考虑联邦学习在解决异构数据训练方面的需求和元学习在多任务模型上的良好表现,利用元学习训练一个个性化的联BIG DATA RESEARCH 大数据124邦学习算法成为一种选择。现有的联邦学习6主要是利用不同的数据节点联合训练一个统一的全局模型,这种统一的全局模型不利于解决数据的非独立同分布问题。联邦元学习为不同的数据节点训练单独的数据模型,这种多模型的训练方式可以直接捕捉客户端间的数据不平衡关系,使它们很适合解决联邦学习的数据不平衡问题。1 联邦学习简介1.1 问题定义联邦学习在满足数据隐私要求、保护数据安全、遵守政府法规的前提下,进行数据的使用和建模,即通过只在各节点间传递模型参数,而不分享节点间数据的方式训练一个共享的数据模型1。联邦学习不需要交换各数据节点间的数据,各节点间仅交换共享数据模型的参数,以保护用户的隐私安全。定义n个数据拥有者12,nfff,不同数据拥有者if的本地目标用()iF表示,它们各自拥有自己的数据12,nD DD,并希望利用这 些 数 据训练 机 器 学习模型。传 统的 机 器 学习方 法 是利用数 据12nDDDD=训练一个机器学习模型sum。在联邦学习中,服务器端使用聚合函数G()聚合来自不同数据拥有者的模型参数。数据拥有者在保护自身数据安全、互相不交换本地数据的情况下共同训练一个模型fed。联邦学习的全局目标定义如式(1)所示:(1)模型fed的精度fedv应当非常接近模型sum的精度sumv。如果存在非负实数使得式(2)成立:(2)则称联邦学习算法具有精度损失。1.2 联邦学习的训练过程随着联邦学习研究的开展,各种各样的联邦学习框架被开发出来。例如微众银行的FATE已经覆盖了3种联邦学习:横向联邦学习、纵向联邦学习、联邦迁移学习7。谷歌开源的Tensor/IO已经可以较好地支持横向联邦学习。尽管不同的算法框架(例如PySyft、FFL-ERL、CrypTen、LEAF、TFF)8对联邦学习的支持不同,但是联邦学习的主要训练过程均可以分为以下4步。中心服务器将最新的模型分发给各数据节点;各数据节点利用本地数据更新模型;各训练节点将更新的模型参数加密传送给中心服务器,中心服务器聚合各节点的参数,得到新的模型参数;中心服务器将更新后的模型参数发送给各节点,节点更新本地模型参数,并进行下一轮训 练。联 邦 学 习 训 练 过 程 如 图 1所示。1.3 联邦学习特点联邦学习与传统机器学习存在很大不同,具体见表1。联邦学习的分布式环境设置导致不同数据节点的地理位置可能不同,用户的使用习惯存在差异,从而影响数据的分布。不同数据节点间是非独立同分布的,任何一个数据节点都不能代表整个数据集的分布。设备环境是否稳定也是影响联邦学习的一个重要因素,有限的网络通信速率要求找到一种合适的方式提高设备间的通信效率,同时还要避免因环境不2022051-3125STUDY 研究图 1联邦学习训练过程稳定导致的设备随机加入与退出。隐私保护是联邦学习最基本的属性要求,当中间结果与数据结构一起暴露时,可能造成数据的泄露。因此如何解决数据非独立同分布问题,提高通信效率,如何进行隐私保护成为联邦学习的关键。1.3.1 数据隐私保护隐私性是联邦学习的基本属性,如果不能做到对数据的隐私进行有效保护,联邦学习将失去可靠性,不同的数据“孤岛”也不会将自己的数据贡献出来用于数据训练9。联邦学习在参数更新过程中,交换了工作的中间结果,因此不同数据方更容易受到推理攻击,敌对的参与方可以推断出训练数据子集的相关属性7。在数据交换时,隐私保护的方式有很多种,例如在机器学习期间通过加密机制下的参数交换来保护用户数据隐私7,或者使用差分隐私的方式保护数据10-13。安全多方计算、安全聚合14也是常用的隐私保护手段。其中,使用差分隐私方式保护数据隐私的方法通过向数据加入噪声的方式掩盖真实的数据,但是加入的噪声可能会影响最终结果的准确度。如何确定加入的噪声量是一个值得研究的问题,加入的噪声太多会导致计算结果失去准确性,加入的噪声不足则导致隐私保护效果不好。1.3.2 数据非独立同分布身份、性格、环境的差异导致由用户产生的数据集可能存在很大的差异,训练样本并不是均匀随机地分布在不同的数据节点间的15-17。不平衡的数据分布可能导致模型在