2023年5月JournalonCommunicationsMay2023第44卷第5期通信学报Vol.44No.5面向异构流式数据的高性能联邦持续学习算法姜慧1,2,何天流1,2,刘敏1,2,3,孙胜1,王煜炜1,2(1.中国科学院计算技术研究所,北京100190;2.中国科学院大学计算机科学与技术学院,北京100190;3.中关村实验室,北京100084)摘要:为了缓解提供智能服务的AI模型训练流式数据存在模型性能差、训练效率低等问题,在具有隐私数据的分布式终端系统中,提出了一种面向异构流式数据的高性能联邦持续学习算法(FCL-HSD)。为了缓解当前模型遗忘旧数据问题,在本地训练阶段引入结构可动态扩展模型,并设计扩展审核机制,以较小的存储开销来保障AI模型识别旧数据的能力;考虑到终端的数据异构性,在中央节点侧设计了基于数据分布相似度的全局模型定制化策略,并为模型的不同模块执行分块聚合方式。在不同数据集下多种数据增量场景中验证了所提算法的可行性和有效性。实验结果证明,相较于现有工作,所提算法在保证模型对新数据具有分类能力的前提下,可以有效提升模型对旧数据的分类能力。关键词:异构数据;流式数据;联邦学习;联邦持续学习;灾难性遗忘中图分类号:TP302文献标志码:ADOI:10.11959/j.issn.1000−436x.2023102High-performancefederatedcontinuallearningalgorithmforheterogeneousstreamingdataJIANGHui1,2,HETianliu1,2,LIUMin1,2,3,SUNSheng1,WANGYuwei1,21.InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China2.SchoolofComputerScienceandTechnology,UniversityofChineseAcademyofSciences,Beijing100190,China3.ZhongguancunLaboratory,Beijing100084,ChinaAbstract:AimingattheproblemsofpoormodelperformanceandlowtrainingefficiencyintrainingstreamingdataofAImodelsthatprovideintelligentservices,ahigh-performancefederatedcontinuallearningalgorithmforheterogeneousstreamingdata(FCL-HSD)wasproposedinthedistributedterminalsystemwithprivacydata.Inordertosolvetheprob-lemofthecurrentmodelforgettingolddata,amodelwithdynamicallyextensiblestructurewasintroducedinthelocaltrainingstage,andanextensionauditmechanismwasdesignedtoensurethecapabilityoftheAImodeltorecognizeolddataatthecostofsmallstorageoverhead.Consideringtheheterogeneityofterminaldata,acustomizedglobalmodelstrategybasedondatad...