基于
最大
平均
差异
迁移
模糊
均值
基于最大平均差异的迁移模糊C均值聚类焦连猛*王丰潘泉(西北工业大学自动化学院西安710072)摘要:该文针对迁移聚类问题,提出一种基于最大平均差异的迁移模糊C均值(TFCM-MMD)聚类算法。TFCM-MMD解决了迁移模糊C均值聚类算法在源域与目标域数据分布差异大的情况下迁移学习效果减弱的问题。该算法基于最大平均差异准则度量域间差异,通过学习源域和目标域的投影矩阵,以减小源域和目标域数据在公共子空间分布的差异,进而提升迁移学习的效果。最后,通过基于合成数据集和医学图像分割数据集的实验,进一步验证了TFCM-MMD算法在解决域间差异大的迁移聚类问题上的有效性。关键词:迁移学习;模糊聚类;最大平均差异中图分类号:TN911.7;TP391.4文献标识码:A文章编号:1009-5896(2023)06-2216-10DOI:10.11999/JEIT220645Transfer Fuzzy C-Means Clustering Based onMaximum Mean DiscrepancyJIAOLianmengWANGFengPANQuan(School of Automation,Northwestern Polytechnical University,Xian 710072,China)Abstract:Inthispaper,aTransferFuzzyC-MeansclusteringalgorithmbasedonMaximumMeanDiscrepancy(TFCM-MMD)isproposed.TFCM-MMDsolvestheproblemthatthetransferlearningeffectofthetransferfuzzyc-meansclusteringalgorithmisweakenedwhenthedatadistributionbetweensourcedomainandtargetdomainisverydifferent.Thealgorithmmeasuresinter-domaindifferencesbasedonthemaximummeandiscrepancycriterion,andreducesthedifferencesofdatadistributionbetweensourcedomainandtargetdomaininthecommonsubspacebylearningtheprojectionmatrixofsourcedomainandtargetdomain,soastoimprovetheeffectoftransferlearning.Finally,experimentsbasedonsyntheticdatasetsandmedicalimagesegmentationdatasetsfurtherverifytheeffectivenessofTFCM-MMDalgorithminsolvingtransferclusteringproblemswithlargeinter-domaindifferences.Key words:Transferlearning;Fuzzyclustering;MaximumMeanDiscrepancy(MMD)1 引言聚类就是对数据样本进行分组,使得同一组中的样本相对相似,而不同组中的样本相对不同。在过去的几十年里,已经提出了许多聚类算法,如模糊C均值聚类1,2、谱聚类3,4、最大熵聚类5,6等。聚类技术已经在许多工程领域得到了广泛的应用,例如故障检测7、图像分割8等。但目前许多聚类算法只有在有足够高质量样本的前提下才能产生良好的聚类结果。但在实践中,存在着样本数量不足、质量差等问题,这大大影响了聚类算法的性能。迁移聚类正是为解决这一问题而提出的。迁移聚类9就是通过利用源域中的有用信息,来提高目标域的聚类效果。近年来,国内外学者从不同角度对迁移聚类进行了研究,并取得了一些重要研究成果。现有的迁移聚类算法根据迁移方式,大致可以分为4类9:基于实例的迁移方法10,该方法假设源域中的部分样本可以通过重加权的方式在目标域中被利用;基于参数的迁移方法1120,该方法假设源域与目标域模型有相似的参数和先验分布;基于特征表示的迁移方法2126,该方法的核心思想是为目标域学习一个更有利于聚类的特征表示;基于相关性的迁移方法2730,该方法通过在源域与目标域之间构建相关知识的映射来提高目标域的聚类性能。基于参数的迁移方法是目前迁移聚类研究的一收稿日期:2022-05-19;改回日期:2022-12-25;网络出版:2022-12-28*通信作者:焦连猛基金项目:国家自然科学基金(62171386,61801386,61790552),陕西省重点研发计划(2022GY-081)FoundationItems:TheNationalNaturalScienceFoundationofChina(62171386,61801386,61790552),KeyResearchandDevelopmentPrograminShaanxiProvince(2022GY-081)第45卷第6期电子与信息学报Vol.45No.62023年6月JournalofElectronics&InformationTechnologyJun.2023个热点,目前已经发展了许多基于参数的迁移聚类算法。Deng等人11提出了迁移模糊C均值(TransferFuzzyC-Means,TFCM)聚类算法,该算法将迁移学习的概念应用于基于原型的模糊C均值(FuzzyC-Means,FCM)聚类,通过将源域的聚类中心作为迁移知识来构建TFCM的目标函数,以提高目标域的聚类效果。Gargees等人12提出了迁移可能性C均值(TransferLearningPossibilisticC-Means,TLPCM)聚类算法,与TFCM类似,源域的聚类中心也被作为迁移知识来指导目标域数据的聚类。但上述基于参数的迁移聚类算法受域间差异的影响较大,当源域与目标域的分布差异较大时,迁移学习的效果会减弱,甚至会出现负迁移。针对这一问题,本文提出一种基于最大平均差异的迁移模糊C均值(TransferFuzzyC-MeansbasedonMaxi-mumMeanDiscrepancy,TFCM-MMD)聚类算法。TFCM-MMD借鉴基于特征表示的迁移方法的核心思想,通过对源域与目标域数据进行投影的方式,解决域间差异大的问题。基于最大平均差异(MaximumMeanDiscrepancy,MMD)准则23,24,通过将源域和目标域数据投影到公共子空间,以减小源域和目标域分布的差异,从而提高聚类的鲁棒性。2 相关工作2.1 迁移模糊C均值聚类算法现有的许多经典的聚类算法,如FCM,只有在样本数量充足、质量良好的前提下才能产生较好的聚类结果。但在实践中,经常存在着样本数量不足、质量差等问题,这在一定程度上影响了聚类的效果。基于这一问题,Deng等人11提出了TFCM聚类算法。TFCM在保留了FCM目标函数基本结构的基础上,将从源域学习到的聚类中心和源域与目标域之间的聚类中心相关性矩阵引入到TFCM聚类算法的目标函数中,得到TFCM的目标函数为minJTFCM=Nti=1Ctj=1um1ij|xi vj|2+Csk=1Ctj=1rm2kj|vk vj|2,s.t.uij,rkj 0,1,Ctj=1uij=1,Ctj=1rkj=1(1)xivj vkuijrkj其中,表示目标域第i个样本,表示目标域第j个聚类中心,表示源域中第k个聚类中心,表示第i个样本对第j个聚类中心的隶属度,表示源m1m2CsCt域第k个聚类中心和目标域第j个聚类中心的相关性,,是模糊加权系数,表示迁移率,和分别表示源域和目标域聚类中心的个数。2.2 最大平均差异Xs=x1,s,x2,s,.,xNs,s,Xt=x1,t,x2,t,.,xNt,tPs(Xs)Pt(Xt)在迁移学习中,一个基本问题是如何评价源域和目标域之间的分布差异。而MMD作为一种非参数估计准则,被广泛用于分布的比较。假设分别表示来自源域和目标域的样本集,且分别服从分布和,则基于MMD准则度量源域与目标域的分布差异可表示为Dist(Ps(Xs),Pt(Xt)=?1NtNti=1(xi,t)1NsNsi=1(xi,s)?2(2)()其中,是一个映射函数,用于将源域数据与目标域数据映射到公共子空间中。3 基于最大平均差异的迁移模糊C均值聚类算法本节提出一种基于最大平均差异的迁移模糊C均值聚类算法TFCM-MMD,以解决TFCM在源域与目标域分布差异较大时迁移学习效果减弱的问题。3.1节介绍了TFCM-MMD算法的基本思路,3.2节提出了TFCM-MMD的目标函数,3.3节给出了求解TFCM-MMD目标函数的方法,3.4节是对算法的总结与分析。3.1 算法基本思路在迁移学习中,通常假设源域与目标域的数据分布类似。但是在实际应用过程中,更多的情况是源域与目标域的分布差异较大,进而导致迁移学习效果减弱,甚至出现负迁移。基于这一问题,提出了基于最大平均差异的迁移模糊C均值聚类算法TFCM-MMD。TFCM-MMD的算法思路如图1所示。首先通过FCM聚类算法获得源域的聚类中心,随后学习一个投影矩阵使得投影后源域数据与目标域数据的分布差异尽可能小,最后在公共子空间中利用投影后的源域聚类中心指导投影后的目标域数据进行聚类。3.2 TFCM-MMD目标函数H RrdH考虑存在一个公共子空间具有投影矩阵(其中r是公共子空间的维度,确定了数据投影后的特征维数,d是原始数据的维数)。假设源域和目标域中的样本具有相同的维度d,可使用投影矩阵将源域和目标域数据投影到公共子空间。源域第6期焦连猛等:基于最大平均差异的迁移模糊C均值聚类2217xi,sxi,tHxi,sHxi,t中的第i个样本和目标域中的第i个样本投影到特征维度为r的公共子空间内,可分别表示为和。基于MMD准则,公共子空间中源域和目标域分布的差异可以通过投影变换后源域样本均值和目标域样本均值之间的距离来计算Dist(Ps,Pt)=?1NtNti=1Hxi,t1NsNsi=1Hxi,s?2=1N2tNti=1Ntj=1Hxi,txTj,tHT+1N2sNsi=1Nsj=1Hxi,sxTj,sHT2NtNsNti=1Nsj=1Hxi,txTj,sHT(3)=1N2tNti=1Ntj=1xi,txTj,t1N2sNsi=1Nsj=1xi,sxTj,s2NtNsNti=1Nsj=1xi,txTj,s设+,式(3)可进一步简化表示为Dist(Ps,Pt)=HHT,s.t.HHT=Irr(4)其中,I是维度为r的单位矩阵。约束条件保证了投影矩阵H是正交矩阵。通过最小化式(4),即可缩小源域与目标域的域间差异,提高迁移聚类的效果。将式(4)引入到TFCM的目标函数中,得到基于最大平均差异的迁移模糊C均值聚类算法TFCM-MMD的目标函数为minJTFCM_MMD=Nti=1Ctj=1um1ij|Hxi vj|2+Csk=1Ctj=1rm2kj|H vk vj|2+HHT,s.t.uij,rkj 0,1,Ctj=1uij=1,Ctj=1rkj=1(5)xivj其中,表示目标域第i个样本,表示目标域第 vkj个聚类中心,是源域第k个聚类中心,是迁移系数,用于控制迁移学习的程度。对于式(5)有以下说明:(1)TFCM-MMD目标函数的第1项是在FCM目标函数的基础上,引入了投影算子H,将目标域数据投影到公共子空间中进行聚类。(2)TFCM-MMD目标函数的第2项在TFCM目标函数第2项的基础上,引入了投影算子H,将源域聚类中心投影到公共子空间中来指导公共子空间中目标域数据的聚类。(3)TFCM-MMD目标函数的第3项通过最小化投影变换后域间分布差异,来提高迁移学习的效果。m1m2m1=m2=1m1m2(4)TFCM-MMD中所涉