基于
对比
学习
分类
监督
域适配
模型
孙艳丰
第 49 卷 第 2 期2023 年 2 月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.49No.2Feb.2023基于对比学习的双分类器无监督域适配模型孙艳丰,陈摇 亮,胡永利(北京工业大学信息学部,北京摇 100124)摘摇要:针对深度域适配问题中冗余信息导致模型性能不佳的问题,提出基于对比学习的双分类器域适配模型.该模型基于双分类器对抗理论,首先,将输入数据增强 2 次以获得 2 个视角的特征,通过将不同视角的特征输入不同的分类器提高分类器的多样性;其次,将双分类器方法和对比学习思想结合,使模型能够捕获数据的高层语义表征,减少不同类特征的混淆程度;最后,通过设立标签分布对齐正则项引导边界样本正确分类.实验结果表明,双分类器间的对比损失能提取数据中的有效信息,从而提升模型性能.关键词:深度学习;域适配;对比学习;对抗学习;双分类器;分布对齐中图分类号:TP391郾 41文献标志码:A文章编号:0254-0037(2023)02-0197-08doi:10.11936/bjutxb2021110013收稿日期:2021鄄11鄄15;修回日期:2022鄄04鄄02基金项目:国家自然科学基金资助项目(61772048)作者简介:孙艳丰(1964),女,教授,主要从事模式识别、机器学习和图像分析方面的研究,E鄄mail:yfsun Contrastive Learning鄄based Bi鄄classifier Unsupervised DomainAdaptation ModelSUN Yanfeng,CHEN Liang,HU Yongli(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)Abstract:For deep domain adaptation issues,redundant information in feature representation causespoor model performance.A bi鄄classifier domain adaptation model was proposed based on contrastivelearning.Based on the theory of bi鄄classifier learning,the input data twice was enhanced to obtain thefeatures from two views,and the diversity of classifiers was improved by inputting features of differentperspectives into different classifiers.At the same time,by closely combining the bi鄄classifier method andcontrast learning,the model was able to capture high鄄level semantic representations of the data,andreduce the confusion degree between feature from different class.Finally,the samples were recognized bythe proposed model at classification boundary correctly by aligning the label distribution.Experimentalresults verify that the contrastive loss between two classifiers can extract valid information from the data,thereby improving model performance.Key words:deep learning;domain adaptation;contrastive learning;adversarial learning;bi鄄classifier;distribution alignment摇 摇 在大数据时代,图像数据规模不断扩大,图像识别任务在实际应用中越来越重要1.基于深度学习的图像识别方法是目前主流的高性能识别方法,它依赖大量有标注的图像数据训练模型,但数据标注是一项耗费人力成本和时间成本的复杂工作.为解决上述问题,研究人员提出了域适配方法.该方法致力于将有标注的源域知识迁移到无标注的目标域2上,从而使基于源域数据训练的模型能够解决网络首发时间:2023-02-08 17:53:19网络首发地址:https:/ 京摇 工摇 业摇 大摇 学摇 学摇 报2023 年目标域的相关任务.根据目标域数据的标注情况,域适配方法可分为半监督和无监督 2 类.在半监督域适配问题中,目标域数据含有少量标签.对于无监督域适配问题,目标域则没有任何标注信息3,本文重点研究无监督域适配问题.目前,主流的域适配方法主要是通过减少源域和目标域的域间差异来完成域适配任务,可以分为2 类:一类是将不同域数据投影到公共潜在的空间中,通过减小不同域数据在潜在空间中的分布差异实现域适配任务.其中度量分布距离的方法包括最大 化 均 值 差 异(maximummeandiscrepancy,MMD)4或 Wasserstein 距离5等.另一类主流的方法结合了对抗学习的思想,通过提取域一致性特征消除域间差异.目前,基于对抗的方法主要分为 2种:第 1 种思路结合了生成对抗网络(generativeadversarial networks,GAN)6的思想,在模型中引入了域判别器网络.以域对抗 神 经 网 络(domainadversarial neural networks,DANN)7为例,该模型使用了一个特征提取器以及一个域判别器.域判别器用于辨别当前数据来自于源域或目标域,而特征提取器则期望通过提取共性特征来迷惑域判别器,使其无法分辨当前数据来源.通过对抗训练,最终使得特征提取器学到域一致性特征.第 2 种对抗方法主要基于双分类器构建,模型包含 2 个分类器及1 个特征提取器.以分类器差异最大化(maximumclassifier discrepancy,MCD)模型8为例,该模型假定不同分类器可以学到多样性特征,若双分类器输出存在差异则表明模型对当前样本分类置信度较低.在对抗训练过程中,2 个分类器最大化对当前样本的判别差异,特征提取器则期望提取域一致性特征以减少分类器输出差异,从而减少边界样本数量.MCD 模型使用范数来度量分类器之间的差异,不能很好地结合数据的几何结构,因此,在 MCD 模型的 基 础 上,基 于 切 片 Wasserstein 距 离(slicedWasserstein distance,SWD)的双分类器域适配模型9使用 SWD 度量分类器间的输出差异,进一步对齐了数据间的结构信息.尽管基于双分类器的域适配模型性能优异,但依然存在一些问题:第一,2 个分类器共享特征提取器输出的特征,这限制了不同分类器捕获多样性信息的能力,导致模型无法有效检测边界样本;第二,仅依赖不同分类器之间的预测差异不足以捕获目标域中高区分度的有效信息;第三,虽然传统的双分类器模型可检测边界样本,但无法对边界样本进行正确分类,因此,限制了模型的性能.为解决上述问题,本文提出基于对比学习的双分类器域适配模型.首先,通过不同的数据增强方式得到不同视角特征,在保证分类器输出多样性的同时,能较好地使用对比损失函数更新模型;然后,针对传统双分类器存在的问题,使用 SWD 对齐了源域和目标域的标签分布,进一步提升了模型的性能.1摇 相关工作1郾 1摇 对比学习近年来,对比学习10模型引起人们广泛关注,因为该方法能在没有标注的条件下,直接将数据本身作为指导信息,学习到数据中区分度较高的特征.对比学习方法并不关注样本的细节信息,而是关注数据中类别区分度较高的特征.通常,实现对比学习的一种行之有效的方法是使用孪生网络结构,首先对样本使用不同的数据增强方式,然后将其送入孪生网络的不同支路中,通过使用对比损失训练模型使得不同支路特征在嵌入空间中具有一致性表达,从而提取样本的主干信息.在对比学习模型的特征空间中,同类样本的特征表达相似,不同类样本特征表达互异.目前,基于动量的对比(momentum contrast,MOCO)学习方法11以及对比学习简单表示(simple contrastive learningrepresentation,SimCLR)方法12在 ImageNet13数据集上的准确率能够同监督学习算法相抗衡.然而,这些方法在实际训练中依赖大量的负样本,这会大量消耗内存资源,导致模型训练成本较高.同以上 的 对 比 学 习 模 型 相 比,简 单 孪 生(simplesiamese,SimSiam)表示对比学习模型14使用了梯度停止方法来抑制模式崩塌的问题,因此,该模型仅使用小批次正样本就能达到较好的效果.受到SimSiam 模型的启发,本文将双分类器对抗学习和对比学习思想相结合,在检测边界样本的同时剔除冗余特征,从而提升模型性能.1郾 2摇 SWDWasserstein 距离广泛用于度量数据分布之间的差异.相比于其他形式的距离度量,Wasserstein 距离更适用于对齐数据分布中潜在的几何结构.Wasserstein 距离由最优运输问题15定义,该理论给出了将固定质量的沙土运输到指定大小的洞中所消耗的最小成本的运输方案.由于日常所获得的数据往往是离散的形式,离散形式 Wasserstein 距离定义如下:891摇 第 2 期孙艳丰,等:基于对比学习的双分类器无监督域适配模型令 赘哿Rd为数据分布的度量空间,S,T 哿赘 表示不同分布样本所在的子空间,S 和 T 的边缘分布分别为 滋s和 滋t,则 滋s和 滋t之间的 1鄄Wasserstein 距离定义为W1(滋s,滋t)=min酌沂装(滋s,滋t)移nsi=1移ntj=1酌(xsi,xtj)c(xsi,xtj)(1)式中:xsi和 xtj分别是从 S 和 T 中采样的样本;酌 为样本 xsi到 xtj的量(运输计划),其边缘分布分别为滋s和 滋t;装(滋s,滋t)为联合分布所在的度量空间;c(xs,xt)是度量 xs和 xt差异的代价函数,本文中使用 L2 范数的平方损失,即 c(xs,xt)=椰xs-xt椰22;ns与 nt表示样本个数.式(1)在进行求解时需要使用交替迭代的方式分别固定运输计划 酌 和运输损耗 c,从而得到源域样本在目标域上的映射.当样本量较大时,使用式(1)度量高维数据分布差异会导致模型计算复杂度较高,因此,本文采用 SWD 度量分布之间的差异.SWD 是1鄄Wasserstein 距离的一维变分形式.在计算1鄄Wasserstein 距离时,若来自分布 S 和 T 的数据维度是 1,则 S 和 T 之间的最优运输计划便是对一维样本从大到小排序后的状态.此时,分布间的1鄄Wasserstein 距离可通过序列从大到小对应位置做差来计算.因此,SWD 计算方式如下:对于来自空间 S 和 T 的 N 个样本 xsi和 xti,首先通过线性映射得到样本在一维的表征,然后对一维表征进行排序后再对对应位置做差即可得到离散分布间的 SWD.定义为SW(滋s,滋t)=移Mm=1移Ni=1c(R准mxsi,R准mxti)式中 c(,)=椰R准mxsi-R准mxti椰22.M 个随机采样的一维线性映射算子 R准m之间相互独立且服从均匀分布,因此,可以减少仅单次映射造成的误差.2摇 基于对比学