分享
基于改进领域分离网络的迁移学习模型.pdf
下载文档

ID:3062090

大小:1.66MB

页数:8页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 改进 领域 分离 网络 迁移 学习 模型
2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2382-2389ISSN 10019081CODEN JYIIDUhttp:/基于改进领域分离网络的迁移学习模型金泽熙1,李磊1,2*,刘继1,2(1.新疆财经大学 统计与数据科学学院,乌鲁木齐 830012;2.新疆社会经济统计与大数据应用研究中心(新疆财经大学),乌鲁木齐 830012)(通信作者电子邮箱)摘要:为进一步提高迁移学习的特征识别和提取效率、减少负迁移并增强模型的学习性能,提出了一种基于改进领域分离网络(DSN)的迁移学习模型AMCN-DSN(Attention Mechanism Capsule Network-DSN)。首先,使用融合多头注意力机制的胶囊网络(MHAC)完成源域和目标域特征信息的提取与重构,基于注意力机制有效筛选特征信息,并利用胶囊网络提高深层信息的提取质量;其次,引入动态对抗因子优化重构损失函数,使重构器可动态衡量源域与目标域信息的相对重要性,从而增强迁移学习的鲁棒性和提升收敛速度;最后,在分类器中融入多头自注意力机制,以强化对公有特征的语义理解并提高分类性能。在情感分析实验中,相较于其他迁移学习模型,所提模型能够将学习到的知识迁移到数据量少但相似性高的任务中,分类性能的下降幅度最小,迁移表现较好;在意图识别实验中,相较于分类性能次优的胶囊网络改进领域对抗神经网络(DANN+CapsNet)模型,所提模型的精确度、召回率和F1值分别提升了4.5%、4.3%和4.4%,表明所提模型在处理小数据问题和个性化问题上具有一定优势。与DSN相比,AMCN-DSN在上述两类实验目标域上的F1值分别提高了6.0%和12.4%,进一步验证了改进模型的有效性。关键词:迁移学习;领域分离网络;胶囊网络;注意力机制;自然语言处理中图分类号:TP391.1 文献标志码:ATransfer learning model based on improved domain separation networkJIN Zexi1,LI Lei1,2*,LIU Ji1,2(1.Institute of Statistics and Data Science,Xinjiang University of Finance and Economics,Urumqi Xinjiang 830012,China;2.Xinjiang Social and Economic Statistics and Big Data Application Research Center(Xinjiang University of Finance and Economics),Urumqi Xinjiang 830012,China)Abstract:In order to further improve the feature recognition and extraction efficiency of transfer learning,reduce negative transfer and enhance the learning performance of the model,a transfer learning model based on improved Domain Separation Network(DSN)AMCN-DSN(Attention Mechanism Capsule Network-DSN)was proposed.Firstly,the extraction and reconstruction of feature information in the source and target domains were accomplished by using Multi-Head Attention CapsNet(MHAC),the feature information was filtered effectively based on the attention mechanism,and the capsule network was adopted to improve the extraction quality of deep information.Secondly,a dynamic adversarial factor was introduced to optimize the reconstruction loss function,so that the reconstructor was able to dynamically measure the relative importance of the source and target domain information to improve the robustness and convergence speed of transfer learning.Finally,a multi-head self-attention mechanism was incorporated into the classifier to enhance the semantic understanding of the public features and improve the classification performance.In the sentiment analysis experiments,compared to other transfer learning models,the proposed model can transfer the learned knowledge to tasks with less data but high similarity with the least degradation of classification performance and good transfer performance.In the intent recognition experiments,the proposed model improves the precision,recall and F1 score by 4.5%,4.3%and 4.4%respectively,compared to the model with suboptimal classification performance Capsule Network improved Domain Adversarial Neural Network(DANN+CapsNet)model,showing certain advantages of the proposed model in dealing with small data problems and personalization problems.In comparison with DSN,AMCN-DSN has the F1 scores on the target domain in the above-mentioned two types of experiments improved by 6.0%and 12.4%respectively,further validating the effectiveness of the improved model.Key words:transfer learning;Domain Separation Network(DSN);capsule network;attention mechanism;Natural Language Processing(NLP)文章编号:1001-9081(2023)08-2382-08DOI:10.11772/j.issn.1001-9081.2022071103收稿日期:20220729;修回日期:20221121;录用日期:20221130。基金项目:国家自然科学基金资助项目(71762028,72164034)。作者简介:金泽熙(1998),男,江苏盐城人,硕士研究生,主要研究方向:机器学习、大数据分析;李磊(1973),女,新疆乌鲁木齐人,教授,博士,主要研究方向:深度学习、大数据分析;刘继(1974),男,四川达州人,教授,博士,主要研究方向:数据智能分析。第 8 期金泽熙等:基于改进领域分离网络的迁移学习模型0 引言 传统的机器学习方法假设训练数据与测试数据满足独立同分布条件,但在实际应用中,通常无法满足该条件,而且机器学习模型也难以基于较少的训练样本提升模型性能。在处理小样本、少标注、数据特征空间差异大等问题时,迁移学习表现出的明显优势使该方法成为机器学习中的前沿领域之一。不同于基于大量数据训练模型、解决单领域任务的深度学习算法,迁移学习强调在相似但存在差别的不同领域、任务和分布之间实现源域到目标域的知识迁移1,在计算机视觉、自然语言处理(Natural Language Processing,NLP)、故障诊断、医疗健康等领域得到了较为广泛的应用2。在NLP方面,已有学者基于迁移学习方法在情感分析3、意图识别4、实体命名识别5等方面开展了相关的研究。目前国内外研究主要关注如何充分利用已有标注样本,针对数据特征相似的新领域中的问题,更好地完成迁移学习任务6。迁移学习可分为基于实例、映射、网络和对抗四类方法7。基于实例的方法从源域中选择部分实例作为目标域训练集的补充,使用特定的权重调整策略,通过为选中的实例分配适当的权重,使实例能够同时在源域和目标域作为有效训练样本,实现迁移学习。Dai等8据此利用Boosting技术来过滤掉源域中那些与目标域数据差异最大的数据,提出了具有迁移能力的TrAdaBoost算法。基于映射的方法假设源域与目标域存在公用的特征,将源域和目标域中的实例映射到同一个数据空间,通过映射变换找到相似特征,再使用传统的机器学习方法进行分类,实现迁移学习。Bo等9使用最大均值差异(Maximum Mean Discrepancy,MMD)作为评判准则,并减少了源数据映射变换过程中的损失,在源域和目标域共同特征较少的情况下提高了模型性能。得益于神经网络与深度学习的飞速发展,基于网络的方法先使用源域数据训练一个神经网络,然后将部分网络、结构、参数迁移到针对目标域构建的神经网络中,经过微调实现迁移学习。Chang等10基于该思路提出了一种多尺度卷积稀疏编码模型,以一种联合方式自动学习不同尺度的滤波器组,并将它们迁移到一个无监督模型中,最终完成目标域的分类任务。上述迁移学习方法围绕寻找源域与目标域之间的相似性展开,但是均存在不同程度的参数冗余、相似特征获取不全面、模型性能差等问题。基于对抗的方法借鉴纳什均衡的思想构建源域与目标域的动态博弈过程,使分类器无法分辨样本数据来自源域还是目标域,从而达到迁移学习的目的。受到生成对抗网络(Generative Adversarial Network,GAN)11的启发,Ganin等12在基于神经网络的迁移学习模型中加入了对抗机制,用于提取源域和目标域的可迁移特征表示。将GAN中的生成编码器替换为面向真实数据的目标域编码器,构建了领域对抗神经网络(Domain-Adversarial training of Neural Network,DANN),利用域不变特征使模型无法区分数据的来源,从而实现源域到目标域的迁移学习。Tzeng等13-14提出了对 抗 域 适 应 性 框 架(Adversarial Discriminative Domain Adaptation,ADDA),优化未标注或稀疏标注数据的域公有特征,实现了源域和目标域分布距离的最小化,该方法利用域混淆损失函数评估域不变特征的有效性,从而实现源域到目标域的迁移。Yu等15将动态分布适配的概念引入对抗网络中,提 出 了 一 个 动 态 对 抗 适 配 网 络(Dynamic Adversarial Adaptation Network,DAAN),通过端到端的对抗性训练来学习域不变特征。基于对抗的迁移学习关注不同域之间可供迁移的特征,集中于优化特征提取算法,但是忽略了源域与目标域的特征差异性对相似性计算的负面作用,易导致相似特征的重复提取或遗漏。针对该问题,Bousmalis等16提出了领域分离网络(Domain Separation Network,DSN),针对源域和目标域数据分别构建私有特征提取器和公有特征提取器,基于提取后的特征再进行特征重构计算,确保相似特征的提取不重不漏,以达到更好的迁移效果。Tsai等17在DSN模型的基础上,融入自适应判别器并加入混合对抗学习,分别优化分离损失函数和域差异的最小化计算部分,单独提取个体信息,纯化共享特征,提高模型分类收敛速度。但是,DSN模型在特征提取、损失函数计算、分类判别等方面仍有待优化和改进。针对上述问题,本文提出一种基于改进领域分离网络的迁移学习模型,从3个方面对领域分离网络改进和优化:1)在私有特征提取器、公有特征提取器和重构器中,使用融合多头注意力机制的胶囊网络(Multi-Head Attention CapsNet,MHAC)以提升特征提取与重构效果;2)在重构损失函数计算中引入动态对抗因子,确保公有特征提取的鲁棒性;3)在分类器中融合多头自注意力机制,优化分类器的标签分类性能。使用本文模型在自然语言处理的情感分析和意图识别任务上进行有效性验证,实验结果表明,所提迁移学习模型可较好地实现公有特征与私有特征的相似性识别、减少负迁移,提高迁移学习性能。1 DSN相关知识 领域分离网络(DSN)是 Bousmalis等16提出的基于对抗的迁移学习模型,该模型分别使用不同的模块来提取域中的公有特征与私有特征,并使用重构模块确保公有特征不重复、不遗漏。DSN使用源域公有特征训练得到最优的分类器,然后输入目标域公有特征完成分类判别,实现迁移学习。DSN模型架构示意图见图1。1.1DSN组件具体地,DSN模型由以下5个模块构成:1)公有特征提取器。公有特征提取器采用两层卷积神经网络(Convolutional Neural Network,CNN)结合 DANN相似损失函数,计算源域与目标域之间相似度,用于提取源域与目标域的公有特征。2)源域私有特征提取器。源域私有特征提取器采用两层CNN 对源域的私有特征进行显式建模,完成源域私有特征图1DSN架构Fig.1Architecture of DSN2383第 43 卷计算机应用提取。3)目标域私有特征提取器。目标域私有特征提取器采用两层CNN,对目标域的私有特征进行显式建模,用于提取目标域的私有特征信息。4)重构器。重构器采用ReLU(Rectified Linear Unit)激活函数与4层CNN,对域的公有、私有特征进行合并重构。最小化重构损失函数,使得特征提取器最大限度实现公有特征与私有特征的分离,保证域公有特征提取的鲁棒性。5)分类器。分类器由Softmax激活函数构成,使用源域的公有特征完成训练。后将分类器用于目标域的公有特征,最终完成对目标域数据的标注或分类,实现迁移学习任务。1.2DSN损失函数为了有效地训练DSN的每个模块,共构建4个损失函数来约束训练过程:首先,输入源域数据与目标域数据,计算源域、目标域的差异损失函数Ldifference,使两个域的公有特征与私有特征差异最大化;其次,计算相似性损失函数Lsimilarity,使源域与目标域公有特征的相似度最大,完成特征提取工作;接着,将提取的公有特征与私有特征输入重构器,计算重构损失函数Lrecon,以获得两个域的最优重构数据样本;最后,将源域公有特征输入分类器进行模型训练,并计算任务训练损失Ltask。1.2.1差异损失函数差异损失函数Ldifference 用于计算hsp和hsc、htp和htc的相似度大小,当hsp=hsc及htp=htc时,Ldifference 最大;当hsp和hsc正交及htp和htc正交时,Ldifference 最小。因此通过最小化Ldifference 可以实现hsp和hsc、htp和htc分离,达到区分公有特征与私有特征的目的。计算公式如下:Ldifference=(hsc)Thsp2F+(htc)Thtp2F(1)其中 F为F-范数。1.2.2相似损失函数相似损失函数Lsimilarity为DANN算法中的损失函数,用来衡量hsc与htc之间的差异大小。差异越小,源域与目标域公有特征越相似,即越具有可迁移性。当Lsimilarity 最小时可以大幅提升hsc与htc的相似性,使得二者分布趋于一致,完成迁移学习的核心步骤。DANN相似性损失函数为:LDANNsimilarity=i=0Ns+Ntdi log di+(1-di)log(1-di)(2)其中:di 0,1为样本i的真实域标签,di为样本i的预测域标签,Ns和Nt分别表示源域和目标域样本数。1.2.3重构损失函数最小化重构损失函数Lrecon,以确保源域和目标域的私有特征与公有特征既相互区别又不重复,从而保证特征分离的准确性。重构损失函数公式为:Lrecon=i=1NsLsi_mse(xsi,xsi)+i=1NtLsi_mse(xti,xti)(3)Lsi_mse(x,x)=1kx-x22-1k2(x-x 1k)2(4)其中:x为输入样本,x为重构样本,k为输入样本向量的维数,1k为长度为k、值全为1的列向量。1.2.4任务训练损失函数任务训练损失函数Ltask用于控制分类器基于源域公有特征的训练过程,计算公式为:Ltask=-i=0Nsysi log ysi(5)其中:ysi为源域标签的独热编码,ysi为分类器的Softmax预测分类结果。综上,DSN模型的总体损失函数为:L=Ltask+Lrecon+Ldifference+Lsimilarity(6)其中:、是控制损失项交互作用的权重。2 AMCNDSN模型 本 文 构 建 AMCN-DSN(Attention Mechanism Capsule Network)模型,使用融合多头注意力机制的胶囊网络作为特征提取器和重构器,替代原模型中的CNN,提高特征提取与重构效果;在重构损失函数中引入动态对抗因子,动态衡量源域与目标域数据的相对重要性,提升特征信息重构的鲁棒性和模型收敛速度;在分类器中又融入多头自注意力机制,强化对公有特征的语义理解,提高迁移学习模型的分类性能。从上述3个方面对领域分离网络进行优化和完善后的模型框架及训练过程见图2。2.1MHAC特征提取及重构模块本文提出的迁移学习模型使用融合多头注意力机制的胶囊网络(MHAC)以提升特征信息的提取质量与重构效率。MHAC由2个模块组成,如图3所示:1)注意力模块,采用多头注意力机制,不同的注意头可以看作从不同角度对同一实体的观察,能够有效捕捉特征信息。2)胶囊网络模块,由4层神经网络组成:初级胶囊层接收注意力计算后的矩阵,提取特征并使用squash函数生成矢量表示;高级胶囊层使用动态路由机制,根据高级胶囊层的输出逐步调整低级胶囊输入到高级胶囊的分布,以提升最终特征提取的准确性;前馈神经网络通过全连接层和激活函数优化胶囊的特征输出;残差连接拼接注意力模块输出与前馈神经网络输出,解决因胶囊网络层数过多导致的梯度消失以及所提取特征表达能力过差问题。使用MHAC进行特征提取的主要步骤如下:1)输入经过词向量编码的文本矩阵,复制并生成键值对Q、K以及V,通过线性变换将上述键值对的维度降为原先的1/h,转换到一个子空间中,并行做h次注意力计算,即每次作为一个“头”,得到ui:ui=Attention(Q,K,V)=softmax()QiKTidkVi(7)其 中:i 1,h。Qi、Ki和Vi分 别 基 于 不 同 的 参 数 矩 阵图2AMCN-DSN的模型框架及训练过程Fig.2Model framework and training process of AMCN-DSN2384第 8 期金泽熙等:基于改进领域分离网络的迁移学习模型WQi Rdmodel dk,WKi Rdmodel dk,WVi Rdmodel dv计算得到:Qi=QWQi(8)Ki=KWKi(9)Vi=VWVi(10)2)将注意力计算所得矩阵ui作为初级胶囊层的输入,乘以初始权重矩阵Wij来计算第i个初级胶囊向第j个高级胶囊的输出u j|i:u j|i=Wijui(11)3)使用动态路由迭代计算并更新高级胶囊层输出vj、初级胶囊与高级胶囊之间的耦合系数cij。动态路由分配过程如图3中虚线所示,经过动态路由得到输出矩阵sj,计算公式如下:sj=iciju j|i(12)cij=exp(bij)kexp(bik)(13)其中:bij为权重大小,初始化值设为0。使用一个非线性激活函数对矩阵sj压缩转化得到输出矩阵vj,vj的长度不超过1,并确保vj和sj同方向:vj=sj21+sj2sj sj(14)同时迭代更新耦合系数的权重大小bij:bij bij+u j|i vj(15)4)将高级胶囊层的vj输入一个前馈网络(Feed Forward Network,FFN),该网络由两个线性变换组成,中间使用ReLU函数激活。其中,W、b为给定参数集合,分别表示权重矩阵和偏置向量:FFN(x)=max(0,xW1+b1)W2+b2(16)在多头注意力计算结果和前馈网络输出之间使用残差连接,以确保特征提取结果的表达能力,最终的特征输出值为:OPUT=u+FFN(v)(17)u=Concat(u1,u2,uh)(18)v=Concat(v1,v2,vj)(19)2.2重构损失函数的改进重构损失函数的作用是尽量减小重构样本与原有样本之间的差异,确保特征提取不重复缺漏。原DSN模型计算重构损失时,没有有效区分源域与目标域样本,本文则引入动态对抗因子,以动态衡量源域与目标域数据的相对重要性,提升重构损失函数计算效果。Ben-David等18提出了 H-散度(H-divergence),用于量化描述不同领域之间的差异。即用其中一个领域的数据训练出来的分类器,分别在两个领域上进行预测,基于预测结果差异的上确界量化这两个领域之间的差距,计算公式为:dH(DXS,DXT)=2 sup HPrxDXS(x)=1-PrxDXT(x)=1(20)式中:DXS为源域样本,DXT为目标域样本,H是所有的分类函数(x)组成的集合空间,Pr是计算域样本预测分类标签为1的概率函数,sup为求上确界。使用H-散度表示任意源域和目标域的误差关系,对于给定集合空间H里的任意分类器C,有:t(C)s(C)+dH(DXS,DXT)+(21)其中是最优分类器的分类误差。由式(19)可知,为了使目标域的预测误差t最小,应该使H-散度的值最小。但H-散度的衡量本身有一定难度,需要两个领域的匹配数据达到一定数量。Ben-David 等19证明了代理距离(Proxy A-Distance,PAD)是H-散度的近似值,对于集合空间H的任意分类器A,假设其对域的样本分类误差为st,那么PAD可以定义为:dA=2(1-st)(22)因此降低迁移学习模型在目标数据集上的误差,就转换成了使源域和目标域数据集分类器损失最大化的问题。本文模型中源域与目标域的PAD分别为:dA,s(Ds)=2(1-2(Lssi_mse)(23)dA,t(Dt)=2(1-2(Ltsi_mse)(24)引入动态对抗因子:=dA,s()DsdA,s()Ds+dA,t()Dt(25)因此在优化后的领域分离网络中,共享特征提取器的相似性均方误差的损失值为:Lssi_mse=i=1NsLsi_mse(xsi,xsi)(26)Ltsi_mse=i=1NtLsi_mse(xti,xti)(27)优化后的重构损失函数为:Lrecon=Lssi_mse+(1-)Ltsi_mse(28)其中 表示动态对抗因子。2.3分类器的优化分类器的作用是对源域与目标域的公有特征进行分类判别,完成模型训练以及迁移学习任务。为了关注特征的内部相关性,本文将多头自注意力机制施加在原有分类函数前,借鉴图3融合MHAC结构Fig.3Structure of MHAC2385第 43 卷计算机应用既有研究成果,共选择了6个自注意力头20,以提升分类效果。自注意力机制本质是计算注意力权重,通过计算公有特征的内部位置关系,可以更好地利用长距离信息。多头自注意力(Multi-Head Self-Attention,MHSA)机制的输入Q=K=V,根据权重与特征信息计算自注意力得分,减少对外部信息的依赖,更擅长捕捉特征的内部相关性。计算公式如下:VMHSA=Multihead(hc,hc,hc)(29)自注意力向量矩阵及输出结果的计算公式为:a=Softmax(wL2tanh(wL1hc)(30)y=ahc(31)其中:hc Rn j,表示输入的公有特征;tanh为激活函数;wL1和wL2分别为第1、2层线性神经网络的权重矩阵;用Softmax函数进行归一化处理,得到行元素和为1的自注意力权重矩阵a;y是对hc施加了自注意力机制后的输出结果。3 实验与结果分析 3.1数据集及参数设置实验使用两种类型的公开数据集,分别完成自然语言处理的情感分析和意图识别任务,以评估本文提出的改进迁移学习方法的性能。在情感分析任务中,源域与目标域文本数据的情感倾向性均为二元分类:正面情感和负面情感。源域数据集使用NLPCC2014 的 Task2:Sentiment Classification with Deep Learning21,为数字影音、手机数码、图书等领域的网络评论数据,正负标签样本各5 000。目标域数据集来自谭松波教授整理且标注完成的酒店评论语料,本文随机选取了4 000条评论数据,正负标签样本各2 000,以验证在源域数据易于获取且数量充足的情况下,迁移学习模型能够将学习到的知识迁移到数据量少但相似性高的任务中。在意图识别任务中,数据集使用SMP2018的用户意图领域分类(任务一)22,该数据集包括1 940条反映用户意图的短文本数据。所涵盖的领域为:日常聊天(609 条)、食谱(358条)、影视剧(242条)、电视节目(237条)、诗歌(136条)、股票(95条)、地图路线(91条)、音乐(88条)和航班(84条),每条数据的标签即为该短文本所属的领域,不同意图短文本在数据量、数据分布和涉及领域上具有明显差别。基于意图识别任务,进一步验证在源域数据较少且涉及领域较广泛的情境下,本文模型的迁移学习能力和优良性能。实验用jieba分词对评论文本进行分词和词性标注,词向量用基于变换器的双向编码表征预训练模型(Bidirectional Encoder Representation from Transformers,BERT)训练得到。BERT 模型结构包含 12 层 Transformers,隐藏层维度为 768,Head数为12,词向量设定为最大长度300维的连续值。模型的主要参数设置如表1所示。表1AMCN-DSN模型的参数设置Tab.1Parameter setting of AMCN-DSN model参数类型胶囊网络参数模型训练参数可调参数初始胶囊维度主胶囊维度动态路由次数Routing胶囊网络优化函数学习率lr迭代次数epoch批处理大小batch_size值16323Adam0.00120323.2对比模型与评价标准为充分验证本文模型的有效性,选择以下迁移学习模型进行对比实验:1)DCGAN(Deep Convolutional Generative Adversarial Network)23:该模型改进了 GAN,在判别器和生成器中使用CNN 替代多层感知机,同时为了使整个网络可微,删去了CNN中的池化层,并将全连接层替换为全局池化层以降低计算量。2)DANN12:采用 GAN的思想,将域适配策略与 CNN相结合,并且提出了全新的梯度反转层,模拟GAN反向传播对生成模块的参数更新。3)DANN+CapsNet4:优化领域适应方法,利用胶囊网络改进领域判别器,对领域判别器的源域和目标域输入进行多次特征提取,保留梯度反转层的对抗损失,完成领域自适应任务,实现迁移学习。4)ADDA14:该模型探索无监督的对抗性适应方法,首先使用源域中的标签信息训练一个分类器,使源域分类误差最小,然后通过域对抗损失获得的非对称映射将数据传输到同一空间,完成目标域映射到源域相同空间的单独编码。5)Res-CapsNet24:进一步优化了 ADDA 模型,提出胶囊层卷积算法,融合残差网络。受变分自编码机结合生成对抗网 络 模 型(Variational Auto-Encoder Generative Adversarial Network,VAE-GAN)的启发,引入重建网络作为解码器,克服对抗判别域适应算法易出现模式崩坍的缺陷,保证判别器对样本共性表征的敏感度。6)DAAN15:该模型为动态对抗适配网络,通过端到端的对抗性训练来学习域不变特征。模型关键组成部分为动态对抗因子,用于评估边际分布与条件分布的相对重要性。模型适配通过随机梯度下降与反向传播中计算的梯度来实现。7)ADSA(Adversarial Domain Separation and Adaptation)17:该模型在DSN模型的基础上,融入自适应判别器并加入混合对抗学习,分别优化分离损失函数和域差异的最小化计算部分,联合训练域分离鉴别器和域自适应判别器,提高公有特征与私有特征的分离效果。实验采用精确度P(Precision)、召回率R(Recall)、F1值三种指标评价模型性能,具体计算公式为:P=TPTP+FP(32)R=TPTP+FN(33)F1=2 P RP+R(34)其中:TP(True Positive)表示预测正确的正向类别数;FP(False Positive)、FN(False Negative)分别表示预测错误的正向类别数和负向类别数。3.3实验结果及分析1)情感分析性能对比。表2列出了所有7个迁移学习模型在情感分析任务中的性能对比结果,实验结果由十折交叉验证取均值得到。对比模型中,在目标域上F1值排名前三的模型是Res-CapsNet、DAAN和DANN+Capsnet,分别为83.14%、83.08%和82.78%,但是三者均关注域不变特征的深入提取以及在相同特征空间的映射有效性,未考虑私有特征在迁移学习中的作用,而且也没有考虑不变特征的重复提取问题。本文提出的AMCN-DSN模型与2386第 8 期金泽熙等:基于改进领域分离网络的迁移学习模型Res-CapsNet 相比,精确度、召回率和 F1 分别提升了 3.1%、1.5%和2.3%,表明特征提取效率的提升、私有特征与公有特征的有效区分可明显增强模型的迁移学习能力。此外,将源域知识迁移到目标域数据集上进行情感分析时,8个模型的F1值平均下降了9.1%。其中,DANN+CapsNet的降幅最大,达到 9.6%;本文模型的下降幅度最小,仅为8.0%,表明AMCN-DSN能够从搜索型商品评论中学习情感特征表示,并迁移到体验型商品的评论文本上,保证了情感分析的准确率,迁移表现较好。2)意图识别性能对比。基于SMP2018(任务一)设计意图识别的迁移实验如下:源域数据由意图为航班、音乐、地图路线和股票的小样本短文本构成,目标域数据分别选择意图为日常聊天、食谱和影视剧的大样本数据。所有模型均完成从源域到3个不同目标域的迁移学习,表3列出了意图识别任务的平均性能。由表3可知,结合胶囊网络的对抗迁移学习模型AMCN-DSN、DANN+Capsnet、Res-CapsNet整体上都优于其他模型,在目 标 域 上 的 F1 值 分 别 为 77.45%、74.18%和 74.06%。AMCN-DSN与分类性能次优的DANN+CapsNet相比,精确度、召回率和F1值分别提升了4.5%、4.3%和4.4%,表明本文模型的性能具有明显的优势。此外,AMCN-DSN在3个任务上的整体迁移效果最好,F1值仅下降了8.2%。Res-CapsNet次之,下降了9.2%,F1值在其余6个对比模型中的下降幅度均值为11.2%。在意图识别任务中,AMCN-DSN基于涵盖领域宽泛、数据量较少的源域数据,较好地完成了对不同意图的大样本目标域数据的识别,说明本文模型在解决迁移学习中的小数据问题和个性化问题上取得了一定的进展。3)消融实验分析。为了验证本文模型对领域分离网络改进的有效性,将融合多头注意力机制的胶囊网络、多头自注意力机制和动态对抗因子作为实验的消融变量,设置了AMCN-DSN模型的三种变体,分别为:AMCN-DSN(-):从AMCN-DSN中取消共享解码器中的动态对抗因子,保留其余优化部分。AMCN-DSN(-MSHA):从AMCN-DSN中取消分类器中的多头自注意力机制,保留其余优化部分。AMCN-DSN(-MSHA、-):在AMCN-DSN中仅保留融合多头注意力机制的胶囊网络,取消其余优化部分。DSN、AMCN-DSN的变体及AMCN-DSN分别在情感分析和意图识别的迁移学习任务上进行验证,消融实验结果如表4所示。在情感分析任务中,仅对DSN中的特征提取部分做优化,AMCN-DSN(-MSHA、-)在目标域上的F1值就比原始模型提升了2.56%;在意图识别任务中,则平均提升了6.84%。图 4 还展示了其他构件不变,不同迭代次数下,使用MHAC替换CNN进行特征提取后的改进效果。意图识别任务中,AMCN-DSN(-MSHA、-)在源域上的准确率(Accuracy,ACC)值 始 终 明 显 高 于 DSN。情 感 分 析 任 务 中,AMCN-DSN(-MSHA、-)的信息提取效果总体上也优于DSN,表明MHAC可明显提升深层特征提取效果,增强模型的迁移学习能力。在此基础上,AMCN-DSN(-)和AMCN-DSN(-MSHA)的精确度、召回率和 F1值在两类任务中继续有不同程度的提升。图5为其他构成部分相同的情况下,重构损失函数优化前后的loss-epoch曲线。使用动态对抗因子对重构损失函数优化后,模型明显收敛得更快,而且鲁棒性更强。可见动态对抗因子在解码器中能够有效地衡量源域与目标域信息之间的相对重要性,提高计算效率和模型性能。以情感分析任务中的一条评论文本为例,图6中的热力图展示了在分类器中融入多头自注意力机制后,模型对评论文本关注度的变化。相较于DSN和AMCN-DSN(-MSHA),多头自注意力机制的引入减弱了模型对“优势”的关注度,提升表3迁移学习模型在意图识别上的性能对比Tab.3Performance comparison of transfer learning models in intent recognition模型DCGAN23DANN12DANN+CapsNet4ADDA14Res-CapsNet24DAAN15ADSA17AMCN-DSN源域数据集F10.746 30.791 00.823 10.802 50.815 80.821 40.771 90.843 9目标域数据集P0.658 70.702 70.742 60.712 20.740 90.735 90.673 30.775 8R0.651 40.706 90.741 10.701 60.740 30.733 20.691 40.773 3F10.655 00.704 80.741 80.706 90.740 60.734 50.682 20.774 5表2迁移学习模型在情感分析上的性能对比Tab.2Performance comparison of transfer learning models in sentiment analys

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开