温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
知识
架构
持续
学习
情感
分类
方法
王松
第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于知识架构的持续学习情感分类方法王松1,买日旦吾守尔1,古兰拜尔吐尔洪1,薛源1,2(1.新疆大学 信息科学与工程学院,乌鲁木齐 830046;2.清华大学 电子工程系,北京 100084)摘要:当情感分类模型依次学习多个领域的情感分类任务时,从新任务中学到的参数会直接修改模型原有参数,由于缺少对原有参数的保护机制,降低了模型在旧任务上的分类准确率。为缓解灾难遗忘现象对模型性能的影响,并增加任务间的知识迁移,提出一种用于中文情感分类的基于知识架构的持续学习方法。在 Transformer编码层中,采用任务自注意力机制为每个任务单独设置注意力变换矩阵,通过区分任务特有的注意力参数实现知识保留。在 TextCNN的全连接层中,利用任务门控注意力(HAT)机制控制每个神经元的开闭,为每个任务训练特定的网络结构,仅激活对任务重要的神经元加强知识挖掘,提升分类效率与准确率。在 JD21中文数据集上的实验结果表明,该方法的 Last ACC和负类 F1值相比于基于 HAT的持续学习方法分别提升了 0.37和 0.09个百分点,具有更高的分类准确率,并且有效缓解了灾难遗忘现象。关键词:持续学习;知识架构;情感分类;知识保留网络;知识挖掘网络开放科学(资源服务)标志码(OSID):中文引用格式:王松,买日旦吾守尔,古兰拜尔吐尔洪,等.基于知识架构的持续学习情感分类方法 J.计算机工程,2023,49(2):112-118.英文引用格式:WANG S,Mairidan Wushouer,Gulanbaier Tuerhong,et al.Continual learning method for sentiment classification based on knowledge architecture J.Computer Engineering,2023,49(2):112-118.Continual Learning Method for Sentiment Classification Based on Knowledge ArchitectureWANG Song1,Mairidan Wushouer1,Gulanbaier Tuerhong1,XUE Yuan1,2(1.School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China;2.Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)【Abstract】When a sentiment classification model learns sentiment classification tasks in multiple domains,the parameters learned from new tasks will modify the original parameters of the model.Because a protection mechanism for the original parameters does not exist,the classification accuracy of the model on old tasks is reduced.To alleviate the catastrophic forgetting of the sentiment classification model and increase knowledge transfer between tasks,this study proposes a Continual Learning(CL)method for sentiment classification based on a knowledge architecture.In the Transformer coding layer,the task self-attention mechanism is used to set the attention transformation matrix for each task separately,and knowledge is retained by distinguishing the task specific attention parameters.In the full connection layer of Convolutional Neural Networks for Sentence Classification(TextCNN),the Hard Attention on Task(HAT)mechanism is used to control the opening and closing of each neuron,train a specific network structure for each task,activate only the neurons important to the task to realize knowledge mining,and improve the classification efficiency and accuracy.Experimental results based on the JD21 Chinese dataset show that the Last Accuracy(Last ACC)and F1-scores of Negative classes(F1-NEG)of this method are 0.37 and 0.09 percentage points higher than those of the HAT-based CL method,respectively,which indicates the higher classification accuracy and effectiveness of the proposed method in mitigating catastrophic forgetting.【Key words】Continual Learning(CL);knowledge architecture;sentiment classification;Knowledge Retention Network(KRN);Knowledge Mining Network(KMN)DOI:10.19678/j.issn.1000-3428.0063536基金项目:新疆维吾尔自治区自然科学基金(2021D01C118);新疆维吾尔自治区高校科研计划项目(XJEDU2018Y005)。作者简介:王 松(1995),男,硕士研究生,主研方向为持续学习、情感分类;买日旦吾守尔(通信作者)、古兰拜尔吐尔洪,副教授、博士;薛 源,硕士研究生。收稿日期:2021-12-15 修回日期:2022-03-03 Email:人工智能与模式识别文章编号:1000-3428(2023)02-0112-07 文献标志码:A 中图分类号:TP183第 49卷 第 2期王松,买日旦吾守尔,古兰拜尔吐尔洪,等:基于知识架构的持续学习情感分类方法0概述 机器学习模型在学习多个任务时通常会出现灾难遗忘现象,灾难遗忘现象是指在新任务中学习的知识会影响模型原有参数,降低模型在旧任务上的性能。因此,模型需要训练完成后才能进行部署应用,然而随着时间的推移,在训练集中未出现的新样本越来越多,导致模型无法正确分类,性能逐渐下降,此时需要在新旧数据集上重新训练模型,但该过程又消耗大量能源、计算资源与人力资源,也给项目管理带来了巨大挑战,更重要的是遵循这种孤立的学习方式,难以使模型将新旧知识融会贯通,实现通用人工智能。为解决上述问题,THRUN1于 1995年提出持续学习(Continual Learning,CL)概念。自提出以来,持续学习已经在计算机视觉(Computer Vision,CV)、自 然 语 言 处 理(Natural Language Processing,NLP)、强化学习等领域得到广泛应用。由于情感分类是 NLP 中的基础任务,因此很多研究围绕情感分类任务开展,主流网络均能应用于该任务并在测试中取得了较好的性能表现2,但在实际应用中效果并不理想,面临知识的保留与迁移、领域适应等难题。CHEN 等3尝试将持续学习与情感分类相结合来解决这些问题,并且之后几年国内外涌现出了一系列相关领域的研究成果。在情感分类和图片分类这两种任务中,对于任务序列中分类任务的定义是不同的,根据任务的定义不同发展出类持续学习(Class Continual Learning,CCL)和 任 务 持 续 学 习(Task Continual Learning,TCL)4-5。类增加学习假设任务序列中每个任务包含不同的类别。系统仅使用一个分类器来学习所有任务,当新的任务到来时,模型需要能够分类迄今为止在训练集中未出现的所有样本。任务增加学习假设任务序列中的每一个任务都是独立的分类任务。这些分类任务的类别可以是相同的也可以是不同的,每一个任务都有对应的分类器,在测试时测试样本包含任务序列的标识,以帮助模型使用对应的分类器对其进行分类。因为分类器的设置不同,所以进一步产生了研究目标的差异。CCL研究在分类器上不断增加新的类别,因此侧重减轻学习过程中的灾难遗忘。TCL 为每个任务训练独立的分类器,因此侧重分类器的知识积累与分类器之间的知识迁移。根据持续学习在计算机视觉和自然语言处理领域现有的研究成果,将其主要分为基于样本重复、基于正则化、基于动态网络结构和基于知识架构 4 类持续学习方法2,6-7。基于样本重复的持续学习方法在学习过程中会存储旧任务的部分样本或者关于样本的信息,在学习新任务时进行重复学习。该类方法根据任务样本如何产生又可分为两类:第一类将任务样本直接存储以备后用;第二类利用任务样本训练生成模型,在需要样本时利用生成模型输出伪样本。iCaRL8直接保存代表性样本,并在学习新任务时将这些样本进行重复学习。GEM9使用存储的样本来限制新模型中梯度更新的方向。MBPA+10存储所有训练样本,并在推理时寻找 N 个最相似的样本重新微调模型。DGR11和 LAMOL12都使用旧任务数据训练一个生成模型,然后在新任务训练时利用生成模型生成伪样本。基于正则化的持续学习方法会在损失函数中增加额外的正则项,通过限制参数更新的方式在学习新 任 务 的 同 时 保 留 旧 任 务 参 数,代 表 方 法 如EWC13、IMM14、LwF15和 LFL16。EWC 根据损失函数中的 Fisher 信息正则项有选择地更新模型参数,并 使 模 型 倾 向 于 保 留 对 旧 任 务 重 要 的 参 数。IMM 训练新模型并根据不同策略将新旧模型合并。LwF 将新旧模型的 Softmax 层相加取平均值并计算知识蒸馏损失。LFL16将网络最后一层抽取出来,用欧氏距离作为正则项度量特征之间的差别。基于动态网络结构的持续学习方法也被称为参数隔离方法2,因为其目的是根据不同的任务动态调节网络结构,从而实现任务间部分参数的隔离。该 类 方 法 根 据 网 络 规 模 是 否 固 定 分 为 两 类。PathNet17和 任 务 门 控 注 意 力(Hard Attention on Task,HAT)机制18都使用固定的网络规模,并且为每个任务动态地分配部分网络,在学习新任务时,先前任务的参数会被 Mask 屏蔽,其中 PathNet 对参数进行屏蔽,HAT 对神经元进行屏蔽。PN