温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
任务
学习
多模态
命名
实体
识别
方法
李晓腾
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程基于多任务学习的多模态命名实体识别方法李晓腾1,张盼盼1,勾智楠2,高凯1(1.河北科技大学 信息科学与工程学院,石家庄 050018;2.河北经贸大学 信息技术学院,石家庄 050061)摘要:针对传统多模态命名实体识别方法无法有效融合图文模态信息且不能区分易混淆实体等问题,提出一种基于多任务学习的多模态命名实体识别方法,通过对比融合辅助任务促进图文模态信息的融合,通过实体聚类辅助任务提升模型对易混淆实体的判断能力。利用 BERT 预训练语言模型和 ResNet模型分别对原始文本和图片进行特征映射获得相应的特征向量,并利用跨模态 Transformer结构融合图文模态信息。在多模态命名实体识别任务基础上,增加对比融合辅助任务促进图文模态信息融合,增加实体聚类辅助任务学习实体类别之间的差异,提升模型对易混淆实体的区分能力。最后,利用条件随机场层学习上下文转移概率,并输出最优预测结果。实验结果显示,在国际公开数据集 Twitter-2017上,所提方法相较于基线方法取得了更高的准确率、召回率和 F1值,其中 F1值可达 85.59%,表明对比融合辅助任务和实体聚类辅助任务能够促进模型对实体的识别效果。关键词:命名实体识别;多任务学习;多模态信息;对比学习;聚类开放科学(资源服务)标志码(OSID):中文引用格式:李晓腾,张盼盼,勾智楠,等.基于多任务学习的多模态命名实体识别方法 J.计算机工程,2023,49(4):114-119.英文引用格式:LI X T,ZHANG P P,GOU Z N,et al.Multi-modal named entity recognition method based on multi-task learning J.Computer Engineering,2023,49(4):114-119.Multi-Modal Named Entity Recognition Method Based on Multi-Task LearningLI Xiaoteng1,ZHANG Panpan1,GOU Zhinan2,GAO Kai1(1.School of Information Science and Engineering,Hebei University of Science and Technology,Shijiazhuang 050018,China;2.School of Information Technology,Hebei University of Economics and Business,Shijiazhuang 050061,China)【Abstract】With the aim of overcoming the ineffectiveness of traditional multi-modal Named Entity Recognition(NER)methods in integrating text and image modal information and distinguishing confusable entities,a multi-modal NER method based on multi-task learning is proposed.Here,the fusion of modal information is promoted by a contrast fusion auxiliary task,and the ability to differentiate confusable entities is improved by an entity clustering auxiliary task.First,BERT pre-trained language modal and ResNet model are used to obtain feature vectors,and a cross-modal Transformer is used to fuse text and image modal information.Second,based on the multi-modal NER task,a contrast fusion auxiliary task is added to promote the fusion of image and text modal information.An entity clustering auxiliary task is added to learn the differences between entity categories and improve the ability of the model to distinguish easily confusable entities.Finally,a Conditional Random Field(CRF)layer is used to learn the context transition probability and output optimal prediction results.Experimental results show that,on the international open dataset Twitter-2017,the proposed method achieved higher accuracies,recall rates,and F1-scores than baseline methods,with an F1-score of up to 85.59%being attained.The results show that the added contrast fusion and entity clustering auxiliary tasks improve the recognition effectiveness of the model.【Key words】Named Entity Recognition(NER);multi-task learning;multi-modal information;contrastive learning;clusteringDOI:10.19678/j.issn.1000-3428.0064087基金项目:河北省自然科学基金面上项目(F2022208006);河北省高等学校科学技术研究项目(QN2020198)。作者简介:李晓腾(1994),男,硕士研究生,主研方向为自然语言处理;张盼盼,硕士研究生;勾智楠,讲师、博士;高 凯(通信作者),教授。收稿日期:2022-03-03 修回日期:2022-05-22 Email:人工智能与模式识别文章编号:1000-3428(2023)04-0114-06 文献标志码:A 中图分类号:TP18第 49卷 第 4期李晓腾,张盼盼,勾智楠,等:基于多任务学习的多模态命名实体识别方法0概述 命名实体识别(Named Entity Recognition,NER)是指抽取文本序列中的“人名”、“地名”、“机构名”等实体,是一项重要的自然语言处理任务。命名实体识别任务广泛应用于其他自然语言处理任务,如信息 抽 取、信 息 检 索、问 答 系 统 以 及 构 建 知 识 图 谱等1。随着社交媒体网络的快速发展,大量的多模态社交网络数据亟待处理。多模态命名实体识别任务需要在一段文本序列及对应的图片中,判断出文本序列中的实体,并对这些实体分类。MOON 等2使用双向长短时记忆网络(Bi-directional Long-Short Term Memory,Bi-LSTM)和条件随机场(Conditional Random Field,CRF)为基础模型结构,CNN 模块抽取图像特征,并利用注意力机制为各类特征计算权重。ZHANG 等3以 Bi-LSTM+CRF 为基本框架,使用 VGGNET-16抽取图片特征,并通过互注意力层计算融合权重,融合特征通过 CRF获取预测结果。LU等4以 Bi-LSTM+CRF 为 基 础 模 型 框 架,使 用ResNet5抽取图片特征,利用文本特征作为查询向量计算得到相关度高的图片特征,并利用门控机制融合图片特征和文本特征。YU 等6利用 ResNet抽取图片特征,通过预训练模型 BERT7获取文本特征表示,利用跨模态 Transformer 结构来融合图文 2 种模态信息。多任务学习广泛应用于图像和自然语言处理任务中8-9。CLARK 等10利用多任务学习来训练自然语言理解任务,WANG 等11则将多任务学习应用于生物命名实体识别任务。多任务学习指多个相关任务联合训练,通过共享任务间信息,帮助主任务学习12。在多任务学习中,参数共享方式有硬共享、软共享等13-14。多任务学习在命名实体识别任务中同样有广泛应用,REI 等15提出利用无监督辅助任务来帮助网络模型去学习深层的文本语义、语法信息。LIN 等16提出一种跨语言多任务学习方法来缓解特定 NER领域语料不足的问题。虽然多模态命名实体识别任务中已有许多优秀的工作,但是仍然存在以下亟待解决的问题:如何有效融合图文 2 种模态信息,以及如何高效区分易混淆实体。为了解决上述问题,本文提出基于多任务的多模态命名实体识别(Multi-Task Learning Multi-Modal Named Entity Recognition,MLMNER)算法。首先,提出对比融合辅助任务来进一步促进图文2 种模态信息的融合。对比融合辅助任务旨在拉近同一对样本中图文特征表示在投影空间的距离,以此来保证融合后的图文特征具有较强的相关性,进而提升多模态信息的融合效果;然后,提出实体聚类辅助任务来学习实体之间类别的差异。实体聚类辅助任务旨在学习实体类别之间的差异,进一步帮助命名实体识别任务学习更好的特征表示,从而提升实体识别效果。1联合实体边界检测的命名实体识别模型 1.1模型结构本文方法模型结构如图 1 所示,模型整体从左向右分为 3 个子模块:第 1 部分为表示嵌入模块,通过 BERT 和 ResNet将原始文本和图片映射为特征向量;第 2 部 分 为 特 征 融 合 模 块,利 用 跨 模 态Transformer结构融合图文 2种模态信息;第 3部分是多任务学习模块,包含 4个任务。1.1.1表示嵌入表示嵌入包含文本嵌入和图像嵌入 2个部分:1)文本嵌入:如图 1 表示嵌入层所示,将 BERT模型作为文本编码器。对于输入长度为 n的文本 S,本文定义S=(s0,s1,sn+1)为 BERT编码器的输入,s0和sn+1分别代表文本开始字符 CLS 和结束字符SEP。si由 token 嵌入、segment嵌入、position 嵌入构成。X=(x0,x1,xn+1)为 BERT 编码层的输出,图 1MLMNER模型结构Fig.1MLMNER model architecture1152023年 4月 15日Computer Engineering 计算机工程xi Rd是si的词特征向量,d是特征维度。2)图片嵌入:如图 1表示嵌入层所示,ResNet用来抽取图像特征。I 是文本对应的图片,I 经 ResNet网络得到的最终特征向量表示为I=(i1,i2,i49),ii R2 048。为了方便后续做模态交互,通过线性层来调 整 图 片 向 量 的 维 度,V为 图 片 嵌 入 输 出,V=(v1,v2,v49),vi Rd,d是特征维度。1.1.2特征融合为丰富文本序列每个词的上下文信息,X经过一层标准 Transformer层17来捕获上下文信息,得到新的表示R=(r0,r1,rn+1),ri Rd,