温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
注意力
机制
特征
融合
中文
命名
实体
识别
廖列法
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程基于注意力机制特征融合的中文命名实体识别廖列法,谢树松(江西理工大学 信息工程学院,江西 赣州 341000)摘要:命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和 BiLSTM 的模型。使用相对位置编码和修改注意力计算公式对 Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用 BiLSTM 捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对 Word2Vec等传统词向量方法无法表示词的多义性问题,使用 RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集 Resume和 Weibo上 F1值分别达到 96.68%和 71.29%,相比 ID-CNN、BiLSTM、CAN-NER等方法,具有较优的识别效果。关键词:注意力机制;Transformer编码器;特征融合;中文命名实体识别;预训练模型开放科学(资源服务)标志码(OSID):中文引用格式:廖列法,谢树松.基于注意力机制特征融合的中文命名实体识别 J.计算机工程,2023,49(4):256-262.英文引用格式:LIAO L F,XIE S S.Chinese named entity recognition based on attention mechanism feature fusion J.Computer Engineering,2023,49(4):256-262.Chinese Named Entity Recognition Based on Attention Mechanism Feature FusionLIAO Liefa,XIE Shusong(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,Jiangxi,China)【Abstract】Named Entity Recognition(NER)is the basis of information extraction and retrieval,knowledge mapping,and other tasks in the field of Natural Language Processing(NLP).In the NER task,the Transformer encoder pays more attention to global semantics and is insensitive to position and direction information,while the Bidirectional Long-Short Term Memory(BiLSTM)network can extract direction information from text but lacks global semantic information.To obtain global semantic and direction information simultaneously,a model of a dynamic fusion of the Transformer encoder and BiLSTM,using an attention mechanism,is proposed.The Transformer encoder is improved by using relative position coding and a modified attention calculation formula.The improved Transformer encoder is used to extract global semantic information,and the BiLSTM is used to capture direction information.Using the attention mechanism,the weight is dynamically adjusted,and the global semantic and direction information are deeply fused to obtain richer context features.By decoding the Conditional Random Field(CRF),the entitys annotation sequence prediction is realized.Furthermore,in view of the inability of Word2Vec and other traditional word vector methods to express the polysemy of words,RoBERTa-wwm pretraining model is used as the embedding layer to provide character-level embedding,obtain more contextual semantic and vocabulary information,and enhance the effect of entity recognition.The experimental results show that the F1 value of the proposed method is 96.68%and 71.29%respectively on the Chinese NER benchmark datasets,Resume and Weibo.Compared with ID-CNN,BiLSTM,CAN-NER,and other methods,the proposed method has a better recognition effect.【Key words】attention mechanism;Transformer encoder;feature fusion;Chinese Named Entity Recognition(NER);pretraining modelDOI:10.19678/j.issn.1000-3428.0064432基金项目:国家自然科学基金(71761018)。作者简介:廖列法(1975),男,教授、博士,主研方向为城市计算、电子商务、个性化推荐、自然语言处理;谢树松,硕士研究生。收稿日期:2022-04-11 修回日期:2022-05-27 Email:开发研究与工程应用文章编号:1000-3428(2023)04-0256-07 文献标志码:A 中图分类号:TP391第 49卷 第 4期廖列法,谢树松:基于注意力机制特征融合的中文命名实体识别0概述 命名实体识别(Named Entity Recognition,NER)是一项旨在文本中确定实体的边界并将实体准确归类的任务。命名实体识别任务是许多自然语言处理(Natural Language Processing,NLP)任务的基础,例如信息抽取、问答、信息检索、知识图谱等,备受研究人员的关注。命名实体(Named Entity,NE)1最早是在第六届信息理解会议上被提出,用于识别文本中人名、地名、组织机构名等。在早期,命名实体识别方法都是基于规则和统计学习构建的。传统方法虽然取得一定的效果,但是存在人工特征构建困难、高度依赖专业领域知识,以及模型难以迁移等问题。随着计算机的计算能力不断提高,基于深度学习的命名实体识别方法已逐步取代传统方法并成为主流。在基于深度学习的命名实体识别方法中,命名实体识别一般被视为序列标注任务,其一般框架2-3分为输入分布式表示、上下文编码器,以及标签解码器三部分。随着自然语言处理技术在中文领域的发展和应用,中文命名实体识别也受到国内外学者的广泛关注。与英文相比,中文词语之间不存在明显的分界,因此,中文命名实体识别更具有挑战性。中文命名实 体 识 别 任 务 首 先 进 行 中 文 分 词(Chinese Word Segmentation,CWS),然后采用词级别的向量表示作为输入。后续的研究表明,相比词级别的向量表示,字符级嵌入具有较优的性能4。这是因为中文分词不可避免地会出现错误,导致实体边界的预测存在问题。因此,使用字符级嵌入作为中文命名实体识别方法的输入成为研究人员的首选。基于字符级嵌入的方法虽然避免了中文分词产生的误差,但是同样会丢失词汇信息。而实体边界一般是词汇的边界,基于字符级嵌入的方法在对实体边界的预测时面临诸多挑战。近年来最流行的BERT(Bidirectional Encoder Representations from Transformer)预训练模型也不能解决该问题。因为BERT 模型是以字符为最小粒度进行切分,而不是词5,所以使用 BERT预训练模型仅能获得字符级嵌入,无法获得中文的词汇信息。而 RoBERTa-wwm模型作为 BERT 的一种改进模型,在中文文本中使用全词遮蔽策略和动态遮蔽策略,以获得一定的词汇信息和更多的语义信息,更适用于中文命名实体识别任务6。在对中文文本进行向量表示的研究取得一定进展的同时,将上下文编码器作为中文命名实体识别的重要 组 成 部 分 也 得 到 快 速 发 展。双 向 长 短 期 记 忆(Bidirectional Long-Short Term Memory,BiLSTM)网络作为中文命名实体识别任务中最常用的上下文编码器,具有较优的序列建模能力,能够充分地利用上下文特征,保留文本的顺序信息。虽然 BiLSTM 使用前向和后向的网络架构,但是仅把前向信息和后向信息拼接起来,对于序列中某个字或词,并没有同时与上下文相联系,缺少全局信息。Transformer网络具有较优的并行能力和全局建模能力,广泛应用在机器翻译、预训练模型等自然语言处理任务上7-8,Transformer架构和注意力机制也开始被应用在命名实体识别任务中9-10。然而,Transformer架构更加关注全局语义,对位置和方向信息不敏感11-12。在命名实体识别任务中,字符之间的相对方向和距离有助于模型识别实体。例如,“在”之 后 的 词 语,往 往 是 地 点 类 别 的 实 体。因 此,对Transformer编码器进一步改进是非常有必要的,使其适用于中文命名实体识别任务。Transformer编码器未能有效区分上下文信息来自上文或者下文。BiLSTM可以区别当前字词的上文和下文,但缺少全局语义信息。因此,本文提出基于注意力机制的特征融合模型 TBAC,结合 Transformer 和BiLSTM优势获取全局语义信息和方向信息。使用注意力机制动态融合Transformer编码器提供的全局信息和BiLSTM捕获的方向信息,提取有效的上下文特征,避免信息冗余。在上下文编码层中同时使用Transformer和 BiLSTM 作为编码器,采用相对位置编码和修改注意力计算公式对 Transformer 编码器进行改进。将RoBE