分享
融合多网络特征提取的命名实体识别方法_王舸.pdf
下载文档

ID:2582193

大小:1.77MB

页数:3页

格式:PDF

时间:2023-08-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合 网络 特征 提取 命名 实体 识别 方法 王舸
2023.6电脑编程技巧与维护Input层BERT层BiLSTM层IDCNN层多头注意力机制CRF层B-DISMulti_Head AttentionIDCNN BLOCK_4IDCNN BLOCK_3IDCNN BLOCK_2IDCNN BLOCK_1LSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMT1T2TNTrmTrmTrmTrmTrmTrmE1E2ENw1w2w3wn-1wnCRFOOI-DISI-DIS1概述随着计算机技术的发展,医疗领域信息化日趋完善,海量的电子病历作为医疗信息的重要载体,蕴含大量重要的实体,通过命名实体识别技术从医疗文本中识别出特定的医疗实体对医学病理的研究具有重要的应用意义。因此,以BERT-BiLSTM-CRF为基线模型,结合多 头 注 意 力 机 制 提 出 融 合 多 网 络 进 行 特 征 提 取 的BBIMC实体识别模型。2相关工作命名实体识别按照技术发展阶段可分为3类。(1)基于词典和规则的方法。这是命名实体识别最初使用的方法,相关专家根据文本人工构建出对应的词典或规则模板,再通过字符串匹配的方式进行实体识别。(2)基于统计机器学习的方法。传统机器学习方法仍然需要人工选取特征,并且对特征选取的要求较高,主要包括隐马尔可夫模型(HMM)、支持向量机(SVM)、条件随机场(CRF)1、最大熵马尔可夫模型(MEMM)等。(3)基于深度学习的方法。近年来,基于深度学习的NER模型已经成为主流。COLLOBERT2等人首次提出基于神经网络的模型CNN-CRF来进行命名实体识别,实验表明该模型优于之前最好的统计机器学习模型;LAMPLE3等人提出NER的经典模型BiLSTM-CRF,在数据集CoNLL上获得了不错的结果;近期研究大多结合BERT进行语言预训练或引入注意力机制等来提高模型的准确率。为解决BiLSTM模型无法充分利用硬件设备的问题,STRUBELL等人4提出使用迭代膨胀卷积神经网络;李妮等人5提出用BERT训练词向量并结合IDCNN-CRF模型对中文实体进行识别,在保持性能的同时减少了训练时间;蒋翔等人6提出基于字嵌入的BiLSTM-IDCNN-CRF模型,给中文实体识别提供了新的思路。3BBIMC 模型设计3.1模型介绍为了弥补基线模型的不足,提出的BBIMC模型主要分为以下几个部分:(1)使用预训练模型BERT训练词向量。(2)将BiLSTM层和IDCNN层相结合获取不同粒度的特征,将文本序列的全局特征和实体附近的局部特征有效融合。(3)使用多头注意力机制使模型聚焦于与实体词相关的字符特征上。(4)利用CRF层实现最优序列标注。BBIMC模型结构如图1所示。3.2BERT 层在自然语言处理领域,使用较多的词向量模型是融合多网络特征提取的命名实体识别方法王舸(东北大学理学院,沈阳110819)摘要:在中文命名实体识别任务中,虽然经典模型 BERT-BiLSTM-CRF 取得了不错的效果,编码层BiLSTM 可以有效地提取到文本的全局特征,但在建模时无法兼顾到局部空间特征。针对此问题提出了改进的 BBIMC 模型,采用将 BiLSTM 网络和 IDCNN 网络相结合的方式对特征提取层进行改进,并引入多头注意力机制加强模型聚焦于关键信息特征的能力,进一步提升了模型的性能。使用预训练语言模型BERT 得到动态语义向量,将动态语义向量通过 BiLSTM 编码得到文本序列的上下文特征;通过 IDCNN融入实体附近的局部空间特征,并引入多头注意力机制获取词语间潜在的关联,使模型更加关注与实体相关的字符;结合 CRF 进行实体标签的最优序列标注。采用中文社区问答 cMedQANER 数据集进行实验,实验结果表明,改进后的模型可以捕获更丰富的语义特征,提升了模型识别实体的能力。关键词:命名实体识别;长短期记忆网络;膨胀卷积神经网络;多头注意力机制图1BBIMC模型结构图53DOI:10.16184/prg.2023.06.0122023.6电脑编程技巧与维护InputTokenEmbeddingsSegmentEmbeddingsPositionEmbeddingsCLS胃疼出血SEPSEPE0E1E2E3E4E5E6EAEAEAEAEBEBEBECLSE胃E疼ESEPE出E血ESEPWord2Vec,后续又提出ELMO、GPT等,但传统的词向量训练模型存在静态词语表征能力差等问题,在此选用内部采用双层双向Transformer结构的BERT代替传统的词向量表示方法,来融合每个单词的上下文语义知识,得到同一单词在不同上下文中的不同的词向量表示。BERT提出了两个无监督预训练任务:Mask语言模型(Mask LM)和下一句预测(NSP)两个任务分别捕获词特征和句子特征,再将结果结合起来。BERT的输入拼接了词向量(Token Embedding)、段向量(SegmentEmbedding)、位置向量(Position Embedding)3个部分,同时用CLS标记句子的开头,用SEP将两个句子分隔,以便生成深层的语义特征。BERT模型的输入结构如图2所示。3.3BiLSTM 层循环神经网络(RNN)是一种处理序列数据的神经网络,长短期记忆网络(LSTM)便是一种改进的RNN,通过门控机制来去除或者增加“细胞状态”的信息,同时引入遗忘门、输入门和输出门实现了重要特征的保留,缓解长序列训练过程中的梯度消失和爆炸问题,定义其整体流程的计算公式如公式(1)公式(6)所示:ft=Wfht-1,xt+bf(1)it=Wiht-1,xt+bi(2)C?t=tanhWCht-1,xt+bC(3)Ct=Ct-1ft+itC?t(4)ot=Woht-1,xt+bo(5)ht=ottanhCt(6)其中,为Sigmoid函数;ft、it、C?t、Ct、ot、ht、xt分别为t时刻的遗忘门、输出门、记忆细胞、输出门、输入的中间状态、状态向量、输入向量;b为偏置向量;W为对应的权重矩阵。但单向的LSTM网络只能利用之前的信息不断更新当前状态,因此选择双向LSTM组成的BiLSTM模型提取当前文本的上下文信息,从而充分获取到整个序列的信息,得到更具全局性的语义嵌入表示。3.4IDCNN 层传统的CNN为了增大感受野的面积,需要增加卷积层数,而网络越来越深,也会增加模型参数,从而容易导致过拟合。而Fisher Yu等人提出的膨胀卷积神经网络引入了空洞率这一参数,该方法在不增加模型参数并保持模型速度的前提下可获得更大的感受野,兼顾局部特征,膨胀卷积的示意图,如图3所示。在此采用的IDCNN网络是由3个大小相同且卷积层的膨胀宽度设置为1、1、2的膨胀卷积块堆叠而成的。3.5多头注意力机制(MHA)注意力机制被广泛应用在人工智能的各领域,它可以使模型倾向于关注到辅助判断的关键特征,同时自动忽略编码信息中不相关的信息,以此提升模型对重要特征的捕获能力。在此引入的多头注意力机制,相比于单一注意力机制更全面、更有层次,通过Q、K、V的各维度多次进行线性变换,学习到多种映射器,使模型可以从多个角度学习语义表征,得到更佳的效果。3.6CRF 层在命名实体识别任务中,相邻的标签之间通常具有依赖关系,若根据注意力层的输出直接进行序列标注,没有CRF进行条件约束限制两个标签之间的依赖关系,则会出现很多相邻标签不合理的情况。因此需要CRF对整个句子的输出进行联合建模,利用动态规划Viterbi算法寻找最优路径得到最优的标签序列。即给定一个句子X=x1,x2,xn,提取特征得到输出矩阵P=P1,P2,Pn,对于一个预测的标签序列Y=y1,y2,yn,定义它的分数函数公式为(7)其中,Pi,yi为该字符被预测为第yi个标签的得分,Ayi-1,yi为从标签yi-1转移到标签yi的得分。再使用维特比算法计算出所有可能标签的得分,选择分数最高的标注序列输出。4实验与结果分析4.1数据集介绍使用cMedQANER数据集共包括疾病(DISEASE)、人群(CROWD)、科室(DEPARTMENT)等11种医学命名实体,标注形式为BIO格式。4.2实验参数设置与评价指标在实验过程中不断对模型参数进行调优,其中模型图2BERT模型的输入结果图3膨胀卷积示意图542023.6电脑编程技巧与维护词嵌入层使用768维的词向量,文本最大长度设置为128,batch_size设置为16,模型训练优化器使用Adam优化器,训练过程中采用了提前停止的策略,epoch设置为64。采用P、R、F1值这3个指标来评估模型效果,各指标计算公式如公式(8)公式(10)所示:Precision=TPTP+FP100%(8)Recall=TPTP+FN100%(9)F1=2PrecisionRecallPrecision+Recall(10)4.3实验结果与分析在数据集上进行不同模型的实验,依据评价指标对模型效果进行比较,不同模型在数据集上的效果如表1所示。从表1可以看出,将BiLSTM和IDCNN模型相结合进行特征提取,相比于使用单一网络BiLSTM进行实体识别,其F1值有所提高,这说明改进模型时,在特征提取层可以考虑到实体分布密度的情况,有效地将实体附近的局部信息特征融入所得到的全局信息,进而提升实体识别的性能。而构建多头注意力机制的BBIMC模型的3个指标又有进一步的提升,其中P、R和F1值提高到86.58%、86.22%和86.40%,由此可看出多头注意力机制可以调整上下文词汇的权重分配,使模型具有层次的关注与实体相关的字符特征,实现语义增强。综上所述,使用针对基线模型提出的BBIMC模型进行实体识别的效果更佳。5结语针对BiLSTM单一神经网络提取特征时无法兼顾局部特征的问题,提出BBIMC命名实体识别模型。该模型以BERT训练的嵌入为输入,通过引入IDCNN将局部特征融入BiLSTM编码序列,再添加多头注意力机制进一步筛选关键信息,最后将得到的输出向量送入CRF解码出最优标签序列。实验表明,在此提出的BBIMC模型获得了一定程度的性能提升,对于中文命名实体识别的研究具有重要的意义。参考文献1ZHENG Q S,LIU S X.Research of web text named en-tity recognition based on CRF J.Journal of ZhongyuanUniversity of Technology,2016,27(1):70-73.2COLLOBERT R,WESTON J.A unified architecture fornatural language processing:Deep neural networks withmultitask learning C.International conference on Ma-chine Learning,2008:160-167.3LAMPLE G,BALLESTEROS M,SUBRAMANIAN S,et al.Neural architectures for named entity recognitionC.NorthAmericanChapteroftheAssociationfor Com-putational Linguistics,2016:387-396.4STRUBELL E,VERGA P,BELANGER D,et al.Fast andaccurate entity recognition with iterated dilated convo-lutions C.Proceedings of the Association for Com-putational Linguistics,2017:465-478.5STRUBELL E,VERGA P,BELANGER D,et al.Fastand accurate entity recognition with iterated dilatedconvolutio

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开