分享
基于自注意力机制模拟实体信息的实体关系抽取_何松泽.pdf
下载文档

ID:2258617

大小:1.06MB

页数:7页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 注意力 机制 模拟 实体 信息 关系 抽取
基于自注意力机制模拟实体信息的实体关系抽取何松泽,王婷,梁佳莹,陈永雄,戴青江(成都信息工程大学计算机学院,成都610225)通信作者:王婷,E-mail:摘要:在信息抽取领域,从非结构化文本中抽取实体关系是一项基础且重要的任务,且面临实体重叠和模型误差累积等挑战.本文以关系为导向,提出一种改进的实体关系联合抽取方法.该方法将实体关系抽取任务分为关系抽取与实体抽取两个子任务.在关系抽取任务上采用自注意力机制关注词与词之间的重要程度从而模拟实体信息,并使用平均池化来表征整个句子信息;在实体抽取任务上结合关系信息使用条件随机场识别该关系下的实体对.本模型不仅能够利用存在关系必定存在实体对的思想解决实体对重叠问题,还能够在训练过程中利用数据集中已知的关系使实体抽取模块不依赖于关系抽取模块的结果来训练,从而在训练阶段避免误差累积.最后,在 WebNLG 和NYT 公开数据集上验证了该模型的有效性.关键词:信息抽取;深度学习;注意力机制;自然语言处理;人工智能引用格式:何松泽,王婷,梁佳莹,陈永雄,戴青江.基于自注意力机制模拟实体信息的实体关系抽取.计算机系统应用,2023,32(2):364370.http:/www.c-s- Relation Extraction Simulation of Entity Information Based on Self-attention MechanismHESong-Ze,WANGTing,LIANGJia-Ying,CHENYong-Xiong,DAIQing-Jiang(SchoolofComputerScience,ChengduUniversityofInformationTechnology,Chengdu610225,China)Abstract:Inthefieldofinformationextraction,itisabasicandimportanttasktoextractentityrelationsfromunstructuredtexts,andchallengessuchasentityoverlapandmodelerroraccumulationoftenappear.Thisstudyisrelation-oriented,anditproposesanimprovedjointextractionmethodforentityrelations.Themethoddividestheentityrelationextractiontaskintotwosubtasks:relationextractionandentityextraction.Fortherelationextractionsubtask,aself-attentionmechanismisadoptedtoevaluatethedegreeofassociationbetweenwords,soastosimulateentityinformationandrepresentthewholesentenceinformationbytheaveragepooling.Fortheentityextractionsubtask,accordingtorelationinformation,theconditionalrandomfieldisusedtoidentifytheentitypairsundertherelation.Thismethodcannotonlysolvetheproblemofentityoverlapbyusingtheideathatrelationandentitypairscoexistbutalsoperformtrainingbyusingtheknownrelationinthedatasettomaketheentityextractionmoduleindependentfromtheresultsoftherelationextractionmoduleduringthetraining,soastoavoiderroraccumulation.Finally,theeffectivenessofthemodelisverifiedonthepublicdatasetsofWebNLGandNYT.Key words:informationextraction;deeplearning;attentionmechanism;naturallanguageprocessing(NLP);artificialintelligence计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(2):364370doi:10.15888/ki.csa.008963http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:四川省科技厅重点研发项目(2021YFG0031,2022YFG0375);四川省科技服务业示范项目(2021GFW130);2022 年度大学生创业训练计划(202210621196,202210621073k)收稿时间:2022-06-30;修改时间:2022-07-29;采用时间:2022-09-07;csa 在线出版时间:2022-11-14CNKI 网络首发时间:2022-11-15364研究开发ResearchandDevelopment实体关系抽取是指从非结构化文本中抽取形式如头实体,关系和尾实体的三元组的信息.它是知识图谱及一些下游工作的基础.目前该任务主要存在着 3 种类型的实体重叠问题,分别是:单个实体重叠(singleentiyoverlap,SEO)、实体对重叠(entitypairoverlap,EPO)以及无实体重叠(normal).单个实体重叠是指一个实体与其他多个实体存在关系;实体对重叠是指一个实体对存在多种关系;无实体重叠是指一个实体与另一个实体之间有且仅有一个关系,并且另一个实体也是唯一的.目前来说,三元组抽取方法大体分为管道(pipeline)和联合(joint)两种方式.管道方法主要采用先抽取实体,再抽取关系的方式来进行实体关系抽取.早期,该类方法主要采用卷积神经网络(convolutionalneuralnetwork,CNN)1进行实体关系抽取,其将无监督的词向量以及位置向量作为输入特征来进行实体关系抽取并取得了一定效果,但存在卷积核大小固定,抽取到的特征单一的缺点.Shen 等人2将注意力机制方法引入到 CNN 模型中进行关系抽取,充分利用了位置等信息从而提升了模型效果.在这之后,基于循环神经网络的方法也逐渐被应用到这个任务上,并能够很好地解决文本长依赖问题.Qin 等人3使用了引入注意力机制的双向循环门控单元,能够捕获更有价值的字符级信息.Xu 等人4提出了基于最短依存路径的长短时记忆网络对文本进行关系分类,能够收集该最短路径上的异构信息.采用管道方式纵然能够取得一定的实体关系抽取效果,但结构上不可避免地存在误差累积的问题.采用联合抽取的方式将实体识别与关系抽取任务进行联合建模,同时完成实体和关系的抽取,可以在一定程度上避免这种误差累积问题.在早期尝试中,Miwa 等人5提出了一种树形结构来提取实体及实体关系.其主要利用了词序信息以及依存树结构信息,将长短时记忆模型转换为树形结构来进行建模.但该方式并不是完全同步,实体与关系的抽取还是存在先后性.而 Zheng 等人6将该问题转换为一个序列标注问题,利用长短时记忆网络就可以建模,大大简化了问题的复杂性.但是该模型缺点也十分明显,以该方式进行实体关系抽取难以解决实体重叠问题.Bekoulis等人7在此基础上引入了多头注意力机制对该问题进行建模,从而部分解决实体关系重叠问题.Wei 等人8提出了CasRel 方法,该方法通过共享参数将三元组抽取任务视为一个多任务学习.其将该任务建模成 3 个级别问题,从而更有效的解决实体重叠问题,但存在曝光偏差问题,即训练阶段同时训练,而在预测时则按照一定的顺序进行依次抽取.TPLinker9则是基于握手标注策略的端到端序列标注模型,巧妙地将联合抽取转化为tokenpair 的链接问题,避免了曝光偏差问题.上述所采取的模型方法中,主要存在着模型结构复杂、需特殊的标注方法、需精心设计抽取次序等抽取设计问题,以及实体重叠和误差累积问题.在本文中,我们对这些问题进行实验探究,提出以关系为导向的一种无复杂设计结构、无特殊标注方法且简单有效的实体关系联合抽取方法,该方法针对上述问题主要贡献如下.(1)所提出的方法在解决实体对重叠问题上效果较好,能够在关系数较多样本量较少的情况下,保持较好的表现.(2)本文提出在没有获得实体前,通过采用自注意力机制关注字符(词)信息生成模拟实体信息,进而抽取实体关系的方法,该模型有效的提升三元组抽取效果.(3)在保证三元组抽取效果的前提下,本文极大地简化了抽取模型,无复杂设计部分与较为特殊的训练方式,易于理解.1相关工作对于两种抽取方法(管道式与联合)又可以分别细分为以关系为导向(先关系后实体)和以实体信息为导向(先实体后关系).这里主要介绍采用以关系为导向的处理流程来进行实体关系联合抽取.例如:CopyRE10与 HRL11均是在预测阶段先抽取关系再抽取实体方法.不同的是,CopyRE 是以一种复制机制来抽取三元组信息方法,但其只能复制实体的最后一个单词.而HRL 则应用了一种分层强化学习的方式来抽取三元组的信息.RSAN12则提出了一种基于关系注意力机制的方法来进行实体关系三元组的抽取.该方法利用注意力机制为每个关系构建特定的句子表征,并据此抽取特定关系下的实体信息.然而,上述以关系为导向的实体关系联合抽取法所采取的方式都较为复杂,忽略了一些简单却有效的方法和理论研究.例如,Yu 等人13使用双仿射注意力机制能够让实体首尾边界进行交互,从而达到提升实体抽取效果;Wu 等人14通过提取实体的字符向量与句子语义信息从而获得较为全面的信息来提升关系抽取效果;Peng 等人15对实体信息与上下文信息对关系抽取影响进行了深入研究,发现实体信息对于关系抽取的效果有重要的影响.本文对上述方法进行简化和改进,将有效的方法与研究保留(如:RSAN 模型中利用平均池化方法提取2023年第32卷第2期http:/www.c-s-计 算 机 系 统 应 用ResearchandDevelopment研究开发365整个句子信息,引入实体信息思想等),构建了有效且简单的实体关系三元组的联合抽取模型,该模型不仅保留了上述方法的优点,还有效地提取存在实体重叠问题的文本中的三元组.2模型概述依据所划分的两个任务,本文所提出的方法分为两个模块:关系抽取模块与实体抽取模块,如图 1所示.BERT编码器Layer 12Layer 1平均池化输出平均池化+CRF+关系嵌入WqueryWkeyWvalueQKV)dkKTQSoftmax(Softmax()VdkKTQ中国的首都是北京MLPMLP中国北京包含实体抽取CRFMLP关系抽取 图 1模型整体结构Yenc(s)=h1,h2,hn|hi Rd1dn从模型整体上来说,如图 1 所示,对于一个给定的句子,首先将该句子输入进编码器获取到由每个词所对应的词向量,这里使用 BERT 预训练模型作为共享编码器得到编码输出,其中 为向量维度,为句子的单词个数.例如,输入“中国的首都是北京”,就会将其转换为行数为 8 列数为768 的词向量矩阵.接着将由这些词向量所组成的矩阵输入到关系抽取模块中,在关系抽取模块中,我们认为每个词都可能蕴含实体信息,由此如果需要知道在某个关系下的实体信息,就是要知道词与词之间的重要性,因为一个关系存在则必定能对应一组实体对,那么在该关系下这组实体对之间关联程度,应当大于与其他实体的关联程度.为了获得这

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开