分享
融合混合嵌入与关系标签嵌入的三元组联合抽取方法_戴剑锋.pdf
下载文档

ID:2582200

大小:1.37MB

页数:13页

格式:PDF

时间:2023-08-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合 混合 嵌入 关系 标签 三元 联合 抽取 方法 剑锋
研究与开发 融合混合嵌入与关系标签嵌入的三元组联合抽取方法 戴剑锋,陈星妤,董黎刚,蒋献(浙江工商大学,浙江 杭州 310018)摘 要:三元组抽取的目的是从非结构化的文本中获取实体与实体间的关系,并应用于下游任务。嵌入机制对三元组抽取模型的性能有很大影响,嵌入向量应包含与关系抽取任务密切相关的丰富语义信息。在中文数据集中,字词之间包含的信息有很大区别,为了改进由分词错误产生的语义信息丢失问题,设计了融合混合嵌入与关系标签嵌入的三元组联合抽取方法(HEPA),提出了采用字嵌入与词嵌入结合的混合嵌入方法,降低由分词错误产生的误差;在实体抽取层中添加关系标签嵌入机制,融合文本与关系标签,利用注意力机制来区分句子中实体与不同关系标签的相关性,由此提高匹配精度;采用指针标注的方法匹配实体,提高了对关系重叠三元组的抽取效果。在公开的 DuIE 数据集上进行了对比实验,相较于表现最好的基线模型(CasRel),HEPA 的 F1 值提升了 2.8%。关键词:三元组抽取;关系嵌入;BERT;注意力机制;指针标注 中图分类号:TP393 文献标志码:A doi:10.11959/j.issn.1000-0801.2023021 A triple joint extraction method combining hybrid embedding and relational label embedding DAI Jianfeng,CHEN Xingyu,DONG Ligang,JIANG Xian Zhejiang Gongshang University,Hangzhou 310018,China Abstract:The purpose of triple extraction is to obtain relationships between entities from unstructured text and apply them to downstream tasks.The embedding mechanism has a great impact on the performance of the triple extraction model,and the embedding vector should contain rich semantic information that is closely related to the relationship extraction task.In Chinese datasets,the information contained between words is very different,and in order to avoid the loss of semantic information problems generated by word separation errors,a triple joint extraction method com-bining hybrid embedding and relational label embedding(HEPA)was designed,and a hybrid embedding means that combines letter embedding and word embedding was proposed to reduce the errors generated by word separation er-rors.A relational embedding mechanism that fuses text and relational labels was added,and an attention mechanism 收稿日期:2022-07-12;修回日期:2023-01-20 通信作者:董黎刚, 基金项目:国家社会科学基金资助项目(No.17BYY090);浙江省重点研发计划项目(No.2017C03058);浙江省“尖兵”“领雁”研发攻关计划项目(No.2023C03202)Foundation Items:The National Social Science Foundation of China(No.17BYY090),Zhejiang Province Key Research and Develop-ment Program(No.2017C03058),Zhejiang Province“Top Soldiers”and“Leading Geese”Project(No.2023C03202)133 电信科学 2023 年第 2 期 was used to distinguish the relevance of entities in a sentence with different relational labels,thus improving the matching accuracy.The method of matching entities with pointer annotation was used,which improved the extraction effect on relational overlapping triples.Comparative experiments are conducted on the publicly available DuIE data-set,and the F1 value of HEPA is improved by 2.8%compared to the best performing baseline model(CasRel).Key words:triple extraction,relational embedding,BERT,attention mechanism,pointer annotation 0 引言 三元组的自动抽取是自然语言处理领域的一个热门研究课题,它能够从非结构化文本中提取结构化信息,并应用于各类下游任务,如知识图谱、智能问答等。三元组可表示为:。现有的三元组抽取方法按照建模类型主要可分为两类:流水线法(pipeline)和联合抽取法(joint)。流水线法将三元组抽取任务分割成两个独立的子任务:命名实体识别(named entities recognition,NER)和关系抽取(relation extraction,RE)。首先进行命名实体识别,提取文本中的实体,然后进行关系抽取,使用分类模型匹配各实体对之间的关系。这种串联模型在建模难度上相对简单,但将命名实体识别和关系抽取视作两个独立的任务处理时,存在实体冗余、误差累计、信息丢失等问题,限制了进一步的研究。为了解决流水线法存在的问题,学者们提出用联合抽取法对三元组进行抽取,同时从输入文本中抽取实体及实体间的对应关系1。与流水线方法相比,联合抽取法整合了实体和关系信息,有效减少了误差传播,取得了更好的效果。目前,大部分三元组抽取研究不能较好地处理重叠三元组问题。在三元组抽取任务中,经常会出现同一句子存在多个三元组共享相同的头实体、关系或尾实体的情况。例如“邓超既是银河补习班这部电影的导演又是主演。”这句话包含、两个三元组,且“银河补习班”和“邓超”两个实体间存在多个关系。学者们将这一类共享实体关系的三元组命名为重叠三元组。重叠三元组按照实体重叠程度可以分为 3 种情况,如图 1 所示,分别为无重叠(normal)、实体对重叠(entity pair overlap,EPO)、单实体重叠(single entity overlap,SEO)。normal 表示 图 1 重叠三元组类型 研究与开发 134 文本中的实体之间只存在一种关系,不存在关系重叠三元组;EPO 表示相同的两个实体之间存在多个实体关系;SEO 表示一个头实体与多个不同的尾实体存在实体关系。在联合抽取模型中,对文本中实体进行识别往往选用序列标注的方法。每个字词都会被标注成特有的序列,例如头实体开始、头实体结束、无关词、关系、尾实体开始、尾实体结束。这种标注方法无法将一个词语同时标注成头实体和尾实体,对重叠三元组问题处理效果较差。流水线抽取模型虽然选用遍历所有提取的实体对的方法来解决重叠三元组的提取问题,但太过依赖命名实体识别的准确性,一旦实体识别出错,误差就会累积到下一个任务中,将引入大量错误、冗余的实体对,导致提取性能显著下降。针对上述问题,本文在联合抽取法的基础上提出一种融合混合嵌入与关系标签嵌入的三元组联合抽取方法(HEPA),融合词句间的文本信息,提高对重叠三元组的抽取精度。本文的主要工作如下:首先针对嵌入方法中忽视字词之间潜在语义关系而导致分词歧义的问题,设计了一种混合嵌入方法,结合字词以及位置信息将输入文本转化为向量,降低由分词错误产生的误差。其次,由于头实体和尾实体间存在位置联系,设计了实体位置注意力机制,赋予实体位置信息权重,从多维度获取文本信息,提高三元组抽取的精度。最后,在 DuIE 数据集上进行了测试,HEPA 相较于其他基线模型在 F1 值上有所提升。1 相关工作 本节主要介绍了三元组抽取中的两种主流方法:流水线法和联合抽取法。1.1 流水线法 流水线法将三元组抽取的过程分为命名实体识别和关系抽取两个子任务,彼此相互独立。首先通过命名实体识别提取出文本中的实体,再通过关系抽取对每个候选实体进行关系预测,最后以三元组的形式输出预测结果。Zeng 等2首次提出使用具有最大池化(max pooling)的卷积深度神经网络(deep neural net-work,DNN)算法提取词语和句子级别的特征,将得到的词向量作为模型的原始输入,通过隐藏层和 softmax 层进行关系分类。该模型提出了位置特征来编码当前词与目标词对的相对距离,同时说明位置特征是比较有效的特征。该方法在SemEval-2010 数据集上达到了最佳效果。Xu 等3在Zeng 等2的研究基础上进行改进,使用最短依存路径长短期记忆(the shortest dependency path long short-term memory,SDP-LSTM)网络进行实体关系抽取,把路径节点表示成向量,将词本身、词性信息、句法依存关系、WordNet 上位词等 4 种词信息看作 4 个通道,输入长短期记忆(long short-term memory,LSTM)网络进行前向传播,每一个通道都有一个输出,将所有输出堆叠处理并进行池化操作,最后对 4 个通道输出的隐向量进行拼凑,通过 softmax 层产生最终输出。在训练过程中发现实体间的距离对关系抽取的效果有较大的影响,于是添加了负实体采样策略消除由依存路径分析引入的噪声影响。Socher 等4针对单个词向量模型无法捕获长句子合成性信息的问题,设计了一种基于矩阵向量循环神经网络(recurrent neural network,RNN)的抽取模型,提高了模型对任意长度的短语和句子词向量共同表征的学习能力。但 RNN 模型存在长期依赖问题,容易丢失上下文信息。为了解决这一问题,改善对长难句的建模效果,Li 等5提出了一种基于低成本序列特征的Bi-LSTM-RNN 模型,通过实体周围的分段信息获取更多的语义信息,不需要额外特征帮助。LSTM模型虽然有效解决了长期依赖问题,但对关键信息的注意不足,难以处理复杂的关系抽取问题。135 电信科学 2023 年第 2 期 Su 等6在 CNN 模型的池化层加入注意力机制,过滤文本中无关的噪声数据,从而使得模型专注于目标实体特征。Vashishth 等7在多实例设置中使用了图卷积神经网络(graph convolutional neural network,GCN)。他们在整个句子依赖树上使用双向门控循环单元(bidirectional gate

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开