温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种
面向
中医
文本
实体
关系
深度
学习
联合
抽取
方法
杨延云
第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023一种面向中医文本的实体关系深度学习联合抽取方法杨延云杜建强*聂斌罗计根贺佳(江西中医药大学计算机学院江西 南昌 330004)收稿日期:2020 08 12。国家重点研发计划项目(2019YFC1712301);国家自然科学基金项目(61762051,61562045);江西省自然科学基金项目(20202BAB202019);江西省教育厅科技项目(GJJ190863);江西省研究生创新专项资金项目(YC2019-S358)。杨延云,硕士生,主研领域:自然语言处理,数据挖掘。杜建强,教授。聂斌,副教授。罗计根,硕士。贺佳,硕士。摘要目前实体识别和关系抽取任务大多采用流水线方式,但该方法存在错误累积、忽略两个任务相关性和信息冗余等诸多问题。结合中医文本的特点,提出一种基于深度学习的中医实体关系联合抽取方法。该方法使用改进的序列标注策略,将中医的实体关系联合抽取转换成序列标注任务,词向量与字符向量并联拼接作为双向LSTM-CF 输入,利用双向 LSTM 神经网络强大的特征提取能力,以及 CF 在序列标注上的突出优势,结合优化的抽取规则完成中医实体关系联合抽取。在中医语料库上的实验结果表明,实体关系联合抽取的 F1 值可以达到80 42%,与传统流水线方法以及其他方法相比,实验效果更佳。关键词实体关系联合抽取深度学习字词向量拼接中医文本中图分类号TP391文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 033A JOINT EXTACTION METHOD OF ENTITIES AND ELATIONS FOTADITIONAL CHINESE MEDICINE TEXT BASED ON DEEP LEANINGYang YanyunDu Jianqiang*Nie BinLuo JigenHe Jia(School of Computer,Jiangxi University of Traditional Chinese Medicine,Nanchang 330004,Jiangxi,China)AbstractAt present,the entity recognition and relationship extraction tasks mostly use the pipeline method,whichhas the problems of error accumulation,ignoring the relevance of two tasks,and information redundancy Combining thecharacteristics of traditional Chinese medicine(TCM)text,this paper proposes a joint extraction method of entities andrelations for traditional Chinese medicine text The improved sequence labeling strategy was used to convert the jointextraction of entities and relations of TCM into a sequence labeling task The word vector and char vector parallel splicingwas used as the input of BiLSTM-CF Using the strong feature extraction ability of BiLSTM neural network and theprominent advantages of CF in sequence labeling,the joint extraction of entities and relations of TCM was completed bycombining the optimized extraction rules The experimental results show that the F1 value of the entities and relations canreach 80 42%Compared with the pipeline method and other methods,it has better experimental effectKeywordsJoint extraction of entities and relationsDeep learningChar vector and word vector splicingTraditionalChinese medicine text0引言为推进国家中医药信息化的发展,各种中医药信息化平台的建设接踵而至,例如,中医辅助诊疗系统、中医智能问答系统、中医电子病历系统等。中医文献作为中医传承载体,记录了证型、方剂、中药、病因、病机和治则治法等数据,且存在着大量实体重叠的问题。而实体和关系抽取作为底层最基础的任务,能够快速地从半结构化、非结构化的中医文本中提取出实体以及它们之间的语义关系,对中医文献数据的有效利用和中医药的信息化研究具有促进作用和重要意义。218计算机应用与软件2023 年1相关研究1 1流水线方法研究实体关系抽取作为信息抽取的重要子任务1,处理该任务的方法主要可以分为流水线方法和实体关系联合抽取方法两类。流水线方法即将实体关系抽取任务分为命名实体识别2(Named Entity ecognition,NE)和关系抽取3(elation Extraction,E)两个子任务,即给定一段半结构化或非结构化文本,首先通过命名实体识别提取出文本中的实体,然后对每个候选实体对进行关系分类。典型的命名实体识别方法主要分为三类:基于规则的方法;基于统计学习的方法和基于深度学习的方法。其中,基于规则的方法大多是利用语言学知识,通过语言规则识别实体;基于统计学习的方法主要有隐马尔可夫模型(Hidden Markov Models,HMM)4、最大熵模型(Maximum Entropy Model,MEM)、支持向量机(Support Vector Machine,SVM)5 和条件随机场6 等,该方法依赖复杂的特征工程。近几年,循环神经网络(ecurrent Neural Networks,NN)、长短期记忆网络(Long Short-Term Memory)等神经网络模型被应用于实体识别任务,并展现出强大的优势。关系抽取方法主要可以分为经典的关系抽取方法和基于深度学习的抽取方法。经典的关系抽取方法主要包括有监督、半监督、弱监督和无监督 4 种7,这几种方法存在特征提取误差传播的问题,很大程度上影响最终关系抽取的结果。基于深度学习的方法避免了人工特征提取,Zeng 等8 于 2014 年首次使用 CNN 进行关系分类。Vu 等9 采用深度循环神经网络(Deepecurrent Neural Networks,DNN)进行关系抽取。流水线方法虽然在模型选择和实验操作比较灵活、简单,但是这种方法存在以下几个问题:导致错误累积;忽略了两个子任务间的相关性;产生大量冗余信息。例如文本:“方剂麻杏石甘汤是由麻黄、杏仁等多味中药组成”,采用流水线方法的具体流程如图 1 所示。假如在命名实体识别阶段模型没有识别出实体“麻杏石甘汤”,由于关系抽取完全依赖实体识别的结果,则所有包含“麻杏石甘汤”的三元组皆无法得到,因此导致错误累积;已知文本中存在“方剂/中药”这一关系,可以推理第一个实体的类别是“方剂”类,第二个实体的类型是“中药”类,而采用流水线方法无法利用该信息进行推理;关系抽取是对每个候选实体对进行关系分类,不属于预定义关系的实体组合就是冗余信息,如(麻黄,None,杏仁)。图 1流水线方法流程1 2联合抽取方法研究针对以上流水线方法存在的问题,实体关系联合抽取直接抽取给定文本中含有的实体和实体间语义关系的三元组(Entity1,elation,Entity2),不仅能够充分考虑二者的相关性,将二者联合学习,还使两个子任务的性能得到了不同程度的提升。en 等10 提出 CoType 框架。Miwa 等11 使用填表方法,将实体识别和关系抽取进行联合学习,但是都基于人工提取特征,依赖于复杂的特征工程,还需使用各种自然语言处理工具包。随着深度学习方法的兴起,Miwa 等12 使用 BiLSTM 实现实体识别,通过共享输入层和 LSTM 编码层的参数,连用 Bi-TreeLSTM 结构实现关系抽取。Katiyar 等13 针对 Miwa 等12 利用依存树结构的缺点提出融合注意力机制的 NN 方法实现实体关系联合抽取。Zheng 等14 采用 BiLSTM 对输入层进行编码,选用 LSTM 进行解码,实现实体识别;通过共享 BiLSTM 编码器参数,利用 CNN 模块对编码层结果进行关系分类。文献 15通过引入互反馈机制,反馈更新共享层的参数来提升联合抽取的效果。基于参数共享的实体和关系联合抽取方法增强了实体识别和关系抽取两个子任务的相关性,改善了传统流水线方法错误累积的不足。但是由于该方法都是利用共享底层模型参数来增强两者的相关性,实质上仍是先进行 NE,再利用 NE 的结果进行 E,因此仍会产生不存在关系的实体对冗余信息,也存在错误传递。Zheng 等16 首次将实体关系联合抽取转化为序列标注问题,还设计了带有偏置损失函数的端到端模型,实现了真正意义上的实体关系联合抽取。但在最终三元组的抽取时采用就近距离策略,且规定一个实体只能存在一个三元组中,导致大量关系数据丢失,无法解决实体重叠问题。曹明宇等17 借鉴 Zheng 等16 的方法,改进标注策略,采用 BiLSTM-CF 模型有效缓解了同一实体参与多个关系的重叠问题,在生物医学领域的药物实体关系数据集上取得了较好的效果。第 3 期杨延云,等:一种面向中医文本的实体关系深度学习联合抽取方法219鉴于传统流水线方法的不足和中医文本中存在大量实体重叠的问题,本文提出一种基于字词向量拼接的中医实体关系联合抽取方法。首先将字词向量拼接作为输入,再采用改进的序列标注策略在 BiLSTM-CF(Bi-directional Long Short-Term Memory Conditional an-dom Fields,BiLSTM-CF)模型上对中医文本进行标注,最后通过自定义的抽取规则进行关系三元组提取。2中医实体及关系联合抽取方法该方法使用改进的序列标注策略,将中医的实体关系联合抽取转换成序列标注任务,词向量与字符向量并联拼接作为双向 LSTM-CF 输入,利用双向 LSTM神经网络强大的特征提取能力,以及 CF 在序列标注上的突出优势,结合优化的抽取规则完成中医实体关系联合抽取。整体方法流程如图 2 所示。图 2方法流程该方法的整体流程为:1)对输入的文本句子利用 Word2vec 进行向量转化,分别生成字向量和词向量;2)将生成的向量以字为基本语义单元进行字词向量并联拼接;3)采用改进的标注策略,通过 BiLSTM-CF 模型对每个句子进行序列标注;4)根据序列标注结果,结合自定义的抽取规则来抽取关系三元组。2 1模型输入One-hot 编码得到的是稀疏向量,向量的维度完全取决于语料库的大小,且每个词的向量之间都是独立的,相近意思的词语也没有关联关系。相较于 One-hot编码,Word2vec 得到的词向量降低了向量的维度,且语义相近的词语被映射在相近的位置。本文训练向量所用语料来源于中医证候鉴别诊断学 中医 150 证候辨证论治辑要(