2023⁃08⁃10计算机应用,JournalofComputerApplications2023,43(8):2426-2430ISSN1001⁃9081CODENJYIIDUhttp://www.joca.cn基于负训练和迁移学习的关系抽取方法陈克正1,2,郭晓然3,钟勇1,2*,李振平1,2(1.中国科学院成都计算机应用研究所,成都610213;2.中国科学院大学计算机科学与技术学院,北京100049;3.西北民族大学数学与计算机科学学院,兰州730124)(∗通信作者电子邮箱zhongyong@casit.com.cn)摘要:远程监督是关系抽取任务中常用的数据自动标注方法,然而该方法会引入大量的噪声数据,从而影响模型的表现效果。为了解决噪声数据的问题,提出一种基于负训练和迁移学习的关系抽取方法。首先通过负训练的方法训练一个噪声数据识别模型;然后根据样本的预测概率值对噪声数据进行过滤和重新标注;最后利用迁移学习的方法解决远程监督存在的域偏移问题,从而进一步提升模型预测的精确率和召回率。以唐卡文化为基础,构建了具有民族特色的关系抽取数据集。实验结果表明,所提方法的F1值达到91.67%,相较于SENT(SentenceleveldistantrelationExtractionviaNegativeTraining)方法,提升了3.95个百分点,并且远高于基于BERT(BidirectionalEncoderRepresentationsfromTransformers)、BiLSTM+ATT(Bi-directionalLongShort-TermMemoryAndAttention)、PCNN(PiecewiseConvolutionalNeuralNetwork)的关系抽取方法。关键词:远程监督;负训练;知识图谱;关系抽取;迁移学习;自然语言处理中图分类号:TP391.1文献标志码:ARelationextractionmethodbasedonnegativetrainingandtransferlearningCHENKezheng1,2,GUOXiaoran3,ZHONGYong1,2*,LIZhenping1,2(1.ChengduInstituteofComputerApplication,ChineseAcademyofSciences,ChengduSichuan610213,China;2.SchoolofComputerScienceandTechnology,UniversityofChineseAcademyofSciences,Beijing100049,China;3.SchoolofMathematicsandComputerScience,NorthwestMinzuUniversity,LanzhouGansu730124,China)Abstract:Inrelationextractiontasks,distantsupervisionisacommonmethodforautomaticdatalabeling.However,thismethodwillintroducealargeamountofnoisydata,whichaffectstheperformanceofthemodel.Inordertosolvetheproblemofnoisydata,arelationextractionmethodbasedonnegativetrainingandtransferlearningwasproposed.Firstly,anoisydatarecognitionmodelw...