温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
FastBert
水稻
病虫害
实体
关系
抽取
研究
周烨
第 23 卷第 1 期2023 年 3 月南京师范大学学报(工程技术版)JOUNAL OF NANJING NOMAL UNIVESITY(ENGINEEING AND TECHNOLOGY EDITION)Vol.23 No.1Mar,2023收稿日期:20220915基金项目:教育部农业与农产品安全国际合作联合实验室开放课题项目(JILAKF202007)、扬州大学交叉学科基金项目(yzuxk202008)、扬州市市校合作专项项目(YZ2021150)通讯作者:徐向英,博士,研究方向:农业信息化 E-mail:xuxy yzueducndoi:103969/jissn16721292202301005基于 FastBert 的水稻病虫害实体关系抽取研究周烨1,徐向英1,2,章永龙1,陈佳云1,汪洪江1(1扬州大学信息工程学院,江苏 扬州 225012)(2扬州大学教育部农业与农产品安全国际合作联合实验室,江苏 扬州 225127)摘要 针对水稻病虫害知识图谱构建所需实体和关系,提出了一种基于 FastBert 模型的中文实体关系抽取方法 首先,在中文语料收集的基础上,使用 Hanlp 工具和农业词典提取了与水稻病虫害相关的领域实体,并依据实体间关系的特点定义了病虫害别名、为害部位、为害地区、防治方法等 7 种类型 然后,在词嵌入和句子嵌入的基础上通过 FastBert 模型实现水稻病虫害关系的抽取 该模型与 obert、Electra、Distilbert 等其它 Bert 相关模型的关系抽取结果比较显示,基于 FastBert 模型的中文水稻病虫害关系抽取效果更好,模型获得的实体间关系 F1值达 072,模型精度达 069 该方法为中文农业病虫害知识图谱的自动化构建提供了参考 关键词 水稻病虫害,知识图谱,关系抽取 中图分类号 TP3911 文献标志码 A 文章编号 16721292(2023)01003306elationship Extraction of Entities About ice Diseasesand Insect Pests Based on FastBertZhou Ye1,Xu Xiangying1,2,Zhang Yonglong1,Chen Jiayun1,Wang Hongjiang1(1College of Information Engineering,Yangzhou University,Yangzhou 225012 China)(2Joint International esearch Laboratory of Agriculture and Agri-Product Safety,the Ministry of Education of China,Yangzhou 225127 China)Abstract:A FastBert model based Chinese entity relationship extraction method is proposed to extract the entities andrelationships required for rice pest and disease knowledge graph First of all,on the basis of Chinese corpus collected,a tool named Hanlp and a agricultural dictionary are used to extract the domain entities related to rice diseases and insectpests According to the characteristics of the relationship between entities,seven types of diseases and pests are defined,such as alias,harm parts,suffer region,prevention and treatment,etc Based on word embedding and sentenceembedding,the extraction of the relation of rice diseases and insect pests is realized through the FastBert model And theresults are compared with those of other Bert related models It shows that the FastBert model is better than other Bertrelated models in the relationship extraction task of entities in the Chinese corpus of rice diseases and insect pest The F1value obtained by the FastBert model is 072,and the accuracy of the model is 069 This method provides a reference forautomated construction of Chinese knowledge map of agricultural pests and diseasesKey words:rice diseases and insect pests,knowledge graph,relationship extraction水稻作为我国的主要粮食作物,其病虫害防治一直备受关注 近年来,随着智慧农业12 相关技术的发展,物联网、遥感监测3、知识图谱、数字孪生4 等信息技术在水稻种植过程中发挥了越来越重要的作用 水稻病虫害实体关系抽取技术是构建水稻病虫害知识图谱的关键技术,是进行水稻病虫害自动化诊断和问答系统的基础,对保障我国的水稻安全生产具有积极意义实体关系抽取是通过识别句子中两个实体之间存在的一种或多种关系,将非结构化或半结构化数据转化为结构化数据,为构建知识图谱和知识图谱的下游应用,如知识问答,智能化推荐等自然语言处理任务提供丰富的数据5 33南京师范大学学报(工程技术版)第 23 卷第 1 期(2023 年)知识图谱是谷歌公司首次提出并广泛应用于搜索引擎的一项技术 目前,它已然成为人工智能领域的关键技术 知识图谱是具有图结构的知识数据库,将知识以图的形式呈现出来,在图结构上展示实体与实体之间的关系 知识图谱构建6 过程中存在两大步骤:实体的抽取和关系的抽取7 关系抽取建立在实体抽取基础之上,通过对句子中两个实体之间的关系识别和分类,形成关系三元组,从而构建知识图谱在农业领域,目前还没有开放的水稻病虫害知识图谱以支持水稻病虫害的自动诊断,因此构建水稻病虫害知识图谱成为业界的热点研究传统方法对于病虫害的关系抽取较多地依赖人工分类,需要大量的人力开销 本研究使用预训练模型 FastBert8 自动化地对句子中的实体关系进行分类的方法,极大地减轻了实体关系分类的时间和人力成本开销,能够为构建大规模领域知识图谱提供所需的知识三元组1相关工作为构建知识图谱,通常需要将关系三元组表示为:(e1,e2),其中 e1 是实体 1,e2 是实体 2,是两个实体之间的关系 目前,关系抽取方法可以分为 3 类,第一类是传统的模板定义的方法,这类方法需要人工设置模板规则,通常需要丰富的领域经验 第二类是基于机器学习的方法,包括基于特征的、基于核函数的方法等,如 Culotta 等9 通过学习上下文和关系模式构建了一个条件随机场模型来提取实体间关系 Mooney 等10 提出了一种核函数的方法,使用自然语言中的 3 种类型的子序列模式来识别两个实体之间的关系 第三类是基于深度学习的方法,包括有监督和无监督的学习方式 如 Zeng 等11 提出了一种卷积深度神经网络来提取词汇和句子级别的特征,只需将单词标记作为输入,不需要复杂的预处理,将句子级特征与词汇级特征连接起来作为最终提取的特征向量 Zhou 等12 提出了基于注意力的双向长短期记忆网络来捕获句子中任意位置的重要语义信息 Lin 等13 针对句子噪声引入带来的关系抽取性能下降问题,提出了一种基于句子级的注意力关系提取模型,通过在多个实例上建立句子级别的注意力,减少噪声的权重从而使用卷积神经网络来嵌入句子的语义信息 随着深度学习模型的不断推出和模型性能的不断提升,基于深度学习14 的关系抽取方式将逐步取代机器学习的方式,成为关系抽取领域主流的方法本研究采用了基于预训练模型 FastBert 的实体关系抽取方法,通过对维基百科中文语料进行清洗和预处理,筛选其中的农业语料并结合人工收集的语料构建水稻病虫害文本数据集,在人工划分实体间类型的基础上,通过 FastBert 模型,实现水稻病虫害的关系分类和三元组的构建2水稻病虫害关系数据集21数据获取本研究的数据来源主要来自国家农业科学数据共享中心(http:/cropagridatacn)以及维基百科中文语料库 国家农业科学数据共享中心的半结构化数据采用 Scrapy 爬虫的方式对水稻病虫害数据文本进行爬取并保存 对于维基百科中文语料库采用 wikiextractor 抽取工具,先从 wikidump 下载维基百科中文词条压缩文件,并根据词条文章目录抽取维基百科中文文本,由于抽取到的文本均为繁体中文,先使用繁简转换程序将繁体中文转换为简体中文,然后在简体维基百科中文语料中抽取与农业病虫害相关语料 最终语料数据集中的句子数量达 6 868 句,其中从国家农业科学数据中心获得语料 1 200 句,从维基百科获得语料 5 668 句22关系分类知识图谱用实体表示现实世界中的事实概念等,用实体之间的关系表示事实之间存在的联系 本研究在构建水稻病虫害关系抽取模型时,首先对病虫害相关实体的类别进行了探索 例如,水稻病虫害总体可以分为“病害”和“虫害”15“病害”以病原为划分依据又可以细分为“真菌病害”“细菌病害”“病毒病害”“线虫病害”“种传病害”等“真菌病害”可分为“稻瘟病”“纹枯病”“胡麻斑病”“稻曲病”“恶苗病”等具体的水稻病害类型因此依据水稻病虫害实体的特点,将水稻病虫害实体关系类型定义为 7 种类型(如表 1 所示),各关系类别的举例如表 2 所示,将所有关系数据集按照 82 的比例分为训练集和测试集43周烨,等:基于 FastBert 的水稻病虫害实体关系抽取研究表 1水稻病虫害实体关系类型Table 1The entity relationship types of rice pests and diseases序 号关系名称含义1属(Is a)表示属于关系2别名(alias)表示别称3受害地域(Suffer region)表示水稻病虫害与发生灾害的地区之间的关系4发病时期(Sick period)表示水稻病虫害发生病虫害的物候期5病原(Pathogen)表示水稻病虫害与病原体的关系6为害部位(Harm parts)表示水稻病虫害与侵害的水稻部位的关系7防治(prevention and treatment)表示病虫害与治理措施对应关系表 2实体关系示例Table 2Examples of relation between entities实体 1实体 2关系实体 1实体 2关系稻梨孢菌半知菌属水稻稻苗疫病秧苗发病时期恶苗病徒长病别称稻苗疫病串珠镰孢病原恶苗病江苏受害地区倍式波尔多液稻苗疫病防治霜霉病叶片为害部位3水稻病虫害关系抽取模型构建31实体识别使用汉语自然语言处理工具 Hanlp16,对语料数据集中的句子进行命名实体识别 为了识别出句子中与水稻病虫害相关的实体,从数据堂(http:/wwwdat