温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
知识
图谱
中成药
智能
问答
平台
构建
郭紫琴
第 31 卷 第 4 期 2023 年 8 月Vol.31 No.4Aug.2023电脑与信息技术Computer and Information Technology文章编号:1005-1228(2023)04-0052-06基于知识图谱的中成药智能问答平台构建郭紫琴,谭智福,王嘉俊,叶青(江西中医药大学计算机学院,江西 南昌 330004)摘要:近年来,中成药的使用和生产规模不断增大,产生了越来越多的中成药数据,中成药的普及与发展是一关键性问题。本项目结合知识图谱和多标签文本分类与命名实体识别的自然语言处理、语音识别等智能问答技术搭建中成药智能问答平台。在用户文本提问或语音提问后,平台会根据提问在海量中成药信息中迅速准确地查询相关中成药信息,并呈现相关中成药的知识图谱辅助用户理解。知识图谱可以将中成药很好的存储起来,智能问答可以帮助用户了解中成药,使用知识图谱结合智能问答技术对中成药普及与发展具有一定的意义。关键词:中成药;知识图谱;多标签文本分类;命名实体识别;语音识别;智能问答中图分类号:TP391文献标识码:AIntelligent Q&A of Proprietary Chinese Medicine Based on Knowledge GraphGUO Zi-qin,TAN Zhi-fu,WANG Jia-jun,YE Qing(College of Computer science,Jiangxi University of Traditional Chinese Medicine,Nanchang 330004,China)Abstract:In recent years,the use and production scale of proprietary Chinese medicines have been increasing,resulting in more and more data on proprietary Chinese medicines,and the popularization and development of proprietary Chinese medicines is a key issue.This project combines knowledge graph,multi-label text classification and intelligent question-and-answer technology such as natural language processing and speech recognition for named entity recognition to build an intelligent Q&A platform for proprietary Chinese medicine.After the user asks the question in text or voice,the platform will quickly and accurately query the relevant proprietary Chinese medicine information in the massive proprietary Chinese medicine information according to the question,and present the knowledge map of the relevant proprietary Chinese medicine to assist the user to understand.The knowledge graph can store proprietary Chinese medicines very well,intelligent question and answer can help users understand proprietary Chinese medicines,and the use of knowledge graph combined with intelligent question and answer technology has certain significance for the popularization and development of proprietary Chinese medicines.Key words:proprietary Chinese medicine;Knowledge Graph;multi-label text classification;named entity recognition;speech recognition;smart Q&A收稿日期:2022-08-15基金项目:江西省大学生创新创业训练计划项目(项目编号:S202210412060);江西中医药大学教育专项研究课题(人工智能)(项目编号:2021rgzn-4)。作者简介:郭紫琴(2000-),女,江西瑞金人,本科,计算机科学与技术专业;谭智福(2000-),男,江西上饶人,本科,计算机科学与技术专业;王嘉俊(2000-),男,本科,计算机科学与技术专业;(通信作者)叶青(1967-),女,教授、硕士生导师,主要从事于中医药信息学、计算机应用。改革开放尤其是党的十八大以来,中共中央国务院高度重视中医药事业的发展,2017 年中医药法正式实施,2019 年中共中央国务院关于促进中医药事业传承创新发展的意见对中药产业高质量发展提出了一系列具体要求。中药产业经历了一个高速发展时期,中药工业营收一度超过 8000 亿元。在抗击新冠肺炎疫情的过程中,我国传统中医药发挥了重要作用,取得显著疗效1,进一步扩大中医药在全国和全球的影响,受到更广泛的认可与欢迎。尤其是中成药工业增长尤为明显,中成药工业增长强劲的 2020年一季度比 2019 年一季度的增速大幅高出了 35 个百分点,整个中成药工业形势大好2。并且在 2021 新年伊始,国务院办公厅印发关于加快中医药特色发展的若干政策措施,其指出中药产业必须努力抓住DOI:10.19414/ki.1005-1228.2023.04.008第 31 卷 第 4 期53郭紫琴等,基于知识图谱的中成药智能问答平台构建新的发展机遇,全力促进各项政策措施的落地实施,努力解决制约中药产业高质量发展的一些关键性问题,实现产业从快速扩张向高质量发展转型,为服务中医药事业快速发展、建设健康中国发挥了更好的作用3。在国家政策鼓励、市场需求、经济带动等因素多方面影响下,中医药行业将继续有着较好的政策环境,中医药文化基础也将不断加深夯实。其中中成药以其 便捷、毒性小、疗效好等特点已逐渐成为中医药治疗使用最普遍的手段,但中成药数据种类繁多、关系复杂,故挖掘在中成药新药研发、生产流通、临床试验等过程中产生的大量非结构化数据的潜在价值已迫在眉睫,传统的关系型数据模型难以表现出数据之间复杂的关系,因此,使用知识图谱存储模型,结合数据可视化技术挖掘、展示中成药大数据已势在必行。为了在海量中成药相关信息中找到准确治疗疾病的相关中成药的信息,并及时回答用户的问题,构建出中成药知识图谱数据库,筛选出治疗疾病的有效中成药,并搭建基于知识图谱的智能问答系统有着重大意义。1研究现状近年来国内有不少专家学者对中医药领域的智能问答系统进行了研究,主要都集中于构建中医药某子领域本体,并基于本体构建智能问答系统。如顾琳4等研发了基于本体的亚健康中医辅助诊断系统,该系统采用半自动方式获取知识,构建中医亚健康本体,在领域本体驱动下进行基于模糊推理的方法对亚健康症状中医辅助诊断知识进行推理;温思琦等针对中医治疗冠心病构建自动问答系统,采用文献资料构建中医冠心病本体,然后设计了针对中医冠心病受限领域的自动问答系统的实现方案。在社区类问答系统方面,国内出现了一些比较有名的医学信息服务类网站如寻医问药网,快速问医生等5。这类网站虽然允许用户通过各种形式提问问题,但是返回给用户的答案较多,对于非专业人员,其获取准确答案较为困难。国外在医学领域智能问答系统研究中已有了初步发展,国外的医学智能问答系统,如 Med QA、AskHERMES、MEANS、AskCuebee 等,且这些系统主要针对医学专业人员,如 AskCuebee 是一款用于畜生虫学家获取与寄生虫有关知识的系统,也有部分问答系统是针对大众群体的,如 mcuire Me 可通过问题答案返回给用户想要的信息,但关于中成药方面的国外智能问答系统暂未查询到。2系统设计本项目采用自底向上的开发设计方式,首先对数据库进行数据处理并设计用于模型训练的数据集,其次搭建中成药知识图谱,再设计自然语言处理模型,并利用得到的数据集对模型进行训练测试,同时进行语音识别设计,然后根据自然语言处理结果和知识图谱来生成答句,最后进行界面设计,把所有功能模块组合设计在同一界面平台上。基于知识图谱的中成药智能问答平台流程图如图 1 所示。图 1中成药智能问答平台流程图2.1数据处理与搭建知识图谱对于已有的数据库进行数据处理,清洗掉不符合要求的数据以及对数据进行规范化处理,例如对于来电脑与信息技术 2023 年 8 月54源不一样而其它属性都一样的中成药,选择其中一个并把另一条记录从数据库中删除;对于组成属性不仅含有组成还含有处方、制作方法等的记录进行数据规范化的方法采用的是留下组成属性,其余不留以防影响后续智能问答结果;对于一些只含中成药药名但无实质性属性的记录,可利用爬虫技术爬取更多数据补全数据属性,而本项目采用的是删除此类记录来缩短模型训练时间。本项目主要使用 Excel 的查找替换功能结合正则表达式进行数据处理。对经过数据处理的数据库进行信息提取,即从中提取实体、关系和属性,然后创建节点和关系,使用python 读取中成药数据库中的数据并结合 Ctype 语言来连接 Neo4j 运行生成知识图谱,知识图谱的实体与属性关系、舒肝和胃丸知识图谱如图 2、图 3 所示。图 2知识图谱的实体与属性关系 图 3舒肝和胃丸知识图谱2.2文本问答文本问答是对用户提出的问题进行自然语言处理6,分析出知识图谱并查询需要的关键字,然后使用这些关键字查询知识图谱中的数据,并返回结果,最后将得到的结果组织为答句。文本问答流程图如图4 所示,其中自然语言处理主要是设计多标签文本分类和命名实体识别模型,再用已设计好的数据集进行模型训练,模型验证,反复修改模型,这也是文本问答的核心。图 4文本问答流程图2.2.1 数据集设计深度学习能够通过数据挖掘进行海量数据处理,自动学习数据特征,尤其适用于包含少量未标识数据的大数据集;采用层次网络结构进行逐层特征变换,将样本的特征表示变换到一个新的特征空间,从而使分类或预测更加容易。数据集用于自动学习特征,便于预测,故数据集的好坏对一个模型起到至关重要的作用。本项目数据集主要是根据问卷调查结果所设计的。首先对一定范围内的对中成药了解不太多的人群进访问调查研究大概会问哪些关于中成药的问题,然后进行问句分析以此来了解普通用户大概会提出什么样的问题以及大体提问方式,最后进行统计分析。根据调查结果所知一共有 110 种大体提问方式,其中与本项目关联不太大或是数据库不包含该提问中涉及的信息的有13种,此外大部分提问涉及用法用量、主治、性状、不良反应等属性,提问中涉及的属性饼状图如图 5 所示。图 5提问中涉及的属性饼状图2.2.2 多标签文本分类多标签文本分类7是指识别一句提问中所包含的标签,即识别提问包含了几个问题、都问了什么问题以及提问中涉及中成药的哪些属性,如“六味地黄丸可以治疗什么疾病以及一次服用多少?”这句话包第 31 卷 第 4 期55郭紫琴等,基于知识图谱的中成药智能问答平台构建含了两个问题:第一个问题是“六味地黄丸能治疗什么疾病”,第二个问题是“六味地黄丸一次服用