温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
本体
医药
知识
组织
研究
李贺
第 卷 第 期 年 月基于本体的简帛医药知识组织研究李贺 祝琳琳 刘嘉宇 樊娇 侯力铁吉林大学商学与管理学院 长春 长春中医药大学 长春 摘 要:目的 意义中医药是中华文化的传承,对现代医学发展具有重要作用,应受到高度重视。利用数字技术组织中医古籍,对其进行保护与重用具有重要意义。方法 过程以简帛医药文献为研究对象,分别构建简帛医药书目本体和内容本体,并通过书目本体和内容本体的连接形成简帛医药文献本体模型;利用命名实体识别模型抽取实体概念,利用依存句法分析和规则的方法抽取实体关系,最终将简帛医药文献数据存入图数据库,实现简帛医药文献知识图谱可视化与检索查询结果呈现。结果 结论利用本体和知识图谱,提出简帛医药知识组织方法,建立具有逻辑关系的简帛医药知识链,形成中医药领域知识的语义网络,在中医古籍的智能化方面做出有益的探索,有助于中药知识的普及与传承。关键词:简帛医药文献 知识组织 本体 知识图谱 数字人文分类号:本文系国家社会科学基金项目“数据驱动的档案文献资源知识构建与知识服务研究”(项目编号:)研究成果之一。作者简介:李贺,教授,博士,博士生导师;祝琳琳,副教授,博士,通信作者,-:;刘嘉宇,博士研究生;樊娇,本科生;侯力铁,馆员,博士。收稿日期:修回日期:本文起止页码:本文责任编辑:王传清 引言 中医药包含了中华民族深邃的哲学思想,是极具原创性的中华民族智慧结晶。获得诺贝尔医学奖的屠呦呦团队正是结合了肘后备急方中的中医知识发现青蒿素,开创了疟疾治疗新方法。中医古籍资源规模较大,根据中国中医古籍总目的记载,目前我国馆藏的中医文献有 种。自 世纪、年代以来,随着大量的简帛医药文献出土,各种简帛医籍陆续被整理公布,数量十分丰富。简帛医药文献是以竹简、帛书等形式记载的中医药内容,出土涉医简帛文献是传世中医古籍的文献源头,它是研究古代医药知识的珍贵资料,是部分中医药书籍的祖本。例如湖北张家山出土汉简脉书和马王堆汉墓出土帛书阴阳十一脉灸经甲乙本可以被看作是黄帝内经灵枢经脉的祖本。中医药既是中华文化的传承,也对现代医学发展具有重要作用,中医古籍的保护与重用需要得到高度重视。然而,古籍原始载体的物理保存方式会随着时间而受到侵蚀,会导致原始载体的老化和破损。传统的数字化转化和存储保护了古籍载体原件,为古籍数据化及智能化奠定了良好基础,但很多中国古代医籍卷帙浩繁、晦涩难懂,存在知识散落难寻、数字化资源使用效率较低的问题。而对于出土的简帛医药文献,更是很少从本体和知识图谱角度组织文献书目和内容,知识以及知识之间的相互联系尚未得到有效的挖掘与利用。鉴于此,本研究将以简帛医药文献为对象进行研究,以期利用计算机相关技术更好地利用中医药古籍中丰富的知识,推动中医古籍的深度开发和利用。本研究主要解决以下问题:利用本体技术,全面构建简帛医药知识的书目本体和内容本体,进而完成简帛医药文献本体的构建,对简帛医药文献进行知识组织;基于上述本体,利用命名实体识别和实体关系抽取等相关知识图谱技术,构建简帛医药文献知识图谱,凸显该领域的核心概念和知识关联,以图形的方式可视化展示中医药知识及其相互关系。研究现状 古籍数字人文相关研究 数字人文领域的不断发展为未来计算科学、社交网络理论与分析、机器和深度学习等领域增加了需求,提出了专注于大型文化数据集的处理李贺,祝琳琳,刘嘉宇,等 基于本体的简帛医药知识组织研究 图书情报工作,():和分析、关注整个数字文化、处理大数据 个具有挑战性的数字人文领域研究问题。目前,关于古籍数字人文研究主要集中在古籍文献的组织与检索、古籍文献导读以及古籍文献的分析与利用 个方面。在古籍文献的组织与检索方面,夏翠娟等从已经存在的元数据中进行知识挖掘,实现面向知识发现的数字人文服务;在古籍文献导读方面,面向普通大众普及中华传统文化知识,提供文献导读相关服务,例如,南通大学楚辞研究中心利用文本概念挖掘技术和语义分析技术构建语义检索模型,降低楚辞的阅读理解门槛;在古籍文献的分析与利用方面,王大学等利用 技术构建开放的大型中国古籍资源库,该系统具备编绘专题地图和连接用户数据等功能模块,表达古籍基础地理信息的分布及演变知识。古籍知识组织相关研究 目前,关于古籍的知识组织研究主要集中在古籍知识抽取、古籍知识库构建、本体构建以及知识图谱的构建等方面。在古籍知识抽取方面,高晶晶等针对中医古籍生僻字处理过程中存在的缺字现象,提出了使用私用区造字法等进行集外字处理。朱玲等以正则表达式作为提取规则进行中医古籍疾病相关知识的抽取。付璐等抽样 种不同类型的清代医学书籍,探讨了古代中医书籍的分词规范。在古籍知识库构建方面,王国玺等通过对医案古籍知识的提取和对中医古籍后控词表的完善与应用,开发了医案古籍知识库。等设计了一个基于网络的知识管理系统,作为探索中西医之间关键关系的培训和研究工具,促进整合主流治疗方式的相关医学诊断。在本体构建方面,汤伟平等利用自动语义标注和本体构建工具建立了岭南温病古籍知识的本体框架。等建立了词汇信息本体库,用于阿拉伯语的问答应用,并在此基础上构建 框架。和 基于建筑叙事理论提出了中国古建筑本体模型,利用语义 技术重组中国古建筑相关信息,提出的本体为中国古建筑非结构化信息的语义标注提供了解决方案。在知识图谱构建方面,等进行链接预测研究,通过链路推断知识图谱实体之间缺少的边。中医药知识图谱相关研究 中医药领域知识图谱的应用研究范围主要集中在中医临床病例医案。相关研究学者全面总结了目前中医药各子领域的知识图谱应用情况,除了有利用古代医案等作为数据源的中医医案领域知识图谱,还包括证候知识图谱、方剂知识图谱、中药知识图谱、中医核心知识图谱、中医药知识图谱、用方经验知识图谱等研究范畴。在中医药知识图谱技术应用方面,王蕊等在中医特色疗法相关领域内使用知识地图技术,构建中医特色疗法知识地图。刘燕等使用实体识别等技术构建医学百科知识图谱。张德政等提出了基于本体的中医核心知识图谱构建方法,探讨了模型层和数据层的匹配映射机制,实现了中医基础理论本体和基于本体的中医核心知识图谱的构建。总体来说,与其他领域的知识图谱应用技术相似,中医药领域实体抽取方法主要包括基于规则的方法、基于统计的方法,近年来也有将机器学习模型与深度学习方法相结合进行实体抽取。中医药领域实体关系抽取方法主要包括基于已知的实体类型和关系存在事实、基于关键词、模板、规则或依存句法、基于机器学习或深度学习。综上所述,随着数字人文的发展,信息资源研究经历了数字化、数据化、关联化、智慧化阶段,其知识组织深度不断提升。而关于古籍的研究,也由最初的古籍资源的数字化建设发展到当前古籍资源的数据化与关联化,结合本体和知识图谱等相关理论方法,逐渐形成对古籍资源的语义化研究阶段。但中医药古籍研究仍存在不足:中医药古籍卷帙浩繁、晦涩难懂,如何理解古文中中医药术语是一个重要问题;虽然研究者构建了养生本体、中药本体、证候本体等领域本体,但是面向整个中医药领域充分结合中医药文献书目和内容的本体模式层的联合构建研究相对较少;出土涉医简帛文献是传世中医古籍的文献源头,但鲜有研究利用现代化信息技术手段对简帛医药知识进行组织。因此,本研究将利用简帛医书,从书目本体和内容本体两个方面构建简帛医药知识本体,通过实体抽取和关系抽取等技术构建简帛医药文献知识图谱。简帛医药文献知识本体模型设计与构建 本体是知识语义组织应用最多的形式之一,是一种高效的语义层面的知识建模工具。在中医药领域,作为知识描述框架,本体的构建对象包括证候、疾病、症状、方剂、针灸、医案、中药等;本体的构建方法多采用骨架法、七步法及其结合或改进方法,既可以根据步骤构建新的本体,同时可以提取、复用或扩展已有成果。在本体构建过程中,遵循客观性、完整性、可扩展性、最小编码偏差等构建原则。第 卷 第 期 年 月 中医药领域的本体构建对象、构建方法和构建原则等为简帛医药文献的本体构建提供了借鉴。本研究面向中医药领域,主要采用七步法流程,遵循本体构建原则,以简帛医药文献作为数据来源,以疾病、中药、制法、用法实体等为构建对象,提炼简帛医药文献知识,分别构建简帛医药书目本体和简帛医药内容本体,并最终形成简帛医药文献本体模型。书目本体构建 确定领域和范围 简帛医药文献外部特征并不明显,通过描述简帛医药文献的题名、作者、载体、位置等各种外部特征,组织散落在各个图书馆或机构的文献资源,深入揭示不同版本和校注之间的关联关系,实现简帛医药文献资源的组织、整理和利用。复用现有本体 在设计本体时,应该尽可能地复用已有本体的类和属性,通过部分复用已有的成熟本体,可以减少类和属性的重复构建,有利于知识的共享和重用。书目描述框架是新型书目数据格式,可以对现有的书目资源进行整合,对解决图书馆资源在网络上的关联与识别具有重要作用。主要通过创造性作品()、实例()、规范()、注释()个核心部分描述书籍结构特征,每个类下有很多规范的属性和子类。通过文献调研和对简帛医药书目的综合分析,本文将基于 书目框架,复用部分类和属性设计简帛医药文献书目本体。列举重要术语 元数据规范地定义了某个领域的核心术语,而古籍元数据标准为中医古籍数据化奠定了良好基础,具有较高的权威性和一定的参考借鉴意义。本研究列举了题名、作者等多个重要术语。定义类的属性和关系 借鉴中医文献元数据(,)和 书目本体,进一步自定义类和属性,使简帛医药书目本体更加完整。基于 基本框架,复用其他类和属性,并定义新增加的类和属性,修改已有模型。表 通过与 的对照,展示简帛医药书目本体的类和属性,其中前缀 为自定义的类和对象属性。例如,为:类定义了:等多个属性。表 中医药文献元数据与简帛医药书目本体的对应关系中医药文献元数据简帛医药书目本体元数据项 元数据元素类属性标识标识符:题名项题名:责任者项创建者:贡献者:格式格式:类型类型:附注项描述:主题:覆盖范围:出版项出版者:出版地点:印刷地点:日期:版本项版本:来源来源:馆藏项存储地点:收藏历史:破损级别:珍稀程度:权限:保存方式:可视化展示 与作品本身相关的特征,如题名、作者、摘要等作为医药文献作品的一部分,不随作品呈现方式的改变而改变。而与作品载体相关的部分,如版本、出版者、单件存储等特征是医药文献实例的组成部分。一个简帛医药文献作品可以有多个实例,而一个实例只属于一个作品。最终构建的简帛医药书目本体模型见图,图 中展示类与类之间的关系,子类用 表示。箭头表示属性,箭头起点和终点分别代表属性的域和范围。内容本体构建 确定领域和范围 病方、古经脉学等医药文献的内容蕴含大量中医药知识,知识之间的隐含关系不易被发现,很难为非中医药领域的相关人员带来直接价值,因此需要构建简帛医药内容本体模型,刻画简帛医药的内容特征,发现其中重要概念。李贺,祝琳琳,刘嘉宇,等 基于本体的简帛医药知识组织研究 图书情报工作,():图 简帛医药书目本体模型 复用现有本体 遵循尽量复用已有本体模型和术语词表的本体构建原则,内容本体的设计将进一步借鉴中医药学语言系统(,)。是面向中医药领域较为成熟的规范化顶层本体,为中医药学语言系统中的所有概念提供了一体化的概念框架,建立了规范化的中医药术语体系。简帛医药内容本体模型选择部分复用 本体中已有的概念和语义关系,通过语境和中医药领域的专业资料,结合简帛医药文献本身的特殊性进行相应扩充。列举重要术语 依据本体构建数据源简帛医药文献校释以及中医中药主题词表和中医药常用名词术语辞典等中医药领域权威资料,列出重要术语。对于有争议的术语,则通过咨询领域专家进行重要性评估,选取认可度最广的术语。最终列出的重要术语包括疾病、证候、病因、病机、脏腑、经络、穴位、精、气、血、津液、中药、剂量、方剂、针灸等。定义类和类的等级体系 类的等级关系主要是横向创建语义关系,描述概念的等级体系,本研究主要依据中医药领域的基本理论确定。以核心类“人体基础”为例,说明简帛医药核心概念的部分等级关系,见图。其中,脏腑、穴位、经络和基本物质为“人体基础”的子类。精、气、血和津液为“基本物质”的子类。定义类的属性和关系 类的属性包括