分享
一种面向海量科技文献数据的大规模知识图谱构建方法_杜悦.pdf
下载文档

ID:2728378

大小:1.86MB

页数:10页

格式:PDF

时间:2023-10-13

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种 面向 海量 科技 文献 数据 大规模 知识 图谱 构建 方法 杜悦
总第 74 期 2023 年 第 2 期Data Analysis and Knowledge Discovery一种面向海量科技文献数据的大规模知识图谱构建方法*杜悦1,2 常志军1,2 董美1,2 钱力1,2 王颖11(中国科学院文献情报中心 北京 100190)2(中国科学院大学经济与管理学院信息资源管理系 北京 100190)摘要:【目的】解决传统三元组式知识图谱表示方法面对科技文献数据变动导致的数据一致性问题,构建满足科技信息服务需求的大规模科研知识图谱。【方法】提出隐式知识图谱构建方法,通过实体特征字段和隐式关系概念配合实体特征字段的识别工具和隐式关系的发现工具,实现对实体的持续更新和对实体关系的自动关联发现。【结果】本文方法已在PB级科技文献大数据平台实践应用,处理由于实体数据变化引起的修改时,隐式知识图谱只需更改实体数据而无需对关系数据进行修改;检索性能优越,通过预定义的接口检索机构所有学者的平均耗时缩减至三元组式知识图谱的百分之一。【局限】对于不符合隐式关系数据结构的情况很难固化,实体数据必须存储在具有搜索引擎的技术集群中。【结论】本文提出的隐式知识图谱构建方法很好地解决了由于实体信息变动引发的数据一致性问题,适用于大规模科研知识图谱的构建,有助于科技知识的高效管理和传播利用。关键词:知识图谱 数据一致性 科技大数据分类号:TP391 G350DOI:10.11925/infotech.2096-3467.2022.0328引用本文:杜悦,常志军,董美等.一种面向海量科技文献数据的大规模知识图谱构建方法 J.数据分析与知识发现,2023,7(2):141-150.(Du Yue,Chang Zhijun,Dong Mei,et al.Constructing Large-scale Knowledge Graph for Massive Sci-Tech LiteratureJ.Data Analysis and Knowledge Discovery,2023,7(2):141-150.)1 引 言科技文献的爆炸式增长使得科研人员在短期内获得相关领域文献变得愈加困难,保障文献获取的及时性和有效性对传统的知识获取方式提出了更高要求。知识图谱可以从基础的数据中抽象出实体的概念,并对实体之间的关系进行存储,将原本非结构化、无关联的粗糙数据逐炼为结构化、强关联的高质量的知识,准确揭示科技文献各要素的相关信息,逐渐成为学术大数据时代新的基础设施及知识组织形式1。基于知识图谱的文献知识服务,在精准度、专业性和时效性等方面都有更高的要求,而科技文献的快速增长、实体的规范和变化引起大规模实体和关系数据的联动更新,传统三元组式表示方法在知识图谱管理中存在数据一致性问题,即关系数据没有得到全量、正确的修改、删除、添加等。现有大数据平台主要采用云计算服务模式,数据存储于不同节点,数据一致性一直是分布式存储系统中的一个热点问题2。因此,在大规模科研知识图谱的构建方法上具有改进空间。通讯作者(Corresponding author):常志军(Chang Zhijun),ORCID:0000-0001-9211-8599,E-mail:。*本文系中国科学院文献情报能力建设项目(项目编号:Y9100901)的研究成果之一。The work is supported by the Literature and Information Capacity Building Project of Chinese Academy of Sciences(Grant No.Y9100901).141研究论文数据分析与知识发现本文提出一种面向海量科技文献数据的大规模知识图谱构建方法,通过深度挖掘实体本身特征及其相互关系,不使用固化三元组的知识图谱表示方式,而是通过定义实体特征字段和分布式计算技术支撑,实现实体信息的存储和实体关系的即时发现,解决三元组式知识图谱存在的数据一致性问题。2 研究现状知识图谱的思想可追溯到 20 世纪 5060 年由M.Ross Quillian和Robert F.Simmons等所提出的一种知识库语义网络(Semantic Networks)3,经历了“语义网络语义网(Semantic Web)链接数据(Linked Data)知识图谱”的演变历程4-6。目前知识图谱尚无统一标准的定义,部分研究者将它看作是一种有向图结构,描述了现实世界中存在的实体、事件或者概念以及它们之间的相关关系,知识 通 过 资 源 描 述 框 架(Resource Description Framework,RDF)的结构进行表示,每个事实被表示为一个形如的三元组,s是主体,其取值通常是实体、事件或者概念中的任何一个;p是谓词,其取值通常是关系或属性;o是客体,其取值可以是实体、事件、概念,也可以是普通的值。根据构建方式与覆盖范围,知识图谱可分为通用知识图谱和领域知识图谱。通用知识图谱构建过程高度自动化,大多为静态的、客观的、明确的三元组事实性知识,已有很多成熟的大型知识图谱,如搜狗知立方7、Zhishi.me8、WordNet9、DBpedia10、Freebase11等。领域知识图谱则是面向特定领域,以行业数据为主,构建过程半自动化,知识粒度更小、完备性更高,近年来在生物医学12、新闻媒体13、学术研究14-19等领域已有诸多实践。本文所涉及的科研知识图谱以科技文献和科研活动数据为语料基础,服务于学术研究人员或专业技术人员,是一种领域知识图谱。通过科研知识图谱对科研数据进行管理,进而构建高质量的科技资源分析服务平台,科技资源提供商及资源索引机构利用自身的数据优势,已有诸多 解 决 方 案。例 如 Springer Nature 推 出 的SciGraph14,通过整合传统出版格式的内容资源,创建学术出版领域的关联数据知识图谱,支持语义检索、动态语义发布及丰富的Web元数据获取。微软学术图谱(Microsoft Academic Graph,MAG)15,目前学术文献数量达2.3亿篇,提供检索、学术排名等功能。清华大学AMiner16利用信息抽取方法从海量文献及互联网信息中自动获取学者相关信息并建立学者描述页面,提供检索、学术评估、合作者推荐、审稿人推荐、话题趋势分析等服务。清华大学和微软研究院以AMiner和MAG为数据来源,融合建立多资源实体类型的异构的开放学术图谱(Open Academic Graph,OAG),提供了作者、出版地点、出版物以及相应的数据匹配信息,查询准确率超过97%17。上海交通大学发布的语义学术异构图谱AceMap18,描述超 1.1亿的多类型学术实体和 31.3亿关系信息,通过在网络拓扑结构基础上增加语义信息为学术大数据挖掘提供基础支撑。Wizdom.ai19知识图谱涵盖1亿出版物、1.12亿专利、7 100万作者、7.9万种期刊、9.9万机构、9.86亿概念映射、60亿事实、7.97亿引用,通过对相关数据进行分析,向科研人员提供全球新兴的热点和研究趋势、最前沿的研究机构和人员、文章推荐等。从组织维度分析,上述知识图谱的建设主要通过复用已有的本体框架或领域词汇并与其他数据资源进行关联。从内容维度分析,组织粒度大部分还处于出版物的元数据层面20。从数据存储维度分析,这些知识图谱存在多元异构特征,需要依据不同的数据格式选择对应的数据库管理系统进行数据存储,主要存储方式分为基于RDF的存储和基于图的存储。RDF数据库将构成事实的三元组抽象为图的形式,以唯一的URL作为标识,特别适用于存储大规模数据,可以通过SPARQL语句进行检索和操作,数据易于发布和共享21。目前主流的 RDF三元组数据库分为开源和商业两种类型,开源数据库包括Jena22、RDF4J23、RDF-3X24、GStore25,商业数据库包 括 Virtuoso26、AllegroGraph27、GraphDB28和Blazegraph29等。基于图的存储主要是以属性图的方式存储、处理和展示数据,相较于RDF数据库,为属性图结构中的节点和边设计了存储方案,可以更高效地管理紧密关联且动态变化的图数据,在关联查询的效率上具有显著提升,尤其在深度关联查询时表现更为优异,但是由于分布式存储的特性,原生图数据库对存储硬件资源要求较高。主要代表有142总第 74 期 2023 年 第 2 期Data Analysis and Knowledge DiscoveryNeo4j30、JanusGraph31、OrientDB32等。上述基于RDF和图的存储方案都是图数据模型的继承和发展,即通过顶点表示实体、边表示实体间的联系,以实现领域内相关数据的语义关联。这些存储方式都需要对属性和关系进行完整定义,可以最大限度保留语义信息,但所需存储空间大,且在处理新增数据时需要重构图。面向更新快、来源广、交叉程度高的科研领域数据,单一实体的变化会引起大量相关实体及知识图谱的更新,容易引发数据一致性问题。因此,本文基于关系数据库实体-关系模型(Entity-Relationship Model,E-R模型)和主外键约束的思想,依托分布式并行计算技术,结合科技文献实体及关系特征信息提出了隐式知识图谱的构建方法,将其应用于面向海量科技文献数据的大规模知识图谱构建。该方法通过定义实体特征字段以及根据特征字段确定实体间关系,避免了主体、客体和关系必须通过一条数据来存储的技术要求,适用于实体数据需要频繁修改的应用场景,满足科研知识图谱的构建需求。3 隐式知识图谱方案设计针对大规模科研知识图谱面临的实体持续更新和实体关系动态变化挑战,本文提出了隐式知识图谱构建方法,配合基于规则匹配的实体特征字段识别工具和隐式关系发现工具,实现对实体的持续更新和对实体关系的自动关联发现。3.1隐式知识图谱构建流程隐式知识图谱构建流程主要由实体特征字段识别、实体关系获取、隐式知识图谱关系即时发现引擎等模块组成,如图1所示。图谱的输入为各类科技文献资源,如期刊论文、会议论文、学位论文、专利、报告、标准等,实体特征字段识别模块对这些数据进行分析和处理,通过基于实体特征字段的识别工具从科技文献元数据中提取预定义的结构化字段,获得实体的特征值,作为该实体的唯一标识。实体关系获取模块基于特征实体的共现规则得到预定义的实体关系。图1隐式知识图谱构建流程Fig.1The Construction Process of Implicit Knowledge Graph143研究论文数据分析与知识发现实体关系获取过程根据已获取的实体特征值,通过预定义的实体关系规则调用隐式知识图谱关系即时发现引擎中的关联类操作接口,完成数据匹配,得到实体之间的关系。为方便服务调用隐式知识图谱,除关联类操作接口,本方法还提供基础类和聚合类操作API。基础类支持对实体的增、删、改等基本操作;聚合类操作将结果数据进行聚类处理,满足服务级别的分面、分类获取知识的需求。相比于三元组式知识图谱显式存储数据关系的模式,隐式知识图谱在构建时只对实体及特征字段进行存储,极大地缓解了存储压力,但查询时基于视图接口的关系实时获取服务需要强大的检索平台支撑,图谱需要存储在具有搜索引擎的技术集群中。本文提出的构建方法利用Spark等高性能计算技术完 成 知 识 图 谱 加 工 过 程 的 数 据 计 算,并 采 用ElasticSearch分布式全文搜索引擎搭建隐式关系发现计算平台,保障知识图谱的各级管理和操作,支撑下游基于海量科技文献数据的实体检索服务和知识发现应用。3.2实体特征及实体关系定义科研知识图谱以科研数据为主要研究对象,确定资源的范围后,根据元数据项、科研数据结构化特征等提炼实体特征字段。与传统的三元组知识图谱通过实体ID标识数据的方式不同,隐式知识图谱通过实体本身的特征字段集合标识数据,因此其实体特征值必须满足唯一性要求。而本文所面向的领域知识图谱具有多种类型的数据,既包括科技文献数据如图书、期刊论文、会议论文、学位论文、会议报告、专利等,又包

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开