分享
基于RDF的语义知识超图存储研究.pdf
下载文档

ID:3074764

大小:3.48MB

页数:13页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 RDF 语义 知识 超图 存储 研究
情报学报 2023 年 8 月 第 42 卷 第 8 期Journal of the China Society for Scientific and Technical Information,Aug.2023,42(8):967-979基于RDF的语义知识超图存储研究宋雪雁,张伟民,张祥青(吉林大学商学与管理学院,长春 130012)摘要 针对资源描述框架(resource description framework,RDF)存储效率低、难以存储复杂语义关系等问题,本研究引入超图理论,探索一种融合超图理论的语义知识图谱存储模型,以期实现RDF对超图数据的存储,为其他学者利用RDF构建知识超图提供参考。本研究构建了适用于超图结构的语义知识超图(semantic knowledge hypergraph,SKH)模型,与语义知识图谱(semantic knowledge graph,SKG)进行对比,分析其存储效率与复杂语义关系存储能力,并论述其在知识检索、知识推理、数据转换与可视化等方面的应用。研究结果发现,SKH模型具有比SKG更优的存储效率与复杂语义关系存储能力,SKG的知识检索和知识推理方式也适用于SKH模型,SKH模型数据在一定程度上能与SKG数据相互转换,SKH模型具有更加多元且表意丰富的可视化方式,对于信息资源管理领域复杂语义存储具有重要意义。关键词 RDF;语义知识超图;知识存储;超图理论Storage of Semantic Knowledge Hypergraph Based on a Resource Description FrameworkSong Xueyan,Zhang Weimin and Zhang Xiangqing(School of Business and Management,Jilin University,Changchun 130012)Abstract:To address the low storage efficiency and difficulty in storing complex semantic relationships in a resource description framework(RDF),the hypergraph theory is introduced to explore a semantic knowledge graph storage model that integrates the hypergraph theory to realize the storage of hypergraph data based on the RDF and provide a reference for other scholars to use the RDF to build knowledge hypergraphs.We construct a semantic knowledge hypergraph(SKH)model suitable for hypergraphs,analyze its storage efficiency and storage capacity of complex semantic relations by comparing it with a semantic knowledge graph(SKG),and discuss its applications in knowledge retrieval,knowledge reasoning,data conversion,and visualization.We established that the SKH model has better storage efficiency and complex semantic relationship storage capacity than the SKG.The methods of knowledge retrieval and knowledge reasoning of SKG are also applicable to SKH.The SKH model data can be transformed into SKG data considerably,and the SKH model provides a diversified and expressive visualization method.It is crucial for complex semantic storage in the field of information resource management.Keywords:RDF;semantic knowledge hypergraph;knowledge storage;hypergraph theory收稿日期:2022-09-30;修回日期:2023-01-11基金项目:国家社会科学基金一般项目“数据驱动的档案文献资源知识构建与知识服务研究”(21BTQ109)。作者简介:宋雪雁,女,1980年生,博士,教授,博士生导师,主要研究领域为知识组织与知识服务;张伟民,通信作者,男,1999年生,博士研究生,主要研究领域为知识组织与知识服务,E-mail:;张祥青,女,1993年生,博士研究生,主要研究领域为知识组织与知识服务。DOI:10.3772/j.issn.1000-0135.2023.08.008第 42 卷情 报 学 报0引 言资源描述框架(resource description framework,RDF)是万维网联盟推荐的一种基于图的数据模型1,其使用统一资源标识符(uniform resource identifier,URI)命名事物及其关系,构成三元组,该模型允许在不同的应用程序之间混合、开放和共享结构化和半结构化数据,具有促进数据集成的功能,在视觉上具有易于理解的优势,是在 Web 上进行数据交换的标准模型2。语义知识图谱(semantic knowledge graph,SKG)是基于RDF模型的一种应用,用于实现知识的存储与呈现、关联与发布,对于信息资源管理领域数字资源的知识化描述与开发具有重要价值。目前,语义知识图谱数据层的构建方式通常是基于关系数据库或二维表,通过 RDB2RDF 映射软件或根据其原理将关系数据库中的元组映射为RDF 三元组形式。然而,语义知识图谱间的关联关系大多只能连接两个实体,难以完全满足传统关系数据库向 RDF的转换。因此,需要在符合既有 RDF标准的基础上,探索新的知识存储方式,以实现语义知识图谱对复杂关系的存储与可视化。超图是图的延伸,打破了普通图谱只能实现“点-边-点”描述的局限,使得一条边连接多个顶点成为可能,也使得以图为拓扑结构的语义知识图谱存储复杂关系成为可能。2019年,中国电子技术标准化研究院发布的 知识图谱标准化白皮书 中提到,超图拥有简单图无可比拟的复杂关系表示方式,将是未来知识存储的研究热点,超图技术的探索将是知识图谱下一个研究方向,然而超图还没有较为理想的可视化方案3。据此,本研究以提升语义知识图谱普适性及其性能为目的,探索超图理论在语义知识图谱存储中的应用。1文献回顾1.1知识存储相关研究知识存储是保存知识化开发成果并提供后续利用的重要环节。目前,国内外对知识存储进行深入的研究相对较少,主要停留在存储工具的利用方面,且对于关系数据库、非关系数据库等知识图谱知识存储方式的观点不一。关系数据方面,高劲松等4认为,OWL(web ontology language)格式难以进行后期管理,建议采用关系型数据库 MySQL 对关联数据进行存储。非关系数据库知识存储主要有图数据库、RDF 三元组数据库等方式。Zhang 等5认为,基于图结构的存储是知识图谱研究的主流。张琪等6、Wei 等7、Zhao 等8均使用 Neo4j 存储知识图谱;还有学者利用图数据库 AllegroGraph 进行知识存储9。杭婷婷等10对比 RDF 存储与图存储方式,认为 RDF 存储适用于小规模、操作简单的图谱,表达能力优于图存储。陈涛等则根据不同存储方式对知识图谱进行划分,认为基于 RDF模型是语义知识图谱,也被称为关联数据,而基于图数据库存储的为广义知识图谱11,并对比关系数据库与三元组数据库,认为三元组数据具有易扩展、易维护、易访问、易迁移、高并发等优势12。除此之外,有学者利用非关系数据库 MongoDB 进行知识存储13。尽管图数据库在图计算、图挖掘等方面具有显著优势,但对数据缺乏严格的约束,容易造成数据质量参差不齐;而基于 RDF模型并使用 URI标识实体资源的三元组数据库具有严谨的数据格式和规范的国际标准,有利于实现语义互联互通。因此,本研究探讨的是基于RDF存储的语义知识图谱。1.2超图相关研究图结构被广泛应用于成对关系的知识存储中,而某些场景中存在难以用图结构存储的数据,超图比图更加泛化,具有强大的表达能力14。在超图有关理论研究方面,学者们对超图的张量谱性质15、一 致 超 图 边 连 通 性 与 最 大 边 连 通 性16、稀 疏 超图17、超网络关键节点识别18、加权超图最优推理近似算法19等问题展开深入探讨,为基于超图的实践探索提供理论支撑。在超图实践研究方面,陈文杰20、刘高等21、于亚新等22基于超图分别提出推荐 算 法 SCRH(scientific collaboration recommendation based on hypergraph)、产品设计知识智能推荐方法、EBSN(event-based social networks)个性化推荐及优化算法,并在知识推荐领域取得了一系列成果。此外,超图还被广泛应用于节点分类23、文本分类24、异质网络社区发现算法25、异构数据可视化分析26等诸多领域。现有研究通常是基于超图强大的表示能力进行探索,对超图存储方式的研究相对较少。超图作为一种有限集的组合学,用于论证组合问题结果有时会更简洁27,而知识图谱知识存储的本质即存储知识及其关联,可以视作以语义为纽带的复杂知识组合。因此,引入超图将为语义知识图谱领域带来新968第 8 期宋雪雁等:基于 RDF 的语义知识超图存储研究的研究方向。1.3超图与知识存储交叉研究在超图与知识存储交叉领域,学者们对知识超图架构与实践、知识存储方式等进行了探讨。高峰等28提出了针对金融领域知识的时序超图表示模型;李豪等29针对电力智库,将时间、层次、事实三个维度进行组合,提出三维知识超图架构,然而并未将其与 RDF 结合,详细论述其知识存储模式;田玲等30提出涵盖事理、概念、实例的知识超图三层架构,该架构将模式层进一步划分为事理层与概念层,然而并未针对 RDF的缺陷为实例层知识存储提出具体解决方案。学者们对知识超图存储方式也进行了一系列探索。Munshi等31为了加强知识图谱对复杂情景的表示能力,介绍了一种“超图-图”(hypergraph-graph,HG(2))的数据存储格式,并尝试将 RDF与 RDFs元素映射为HG(2)32;Chernenkiy等33认为,RDF模型缺乏简单的方式来描述多元关系,并提出应用元图(metagraph)解决RDF知识表示局限;Terekhov等34也提出应用元图进行复杂的知识表示,元图的知识表示架构改变了SKG平面化的结构,使知识超图不仅可以存储知识,也可存储多维、多层级知识结构;Krtkiewicz35针对语义知识库设计面向关联元模型的超图数据模型,提出将边视为角色集的思想。尽管学者们未详细论述如何基于 RDF数据格式存储元图,但这种知识结构为本研究探索适用于RDF存储格式的知识超图模型提供了借鉴。总体而言,对知识图谱知识存储方式的研究相对较少,通常是对现有存储工具的应用,少有学者深入分析现有知识存储模式尤其是 RDF三元组的不足,进而改进现有存储方式,而超图相关理论、方法已经相对成熟,且已有学者从理论框架与存储方式等方面对应用超图理论实现复杂知识存储进行了探索。尽管大多数学者并未详细阐述基于 RDF的知识超图存储方案,但其超图架构、HG(2)、元图等均对本研究具有较高的借鉴意义。基于此,本研究探索将超图理论融合 RDF三元组的存储方式,以期实现复杂知识的存储,并分析如何基于该存储方式进行知识检索、推理、数据转换与可视化。2语义知识超图存储模型构建语义知识图谱通常分为模式层与数据层。模式层是对数据层数据的描述与约束,内容简洁,不存在复杂语义存储问题,因此,本研究主要对数据层进行讨论,数据层可以表示为 G=E,R,F,其中 E、R、F 分别表示实体集合、关系集合与事实集合,每条事实以三元组(h,r,t)表示36。作为语义知识图谱的拓扑结构,图(graph)可以表示为 G=Vg,Eg,其中 Vg表示节点,Eg表示边。与图类似,超图也可表示为 H=Vh,Eh,其中 Vh表示节点,Eh表示超边。当秩为 2 时,超图就是普通的图27,因此超图可以视为图的一般形式,图则是特殊的超图。Munshi 等31提 出 的 HG(2)模 型 将 问 题 空 间(problem space)划 分 为 图(problem space graph,PSG)与超图(problem space hypergraph,PSH)两层,并用连接器(connectors)连接两层数据。然而,在现实中难以将图与超图完全分离。Chernenkiy等33、Terekhov等34均推荐的元图,是通过元顶点将扁平的图结构立体化,实现复杂关系的分层与嵌套表示。本研究综合 HG(2)与元图模型的优点,并结合RDF 语义标准及其三元组存储特点,构建了简化且适用多场景的语义知识超图(semantic knowledge hypergraph,SKH)存储模型,该模型可以表示为SKH=V,HEV,E,HE其中,V 表示超图中的普通节点;HEV 表示特殊的超边节点,用节点替代超边以实现 RDF 存储超边;E 表示边,既可以连接普通节点,也可以连接超边节点,可以表示为 E=(v1,v2),其中 v1,v2VHEV;HE 表示超边,用于连接 HEV 及其对应超边上的节点。SKH 模型中,V 与 HEV、E 与 HE 通过本体构建进行语义划分。SKH 模型如图 1c 所示,其中普通节点 v1,v2,v3,v4,v5V,超边节点 hev1,hev2HEV,边 e1,e2,e3E,超边 he1,he2,he3,he4,he5,he6HE。HG(2)模型实现了图与超图的分层表示,元图则通过嵌套的方式,提供多层级的立体知识结构。SKH模型则有效将HG(2)、元图模型以及 RDF数据模式融合,既保证了超图节点关系的有序性,又兼顾了元图的灵活性,同时符合现有 RDF语义标准,可以通过三元组的形式进行知识存储。相比于现有RDF模型,SKH可以实现部分节点的聚合,优化存储空间,适用于多场景的语义知识存储。SKH 模型为复杂数据属性的存储提供聚合方式,如图 2 所示,当实体具有多组属性相同但属性值不同的三元组时,将该实体作为所有三元组的主语会出现语义混乱,难以区分属性值间的组合关969第 42 卷情 报 学 报系,而 SKH模型中超边节点为各组属性三元组提供属性空间,此时超边节点作为属性的集合,共同构成该实体。因此,在对复杂属性存储时,SKH 模型中的超边节点可以视作比实体低一阶的特殊实体。SKH 模型不仅可以优化复杂数据属性的存储方式,还提升了复杂语义关系的存储效率与效果。语义知识图谱的构建通常是基于传统关系数据库,基于 SKH模型的知识超图也可以基于传统关系数据库构建。因此,探究 SKH模型对复杂语义关系存储的优化,可以围绕关系数据库主要关系类型及其向RDF 的映射展开讨论。根据关系涉及的实体类型及其在关系中的语义,本研究将关系数据库实体间联系分为二元实体联系与多元实体联系。其中,多元实体联系又根据同一实体类型中参与构成关系的实体数量不同分别进行讨论。2.1二元实体联系存储解析二元实体联系指仅涉及两个实体的联系,二元实体联系根据集合中实体的对应关系可划分为一对一联系(11)、一对多联系(1n)以及多对多联系(mn)三类(图 3)。其中,两个实体既可以分属于不同实体型,如书籍与作者之间的联系;也可以同属于一个实体型,如一篇文献与另一篇文献之间具有引用关系,而两篇文献均为同类实体。在关系数据库中,一对一联系与一对多联系的存储模式相似,均可以采用图 3d 和图 3e 所示的两种关系模式,而多对多联系只能采用图 3e所示的独立关系模式。将二元实体关系由关系数据库映射为 RDF较为简洁,而且较难出现语义上的混乱,只需要根据 RDB2RDF 规则映射为即可。因此,仅存在二元实体关系时,SKH 模型采用与SKG一致的存储方式。二元实体联系是目前语义知识图谱常涉及的联系类型,然而并非真正反映客观世界的实体联系。时间实体、地点实体与其他多数实体具有联系,但对特定问题进行研究时,会忽略研究意义较小的时间实体、地点实体,或将其设为属性,以简化实体联系;当研究问题需要建立多个实体联系时,大多SKG 将其简化为二元实体联系分别建立实体间的关联。例如,书籍、出版时间与出版社之间的联系,往往构建书籍与出版时间、书籍与出版社间的关联,即建立和两个三元组,而忽视出图2SKH模型属性存储图1HG(2)31、元图33与SKH模型970第 8 期宋雪雁等:基于 RDF 的语义知识超图存储研究版社与出版时间的关联,即便建立二者间的联系,也不具有实际意义,且该方式难以区分二元关系所属的多元关系或作为独立二元关系存在35。因此,二元实体联系可以视作 SKG构建的主要方式,可以极大简化问题分析流程,迅速得到有效结论,但该方式所建立的多元实体联系较为松散。2.2多元实体联系存储解析现实世界中的联系往往是多元的,多元实体联系涉及 3 个及以上、具有不同语义的实体型。假设有k元实体联系,其对应关系为n1n2nk。其中,k2,ni=1,2,3,,i=1,2,3,k。若 ni全部为 1,则在关系数据库存储模式与二元实体一对一联系相似;若 ni中仅有一个不为 1,则在关系数据库存储模式与二元实体一对多联系相似;若 ni中存在两个及以上不为1,则在关系数据库存储模式与二元实体多对多联系相似,即需要建立独立的关系模式。多元实体联系适用于多种领域,以非物质文化遗产领域“宜兴紫砂陶制作技艺”师承知识存储为例,假定师承关系为三元联系“师承(师傅,徒弟,技艺)”,据此探讨SKH模型对多元实体联系存储的优势。(1)111联系存储优势分析假定在某一时期,师傅、徒弟、技艺的联系是111,即一位徒弟仅能选择一位师傅、学习一门技艺,师傅同样也只能教授一名徒弟、传授一门技艺,一门技艺也只能由一位徒弟、师傅掌握,且该时期内一个人不能同时作为徒弟和师傅出现。将其存储为 RDF存储模式,在不考虑互反关系时,需在其中选择一个实体作为三元组主语,其他实体作为宾语,如图 4a 和图 4b 所示,假设对于砂陶制作技艺中“陶刻”,由“Master_1”传授给“Apprentice_1”,以徒弟作为主语,以师傅和技艺作为宾语,建立图中关系,为加强语义表达,三元联系的 3 个实体应两两间均建立关系,即共计 6 个三元组。随着联系所涉及实体不断增加,其所需存储的三元组数量也逐渐增加,存储三元组数量与实体数量呈现二次曲线关系,关系每增加一元,增加后达到 k 元关系,关系存储所需的三元组增加 2(k-1)(图4c),导致多元联系的存储具有极高的冗余性。SKH 模型可以有效减少三元组存储的复杂度,如图 4d 和图 4e 所示,通过超边节点,建立实体与实体间的并列关系,在关系涉及实体较多时,SKH可以极大地减少存储所需的三元组(图 4f)。然而,在现实世界中,ni均为 1 的多元联系极其稀少,大多数实体均随时间变化而与多个实体产生联系,甚至在同一时间,一个实体也会承担一个关系的不同图3二元实体关系及其数据库关系模式971第 42 卷情 报 学 报角色,如三元师承关系中,一个师傅可能会教授多个徒弟多门技艺,徒弟可能既向师傅学习技艺,同时又招收门徒传承技艺,因此,需要进一步探讨更为复杂的多元关系。(2)11n联系存储优势分析假设师傅、徒弟、技艺的联系为 11n,即徒弟可以学习,师傅可以传授多门技艺,其余假定条件不变。基于该假定条件,其 SKG 存储与 SKH模型存储方式、图解及其对比如图 5 所示。其中,图 5a、图 5d 分别表示一名徒弟、一名师傅以及“陶刻”“镶嵌”两项技艺在 SKG 与 SKH 模型存储的三元组;图 5b、图 5e 表示对应的图解;图 5c 表示 k 元 11n 关系中 k 与 n 逐渐增加时,SKG与 SKH 模型存储所需三元组数量;图 5f 表示相较于SKG,SKH模型对存储效率的优化比例。在SKG存储中,除技艺与技艺不存在语义关联外,均需在实体间构建语义关联。当师傅传授 n 门技艺时,共计 2(1+2n)个三元组;当拓展至 k 元关系时,则需(k-1)(k-2+2n)个三元组。而 SKH 模型仅需构建超边节点与普通节点间的关联,当师傅传授 n 门技艺时,共需(2+n)个三元组,存储空间优化比例达60%75%;当拓展至 k 元关系时,则仅需(k-1+n)个三元组,联系所涉及实体型越多,即 k 越大,SKH模型存储效果越优。当k10时,SKH模型对SKG存储的优化比例可以达到 90%以上。由此可见,对于多元实体联系存储,SKH模型存储效率相比于 SKG具有显著优势,且使得语义关联更加紧密。(3)1n1n2联系存储优势分析相比于 11n 联系,1n1n2联系更为常见且更为复杂。用集合 A、B 分别表示一个关系中 n1、n2所在位置实体集合,若集合 A、B 中每一个实体均与另一集合中全部实体关联,则本研究称该关系为完全对应关系;反之,则称为非完全对应关系。假设师傅、徒弟、技艺的联系为 1n1n2,即一位师傅可以传授多名徒弟多种技艺,其关系图解如图 6 所示。完全对应的师承关系在 SKG 中通常以图 6a 的方式存储,而在 SKH 模型中不仅优化了存储空间,还具有多种存储方式,可以在普通节点数量固定、其他语义信息缺失或模糊的情况下表示不同含义。若师承关系中传承时间、传承地点等其他信息缺失,在图 6a 中,SKG 仅能表示师傅传授了两名徒弟两个技能,无法表示两名徒弟是否共同学习两项技能、是否两项技能在同一时间学习;而在SKH 模型中则可以清晰表示,图 6c 表示两名徒弟共同学习两项技能,图 6d 表示师傅在不同时间单独传授两名徒弟技能,徒弟之间可能互不相识。除图4111三元师承关系以及k元与(k-1)元关系三元组数量对比972第 8 期宋雪雁等:基于 RDF 的语义知识超图存储研究图511n三元师承关系的SKG存储与SKH模型存储图61n1n2三元师承关系图解973第 42 卷情 报 学 报此之外,SKH 模型还可以对其他可能的语义关系进行有效存储。例如,两项技能在不同的时间传授、两项技能在不同时间且单独传授等。图 6b 和图 6e表示非完全对应的师承关系,即师傅因材施教,对不同的徒弟传授不同技能,非完全对应的关系是在完全对应关系的基础上,去除部分实体联系简化而成,SKH 模型对非完全对应的语义关系存储具有同样的优势。相比之下,SKH 模型存储更为简洁、高效,且对部分信息缺失或模糊的关系具有兼容性,对复杂知识具有更优的语义表达能力。(4)n1n2n3联系存储优势分析相比于上述三类联系,n1n2n3联系更为普遍,师傅、徒弟、技能之间是多对多的联系,师承关系中实体的关系更加自由,更接近现实世界的实体关系。SKG 与 SKH 模型对该联系的存储如图 7所示。由于 SKG对多元关系的存储主要是分解为多个二元关系,联系松散,存在语义缺失。图 7a中两位师傅、两项技能、两名徒弟之间是完全对应关系,对该存储具有多种可能的解读,如两名师傅均将两项技能传授给两名徒弟,或“Master_1”将“Skill_1”传授给“Apprentice_1”,将“Skill_2”传授给“Apprentice_2”,“Master_2”将“Skill_2”传 授 给“Apprentice_1”,将“Skill_1”传授给“Apprentice_2”等。因此,对于存在三元及以上多对多的联系,SKG 因存储结构松散导致语义缺失、关系混乱,必须采用更高一阶的实体进行知识聚拢,即 SKH 模型中的超边实体,图 7b 和图 7c 分别存储图 7a 可能代表的两种语义关系,前者表示两位师傅共同传授、两位徒弟共同学习两项技能,后者表示两位师傅均传授两项技能,但每位师傅将每项技能传授给一位徒弟。除此之外,还存储其他可能存在的语义关系,加之信息缺失或模糊可能产生关系的多样性,以及联系涉及实体型增多导致关系的复杂性,使得 SKH 模型在复杂语义关系存储方面更具优势。综合上述分析,对于 k 元实体联系 n1n2nk,其中 k2,ni=1,2,3,,i=1,2,3,k,存在当 ni=1 时,均会以联系比例为1的实体为中心,形成孤立的知识集合,需通过其他联系打破知识孤立的局面;仅存在不超过两个 ni大于 1 时,SKG 可以明确存储该联系的语义关系,SKH 模型则优化了 SKG 存储,同时在无法明确某些实体时可以表示更加丰富的语义,如已知时间不等但无法确定具体时间时,可以通过超边节点划分实体所属的时间空间;当存在超过两个ni大于1时,SKG无法明确存储其语义关系,而 SKH模型则具有良好的兼容性,可以存储更为复杂的语义关系,又因为将关系实例化为超边节点,故可以为其附加属性,增强语义存储能力。3语义知识超图模型应用SKH 模型是基于 RDF,结合 HG(2)、元图等提出的知识存储模型,以超图适用于 RDF为目的,因此,SKH 模型在检索、推理等方面的应用与 SKG相似,且可以通过一定映射规则将关系数据库的数据映射为 SKH 模型数据,SKG 与 SKH 模型数据在一定程度上也可以相互转换,具有优越的兼容性;在可视化方面,由于其层级性,SKH 模型具有更加多元且含义丰富的呈现方式。3.1SKH模型检索与推理与 SKG 检索相似,SKH 模型也使用 SparQL 进行检索,但存在一定差异。SKG 建立实体与实体间直接的联系,因而检索时可以直接检索与已知实体相关的实体或属性;而 SKH模型借助超边实体存储图7n1n2n3三元师承关系图解974第 8 期宋雪雁等:基于 RDF 的语义知识超图存储研究复杂知识,实体与实体间缺少直接关联,因而检索时需以超边实体为中介,通过间接的方式获取所需知识。同时,超边实体的使用,使得数据结构层级更加复杂,将超边实体视为普通实体上一层级,而超边实体又能作为普通实体参与构成另一超边,层层嵌套,结构复杂。如图 8 所示,语义超图共包含 4 个层级:将用于描述“Entity_1”的一系列属性视为层级 0,将用于对这些属性分组、作为容器的“hevP_1”等超边实体视为层级 1,将“Entity_1”等实体与描述超边实体“hevE_1”的属性均视为层级 2,将超边实体“hevE_1”视为层级 3。SKH模型层级的复杂性,导致检索时需通过自下而上和(或)自上而下的方式层层检索。例如,若要通过“Entity_2”检索“Entity_1”,则必须先寻找上一层级实体,即超边实体“hevE_1”,再进行检索,无法直接通过实体检索超边上另一实体。图 8a中检索具有关系“he_1”“he_2”,以及属性“propertyE_1”“propertyE_2”的超边,仅涉及层级 2 与层级 3 中实体与属性;图 8b 中检索实体以及实体每个状态所对应的属性,通过自上而下的检索方式,检索从层级 0 到层级 2 共 3 个层级的实体与属性。SKH 模型的层级性反映了由微观粒子到客观世界的组成方式,相应的层级检索反映了人类从浅入深、由宏观到微观的思考问题、认识世界的过程,有助于借助数字技术实现语义层面的数字孪生。图8SKH模型检索975第 42 卷情 报 学 报知识推理是通过利用已有规则或编写自定义的推理规则,发现隐含知识关联的过程。对于已有规则,SKH 模型同样适用,但降低了部分推理规则的使用频率,如互反关系、对称关系等;而部分推理规则因 SKH的层级性产生更为重要的作用,如传递关系在分析事物多级构成要素时具有重要意义。对于自定义推理规则,SKH 模型与 SKG 均基于 RDF三元组存储,均可使用 SWRL 等编写推理规则,检索符合推理条件的若干三元组,构建新的语义关联,实现知识推理。通过知识推理,SKH 模型不仅可以挖掘隐含知识,还可以将超边分解,转换为普通边。对于挖掘隐含知识,SKH 模型由于其精准的语义存储能力,推理结果比 SKG更为精确,又因其复杂的层级结构,推理规则的编写更为复杂;SKH模型对超边上节点关系的推理,则可以将超边重构为若干普通边,实现超边向普通边的转换或两者共存于同一知识图谱,同时满足多场景的不同需求。3.2SKH模型数据转换与 RDB2RDF(relational database to RDF)映射相似,关系数据库也可以根据一定规则映射为符合SKH 模型的数据。复杂语义关系向 SKH 模型映射如图 9 所示,同一实体具有多组属性(图 9a)时,将关系数据库中每一个元组的主键与超边节点命名空间结合,创建超边实体,作为外键的、属性真正描述的实体映射为普通实体,并作为三元组的首实体与超边实体建立联系,属性值描述超边实体;具有复杂的多元实体关系或关系具有属性描述(图9b)时,与实体多组属性映射相似,主键映射为超边实体,外键映射为普通实体,属性描述超边实体。若主键包含多个字段,则可映射为空节点或参照万维网联盟推荐的Direct Mapping创建超边实体。尽管两者均建立超边实体与普通实体间联系,并以属性描述超边实体,但其含义截然不同。前者以普通实体作为首实体,超边实体作为尾实体,在语义上比普通实体更低一阶,且两者之间的边为普通边,属性通过超边实体提供的属性空间,间接描述普通实体;后者则以超边实体为首实体,普通实体为尾实体,在语义上超边实体是比普通实体更高一阶的实体,且两者之间的边为超边,属性旨在描述超边实体,为普通实体丰富语义环境。SKH模型与 SKG具有一定兼容性,且在一定程度上也可以相互转换,公众可以自由选择两种知识存储方式。如图 10所示,SKG知识通过 SPARQL查询将知识提取为二维表,按超边实体进行分组,将其映射为 SKH 数据,实现 SKG 向 SKH 模型知识的转换,SKH模型知识通过知识推理可以转换成 SKG知识。对于目前已存在的大量语义知识图谱,SKH模型以其优越的兼容性,既可以将已有的语义知识图谱转换为基于 SKH模型存储的知识,以优化知识存储,并在其基础上进行复杂语义存储,又可以将SKH 模型中简单知识转换成基于 SKG 存储的知识,适用于多类人群,为广泛推广奠定基础。3.3SKH模型可视化与 SKG 存储方式相比,基于 SKH 模型存储的知识可视化方式更为多元。SKG 存储的知识通常采用扁平化的二维可视化工具,如 Echarts、Neo4j、图9关系数据库向SKH模型映射976第 8 期宋雪雁等:基于 RDF 的语义知识超图存储研究D3 等,也可以采用空间化的三维布局。由于 SKG数据结构单一,除所属类别外,缺乏其他明确统一的分层依据,因此,一般不进行分层表示。而 SKH模型引入超边关系与超边实体,增添了统一的聚类依据,可以明确划分节点与节点间的上下级关系,因此,SKH模型具有更加多元的可视化方案。SKH 模型可视化方案如图 11 所示,SKG 的非层级化平面布局与空间布局同样适用于 SKH 模型,且在空间布局中具有与 SKG可视化不同的内涵。以基于力引导算法的非层级化空间布局为例,SKG 节点以关系为纽带,互相牵引,没有关系的节点间相互排斥,最终低中心度节点向高中心度节点聚拢,可能呈现区域性分布特点,而每一个区域可能表示具有共同特征的某类节点。如以时间为中心,周围聚集了同一时间出生的人、创造的事物等;亦可能表示一系列关系紧密的节点,如在用户信息透明的图10SKG与SKH模型数据转换图11SKH模型可视化977第 42 卷情 报 学 报假设条件下,将不同在线社区的用户及其交互关系绘制社会网络,每个社区极易形成自己的“小世界”,内部用户联系紧密。除此之外,还存在信息缺失导致关系缺失,最终形成无规则聚集等多种可能。在仅存在超边的数据结构中,SKH 模型中以超边实体为中心,层层聚集且结构分明;当数据同时含有超边与普通边时,可以在力引导算法中为 SKH模型超边设置较高的“劲度系数”与较短的“自然长度”,使超边连接的实体相互聚集,普通边连接实体的聚集程度次之,无关联的节点尽量离散,形成局部聚集、层次更加清晰的网状结构,SKH 模型中超边实体为超边所连实体提供了环境信息,因此,围绕超边实体聚集形成的区域性特点具有相对明确的含义。由于 SKH模型的层级性,其可视化布局不仅可以实现实体间聚集,不同区域也向其上级实体聚拢,多层嵌套,表意更加丰富,并且反映了由微观到宏观的世界组成方式。SKH 模型非层级化的可视化方式反映了客观世界的组成方式,而层级化的可视化方式则清晰地从粗粒度到细粒度、由浅入深地分层呈现存储知识的架构。SKH 模型中,超边连接实体,均视为首实体位于尾实体上一级,据此 SKH 模型可视化将实体(含超边实体)划分为若干层,普通边既可以存在于每层内部,也可以进行跨层实体连接,而超边仅能进行跨层连接,若该层含有超边实体,则将超边实体视为普通实体参与关系构建。非层级化可视化方式呈现以超边实体为中心的区域性特点,而层级化可视化方式则为每个实体赋予层级,每个层级为实体提供相对独立的知识空间,清晰呈现各层实体间关系。层级化的可视化方式有利于表示超图与普通图混合存在的 SKH模型知识,然而为了进行清晰的层级划分,需要对基于 SKH模型存储的知识结构进行精细设计,增加了 SKH模型的使用难度,同时也使得其存储的知识更加规范。4总结与展望本研究基于语义知识图谱知识存储局限,借鉴HG(2)与元图模型,提出简易、通用的 SKH 模型,以非物质文化遗产领域师承关系为例,围绕关系数据库主要关系类型及其向 RDF 的映射,分析得出SKH 模型比 SKG 知识存储效率更加优化,且可以存储内涵更加丰富、结构更加复杂的语义知识,对复杂实体属性存储具有优势。SKH 模型可以沿用SKG 的检索与推理方式,且其优越的语义存储能力使得检索与推理结果更为精确,其复杂的层级结构使 得 检 索 与 推 理 更 为 复 杂。借 助 检 索、推 理、RDB2RDF 映射等方法,SKH 模型在一定程度上可以与关系数据库、SKG 等知识存储方式互相转换,具有优越的兼容性,适用于多场景知识存储,同时基于 SKH模型的知识存储结构具有更加多元、清晰且表意丰富的可视化方式。SKH 模型尽管在语义存储方面具有广阔前景,但仍存在一定局限性。首先,本研究以非连续的实例阐释 SKH模型对知识及其语义关系的存储,但未在已知语义知识较为完整的领域体系进行具体应用;其次,尽管 SKH 模型实现了对复杂语义的存储,但随着语义不断复杂,其检索与推理规则更加复杂,在一定程度上影响了检索与推理效率;最后,目前利用语义知识图谱进行知识存储最为普遍,尽管对于简单语义关系,二者之间可以相互转换,但转化过程相对较为烦琐,对使用者要求较高,并且由于 SKG 知识存储的局限,基于 SKH 模型的复杂语义关系难以向语义知识图谱转换。针对上述研究局限性,未来研究可在以下方面继续深化:以具体领域的完整语义知识作为研究对象,应用 SKH模型进行语义存储,探索其在实践应用与理论研究中的差异,持续完善 SKH模型,提升其普适性和实用性,提高信息资源管理等领域语义知识存储效能。简化 SKH 模型检索与推理方法,通过预定义规则等方式提高其检索与推理效率。优化数据转换流程

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开