温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
数据
技术
知识
图谱
融合
探析
杨学超
数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering202面对爆炸式增长的海量数据,抽取海量数据信息隐含的有效知识,并为人类或机器文本理解提供所抽取的知识逐渐成为当前重点研究内容。多源异质、结构松散是互联网中包含内容的基本特征,某种程度上加大了知识抽取、知识存储难度。机器学习、专家系统、数据整理与挖掘等先进技术手段出现与应用,为知识图谱进一步发展创建了十分有利条件。但由于国内知识图谱的应用研究相对较晚,仍有制约因素多、效率不高以及拓展性不足等问题亟需解决。1 知识图谱研究现状分析于 2012 年由谷歌提出关于知识图谱的概念,其目的是进一步增强谷歌搜索引擎的综合能力,加快结果搜索的速度以及搜索结果准确性提升,给予用户更为优质的搜索体验服务。知识图谱本质上是对各种实体或概念及其关系进行描述,并在此基础上形成一张覆盖范围较广的语义图,其中实体或概念由节点进行表示,而节点的属性或构成关系则是由边表示。知识图谱在人工智能技术水平不断提高的支持下,不仅在学术界与工业界得到普及应用,同时对当前智能检索、大数据风险控制以及智能问答等领域的创新发展也起到了积极的促进作用。通过对现阶段知识图谱应用情况的调研与分析,其中在各领域中最具有影响力的知识图谱,主要涉及以下几种类型:(1)谷歌知识图谱 Freebase 是一个具有创作共享功能的网站,操作原理基本与 Wikipedia 类似,用户可以采取创意共用的形式添加所有内容1。(2)“Yet Another Great Ontology”,简称“YAGO”,由德国 Max Planck 计算机科学研究所完成其系列知识图谱的创建,通过整合维基百科与 WorldNet 的大规模本体构建另一种大规模本体。现阶段“YAGO”所拥有的实体数量约为 459 万左右,并包含 10 种语言体系,充分满足完全下载数据集的需求。(3)微软 Satori 和 Facebook 的 Entity Graph 也是目前在相关领域中有着一定影响力的知识图谱,计算机可以在微软知识谱图的帮助下实现更好地运作,该类型知识图谱属于较大型的系统结构,需要以亿计的网页与多年积累的搜索日志承载知识图谱系统所包含的知识,可将常识性知识提供给相关计算机,便于更加准确地理解文本内容2。大数据时代到来,以及不断深入发展,自主研究与构建知识图谱逐渐成为国外诸多研究机构所聚焦的热点,从目前我国针对知识图谱的构建,由于起步较晚,具有规模化的知识图谱的互联网企业数量较少,主要包括以下几种:(1)百度的知识图谱 Schema。该知识谱图在实际应用过程中起到对百度内外部合作方结构化数据交换进行规范的作用,同时也是构建百度知识图谱以及进行知识计算的核心数据结构。(2)阿里巴巴的商品知识图谱。以阿里巴巴销售的商品作为自身知识图谱的核心,并基于积累的海量数据应用,集成融合实体识别、实体链指及语义分析等技术手段完成一个大型的商品库构建,促进用户服务水平进一步提高。(3)搜狗的知立方。以给予用户更加简单化的信息获取体验为核心,自知立方构建与发布以来,是国内基于大数据技术的知识图谱融合技术探析杨学超张帆(国家计算机网络与信息安全管理中心新疆分中心 新疆维吾尔自治区乌鲁木齐市 830017)摘要:本文对知识图谱研究现状进行分析,并对基于大数据技术的知识图谱融合关键技术要点加以阐述,结合相关行业领域中知识谱图应用,提出基于大数据技术的知识图谱融合目前所面临的挑战以及未来应用掌握,以期为未来研究多源知识有效融合提供参考,进一步拓宽知识图谱应用领域。关键词:大数据技术;知识图谱;融合技术数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering203搜索引擎行业中第一家知识搜索产品。例如,在当前医疗健康领域中,谷歌构建了包含常见病症、治疗方式以及受病症影响最为严重的年龄群体等内容的知识图谱;国内则是由中国医学院医学信息研究所通过分析与整理医药卫生领域各类知识,并应用信息可视化技术、图形学等技术手段构建包含五大类涉及300 多种疾病的知识图谱。2 基于大数据技术的知识图谱融合关键技术要点2.1 知识图谱融合面临的问题通过对现阶段知识图谱应用研究的情况的调研与分析,其研究内容主要包括两个方面:(1)基于大数据源有效集成,构建用于支持知识图谱高效融合的方法。(2)知识图谱融合平台建立的前提,需要先解决现有知识图谱分散分布以及异构等问题。打破原有针对某一领域检索获取知识图谱的研究局限,而是以分析、验证、总结、集成等多种方法研究应用来自不同源的知识。对不同来源的数据进行映射达到获取多特征数据库目的,并对某一领域的情况进行深入分析,是过去较为常用的方法。现阶段正处于大数据时代,海量数据爆炸式增长,且数据种类繁多,在一定程度上提升了知识获取与表示的难度。因此,基于大数据技术,应用知识图谱融合技术解决上述问题,获取不同来源中包含的知识,在知识存储的基础上完成知识图谱构建,即可将有用的知识与意见从构建的图谱中进行获取,并对其融合处理形成统一的知识图谱3。对大量不同类型的数据主题进行处理时,也可通过应用知识图谱融合技术实现对更高质量、更加准确相关知识的获取,有效减少研究人员工作量的同时,也能促进研究工作效率提升。从目前知识图谱融合技术研究情况来看,所面临的问题具体涉及以下几个方面:(1)由于知识图谱涉及领域的覆盖率较高、抽象类细节较多,加上包含的知识具有多语言体系,致使知识图谱融合过程中需要处理诸多复杂的关系。(2)在不同来源的信息中以各种形式存储与表示的知识,使其具备了异质性特点,加大了知识图谱融合难度。(3)对一个合适的模型进行验证与确认是目前阻碍知识图谱融合技术应用的最大问题,如需要在特定领域中以特定的方式评估知识图谱。(4)异构性、更新不及时、冗余等是知识图谱所包含信息的基本特点,若知识图谱质量过低,将会影响用户对智能系统的使用,并降低其信任度。(5)现有知识图谱仍存在无法安全共享知识的风险,极易泄露用户个人隐私。因此,对现有知识图谱进行集成、增强以及统一处理,并与智能系统相连接,有利于促进系统更加智能化、准确化的建设。由于智能系统类型不同,在知识图谱输入与输出方式、用户群体以及需求等方面也有着较大差异;根据不同情况对合适的知识图谱融合技术进行选择尤为重要。2.2 基于大数据技术的知识图谱融合关键技术2.2.1 嵌入方法学习如何将知识图谱的实体和关系嵌入在低维向量空间中,即为知识图谱嵌入方法,通过对一个评分函数进行建立并用于衡量三元组在嵌入空间是否合理,该过程中即为如何有效嵌入的学习过程。是三元组在知识图谱中的表示,头与尾的实体用 h,t 进行表示,r 则表示关系。粗体字母 h,r 和 t 用于表示相应的嵌入方法。S 表示正确的三元组、S 表示损坏的三元组;E 表示一组实体、R表示一组关系、K表示嵌入空间中实体的维数、d 表示嵌入空间中关系的维数。基于向量空间进行翻译是知识图谱嵌入最为常用的学习方法,具体操作过程中是用向量空间中的一个点表示每个实体,每个关系则是该空间中投影或翻译操作的表示。针对嵌入学习方法的应用,可在链路预测、三元组分类、实体分类等多种任务中应用实体和关系嵌入的学习方法。其中链路预测或补全知识图谱,是以给定关系和一个实体为基础对另一个实体进行预测,对缺失的关数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering204系进行补全,该任务是知识图谱融合中最为关键的环节4。合理排名候选实体,再对相应的实体进行选择用于解决链路预测问题。例如,针对头实体预测任务应用嵌入学习,基于翻译方法中的评分函数对候选者(知识图谱中的每个实体)的排名列表进行获取,再通过三元组分类对知识图谱中的事实 真实性进行判断。也可将该任务作为删除知识图谱融合中假事实的有效手段。与链路预测任务操作原理基本一致,均可采用评分函数的方式对知识图谱中三元组的合理性进行衡量。实体分类则是将实体划分为不同语义类别的任务,在实体与实体类型之间对该任务的连接进行创建时,此过程即可看作一项特定的链路预测任务。2.2.2 实体消歧方法对一个或多个知识图谱中两个实体共同引用现实世界的实体进行识别,该方法即为实体消歧或实体解析。实体消歧是融合多个来源数据时用于将重复信息进行删除的有效方法。一般情况下,一个实体均有可能在知识图谱或多个数据源中多次出现;若基于不同的数据源对知识图谱进行构建,或合并不同的知识图谱,许多重复的实体均会被包含于最终构建的知识图谱中。因此,必须应用实体消歧方法将知识图谱融合中存在的冗余或混乱信息进行适当减少。基于跨数据源对重复实体进行检测,是当前一项极具挑战性的任务。受到信息抽取系统完善程度不足或原始数据缺失完整性因素干扰,导致抽取信息时出现歧义问题。由于计算过程极为复杂,朴素实体消歧方法极有可能在应用过程中其复杂性随着 KG 中节点数量增多而提升。该情况出现的原因与需要对类似实体进行寻找有着密切关系,类似实体寻找的前提需要对 KG 中每个可能的节点进行比较。另外,以随机的方式选择一对实体时,其最终结果一直是不同的实体有着较大的概率。虽然朴素实体消歧方法复杂程度较高,但可以通过结合“分块技术”实现计算复杂性降低。将一组可能相似的描述分类到一个群中,即为分块技术。仅在同一“块”内的描述对比实体消歧系统,有利于减少对比实体消歧系统的频率。通常情况下,待实体分组为不同的块后,需要对相同块的实体进行比较,以此获得其中存在的重复项。由此可知,实体消歧方法由实体分块与实体比较两个部分构成,具体操作过程如下:(1)实体分块。将可能相似的实体分类为一个块,该过程为实体分块的预处理过程,同时以比较实体的方式降低计算过程的复杂性。通过应用分块技术在一定程度上能够有效避免对大量实体进行比较的情况,简化实体聚类过程,并在分块技术应用过程中以共享的相似功能为依据,实现对实体的合理分组。以词项分块为例,若词项满足共享需求,即可对同一块两组进行描述,可实现在匹配描述中对一个词项进行共享。因此,实体描述中的每个块的属性值均应由不同的词项进行表示。但词项分块方法也存在明确的应用缺陷,如每个块中均有冗余以及太多冗余块的创建,块中所存在的相同描述对,且分配到同一块中不相似的对数量较多;针对该情况的处理,可以选择对词项分块方法进行改进的形式,如借助描述 URI 中的模式完成新块的创建5。前缀、中缀以及可选的后缀是 URI 典型的三个部分。其中前缀对 URI的来源进行描述;中缀表示本地标识符;后缀则是起到将详细信息为有关格式或命名锚提供的功能作用。该类型分块方法原理是为实体描述中的属性值所包含的每个数据进行一个块的创建,每个 URI 中缀也需要创建一个块。相较于词项分块法,前者所要创建的块数量更多,虽然不具备任何词项共享功能,但也能满足更多描述对分配的需求。(2)实体比较。基于知识图谱融合,对来自多个数据源的知识进行组合时,以度量值比较的方式删除重复体是极为有效的技术手段。一般情况下,删除实体重复数据需要在完成“分块”后再进行操作。每个实体在知识图谱中均含有一组属性,且每个属性均被表示为键值对。其各个属性之间的相似性则是对实体描述之间的相似性有着决定性影响的因素。在实体比较描述时,需要先对两个实体之间的相似度进行计算,由于属性值在不同的数据类型中存在,现有测量方法仅能满足文本数据类型的相似度计算,无法将数值数据类型进行有效表数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering205现。因此,针对适用于所有数据类型的测量方法,极有可能在训练数据中会出现过多的噪声,致使整体性能降低。两个实体描述中常见属性之间的相似度计算完成