基于
档案
数据
地质
知识
图谱
构建
研究
doi:10.3969/j.issn.2095-1329.2023.02.023基于档案数据的地质知识图谱构建研究刘 映1,2(1上海市地质调查研究院,上海200072;2 上海市地质资料信息专业技术服务平台,上海200072)摘 要:地质知识图谱是一种将地质学领域的知识结构化的新型智能化工具。本文针对上海地质资料应用中存在的问题,基于地质档案数据库,探究如何构建一种适用于地质学领域的知识图谱及应用框架。首先本文介绍了知识图谱的发展历程及相关技术,然后提出了地质知识图谱的构建框架,并详细说明了其实现方法。最后,通过实验验证了地质知识图谱的可行性及应用途径,并给出了下一步改进方向。关键词:档案数据;结构化知识;地质知识图谱;图数据库中图分类号:P208 文献标志码:A 文章编号:2095-1329(2023)02-0148-05上海市地质资料馆是上海地区地质档案专业馆藏机构,开展信息化建设至今近 25 年,建立起包含 3.8 万余档数字化地质成果资料和 85 万余个钻孔的地质档案数据库,并且依托地质资料信息共享服务平台,向全社会提供地质资料信息服务1。地质档案数据库包含大量的数字化地质资料,包括地质报告、地质图、地质数据表、地质样品分析等。这些资料中蕴含着大量的结构化知识,但这些知识大多是以非结构化的方式存在的,需要花费大量时间和精力进行整理和提取。近年来,知识图谱技术的发展为地质档案领域的知识处理提供了新思路。知识图谱是一种基于本体论的结构化知识表示方法,能够将非结构化的文本信息转化为机器可读的结构化知识,并提供自然语言查询接口。知识图谱的应用已经涵盖了诸多领域,如自然语言处理(NLP)、智能搜索、语义分析等。知识图谱在应用到实际场景过程中,需要解决诸如自然语言理解、实体识别和关系抽取等问题。2018 年以来,在自然语言处理领域,迁移学习如 ELMO、Open-GPT、BERT2等模型的应用,使得对特定的任务,只需少量数据和计算,就可得到较好的结果。将迁移学习模型应用于知识图谱构建,既减少了知识图谱建模工作量,也大幅提升工作质量。国内外已有很多著名的知识图谱,如百度知识图谱是一个包含了丰富中文知识的知识库,支持中文语境下的语义搜索、智能问答等应用;谷歌 Knowledge Graph(知识图谱)通过从多个来源搜集、整合和展示结构化的知识,为用户提供更丰富、更深入的搜索结果,支持语义搜索和相关信息的展示。学术领域的如复旦大学知识图谱3、微软 Academic Knowledge Graph(学术知识图谱)等,支持学术研究和学术资源的查询和探索。知识图谱在大型语言模型(LLM)领域也有应用,百度“文心一言”采用包括 5500 亿事实的知识图谱等作为训练数据;OpenAI GPT 模型本身虽然没有内置的独立知识图谱,但可结合外部领域特定的知识图谱,提高 GPT 模型生成文本的专业性和准确性。1 地质资料知识图谱实现框架1.1 地质资料特点分析上海市地质资料馆已基本建成地质档案图文数据库及钻孔属性数据库,图文数据库主要包括文字报告、图件、标准规范、图书论文等内容,钻孔数据库则是地质报告及岩土工程勘察报告中所附的钻孔属性数据,经录入后形成数据库。上述地质资料具有以下特点:(1)信息化程度较高馆藏资料已全部实现了数字化,包括所有存档资料收稿日期:2023-03-29修回日期:2023-05-28作者简介:刘映,1966 年生,男,硕士,高级工程师,主要从事地质信息化建设与研究。电子邮箱:基金项目:上海市科委研发公共服务平台资助项目上海国土资源 Shanghai Land&Resources148 2023Vol.44.2 的图文数据,保存格式一般为文本、栅格数据及原始矢量数据,图文数据属于非结构化或半结构化数据。上海市地质资料馆还将附于各类报告的钻孔,经标准化及格式转换后,建立起地质钻孔属性数据库,这部分数据为结构化数据。钻孔属性数据带有三维空间信息,包括地理坐标、埋藏深度等,并且通过馆藏档案号,与图文数据库实现了关联。这些关联性为知识图谱构建提供便利,同时也为其质量评估提供可信的依据4。(2)语义特征复杂地质报告涉及多个地质专业内容,包括基础地质、水文地质、工程地质、环境地质、物化探、海洋地质、矿产地质等等,对同一地质现象的表述方法存在差异;馆藏资料覆盖近百年历史,不同时代两份资料,其地质工作标准、方法体系、研究程度等关键要素迥异,专业术语含义等发生变迁,给知识抽取带来一定困难。(3)数据异构多样资料中既包括大量的原始数据、图表,也包括对原始数据和图表进行分析研判后形成的成果。地质档案数据除了海量图文信息外,还包括通过种类繁多的地质调查勘探方法获取的各类专业数据。专业数据结构复杂,一般需要专业软件才能解读,这给数据管理和挖掘造成困难。此外,由于地质本身的不确定性,缺少统一的标准,不同研究者成果对表现形式往往不一样,成果形式也具有多样性特征。1.2 地质知识图谱构建框架设计本文将以上海地质档案数据为基础,针对馆藏资料特点,从城市开发建设中应用较多的岩土工程勘察报告入手,构建领域本体,并对图文数据进行预处理,利用 BiLSTM-CRF 模型,进行实体抽取、关系抽取,再与钻孔属性数据库生成 RDF 数据融合,形成一致的 RDF。取得的 RDF 数据经评估后,构建地质资料领域的知识图谱5。图 1 为本文地质知识图谱构建流程图。(1)数据获取及预处理地质档案数据分为结构化数据和非结构化数据,对于结构化的钻孔属性数据库,其数据项之间存在明确的关系名称和对应关系,可用 W3C 推荐的映射语言R2RML(RDB2RDF),将其转化为 RDF。对于非结构化文本数据需要进行预处理,一般以句号为分隔符,对报告进行语句分割断句,采用人工去重、对齐、删除噪音数据等方式进行清洗。采用基于字典的方法进行分词,并给词语标注词类标签。利用标注工具对文本文件进行标注,将标注结果存入语料库。(2)信息抽取建立领域本体,通过对地质资料报告中出现的地质术语或词汇、地质实体关系及相关属性,进行概念化与形式化的规范说明,以此刻画地质领域的标准化、规范化、被认可的知识。根据领域本体的规则,在预训练语言模型基础上,利用 BiLSTM+CRF 模型,对实体识别模型进行训练,在训练过程中进行动态评估并进行调整,从而完成更多文档资料的实体信息抽取与关系抽取。(3)知识融合将从非结构化数据中抽取的信息与从结构化数据转换的信息进行融合,经实体消歧和属性融合,属性值融合的主要任务是将从多个数据源中抽取得到的不同属性值进行融合,得到最优的属性值结果。(4)知识加工与更新从其中抽取本体,经质量评估后,更新到知识图谱中。2 地质知识图谱技术应用及实现馆藏资料中岩土工程勘察报告占大部分比例,这部分资料由工程建设单位汇交而来,其涉及专业内容,包括工程地质、水文地质等。岩土工程勘察报告是地质资料信息共享服务平台对外提供服务最多的部分,主要面向工程建设领域,同时报告中的地质信息也为其他地质研究者提供有益的借鉴。本文主要以勘察报告数据为例,兼顾其他类别地质报告的特点,提出地质知识图谱构建的技术方法。2.1 数据预处理及语料库构建通过对馆藏档案数据的分析,地质档案数据具有语义复杂、异构多样的特点,需要对数据进行集成分析和管理,建立数据转换的通用规则模板,通过规则转化及人工交互标注等方法,进行数据预处理,为模型训练准备语料库。首先建立地质档案数据空间集,数据空间集采用Neo4j 图数据库进行管理,主要包括元数据、关联数据及内容数据等。建立数据空间集,目的是实现异构数据集成管理,降低数据格式影响,确立数据关联关系,保障知识融合结构化数据非/半结构化数据数据预处理实体消歧属性融合质量评估本体抽取数据获取信息抽取知识融合知识加工知识图谱实体识别关系抽取属性抽取图 1 地质资料知识图谱构建流程图Fig.1 Flow chart for constructing geological data knowledge graph上海国土资源Shanghai Land&Resources 2023Vol.44.2 149数据可溯源,档案数据空间集管理构架如图 2 所示。采用目前应用较广的分词工具 Jieba,首先基于通用词典库,对所有报告文本进行分词和词性标注,并滤去停用词,然后采用词频统计方法,按不同地质报告专业,对结果进行统计,计算 TF-IDF 权重得分,对得分排名在1/3 的词汇,进行分词正确性判断的人工干预后,结果迁移纳入自建词典库,为再次分词时使用。最后,利用序列文本标注工具 doccano,人机交互方式对文本数据进行标注,标注数据导出后,可直接作为语料库,作为模型训练集及测试集(图 3)。也可自编程序,对其格式(JSONL)进行转换,将其转化为 JSON 或BIO 格式。图 4 则给出同一则语料的两种表现形式。2.2 地质领域本体构建在传统的本体构建框架里,本体概念包括类别(classes)、子类(subclasses)、实例(instance)、特性(Property)、属性(slots)等,本文在此基础上,通过对地质档案涉及的实体进行统计分析后,将地质领域内的实体划分为业务、对象、活动、数据四个一级本体。业务是指为实现地质活动进行的策划和管理,主要包括项目、管理、评价等子类。对象是现实世界存在的客观物质现象,在地质业务领域,主要指研究对象,如各种地质现象及背后的原因,包括空间范围、岩土体、地下水、矿产资源等。活动是指为开展地质现象研究和探索而人为发起的动作,包括调查、钻探、测试等。数据则是对前述三类本体的真实记录,它本身也作为一类本体,存在于领域本体中。根据经典的本体构建七步法,本文分别对本体各级业务活动描述及概念进行梳理,定义概念的属性及关系。地质领域概念间除了包括 4 类基本关系,即部分与整体关系(part-of)、继承关系(kind-of)、实例关系(instance-of)、属性关系(attribute-of),本文还自定义了 5 类扩展关系。如表 1 所示。最后使用 protg 本体构建工具建立领域本体,采用OWL 格式进行保存。本文建立的本体还需要在使用过程不断优化并扩展,使其更好符合地质领域知识表示要求。2.3 模型训练及三元组抽取本文中关系三元组抽取主要限定于地质文本的句子级关系抽取。抽取方法是将实体识别和关系抽取作为两个独立子任务,分别对模型进行训练。实体识别任务即根据设定实体类型库,以及句子中所有分词(span)的集合 S=s1,s2,sn,对于每个分词 si S,预测实体类型 fe(si)是否成立,实体识别任务的输出是 Fe=(si,e):si S,e。关系抽取任务则根据设定的关系类型库,根据 S 中的分词所有组合(si,sj):si,sj S,预测关系类型 fr(si,sj)是否成立,关系抽取任务的输出是Fr=(si,sj,r):si,sj S,r。数据空间集源数据:文本数据、矢量图、栅格图、专业格式数据等数据清洗/解析元数据、关联数据、内容数据链接集成图 2 档案数据空间集管理构架Fig.2 Archive data space set management architecture JSONL 格式语料库 BIO 格式语料库 图 4 语料库的表现形式Fig.4 Representation of corpus表 1 地质领域概念间自扩展关系Table 1 Self expanding relationships between geological concepts关系名称形式化名称说明等同关系equivalent-of概念名称不同,但含义相同空间位置location-of概念在空间位置上存在的包含、相交、距离等关系从属关系belong-of概念间在现实管理上的从属关系序列关系sequence-of时间发生先后的顺序关系依赖关系depend-of概念间的相关性,如地基承载力与土层物理力学性质相关图 3 人工交互标注程序界面Fig.3 Manual interactive annotation program interface黏上海国土资源 Shanghai Land&Resources150 2023Vol.44.2 实体识别模型首先将输入的语句逐字转换为向量编码;然后采用基于 BERT 的预训练语言模型,获取上下文信息后转换为词向量 he(si),向量中包括字(token)向量的起始、终止位置及分词长度等信息;接着将词向量 he(si)输入双向长短期记忆网络模型(BiLSTM)层,进行特征抽取及拟合,预测实体类型的概率分布;最后接入条件随机场(CRF)层,学习命名实体和标签的转移规则,进一步提升预测的准确度。关系抽取模型则将主体-客体对(si,sj)作为输入来预测关系,首先在句子文本末尾插入标注,标明主、客体位置及实体类型,若同一个句子有多组实体对,经分别标注后,按顺序在文本末尾插入,如图 5 所示。文本标注的位置 ID 与主体、客体位置 ID 一致。将拼接后的文本向量化后输入,模型引入注意力机制,以获得更多上下文的信息。在自注意力层,原始文本不与标注 token 进行 attention,以提高计算效率,最后将每组实体对的标记进行拼接并传入前馈神经网络,预测实体关系。2.4 地质知识图谱构建馆藏数字化地质资料,经过实体识别、关系抽取及属性融合后,形成了地质领域内实体和实体关系的知识库,知识库以结构化的形式描述客观世界的概念、实体及实体间的关系5,采用图数据库作为存储引擎,可以实现灵活的数据模型设计模式,只需增加模式定义,局部调整图数据,即完成数据模型更新,另外图数据库提供高效的关联查询,使数据查询更为便捷和高效。本文选用应用较广的主流图数据库之一 Neo4j 作为领域知识图谱存储数据库,将获取的命名实体如项目及承担单位、地理位置、岩土体地质特性等实体及关系数据,导入 Neo4j 图数据库,将实现地质知识图谱可视化表达,如图 6 所示。图中彩色的圆是节点,表示实体,颜色相同的节点实体类型一致,不同颜色的节点之间的连线代表实体与实体之间的关系,节点-连线-节点与地质实体三元组建立起对应关系;某些实体的评价指标,如岩土体描述、物理力学性质、场地地下水腐蚀性评价、砂土振动液化评价等,则存放于相关实体节点的属性字段中,从而馆藏地质资料领域的知识图谱就建立起来了。Neo4j 使用 Cypher 语言来对图数据对象进行创建(create)、读取(read)、更新(update)和删除(delete)等操作,操作简单,功能强大,查询快速,返回结果精准,结构清晰,改善了用户体验,提升地质资料信息服务水平。3 研究结果及下一步改进方向通过对上海地质档案数据的分析和处理,我们成功构建了一份包含上海地区地质实体和关系的地质知识图谱。该地质知识图谱包含了上海地区的地质构造、地层地貌、岩土体特征等方面的信息,可以为服务城市建设和地质学研究提供支持。然而,当前的地质知识图谱仍然存在一些问题。首先,#1:S:LYR1层/S:LYRO:LNM褐黄色粉质黏土/O:LNM,软塑可塑,含铁锰质结核#2:S:LYR1层/S:LYR褐黄色粉质黏土,O:STUS软塑可塑/O:STUS,含铁锰质结核#3:S:LYR1层/S:LYR褐黄色粉质黏土,软塑可塑,含O:DESC铁锰质结核/O:DESC1层褐黄色粉质黏土,软塑可塑,含铁锰质结核 S:LYR/S:LYRO:LNM/O:LNMS:LYR/S:LYRO:STUS/O:STUSS:LYR/S:LYRO:DESC/O:DESC 原始文本#2#1#3 图 5 主体-客体对标注及拼接Fig.5 Text markers of subject and object span and text concatenating (a)工程地质项目相关图谱(b)基岩地质出露岩层图谱图 6 基于 Neo4j 构建的地质知识图谱图式Fig.6 Geological knowledge map constructed based on Neo4j上海国土资源Shanghai Land&Resources 2023Vol.44.2 151地质实体的识别和分类存在一定的误差率,需要进一步提高准确性。其次,地质实体之间的关系抽取和建模需要更加精细化和细致化,以适应地学研究的需要。最后,需要进一步完善地质知识图谱的查询和推荐功能,以提高用户的使用体验。下一步的改进方向主要包括:地质实体识别和分类的精度提高。可以采用更先进的深度学习模型,如大型语言模型(LLM)GPT 等,提高地质实体的识别和分类精度。地质知识图谱查询和推荐功能的完善。可以采用自然语言处理技术,实现更加智能化的查询和推荐功能。4 结论本研究基于上海地区地质档案数据库构建了一份地质知识图谱,并对其实现方法和下一步改进方向进行了探讨。地质知识图谱的构建可以为地质学研究和社会化服务提供支持,有望成为地质学领域的重要工具。然而,当前的地质知识图谱仍需要进一步完善和改进。随着深度学习和自然语言处理等技术的不断发展,地质知识图谱的准确性和实用性将得到进一步提升。期望未来的研究能够进一步完善地质知识图谱的构建和应用,为服务城市建设和地质学研究做出更大的贡献。参考文献(References)1 杨丽君,严学新,王军.上海地质资料信息共享服务平台及其运维模式 J.上海国土资源,2020,41(2):88-92.YANG L J,YAN X X,WANG J.Operation and maintenance mode of the Shanghai geological data information sharing platformJ.Shanghai Land&Resources,2020,41(2):88-92.2 DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of deep bidirectional transformers for language understanding C/Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(Vol.1).2019:4171-4186.3 文必龙,薛广有.面向油藏地质领域的知识图谱构建研究 J.计算机技术与发展,2021,31(12):204-210.WEN B L,XUE G Y.Research on knowledge graph construction in reservoir geologyJ.Computer Technology and Development,2021,31(12):204-210.4 汤华英.软土地区工程地质模型可靠性评估与应用以上海为例 J.上海国土资源,2020,41(2):93-96.TANG H Y.Reliability estimation and application of engineering geological model in the soft clay area of ShanghaiJ.Shanghai Land&Resources,2020,41(2):93-96.5 刘烨宸,李华昱.领域知识图谱研究综述 J.计算机系统应用,2020,29(6):1-12.LIU Y C,LI H Y.Survey on domain knowledge graph researchJ.Computer Systems&Applications,2020,29(6):1-12.6 王晴,黄进,刘鑫,等.成果地质资料知识图谱构建与可视化 J.计算机系统应用,2022,31(8):140-145.WANG Q,HUANG J,LIU X,et al.Construction and visualization of knowledge graph of geological reportJ.Computer Systems&Applications,2022,31(8):140-145.7 DAI D,XIAO X Y,LYU Y J,et al.Joint extration of entities and overlapping relations using position-attentive sequence labelingC/Proceedings of the 33rd AAAI Conference on Artificial Intelligence(AAAI-19).2019:6300-6308.8 WEI Z P,SU J L,WANG Y,et al.A novel cascade binary tagging framework for relational triple extractionC/Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2020:1476-1488.Research on the construction of geological knowledge graph based on archival dataLIU Ying1,2(1.Shanghai Institute of Geological Survey,Shanghai 200072,China;2.Shanghai Professional and Technical Service Platform of Geological Data Information,Shanghai 200072,China)Abstract:Geological knowledge graph is a new intelligent tool that provides knowledge in the field of geology.This study focuses on the problems in the application of geological data in Shanghai and explores how to construct a knowledge graph and application framework suitable for the field of geology based on a geological archive database.It introduces the development process and related technologies for knowledge graphs,proposes a framework for constructing a geological knowledge graph and provides a detailed explanation of its implementation methods.In addition,the feasibility and application path of the geological knowledge graph are verified through experiments,and the next improvement direction is provided.Key words:archive data;structured knowledge;geological knowledge map;graph database上海国土资源 Shanghai Land&Resources152 2023Vol.44.2