分享
文化遗产领域知识纲要研究_侯西龙.pdf
下载文档

ID:2732884

大小:1.97MB

页数:13页

格式:PDF

时间:2023-10-13

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
文化遗产 领域 知识 纲要 研究 侯西龙
第 卷 第 期 年 月文化遗产领域知识纲要研究侯西龙,王晓光,翁梦娟曲阜师范大学传媒学院 日照 武汉大学文化遗产智能计算实验室 武汉 武汉大学信息管理学院 武汉 摘 要:目的 意义面向文化遗产领域的知识分析研究,对领域知识建模、知识组织、智慧数据资源建设等具有重要意义。方法 过程为明确文化遗产领域知识结构与特征,基于对领域本体的计算与分析,系统剖析文化遗产领域核心共享概念以及领域知识关联关系,提出并构建文化遗产领域知识纲要。结果 结论文化遗产领域核心共享概念包括领域对象与实体、类型与概念、时间与空间、事件与活动、文献与作品、代理者等内容,领域知识关联关系丰富多样且较为复杂。研究结论有助于更全面地理解与认识文化遗产领域知识体系,指导领域本体开发与知识建模,促进领域知识的有效组织与管理。关键词:文化遗产 知识纲要 本体 知识组织 知识关联分类号:本文系国家社会科学基金青年项目“文化遗产图像资源关联数据集成与叙事化呈现研究”(项目编号:)和湖北省科技厅重点研发计划项目“文旅大数据关键技术研发与应用示范”(项目编号:)研究成果之一。作者简介:侯西龙,副教授,博士;王晓光,教授,博士生导师,通信作者,-:;翁梦娟,博士研究生。收稿日期:修回日期:本文起止页码:本文责任编辑:易飞 引言 文化遗产领域知识的有效表示、组织与管理,是建设文化遗产智慧数据资源、实现文化遗产智能计算的基础和前提。语义网环境下,基于本体的领域知识组织方法通过提供对领域知识的共同理解实现知识共享,被认为是对领域知识组织最有效的技术与方法。本体作为领域对象及其关系的概念化、形式化的统一表示,可以实现对主观知识的客观表达以及隐性知识的显性表达,在文化遗产数据化过程中发挥着重要的桥梁和枢纽作用。本体基础设施建设也已经成为文化遗产数据资源开发与建设、领域知识共享与重用、解决高层语义互操作问题的核心与关键。目前,围绕文化遗产领域本体设计构建、信息组织实践等主题开展了丰富的研究,但对文化遗产领域知识体系的独特内涵、领域知识表示与组织的核心内容等问题及其原理的研究仍不足。实现文化遗产领域知识的有效组织与管理,核心是对领域知识及知识间关联进行描述与揭示。领域知识纲要可以被认为是从领域知识抽象出的概要性的概念体系,是某一领域内的核心概念以及概念之间的相互关系的集合,反映了领域知识更高语义层面上的基本知识体系与结构。领域知识纲要作为领域知识组织的顶层架构,决定了领域知识组织的最终形式,是领域知识组织与知识服务的基础性工作。而本体恰是对领域知识进行逻辑抽象而构筑起来的体现概念及其关系的概念模型。因此,通过对领域本体与概念模型的剖析,归纳其表现出的共同的知识纲要,可以从更高抽象层次表征领域知识体系的一个“剖面”。为此,本文从领域本体视角解析文化遗产领域核心概念以及知识关联关系,在此基础上构建文化遗产领域知识纲要,进而分析文化遗产领域本体构建与知识表示中存在的问题与挑战,并提出具体的解决思路和对策建议。本文对文化遗产领域知识纲要的分析与构建,有助于增强对文化遗产领域知识体系的整体性认识与理解,促进领域本体的开发与知识建模,为文化遗产领域知识组织、知识重用与知识服务等奠定基础。相关研究综述 每一门科学都包含着大量的概念,即众多事实、思想和专业名词,这些概念构成了科学知识的基本单元。本体以结构化的方式呈现特定领域中复杂的知侯西龙,王晓光,翁梦娟 文化遗产领域知识纲要研究 图书情报工作,():识概念,进而建立概念的一致性。本体通过对概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系,反映特定领域知识结构的概念体系。面向领域知识组织与分析时,概念表达了某个词汇背后所包容的、错综复杂的领域背景知识,知识内涵往往通过领域术语间的关联形式化揭示。因此,本体实质上反映了特定领域的知识结构,领域知识的核心内容和概念关联都会在本体模型中得到体现。随着文化遗产领域本体复杂度与规模的不断增加,带来了本体理解与复用、本体互操作等问题。因此,国内外学者提出本体剪枝、本体模块化、本体概要等方法,其核心思想都是从本体中提取概要性的关键信息,有效解决本体查询效率低、内涵难以理解、本体复用较难等问题。针对文化遗产相关领域,从机器自动化理解和解释的视角,对文化遗产领域本体的可用性开展评估和数据剖析。等从词表规模、树结构、耦合度等指标对文化遗产领域本体的设计复杂度进行测度。等构建了知识组织系统质量测量指标,对文化遗产领域常用的知识组织系统进行了深入的质量调查与分析。等提出识别提取领域本体共同概念组件的方法,支持对多个本体词表的理解与比较,并选择文化遗产领域本体词表开展社区聚类划分实验。在对、等模型的属性与关系分析的基础上,提出了围绕文化遗产对象的文化相关关系词表。贾君枝等利用本体映射技术实现对人物本体词表的聚合与映射,提供清晰明了的人物本体词表体系。夏翠娟提出本体应用纲要的设计方法和流程,并结合一体化本体融通模型为文化记忆资源的知识融通提供了方法和路径,一体化本体知识融通模型旨在厘清各类实体与概念体系之间高度抽象的关系。苏新宁认为领域知识组织实施的科学与高效,在于对领域知识结构的认知和把握,需要探索知识单元间的关联结构、属分结构、交叉关系等,但领域知识结构认知的研究仍有待深入。目前,文化遗产领域本体的相关研究目前主要集中在领域本体设计与开发、本体互操作以及本体应用等方面,但对文化遗产领域本体的整体特征与领域知识分析的研究仍不够系统和深入,缺少对文化遗产领域概念体系与知识结构认知的研究。为此,本文拟基于对文化遗产领域本体的分析,从更高抽象层次构建整个领域的知识纲要,进而明确领域知识体系与知识结构,指导领域本体开发、领域知识组织与知识服务等。研究设计 总体研究框架 本文采用定量计算与定性分析相结合的方法,基于领域本体分析文化遗产领域知识纲要,总体研究框架如图 所示。首先在对文献调研与专家咨询的基础上,确定本文的研究对象,收集领域本体与词表。其次,根据本体映射的思想,设计基于词汇语义相似度的概念相似度计算方法,形成领域的共享概念类簇。在此基础上,结合对领域本体结构与内容的人工分析,梳理领域本体的对象属性及其定义域与值域,归纳领域核心概念之间的知识关联关系,最终建构出文化遗产领域知识纲要。图 文化遗产领域知识纲要分析框架第 卷 第 期 年 月 文化遗产领域本体样本选择 随着语义网技术的发展与应用,文化遗产领域本体规模和本体复杂度快速增长。依据与文化遗产领域密切相关且应用较为广泛的筛选原则,本文结合文献调研和专家咨询的方式,最终确定了 个具有代表性的文化遗产领域本体模型,如表 所示。从关联开放词表(,)等本体存储库或项目官方网站,获取样本本体的 或 编码文件。本文选取的领域本体主要包括文化遗产领域通用型本体,图书馆、档案馆与博物馆等机构常用本体以及项目应用型本体等,涉及文献、档案、文物、建筑、艺术、戏剧、图像志等多个主题。()通用型本体包括文化遗产领域广泛应用的 模型、模型等。其中,模型旨在将异构的文化遗产信息资源进行融合、交换和整合,为文化遗产领域信息的共同理解而制定的通用且可扩展的语义框架。欧盟数字图书馆 项目构建的 模型,在统一各机构数字资源的数据格式、元数据语义融合与语义关联方面发挥着重要作用。()图书馆、档案馆与博物馆等机构常用本体包括书目本体、书目框架 与 模型、针对档案资源的整理与描述的“档案描述本体”()以及国际档案理事会“上下文记录本体”()等。同时,选取了文化遗产领域广泛使用的、等盖蒂词表的 本体。()项目应用型本体选取国外文化遗产资源建设领域比较知名的项目,包括意大利文化遗产知识图谱项目构建的 本体、欧洲数字文化遗产 项目构建的顶层本体模型。项目旨在利用数字技术,通过文化数字资源、公民观点和历史场景之间的互联,推动对欧洲历史和社会的反思与重新诠释。则是为描述文化机构与场所以及文化事件而制定的标准化本体模型。此外,还选取了描述与编码戏剧作品的戏剧综合本体 以及描述图像与照片档案等视觉要素和视觉符号的“视觉表示本体”()等。表 选取的文化遗产领域本体编号前缀本体名称命名空间类数量 个对象属性数量 个说明 :书目记录的功能需求 :书目框架 :书目本体 :文化遗产领域信息整合、交换、共享和重用的概念参考模型 :欧盟数字图书馆项目制定的统一数据模型 :盖蒂词表本体 :文化对象的历史情境信息描述本体模型:欧洲数字文化遗产 项目顶层本体 :文化机构和文化事件本体:意大利文化遗产知识图谱本体 :档案描述本体:戏剧综合本体 :书目参考本体 :国际档案理事会档案本体,概念模型的本体表示 :视觉表示本体总计 注:本体的类数量和对象属性数量通过解析其本体编码文件进行统计,包括了其复用的类或对象属性侯西龙,王晓光,翁梦娟 文化遗产领域知识纲要研究 图书情报工作,():领域共享概念计算方法 领域概念是知识纲要的基础要素。领域共享概念可以理解为领域本体建模时通常会考虑或涉及的维度和术语,本文主要通过跨本体之间的实体相似度计算来提取领域本体共享概念。具体是在本体的元素层面,通过本体类名称标签的语义相似度计算和聚类,发现文化遗产领域本体之间共同的核心概念。本体中类的相似度计算主要分为词汇相似度和结构相似度两大类型;由于文化遗产领域本体往往针对不同的描述对象或细分领域,本体之间的结构差异较大,本文主要探讨领域的共享核心概念和语义建模维度;因此,概念之间相似度计算主要采用基于词汇的语义相似度计算方法,计算流程如图 所示:图 不同本体之间类的相似度计算流程 本体解析与预处理 利用 库对本体编码文件进行解析,获取本体包含的类、对象属性、约束与公理等。随后进行数据清洗与预处理,对类与属性的名称标签进行分词、去停用词、提取词干等处理。首先,利用正则表达式对字符串进行单词分割,并将本体术语的缩写改成单词全拼的形式。然后,对分割后的单词去停用词,并进行词干提取。由于英文单词会存在时态、单复数形式不同的情况,使用词干提取方法得到单词的词根。基于向量空间的相似度计算 由于本体间存在类复用与继承的情况,因此在计算不同本体之间类的相似度时,区分类之间的相等关系、父子关系和独立关系 种类型。除了相等关系外,对于存在父子关系的情况也视为具有较高的相似度。本体类之间的相似度(,)计算方法如下:(,),相等关系,父子关系(,)独立关系公式()()类相等关系:(,:,)。其中,、代表不同的本体。通过类的资源标识符 和:陈述声明,判断两个类之间是否存在相等关系。()父子关系:(,:,)。其中,、代表不同的本体。对于复用外部本体的类并将其作为直接父类的情况,定义二者存在较高的相似度。()独立关系:类 的词向量表示为,类 的词向量表示为。计算二者之间的余弦距离作为类之间的语义相似度。本文采用基于 词向量模型获取类名称短语的向量化表示。作为非监督学习技术,考虑上下文的语义关系,将文本内容的处理转化为向量空间中的向量运算,用向量空间中的相似度来表示文本语义的相似度。文化遗产领域知识纲要分析 文化遗产领域核心共享概念及其存在的多类型的知识关联关系构成了文化遗产领域的知识纲要。本节从本体视角研究领域核心共享概念与知识关联关系,构建文化遗产领域知识纲要。领域本体复用分析 复用现有的本体是构建本体的一个重要参考原则。本体复用不仅可以减轻本体设计工作,更重要的是有助于提高互操作性,避免表述的歧义及冲突,减少冗余。本体的复用可以体现在不同的方面,从复用方式角度可以分为外部本体导入式的“硬复用”以及参考本体中某些元素的“软复用”,具体又可以分为直接的实体复用、间接的本体模块复用、直接的本体设计模式复用、间接的本体设计模式复用。依据用户第 卷 第 期 年 月关注点的差异,词表重用类型划分为词表层复用、概念层复用,两者通常结合在一起使用来实现对数据的描述与表示。本文对 个领域本体模型与外部本体或词表之间的复用情况进行数量统计和可视化。表 列出了被复用比例较高的本体或词表,图 所示是领域本体之间及与外部词表间的复用关系,节点大小表示被复用的次数。分析发现,文化遗产领域本体的复用情况大部

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开