温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数字
人文
视域
下图
知识
用语
模型
研究
陈涛
106数字人文图书馆杂志(2023年第2期 总第382期)Library Journal(Vol.42 No.2)数字人文视域下图像知识复用语义模型研究陈 涛(中山大学信息管理学院)摘要 知识是人类认识的结晶,当知识转移时便产生了知识复用。数字技术高度发展的今天,图像应纳入数据流通环节,成为一种“活”的资源。论文从描述层面、组织层面和内容层面 3 部分构建了图像知识语义模型,分别对应图像的元数据复用、图像复用和内容复用。其中,内容层面的语义模型又涉及对象目标的内容、标签、方位和语义关联 4 个维度。在图像知识语义模型基础上,论文从“图像复用”“标注复用”和“混合复用”3 方面构建图像知识复用链。案例分析部分从“图像复用”“研究独立”和“知识传承”3 个角度探讨了图像知识复用的优势,尽可能为图像资源的数字人文应用提供崭新的研究视角和可操作路 径。关键词 数字人文 知识复用 图像知识语义模型 关联数据DOI:10.13663/ki.lj.2023.02.013Research on Semantic Model of Image Knowledge Reuse from the Perspective of Digital HumanitiesChen Tao(School of Information Management,Sun Yat-sen University)Abstract Knowledge is the crystallization of human cognition,and knowledge reuse occurs when knowledge is transferred.Today,with the high development of digital technologies,images should be incorporated into the data circulation link and become a“living”resource.The thesis first constructs the semantic model of image knowledge from three parts:description level,organization level and content level,which correspond to image metadata reuse,image reuse and content reuse respectively.Among them,the semantic model at the content level involves the four dimensions of the object targets text,tag,region and semantic association.Based on the semantic model of image knowledge,the paper discusses the construction of the image knowledge reuse chain from“reuse of images”,“reuse of annotations”and“hybrid reuse”.The case analysis part explores the advantages of image knowledge reuse from the perspectives of“image reuse”,“research independence”and“knowledge inheritance”,and tries to provide new research perspectives and operable paths for the digital humanities application of image resources.Keywords Digital humanities,Knowledge reuse,Image knowledge Semantic model,Linked data0 引言知识是人类认识世界的概念化表达,是人类活动的精神遗产。辞海对“知识”的定义是人类认识的成果或结晶。中国大百科全书对“知识”的定义是人类认识的成果,是在实践的基础上产生,又经过实践检验的对客观实际的反映。人们在日常生活、社会活动、科学研究、生产实践中获得对事物的认识,其中可靠的成分即为知识1,知识可分为显性知识和隐性知识。通常以书面文字、图表和数学公式*本文系国家社科基金“智慧数据驱动的公共数字文化资源知识图谱构建与应用研究”(项目编号:21BTQ105)和中国图书馆学会重点项目“知识互联下的文化遗产图像多模态语义框架研究”(项目编号:2022LSCKYXM-ZZ-ZD002)的研究成果之一。陈 涛Chen Tao(图表扫码读取)陈 涛:数字人文视域下图像知识复用语义模型研究Chen Tao:Research on Semantic Model of Image Knowledge Reuse from the Perspective of Digital Humanities107加以表述的知识,称为显性知识;而在行动中所蕴含的未被表述的知识,称为隐性知 识。知识复用是知识管理的重要环节之一,当知识从拥有它的人转移到使用它的人时,便产生了知识复用。“知识复用”意味着知识的转移是公开的、可重复的,并且对未来的知识使用者有益。与简单的知识共享有所不同,知识共享强调的是知识的传播,知识复用强调的是知识的再生产与重新发布。知识复用通常包括知识获取、知识再加工、知识发布或传播 3 个步骤。通过复用,可以提高图像知识的利用效率,快速实现资源与知识的共 享。虽然人类社会有了文献就已经有了信息资源(Information Resources),但是图像资源作为数字人文中非文本资源的主要形式之一,蕴藏着大量的知识财富有待挖掘。信息技术发展的今天,图像不再仅仅作为某些资源的附属品,更多地是作为珍贵史料、珍稀手迹以及非物质文化遗产知识传承的重要载体。我们认为,图像知识复用不能仅仅认为是图像的复制,而应该从图像自身载体、图像元数据信息、图像蕴含知识等多方面进行考虑。本文将聚焦在图像资源的知识复用环节,试图厘清图像知识传播中的多种途径,并尝试构建图像资源知识复用框架,尽可能为图像资源的数字人文研究探索新的应用方向,从而让知识得到合理、有效的传播与利 用。1 相关研究当前数字人文领域中,以图像资源为对象的相关研究正成为学术热点,目前学者对图像资源开展的研究主要集中于图像数据库、图像标注和数字人文众包等方面。其中,图像数据库主要关注知识共享与传播,图像标注和数字人文众包则聚焦于知识的生成与加 工。(1)图像数据库方面。陈亮指出图像数据库的发展与图像学研究相辅相成,高清图像库、技术图像库的建设,以及各种图像志索引和图像数据库的结合将对艺术史的发展起到重塑根基的作用2;颜佳等指出数字人文研究的兴起,引发了图档博等文化记忆机构构建图像数据基础设施的需求3;杨敏等从内容描述层面、数据库建设技术层面、服务和版权层面深入分析,提出图像库建设呈现出深度融入互联网、跨学科融合以及图像的多维度语义标注趋势4。平台方面,如上海图书馆的中国近代文献图库结合先进的数字化现代技术处理手段,收录了中国近代时间跨度近 200 年的报刊图片数字资源,为人文学者开展学术研究提供了大量珍贵的图像资 源。(2)近年来,数字人文领域不少学者开展了图像标注方面的研究,陈涛等从“图像层面的元数据注入”“对象层面的内容抄录”和“语义层面的深度标注”3 个维度提出了图像资源多方位注释模型5;徐雷等结合开放标注协同框架(OAC),以情节、实体、活动、情境为核心,解决了叙事型图像时空信息组织表达以及叙事模型和标注信息映射的问题6;王晓光等为了满足对文化遗产图像的细粒度标注和语义增强的新兴需求,设计了针对文化遗产图像的 DSA(深度语义标注)框架7;陈金菊等也从图像语义标注模型、图像语义标注工具、语义鸿沟问题以及解决该问题的方法出发,对图像语义标注研究进行了总结和分析8;王若宸等则针对非遗图像资源,提出了专门面向非遗图像语义信息的描述方法9;曾子明等根据用户认知特征制定图像语义结构化描述框架,提出了一种面向数字人文的图像语义描述模型10。(3)数字人文众包以聚集大众智慧为数字人文研究提供可分析资源,往往通过大众抄录实现图像的标注,因此常和人机交互相结合。伦敦大学学院发起的边沁手稿抄录项目通过收录用户抄录的手稿全文数据,建设可全文搜索的边沁文集数据库11。考虑到手稿、古籍、家谱中由于书写笔记凌乱、风格迥异、形式复杂,OCR 识别正确率低,上海图书馆分别建设了元数据深度标引和全文著录的“历史文献众包平台”12。韩文婷等借助盛宣怀档案众包抄录项目,探讨了不同任务复杂度和领域知识水平下,众包抄录任务的绩效差异13。近年来,也有相关学者开展了知识复用方面的研究。如穆向阳采用模型构建和系统分析方法,对图书馆、档案馆、博物馆(LAM)的知识重用体系进行总体理论框架设计和相关具体方法探讨,构建了基于协同编辑关联表方法的 LAM 知识重用体系14;傅柱等构建面向知108数字人文图书馆杂志(2023年第2期 总第382期)Library Journal(Vol.42 No.2)识重用的设计过程知识语义模型,并利用本体对语义模型进行形式化表示15;李国洋对国外关于知识重用的研究进行了简单评述,并主要介绍了用于创新的知识重用(KRI)模型16;Jianyu Zhao 等将知识重用分为知识搜索、知识评估、知识重组和知识创造 4 个阶段,并围绕这些阶段开发了知识重用机制模型17。综上所述,图像标注和数字人文众包这两种方法都可以看成是图像知识的生产过程,而非知识的复用。图像标注可以看成是知识生产者单方面的知识发布过程,目的是图像深度知识的共享和传播,当多人对图像进行协同标注,则成了众包;数字人文众包中的图像可以认为是一种知识协同加工过程,本质也是一种标注。与这两者有所不同,图像知识复用追求的是图像某个状态的知识被再次利用或被多次利用的过程。在针对知识复用的研究中,也很少有针对图像资源的知识复用方面的探 索。2 图像知识语义模型数字人文研究中大量的图像级应用都会对图像资源进行描述和组织,但仍然是传统的关系型存储方式,图像知识虽然可以复用,但开放程度不够,知识的共享与交互难度较大。万物互联时代加速了数据的融合与联动,也给知识的复用提出了新的要求。图 1 从描述层面(元数据)、组织层面(框架)和内容层面(注释)3 部分组织图像语义模型,横向描述层面和纵向内容层面针对图像进行元数据和内容方面的语义组织,实现内容的复用;而垂向的组织层面则在建立图像之间的相互结构关系,实现图像的复用。每个层面的数据皆采用资源描述框架(RDF)进行结构描述,并用图数据库进行存 储。2.1 描述层面语义模型描述层面的知识主要是元数据信息,语义模型见图 2,主要是从元数据层面进行一些结构化的信息描述。需要注意的是,进行元数据描述时,描述的对象并非具体的图像本身,而是由一张图像或多张图像组织而成的藏品。常用的元数据描述字段有题名、创作者、创作时间、描述、收藏机构、分类、许可声明、页码、尺寸等,这些信息大量存在于各馆藏机构中,因此在实际应用时,可以直接从馆藏信息中进行转换和导入。这里的元数据描述也将使用三元组方式进行存储,以支持后续的知识检索,对应的元数据描述见表 1。除了 iiif:metadataLabels 属性外,其他的属性都比较容易理解,这里不再赘述。论文的图像语义模型使用了国际图像互操作框架(IIIF),因 此 这 里 使 用 了 iiif:metadataLabels 对 象 属性(Object Property)来连接更多的元数据信息,连接的元数据信息通常使