分享
面向《天工开物》版本图像资源的知识图谱应用研究.pdf
下载文档

ID:2581732

大小:2.46MB

页数:14页

格式:PDF

时间:2023-08-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
天工开物 面向 天工 版本 图像 资源 知识 图谱 应用 研究
包 装 工 程 第 44 卷 S1 期 480 PACKAGING ENGINEERING 2023 年 4 月 收稿日期:20221213 基金项目:2018 年度全国高校古籍整理研究项目“天工开物异本图像整理研究”阶段性研究成果(1859)作者简介:谢玮(1980),女,博士,教授,主要研究方向为传统艺术设计史论、传统设计衍生与创新。面向天工开物版本图像资源的知识图谱应用研究 谢玮,衡雨,邱菊芯(扬州大学,江苏 扬州 225009)摘要:目的目的 提出一种面向天工开物版本图像的数字化资源开发,为实现该古籍数 10 种版本图像资源特征及知识图谱推理关联、主题性优化检索及功能设置和知识服务提供参考。方法方法 构建本体架构与关联数据,选取天工开物具有代表性的 3 个版本资料为实证数据来源,搭建图文资料图数据库,兼顾领域本体和元数据描述 2 方面,以充分发掘利用图像知识,借助古籍元数据规范、DC 实现元素互操作及模型运用。结论结论 为该古籍多版本资料的数据化转换提供新方法和思路,为设计、历史等多领域群体提供智能化知识服务,并推进古籍数字化传承及古籍图像智能化展示,在数字人文领域拓延推广范围及深度。关键词:天工开物;图像;版本;知识图谱 中图分类号:G255 文献标识码:A 文章编号:1001-3563(2023)S1-0480-13 DOI:10.19554/ki.1001-3563.2023.S1.071 2022 年 4 月 11 日中共中央办公厅、国务院办公厅印发关于推进新时代古籍工作的意见,做好古籍工作,把祖国宝贵的文化遗产保护好、传承好、发展好,对赓续中华文脉、弘扬民族精神、增强国家文化软实力、建设社会主义文化强国具有重要意义1。意见中强调了构建古籍知识服务体系,推进古籍数字化,实现古籍数字化资源汇聚共享,并做好古籍普及传播。1637 年天工开物初刻本(涂本)刊行以来,已有 10 余种中文版本,各版本文字、插图皆有所差异2,这为研读文本插图图像和探索明以前的工艺技术及工艺制作场景,解读我国古代传统工艺技术,了解古代农业、手工业发展的历史特点提供了丰富的信息,但为学者带来插图引用辨析方面的困难。而目前天工开物古籍图像的数字开发处于采集图像、著录元数据、构建数据库、数据包审核发布4 个进程之中,传统检索方式仅支持用户获取图像实体与结构化信息的可视化结果,其内容组织方式仅能揭示 1 个维度的信息而弱化其他维度的内容,这对专业学者和普通用户进行图像检索与分析对比造成一定困难。本文以天工开物的代表性版本图像为研究对象,提出相关版本图像资源的梳理描述与知识组织的方法及思路,设计开发以图像及版本为核心的知识图谱检索功能,揭示知识资源之间隐含的复杂关系。基于上述思路构建天工开物图像及版本的本体模型,在此基础上完成知识图谱的实例展示,以期实现其可视化操作、检索复杂图像及知识发现等应用层服务。1 古籍图像的相关研究 数字技术更新迭代,数字人文促使人文学科与计算机技术有机联结,对古籍文献的再生性保护与创新传承起到促进作用3。我国古籍数字化始于 20 世纪80 年代,历经设立中文古籍书目数据库、光盘版古籍、网络化古籍 3 个阶段4。而在早于我国古籍数字化的 10 年,已然开启对图像检索的研究方式,即涵括使用关键词对图像进行人工索引,以及基于内容的图像检索。开发古籍实体数字化多依托计算机可读字符代码形式,亦或扫描古籍文献页面的影像形式存储文献内容、支持计算机内容处理与数据库查询5,使用计算机图像检索技术用术语数据库中的术语图像模板在图像文件数据库中对所有图像进行匹配,将含有相关术语的图像进行索引记录对应的编号,生成图像术语检索索引数据库。具有代表性的数据库有:爱如生中国基本古籍库 鼎秀古籍 瀚堂典藏 雕龙古籍数据库 文渊阁四库全书(电子版)书同文中国历代石刻史料汇编 书同文四部丛刊 书同文大清历朝实录 大成故纸堆 爱如生中国方志库中国数字方志库国学宝典第 44 卷 S1 期 谢玮,等:面向天工开物版本图像资源的知识图谱应用研究 481 汉籍数字图书馆和中华经典古籍库等6,涵括图像型、文本型和图文型 3 类。大部分数据库通过库、类、目的树形结构进行定向分类浏览及检索7。汉籍数字图书馆 提供多种分类方式,其他皆提供 1 种。分类大多采用传统古籍的四部分类法,少数根据子库进行分类,如雕龙古籍和书同文古籍由很多子库组成。大成古籍则按照首字母分类。中国基本古籍库依托其自创分类模式,即哲科、史地、艺文、综合四库,以便于不熟悉古籍四部分类法的用户进行查阅。该库功能最为全面,其独有的版本对照功能,将同书异本视为 1 条数据,支持不同古籍版本的图像进行同屏比对,为版本学家的研究提供便利。现阶段的古籍数字化是以对古籍文献资源信息进行语义标注与链接,借助这一知识图谱结构基础性平台,满足对用户的古籍文献目录知识化资源语义集成服务8。现已具备的数据库提供的关联检索与辅助检索功能尚处在嵌入知识工具的阶段,近年以图像为载体的知识关联网络开始应用于文物领域、传统工艺领域,而古籍图像领域仅有个别专业知识领域依托知识图谱技术建立古籍图像知识关联网络。故而,将知识图谱构架于古籍图像,同时依托现有语义标注和链接,深入到古籍内容的图文层面,由于古籍文献的特殊性,同一古籍在传延过程中拥有多种版本,元数据的图像信息尽可能全面准确,如若为后人的刻本,原始版本的图文信息也应进行有效标引6,以提供多种形式的结果统计,增加并完善结果的元数据批量导出功能。2 图像及版本研究设计与方法架构 作为 1 种知识库表示方式,融合了语义体系和关联数据的知识图谱,其技术依托语义网络,由知识本体框架与三元组实例共同构建。天工开物图像及版本知识图谱更加强调本领域知识深度及其逻辑结构,面向用户集中于有传统手工艺技术和设计学专业检索需求的群体,该知识图谱具备垂直知识图谱属性,其知识覆盖范围集中且领域单一。不同版本(简称异本)图像知识图谱检索系统的构建通过 3 个层次,分别为:数据层(以用户需求为导向)、功能层(以图像知识挖掘为导向)和应用层(以智能化知识服务为导向)。构建流程依次为数据来源、数据采集、信息抽取、知识表示、知识融合、知识加工存储和知识应用。其中古籍版本图像和母体文献数据来源于第三方古籍数据库,这构成了非结构化数据,所要获取的图像需要人工从天工开物不同版本中单独选取保存,母体文献文本亦需要有针对性地录入储存,与此同时借助人工完成碎片化和数据标注。在进行知识链接与融合前需根据文本、图像信息进行实体抽取、关系抽取和属性抽取产生知识表示,形成 RDF 本体模型三元组,同时对三元组数据进行知识融合,并利用Python 将形成的数据导入 NOSQL 图形数据库(Neo4j)形成知识图谱。在服务应用的层面上,利用 SPARQL 用于对数据的获取与管理,完成、优化知识检索。天工开物异本图像知识图谱构建思路见图 1。图 1 天工开物异本图像知识图谱构建思路 482 包 装 工 程 2023 年 4 月 2.1 天工开物异本图像知识服务需求 天工开物异本图像数字化可方便相关用户群体与社会大众,借助知识图谱聚合重构知识元素,利用图像和母体文献数据的知识提取,将该古籍异本图像分散的知识元素进行深度序化组织,并关联外部异构知识源,从而形成一个具备拓延、共享和聚合的有机体,为用户使用基于知识图谱的检索与服务功能,提供有针对性的知识获取路径。本文选择具有天工开物代表性的 3 个版本插图作为采集图像的来源,插图对于“人物环境”进行细致描摹。书中插图兼具“插图”与“图像”双重意义,成为能够窥探晚明社会景观和艺术创作的镜像,为后人研究古代工艺技术提供图像参考9。研究所选底本为明崇祯十年(1637 年)涂伯聚原刊本(涂本),并选取清初杨素卿坊刻本(杨本)、武进陶湘1927 年刊石印线装本(陶本)为参照。在上述诸版本中,涂本作为初刻本,是诸多版本所附插图最早的源头,杨本作为清初翻刻本,以涂本为底本进行刊刻,该版本与涂本存在差异,杨本为涂本之后最早的版本,也是清代唯一刊行的版本,对于进行后世版本校勘具有较高的参考价值,因此将其列为对照版本之一。陶本则刊印于民国时期,与前两者差异较高,所附插图尤甚,其打乱了天工开物初刻本原有的插图体例,附着了时代特有的文化、印刷技术、审美等印迹,陶本图像源流与差异的问题也是值得关注、探讨的对象。以上 3 个版本分别对应了明代、清代、近代 3 个不同的历史阶段,且为其后天工开物诸多版本的参照对象,也是学者引辨最多且容易混用的 3个版本,可见“图像古籍版本”互证在学术研究中的重要性。本文涉及基础图像 400 余幅。天工开物所择选 3 个版本所共同具有的插图共计 123 幅,其中杨本缺 3 幅,分别为粹精第 4 卷“木砻”“场稻”,与佳兵第 15 卷“张弩”。陶本共计 160 幅插图,陶埏第 7 卷中“瓦坯脱桶”与“造瓦”合并,佳兵第 15 卷中“端箭”丹青第 16 卷中“取流松液”和珠玉第 18 卷中“没水采珠船”被拆分为 2 张,乃服第 2 卷较另外 2 个版本多出 1 幅“治丝图”与 1 幅“纺缕图”,其余多出的 33 幅插图,为陶本特有,其乃粒 乃服 粹精卷插图主题集中在农桑门类。陶本插图有部分以其他古籍为参照,其参照版包括东鲁王氏农书 农政全书 钦定古今图书集成等10,因此在数据采集过程中,通过类推比对将其对应的插图筛选出来一同进行收录。除乃粒乃服 粹精3 卷外,作咸卷陶本多出插图图像出自清光绪本四川盐法志等,另有部分陶本多出图幅是由原版拆分所得。所择天工开物的 3 个版本是一个具有内在逻辑关联性的知识领域,是在纵向历史中反思和总结学术,解读“图像等于阅读”的文化意义。每个版本的图像不再是独立的自性存在,而是历史坐标中的关联性存在。故而,从用户对检索功能的需求性和可行性角度看,天工开物异本图像知识发现及知识检索系统构建具有重要作用。天工开物 异本图像知识图谱检索系统拟将“图像母体文献版本”通过知识图谱形成关联网络,鉴于现有古籍数据库中获取的高质量图像版本多样,且难以针对图像进行检索,而网络搜索引擎检索出的图像质量参差不齐,多作为知识储备和引导这一现状,本研究尽量做到检索明晰图像内容、甄别版本来源,提供快捷、精准、全面的图像获取。2.2 搭建核心元数据及本体模型 天工开物异本图像知识图谱的搭建,首先将代表性版本的图像和母体文献实体转换为计算机可识别知识,之后将实体进行相互关联,构筑网状知识结构,这一设计构建的知识本体模型,利于天工开物知识的组织与共享,且利于学者规范揭示该领域知识的本体概念、属性及关联。相较于传统树形结构下的检索与导览方式,其组合性强、灵活度高,通过推理可实现用户关于天工开物任一主题概念检索。本文通过本体框架结构构建知识图谱,本体模型将源数据层形成的关系型数据库进行实体抽取,并存储于数据库中,基于 RDF(S)三元组表示法,即 G(三元组)Entityhead(头实体),Relation(关系),Entitytail(尾实体),可实现实体描述信息的灵活添加与存储,并关联分散的图像数据资源,充分显示网状结构的优势,全方位展示图像的知识结构与技术脉络,协助用户深度挖掘隐性知识。在进行 RDF 数据格式转换前,需要进行属性的构建,并借助库中内置模块进行内容类型与节点的设计,RDF(S)涵括 RDF 和 RDF Schema,这一模型框架用于对语义网内容进行规范化描述,以图存储模式中的 Neo4j 图数据库为主,该图数据模型的主体就包含“节点”“边”(N-E)、“节点属性”“边属性”(K-V),明确列出数据节点之间的依赖关系,该结构可包容大量中间态数据,该基本模型是有向标记的多边关系图,图中“节点”表示实体或资源,“边”表示实体间关系或实体属性11,通过不同“节点”与“边”关联约束,“节点”通过带标记的有向直线相连,借助“节点”间的语义关系进行推理,可实现数据查找、访问、交互、使用。鉴于原始数据具有垂直领域的特殊专业性,其对知识专业性要求高,应更加注重人工构建时概念之间的体系结构。故而,

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开