古籍
知识库
互通
框架
研究
设计
2023年第4期古籍知识库互联互通框架研究与设计陈涛杨鑫夏焱苏日娜摘要加强古籍数字化资源汇聚共享和互联互通是新时代古籍工作的必要之举,现有的中心化的古籍资源融合方式存在维护成本高、更新不及时、重复使用难等症结.文章依据数字人文应用中较为成熟的语义技术,从元数据转换和发布、图像资源互联互通、内容资源互联互通、语义资源互联互通等方面构建古籍知识库互联互通框架.该框架在确保各存藏机构现有古籍数据库结构不变的前提下,采用分布式架构实现古籍资源去中心化的、实时的在线互联互通.这种互联互通方式既可以用于古籍数字化基础设施建设,也契合文化数字化战略的建设需求,具有一定的应用前景.关键词古籍知识库互联互通去中心化文化数字化分类号G D O I /j i s s n 引言古籍是中华民族智慧的结晶和宝贵的精神财富,是坚定文化自信的重要源泉,是中华千年文明传承和发展的重要载体.习近平总书记在中国人民大学考察时强调,“要运用现代科技手段加强古籍典藏的保护修复和综合利用,深入挖掘古籍蕴含的哲学思想、人文精神、价值理念、道德规范,推动中华优秀传统文化创造性转化、创新性发展”.年月,中共中央办公厅、国务院办公厅印发 关于推进新时代古籍工作的意见,在加快古籍资源转化利用方面提出“积极对接国家文化大数据体系,加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享”的具体要求.年 月,全国古籍整理出版规划领导小组印发 年国家古籍工作规划,其中第六项要求“统筹古籍数字化建设”,对古籍数字化工作提出具体政策举措:“加强古籍数字化基础设施建设,推进古籍数字化总平台、骨干平台建设,加快构建古籍资源中心、骨干资源库,形成以平台为牵引、资源中心和资源库为依托的古籍数字化资源体系,实现互联互通和共享利用.”由此可见,古籍数字化是国家古籍工作部署的重点,古籍数字化的进一步开发和利用是未来古籍保护工作的关键基础.古籍原生性保护、再生性保护和传承性保护构成了古籍保护的完整体系,而古籍数字化理应在整个体系中处于核心地位.过往关于古籍数字化的相关研究多集中于古籍数字化专题数据库的构建、各项具体技术的研究和实施等方面,鲜有从技术统筹和互联智慧的宏观视角出发的相关研究.从国家近几次古籍工作指导意见中可以看出,加强古籍资源互联互通和共享利用是开展古籍深度利用和持续研究的根本,这也契合 关于推进实施国家文化数字化战略的意见 中关于文化数字化基础设施和服务平台建设的战略要求.本文从顶层设计的思路出发,试图提出古籍资源的互联互通概念,并从古籍图像互联、内容互联、语义互联三个层面探讨构建古籍知识库的互联互通框架,以实现古籍数字化内容的深度挖掘和智慧共享,进一步挖掘、延续和发展古籍的时代价值.古籍数据库应用现状从当前古籍工作现状来看,提升古籍数字化水平、加快古籍智能化发展、推进古籍数据库和相关平台建设是目前古籍数字化工作的重点.古籍数字化和智能化研究是古籍数据库建设的基础,古籍数字化程度直接影响着古籍数据库的智能程度以及应用的推广程度,其重要性不言而喻,可大学图书馆学报J o u r n a l o fA c a d e m i cL i b r a r i e s 年度古籍工作立项重点课题“古籍数字化资源平台互联互通研究”(编号:G J K )的研究成果之一.通讯作者:苏日娜,O R C I D:,邮箱:s u r i n a m a i l s y s u e d u c n.2023年第4期视为对古籍发现、保护、利用的延续、传承与创新,是人文学术研究的基础性、时代性工程.狭义的古籍数字化主要是对实体古籍进行数字化转换,表现为对古籍资源进行计算机编码汉字和计算机图像识别并转换为字符的能力,常用的方法是借助光学字符识别技术进行古籍图像版式和文字字符的识别,这些是进一步深化古籍研究的前提.而广义的古籍数字化还包含针对古籍数字资源的一系列整理、利用和研究,如使用自然语言处理、机器学习等方法 对 古 籍 进 行 断 句、标 点、词 语 切 分、实 体 识别,进而实现自动摘要生成 、关系图谱分析、地理信息系统时空分析.在古籍数字化发展的基础上,有学者指出对古籍内容进行再挖掘、再组织与再表达,应用本体、语义出版、数据建模、知识组织等数字技术和方法对古籍数字资源进行再造,并转化为智慧数据,以提供更为智慧的数据支撑 .古籍数据库建设是使古籍为人所熟知的重要手段.根据建设和应用情况来看,诸如国家图书馆牵头建设的“中华再造善本”数据库、“中华古籍资源库”以及爱如生公司开发的“中国基本古籍库”“中国数字方志库”等重大项目,都在近二十年间不断发展,除为专业学人提供研究渠道和途径之外,也让社会公众有机会接触到古籍文献资料,从中获取古籍知识.从近些年古籍数字化建设发展变化来看,数字化建设对象由基本常见类逐步向更具学术性和稀有性的古籍转变.年国家古籍整理出版规划 中“古籍数字化类”共包括中国基本古籍数据库、两汉全书、魏晋全书、全唐五代诗、全宋诗、全宋文、全元文、全元戏曲、全明诗、全明文、二十四史及 清史稿 修订本电子版、二十四史知识分析系统 项基本古籍文献类,和殷商甲骨文知识库、殷周铜器铭文知识库、古代简帛文献知识库、古代碑刻文献知识库、中国文物地图集 电子出版物、中国古代科技典籍集成及数字化工程、续修四库全书(电子版)、乾隆版大藏经项专门古籍类.从古籍资源互联互通的方式来看,线下古籍数据融合并提供联合目录是主要方式.于 年启动的“C A L I S古籍联合目录”系统致力于揭示、整合国内各高校的古籍资源.年C A L I S组织建设的“高校古文献资源库”,努力为全国乃至海内外的“古籍联合编目”提供一个良 好的组织模 式及技术平 台,截 至 年,已有 家国内外高校图书馆参加组织建设.该数据库作为C A L I S三期建设的子项目之一,共收录元数据 万余条、书影 余万幅、电子书 万册,已成为世界上规模最大的中国古籍书目数据库之一.上海图书馆“中文古籍联合目录及循证平台”,收录有上海图书馆、加州大学伯克利分校东亚图书馆、哈佛燕京图书馆等 余家机构的古籍馆藏目录,并实现了各馆古籍珍藏的联合查询和规范控制.华东师范大学“数字方志集成平台”收录有华东师范大学、北京师范大学、上海师范大学等十余家师范院校的方志藏品资源,并提供方志资源的联合查询.此类数据融合方式主要通过将不同存藏机构的古籍资源提交到某一中心机构,来构建具体的古籍专题平台.通过上述分析可知,现有古籍数据库实现资源融合的主要方式是由特定中心存藏机构牵头构建,其他参与机构向中心存藏机构提交各自的馆藏目录,通过统一格式转换实现数据的聚合.以上方案是典型的W e b时代的数据互联互通方式,其所带来的弊端也显而易见.()中心机构维护成本增加.所有存藏机构提交各自资源到中心机构,数据维护由中心机构负责,增加了中心机构的运维成本,尤其需要针对古籍资源的不同格式进行归一化处理.()资源原始状态难以跟踪.开放数据原则中强调必须开放资源的原始数据,而非加工和修改过的数据.经过中心机构运维的数据在重复使用时将难以对原始数据进行跟踪和循证.()数据更新存在严重滞后.数据更新时,需要各参与机构将各自更新的古籍数据提交到中心机构,并依据流程进行转换更新,整个流程的时效性和统一性难以保证.()数据副本版本难以统一.当某个机构的馆藏资源被多个机构使用时,就会存在严重的数据副本版本不一致问题,尤其是伴随资源的更新,这些数据副本之间的资源同步将异常困难.古籍知识库互联互通框架设计文章所提及的古籍知识库即古籍数据库的进一步发展形式,古籍知识库的建立是实现古籍资源互联互通的关键,唯有打破传统的元数据组织方式,从知识元的角度对古籍数据进行重组,才能实现知识的互联互通.回溯古籍知识组织的方式,可粗略将古籍知识库互联互通框架研究与设计/陈涛,杨鑫,夏焱,苏日娜R e s e a r c ha n dD e s i g no f t h e I n t e r c o n n e c t i n gF r a m e w o r ko fA n c i e n tB o o kK n o w l e d g eB a s e/C h e nT a o,Y a n gX i n,X i aY a n,S uR i n a 2023年第4期其划分为三个阶段:一是以传统官修目录和私家藏书目录为主的古籍书目著录形式,具体分为叙录体、辑录体和传录体等著录形式,可视为传统的著录形式;二是古籍元数据著录方式,是以标准化、简捷化为著录标准,适用于方便机器读取的著录形式,可视为现代的著录形式;三是古籍本体著录,当前古籍本体的设计和编制尚未形成系统性理论成果,还属于有限范围内的尝试,这一方式可以视为未来的著录形式.本文所依循的古籍著录方式为古籍本体著录,主要考虑对象为古籍元数据.图为古籍资源互联互通框架总体设计图,左侧部分为古籍元数据资源自动发布与互联互通框架,通过对不同存藏机构古籍数据库(关系型数据库为主)中结构化数据的映射与重组,实现跨格式古籍资源的统一表示;通过知识库的发布,打破机构间的资源壁垒,实现跨机构资源的汇聚关联;具体应用中,通过对关联资源的调用,实现跨机构资源的数据融合和知识发现.图中右侧为古籍知识互联互通框架,由古籍图像互联框架、古籍内容互联框架、古籍语义互联框架三部分构成.鉴于古籍领域存在不同形式和不同结构的数据资源,为保证不同种类资源在互通共建下的一致性和通用性,并充分揭示其中的异同,文章确定以图像、内容、语义三者为框架核心内容.其中,古籍图像互联框架主要借助国际图像互操作框架(I n t e r n a t i o n a lI m a g eI n t e r o p e r a b i l i t yF r a m e w o r k,I I I F)实现不同存藏机构中古籍图像资源的在线交互和互操作;古籍内容互联框架使用W e b注释数据模型(W e bA n n o t a t i o nD a t aM o d e l,WA DM)对古籍图像以及古籍全文进行内容注释;古籍语义互联框架则使用关联数据的技术和方案,实现跨机构古籍实体资源间的互联,以及与外部关联开放数据集(知识库)的关联.图古籍资源互联互通框架古籍元数据资源自动发布与互联互通框架传统的文献资源互联方案(如联合目录)主要采用资源的物理导入,即将不同机构来源数据按照某一固定的元数据格式导入统一的物理空间.该物理空间一般位于某一中心机构中,因此这种汇聚方式并没有实现去中心化.图为古籍元数据互联互通框架,该框架中无需将各个存藏机构的古籍资源导入到某一中心机构中.各存藏机构仅需部署相同的中间件程序,以实现各自馆藏元数据信息到三元组数据的转换.中间件程序主要通过古籍通用本体和关系型数据到三元组数据的映射语言,如R RML、D R M a p p i n g,将存藏机构结构化数据表转为各自的三元组图,并通过配置S P A R Q L端点方式提供对外访问,实现跨机构古籍元数据资源的互联互通.相比传统的资源汇聚,该框架有以下优点:()资 源 去 中 心 化.任 一 存 藏 机 构 通 过S P A R Q L联邦查询(F e d e r a t e dQ u e r y)均可实现跨机构古籍元数据资源的在线集成,无需进行线下汇聚,从而去除中心节点,各存藏机构扮演相同的节点角色.()资源访问的实时性.采取中间件程序进行数据的转换并进行发布,可在不同存藏机构间实时古籍知识库互联互通框架研究与设计/陈涛,杨鑫,夏焱,苏日娜R e s e a r c ha n dD e s i g no f t h e I n t e r c o n n e c t i n gF r a m e w o r ko fA n c i e n tB o o kK n o w l e d g eB a s e/C h e nT a o,Y a n gX i n,X i aY a n,S uR i n a2023年第4期图古籍元数据互联互通框架获取最新的数据资源,尤其是当原始数据发生变