温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数字
人文
视野
西文
古籍
数据库
研发
2023年第2期数字人文视野下西文古籍数据库的研发张毅摘要近年来,虽然国内图书馆界对西文古籍的研究不断增加,但大多数研究仅限于馆藏调查、版本分析和文献修复,缺乏关于西文古籍数字资源的研究;而实践方面,还是以纸本借阅服务为主,无法满足读者在线阅览西文古籍的需求。文章以读者需求为中心,在分析国内外西文古籍数据库建设现状的基础上,总结了西文古籍数据库的建设思路,并以华东师范大学图书馆西文古籍数据库建设为例,介绍了其采用开源软件和数字人文技术进行西文古籍数据库开发的过程和经验,可供同行参考借鉴。关键词数字人文西文古籍开源软件 分类号 国内馆藏的西文古籍是研究西方思想文化和中西交流史的一手资料,具有重要的历史和学术价值。然而目前国内各馆西文古籍文献的保存和服务的状况却不尽如人意:对于闭架保存的善本西文古籍,读者需要经过预约等复杂手续才能阅览;对于非善本西文古籍,由于缺少专业的保管,存在着破损严重的情况,以上这些问题都不利于西文古籍价值的发挥。随着数字时代的到来,数字化成为解决纸质西文古籍保存和服务问题的有效手段,本文在分析国内外西文古籍数据库建设现状的基础上,总结了西文古籍数据库的建设思路,并以华东师范大学图书馆西文古籍数据库建设为例,介绍了该数据库的全文高清浏览、可视化、全文检索、分类浏览、在线标注以及知识图谱等等多方面的功能。借助数字化和数字人文等多方面的技术,西文古籍得以重新焕发出历史与文化的魅力,可以被更广泛地传播与利用。西文古籍数据库建设情况调查国内的情况目前,国内图书馆界对于西文古籍的出版时间范围的界定存在着不同的看法,但在实践中,通常将 年之前出版的西文图书视为西文古籍,将 年之前出版的西文图书归为西文善本。国内公共图书馆国内公共图书馆收藏的西文古籍主要来源于晚清民国时期的教会图书馆或者个人收藏者的捐赠。年月,通过在搜索引擎和国内各级公共图书馆的网站以及目录系统中,检索“西文古籍”“旧版西文图书”“外文古籍”等关键字,可查到许多收藏了西文古籍的图书馆。其中收藏最为丰富的是国家图书馆与上海图书馆,均超过万册。国家图书馆收藏的西文古籍质量最高,大多属于善本,并且建立了独立的西文古籍展示网站,上海图书馆和大连市图书馆专门针对西文古籍开发了独立的书目系统,澳门公共图书馆则有专门推荐西文古籍的网页,提供了部分西文古籍的检索和介绍。国内高校图书馆 年月,以检索式“西文古籍 :”在必应搜索引擎中检索与高校图书馆有关的西文古籍数据库,发现北京大学图书馆、中山大学图书大学图书馆学报 国家社会科学基金项目“高校图书馆特藏资源服务模式及站群系统研究”(编号:)的研究成果之一。张毅,:,邮箱:。:?:2023年第2期馆、厦门大学图书馆和河北大学图书馆等都有馆藏西文古籍的介绍,但未见相关数据库的介绍。在中国知网期刊数据库中检索到,于燕妮总结了中国人民大学图书馆对馆藏的 册西文古籍进行数字化加工和著录的经验,但未见相关专题数据库建设的说明。此外,北京师范大学图书馆的晚清民国教材全文库零散收录了与教科书相关的西文古籍,但在校外不能访问全文。西文母语地区的情况对西文母语地区的西文古籍数据库建设的调查以高校图书馆为主,笔者于 年 月,对 全球高校排名前 的英国、美国、澳大利亚以及德国等国家的高校图书馆进行了调查。有 所高校的数字图书馆中有专门的西文古籍集合,其命名一般为善本集合(),尽管部分善本集合是所在高校数字图书馆平台的子网站,但一般也具备数据库主页、检索框、分类等独立的网站功能,所以本研究也将其作为西文古籍数据库处理。通过对这些西文古籍数据库的详细分析,发现注重用户体验和开放共享,以及数字人文工具的应用是其主要特点,具体如下:普遍采用 技术西文母语地区高校的数字图书馆普遍采用了国际图像互操作框架(,)技 术发 布 高 清 数 字 对 象。具有图像动态加载功能,可以根据终端屏幕尺寸大小,为读者提供图像的最佳分辨率。如牛津大学博德利数字图书馆收藏的意大利语古籍 一书共有 页,每一页的尺寸为 像素,整本书的存储空间超过 ;剑桥大学数字图书馆收藏的西文古籍 (,)有 页,每页图像尺寸为 像素,整本书需要 存储空间。二者均采用了 的动态加载技术,读者可在低延迟下获得最佳分辨率的浏览体验。此外,采用 技术不仅可以实现西文古籍数字对象的高清在线浏览,而且还可赋予数字对象开放共享的能力。对外提供编程接口被调研的部分西文古籍数据库采用了标准的资源描述本体,对外提供数据编程接口,使其成为整个社会数据基础设施的一部分。如哈佛大学图书馆通过应用编程接口开放其西文古籍元数据与部分全文的光 学 字 符识 别(,)数据,共计 册。同样提供编程接口的数字图书馆还有牛津大学博德利数字图书馆中的西文古籍集合。使用开源软件,并作为开源软件贡献者西文母语地区的高校图书馆在构建西文古籍数据库时,采用了大量的开源软件,例如,斯坦福大学西文古籍数据库的后台系统,使用 进行数据索引,使用 实现分页浏览。包含大量西文古籍的剑桥大学数字图书馆使用 与 构建响应式页面,使用 作为 图像查看器。剑桥大学、美国西北大学等学校的数字图书馆还将自己的源代码提交到 共享 ,供个人与组织下载使用。曼彻斯特大学图书馆在剑桥大学的帮助下,利用开源的剑桥大学数字图书馆系统构建了曼彻斯特数字馆藏库,并收藏有大量西文古籍。全文检索由于古文字与印刷质量的问题,目前基于现代英语的机器学习技术在西文古籍文字自动识别方面仍存在一些困难。但是,对西文古籍进行全文文字识别已经成为一种趋势,也是读者呼声较高的功能。例如,牛津大学数字图书馆已经对部分图书进行了全文文字识别,并计划未来逐渐转录所有的数字馆藏,哈佛大学图书馆于 年,开发了针对所有数字馆藏的全文检索工具,南安普顿大学数字图书馆提供全文检索,而且可以定位检索结果到章节。可视化可视化能够将抽象的事物用生动的形式展示,为人文学者提供一种全新的研究工具,例如瑞士苏黎世联邦理工学院的西文古籍数据库,采用地图方式展示古籍图书的出版地分布情况,不列颠哥伦比亚大学西文古籍数据库则以时间线的形式进行资源揭示,能够清晰地在时间尺度上对西文古籍的数量与作品类型进行分析。数字人文视野下西文古籍数据库的研发 张毅 :2023年第2期研究思路调查结果显示,西文母语地区特别重视西文古籍数据库建设,以最大程度地开放共享为建设理念,依托开源软件构建多种数字人文工具。随着人工智能技术的不断发展,西文古籍全文 与实体识别技术逐渐得到推广,使得全文检索成为可能。国内图书馆界也开始重视西文古籍的重要价值,但国内的西文古籍全文数据库建设还停留在理论研究阶段。本研究将借鉴西文母语地区建设西文古籍数据库的经验,以读者需求和学科发展为导向,探索构建西文古籍数据库。西文古籍数据库应具备友好的用户体验自适应多种访问终端第 次 中国互联网络发展状况统计报告 显示,截至 年月,国内手机接入互联网的比例已达到,超过了台式电脑、笔记本、平板电脑的总和。西文古籍全文数据库平台可采用响应式网页设计方式,自适应手机、电脑、平板等多种访问终端,满足读者多元化的访问需求。优化页面布局与提高响应速度 年,华东师范大学图书馆在全校范围内对图书馆主页改版的需求进行了调查,读者反馈意见最多的是图书馆主页内容繁杂,响应速度慢。西文古籍数据库也可以借鉴这一调查结果,页面设计以简洁为主,并根据用户使用反馈不断优化。系统的响应速度决定着用户的留存,在设计西文古籍全文数据库时,可采用动态加载与异步通讯等措施确保响应速度。提高搜索引擎的收录当前,搜索引擎依然是用户获取信息的重要入口,将 嵌入到西文古籍数据库的网页中,可使得资源更容易被搜索引擎所收录。增加西文古籍揭示平台与图书馆主页、电子资源导航以及学校主页之间的超链接,也能有效提高搜索引擎的收录量。数字人文技术的应用仅仅将西文古籍数字化并在线发布,仍属于传统纸质资源服务模式的简单升级,不能有效释放西文古籍的独特价值。数字人文是数字技术与人文学科的交叉领域,由大量开源工具组成的数字人文软件基础设施,可赋予西文古籍全文数据库更多的功能(如可视化、众包以及文本挖掘等),能够协助人文学者挖掘出西文古籍所蕴藏的潜在知识。可视化数字人文常用的可视化方法有图表、关系网络、地图、时间线等,其中地理信息系统()是比较成熟的数字人文研究工具,结合时间变量,可为人文学者提供时空层面的内容揭示。众包众包可以有效解决西文古籍能见度低的问题,于 年专门成立了 注释工作组(),并于 年发表了 注释数据模型、词汇表及注释协议等三份正式推荐标准,这三份标准的发布,标志着数字资源众包时代的到来。文本挖掘在西文母语世界中,已经形成了大量西文古籍的语料库,比如维基百科开放数据、哈佛大学数字图书馆云等。利用这些成熟的语料库资源,结合机器学习算法,可以精准地对西文古籍进行文本挖掘,更加深入地揭示其所蕴藏的知识。采用开源软件 、以及剑桥数字馆藏平台等系统,是较为主流的数字资源管理平台,它们的底层架构也多基于开源软件构建,其中包括 和 等关系型数据库实现的元数据存储,和 等工具实现资源的发现,和 等技术进行的用户界面开发,以及基于 框架构建的时空可视化展示等功能。在图像处理方面,这些平台大多采用 进行图像处理,并借助 、等工具实现符合 标准的图像在线浏览,同时还利用 、以及 等图像服务器工具发布可动态加载的图像。利用商业人工智能平台已经较为成熟的商业人工智能平台,能够对西文古籍进行自动分类、标签抽取、内容审核以及图像识别等分析,其分析结果经图书馆校验后,可作为西文古籍元数据的补充,提升西文古籍的能见度;导入相关专业领域的语料库还能进一步提升人工智能平台识别的准确度。整合西文母语世界的同类型资源西文母语世界中已经有大量开放的西文古籍资源,对于其中以 格式发布的相关资源,可以将其整合到本地数据库来丰富本地资源,对于以关联数字人文视野下西文古籍数据库的研发 张毅 2023年第2期数据形式发布的数据集,则可用来对本地西文古籍的元数据进行校验与丰富。西文古籍全文数据库的建设实践以华东师范大学图书馆西文古籍资源为对象,基于开源软件与云开放平台构建西文古籍全文数据库。西文古籍文献详情华东师范大学图书馆(以下简称华东师大馆)特别重视 西 文 古 籍 资 源 的 数 字 化,目 前,已 有 超 过 册的西文古籍被数字化。这些西文古籍在出版时间上的分布如图所示,可以看出,华东师大馆所收藏的西文古籍出版时间主要集中在 年到 年之间,这段时间也是我国西学东渐的开始,其出版社与出版城市集中分布信息如表所示,其中,上海是国内出版西文古籍较多的城市。图西文古籍出版时间分布表西文古籍出版社与城市信息出版社图书数量城市图书数量 ,虽然华东师大馆已经拥有大量数字化的西文古籍,然而长期以来这些数字西文古籍还没有被有效地揭示,不能充分发挥出这些珍贵收藏的价值。西文古籍数字资源的管理与发布构建西文古籍全文数据库系统通过对众多开源数字资源管理系统的分析,华东师大馆最终选择 来构建西文古籍数据库。具有清晰的文献管理与发布逻辑,系统面向语义网开发,底层数据采用关联数据组织,内置多种元数据本体,其开源社区中有丰富的扩展模块,符合开箱即用系统的要求。图是采用 发布的西文古籍全文数据库的首页,该数据库的 系统运行在 的虚拟机上,服务器的配置(内存 ,核 )可以基本满足图像处理与数据发布的需求。图华东师大馆西文古籍全文数据库的首页批量导入西文古籍全文数据使用 插件能够将本地数据批量导入到西文古籍数据库,并可调用 软件自动生成所需的缩略图。采用弗吉尼亚大学图书馆开发的档案汇编()插件,可让导入的数据以原始路径与文件名存储于服务器,提高了数据库的访问速度,也方便了后续批量更换文件。全文在线浏览西文古籍全文浏览功能基于 接口开发,由服务器端与浏览器端程序组成,服务器端采用 ,提供图像的动态加载功能,浏览器端采用 工具,可让读者在不同访问设备上均获得最佳的体验。整合开放资源 技术在西文母语地区的广泛使用,使得大量开放的西文古籍资源可以无缝嵌入到本地数据库数字人文视野下西文古籍数据库的研发 张毅 2023年第2期