分享
大数据时代图书馆特色数据库...考——以民国教材数据库为例_关富英.pdf
下载文档

ID:347393

大小:83.91KB

页数:3页

格式:PDF

时间:2023-03-22

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据 时代 图书馆 特色 数据库 民国 教材 关富英
812022 年/第 36 期/12 月大数据时代图书馆特色数据库的设计思考以民国教材数据库为例关富英,赵星,田晓迪,胡沈秋,卿蔚(北京师范大学图书馆北京100875)摘要民国教材在中国教育的现代化进程中影响巨大,为使这些珍贵文献在现如今的大数据时代充分发挥价值,图书馆在创建民国教材数据库的过程中,从制订元数据规范、设计数据结构、明确元数据用途、揭示资源特色、支持拓展等五个维度出发,确立元数据设计原则,从资源检索、内容展示、个人中心、相关推荐等方面进行前端界面设计,从字段配置、批量导入、权限控制、版权保护、统计功能和支持互联等角度完成后端功能实现。关键词民国教材;数据库设计;特色数据库;自建资源中图分类号:G258.6文献标识码:ADOI:10.16400/ki.kjdk.2022.36.025Thinking on the Design of Self-built Characteristic DatabaseTaking the Republican-Era Chinese Textbooks as an ExampleGUAN Fuying,ZHAO Xing,TIAN Xiaodi,HU Shenqiu,QING Wei(Library of Beijing Normal University,Beijing 100875)AbstractRepublican-Era Chinese Textbooks played an important role in Chinese educational modernization.In order tomakefulluseofthevaluablematerialsintheeraofbigdata,librariesaresupposedtoestablishtheprinciplesindesigningthemetadata,thefourdimensionsofwhicharecreatingguidelines,clarifyingpurposes,demonstrating specialtiesandsupportingfutureexpansion,todothe front-enddesignwhichincludes theaspectsofinformationsearching,informationdisplayingandpersonalcenter,andtoimplementtheback-endfunctionswhichincludestheaspectsofdatafieldconfiguration,batchimport,authorization control,copyright protection,statistics function and web service enabling.KeywordsRepublican-Era Chinese textbooks;database design;characteristic database;self-established resources在教材发展史中,19 世纪末至 20 世纪 20 年代末是我国教科书,尤其是中小学教科书发展的黄金时期。民国教材的编写者也大多是后来声名卓著的文化精英,如蔡元培、胡适、陈独秀、林语堂,以及丰子恺、叶圣陶、朱自清、郭秉文、朱经农、黎锦熙等。这是一批最不能被世人遗忘的教科书1。这些民国教材对我们研究现代中国的形成与发展具有极其重要的历史价值,数字技术的出现为我们的研究提供了方便的途径。很多图书馆开始了民国文献数据库的建设,如“民国针灸文献全文数据库”2“民国图书缩微文献目次数据库”等3。考虑到这一时期教材的多样化特征,我们在民国教材特色数据库的创建过程中,结合民国时期历史特色在元数据著录、平台的前端和后端功能设计方面进行了如下考虑。1 元数据设计原则1.1 制订规范图书馆之间有着紧密的合作关系,在搜集数据的过程中,元数据有多个来源,数据的字段质量参差不齐。在建立数据规范之前,需要认真分析每个来源的字段描述,对不同来源元数据的字段进行整合及规范化,对一些缺省了重要字段的元数据表单,需查看数字对象的电子全文进行补充和完善,保证前端的元数据显示是完整的,数据检索是准确的。制订规范是重中之重的顶层设计,如果不完善,后续出现修改的规范,将带来元数据整理的重复劳动。1.2 数据结构民国教材数据库的数据分为 3 个层次:种、册、篇。种,指的是一套书。例如,江苏省教育厅修订 中學國文科教學進度表委員會編訂的初中標準國文 这套书。它DISCIPLINES EXPLORATION822022 年/第 36 期/12 月的“种”级别的字段包括题名,责任者,出版者,出版地,出版时间,页数,卷册数,学科,关键词,来源,种的唯一标识等。册,指的是一套书中所包含的分册内容。以上面的数据为例,该套书包含 6 册。该数据在“册”级别的字段包括,单册名称,单册唯一标识符,单册保存路径,该单册所属的种的唯一标识(用于体现与种的层级关系)等。篇,指的是每一种书的每册书的目录里每一项的内容。在民国教材数据库里,是每册书的每一个章节的内容。它的“篇”级别字段包括篇的唯一标识符,篇名,全文内容,起止页码等。如果民国教材数据库的数据,没有做到全文识别,最好在篇这个层次上能实现到篇名的文字著录。受到经费所限,无法进行全文识别,没有全文检索,已经让检索的效率降低。其实目录也涵盖整书的大量信息,一定程度上弥补了不能全文检索的不足,最大限度地提高了检索的命中率。1.3 明确用途元数据可用于前端显示、前端检索、分面检索、内部使用等。前端显示题名、责任者、出版者、出版地、出版时间、描述、目录等信息。前端检索可将题名、责任者、出版者等列为检索项,检索项的设计可参考 CALIS 特色库子项目描述元数据规范及相关规则4。分面检索即二次检索字段,是在检索结果中进行再次检索的字段,比如学段、学科、责任者、出版时间。内部使用的元数据有数据的唯一标识符、元数据来源等。1.4 揭示特色民国时期的教科书内容丰富,其学科、科目的设置与现在不尽相同,也正是其特色之处。在对教科书进行学科揭示时,首先要设定学科,鉴于学科设定的专业性及复杂性,图书馆必须邀请民国教育研究的专家深度参与,使民国教材数据库中的学科设置,既显示出专业性,又符合用户使用习惯。数据库的创建是为使用者提供服务,成为图书馆支持学校科研的有力保障,而不仅仅是图书馆资料存档。1.5 支持拓展考虑到民国教材数据库未来的更新升级,元数据来源的扩充,在元数据字段的设计上要提前预留备用字段,为后续更新做好准备。2 功能设计2.1 前端展示2.1.1 内容导航按照学段/学科,责任者,题名,出版时间等导航展示。学段/学科导航可划分为七个学段,包括蒙学,小学,中学,高校,师范,职校,其他;在每个学段下,展示该学段下的各个学科。责任者导航是姓名的首字母AtoZ。题名导航是教材正题名的首字母AtoZ。出版时间导航是按时间顺序揭示数据库内容。此外,以特色数据库专题的形式,通过深度挖掘收录的资源,可以从多个角度更好展示教材库的内容。例如,女子教科书专题,解放区教材专题,本校编撰教科书专题,欧美教材翻译引进专题等。2.1.2 检索功能基本检索。结合元数据的字段设计,例如:题名,著者,出版者,学科,在前端向读者提供各个元数据字段的检索功能。高级检索是上述检索字段逻辑或与非组合查找。二次检索。在检索结果中根据学段,学科,出版时间,责任者等二次分面展示。全文检索。全文检索是民国教材数据库非常重要的功能,能提升数据库使用效率,帮助研究者准确快速定位所需内容,成为使用者的有效工具。2.1.3 个人中心读者在使用过程中,有很多个性化功能需要满足。收藏单册,全文上做笔记,单册上打标签,保存浏览历史,保存检索式等。2.1.4 相关推荐针对每一条检索结果,根据读者阅读习惯,推荐同类著者,相同主题或者同类读者关注的内容。2.1.5 数据可视化针对著者,出版者,出版时间,学科进行图形可视化的展示。通过数据可视化的展示,扩展知识边界,建立更为形象的知识结构,为读者获取信息打开新的途径。可视化展示,一种方式是针对整个数据库里全部数据的宏观展示,数据库的管理人员可以直观地了解数据库中数据的基本情况,从而进一步完善数据库。比如,每个学科的数据量,每个出版时间的收录情况。另一种方式是针对每一次检索结果的数据展示。这个可视化展示与检索结果密切相关,可以为用户展示当前检索结果全部的著者,学科分布,出版时间的分布。2.1.6 其他功能众包方式实现 OCR 识别的文字校对。民国时期教材的文字是竖排版的繁体字,印刷质量参差不齐,扫描过程中进行 OCR 文字识别正确率很低,需要人工参与审校校对,这是一项需要大量人工参加的工作,如果在民国教材数据库的前端功能中引入众包平台功能,完成 OCR 识别文字的审校校对,一方面吸引师生参与到数据库的建设中 学科探索832022 年/第 36 期/12 月来,根据参与定律,每个人都会支持他参与创造的事物5,用户自己参与建设的数据库,既增进了读者与数据库的连接,也增加了民国教材数据库的用户粘性;另一方面也极大地节省了馆员的工作量。人工参与完成的 OCR 识别,识别的准确率将大大提升。2.2 后端管理2.2.1 元数据管理字段的配置用于管理民国教材数据库元数据的管理。元数据的数据类型有单行文本,多行文本,字符型,数值型,日期和时间,图片格式,视频格式等。2.2.2 批量导入在建库初期的元数据整理阶段,图书馆使用 Excel 格式元数据进行数据清洗、合并、去重,在入库的时候,需要在后端批量导入元数据,节省编目员工作量。批量导入功能,首先根据字段设置生成一个标准的数据导入模板,在数据导入过程中,操作员根据数据导入模板,准备好批量导入的元数据列表。在导入过程中,需要元数据的查重核验过程来减少数据冗余。因为随着导入数据的不断增多,不同批次之间的数据将出现重复。在导入的过程中,把重复数据拒之门外,将大量减少冗余数据,提高数据质量。查重的过程是选取必备字段,在导入前对必备资源的内容进行匹配,以此判断是否是重复数据。由于数据来源是不同的,所以要保证不同来源的数据采用相同的著录规范。此外,遇到不能正常导入的情况,需要给出明确的数据调整办法或者出错原因,以便数据操作者根据提示修改数据格式,提高数据批量导入的效率。2.2.3 权限控制权限控制一方面是读者对资源的访问控制,另一方面是管理员对资源的管理控制。读者权限控制可以从读者、院系、资源、时间、终端这五个方面入手。访问方式是浏览、查看、下载。从访问控制和访问方式这两个方面的组合,构建整个资源的权限控制。例如,某院系读者,可以访问查看元数据;某资源在某段时间,在某些 IP 范围内,可以下载。管理员权限控制可以是针对资源的元数据管理,资源统计,数字对象管理的不同方面,给予不同的控制范围。例如,资源的元数据管理,有的用户可以新增、更新和删除;有的用户只能新增和更新,没有删除的权限。2.2.4 版权保护图书馆投入大量的人力和物力精心整理搜集制作的数据库,当然不希望被恶意下载,或者被用于商业用途。为保护馆员的劳动成果,需引入专门的电子全文版权保护系统,在服务器端对电子全文进行加密处理,当与调用请求的密钥匹配时,电子全文提供给浏览器中封装的特定PDF阅读器控件。同时在 PDF 阅读控件上,对文档的拷贝、粘贴、另存、打印等操作进行屏蔽。2.2.5 统计功能统计功能可分为资源统计、用户统计和检索统计。资源统计是以资源为主体进行统计。可将资源的唯一标识号作为统计维度,统计资源的种数,分册总数,每种资源的分册数量,浏览次数,下载次数。以某一分类下,例如学段、学科等分组下资源的种数,分册数量统计。用户统计是以用户为主体,以用户标识号或者IP地址作为统计维度,统计该用户使用的资源,使用的方式(浏览,下载)。统计检索词的输入,希望观察到用户的检索策略,改进检索的检准率

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开