温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
我国
档案
数据
操作
现状
问题
对策
研究
孔祥盛
档案管理投稿信箱: 理 论 探 讨45档案管理1/2023总第260期从“互联网+政务”“一网通办”的服务要求,到政府开放数据、开放科学数据的兴起,大数据时代给档案信息资源整合开放提出了更新、更高的互操作要求。2021年中办、国办发布“十四五”全国档案事业发展规划,要求“加强本区域档案信息资源共享平台建设,实现本区域各级综合档案馆互联互通,推动共享平台向机关等单位延伸,促进档案信息资源馆际、馆室共建互通,推进档案信息资源跨层级跨部门共享利用”。档案元数据互操作是在数字转型、在线公共服务和开放数据背景下的新需求,也是档案资源整合和提供多元利用服务的必经之路。1 引言1.1 概念界定。互操作是指两个或多个系统及其组成部分之间交换数据并相互使用已交换数据以实现协同共享的能力。互操作概念最早应用于铁路工程系统领域,用于解决铁路和列车零部件、信号系统以及操作规范等兼容性问题。随后,开始应用于各个领域的信息系统中,如军事领域美军基于C4I作战指挥系统、电子政务领域的泛欧洲互操作框架(EIF)、电子医疗领域的健康信息系统等。所谓互操作,那么就至少需要存在两套不同系统。如果系统间采用相同的数据编码、命名、格式、结构和传输方式,那么就不存在元数据互操作问题。一般而言,规定元数据的元素、结构和描述方法等规则集合称之为元数据标准或元数据方案。因此,本文所讨论的元数据互操作是指不同元数据标准或方案之间映射问题。1.2 文献综述。元数据互操作并不是一个新的研究领域,在图书情报、电子政务等领域较早受到广泛关注。研究主要集中在二个方面:一是元数据互操作的层次和方法。国内张晓林1较早提出应从元数据结构分析,从数据内容、元素语义、编码我国档案元数据互操作的现状、问题和对策研究孔祥盛摘 要:档案元数据互操作对档案信息资源整合意义重大。通过分析我国新旧档案著录规则、不同格式档案元数据标准、不同门类间档案元数据标准和不同领域间档案元数据的互操作情况,提出结构、语义和技术三个层次的互操作问题,并从重视档案元数据标准制定、切实提高档案元数据质量、加强档案资源整合实践和重视语义本体技术应用四方面提出对策。关键词:档案元数据;档案著录;互操作Abstract:Archival metadata interoperability is of great significance to the integration of archival information resources.By analyzing the interoperability of Rules for Archival Description(1999)and Rules for Archival Description(2022),archival metadata standards in different formats,archival metadata standards among different categories and archival metadata among different fields,we propose the interoperability problems at three levels:structure,semantics and technology,and then we propose four countermeasures:attaching importance to the formulation of archival metadata standards,effectively improving the quality of archival metadata,strengthening the practice of archival resource integration and attaching importance to the application of semantic ontology technology.Keywords:Archival metadata;Archival description;Interoperability规则等七个层面来实现元数据互操作,并指出其中语义、描述规则和语法结构三项互操作是核心,后续张东2、毕强3、彭静4等也提出了各自关于元数据互操作的划分层次观点。国外方面,William Y.Arms等5根据实现互操作的效果和性价比程度将元数据互操作分为联盟(Federation)、采集(Harvesting)和搜集(Gathering)三个级别。Lois Mai Chan 和Marcia Lei Zeng,6,7从元数据标准构建、元数据记录产生到信息检索应用的全过程将元数据互操作分为模式级(Schema)、记录级(Record)和仓储级(Repository),并总结了14种互操作方法,对后续学者研究元数据互操作范式影响深远。总的来看,从语义、语法、结构等层面的互操作已基本成为共识。二是元数据互操作核心技术,主要可以概括为互操作规范、互操作描述语言、数据转换技术和符号标识技术四类,其中互操作规范包括OAI、Z39.50等,互操作描述语言包括XML、RDF、JSON等,数据转换技术包括中间库、WebService、XSLT、RestfulAPI等,符号标识技术主要指唯一标识符如DOI、Handle、CSTR、ORCID等。目前国内档案领域关于元数据互操作的研究成果较少,主要包括元数据互操作协议8-11、元数据互操作技术12-14以及互操作框架构建15等,大多以理论层面介绍和分析为主,缺乏互操作实际应用场景的视角研究。2 我国档案元数据互操作现状本文筛选了我国有代表性的元数据标准或方案,包括通用的著录规则以及不同门类、不同领域的元数据方案,通过映射的方式对比总结互操作现状。美国档案学者David Wallance曾指出“元数据是著录的替代策略(an alternative strategy)”,16刘越男也曾提出“电子环境中可以将文件管理元数据理解为著录信息”。理论上所有的元数据标准/方DOI:10.15950/ki.1005-9458.2023.01.037 理 论 探 讨4档案管理1/2023总第260期案中值域和类型都应遵循通用的档案著录规则的相应要求,故本文也将档案著录标准视为元数据标准的子集,纳入讨论范围。2.1 新旧档案著录规则的互操作情况。2022年,国家档案局时隔23年正式发布了修订档案著录规则(以下简称“规则”),新规则在实现多级著录、调整著录项目和适应电子环境的著录等方面做了较大调整。17从著录项来看,新规则较好地兼容了旧规则原有的著录项目,仅删除了不常用的“电子文档号”,以及将“提要”修改为“范围和提要”,其他著录项目均得到保留。但是新规则同时新增了17个著录项,其中必著的有著录层级、开放标识等,这也意味着从旧规则转向新规则时可能需要补充缺失的必要信息。从著录层级来看,旧规则仅适用于文件级、案卷级的著录,而新规则著录层级包括文件级、案卷级、类别级和全宗级四类,其中包含一些必填著录项如著录层级(所有)、档号(所有)、题名(所有)、档案保管沿革(全宗级)等,这导致新旧规则相互映射时可能无法对应层级,造成互操作障碍。从著录细则来看,由于旧规则是基于传统手工整理和检索需求编制,如今看来许多格式要求已不再有必要,因此新规则在内容格式上也做了修改。比如,旧规则要求在第一个责任者前加“/”,新规则无此要求;对于文件责任者不完整、有误的情况,旧规则要求照原文著录,并直接附上加“”的考证结果,新规则要求将原文责任者注明在附注项目;旧规则要求主题词和关键词之间用空格分割,新规则要求用“;”分割。这种格式上细微差异虽然不影响人的正常识读,但是会影响机器理解,为后续资源开发带来阻碍。2.2 我国不同格式档案元数据标准的互操作情况。我国现行的通用档案元数据标准主要包括基于置标语言的XML封装格式(即DA/T 48-2009 基于XML的电子文件封装规范和DA/T 46-2009文书类电子文件元数据方案)和基于MARC档案机读目录格式(即GB/T 20163-2006 中国档案机读目录格式)两类。从结构上看,档案机读目录数据由头标区、目次区、数据区和记录分隔符四部分构成,其中数据区主要记录著录信息。一条机读目录数据可对应一个全宗、类别、案卷或文件,整体呈现扁平的结构。基于XML封装的档案元数据由声明、元素和注释组成,其中元素包括标签、文本、属性等信息,且元素可以嵌套,整体呈现多层次的树结构。从著录项数量上看,档案机读目录格式包括10个记录块和77个字段,文书类电子文件元数据方案包括88个元素(如果加上封装元数据,共有129个),考虑到机读目录中的字段仍可包含多个子字段和数据元,因此档案机读目录格式的著录粒度实际上远超过XML封装格式的元数据。从映射情况看,两种不同格式的元数据标准基本能够相互映射,主要存在“一对多”或“多对一”映射障碍。基于XML的电子文件封装规范只是封装规范,要结合具体元数据方案使用,以文书类电子文件元数据方案为例,如:以日期著录项为例,文书类电子文件元数据方案中的“日期”著录项对应中国档案机读目录格式的“100通用处理数据”和“210档案形成时间”两个字段中数据元。中国档案机读目录格式将“附注”分为一般性附注、标识号附注、编码信息附注等25种不同类型的附注,而在文书类电子文件元数据方案中仅有“M75附注”一种,无法完整映射。中国档案机读目录格式将“主题词”分为受控主题词(如600人名、601机关团体名、602家族名、606职能、607地名等)和非受控主题词,可从多维度进行主题标引。而文书类电子文件元数据方案中仅有“M26主题词”“M27关键词”“M28人名”,两者对于主题词的详略以及采用主题词表、著录规则不完全一致,无法完整准确映射。文书类电子文件元数据方案中“M87关系”字段的值域包括转发/被转发、来文/复文、正文/附件等若干常用关系,而中国档案机读目录格式的“4-记录连接块”仅提供了继承/由继承、替代/由替代4种可选关系,无法完整映射。文书类电子文件元数据方案中“M56图像压缩方案”对应中国档案机读目录格式中的“135编码数据字段:电子档案”中子字段“电子档案的压缩级别”,虽然含义相近,但是值域范围不同,无法准确映射。中国档案机读目录格式中缺少关于电子签名、权限管理、实体及实体关系相关的元数据项。文书类电子文件元数据方案中缺少关于著录行为、国别地区、历史沿革、奖惩、参见关联等元数据项。虽然档案机读目录格式是出于档案数据共享、交换和传输的目的而产生,但是由于结构规则复杂、人工可读性差等缺点,目前实际中应用并不广泛,因此互操作需求并不旺盛。2.3 我国不同门类间档案元数据标准的互操作情况。我国目前针对电子文件/电子档案的现行档案元数据方案共涉及三个门类,分别是DA/T 46-2009 文书类电子文件元数据方案DA/T 54-2014 照片类电子档案元数据方案和DA/T 63-2017 录音录像类电子档案元数据方案。其中文书类的档案元数据方案制定最早,为后续其他门类档案元数据奠定了基础。照片类和录音录像类院属方案制定较晚,结构和内容上两者较为相似,即使考虑各自个性化的元素,它们之间能够相互映射元素的比例也分别达到了73.96%和72.34%。录音录像类电子档案元数据方案作为制定最晚的元数据方案,在元数据项的数量上略多于其他两者。DA/T 46-2009 文书类电子文件元数据方案DA/T 54-2014 照片类电子档案元数据方案和DA/T 63-2017 录音录像类电子档案元数据方案中必选元数据项映射关系如表1所示。考虑到涉及元数据项较多,表中仅展示了三个门类元数据方案中的必填项映射情况,可以发现主要存在以下映射问题:文书类电子文件元数据方案中“立档单位名称”档案管理投稿信箱: 理 论 探 讨47档案管理1/2023总第260期“年度”“脱机载体编号”等字段无