温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
十四
全国
档案
事业
数据
归档
研究
若干
思考
巩淑芳
档案管理投稿信箱: 理 论 探 讨9档案管理3/2023总第262期1 数据归档研究现状2022年月20日,在中国知网以篇名“数据归档”查询到文献283篇,首篇文献发表于990年,208年发表数量达到峰值。其中,沈阳师范大学的张岩是发表文献最多的作者,共发表文献3篇,共有27名作者发表2篇文献。现有研究的明显特征为:起步早、体量适中、有基金资助、有核心研究者但不知名、核心机构多样但无档案馆、研究主题聚集度高。数据的长期保存是数据归档的关键环节之一。荷兰国家科学数据管理机构DANS(荷兰数据归档和网络服务中心)的科学数据长期保存工作国际领先。DANS长期保存机制由外部保障、运行系统、业务支撑及风险防控四部分构成。DANS通过对文件格式数据归档进行评估,得出了“经常使用、能够独立于特定软件、具备开放规范”三个最适合长期保存及访问的条件。丹麦皇家图书馆的 Stem.S.Christensen认为,数据经过归档后,应具有不依赖于操作系统和硬件、满足 OASI(开放式档案信息系统)模型的要求、方便移植的存储特点。2专业数据归档方面国外已经有了比较成熟的解决方案:EMC(易安信)公司实现了固定内容(企业需要大量存储空间进行长期可靠保存的数据信息,如医院病历、银行影像等)数据进行安全保护、高效访问、管理及扩展的归档管理;IBM(国际商业机器公司)数据存档解决方案可以实现包括历史数据、计算机输出文件、传真、电子邮件、扫描图片等各种格式业务信息的存档,而且存档的文档可以很方便地进行检索;SAP(思爱普公司)的数据归档方案具有“通过定义归档对象确定归档方案”的特点,系统提供700余种归档对象,每个应用模块都有对应的归档对象,每个归档对象都有关联的特定的业务。32 数据归档研究之必要“数据”,信息的可再解释的形式化表示,以适用于通信、解释或处理(GB/T 527.-2000)。“归档”,办理完毕且具有保存价值的文件经系统整理交档案室或档案馆保存的过程(档案工作基本术语DA/T2000)。206年,在全国档案事业发展“十三五”规划纲要首次将“数据归档”列入五年规划主要任务和实现指标。202年,“十四五”全国档案事业发展规划(以下简称“十四五”规划)中“数据”一词出现4次,主要工作任务有7项明确与“数据归档”相关。如此大规模、多种类数据归档任务列入全国档案事业发展五年规划,标志着继文件、科技资料之后,数据已经成为档案的第三大来源。4研究档案始于归档,研究数据档案同样应始于归档。由于归档工作属于档案工作的关键性基础环节,开展数据归档研究既是落实“十四五”规划的任务要求,也是高质量完成数据归档任务的保障措施之一,是档案工作数据化转型中的当务之急和当为之事。3 数据归档研究归纳国内很多行业和企事业单位都明显认识到数据爆炸的问题,破解该问题的良策就是数据归档,他们已经自行研究且实施了一系列的数据归档工程。由于不同行业、不同专业形摘 要:为有效完成“十四五”全国档案事业发展规划部署的数据归档任务,在运用定量与定性分析相结合的方法对数据归档理论与实践进行研究的基础上,通过对数据归档研究状况、研究成果进行分析,探讨数据归档研究的内容、观点、重点、思路和方法。认为数据归档是数据成为档案第三大来源的标志,数据归档任务的完成需要规划,需要实施,更需要理论、法律、技术保障。提出当前研究的两大难点为数据归档相关标准、规范及管理办法的研究与数据归档规范性文件的起草;破解数据文件归档难题方法的研究与结构化数据归档。解决了这两个难题,数据归档研究就会向前推进一大步。关键词:档案;数据归档;定量分析;定性分析;“十四五”规划;政务服务Abstract:In order to effectively complete the task of data archiving deployed in“The 14th Five-Year”Plan for the Development of National Archives”,the content,viewpoints,key points,ideas and methods of data archiving research are discussed through the analysis of data archiving research status and research results,based on the research on the theory and practice of data archiving by combining quantitative and qualitative analysis methods.It is believed that data archiving is a sign that data has become the third largest source of archives.The completion of data archiving task requires planning,implementation,and theoretical,legal and technical support.It is pointed out that the two major difficulties in the current research are the research of data archiving related standards,norms and management methods and the drafting of data archiving normative documents;research on solving the problem of data archiving and structuring data archiving.If these two challenging problems are solved,data archiving research will take a big step forward.Keywords:Archives;Data archiving;Quantitative analysis;Qualitative analysis;“The 14th Five-Year”plan;Government services“十四五”全国档案事业发展规划背景下的数据归档研究的若干思考*巩淑芳DOI:10.15950/ki.1005-9458.2023.03.024 理 论 探 讨92档案管理3/2023总第262期成的数据类型不同,数据归档管理的方法也不同。现有成果形成了一些有代表性、倾向性的认识和观点,主要集中在以下几个方面。3.1 行业数据归档3.1.1 政务数据归档方面。杭州市电子业务数据归档系统由杭州市档案局开发,系统可以完成政务服务网行政事项电子数据归档以及其他各类业务系统数据归档,实现了数据管理功能具有自动化归档、不依赖第三方的数据摄入、高度灵活的高性能优势的数据归档。5梁绍红、夏振华提出了政务大数据归档管理的基本思路和对策措施:将政务大数据分为两大类,一类是由政务事项办理单位产生的“原生政务数据”,按照“谁形成谁归档”的原则,以办件为单位进行完整归档;一类是“部门共享政务数据”,属于加工处理后的规范数据,按照“谁使用谁归档”的原则,由使用单位将共享数据作为事项办理的证明材料进行一并归档。63.1.2 企业数据归档方面。曾伟提出,采用对公司信息系统进行数据归档的方法来提高数据分析质量和报表查询速度,设计了“搭建数据归档系统、清查系统数据释放空间、与归档系统建立数据连接、优化系统”的数据归档方案。7耿如堂认为,当今企业管理过程中,存在重视数据备份、弱化数据归档的情况,甚至有人将这两个完全不同的概念混为一谈。数据备份是为了在意外情况时保证业务工作的连续性,其关注的是数据的变化和更新;数据归档是将大量数据按照档案管理要求有计划地迁移到其他存储系统中永久保存,数据归档不仅是为了保证数据的完整性,也是为了保证企业管理过程档案的完整性。83.1.3 高校数据归档方面。沈立强等认为,高校信息系统数据以数据库信息数据为主,也就是结构化数据,结构化数据归档大致可分为三种情况:一是,为满足高校信息系统高效运行,减轻后台存储和备份的压力,对业务库进行瘦身;二是,为满足历史数据查询需要,将业务数据按时间顺序进行整理归档;三是,为满足国家档案管理部门要求,将业务数据加工整理后归档。9石慧敏认为,在高校数字化校园平台中,对数据信息整合,进行数据归档,实现一次著录、网络共享,是解决重复著录问题的最佳途径。03.1.4 医院数据归档方面。张灿等针对北京清华长庚医院临床数据归档建设了一套临床数据仓库体系,体系包括数据归档、权限管理和数据展示。其中数据归档是整个体系的核心,对数据的实时性、内容完整性、准确性都提出了要求,进行有目的的数据采集、加工、收集后,采用按常规归档、按日期归档、按患者归档三种形式进行归档处理,形成临床数据仓库体系,为临床数据来源提供支撑和保障。蔡光东认为,构建医院信息库,基于数据挖掘技术建立综合决策支持系统,可以进行在线网络信息处理、医疗数据动态分析与决策分析,而实现这个综合决策支持系统的数据基础和核心就是医院历史数据归档查询系统。23.1.5 银行数据归档方面。银行业务时间范围在逐年、逐月、逐日地不断增大,银行信息系统产生的各项业务数据逐渐增多,数据库随之不断增大,就会出现数据库的恢复和备份困难、系统升级数据库花费时间长、系统负荷过大的情况,导致终端用户读取数据耗时更长的问题。3所以有必要开发应用银行数据归档管理系统来解决上述问题。谢欣对银行归档数据的数据仓库进行了设计,归档存储银行重要系统的数据,包括对核心、手机银行、信贷等业务系统的账务、流水等数据表进行 T+的数据归档存储,进行长历史的存储,满足历史数据各式各样的查询场景。43.2 专业数据归档3.2.1 汽车产业链数据归档方面。汽车制造厂、供应商、销售商、服务商构成了汽车产业链这个庞大的协作网络。ASP平台是汽车产业链的公共应用技术服务平台。随着时间的推移,注册企业数量越来越多,ASP平台系统数据库随之飞速扩张,系统的响应速度受到数据库中存储的大量不常用历史业务数据的严重影响,系统维护成本也相应增加。邓韩认为,数据归档是解决上述问题的有效途径,结合现有数据归档的方式提出建立三层存储模式的数据归档策略:在线数据库、近线数据库和历史数据库。53.2.2 气象数据归档方面。气象数据归档过程主要分为逻辑视图的更新与聚集计算、物理视图索引结构的更新两大块。许婧、任开军提出的气象数据IMPP算法,执行元数据索引结构的更新,可以有效降低数据归档时索引结构再组织的系统开销,从而为海量气象科学数据快速归档提供支撑和保障。6205年,国家气象信息中心的“中国气象局S2S数据归档中心”开始建设,数据归档中心具有数据质量检查、数据交换、存储归档和数据服务等功能,实现对S2S数据集的完整准确归档以及开放服务。73.2.3 冶金工业产销系统数据归档方面。数据归档在归档存储历史数据的同时,还要删除在线业务数据,所以不能仅考虑数据的迁移。张博认为,目前国内外针对数据归档通用性较高的产品,主要是通过判断数据活跃程度,自动将不再活跃的数据进行归档,但是针对逻辑复杂的业务数据,其逻辑严密度无法满足要求,他基于大型产销系统关系数据库,结合冶金工业业务逻辑特点,从归档数据存储介质、存储结构、数据搬迁方案分析入手,设计了分别按时间删除、按数据链路、按设定的方式依据进行归档的数据归档策略。83.2.4 天文数据归档方面。郭航认为,当前天文元数据归档系统所采用的离线或周期性归档方式存在实时性不足的问题,同时数据查询响应较慢,难以满足实时数据查询的应用需求。针对这些问题,采用分布式流式数据处理架构和图数据库等技术,设计和实现了一个实时天文元数据归档系统。