温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2023
年高
档案馆
结构
数据
融合
机制
研究
范文
天道酬勤
高校档案馆非结构化大数据融合机制研究
摘 要:本文针对档案馆非结构化数据存在数据来源及特点,研究如何将其与结构化数据融合,为非结构化数据分类管理寻找理论依据和技术手段,探讨高校档案馆非结构化大数据管理的解决方法。
关键词:大数据;档案;非结构化;档案管理系统
一、引言
美国信息与技术相关的公司,包括麦肯锡,国际数据公司〔IDC〕与IBM,在2023年提出大数据相关概念后已经有越来越多的学术机构、企业包括政府机构开始关注大数据。经过不到7年的开展,目前以“大数据〞作为关键词检索国内外前沿数据库,可得到数不清的相关报告、论文和新闻。根据2023年国务院印发的促进大数据开展行动纲要,系统部署大数据开展的相关工作,特别提出要加强档案馆等公益设施建设,构建文化传播大数据效劳平台。上述文件对大数据的定义是“以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速开展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和效劳业态〞。档案数据正符合以上大数据定义,因此是大数据的重要组成局部。
与此同时,国家电子文件管理“十三五〞规划对电子文件的管理提升到国家治理层面。在移动互联、云计算、大数据等新技术的迅猛开展时代,各种海量电子文件的归档与电子档案的管理已成为各级档案馆〔室〕所必须面对的难题,其中最难把握的是对非结构化数据的管理。
二、高校档案馆非结构化数据的含义及特点
1.高校档案馆非结构化数据的来源与定义
高校是一个多学科相融合的集聚地,学校里的教学活动和科研活动均围绕着各种层次的学科和专业开展。而高校档案馆作为收集、存储、传播和利用学校各种数据的机构,需要处理的数据种类和数量都在飞速增长。尤其伴随着高校信息化校园的建设,校园内无线网络等技术的普及,档案馆接收的档案除了原有的纸质档案和声像实体档案,越来越多的WORD文件、EXCEL表格、电子邮件、HTML文档、音视频文件等结构化和非结构化的数据也在呈指数增长。高校档案馆因此进入到了“大数据〞时代。
档案馆结构化数据,是指存储在数据库里,可以用二维结构表来逻辑表达的数据,由假设干个层次结构明确的关联组成局部,按照一定的操作标准使用和维护数据库,主要是档案目录及原文数据,档案馆业务流程、效劳、系统日志、用户信息、库房管理等方面的记录。非结构化数据是指不方便使用二维逻辑表来表现的数据,每个字段的记录又可以由可重复或不可重复的子字段构成数据库。其中,非结构化数据占档案馆大数据总量的85%以上,是图书馆大数据的主要形式。
本文针对高校各业务系统产生的非结构化多来源数据,进行融合管理研究。针对非结构化的数据,需要在充分收集多种来源信息的根底上,综合运用多种方法进行分析与判断,找出具有存档价值的信息,予以整理和保管,以备将来为教职工和其他社会人士提供利用。
2.档案馆非结构化大数据的特点
高校档案馆面临的非结构化数据存在着数据来源众多,数据格式不同,数据信息内容不重复等多种特点。这些特点可以成为非结构化数据分类管理的依据。
〔1〕数据来源多样性
非结构化的数据来源于校内和校外的多种活动,其中大局部都是校内产生。高校的教学、科研和管理活动产生了核心的档案信息,如教学课件、教学视频、图像、论文、专利、产品、电子邮件、网页、及时通讯信息等数据。校外产生的非结构化数据有重大活动报道网页、音频视频文件、照片、往来电子邮件、电子发票、申报信息等数据。信息来源不同的非结构化数据在档案的四性〔即真实性、完整性、可用性和平安性〕方面存在著巨大的差异,档案工作针对不同来源的数据应改良行分类收集、整理、存储、管理和提供利用。
〔2〕多数据格式的并存
由于目前多数高校已经开展数字化校园建设,各项工作的开展都离不开业务系统的辅助,而每种业务系统可能是针对不同的工作内容开发,因此这些业务系统往往生成对应格式的非结构化数据,包括版式文件、图片、二维矢量文件、三维矢量文件、XML、HTML、音频、视频、报表等。每种格式的数据类型、数据大小、通用性等均不尽相同,而且还会出现因业务系统的更替,数据格式前后不一致的可能。在当前的环境下,仍没有出现一种技术可以处理所有格式的数据。因此,高校档案馆必须根据学校的开展、用户的需求及提供效劳利用的多重角度考虑,制定各种档案数据格式的存档标准,对应地进行设计标准化存储或者兼容式存储的分层级存储系统,以实现不同数据格式的自由转换,最终才能充分利用这些非结构化数据档案。
〔3〕数据主体特指性强
在高校档案馆中,产生非结构化数据的主体主要是档案馆专兼职档案员,在校师生及校友。还有极少量的学校外部参与者,校外参与者利用档案资源的频率远远低于前者。因而,从用户的角度有效分析档案馆专兼职档案员,在校师生及校友的数据需求,将已经产生的非结构化数据的大数据进行分类,就能够把握非结构化数据开展的规模和质量,再经过分析便可得出当前用户的需求。
〔4〕 数据内容不重复
与传统的档案的收集有一点不同的是,非结构化的数据内容不应重复,传统纸质档案和实物档案允许保存多份实体作为副本,但非结构化数据因为其计算机复制技术十分便捷,占用的存储空间又十分庞大,因此为了给档案系统的运行减轻冗余,原那么上不应该重复。对整个档案馆的电子数据在保管过程中可以做双份异地备份。
三、高校档案馆非结构化大数据的融合机制
由于非结构化数据的以上特性,需要对数据进行融合管理。可融合的数据必须具有以下共性,一般是同一个主题的数据。数据往往会具有互补性,不同信息源的数据从著录字段上或者记录上具有互补性,以保证数据的完整性与覆盖面。将收集的非结构化数据分为3个方面:数据滤重、数据拆分、数据统计,每个方面都涉及到具体的技术细节与不同的处理方法。
1.局部非结构化数据可转化为结构化的数据
在搜集的非结构化数据中,许多都可以转化为结构化数据进行管理。如图片、XML、HTML、报表、电子邮件等静态数据,可通过截图的形式转换为JPG或PDF格式,用原文的形式存储于档案管理系统内,这样就可以实现此局部的非结构化数据与已有的结构化数据融合。
2.无法转换的非结构化数据采用特殊数据库单独管理
非结构化中的大量组成局部是音频、视频等数据,它们尽管无法保存在已有的档案系统统一管理,但与结构化的数据是息息相关的,因此需要采用特殊的数据库单独管理,并与结构化的档案信息系统对应的字段建立联系。在提取的非结构化数据时,有可能出现一个文件包括多个主题的情况,这时需要对其进行著录字段的拆分,将主题进行归类。数据查重过滤,指数据融合过程中的许多字段表达含义相同,但却说法不一,可以选用其中一个字段来代替,或者为字段另外选一个名字,例如“70年校庆〞与“七十年校庆〞,我们可以都确定为“七十周年校庆〞,也都定位到“校庆〞。经过数据的拆分、查重过滤后,我们可以利用统计软件,分析出某一时间段内高校档案利用的热点,提高效劳水平。
3.需针对动态的非结构化数据开发相应的管理程序
除以上非结构化数据,还有一局部通过视频、微博、微信公众号、QQ咨询等各网络媒体产生的信息日益增加,数据的类型更加复杂,数据的融合更加重要。因为这些数据具有及时性、动态性和不确定性,目前流行的可视化软件和工具很难套用管理。针对这类非结构化数据,需要研究开发出相应的程序来管理,能够自动调整以满足动态的、不确定的特点。
参考文献:
[1]What is Big Data [EB/OL] [20231007] .://amchamchina.org/article/102
[2]郭春霞.大數据环境下高校图书馆非结构化数据融合分析[J].图书馆学研究,2023〔05〕
[3]沈红雨.高校非结构化档案数据的数据库管理技术应用与比拟研究[J].浙江档案,2023〔01〕
[4]陈 臣.基于Hadoop的图书馆非结构化大数据分析与决策系统研究[J].情报科学,2023〔01〕
[5]李翠萍,常 娥.大数据时代数字图书馆开展浅析[J].江苏技术师范学院学报,2023年05期
[6]李小刚,谢诗艺,程 舒.大数据时代档案馆效劳创新研究[J];北京档案,2023年11期
[7]黄少芳,刘晓鸿,张俊芳.论高校档案信息化与数字档案馆建设[J];中国地质教育,2023年02期
[8]郭振桥,王新玲.浅论大数据在未来图书馆效劳中的应用[J];内蒙古科技与经济,2023年16期
作者简介:彭柳,馆员,中南民族大学档案馆〔校史馆〕信息与技术室负责人,主要从事档案数字化建设技术研究。
基金工程:本文由中南民族大学中央高校科研业务费社科专项资金工程资助〔CSQ19039〕