282023·8专题·智慧档案馆建设实践文/胡志斌李鹏达罗贤明江西:档案大数据分析应用2013年以来智慧档案馆一直是档案理论研究热点,然而智慧档案馆的形态如何,能够解决什么问题,如何解决问题,这些概念和路径却不十分清晰。其原因主要是新技术接踵而至,实践部门的实际应用不足。江西省档案馆近年来从业务需求出发,通过建设档案大数据分析应用系统,采集、挖掘和分析海量档案数据,在数据的智慧应用上做了一些有益尝试。数据准备数据化是档案数据智慧应用的前提,江西省档案馆通过数据采集、OCR处理、预设词库、标签元数据赋值等多种方式,将各类馆藏档案数据化,为后续的处理提供数据基础。1.数据采集系统主要通过2种途径采集数据并存入数据仓库。一是通过中间数据库采集第三方应用系统推送的电子档案元数据(含目录数据)、系统用户注册信息、查档者注册信息、档案利用日志、用户检索行为日志、用户登录日志、用户操作日志、档案数字资源统计数据等各类结构化或半结构化数据。二是通过建设互联网电子文件(政务信息)采集系统,采集包括政府公开信息、网页、微博、微信在内的电子信息及资料等自动导入档案大数据分析应用系统。2.OCR处理目前江西省档案馆的馆藏档案数据主体仍以数字化副本为主,需对其进行尽可能准确的OCR处理。通过对各类OCR工具的测试和比较,江西省档案馆选定了基于深度学习的PaddleOCR识别工具,并根据档案数据化和应用系统对接需要做了二次开发,其文字识别率、准确率和耗时等指标会持续优化、不断提升。经OCR处理完毕的全文数据同样存入数据仓库。3.预设词库在档案大数据分析应用系统初始化时,为其预配置行政区划、经济行业分类、主题词、同义词近义词、著名人物、重大事件、分词词库等各类已有通用词库,并支持后期的不断更新、补充,为文本挖掘、数据分析提供支撑。4.档案标签元数据库基于已有档案元数据库、相关知识库等,参照《国民经济行业分类》(GB/T4754—2017)等国家标准,对档案条目包括文种、受文者、人物、行业(领域)、行业(领域)代码、主题等在内的不同标签进行元数据赋值,由此形成标签元数据库,支持向第三方应用系统开放使用。数据处理档案大数据分析应用系统通过采集、清洗、挖掘、分析处理数据仓库中的档案数据,建立高效、标准、精确的数据集。1.档案数字资源查重系统通过分析比对档案内容,智能判断重复档案,并对重复件进行关联标记,形成重复数据成果库,供第三方应用系统调用,减少因同一文...