分享
档案语义参照框架:逻辑、架构与实证_赵生辉.pdf
下载文档

ID:357229

大小:1.57MB

页数:8页

格式:PDF

时间:2023-03-22

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
档案 语义 参照 框架 逻辑 架构 实证 生辉
2 0 2 3年第1期实践经纬5 3 档案语义参照框架:逻辑、架构与实证赵生辉1 胡 莹2 宋和平2(1.西藏民族大学管理学院,咸阳7 1 2 0 2 1;2.云南大学历史与档案学院,昆明6 5 0 0 9 1)摘要:应对档案数据化面临的“语义鸿沟”挑战,提出“档案语义参照框架”的学术概念,构建其基础逻辑体系和技术架构,并通过案例进行验证。档案语义是由依附于档案载体的自然语言文本所映射的事实性信息的集合。“档案语义参照框架”是专门为档案文本或档案数据的语义标注和智能检索提供基础语义参照服务的公共基础设施,是“潜在语义空间”的逻辑定位体系。“档案语义参照框架”致力于从时间、空间、职能三个维度,基于标准化的结构语义框架、事理语义框架和档案内容实体唯一标识符,通过“逻辑外显”“逻辑降维”“逻辑指代”和“逻辑关联”,实现档案语义数据的“结构化”和“归一化”,使其在基础语义层面获得统一的处理逻辑。“档案语义参照框架”有助于减弱“语义鸿沟”的影响,对我国档案信息化建设的智能转型将起到重要支撑作用。关键词:档案数据化;语义鸿沟;档案语义;结构化;归一化中图分类号:G 2 7 0 收稿日期:2 0 2 2-0 1-2 0作者简介:赵生辉,博士,教授,研究方向为民族信息学、档案数据科学、史料人文计算,E-m a i l:f o o l-b i r d z s h1 2 6.c o m;胡莹,博士,副教授,研究方向为历史文献学、少数民族档案管理、数字人文;宋和平,硕士研究生。基金项目:教育部哲学社会科学重大研究攻关项目“元明清时期中国边疆治理文献整理与数据库建设研究”(2 1 J Z D 0 4 2)。我国学者对档案语义相关问题的研究大体上与语义网技术的发展和应用同步,带有鲜明的技术驱动和工具型特征。1 9 9 8年,“万维网之父”英国计算机学家蒂姆伯纳斯李(T i mB e r n e r s-L e e)提出语义网(s e m a n t i cw e b)堆栈模型。1同年,我国学者胡明2基于语义网络(s e m a n t i cn e t w o r k)方法开发了文书档案自动著录和全文检索系统,这是已知较早的相关成果。进入2 1世纪,国内多位学者先后就语义网技术在 档 案 领 域 的 应 用 问 题 展 开 探 讨。例 如,林 周佳3-4探讨了基于语义网的数字化档案馆技术架构和档案语义级检索问题;段荣婷5探讨了基于简约知识组织系统的 中国档案主题词表网络化应用问题;吕元智6探讨了数字档案资源体系的语义互操作问题;张素萍7探讨了基于语义的电子健康档案信息组织模式;张倩8探讨了语义网对高校档案信息检索工作的应用价值。近年来,在数字人文浪潮兴起等因素驱动下,档案领域语义网技术应用研究呈现出逐渐增多的趋势。例如,熊华兰9研究了基于语义本体的数字档案资源知识管理模型;任妍等1 0研究了全媒体档案信息资源的语义组织与服务问题;郭学敏等1 1研究了基于关联数据的档案语义转换方法;王志宇等1 2研究了语义网环境下档案资源关联与共享模式;谢晖1 3研究了基于语义网技术的海量数字档案智能挖掘方法;王卉1 4构建了近代广东海关档案名称规范档的语义模型;祁天娇等1 5探讨了档案数据化过程中语义组织的内涵、特点与原理。上述研究对语义网技术在档案管理领域的应用发展奠定了理论基础,具有重要的学术价值。需要注意的是,语义(s e m a n-t i c s)并非语言学、情报学、计算机软件等学科的专有术语,档案语义(a r c h i v a ls e m a n t i c s)本身就是有着丰富理论内涵,亟待深入探究的前沿性研究领域,甚至有望成为档案智能化服务创新的“突破口”。档DOI:10.16113/ki.daxtx.2023.01.001实践经纬2 0 2 3年第1期 5 4 案语义研究也不能完全等同于语义网技术的应用研究,从基于语义网技术的工具型思维转向面向档案语义的本体型思维,深入探索档案文本符号所蕴含的语义信息及其构成规律,构建档案领域语义服务基础设施,为语义标注和智能检索提供统一的逻辑参照体系,是当 前 我 国 档 案 信 息 化 建 设 迫 切 需 要 解 决 的问题。1“档案语义参照框架”的构建需求“语义”是语言学术语,原意是指“符号所蕴含的意义”1 6。“档案语义”是指由依附于档案载体的自然语言文本或符号所映射的,特定时空当中参与各类社会职能的机构、人员、实物等实体的属性、关系及其互动过程等事实性信息的集合。档案部门要为用户提供更加精准、智能的档案数据服务,就必须从“对档案文件的关注”转向“对档案内容的关注”1 7,对档案的语义信息进行深度挖掘。我国档案信息化建设正在经历的“档案数据化”范式转型,核心任务就是将档案文本符号所蕴含的“档案语义”转换为某种可供 计 算 机 高 速、自 动、精 准 处 理 的 结 构 化 数 据资源。1 81.1 档案数据化面临的“语义鸿沟”挑战档案作为机构或个人在社会活动中直接形成的原始记录,绝大多数以某种自然语言文字为记录符号,基于人类自然语言思维模式进行组织,供可以理解该文字的人阅读和参考。数据则是在计算机当中参照某种结构模型对领域事物进行符号化描述的结果,遵循以符号计算和逻辑推理为特征的机器思维模式,供计算机或其他智能设备进行计算和处理。思维模式的巨大差异导致将“档案语义”转换为“语义数据”的过程中面临多方面的挑战,本文将这种现象称为“语义鸿沟”(s e m a n t i cg a p)1 9。“语义鸿沟”一词来源于计算机视觉领域,用来表示数字图像的像素、线条、图形等低层技术特征与其指代的人员、场景、事件等高层语义特征之间的巨大差异。2 0与之类似,计算机将档案文本视为字符序列进行处理时就是基于低层技术特征,计算机将档案文本与其指代的社会实体进行关联处理时就是基于高层语义特征,通常情况下两者具有较大差异。本文借用“语义鸿沟”表示档案数据化过程中因信息处理模式的缺陷所导致的档案文本语义理解结果的偏差、歧义或障碍等现象。“语义鸿沟”在档案数据化过程中的表现有多个方面:第一,因时间表达式缺乏统一参照体系导致的歧义理解。例如,历史档案当中的“光绪二十四年”“公元1 8 9 8年”“农历戊戌年”“藏历土狗年”等所描述的都是清代“戊戌变法”发生的那一年,计算机在没有参照体系的情况下,可能误判为不同的年份。第二,因地名与指代地理区域之间没有关联导致的理解障碍。例如,在没有地理参照体系的情况下,计算机难以判断档案文本中的“建康”“应天”“南京”等地名是否属于同一城市。第三,因机构简称重名而导致的歧义理解。例如档案文本中“人大”一词,有可能指代“全国人民代表大会”,也有可能指代“中国人民大学”。第四,因“多人同名”和“一人多名”现象导致的理解障碍或歧义理解。“多人同名”现象在社会生活中非常普遍,法律也允许公民在必要时变更自己的姓名,在缺乏参照体系的情况下,计算机仅凭姓名符号无法判断其指代对象之间的语义关系。第五,因缺乏物品度量衡参照体系而导致的理解障碍。例如,历史档案当中的“石”“斛”“尺”“跬”“仞”等计量单位如果没有经过参照体系的换算,计算机无法对事物的真实重量或尺寸做出判断。第六,因同一类型事件之间缺乏语义关联而导致的理解障碍。例如,“地震”“洪灾”“火灾”“雪灾”等自然灾害救援档案文本都包含“时间”“地点”“起因”“伤亡”“损失”“救援”“重建”等类似的语义要素,在没有进行明确标注的情况下,计算机很难直接从多种类型的灾害救援档案当中检索出具有共性的语义信息。第七,因不同语种文字符号差异性导致的语义理解偏差。例如档案文本当中出现的“毛润之”“C h a i r m a nM a o”是同一个人,计算机按照数理逻辑处理会判定为两个人。这种现象在我国民族地区的多语言、多文字环境下会更为突出。如果没有针对档案数据进行语义标注,即使采用国家通用的汉字和藏文、蒙古文、维吾尔文、壮文、彝文、傣文等少数民族文字产生的档案描述的是同一事件,计算机也难以判断其主题是否存在逻辑关联。1.2“档案语义参照框架”的提出与定义由“语义鸿沟”的各类表现可知,对于同一档案文本,计算机之所以会得出与人类不同的理解结果,核心原因在于其不具备人类所掌握的与特定领域相关的背景知识,通过语义参照体系为计算机提供领域知识支持就成为解决“语义鸿沟”问题的主要途径。目前,语言学领域的语义参照体系主要包括词汇库、语法库、规则库、语料库等,大多数面向机器翻译系统,以自然语言文本内容信息的完整、精准呈现为目标。档案学领域的语义参照体系主要包括档案分类 2 0 2 3年第1期实践经纬5 5 表、档案主题词表、数据值词汇表、档案领域数据本体(A r c h i v a lD a t aO n t o l o g y,A D O)2 1等。其中,档案领域数据本体是最具代表性的语义参照体系,其建模基于“语义压缩”(S e m a n t i cC o m p a c t i o n)原理,强调从自然语言文本中抽取对核心语义有关键性影响的数据,适度减少甚至忽略辅助型和细节型的内容信息,构建档案文本核心语义的“数据框架”(d a t af r a m e)。作为档案领域数据本体的初级形态,只要为档案文本核心语义相关实体要素及其互动关系建立统一的参照框架,并基于参照框架对档案语义数据进行关联标注,就可以达到将领域知识注入档案数据,辅助计算机精准理解和分析推理的目的。“参照框架”(f r a m eo f r e f e r e n c e)是认知心理学术语,意为“个体识别、定位空间方位和时间早晚顺序的方式”2 2,目前已经扩展到多个学科领域,用来描述观测对象与背景体系之间的逻辑关系。“档案语义参照框架”(A r c h i v a lS e m a n t i c sF r a m e w o r ko fR e f-e r e n c e,A S F R)是指档案管理部门和标准化工作机构联合构建的,专门为档案文本或档案数据的语义标注和智能检索提供基础语义参照服务的公共基础设施。档案语义参照框架致力于从时间、空间、机构、人员、实物、量值等方面提供档案内容实体唯一标识符(U n i q u eI d e n t i f i e ro fE n t i t i e si nA r c h i v eC o n t e n t,U I D E A C)的映射与标注,参照标准化的文本结构语义框架(S t r u c t u r eS e m a n t i cF a m e,S S F)和事理语义框架(E v e n tL o g i cF r a m e,E L F),对档案文本的逻辑结构和事件语义逻辑进行数据描述,使来源于不同机构,具有不同类型特征和表述方式,使用不同语言文字的档案文本可以跨越符号系统的差异性,在基础语义层面获得统一的处理逻辑,为基于计算机的精准检索和智能分析提供基础语义支持。“档案语义参照框架”是“档案领域数据本体”的一种简化版、轻量级实现方式,对于实体与实体之间深层语义关系的描述相对较少。“档案语义参照框架”有助于提升档案语义数据的智能化水平,对于档案管理范式的智能化转型将会起到重要的支撑作用,是国家档案数据治理体系的重要组成部分。2 32“档案语义参照框架”的逻辑体系“档案语义参照框架”由逻辑体系和技术架构两部分组成,前者决定“档案语义参照框架”设计的核心理念、基础结构和运行规则,后者则决定“档案语义参照框架”技术层面的实现方式。2.1“档案语义参照框架”的总体逻辑“档案语义参照框架”的总体逻辑由四大加工逻辑和两大转化逻辑构成。其中,加工逻辑包括四个方面:第一,逻辑外显,即将档案文本背后潜在的各类逻辑关系,外化为某种符合计算机处理逻辑的结构化表达形式;第二,逻辑降维,即在保障核心语义信息基本等价的前提下,将基于人类大脑多维度融合型特征生成的自然语言档案文本做“降维”处理,将其分解为一定数量的、可以被计算机有效处理的单一维度数据集合;第三,逻辑指代,即

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开