分享
基于实体-关系模型的标准元数据关系研究_赵青青.pdf
下载文档

ID:2378747

大小:1.06MB

页数:6页

格式:PDF

时间:2023-05-14

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 实体 关系 模型 标准 数据 研究 青青
16标 准 科 学 2023年第3期作者简介:赵青青,硕士,工程师,研究方向为标准馆藏建设与标准信息服务。摘要:本文梳理了编目学中“关系”的发展历程,结合实体-关系模型,分析标准文献包含的实体、属性,并基于实体间的关联关系和属性关系,开展标准元数据关系研究,同时提出下一步应用方向,包括加强实体关系抽取技术研究、构建标准标签集、开展知识链接研究等。关键词:标准元数据,实体-关系模型,实体,关系DOI编码:10.3969/j.issn.1674-5698.2023.03.002Research on Relationships of Standards Literature Metadata Based on Entity-relationship ModelZHAO Qing-qing(Shanghai Institute of Quality and Standardization)Abstract:This paper systematically studies the development of relationship in cataloguing study,and analyzes the entity and attribute of standards literature based on the entity-relationship model,then it conducts the research on standards literature metadata according to association relationship and attribute relationship.Eventually it gives the next research direction,including strengthening the research on entity relationship extraction technology,building standards tag set,and constructing knowledge linking.Keywords:standards literature metadata,entity-relationship model,entity,relationship基于实体-关系模型的标准元数据关系研究赵青青(上海市质量和标准化研究院)学术研讨1 引 言在现代汉语词典中,“关系”的第一个基本解释是“事物之间相互作用、相互影响的状态”。“关系”在编目学中一直占有重要作用,编目学中“关系”更多被称为“书目关系”,是界定两个及以上书目实体以某种方式发生关联所产生的特定关系1。在编目学研究史上,人们对书目关系的研究经历了漫长的过程,在这个过程中产生了很多编目条例,其中书目关系隐含在各种编目条例中。1980年,国际图联(简称“IFLA”)出版的UNIMARC标准中,首先将MARC元数据的书目关系概括为垂直关系、平行关系、年代关系。在关系发展历程中,西方编目界学者不断对书目关系进行理论扩充,2001年,Barbara B.Tillett女士基于各种编目条例,对书目关系做了更细致与深层次的揭示,提出了7种完整且彼此独立的书目关系,即描述关系、整体/部分关系、附属关系、连续关系、共有特性关系、等同关系、衍17STANDARD SCIENCE2023,No.3生关系2,为未来书目关系的建立提供了理论基础。传统的书目关系多以文献为基本揭示单位,随着用户需求的不断深入,文献资源的知识单元也逐渐朝着细粒度的方向转移,而书目关系揭示方式也必须符合用户的深度需求3。1998年,IFLA正式推出书目记录的功能需求(简称“FRBR”),首次拓宽了书目关系的研究范围。FRBR借鉴数据库开发中常用的“实体-关系”模型(简称“E-R模型”),通过描述书目数据中实体和实体间的关系,建立起书目记录之间、书目记录内部各著录字段之间的关系。FRBR打破了传统的书目记录之间彼此独立没有关联的现象,随着FRBR研究及实践的深入发展,世界由此进入基于E-R概念模型进行资源描述与组织的新阶段4。2 基于实体-关系模型的标准元数据 关系分析2.1 概述1976年,E-R模型由美籍华人陈品山博士(Peter Chen)提出,E-R模型通过图形化的方式展现数据库设计概念,为数据需求分析提供一条结构化的途径5。在编目界,IFLA基于E-R模型,打破固有思维,重新定位与解析书目关系。本文也将基于E-R概念模型进行标准元数据关系分析。E-R模型有3个基本元素,即实体、属性、关系。实体是客观存在的具有共同特征的一类事物的集合。实体是可以区分的,可以是人、事、物,或抽象的概念,也可以是属性值;属性是实体的性质和特性,是从不同方向或维度上对实体全方位的揭示和描述,属性的定义以实体为基础,是实体内部与外部特征的提炼和归纳。关系是实体之间相互影响、相互作用的关联状态。实体关系分为两种,一种是实体间的关联关系,一种是实体的属性。当关系是实体间的关联关系时,其本质是对实体之间存在的显性或隐性关联特性的有效揭示,这种关联关系体现在“实体-关系-实体”三元组模型内;当关系是实体的属性时,其本质是对实体的性质和特性进行的全方位描述和揭示,这种关联关系体现在“实体-属性-属性值”三元组模型内。上述两种三元组模型是知识网络最基本的构成要素,实体或属性值是知识节点,关系或属性是知识关联。由E-R模型可知,识别属性和关联实体是元数据关系分析的首要任务。识别属性是通过对实体内在特征和特性的描述,使资源能被用户检索到;关联实体则是通过对实体之间外在关系的描述,使资源相互联系,从而帮助用户推荐和提供更多的相关资源。2.2 识别实体与属性对于标准元数据而言,实体是用户所关注的关键元数据的描述。用户感兴趣的、可进一步进行知识关联的标准元数据实体包括标准文献、人/机构、标准主题、标准分类、标准术语、适用范围、核心技术内容等。因此,结合标准文献结构特征和标准元数据种类,将进行关系分析的标准元数据实体划分为标准文献、人/机构、主题、分类、术语、适用范围、核心技术内容等七大类,每类实体分别具有各自的属性和属性值。由表1可知,一种实体的属性可以成为单独的实体,例如:标准文献的属性人/机构、主题、分类、术语等可分别成为单独的实体6。标准元数据的关系包括实体与实体之间的关系、实体与实体的属性值之间的关系。2.3 关联实体2.3.1 实体与实体之间的关系根据“实体-关系-实体”三元组模型,此时关系是对实体之间存在的各种显性和隐性关系的揭示。根据表1确定的实体,基于FRBR概念模型书目关系分析方法,实体和实体的关系包括标准文献实体之间的关系、标准文献实体和其它实体之间的关系、其他实体之间的关系。(1)标准文献实体之间的关系标准文献实体之间的关系,包括代替关系、采用关系、引用关系、共有特性关系、衍生关系、等同关系、相关关系。代替关系:代替关系即年代关系,是标准文献区别于其他科技文献最重要的特性,标准文献的动态更新特点决定了新版标准文献会代替旧版标准文献。代替关系分为完全代替和不完全代替。采用关系:采用关系是标准文献特有的关系,指Academic Discussion18标 准 科 学 2023年第3期把国际标准或发达国家/地区标准中先进标准的内容不同程度地纳入到新制定的标准中。采用关系包括等同采用、修改采用两类。引用关系:标准文献的引用关系和其他科技类文献的引用关系类似,即在当前标准中提及或描述另一标准的内容,并列出出处。标准的引用分为规范性引用和资料性引用。规范性引用指引用的文件内容构成了引用它的文件中必不可少的条款;资料性引用指引用的文件内容构成了有助于引用它的文件的理解或使用的附加信息,以参考文献形式列出。共有特性关系:两个标准文献虽然不直接相关,但拥有共同特性,例如:由相同起草人起草、由相同起草单位起草、由相同归口单位归口管理,拥有相同主题,或者属于相同标准分类等。衍生关系:当前我国部分国家标准同步发布了外文版,一件标准文献可能同时存在中文版和英文版。同时一件标准文献可能发布修改件、补充件、勘误等,对原标准文本进行修改、补充、勘误等。因此标准文献的翻译版、修改件、补充件、勘误件与原标准文献之间形成衍生关系。等同关系:随着信息技术的发展和普及,各种类型的数字资源也随之不断增加,标准文献的载体形态除了传统的印本文献外,还包括PDF电子版,未来还可能包括XML格式标准;因此内容相同、载体形态不同的文献之间具有等同关系。相关关系:除上述关系外,若两个标准文献的某些特性之间具有上下位关系、相关关系等,则标准文献之间相应形成相关关系。(2)标准文献实体和其他实体之间的关系1)标准文献实体和人/机构实体之间的责任关系标准文献实体和人/机构实体之间是责任关系,包括起草人和标准文献之间的起草关系,起草单位和标准文献之间的起草单位关系,提出单位和标准文献之间的提出单位关系,归口单位和标准文献之间的归口单位关系。2)标准文献实体和主题、分类、术语等实体之间的主题关系、分类关系、术语关系标准文献实体和主题、分类、术语等实体之间是主题关系、分类关系、术语关系,主题关系描述标准文献实体的内容,分类关系描述标准文献实体所属的ICS分类和CCS分类,术语关系表明术语来源于标准文献,标准文献涉及相关术语。3)标准文献实体和适用范围、核心技术内容等实体之间的整体/部分关系标准文献实体和适用范围、核心技术内容等实体之间是整体/部分关系,标准文献实体是整体,适用范围、核心技术内容是来源于整体的部分。同样,核心技术内容和其组成部分章标题、条标题、技术内容是整体/部分关系;章标题和条标题是整体/部分关系。(3)其他实体之间的关系1)人/机构实体的相互关系学术研讨表1 标准文献实体及属性序号标准文献人/机构主题分类术语适用范围核心技术内容1标准号起草人关键词ICS分类号术语中文名称规定内容章标题2标准中文名称起草单位主题词CCS分类号术语英文名称适用界限条标题3标准英文名称提出单位自由词术语定义4ICS分类号归口单位5CCS分类号6发布日期7实施日期8起草人9起草单位10提出单位11归口单位12适用范围13术语14章标题15条标题16主题19STANDARD SCIENCE2023,No.3标准文献通常由多个起草人、起草单位共同参与起草,这些起草人之间形成合作关系,起草单位之间形成合作关系。由于标准文献未标注起草人和起草单位的对应关系,因此起草人和起草单位之间不存在成员关系。2)主题、分类、术语等实体的相互关系,包括同一关系、上下位关系、相关关系主题、分类、术语等实体的相互关系,可以借鉴叙词表词间关系的类型。叙词表词间关系包括同一关系、上下位关系、相关关系。同一关系指两个概念的外延全部重合,可以相互替代;上下位关系是概念间的等级关系,概括性较强的词语叫做上位词,特定性较强的词语叫做下位词;相关关系是除同一关系、等级关系之外的一种语义相关关系,相关关系复杂多样,包括交叉关系、矛盾关系、对立统一关系型、因果关系、本质与现象关系等7。若两个标准文献实体的主题、分类、术语等是同一关系,则标准文献实体间属于共有特性关系;若两个标准文献实体的主题、分类、术语等是上下位关系、相关关系,则标准文献实体间属于相关关系。3)其他实体的相互关系人/机构、主题、标准分类、术语、适用范围、核心技术要素等实体之间的交叉关系,在标准文献领域还有待进一步揭示,故此处不予深入分析。上述两个实体之间的关系都是双向可逆的。2.3.2 实体与实体属性值之间的关系根据“实体-属性-属性值”三元组模型,此时属性充当着关系类型的角色。由于每类实体对应的属性众多,因而每类实体本身及其属性值便可构成关联网络的知识节点,实体和实体的属性值之间的连线即为两者的关系,三者构成一个基本的知识单元。因此属性是知识网络构建过程中的关键节点,是不同于实体之间关联关系的重要纽带。标准文献是最高层级的实体,根据表1,以标准文献为实体、标准

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开