温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
HJ
722-2014
环境数据集说明文档格式
722
2014
环境
数据
说明
文档
格式
中华人民共和国国家环境保护标准中华人民共和国国家环境保护标准 HJ 722-2014 环境数据集说明文档格式 Documentation format of environmental dataset (发布稿)本电子版为发布稿。请以中国环境科学出版社出版的正式标准文本为准。2014-12-25 发布 2015-03-01 实施 环境保护部环境保护部 发布 I 目 次 前 言.II 1 适用范围.1 2 规范性引用文件.1 3 术语和定义.1 4 环境数据集说明文档内容要求.1 5 环境数据集说明文档格式要求.8 附录 A(规范性附录)环境数据集说明文档模板9 附录 B(资料性附录)环境数据集说明文档示例.14 II 前 言 为贯彻中华人民共和国环境保护法,促进环境信息化工作,规范和指导环境数据集说明文档的编写,制定本标准。本标准规定了环境数据集说明文档的内容要求和格式要求。本标准附录 A 为规范性附录,附录 B 为资料性附录。本标准为首次发布。本标准由环境保护部科技标准司组织制订。本标准主要起草单位:环境保护部信息中心、北京市倍思电子数据库工程公司。本标准环境保护部 2014 年 12 月 25 日批准。本标准自 2015 年 3 月 1 日起实施。本标准由环境保护部解释。1 环境数据集说明文档格式 1 适用范围 本标准规定了环境数据集说明文档的内容要求、格式要求和环境数据集说明文档模板。本标准适用于环境数据集加工、使用及汇交过程中对环境数据集的说明。2 规范性引用文件 本标准内容引用了下列文件中的条款。凡是不注日期的引用文件,其有效版本适用于本标准。GB/T 2260-2007 中华人民共和国行政区划代码 GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法 GB/T 17295-2008 国际贸易计量单位代码 HJ/T 417-2007 环境信息分类与代码 HJ 720-2014 环境信息元数据规范 环办201292 号 附件 3 污染源监督性监测数据元技术规定 环办201292 号 附件 4 污染源自动监控数据元技术规定 环办201292 号 附件 5 环境统计数据元技术规定 3 术语和定义 下列术语和定义适用于本标准。3.1 数据集 dataset 可识别的数据集合。3.2 环境数据集 environmental dataset 由环境保护业务相关的数据实例组成、遵循统一的数据模型、具有相对独立的业务语义的数据集合。3.3 数据元 data element 用一组属性描述定义、标识、表示和允许值的数据单元。4 环境数据集说明文档内容要求 4.1 内容要求 环境数据集的创建单位应编写环境数据集说明文档,以准确描述环境数据集。环境数据集说明文档应包含以下基本章节:a)概述;b)数据集标识;c)数据内容和结构;d)覆盖范围;e)数据质量;f)元数据。可包括以下章节:g)数据分发;2 h)限制信息;i)数据维护;j)附加说明。4.2 概述 概述应包括环境数据集说明文档的创建信息:a)数据集说明文档的名称;b)数据集说明文档的版本;c)数据集说明文档的发布日期;d)数据集说明文档的创建单位,包括单位名称、地址、电话、传真、电子邮件地址、网址。可包括以下可选项:e)术语和定义;f)缩略语。4.3 数据集标识 数据集标识应包括以下项:a)数据集名称:缩略描述环境数据集内容的标题,应包含该数据集的空间覆盖范围、时间覆盖范围、数据内容等;b)数据集摘要:对数据集内容概要说明的文字,应包含该数据集的主要内容、空间覆盖范围、时间覆盖范围、形成过程、遵循的主要标准等信息;c)数据集分类:数据集所属的分类,遵循 HJ/T 417-2007 各种分类的取值规定;d)数据集提供方:包括数据集提供单位、提供单位电话、提供方电子邮件地址。可包括以下可选项:e)目的:生成数据集的目的;f)补充信息:对该数据集的其他描述信息,如说明该数据集与历史版本间的关系。4.4 数据内容和结构 4.4.1 数据结构 采用 UML 描述环境数据集的数据结构,即环境数据集数据模型,描述数据实体-属性关系。用 UML 中类的概念表示数据实体,用 UML 类的属性概念表示实体的属性。本标准采用 UML 定义的下列四种模型关系,并采用 UML 静态结构图表示数据实体间的关系:a)关联 关联用于描述两个或更多类之间的一般关系。如图 1 所示。关联的方向必须说明。如果不指明方向,则假定为双向关联。如果是单向关联,关联方向在线段终点用箭头来标记。3 图 1 关联示例图 b)聚合 聚合用于创建两个类之间的部分与整体的关系。在该关系中,一个类担当容器角色,另一个类担当容器的构件角色。如图 2 所示。图 2 聚合示例图 c)泛化 泛化表示一般化描述和具体化描述之间的关系,即超类与替代它的子类之间的关系。如图 3 所示。图 3 泛化示例图 d)角色 模型中使用“角色名称”描述源对象与目标对象之间的关系。在双向关联中,提供两个角色名称。如图 4 所示。-单位-设备 图 4 UML 角色示例图 4.4.2 数据内容 说明环境数据集所包含的数据元。若所包含的数据元在环办201292 号文附件 3、环办201292 号文附件 4、环办201292 号文附件 5 中已有定义,可直接引用;若为第一次定义,则应对数据元的属性进行详细描述,数据元属性见表 1。表 1 数据元属性表 4 序 号 属性名称 提交者填写 序 号 属性名称 提交者填写 1 中文名称 是 2 别名 是 3 标识符 是 4 短名 是 5 定义 是 6 数据格式 是 7 值域 是 8 计量单位 是 9 版本 是 10 状态 是 11 备注 是 4.4.2.1 中文名称 数据元的中文名称是赋予数据元的单个或多个中文字词的指称,是唯一的,应尽量采用环保业务已有名称或环保行业习惯用语,以方便数据元的使用。数据元中文名称一般使用一个词语,要求用词精准,能够准确传达要表示的含义。4.4.2.2 别名 数据元中文名称以外的名称。当同一数据元在不同业务中中文名称不同时,可采用别名进行名称统一。别名也应尽量采用环保业务已有名称或行业习惯用语。4.4.2.3 标识符 标识符是数据元的唯一标识,由前段码(四位阿拉伯数字)和后段码(六位阿拉伯数字)两部分组成,前段码和后段码之间用“-”连接,如图 5 所示。图 5 数据元标识符 4.4.2.4 短名 短名是该数据元中文名称的缩写名称。数据元的短名遵循以下命名规则:a)采用该数据元中文名称的拼音首字母缩拼;b)当无法避免重复短名时,应采用数据元中文名称的首汉字全拼加剩余汉字首字母组合的附加规则,以此类推,直至短名无重复;例:姓名 短名:xingm 5 项目 短名:xiangm c)当数据元中文名称中有阿拉伯数字时,其短名命名中直接采用该阿拉伯数字;d)短名的最大长度为 30 个字符。4.4.2.5 定义 定义为表达一个数据元的本质特性并使其区别于所有其他数据元的陈述。数据元定义应遵循以下规则:a)每个定义必须区别于数据集说明文档中任何其它数据元定义,以保证唯一性;b)对数据元含义的阐述要准确,避免歧义性的定义;c)必须使用短语对数据元进行准确定义,应使用完整的、语法正确的句子;d)在定义中应使用全称,若需要,仅可使用人们普遍理解的缩略语,缩略语首次出现时,必须予以说明;e)表述中不应加入不同的数据元定义或引用下层概念。4.4.2.6 数据格式 数据格式是从业务的角度规定的数据元值的格式需求,包括所允许的最大和/或最小字符长度,数据元值的表示格式等。数据格式中使用的字符及含义见表 2。表 2 字符含义表 字符字符 含义含义 a 字母字符 n 数字字符 an 字母数字字符 m(m 为自然数)定长 m 个字符.ul 长度不确定的文本.p,q(p,q 均为自然数)最长 p 个数字字符,小数点后 q 位.从最小长度到最大长度,前面附加最小长度,后面附加最大长度 YYYYMMDDhhmmss“YYYY”表示年份,“MM”表示月份,“DD”表示日期,“hh”表示小时,“mm”表示分钟,“ss”表示秒,视实际情况组合使用。True/False 布尔型 例 1:an5(aannn)表示定长 5 个字母数字字符,前 2 个为字母字符,后三个为数字字符;例 2:n.17,2 表示最长 17 个数字字符,小数点后两位;例 3:an3.8 表示最大长度为 8,最小长度为 3 的不定长的字母数字字符;例 4:True/False 表示该数值为布尔型。如果“数据类型”是“二进制”,应标识出二进制的具体格式,如“JPEG”。4.4.2.7 值域 数据元值域是根据相应属性中所规定的数据格式而决定的数据元的允许值的集合。数据元值域有以下三种情况:a)通过名称给出:通过名称指出值域,如污水处理厂的名称最大长度不会超过 50 个字母字符,所以数据元“污水处理厂名称”的值域是“最大长度为 50 的字母字符”;b)引用国家标准:当有国家标准时则引用国家标准,如引用 GB/T 7408-2005 中对于时间表示法的规定;c)采用代码表:采用一个由所有允许值组成的列表,即代码表。用代码表表示数据元 6 的值域须遵照以下规则:1)已有国家、行业标准且完全满足需求的,直接采用国家、行业标准;已有国家、行业标准且不能完全满足需求的,直接采用国家、行业标准,并在其基础上进行修订;无国家、行业标准的,须按照国家分类编码的相关规范,制定相应的代码表。2)自定义的代码表内容包括代码和名称。代码由若干位阿拉伯数字构成,所取位数可根据内容调整,并按顺序排列。为满足未来业务扩充需要,可预留部分扩充空间,如用代码“9”或“99”表示“其他”。代码表模版如表 3 所示。表 3 代码表模版 代码 名称 代码 名称 1 XXX 2 XXX 3 XXX 4 XXX 9 其他 3)代码表被多个数据元使用,即可被再利用。4.4.2.8 计量单位 数值型数据元取值的计量单位。计量单位名称采用GB/T 17295-2008中的计量单位的名称。4.4.2.9 版本 版本指在一个注册机构内的一系列逐渐完善的数据元规范中,某个数据元规范发布的标识。版本的编写格式及版本控制须遵循以下原则:a)版本是由阿拉伯数字字符和小数点组成的字符串;b)版本至少包含两个阿拉伯数字字符和一个小数点字符;c)版本字符串应为“m.m.n.n”的形式,其中“m”、“n”表示阿拉伯数字字符,小数点字符前面的子串“m.m”和小数点字符后的子串“n.n”应是正整数;d)版本字符串中,小数点字符前的子串“m.m”表示数据元的主版本号,小数点字符后的子串“n.n”表示数据元的次版本号;e)当数据元的某些属性发生了改变时,其版本需要进行相应的改变。对数据元(当前数据元)更新的时间,以及更新后的数据元(后续数据元)的版本等属性,应由数据元注册机构以及评审小组决定,基本原则有:1)如果当前数据元和后续数据元之间进行有效的数据交换,则须改变后续数据元版本字符串中小数点字符后面的子串“n.n”(次版本号),当前数据元和后续数据元的版本字符串之间的关系请参考原则 f。2)如果当前数据元和后续数据元之间无法进行有效的数据交换,则须改变后续数据元版本字符串中小数点字符前的子串“m.m”(主版本号),当前数据元和后续数据元的版本字符串之间的关系请参考原则 f。f)当版本发生改变时,其改变后的版本(“后续版本”,表示为“p.p.q.q”)和当前版本(表示为“m.m.n.n”)之间应遵循以下原则:1)若版本的次版本号发生变动,而版本的主版本号不发生变动,则从数学意义上来看,应满足:q.q=n.n+1。2)若版本的主版本号发生变动,则应满足:p.p=m.m+1,q.q=0。g)若版本的主版本号与此版本号均需发生变动,则数据元的版本字符串的变动情况参 7 考原则 f)中的第 2)条。4.4.2.10 状态 数据元状态指在其注册的全生存期内所处状态的标示。数据元在其注册的全生存期内包括四种状态:a)草案:数据元的内容处在