分享
TSZGIA 6.1-2019 基因检测产品数据标准 第1部分:通用标准.pdf
下载文档

ID:2637464

大小:985.87KB

页数:21页

格式:PDF

时间:2023-08-20

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
TSZGIA 6.1-2019 基因检测产品数据标准 第1部分:通用标准 6.1 2019 基因 检测 产品 数据 标准 部分 通用
ICS 07.080 A40 T/SZGIA 团体标准 T/SZGIA 6.12019 基因检测产品数据标准 第 1 部分:通用标准 Genomics Data Normalization Part 1:General Specification 2019-06-21 发布 2019-06-30 实施 深圳基因产学研资联盟 发 布 I 目 次 前言.II引言.III1 范围.12 规范性引用文件.13 术语和定义.14 缩略语.55 数据格式属性与描述规则.56 数据格式说明的编码方式.77 归档目录属性及描述规则.88 数据元属性与描述规则.109 数据元值域的编码方法.14 II 前 言 基因检测产品数据标准包括通用标准和特定检测产品的数据标准,如:第1部分:通用标准;第2部分:孕妇外周血胎儿游离DNA产前检测元数据目录;本标准按照GB/T 1.1-2009给出的规则起草。本部分起草单位:深圳华大基因科技有限公司、深圳华大生命科学研究院、深圳华大临床检验中心、深圳华大基因股份公司、深圳基因产学研资联盟、北京诺禾致源科技股份有限公司、广州医科大学附属第三医院、深圳瑞奥康晨生物科技有限公司、菁良基因科技(深圳)有限公司、深圳裕策生物科技有限公司。本部分主要起草人:吕春杰、刘小燕、唐美芳、李陶莎、程奇、李倩一、吴昊、李瑞强、吴俊、王大伟、黎青、陈敏、郑晨晴、杨旭、饶颖、李淼、聂新华、高志博。III 引 言 组学数据的数据类型可分为非结构化数据和结构化数据。其中非结构化数据,通过数据格式、数据格式规格说明、归档目录描述;结构化数据,通过数据元、值域来描述。图1 组学产品数据标准框架 数据格式及规则说明规范了数据格式的内容结构、属性与描述规则、数据格式的编制规则。归档目录规范了归档目录的内容结构、属性与描述规则、格式和索引的编制规则。数据元规范化定义了数据元的编码方法及描述属性,描述属性包括状态、来源、基础数据集、基础数据元标识符、数据元中文名称、定义、必要性、信息保护、数据元的数据类型、表示格式、单位代码、数据元允许值等。值域代码规范了数据元值域的编码方法、代码表格式和表示要求、代码表的命名与标识。1 基 因 检 测 产 品 数 据 标 准 基 因 检 测 产 品 数 据 标 准 第 1 部 分:通 用 标 准第 1 部 分:通 用 标 准 1 范围 本部分规定了基因组学产品数据属性与描述规则、数据元索引与数据元值域的编码方法、代码表格式与表示要求、代码表的命名与标识、数据格式的内容结构与编制规则、数据格式的规格说明、归档目录结构的内容。本文件适用于基因组学产品数据标准的编制。2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB 2312 信启、交换用汉字编码字符集 基本集 GB/T 7408 数据元和交换格式 信息交换 日期和时间表示法 GB/T 10113 分类与编码通用术语 GB/T 17295 国际贸易用计量单位代码 GB/T 18391.1 信息技术 元数据注册系统(MDR)第1部分:框架 GB/T 18391.信息技术 元数据注册系统(MDR)第3部分:注册系统元模型和基本属性 GB/T 19488.1 电子政务数据元 第1部分:设计和管理规范 WS/T 303 卫生信息数据元标准化规则 WS/T 305 卫生信息数据集元数据规范 WS/T 306 卫生信息数据集分类与编码规则 WS 363.1 卫生信息数据元目录 第1部分:总则 WS 364.1 卫生信息数据元值域代码 第1部分:总则 JT/T 697.1 交通信息基础数据元 第1部分:总则 3 术语和定义 3.1 数据元标识符 data element identifier 数据元目录中为数据元分配的与语言无关的唯一标识。注:该定义源于国家卫生行业标准WS363.1中3.1。3.2 数据元公用属性 public attribute 在数据元目录中数据元的属性值均相同的属性。如本标准中注册机构。2 注:该定义源于国家卫生行业标准WS363.1中3.2。3.3 数据元专用属性 specialized attribute 在数据元目录中数据元属性值不相同的属性。注:该定义源于国家卫生行业标准WS363.1中3.3。3.4 值域 value domain 允许值的集合。注:该定义源于国家标准GB/T 18391.1中的3.75。3.5 类别 category 具有某种共同属性(或特征)的事物(或概念)的集合。注:该定义源于国家标准GB/T 10113中的2.1.1。3.6 分类 classification 按照选定的属性(或特征)区分分类对象,并将具有某种共同属性(或特征)的分类对象集合在一起的过程。注:该定义源于国家卫生行业标准WS364.1中3.3。3.7 线分类法 method of line classification 将分类对象按选定的若干属性(或特征)逐次地分为若干层级,每个层级又分为若干类目,不同层级类目之间构成隶属关系。这种分类方法称为线分类法。注:该定义源于国家卫生行业标准WS364.1中3.4。3.8 面分类法 method of area classification 选定分类对象的若干属性(或特征),将分类对象按每属性(或特征)划分成一组独立的类目,每一组类目构成一个“面”。再按一定顺序将各个“面”平行排列。使用时根据需要将有关“面”中的相应类目按“面”的指定排列顺序组配在一起,形成一个新的复合类目。这种分类方法称为面分类法。注:该定义源于国家卫生行业标准WS364.1中3.5。3.9 代码 code 表示特定事物(或概念)的一个或一组字符。这些字符可以是阿拉伯数字、拉丁字母或便于电子计算机和人识别与处理的其他符号。3 注:该定义源于国家标准GB/T 10113中的2.2.5。3.10 编码 coding 给事物(或概念)赋予代码的过程。注:该定义源于国家卫生行业标准WS364.1中3.7。3.11 代码结构 code structure 一个完整代码的组成方式和长度的综合表示。注:该定义源于国家卫生行业标准WS364.1中3.8。3.12 代码类型 code type 从某一个方面(如含义、结构、长度、组成等)来表示代码的某种特性。如:从含义上可分为有含义代码和无含义代码;从结构上可分为层次码和顺序码等;从长度上可分为等长代码和不等长代码;从组成上可分为数字代码和字母代码等。注:该定义源于国家卫生行业标准WS364.1中3.9。3.13 无含义代码 unmeaning code 对编码对象只起标识作用,而无任何其他附加含义的代码。注:该定义源于国家卫生行业标准WS364.1中3.10。3.14 有含义代码 meaning code 除对编码对象起标识作用外,还具有其他特定含义的代码。注:该定义源于国家卫生行业标准WS364.1中3.11。3.15 数字型代码 numeric code 由阿拉伯数字(09)构成的代码。注:此种类型的代码仅仅是以阿拉伯数字的形式表示,但不是数值型,不可直接用于计算。注:该定义源于国家卫生行业标准WS364.1中3.12。3.16 字母型代码 alphabetic code 由字母构成的代码。注:其中所称字母通常为英文字母(I、O因与1、0相似,通常不使用)。注:该定义源于国家卫生行业标准WS364.1中3.13。4 3.17 字母数字型代码 alphanumeric code 由字母和阿拉伯数字混合构成的代码。注:该定义源于国家卫生行业标准WS364.1中3.14。3.18 层次码 layer code 以编码对象的隶属关系为排列顺序而组成的有层级关系的代码。注:该定义源于国家卫生行业标准WS364.1中3.15。3.19 顺序码 sequential code 按照阿拉伯数字或字母的自然顺序来表示编码对象的代码。亦称“流水码”。注1:通常情况下,顺序码是连续的,代码之间不出现断点。但在特殊情况下,可采用等距离(间隔)跳跃式编码。注2:该定义源于国家卫生行业标准WS364.1中3.16。3.20 系列顺序码 alignment-sequence code 根据编码对象属性(或特征)的相同或相似,将编码对象分为若干组。再将顺序码分为相应的若干系列(也称为“段”),并分别赋给各编码对象组。在同一系列内对编码对象连续编码,并预留扩展空间。这样编制的代码称为系列顺序码。注:该定义源于国家卫生行业标准WS364.1中3.17。3.21 等长代码 code of equal length 在同一个代码体系中,所有编码对象的代码长度都相等。注:该定义源于国家卫生行业标准WS364.1中3.18。3.22 不等长代码 code of different length 在一个完整的代码体系中,代码总长度不完全相同。注:该定义源于国家卫生行业标准WS364.1中3.19。3.23 标识符 identifier 在特定语境中,可唯一性地标识与之相关联的事物的一系列字符,可看做用来识别特定对象的数据元的编码值。注:该定义源于国家卫生行业标准WS364.1中3.20。5 3.24 归档目录标识符 directory identifier 归档目录结构中为归档目录分配的与语言无关的唯一标志。3.25 归档目录公用属性 public attribute 在归档目录结构中数据目录的属性值均相同的属性。如本标准中注册机构。3.26 归档目录专用属性 specialized attribute 在归档目录结构中数据目录的属性值不相同的属性。4 缩略语 DE 数据元(Data Element);DI 数据标识符(Data Identifier);DNA 脱氧核糖核酸(DeoxyriboNucleic Acid);RO 主管机构(Responsible Organization);RA 注册机构(Registration Authority);RAI 注册机构标识符(Registration Authority Identifier);SO 提交机构(Submitting Organization);VI 版本标识符(Version Identifier)。5 数据格式属性与描述规则 数据格式属性设置参照WS/T 303,统一规定采用5类14项属性,并按通用性程度分为两类:数据元公用属性和数据元专用属性。数据元公用属性包括7项,数据元专用属性包括7项,见表1。表1 数据元属性 序号 属性种类 数据元属性名称 约束 备注 1 标识类 数据格式标识符 必选 专用属性 2 数据格式名称 必选 专用属性 4 版本 必选 共用属性 5 注册机构 必选 共用属性 6 相关环境 必选 共用属性 7 定义类 适用范围 必选 专用属性 8 关系类 分类模式 必选 共用属性 11 表示类 数据格式允许值 必选 专用属性 12 管理类 主管机构 必选 共用属性 13 注册状态 必选 共用属性 14 提交机构 必选 共用属性 6 5.1 数据格式属性描述规则 5.1.1 数据格式标识符 数据元(DF)标识符采用字母数字混合码,包含数据标识符(DI)和版本标识符(VI)两级结构。示例1:DI_V1 a)DI按照分类法和流水号相结合的方式,采用字母数字混合码。按照数据元对应的主题分类代码、大类代码、小类代码、顺序码、附加码从左向右顺序排列。其中:主题分类代码:用2位大写英文字母表示。代码统一定为“DF”。大类代码:用2位数字表示,数字大小无含义。小类代码:用2位数字表示,数字大小无含义;无小类时则小类代码为00。小类与大类代码之间加“.”区分。顺序码:用3位数字表示,代表某一小类下的数据元序号,数字大小无含义;从001开始顺序编码。顺序码与小类代码之间加“.”区分。b)VI结构由4部分组成,为“V”+“m.m”+“.”+“n.n”。其中

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开