分享
数据质量管理学习.ppt
下载文档

ID:7719

大小:1.68MB

页数:42页

格式:PPT

时间:2023-01-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据 质量管理 学习
数据管理数据管理 数据管理数据管理 数据管理的难点与重点 2 数据质量控制方法论 3 案例介绍 4 数据管理的目标数据管理的目标 1 2 目标一:安全目标一:安全 访问安全访问安全 存储安全存储安全 目标二:正确目标二:正确 数据精确数据精确 数据正确数据正确 目标三:效率目标三:效率 常规加载的效率常规加载的效率 非常规加载的效率非常规加载的效率 数据管理的目标数据管理的目标 3 数据管理数据管理 数据管理的难点与重点数据管理的难点与重点 2 数据质量控制方法论 3 案例介绍 4 数据管理的目标 1 4 数据质量管理的难点与重点数据质量管理的难点与重点 数据质量概念数据质量概念 1 数据质量的重要性 2 数据质量不高的主要原因 3 数据质量归类 4 数据质量示例 5 数据质量管理方法 6 5 数据本身的数据质量 数据的真实性:数据必须真实准确的反映实际发生的业务。数据的完备性:数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。数据的自治性 数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾。数据质量概念数据质量概念 数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。除了数据的绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存贮质量和传输质量,称之为过程质量。6 数据的过程质量 数据的使用质量:数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。数据的存贮质量:指数据被安全的存贮在适当的介质上。所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,如异地备份和双机备份等,所谓存贮在适当的介质上是指当需要数据的时候能及时方便的取出。数据的传输质量:数据的传输质量是指数据在传输过程中的效率和正确性。在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。数据质量概念数据质量概念 7 关系建设系统成败 很多数据仓库应用程度不高或最后失败,归根结底都是数据质量不高造成的。数据质量好坏关系到结果与预期是否一致 低下的数据质量往往造成开发出来的系统与用户的预期大相径庭 数据质量是决策正确的保障 数据信息是企业重要的战略资源,合理有效的使用正确的数据能指导企业领导作出正确的决策,提高企业的竞争力。不合理的使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。数据质量是长期困扰开发的难题 数据质量不高已经成为困扰此类项目的开发人员与用户的一个严重问题。数据质量重要性数据质量重要性 8 数据质量不高的主要原因数据质量不高的主要原因 9 数据质量归类数据质量归类 10 数据质量示例数据质量示例 11 数据质量管理方法数据质量管理方法 12 数据管理数据管理 数据管理的难点与重点 2 数据质量控制方法论数据质量控制方法论 3 案例介绍 4 数据管理的目标 1 13 数据质量控制方法论数据质量控制方法论 数据源检验方法数据源检验方法 1 数据源检验适用规则 2 数据检验方法 3 数据检验适用规则 4 数据质量检验的顺序 5 14 数据源检验方法数据源检验方法 分类分类 检验方法检验方法 检查范畴检查范畴 异常处异常处 理方式理方式 说明说明 时效性 时效性检验 数据是否 按时到达 报警 正确性 完整性检验 代码一致性 记录条数检查 停止ETL 原则性检验 数据值检查 停止ETL 对单字段的数值检查。不符合原则性检验时该数据一定是错误的。逻辑性检验 数据值检查 报警 对单表或多个表内字段间逻辑关系的检查 数据源检验是对HDS中的源表进行的数据质量检查。数据源检验分为时效性 检验和正确性检验两个大类,其中正确性检验又分为完整性检验、原则性检验、逻辑性检验。15 数据源检验方法数据源检验方法 时效性检验时效性检验 判断在约定的时间内,数据源的数据是否按时到达 完整性检验完整性检验 HDS数据表与代码表的一致性检查 HDS数据表记录数检查 原则性检验原则性检验 HDS数据表中字段的数值是否在合法的区间内 逻辑性检验逻辑性检验 单表或多个表内字段间逻辑关系的检查 16 数据源检验适用的规则数据源检验适用的规则 时效性检验时效性检验 规则一:时效性检验适用于HDS中所有的代码表和数据表。完整性检验完整性检验 规则二:包含外键字段的HDS数据表必须进行代码一致性检验。规则三:包含日期型字段且可以确定记录数范围的HDS数据表必须进行记录条数检验。原则性检验原则性检验 规则四:HDS数据表中可以确定取值范围的字段必须进行原则性检验。逻辑性检验逻辑性检验 规则五:单表或多个表内的字段具有相同的业务含义,不同的统计口径,且存在汇总关系。满足此条件时必须进行逻辑性检验。规则六:本表的字段与其他表中的字段的业务含义、统计口径相同。满足此条件时必须进行逻辑性检验。规则七:单表或多个表内的字段具有不同的业务含义,相同的统计口径,在业务上有逻辑公式成立。满足此条件时必须进行逻辑性检验。17 数据检验方法数据检验方法 数据校验是对DDS数据库中前台应用直接使用的相关表的检验。数据校验分为时 效性检验和正确性检验两个大类,其中正确性检验又分为完整性检验、原则性检验、模糊性检验、逻辑性检验。分类分类 检验方法检验方法 检查范畴检查范畴 异常处理方式异常处理方式 说明说明 时效性 时效性检验 数据是否 按时到达 报警 正确性 完整性检验 代码一致性 记录条数检查 停止ETL 原则性检验 数据值检查 停止ETL 对单字段的数值检查和单表内逻辑关系的检查。不符合原则性检验时该数据一定是错误的。模糊性检验 数据值检查 报警 对单字段的数值、同比值的检查。不符合模糊性检验时只能怀疑此数据有问题。逻辑性检验 数据值检查 报警 对不同数据源加工得到的多个表内字段间逻辑关系的检查。不符合逻辑性检验时只能怀疑此数据有问题。18 数据检验方法数据检验方法 时效性检验时效性检验 判断在约定的时间内,前台应用直接使用的相关表是否按时加载 完整性检验完整性检验 DDS事实表与维度表的一致性检查 DDS事实表记录数检查 原则性检验原则性检验 DDS事实表中单字段的数值是否在合法的区间内 同一表内字段间逻辑关系的检查 模糊性检验模糊性检验 判断字段的数值及其同比值是否在合理的区间内 逻辑性检验逻辑性检验 由不同数据源加工得到的多个表内字段间逻辑关系的检查 19 数据检验适用的规则数据检验适用的规则 时效性检验时效性检验 规则一:时效性检验适用于DDS中所有的维度表和事实表。完整性检验完整性检验 规则二:包含外键字段的DDS中事实表必须进行代码一致性检验。规则三:包含日期型字段且可以确定记录数范围的DDS事实表必须进行记录条数检验。原则性检验原则性检验 规则四:表中的字段可以确定取值范围,同时可以判定不在此范 围内的数据必定是错误的。满足此条件必须进行原则性检验。规则五:同表内多个字段间具有相同的业务含义,不同的统计口径,存在汇总关系时,必须进行原则性检验。规则六:同表内多个字段间具有不同的业务含义,相同的统计口径,在业务上有逻辑公式成立时,必须进行原则性检验。20 数据检验适用的规则数据检验适用的规则 模糊性检验模糊性检验 规则七:不能进行完整性、原则性检验的情况下,必须进行模糊性检验。规则八:规则七不成立时,根据系统的重要程度决定是否进行模糊性检验。系统的重要程度及哪些系统要进行模糊性检验由客户方确定。逻辑性检验逻辑性检验 规则九:本表的字段与其它表中的字段具有相同的业务含义,不同的统 计口径,存在汇总关系,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行逻辑性检验。规则十:本表的字段与其他表中的字段的业务含义、统计口径相同,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行逻辑性检验。规则十一:本表的字段与其他表中的字段具有不同的业务含义,相同的统计口径,在业务上有逻辑公式成立,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行逻辑性检验。21 数据质量检验的顺序数据质量检验的顺序 1、数据源完整性检验数据源完整性检验 数据源的完整性检验报异常时应停止ETL加载过程,不需要再进行后续的检验 2、数据源原则性检验数据源原则性检验 数据源的原则性检验报异常时应停止ETL加载过程。不需要再进行后续的检验 3、数据校验完整性检验数据校验完整性检验 数据校验的完整性检验报异常时应停止ETL加载过程,不需要再进行后续的检验 4、数据校验原则性检验数据校验原则性检验 数据校验的原则性检验报异常时应停止ETL加载过程,不需要再进行后续的检验 5、数据源时效性检验、数据源逻辑性检验、数据校验时效性检验、数据源时效性检验、数据源逻辑性检验、数据校验时效性检验、数据校验模糊性检验、数据校验逻辑性检验数据校验模糊性检验、数据校验逻辑性检验 这五类检验方法报异常时,ETL加载正常进行,但需要给出预警提示 22 数据管理数据管理 数据管理的难点与重点 2 数据质量控制方法论 3 案例介绍案例介绍 4 数据管理的目标 1 23 数据质量检验的案例数据质量检验的案例 下面以行业对比报表中的全国卷烟市场分类销量情况表(分价类)为例来介绍如何根据数据质量管理方案进行各类规则的制定实施过程。24 步骤一确定相关的表步骤一确定相关的表 全国卷烟市场分类销售情况表(分价类)在DDS中直接使用的表为:APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL 对应的HDS中的源表为:EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL。因此下面的检验规则主要针对这两张表来制定。25 步骤二确定数据源的时效性检验规则步骤二确定数据源的时效性检验规则 根据表EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL的数据到达规律,定义该表每月最晚到达日期为8日。26 步骤三步骤三 确定数据源的完整性检验规则确定数据源的完整性检验规则 根据数据源检验适用规则的规则二、三:1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL中包含有外键字段 I_Province(省份代码)、I_Org(机构代码)、C_Brand(规格)。I_Province(省份代码)对应代码表DM.T_DM_GJJ_QGSF中的QGSFDM;I_Org(机构代码)对应代码表DM.T_DM_GJJ_ZZJG中的ZZJGDM;C_Brand(规格)对应代码表T_DM_GJJ_JY中的THTXBS。该表符合规则二的检验条件,需要进行代码一致性检查。2、该表包含有日期型字段Y,M,但记录条数每月不确定,因此不满足规则三,无法进行记录条数检查。27 步骤四步骤四 确定数据源的原则性检验规则确定数据源的原则性检验规则 根据数据源检验适用规则的规则四:1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL中包含有数据字段sell(系统外总销量)、Out_Sell_Retail_Amount(系统外零售量)、Out_Sell_Amount(系统外批发销量)、End_Store_Amount(期末库存);根据业务经验确定:sell=0 Out_Sell_Retail_Amount=0 Out_Sell_Amount=0 End_Store_Amount=0 28 步骤五步骤五 确定数据源的逻辑性检验规则确定数据源的逻辑性检验规则 根据数据源检验适用规则五:1、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL表包含字段Out_Sell_Retail_Amount、Out_Sell_Amount、End_Store_Amount 2、EIIRECV.EIIRECV_TZ_BS_Y_Q_M_BASIC表也包含字段Out_Sell_Ret

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开