数据质量管理课件_第1页
数据质量管理课件_第2页
数据质量管理课件_第3页
数据质量管理课件_第4页
数据质量管理课件_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据管理,演讲者:部门:职位名称:1,PPT研究和沟通,数据管理,2,PPT研究和沟通,目标1:安全访问安全存储,目标2:正确数据,准确数据,目标3:常规加载的效率,非常规加载的效率,数据管理的目标,3,PPT研究和沟通,数据管理,4,PPT研究和沟通,数据质量管理的困难数据完整性:数据完整性意味着数据是充分的,没有与操作相关的数据被省略。数据的自主性数据不是孤立存在的,数据之间有各种各样的约束,这些约束描述了数据之间的关系。数据必须能够满足这些数据之间的相关性,但不能相互矛盾。数据质量的概念、数据的真实性、完整性和自我一致性是数据应该具备的属性,称为数据的绝对质量,是保证数据质量的基础。除了

2、数据的绝对质量之外,还有在数据使用和存储过程中产生的数据质量,包括使用质量、存储质量和传输质量,称为过程质量。6、PPT学习与交流、数据处理质量、数据使用质量:数据使用质量是指数据的正确使用。如果正确的数据使用不当,就不可能得出正确的结论。数据存储质量:指数据在适当介质上的安全存储。所谓安全是指采用适当的方案和技术来抵御外部因素,防止数据被破坏。备份是我们经常使用的一种技术,例如异地备份和双机备份。所谓的存储在适当的介质上意味着数据可以在需要时及时方便地取出。数据传输质量:数据传输质量是指数据在传输过程中的效率和正确性。在现代信息社会中,不同地点之间的数据传输越来越多,因此保证传输过程的高效性

3、和正确性非常重要。数据质量的概念、7、PPT学习与沟通、关系构建系统的成败。许多数据仓库应用程度不高或最终失败,都是由于数据质量低造成的。数据质量与结果是否符合预期有关。低数据质量经常导致开发的系统与用户的期望大相径庭。数据质量是正确决策的保证。数据信息是企业重要的战略资源。合理有效地使用正确的数据可以指导企业领导做出正确的决策,提高企业的竞争力。不合理地使用不正确的数据(即数据质量差)会导致决策失败。数据质量是困扰发展的一个长期问题。低数据质量已经成为困扰这些项目的开发者和用户的一个严重问题。数据质量的重要性,8。PPT学习和沟通,数据质量低的主要原因,9。PPT研究与交流,数据质量分类,1

4、0。PPT研究与交流,数据质量示例,11。PPT学习与交流,数据质量管理方法,12。PPT学习与交流,数据管理,13。PPT研究与交流,数据质量控制方法,14。PPT学习和交流。数据源检查可分为及时性检查和正确性检查,其中正确性检查可分为完整性检查、原则检查和逻辑检查。15、PPT学习与沟通、数据源检查方法、判断数据源数据是否在约定时间内按时到达的及时性检查、完整性检查、HDS数据表与码表的一致性检查、HDS数据表中记录的数量检查、原则检查、逻辑检查、单表或多表中字段之间的逻辑关系检查、16、PPT学习与沟通、数据源检查的适用规则、及时性检查规则一:及时性检查适用完整性检查规则二:包含外来关键

5、字段的HDS数据表必须进行代码一致性检查。规则3:包含日期字段并可以确定记录范围的HDS数据表必须检查记录数量。原则测试规则4:原则上必须测试HDS数据表中能够确定数值范围的字段。逻辑测试规则5:单个表或多个表中的字段具有相同的业务含义、不同的统计维度和汇总关系。当满足该条件时,必须进行逻辑测试。规则6:本表中的字段与其他表中的字段具有相同的业务含义和统计口径。当满足该条件时,必须进行逻辑测试。规则7:单个表或多个表中的字段具有不同的业务含义和相同的统计口径,业务中有逻辑公式。当满足该条件时,必须进行逻辑测试。17、PPT学习与交流、数据验证方法、数据验证是对DDS数据库中前台应用程序直接使用

6、的相关表的验证。数据验证可分为两类:及时性测试和正确性测试,其中正确性测试可分为完整性测试、原则测试、模糊性测试和逻辑测试。18、PPT学习与交流、数据测试方法、时效性测试判断在约定时间内,前台应用直接使用的相关表格是否按时加载?完整性检查DDS事实表和维度表之间的一致性?DDS事实表中的记录数?原则检查?DDS事实表中单个字段的值是否在合法区间内?检查同一表中字段之间的逻辑关系?模糊测试?确定字段的值及其相同的比率是否在合理的区间内?从逻辑上检查由不同数据源处理的多个表中的字段之间的逻辑。检查系列、19、PPT学习与沟通、适用于数据检查的规则、及时性检查规则1:及时性检查适用于DDS中的所有

7、维度表和事实表。完整性检查规则2:必须检查DDS中包含外键字段的事实表的代码一致性。规则3:必须检查包含日期字段并能确定记录范围的DDS事实表的记录数。原则测试规则4:表中的字段可以确定取值范围,同时可以判断该范围之外的数据一定是错误的。必须进行原理测试以满足这一条件。规则5:当同一表中的多个字段具有相同的业务含义、不同的统计口径和汇总关系时,原则上必须进行校验。规则6:同一表中的多个字段具有不同的业务含义和相同的统计口径。当一个逻辑公式在商业中被建立时,它必须在原则上被检查。20,PPT学习与交流,适用于数据检验的规则,模糊性检验规则7:如果不能进行完整性和原则性检验,则必须进行模糊性检验。

8、规则8:如果规则7不正确,根据系统的重要性决定是否进行模糊性测试。系统的重要性以及应该测试哪些系统的模糊性由客户决定。逻辑测试规则9:该表中的字段与其他表中的字段具有相同的业务含义,并且存在不同会计准则的汇总关系,两个表中的数据不是从同一数据源处理的。当满足该条件时,必须进行逻辑测试。规则10:该表中的字段与其他表中的字段具有相同的业务含义和统计口径,并且这两个表中的数据不是从同一数据源处理的。当满足该条件时,必须进行逻辑测试。规则11:此表中的字段与其他表中的字段具有不同的业务含义,具有相同的统计口径,在业务中具有逻辑公式,并且两个表中的数据不是从同一数据源处理的。当满足该条件时,必须进行逻

9、辑测试。21、PPT学习与沟通、数据质量检查顺序、1、数据源完整性检查当数据源完整性检查报告异常时,应停止ETL加载过程,无需后续检查。2、数据源原则检查当数据源原则检查报告异常时,应停止ETL加载过程。不需要后续检查。3.数据验证完整性检查。当数据验证的完整性检查报告异常时,应停止ETL加载过程。4.数据验证的原则检验。当主检报告异常时,不需要进行后续检查。5.数据源及时性检查、数据源逻辑检查、数据验证及时性检查、数据验证模糊性检查和数据验证逻辑检查报告为异常,ETL加载正常,但应给出预警提示。22.PPT学习与交流,数据管理,23。PPT研究与交流,数据质量检验案例,以下是全国卷烟市场分类

10、销售情况表中的行业对比报告(要点),24、PPT研究与交流,第一步确定相关表格,而直接在DDS中使用的全国卷烟市场分类销售情况表(价格分类)是:对应于app _ jjyx的HDS中的源表。JL是:伊利切夫。因此,以下检验规则主要是为这两个表格制定的。25,PPT学习和交换,步骤2确定数据源的时效性检查规则,并根据表eiirecv的数据到达规则。eiirecv _ tz _ bs _ y _ q _ m _ selldetail将该表的最晚到达日期定义为每月8天。26,PPT学习和交换,步骤3确定数据源的完整性检查规则,并根据规则2和3的适用规则对数据源进行检查,eiirecv。eiirecv

11、_ tz _ bs _ y _ q _ m _ selldetail包含与QGSFDM相对应的外键字段“省”(省代码)、“组织”(机构代码)和“品牌”(省代码);在代码表DM中。泰_德_ GJJ _ QGSF;机构代码对应于ZZJGDM在代码表DM中。GJJ中央电视台;C_Brand(规格)对应于代码表T_DM_GJJ_JY中的THTXBS。该表满足规则2的检查条件,需要进行代码一致性检查。2.该表包含日期字段y和m,但是每个月的记录数是不确定的,因此无法满足规则3,也无法检查记录数。27、PPT学习和交换,步骤4确定数据源的原则检验规则,并根据规则4的数据源检验适用规则:1。艾丽科夫。eii

12、recv _ tz _ bs _ y _ q _ m _ selldetail包含数据字段sell(系统外的总销售额)、Out_Sell_Retail_Amount(系统外的零售总额),根据业务经验:Sell=0 Out _ Sell _ Retail _ Amount=0 Out _ Sell _ Amount=0 End _ store _ Amount=0,28,PPT学习通信,步骤5确定数据源的逻辑检查规则,根据数据源检查的五个适用规则:1。艾丽科夫。表中包含的字段有:售完零售金额、售完金额、最终商店金额2。基本表还包含“卖出零售金额”、“卖出金额”和“最终商店金额3”字段。这两个表的

13、对应字段具有相同的业务含义和不同的统计维度,存在以下汇总关系:eiirecv。eiirecv _ Eiirecv。eiirecv _ tz _ bs _ y _ q _ m _ selldetail表用于统计商业企业卷烟规格的系统外批发销售、系统外零售销售和期末商业库存数据。因此,eiirecv中的商业企业汇总数据。eiirecv _ tz _ bs _ y _ q _ m _ selldetail表应该等于eire cv中相应商业企业的数据。eiirecv _ tz _ bs _ y _ q _ m _ basic表。29,PPT学习和交换,步骤5确定数据源的逻辑检查规则,并根据规则6和规则

14、7: 1的数据源检查适用规则,EIIRECV。与其他表格中的字段具有相同的业务含义和统计口径。因此,不满足规则6的逻辑检查。2.艾丽科夫。elirecv _ tz _ bs _ y _ q _ m _ sell detaill表包含字段Sell(系统外总销售额)、Out_Sell_Retail_Amount、Out_Sell_Amount(系统外批发销售额)End_Store_Amount(期末库存)它们具有不同的业务含义和相同的统计口径,并且存在一种业务逻辑关系:比率_股票_卖出=最终_商店_数量/卖出=卖出_卖出_零售_数量卖出_数量,30。PPT学习和沟通,步骤6确定数据的及时性检查规则

15、。根据表app _ jjyx使用的源表的最新到达时间。t _ ft _ jjyx _ jyscflxlk _ JL和后台数据处理时间,该表的最晚加载日期定义为每月的第12天。31,PPT学习和交换,步骤7确定数据完整性检查规则,并根据规则2和3: 1的适用规则进行数据检查,app _ jjyx。t _ ft _ jjyx _ jyscflxlk _ JL不包含外键字段,因此不符合规则2,因此没有必要检查代码的一致性。2.该表包含日期类型字段DQRQ,并且记录的数量是每月确定的,因此如果满足规则3,则需要检查记录的数量。该表的月装载能力为35行。32,PPT学习和交换,步骤8确定数据的原则检验规

16、则,并根据规则4的适用规则检验数据:1。app _ jjyx的表。t _ ft _ jjyx _ jyscflxlk _ JL包含字段BY_SYXL、BY_HCY、BY_JL1、BY_JL2、BY_JL3,其取值范围可根据业务经验确定:BY_SYXL、BY_HCY、LJ_SYXL、LJ _ SYXL 0;BY_JL1、BY_JL2、BY_JL3、BY_JL4、BY _ JL50LJ_JL1、LJ_JL2、LJ_JL3、LJ_JL4、LJ _ JL50,33,PPT研究和交换,步骤8确定数据的原则检验规则,并根据适用的数据检验规则的规则5和规则6,app _ jjyx。t _ ft _ jjyx _ jyscflxlk _ JL包含字段SCLXMC、BY

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论