数据质量管理_数据仓库_第1页
数据质量管理_数据仓库_第2页
数据质量管理_数据仓库_第3页
数据质量管理_数据仓库_第4页
数据质量管理_数据仓库_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库专题讲座之数据质量管理,缪翀莺2005年9月,目录,数据质量问题分析数据质量方法论质量保证成功因素案例分析,数据质量归类,错误的值,错误的数据依赖,重复属性,缺乏引用完整性,违反商务规则,多种数据源中缺乏数据对应,源数据和目标缺乏同步,没有理由的关联,缺少数据,错误的计算,主键重复,无标准的格式,稀少的实体解释,数据质量的示例,错误的范围,原因分析,各专业之间的指标体系及编码规则不一致,多个生产系统的数据源存在不一致现象数据源本身存在脏数据噪声数据数据存在人工操作不同数据源由不同部门管理,由于生产系统的数据是随生产而变化的,在不同的时间点进行数据抽取的数据是不一致的,生产系统的不同版本各分公司市场政策的差异同一产品、业务、套餐在生产系统业务处理规则编码差异很大,统计口径,数据抽取时间点问题,业务规则问题,数据源问题,客户关系管理,操作型数据整合环境,ODS,业务运作系统,企业数据仓库,EDW,数据集市,客户洞察,BSS,CRM,计费,结算,OSS,资源管理,服务开通,综合网管,专业网管,MSS/ERP,人力资源,财务管理,工程管理,数据复制,EAI,ODS数据视图访问,ODSETL,数据复制,EAI,ODS数据反馈ETL,ODS/EDW数据视图访问,EDWETL,客户价值,客户流失,数据集市,决策支持,整合的前端报表查询和分析环境,多维数据访问,ODS书籍,营销活动,渠道管理,客户关怀,客户洞察,经营分析,绩效管理,KPI,其他数据,反馈分析数据,元数据管理,安全和权限管理,系统管理,收入分析,业务发展分析,客户分析,客户细分,营销分析,营销评估监控,信用度计算,渠道监控,综合查询,综合报表,数据挖掘,数据稽核,数据质量监控,当企业的所有系统,包括业务系统、管理系统、EDA系统都结为一体的时候,系统监控、工作流、数据流、系统管理变成一个重要挑战,目录,数据质量问题分析数据质量方法论质量保证成功因素案例分析,数据质量管理方法论,管理机制的保障是数据质量控制的关键,验证检查是数据保障的督促和推动,严谨的过程定义是数据质量保障的基础,有效的落实是数据质量保障的根本,有效的组织机构是管理机制的有力支持,完善文档的建立和维护是数据质量保障各个环节以及组织之间沟通的依据,建立合理的数据管理机构、制定数据质量管理机制、落实人员执行责任、保障组织间高效的沟通、持续监控数据应用过程和领导强有力的督促是保证企业数据质量的关键,数据质量保障流程,按照制定的规范获取相应的项目资源、支撑工具以及制定工作计划,定义详细的过程、数据、组织的划分以及质量元素、标准及测算方法。,对现存数据及业务环境进行评估,以便识别项目对数据、过程、系统以及组织架构所造成的影响。,建立业务环境,改进现有数据的数据质量。,目录,数据质量问题分析数据质量方法论质量保证成功因素案例分析,综述,按照现代质量观念,质量是一个过程而不是结果。数据仓库的数据质量应当在整个数据仓库规划、设计、建设、维护中体现和实现。鉴于系统建设情况(业务系统、经营分析系统),应该重点关注管理、过程评估,质量保证KSF,组织保证设计岗位明确岗位的要求和职责制定标准制定数据上传计划制定统一编码库,过程,在数据处理的流程上进行规范并设置相应的控制点和稽核点规范的流程过程校验点和稽核点异常处理措施,制定数据质量的评测标准并按所制定的标准对其进行考核:标准及时性、准确性、一致性等考核奖励、惩罚阶段评估,管理岗位,为经营分析系统的数据质量管理工作提供宏观方向指导,并予以授权,支持数据质量管理小组的部门或系统间协调工作,全面负责经营分析系统的建设和维护领导数据质量管理员进行数据质量管理工作,编写和维护数据质量工作相关文档,如数据质量检测标准、控制流程;定期组织相关力量对经营分析系统的业务和设计(包括数据模型设计)的完备性进行评估,总结问题,及时发现影响数据质量的隐患;定期、不定期地进行质量评估;监控数据质量问题解决的整个流程;数据质量相关知识的培训;建立、维护数据质量问题解决的经验集,负责经营分析系统与业务系统间的协调和工作落实参与质量方案的评估和方案制定负责监督和管理相应业务系统建设、维护单位进行的与经营分析系统数据质量问题有关的活动,管理数据上传计划,制定各个业务系统的数据上传内容计划,此计划需要业务系统相应岗位人员认真执行:,管理统一编码库,标准代码是指省公司统一各分公司的业务情况整理的标准的业务代码,内容是代码、名称及代码分类。标准代码是数据源的主要业务代码,所有的分析都是此代码组合的维度基础上,因此维护好代码也是保证数据质量的关键之一建立的原则维护的原则分公司应该理解省公司编码有代表的实际业务内容,然后把本公司的业务对应到省公司的标准代码上建立的原则维护的原则,质量保证KSF,在行政管理以及职能上设置相应的人员、设立相应的岗位进行数据质量管理,包含以下内容:设计岗位;明确岗位的要求和职责;制定数据上传计划制定统一编码库,评估,管理,过程,1,2,3,质量保证关键成功因素KSF,规范规范的流程检查点过程校验点和稽核点异常处理措施,制定数据质量的评测标准并按所制定的标准对其进行考核:标准及时性、准确性、一致性等考核奖励、惩罚阶段评估,过程规范的流程,定义了用于构造一个完善的、满足业务功能的数据仓库系统所不可缺少的步骤和任务。这是一组预定义好的、在整个数据仓库项目中起指导作用的、可用多种方法管理的实施步骤,过程校验点,对数据的稽核应包括三个层面的KPIs检查校验,其中业务层面对于数据质量保证更为重要,也更为复杂,数据稽核,技术指标稽核,业务指标稽核,操作指标稽核,文件命名是否正确文件个数是否正常索引标识是否对应,文件中记录行数是否正常文件大小是否正常,文件中各类指标汇总值是否异常波动根据历史经验和季节规律进行时间序列分析数据校验利器,在系统中予以固化,提供自动异常预警,使操作人员可以方便地进行审核确认,过程稽核点,由于各省数据情况复杂,因此数据在上传集团公司的过程中,应经过多次稽核检验把关,才能各环节数据的质量,省公司,本地网,生成数据,检查通过?,检查通过?,处理/生成,检查通过?,检查通过?,处理/稽核/展现,省公司管控范围,集团公司管控范围,过程稽核方法1,在从分公司到省公司的ETL过程中,采取总量稽核与分量稽核方法来校验环节之间的数据平衡关系,对两个相邻环节中,对数据的总量进行验证,总量指标包括:总记录数,所有度量指标的总值等。总量正确说明数据没有被丢弃,没有不符合装载逻辑规则的脏数据存在。总量不正确,则需要检查本环节装载日志中是否有被抛弃的记录,如果没有数据丢失,则需要检查数据运算逻辑规则。总量稽核要对每个度量进行,才算完整的稽核,分量稽核是指对相邻的两个环节中,在总量正确的前提下,对数据分布情况的稽核,在这个过程中,需要对每个维度上的分布的每个度量进行查询,如果数据在每个维上的分布都正确,则在组合维查询时数据也正确,可以保证多维分析的正确性。在总量正确的基础之上,做分量稽核时只需要选择任一度量进行稽核,可认为在其他度量上的分量正确,1,过程稽核方法2,列出整体的数据处理情况,包括入库和采集及分析与渠道系统的使用,2,过程稽核方法3,此稽核方法可以作为总量和分量稽核的辅助,即针对某个度量而言在总量上或分量上的波动在设定的阙值内认为数据时正常的,否则认为为异常,需要检查确认,3,过程稽核方法3,逻辑稽核主要对于某个度量在某个分量(维度)上的分布是否符合业务逻辑,逻辑稽核也是以自定义的方式实现,3,过程稽核方法4,4,在上传集团公司之前,通过稽核模板,对关键业务指标等KPIs进行环比和趋势分析审核,确认数据在正确的范围之内,过程异常处理措施,对于存在的错误和异常情况,本地网维护人员进行原因分析和相应处理,通过界面回收错误数据,质量保证KSF,在行政管理以及职能上设置相应的人员、设立相应的岗位进行数据质量管理,包含以下内容:设计岗位;明确岗位的要求和职责;制定数据上传计划制定统一编码库,评估,管理,过程,1,2,3,质量保证关键成功因素KSF,在数据处理的流程上进行规范并设置相应的控制点和稽核点规范的流程过程校验点和稽核点异常处理措施,评估标准及时性、准确性一致性等考核奖励、惩罚阶段评估,评估标准,数据质量分级目标报表数据报表数据一般对于数据的准确性要求比较高,特别是财务方面的指标,是严格限定在误差范围内的。对于报表的指标,即使是允许的误差范围,也要求给出误差产生的原因,例如是小数点四舍五入或是由于秒转换到分钟算法不同等。OLAP数据分析OLAP分析一般是总体数据的宏观比例、趋势等分析,对于数据总量的误差有一定的限制,但要求数据在不同维度上的分布比例正确,能够正确反映宏观比例和趋势。数据挖掘数据挖掘一般使用比较复杂的数学算法对于数据进行处理,因算法比较复杂,对于硬件环境要求比较高,同时也限定了使用的数据集合不能太大,一般要求对于全体数据进行采样,因此在这个过程中,仅关心样本的代表性。,评估标准,接口数据文件传送完整率每日传送至分析系统中的完整的接口文件百分比(其中,完整的接口文件指文件的名称、格式、时间标识、文件大小等均符合经营分析系统接口规范规定的接口文件)文件记录合法率接口文件记录中各数据项长度、类型及值域均符合接口规范定义文件传送及时率在接口规范中规定的文件传送时间窗口内传送至分析系统的文件个数百分比,评估标准,接口表数据处理及时率在文件正确到达后及时处理文件比率ODS层数据数据处理及时率转换后的ODS层及时准确情况数据仓库检查数据处理及时率数据仓库层处理及时准确情况,目录,数据质量问题分析数据质量方法论质量保证成功因素案例分析,案例1某省电信,源系统的数据质量问题信息不正确:数据无效或错误,违反数据约束规则、业务规则等。信息不完整:源系统中某些信息缺失或未填充,虽然不影响源系统正常运转,但这些信息的缺失会严重影响数据仓库的应用分析。信息不一致:当同一信息内容来自多个源系统时,存在冲突和差异,或者同一业务系统内部的冗余信息之间存在冲突。编码映射问题标准编码不完全、不合理:许多本地网编码不能归类到标准编码,导致“未知”一栏的数量奇高,降低了应用分析的价值,并影响使用人员对系统的信任度。编码映射不合理:将本地网编码归类到标准编码时有错误或不合理,导致与业务系统形成重大差距。本地网编码发生调整,数据仓库未同步修改:将导致新增编码归类到“未知”一类,发生变化的编码,归类到错误的标准编码。指标统计问题指标定义不一致:各本地网对指标理解不一致,导致提供上来的数据不标准、不具可比性。统计口径不一致:各本地网对统计口径理解不一致,导致本系统可能与各本地网系统形成重大差距。ETL数据质量问题技术性问题:包括脚本未按规范编写,存在语法错误或逻辑错误,或者没有遵循数据约束规则(如唯一性、引用性、非空等)。非技术性问题:包括对业务规则理解不准确、编码规则不一致等产生的问题。非技术性问题通常需要向业务专家、统计专家、源系统维护人员咨询。,数据质量检查的技术方法及考核指标,文件级检查:及时性正确性:打开正常、文件大小正常/波动范围内记录合法性:记录数、记录长度正常,文件级检查:数据域检查:记录中数值字段、日期字段是否合法,记录级检查:主键检查外键检查编码映射检查数据值域检查业务规则检查,记录级检查:业务规则检查业务指标检查:业务指标平衡性检查同一指标在临时区、DW、DM/OLAP平衡检查客户、用户业务指标波动性检查收入、详单数业务指标与业务系统比对,文件级KPI:文件及时率文件正确率,文件级KPI:文件及时率/正确率文件处理及时率记录合法率,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论