




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据质量管理解决方案 设计原则对检核指标进行分类,按照大类归属,在每个大类下设定具体的数据质量检核指标,指标分类如下:度量标准度量标准定义完整性主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面及时性指数据提取、传送、处理、装载、展现的及时和快速性合法性主要包括格式、类型、值域和业务规则的有效性唯一性指主键唯一和候选键唯一两个方面一致性指不同系统之间的数据差异和相互矛盾的一致性准确性一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异平台架构设计平台功能架构逻辑架构中,将整个数据质量管理平台分成四个部分:l源系统层l存储层l功能层l表示层平台应用架构平台检核架构检核架构分为三个部分:l接口文件检核lReject文件检核l对业务指标/规则的检核关键稽核指标设计指标大类指标小类指标分类描述技术指标完整性接口文件指标接口文件在传输过程中的完整性数据记录指标记录数字段类指标字段缺失业务指标完整性客户信息类客户信息缺失账户信息类关键信息缺失技术指标合法性字段类指标字段类型完整性值域类指标字段代码有效性业务指标合法性业务关系类指标业务间关联关系检查业务发展趋势类指标业务指标趋势技术指标及时性数据传输指标数据在传输过程中的及时率等数据处理指标数据的ETL处理及时率等技术指标一致性表间一致性物理表主外键的检查业务指标一致性业务统计指标一致性系统业务指标与源系统提供的业务指标的一致程度业务指标准确性业务指标区间业务指标在给定范围内的准确度唯一性主键唯一性表内主键唯一性1.项目目标本着结合实际可执行和可实现的原则,分析目前企业存在的数据质量问题,本项目将目标分为两部分数据质量的分析和检测流程,数据质量的管理指导方案。分析与检测:着重于在数据的定义基础上,利用数据的逻辑和业务规则对数据质量进行检测和分析;改进与管理:着重于在数据的分析和检测基础上,利用其结果对数据,特别是源系统的数据管理提出改进意见,制定数据质量的管理制度;2.项目成效 可为改善企业数据质量提供参考依据和解决方案; 可为建立数据质量管理制度提供指导方案; 降低数据质量的维护成本,提高数据可信度; 用作主数据管理(CID,PIM),数据仓库,数据中心,数据管理等系统在建设中的参考;3.项目背景 目前企业存在多地区,多产品,多业务,多系统的环境,在数据信息,报表统计,业务分析和业务元定义上存在数据不一致,不完整,不统一以及不真实和不及时的情况,这样让业务人员,管理者,信息使用者存在误解,导致决策出现偏差,同时低下的数据质量往往造成开发出来的系统与用户的预期大相径庭,而在维护阶段,也出现维护成本不断上升,工作量加大,系统难以扩展。这样的情况急切等待数据质量管理的标准和指导方案.4. 项目概要 深层剖析源数据,分析各个源系统的数据存储的结构,包括表数据,视图数据,Excel数据等以及计算公式,比较方式,查看数据方式等等,记录其相关性,定义业务元在各系统中的语义和与数据的关联,建立数据的一致性、完整性、唯一性和准确性的定义标准和业务关联规则,数据校验引擎利用其规则对数据进行校验,将校验结果按照准确到严重错误分成若干等级,针对不同的校验等级,对数据进行处理,需要人工处理的,必须提供相关的UI接口就行数据修正,或者发出预警,通知源系统需要更新的数据。同时将对数据校验结果进行分析,并输出相应的报表结果,管理者可根据报表分析,对源数据质量进行管理。 管理者对数据的管理反馈到源数据的数据质量上,影响下一次数据的校验,继续分析校验结果,依次循环,达到提高数据质量的效果,让数据的质量管理形成良性循环,逐步提高。5.项目范围 本项目是针对企业在建设数据仓库,数据挖掘和数据中心中存在的数据质量问题提出的解决方案和指导评估标准,所以数据质量管理模型项目是 数据质量管理规范和数据质量问题的解决方案,不是软件和产品,更不是数据模型和ETL模型; 只针对重构数据和目标数据进行修改,而不对源数据进行修改; 提供源数据的检测分析以及质量报告,不对业务模型进行分析; 可以用作主数据管理,数据仓库和数据挖掘系统作为参考,但不包含此类系统的构架模型;6. 总体构架项目涉及到数据质量的分析和验证,因此有数据的分析流程和数据的管理流程,如下图 数据质量分析流程图 数据质量管理流程图针对上图,首先是分析源数据系统,从业务和数据本身的角度剖析,包括对数据源中存储的逻辑定义,表结构,视图结构,约束,触发器,唯一性等等,得出相关的定义。由定义以及定义的关联产生相应的业务规则和数据逻辑规则。 数据的验证引擎利用这些产出的规则,对源数据和目标数据进行校验,并对应校验规则保存校验结果;修正引擎用业务和数据逻辑的修正规则对校验结果进行自动修正和提供手动修正接口,同时保留修改前后的记录; 在数据质量管理模型中,需要对数据检验结果和修正结果进行分析,利用校验结果发现数据源和数据流程中存在的问题,同时可以参考修正记录,对数据的质量提出适当的改进策略,并采取适当的行为。我们有以下主要任务: 源系统剖析源数据剖析的深度和业务层次,来定义数据语义的一致性,将企业相关数据元就行分析,看看各系统间数据的不同部门对数据的定义,这是确定数据含义是否一致。 元定义原系统的数据剖析是对分析各个原系统的数据存储的结构,包括表数据,视图数据,Excel数据等以及计算公式,比较方式,查看数据方式,都数据剖析的范围,这需要一个比较可行的方式,对于数据库中的内容,需要有相应的导出完整数据字典的结构过程,能在Excel中修改,也能导入到制定的表中进行保存,同时还能定期检查表结构是否发生变化。 数据验证这里的验证有几种,数据结构验证,还有数据一致性,完整性,唯一性和准确性的验证,每一种验证就需要建立固定的可变化的验证规则,而且验证规则,验证体,验证结构都需要记录日志和验证结果,同时还需要提供接口给UI,最好能做到让业务人员自己更新验证规则,自己查看验证过程和结果,为数据修补引擎提供接口 数据修正针对不同类型的数据验证规则验证的数据进行更新,有指定规则自动更新的,有人工干预修改的,主要是能有UI接口,提供修改功能和修改策略,以及记录修改日志和标记。便于和正常数据区分 元数据管理数据质量的元数据管理是贯穿整个解决方案体系,从数据剖析到最后的质量检测和管理部分,记录管理元数据,操作元数据,业务规则元数据,验证规则和修正规则等元数据,它是数据质量管理模型的灵魂。 检验分析这里的分析报表,如可以利用6Sigma的原理,对数据质量情况进行分析,可以预先制定标准和参考依据,对数据质量进行等级划分。方便企业制定数据质量管理制度。也可以按照数据的检验结果,按照不同的数据源划分,检测数据误差来源点,逐步解决数据质量问题 数据质量管理标准和等级定义这部分是数据质量管理的汇总部分,借鉴系统剖析,元定义,数据验证和修正,以及元数据和检验分析等部分的汇总和指标而建立的,意在提出较完整的数据质量管理标注,并由此划分等级7.任务分解结合本项目的总体结构,可以分为: 数据分析和定义1. 源数据系统剖析范围和标准2. 数据语义的一致性的定义标准3. 数据元的完整性的定义标准4. 数据体的唯一性的定义标准5. 数据描述的准确性的定义标准6. 业务的关联性的定义标准7. 数据粒度的定义标准8. 数据生命周期的定义标准 数据质量问题发现1. 业务规则定义标准和方案2. 数据业务逻辑定义3. 数据量定义4. 数据验证引擎实现方案 数据质量问题修正1. 数据自动修改条件和标准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目工程技术验证与优化方案
- 灌溉水源保障与供给方案
- 园林景观交通系统规划方案
- 生物药企知识培训课件
- 钢结构防腐施工方案
- 生物荧光知识培训内容课件
- 航海王绘画考试题及答案
- 焊工证考试题库及答案
- 韩语助手考试题库及答案
- 湖北省十堰市教联体2025-2026学年八年级上学期10月月考地理试题
- 高支模监测培训
- GB/T 45355-2025无压埋地排污、排水用聚乙烯(PE)管道系统
- 2025年全国硕士研究生入学统一考试 (数学二) 真题及解析
- 计算机保密安全教育
- 三字经全文带拼音(打印版)
- 农村自建房质量安全讲解
- 纪委委员工作职责
- 艾滋病梅毒乙肝课件
- 2025年化工分析工(高级)考试题库(含答案)
- 汽车4S店客户投诉培训
- 非遗文化傩戏面具2
评论
0/150
提交评论