




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据质量管理(DQC)数据质量概述PART
01评价方法PART
02数据质量管理PART
03数据质量愿景PART
04CONTENTS数据质量概述PART
01基本概念
数据质量管理(DataQualityManagement),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高
数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益影响因素
数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。
数据质量评价方法PART
02评估维度完整性一致性准确性真实性唯一性关联性及时性1.完整性唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。2.一致性多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。数据内容冲突的问题。3.准确性准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成糟糕的决策。4.唯一性用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。5.关联性数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。6.真实性数据必须真实准确的反映客观的实体存在或真实的业务7.及时性数据的及时性(In-time)是指能否在需要的时候获到数据数据质量管理PART
03数据质量管理事前事中事后事前定义监控规则事后分析数据质量事中稽核数据质量事前定义监控规则事前定义监控规则梳理指标确定对象(多表、单表、字段)制定规则通过资产等级、制定数据质量稽核规则事中稽核数据质量数据完整性事中的数据完整性,一般指的是条目完整,最常用的就是使用ods层的数据和业务库数据做数据量的比对事中稽核数据质量数据唯一性事中的数据唯一性,一般指的对数据模型表进行主键唯一性校验,即count(1),count(distinctid)不相等的话,则需要告警事中稽核数据质量数据非空性事中的数据非空性,主要指2点1.字段的空值率,看看是不是由于开发过程中的bug造成,如果不是的话需要看一下是否有其他方式回补2.对于字段值为空的时候,应该使用缺省值填充事中稽核数据质量数据有效性事中的数据有效性,主要是存储的数据实例或格式是否和数据值域一致,一般是枚举值,值域范围或者格式,如果不一致,则需要告警并且及时处理事中稽核数据质量数据准确性事中的数据准确性,一般指2点1.数据指标的波动稽核,需要设置阈值2.相关的几个字段或者几张表之间,是不是存在逻辑冲突的情况事中稽核数据质量数据及时性事中的数据及时性,一般指的是a任务一般运行30分钟,并且2点左右就能跑完,但是通过稽核程序发现,3点该任务还没开始跑,或者已经跑了1个小时还没结束,可能会造成下游任务延迟,需要及时电话告警,让值班人员看一下是哪里卡住了,集群或者调度事中告警机制电话告警对于非常重要的异常稽核任务需要电话告警并且终止任务,比如完整性,唯一性,准确性,及时性邮件告警不需要晚上及时处理的稽核任务,只需要邮件和短信告警,如枚举值校验,数据非空性校验短信告警不需要晚上及时处理的稽核任务,只需要邮件和短信告警,如枚举值校验,数据非空性校验010203事后分析数据质量综合分析(概览)表打分模型同环比分析排名分析数据质量模型按照之前定好的稽核规则,用spark程序把全集团的数据跑一遍,结果数据存储在mysql,然后使用datax将结果数据抽取回数仓并进行数据模型建设事后分析数据质量最终的模型数据需要以报表形式在数据分析平台展示,如果可以的话,还能展示数据质量模型明细数据数据分析平台支持excel,pdf,png等格式的导出124质量报告异常任务以各种形式及时通知到责任人,并在规定时间内整改完成告警及整改如果发现数据质量问题不是数据开发造成的,可以反推业务方进行整改反推3可订阅自己比较关心的主题,表或者规则,邮件只会发送订阅内容,明细数据可在数据平台查
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 虚损病护理诊断
- 2025年DH(DHP)离心压缩机项目合作计划书
- 物业电梯设备管理
- 国际石油钻井平台长期运维管理合同书
- 外卖店铺大数据分析与运营托管合同
- 电池产品生产安全事故理赔补充协议
- 高效网络直播设备维护保养与性能优化合同
- 工业废水处理药剂及配套设施融资租赁与技术支持合同
- 氢能技术转化氢燃料电池项目投资合同
- 跨国物流保险理赔纠纷解决协议
- 急诊突发事件处理流程图解
- 定价原理与价格策略的数字化应用
- 医院保安服务规范
- 2024(商务星球版)地理八年级上册总复习 课件
- 离散数学第6章
- 危险化学品企业安全培训空间建设应用指南
- 《沁园春·雪》PPT课件下载【优秀课件PPT】
- 国开电大本科《外国文学专题》在线形考(形考任务一至四)试题及答案
- 儿童语言发育迟缓
- 04.第四讲 坚持以人民为中心
- 机械伤害安全培训-2
评论
0/150
提交评论