




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Page 1数据质量管理平台技术架构数据质量检查规则执行模块作为多个ETL任务部署在金融数据平台ETL服务器上,由Automation工作流调度服务统一调度运行,实现各个数据区技术和业务数据质量检查数据质量管理系统元模型包含检查规则、检查执行结果、分析报告,模型作为一个独立的Schema部署在决策分析报表平台的数据库数据质量检查规则配置模块作为Java Web应用部署在金融数据平台Tomcat集群上,数据质量管理员通过统一的Web服务访问,实现检查规则的维护数据质量分析报告展现模块作为Java Web应用部署在金融数据平台Tomcat集群上,用户通过统一的Web服务访问,实现日报、月报的浏览、
2、下载等功能数据质量分析报告生成模块作为一个ETL任务部署在决策分析报表平台ETL服务器上,由Automation工作流调度服务统一调度运行,按照每日、每月生成各数据区数据质量检查报告l数据质量管理平台以元信息模型为核心,由规则配置管理模块、检查执行模块、分析报告生成模块和分析报告展现模块四部分构成。l整个数据质量检查过程以ETL任务的形式统一调度执行。Page 2数据质量检查执行服务l数据质量管理的规则执行服务作为ETL任务部署在ETL服务器上l在整个数据处理过程中,设置4类检查点l在不同的检查点由Task Automation工作流统一调度执行l检查结果统一存入数据质量管理资料库1234Pa
3、ge 3检查规则执行服务检查点1云数据推送平台接口文件级规范性检查任务说明任务类型ETL 任务 技术型检查ETL阶段云数据推送平台-金融数据交换平台NAS存储指定目录执行频率每日执行执行方式由Task Automation工作流引擎根据工作流定义统一调度,在ETL 服务器上执行检查对象云数据推送平台按照接口规范导出的业务系统每日增量数据文件和控制文件检查内容接口文件是否存在,接口文件名称是否正确,接口文件是否通过MD5校验实现技术Linux脚本语言,Perl或Python成功阈值所有规则通过检查依赖任务N/A触发任务数据加载Page 4检查规则执行服务检查点2临时区数据技术性检查任务说明任务类
4、型ETL 任务 技术型检查ETL阶段临时数据区-贴源整合数据区执行频率每日执行执行方式由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行检查对象云数据推送平台按照接口规范导出的业务系统每日增量数据检查内容日期、时间格式检查;主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查实现技术Hive SQL成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务接口文件级规范性检查任务触发任务贴源数据整合任务Page 5检查规则执行服务检查点3汇总区业务性检查任务内容说明任务类型ETL 任务 业务型检查ETL阶段贴源整合数据区-汇总数据
5、区执行频率每日/月/季执行执行方式由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行检查对象汇总数据区的数据检查内容业务逻辑检查:通过对若干个汇总值/指标值的运算,来检验各个汇总值/指标间潜在的平衡或其他比较关系实现技术Hive SQL成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务贴源整合数据区数据处理完成触发任务集市数据区应用数据生成Page 6检查规则执行服务检查点4.1应用集市区技术性检查任务内容说明任务类型ETL 任务 业务型检查ETL阶段汇总数据区-应用集市数据区执行频率每日/月/季执行执行方式由Task Auto
6、mation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行检查对象应用集市数据区的数据检查内容主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查实现技术SQL成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务汇总数据区数据处理完成触发任务N/APage 7检查规则执行服务检查点4.2应用集市区业务性检查任务内容说明任务类型ETL 任务 业务型检查ETL阶段汇总数据区-应用集市数据区执行频率每日/月/季执行执行方式由Task Automation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行检查对象应用集市数据区的数据检查内容业务逻辑
7、检查:通过对若干个指标值的运算,来检验各个指标间潜在的平衡或其他比较关系数值检查:主要是通过对单个指标值的监控来发现数据的异常、突变等情况波动检查:通过对单个指标值一段时间内的数值变化情况来检查数据的波动、变化情况一致性检查:通过对两个指标按某几个维度展开后的增减幅度来发现数据的波动、变化情况实现技术SQL成功阈值90%记录通过检查异常处理未通过检查的记录存入指定错误明细表依赖任务汇总数据区数据处理完成触发任务N/APage 8数据质量管理分析报告生成服务l分析报告生成服务是部署在ETL服务器上的ETL任务,按照任务流程被Task Automation统一调度执行,生成以下三类报告:v源系统数
8、据交换质量日报该报告汇总了报告生成当天源系统的数据接口校验结果,包括针对每个接口单元的表及记录级校验错误的统计数据和指标日平均值v数据质量汇总日报该报告依照每日各源系统数据交换评价指标的平均值及当天的贴源数据、汇总数据和数据集市质量检查结果汇总生成v数据质量汇总月报该报告依照当月的日报结果,取各项指标的平均值和数据统计的汇总值生成Page 9数据质量管理分析报告指标定义指标分类指标名称指标说明对应报告接口单元级评价指标接口传输及时率指在最后截止时间前完成上传的接口单元数量与时限内要求上传的接口单元数的比率。源系统数据交换质量日报(XX系统)接口传输完整率指在数据质量日报告生成之前,成功上传的接
9、口单元数量与要求上传的接口单元数量的比率。源系统数据交换质量日报(XX系统)接口准确率指与接口校验内容描述一致的接口单元数量与要求上传的接口单元数量的比率。源系统数据交换质量日报(XX系统)记录级评价指标记录正确率正确的记录数与全部记录数的比值。每条记录只要违反任一条检查规则(例如:主键唯一、业务规则等),就被计入错误日志。每个接口单元的最大允许出错阈值由数据质量检查规则确定。计算公式如下:当Ec=Emax时:记录正确率=0说明: Ec出错记录数Et记录总数Emax最大允许出错阈值源系统数据交换质量日报(XX系统)数据质量汇总日报数据质量汇总月报Page 10分析报告生成服务:源系统数据交换质
10、量日报明细报告生成任务内容说明任务类型ETL 任务 明细日报生成ETL阶段分析报告生成阶段执行频率每日执行方式由Task Automation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执行评价对象数据质量检查点1、2对应的检查任务执行结果评价指标接口传输及时率、接口传输完整率、接口准确率实现技术MySQL SQL命令依赖任务ETL处理完成触发任务数据质量汇总日报生成任务Page 11分析报告生成服务:数据质量汇总日报数据质量汇总日报生成任务内容说明任务类型ETL 任务 汇总日报生成ETL阶段分析报告生成阶段执行频率每日执行方式由Task Automation工作流引擎根据工作流
11、定义统一调度,在数据质量管理元数据库上执行评价对象数据质量检查点2、3、4对应的检查任务执行结果评价指标记录正确率实现技术MySQL SQL命令依赖任务源系统数据交换质量日报生成触发任务数据质量汇总月报生成任务Page 12分析报告生成服务:数据质量汇总月报任务内容说明任务类型ETL 任务 汇总月报生成ETL阶段分析报告生成阶段执行频率每月月初执行方式由Task Automation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执行评价对象当月所有数据质量检查点对应的检查任务执行结果评价指标记录正确率实现技术MySQL SQL命令依赖任务数据质量汇总日报生成任务触发任务N/APag
12、e 13数据质量管理元信息库采用MySQL数据库,存储数据质量检查规则、数据质量检查结果、数据质量检查报告源系统数据交换质量日报源系统数据交换质量日报标识源系统数据交换质量日报日期源系统名称接口名称传输及时标志传输完整标志数据日期准确标志名称规范标志记录数准确标志数据格式出错的记录数违反数据值域的记录数违反主键唯一性的记录数违反参照完整性的记录数出错记录数记录准确率IntegerVariable characters (32)Variable characters (32)Variable characters (32)Short integerShort integerShort integ
13、erShort integerShort integerIntegerIntegerIntegerIntegerIntegerDecimal (18,2)Identifier_1.源系统数据交换质量汇总日报源系统数据交换质量汇总日报标识源系统数据交换质量汇总日报日期源系统名称规定时限内实际上传接口单元数成功上传接口单元数量数据日期不准确的接口单元数量接口名称不准确的接口单元数量接口记录数不准确的接口单元数量达到最大报错阙值的接口单元数IntegerDateVariable characters (32)IntegerIntegerIntegerIntegerIntegerIntegerODS数
14、据质量日报ODS数据质量日报标识ODS数据质量日报日期表名称违反主键唯一性的记录数违反参照完整性的记录数违反业务规则的记录数出错记录数记录准确率IntegerDateVariable characters (32)IntegerIntegerIntegerIntegerDecimal (18,2)DW数据质量日报整合区数据质量日报标识整合区数据质量日报日期表名称违反主键唯一性的记录数违反参照完整性的记录数违反业务规则的记录数出错记录数记录准确率IntegerDateVariable characters (32)IntegerIntegerIntegerIntegerDecimal (18,2
15、)数据集市质量汇总日报集市数据质量日报标识集市数据质量日报日期集市名称表名称违反业务规则的记录数记录准确率IntegerDateVariable characters (32)Variable characters (32)IntegerDecimal (18,2)源系统数据交换质量汇总月报源系统数据交换质量汇总月报标识源系统数据交换质量汇总月报月份源系统名称接口及时率月平均值接口准确率月平均值接口完整率月平均值记录正确率月平均值IntegerCharacters (6)Variable characters (32)Decimal (18,2)Decimal (18,2)Decimal (1
16、8,2)Decimal (18,2)Identifier_1.ODS数据质量月报ODS数据质量月报标识ODS数据质量月报月份表名称违反主键唯一性的记录数违反参照完整性的记录数违反业务规则的记录数出错记录数记录准确率IntegerCharacters (6)Variable characters (32)IntegerIntegerIntegerIntegerDecimal (18,2)Identifier_1.DW数据质量月报整合区数据质量月报标识整合区数据质量月报月份表名称违反主键唯一性的记录数违反参照完整性的记录数违反业务规则的记录数出错记录数记录准确率IntegerVariable ch
17、aracters (6)Variable characters (32)IntegerIntegerIntegerIntegerDecimal (18,2)Identifier_1.数据集市质量汇总日月报集市数据质量月报标识集市数据质量月报月份集市名称表名称违反业务规则的记录数记录准确率IntegerCharacters (6)Variable characters (32)Variable characters (32)IntegerDecimal (18,2)Identifier_1.Inheritance_1Relationship_2(D) Relationship_3(D) Rela
18、tionship_4(D) 检查规则检查规则唯一号检查规则简单描述检查规则类型检查对象标识检查规则生效标志检查规则是否保存结果标志检查频度ETL任务Characters (8)Variable characters (2048)Characters (2)IntegerCharacters (1)Characters (1)Characters (2)Variable characters (32)Identifier_1.接口级检查规则检查接口规定上传时间TimeIdentifier_1接口记录级检查检查字段名称检查字段类型检查字段长度检查字段格式检查字段在接口中的位置Variable ch
19、aracters (32)Variable characters (32)IntegerVariable characters (128)Integer数据库记录级检查检查规则对应SQLVariable characters (4000)检查结果检查规则执行ID检查规则唯一号执行日期开始执行时间结束执行时间结果编码结果描述结果值IntegerCharacters (8)DateTimestampTimestampCharacters (4)Variable characters (4096)IntegerIdentifier_1.检查结果明细检查规则执行ID记录序号记录内容1记录内容1IntegerIntegerVariable characters (4000)Variable characters (4000)Identifier_1.检查对象对象标识数据区数据对象阈值IntegerVariable
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国联通衡阳市2025秋招笔试行测题库及答案供应链采购类
- 2025年影像工程考试题及答案
- 国家能源东莞市2025秋招心理测评常考题型与答题技巧
- 中国广电马鞍山市2025秋招技术岗专业追问清单及参考回答
- 海南地区中储粮2025秋招购销统计岗高频笔试题库含答案
- 白城市中石油2025秋招笔试模拟题含答案市场营销与国际贸易岗
- 长治市中石油2025秋招笔试综合知识专练题库及答案
- 遂宁市中石油2025秋招笔试综合知识专练题库及答案
- 中国移动玉林市2025秋招笔试性格测评专练及答案
- 2025年金城招聘考试题及答案
- 葫芦种植技术
- 热敏电阻器配方设计与制备工艺详解
- 监理工程师题库检测试题打印含答案详解【完整版】
- 2《归园田居》任务式公开课一等奖创新教案(表格式)统编版高中语文必修上册
- 银行文明礼仪课件
- 虚拟电厂运行关键课件
- 敏捷企业组织结构与设计的案例研究
- 光伏储能技术介绍
- 项目合同交付管理办法
- 国企贸易业务管理办法
- 3done入门基础知识课件
评论
0/150
提交评论