DataWorks数据质量模块介绍及最佳实践_第1页
DataWorks数据质量模块介绍及最佳实践_第2页
DataWorks数据质量模块介绍及最佳实践_第3页
DataWorks数据质量模块介绍及最佳实践_第4页
DataWorks数据质量模块介绍及最佳实践_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DataWorks数据质量模块介绍及最佳实践技术创新,变革未来01 Why 数据质量Why 数据质量在淘宝网早期1970年入网的淘宝用户:马总6岁操作ARPANET网?彩票订单为负值:淘宝从用户手中买彩票?一条物流单不同字段分别记录了北京和上海:中国直辖市合并?一个人旺旺登录日时长超过24小时:地球停转之日?交易基础表的金额字段从“元”改成“分”,数值扩大一百倍,导致下游阿里金融 的信贷授信模型给商家的授信金额同步扩大,风险资金敞口几个亿,风险贷款上百 万;马总曾经收到6个不同的GMV口径Why 数据质量数据质量问题阻碍数仓落地Why 数据质量阿里的解决之道数据质量,依托DataWorks平台

2、,提供全链路的数据质量方案,包括:数据探查、 数据对比,数据质量监控、SQLScan、智能 报警等能力;数据质量监控,全程监控数据加工流水 线,根据质量规则及时发现问题,通过强弱 报警通知开发同学及时处理问题。数据探查、数据对比、SQLScan 主要针 对开发阶段,帮助开发人员快速了解数据特 点和关系,匹配校验规则,上线前阻止质量 问题的发生。即将上线,敬请期待。数据校验工具质量监控系统ODLEDWCDMADM数据加工流水线监控效果分析12告警系统34业务系统 源数据监控规则告警信息优化监 控规则监控开 发规范5解决 问题Why 数据质量数据质量监控流程Why 数据质量数据质量监控流程-内置模

3、板规则模板规则 1 1730173073010523332/11/11/12111022562171137Why 数据质量数据质量监控流程-内置模板规则Why 数据质量数据质量监控流程-自定义规则自定义规则计数173017307307天方差 波动率30天方差 波动率表级count10count/tablecount10字段级10101010自定义SQL10计数777777777770表级、字段级定义规则持根据业务属性定义where过滤条件定义SQL持完全定义SQL逻辑(单单列输出)Why 数据质量报警与阻塞强质量规则的红报警阻塞下游任务节点,防质量问题扩散/计算资源浪费报警通过短信/邮件/We

4、bhook三种式发送,Webhook遵循钉钉群机器协议Why 数据质量流式数据质量同样需要关注淹没在海量数据中,排查困难直接影响在线业务最终影响离线数据质量断流监测延迟监测定义Flink SQL维度表关联多流关联窗函数Why 数据质量流式数据质量同样需要关注Why 数据质量小结离线数据37种模板规则,覆盖表级、字段级共15种采样式,10种校验式定义规则,持SQL式由定义强规则阻塞下游任务,弱规则提醒介实时数据数据断流、数据延迟两种监控模板定义Flink SQL,持维表join、多流join以及窗函数等流计算特性质量告警持短信、邮件告警到个持Webhook式与第三系统对接,可直接发送到钉钉群02

5、 数据质量功能详解功能详解离线规则功能详解关于分区表达式作:定位最新数据,避免全表扫描分区表: 分区表:$yyyymmdd调度日期$yyyymmdd-1业务日期$yyyymmdd-N前N天$yyyymm01-1每月1日$yyyymm01-NmN月前1日$yyyymmld-1每月最后一天$yyyymmld-NmN月前最后一天$yyyymmddhh24miss调度时间$hh24miss-1/24一个小时前$hh24miss-30/24/60半个小时前多级分区表:必须配置到最后级分区功能详解离线规则功能详解离线规则功能详解离线规则功能详解关于规则类型和比较方式强弱规则:脏数据不能流入下游则强,其他则

6、弱,弱规则不会阻塞任务。趋势:上升、下降、绝对值、不变,按业务需要设置橙色阈值:强弱规则的橙色报警均不会阻塞下游,必须小于红色阀值,精确到百分比小数点后 两位红色阈值:强规则的红色报警会触发阻塞,必须大于橙色阀值,精确到百分比小数点后两位功能详解离线规则功能详解离线规则功能详解离线规则功能详解离线规则功能详解实时流式数据03 高级功能发布适用版本:企业版动态阈值无需手动设置,自动根据时序列算法模型检测指标的正确性预测上界预测下界异常值简化规则配置异常自动发现 模型长期迭代质量报告模板自定义支持数据质量报告模板的动态配置,按照报告模板定时生成并发送报告规则模板库支持将通用的自定义规则沉淀为模板,提升规则配置的效率。FAQ问:数据质量模块是否收费?答:对公共云用户,按照质量规则实例运行数量计费,详见 /document_detail/118793.html。*新发布的高级功能,欢迎大家升级至DataWorks企业版进行使用。问:自定义规则使用怎样的SQL语法?答:离线自定义规则使用MaxCompute SQL,实时自定义规则使用Flin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论