




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分享标题分享人姓名+title元数据与数据血缘落地实施目录数据中台简介数据中台不是工具,而是企业数据集成、管理、应用的体系基本概念元数据与数据血缘的基本概念介绍整体框架以框架图展现元数据与数据血缘落地实施的整体内容落地实施从流程和技术角度讲解元数据与数据血缘的落地实施驱动业务元数据与数据血缘的业务价值体现数据中台简介数据中台不是技术,而是企业数据集成、管理、应用的体系数据中台简介数据中台并不是一种技术,更多的是数据集成、管理、应用的体系。本质目的在于通过一系列的整合与管理,提供可以复用的数据能力,提升企业数据资产化能力,从而更好的为业务提供数据支撑,实现数据驱动的目标。数据仓库/数据湖主数据管理数据生命周期管理数据中台数据模型管理数据血缘数据质量数据集成数据安全管理数据标准管理元数据管理统一数据服务基本概念元数据与数据血缘的基本概念介绍基本概念我要到那里去我从哪里来我是谁基本概念-元数据技术元数据:数据本身的特定属性;例如schema、索引、分区、存储等信息,可通过技术手段自动化获取。业务元数据:业务赋予的描述属性;例如数据的业务描述、负责人、统计口径、访问权限等,通常由业务人员手动添加。0102描述数据的数据,本质上还是数据。基本概念-数据血缘流转规则节点属性流转路径:实体节点
数据流转中的每个实体,用于承载数据功能业务元数据信息包括表名,字段名,注释,说明等节点间的流动方向记录流转路径过程中的操作内容在数据的加工流转过程产生的数据关系.血缘提供了探查数据关系的手段,用于跟踪数据流转路径。整体框架以框架图展现元数据与数据血缘落地实现的整体内容整体框架落地实施从流程和技术角度讲解元数据与数据血缘的落地实施整体流程落地实施流程01挖掘痛点,推动实施07制定标准,不断提升与完善02明确需求,确定功能与采集边界06业务驱动,价值实现03技术选型,确保可行05管理系统开发,便于使用04元数据采集与血缘解析数据库:Mysql/Hive等,获取数据的库表、字段、schema、索引、总数等元数据信息。数据存储:HDFS/OSS等,获取数据的存储路径、文件数等元数据信息。计算引擎:Flink/Spark等,可以提供数据开发作业的任务信息。同时可以获取FlinkSQL、SparkSQL,解析对应表级血缘依赖。消息中间件:Kafka/RocketMQ等,可以提供当前数据的消息队列、主题、订阅者等元数据信息,对于数据血缘,消息中间件可以记录数据的传递路径节点。可视化报表:SuperSet/DataSet等,可以提供报表、仪表盘、图表等元数据信息,对于数据血缘,可以记录报表的数据来源和关联关系。调度系统:DolphinScheduler/Airflow等,提供调度时间、调度评率、触发条件等元数据信息,通过可以获取调度系统的SQL脚本用于血缘解析。其他:excel文件/业务平台等,进行业务元数据的登记录入。元数据采集主要采集对象数据库、数据存储、调度系统、消息中间件等采集手段JDBC、HTTP、集成开发、登记录入等采集频率实时采集、定时采集、手动更新采集粒度库表级、任务级、字段级(费时费力不讨好,不推荐做这么细/手动狗头/)采集要求完整性、准确性、可扩展性元数据采集词法解析:解析器会对输入的SQL语句从左到右读取并加载到解析程序,根据构词规则识别字符并切割成一个个的词条,将其拆分成一个个的词法单元(Token),如关键字、标识符、运算符、常量等,例如selectnamefromtab拆分词条如下:1语法解析:在词法解析的结果上,语法分析器使用语法规则和上下文无关文法(Context-FreeGrammar)来验证结构是否符合语法规则,如果存在语法错误,解析器就会抛出相应的异常。如果适配成功则生成抽象语法树。SQL抽象语法树提供了一个抽象的、解和处理的SQL表示形式,通过遍历和操作语法树,数据库系统可以分析SQL语句的结构、查询的意图和操作关系,可以获取当前SQL的血缘关系。2语义解析:对语法解析得到的抽象语法树进行验证,确保字段、字段类型、函数、表等对象有效,检查列是否存在、数据类型的匹配性等,确保SQL语句中的表、列、函数等对象是有效和存在的。3血缘解析-SQL解析通过开源的SQL解析器进行SQL解析,构建SQL抽象语法树。通过visitor遍历语法树中各table与column节点。将table节点为insert、upsert、create等作为目标节点,遍历获取子节点的字段。将table节点为select作为来源节点,遍历获取子节点下的字段。以目标节点为主,将来源节点绑定到目标节点中。32145血缘解析-SQL解析ApacheCalcite-AlibabaDruid-JSQLParser:开源SQL解析器、可以直接将SQL解析为语法树对象,开发简易,上手快速,推荐此种方式。01Antlr:语法分析器、扩展性强、支持字段解析、开发门槛较高、不推荐。02SqlFlow:国外处理SQL关系的网站,支持字段级别血缘解析、同时支持开源离线部署,以RestAPI方式提供SQL血缘解析服务。03Spline:SparkRDD血缘解析组件。04血缘解析-SQL解析组件推荐数据节点获取完成后,我们可以通过程序解析的方式获取各个数据流转与使用节点,例如:HiveHook、调度任务、Flink/Spark任务、数据报表、业务系统。通过程序解析的方式,构建各节点例如任务节点、报表节点、业务节点等,并与对应数据节点进行绑定,形成数据全流程血缘。举个例子:通过获取报表系统的权限,解析出每个报表绑定的部门、部门下面绑定的人员,然后在血缘中构建报表节点-(绑定)->部门节点-(绑定)->人员节点,同时报表来源为数仓,数仓数据是由Flink任务消费Kafka中的Topic进行获取的,Topic数据是由业务表的binlog得来的,那么数据全流程血缘即为:业务表->KafkaTopic->Flinkapplication->数仓->报表->部门->人员血缘解析-程序血缘解析数据总线-元数据建模3.梳理依赖关系,确定业务主体:表-partition-流程节点-datax任务4.构建主体对象,确定采集内容:具体需要采集哪些字段2.梳理组件架构,明确采集粒度:库-表-字段-视图,topic-partition-副本5.汇总采集数据,填充主体信息:将采集的元数据,根据元模型进行填充1.沟通业务需求,明确采集边界:数据库-调度-中间件-报表-数据集成等明确边界,梳理依赖关系,统一数据格式与存储方式数据总线-元数据建模数据总线-血缘数据建模6.数据集成与汇总,填充节点属性信息信息、依赖关系4.梳理节点依赖关系:节点层级依赖,血缘关系依赖2.确定解析粒度:库-表-字段,组织-部门-人员,大屏-报表-指标5.构建模型代码:通过cypher语句,构建ORM数据持久层代码3.梳理节点属性:当前节点的属性信息1.明确血缘节点类型:数据库表-报表-部门-人员目的:明确血缘节点类型,确定解析粒度,梳理节点依赖关系目的:构建以元数据为基础,血缘为抓手的应用方式,元数据记录需要与血缘节点绑定流程:构建全局唯一主键字段,建议采用snowFlake算法或现有全局ID确定元数据-血缘间绑定关系,通过主键字段进行绑定业务开展过程中,用户可通过数据门户中的血缘关联,跳转至相关血缘节点,也可在数据地图中,通过血缘节点直观探查元数据信息。数据总线-元数据与血缘数据绑定在传统的关系数据库模型中,数据分布在多个表中,通过外键与关系表连接。查询数据关系时通常意味着连接多个表与索引。图形数据应用图理论储存实体之间的关系信息,通过使用节点、边和属性来解释和管理数据。能够更加高效地应对处理复杂数据关系。问:请问曹操集团总共参与了哪些战役,并说出其各场战役中的攻守关系?数据存储-图数据库数据存储-图数据库数据模型:节点:通常表示实体,比如用户、部门、商品等等,类似于RDBMS中的一行记录边:又被称为关系,由名称和方向组成,是图数据库中最重要的一个特征,在RDBMS中没有对应实现属性:节点和边都可以有属性,类似RDBMS中的一个字段图数据模型直接存储了数据节点之间的依赖关系,以边来表示节点之间的关系,通过免索引邻接进行数据的组织,通过图查询语言进行数据检索。因为图数据模型是面向关系的,进行依赖关系查询时的操作与数据模型本身呈现高度一致性,性能极为高效。数据存储-图数据库目前业内通常采用图数据库进行血缘关系的存储。对于血缘关系这种层级较深,嵌套次数较多的应用场景,关系型数据库必须进行表连接的操作,表连接次数随着查询的深度增大而增多,会极大影响查询的响应速度。而在图数据库中,应用程序不必使用外键约束实现表间的相互引用,而是利用关系作为连接跳板进行查询,在查询关系时性能极佳,而且利用图的方式来表达血缘关系更为直接。数据存储-图数据库数据服务-数据血缘分析数据血缘分析查询当前节点的所有上游节点,用于业务追踪溯源2数据节点下游节点数量排序,用于评估数据价值及其影响范围1数据节点输出报表信息详情统计,用于报表的上架与更新4查询孤岛节点,即无上下游节点的节点,用于数据删除的依据5查询当前节点的所有下游节点,用于故障影响分析3通过核对上下游节点的安全等级与权限,进行安全审计工作6驱动业务元数据与数据血缘的业务价值体现数据门户01数据资产管理02数据资产检索03数据地图04血缘分析05开发并维护一个数据门户网站,提供数据资产、数据地图、血缘关系、元数据可视化等服务。通过元数据信息建立数据资产清单并进行管理,包括数据集、数据表、字段、指标等信息。支持按关键字或标签搜索元数据信息,还可提供高级检索功能,如按数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文库发布:爱牙日课件
- 爱情与友情教学课件
- 试验检测工程师知识培训课件
- 分期付款协议样本
- 食品安全行业技术规范与发展动态
- 2025年钳工技师习题库+答案
- 2024年9月公共卫生考试题(附答案)
- 红娘知识培训课件
- 爆炸物品课件
- 达标测试人教版八年级上册物理声现象《声音的特性声的利用》专题测评试题(详解版)
- 医院全院区配电房维保服务方案投标文件(技术方案)
- 高尔基《童年》作品解读与影响分析
- 2025年青海省中考英语试卷真题(含答案及解析)
- 2025年京东快递员HR面试题及答案
- 2025年自学考试《艺术概论》考试复习题库(含答案)
- 脊髓损伤免疫机制-洞察及研究
- 新人直播流程标准化指南
- 2025至2030中国桌面云行业发展趋势预判及市场前景预测报告
- 右下肢软组织感染
- 港口物流仓储管理制度
- (2025)公共基础知识真题库及答案
评论
0/150
提交评论