数据治理能力提升转项目培训-数据架构_第1页
数据治理能力提升转项目培训-数据架构_第2页
数据治理能力提升转项目培训-数据架构_第3页
数据治理能力提升转项目培训-数据架构_第4页
数据治理能力提升转项目培训-数据架构_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据治理能力专项培训——数据架构一、DAMA数据架构二、数据仓库逻辑架构三、数据仓库技术架构四、湖仓一体化平台架构

目录1.DAMA数据管理知识体系1定义了与组织战略协调的管理数据资产蓝图,以建立战略性数据需求及满足需求的总体设计2以数据模型的精确形式,进行发现、分析、展示和沟通数据需求的过程3以数据价值最大化为目标,在整个数据生命周期中,从计划到销毁的各种操作活动4确保数据隐私和机密性得到维护,数据不被破坏,数据被适当访问5包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程6用于管理非结构化媒体数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档7包括核心共享数据的持续协调和维护,使关键业务实体的真实信息,以准确、及时和相关联的方式在各系统间得到一致使用8包括计划、实施和控制流程来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值9包括规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和其他至关重要的信息(对理解数据及其创建、维护和访问系统有帮助)10包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性利用大数据技术建立能源集团统一的湖仓一体化平台,实现数据采集、存储、处理、分析和服务的统一管理,提高信息和数据的响应时间,提高生产经营管理工作效率,有利于压缩开支,降低管理成本,推进数字化转型发展。DAMA框架知识领域说明

数据建模和设计数据存储和操作数据安全

数据集合与

互操作

文件和内容管理参考数据和主数据管理数据仓库和商务智能

元数据处理

数据质量数据架构

数据治理123567891042.DAMA数据架构定义与目标定义:识别企业的数据需求(无论数据结构入湖),并设计和维护总蓝图以满足这些需求。使用总蓝图来指导数据集成、控制数据资产,并使数据投资与业务战略保持一致。目标1.识别数据存储和处理需求。2.设计结构和计划以满足企业当前和长期的数据需求。3.战略性地为组织做好准备,快速发展其产品、服务和数据,以利用新兴技术中固有的商机。数据架构常见的业务驱动因素如下:1.利用新兴技术所带来的业务优势,从战略上帮助组织快速改变产品、服务和数据。2.将业务需求转换为数据和应用需求,以确保能够为业务流程处理提供有效数据。3.管理复杂数据和信息,并传递至整个企业。4.确保业务和IT技术保持一致。5.为企业改革、转型和提高适应性提供支撑。数据架构的主要成果包括:

1.数据存储和处理需求。2.设计满足企业当前和长期数据需求的结构和规划等3.DAMA数据架构语境关系图企业架构类型:数据架构的设计与实施同其他架构紧密相连,企业组织中的架构主要包括:组织架构、业务架构、IT技术架构、数据架构等。每个架构都不是孤立存在的。要么对其他架构产生影响、要么受制于其他架构。企业数据架构包含企业数据模型与数据流。3.DAMA企业数据架构3.DAMA企业数据架构-企业数据模型企业数据模型:企业数据模型是一个整体的,企业级的独立实施的概念或逻辑数据模型,为企业提供通用的、一致的数据视图。明显特征:1.企业主题域(必须要在整个企业模型中保持一致)2.各主题域的实体和关系3.归属于同一主题域的详细逻辑概述4.具体到应用或项目的逻辑和物理模型企业数据模型建设方法:自上而下、自下而上或者混合模式;自上而下是从主题域开始,先设计主题,再逐步设计下层模型。而采用自下而上的方法时,主题域结构则是基于现有逻辑数据模型向上提炼抽象而成。通常推荐两种方法相结合,即自下而上地从分析现有模型开始,自上而下地设计主题模型,通过两种方法的结合来共同完成企业数据模型的设计工作3.DAMA企业数据架构-企业数据模型3.DAMA企业数据架构-企业数据模型企业数据模型:组织对企业内数据实体、数据属性和它们之间关系的理解。各层级模型(概念模型、逻辑模型、物理模型)是企业数据模型的组成部分。模型链接定义和管理了模型的横向(关联)和纵向(层级)关系。3.DAMA企业数据架构-数据流数据流是一种记录数据血缘的数据加工过程,用于描述数据如何在业务流程和系统中流动。端到端的数据流包含了数据起源于哪里,在哪里存储和使用,在不同流程和系统内或之间如何转化。数据流映射记录了数据与以下内容的联系:1.业务流程中的应用2.某个环境中的数据存储或数据库3.网段(有助于安全映射)4.业务角色5.出现局部差异的位置一、DAMA数据架构二、数据仓库逻辑架构三、数据仓库技术架构四、湖仓一体化平台架构

目录

数据仓库(英语:DataWarehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用,这也是为什么叫“仓库”,而不叫“工厂”的原因。1.数据仓库概念2.数据仓库特点1.面向主题,数据仓库中的数据是按照一定的主题域进行组织的。2.集成汇总,将所需数据从原来的数据中集成出来后进入数据仓库,操作性数据映射成决策可用的格式。3.数据仓库为决策分析提供决策支持,数据全,具有较高的质量。4.效率够高,按年、季、月、周、日分析数据,最快可在一天之类看到前一日的数据分析。5.能够为较多系统提供数据支撑,数据随时间变化不断更新,实现数据共享支撑全局应用。6.通过对元数据进行管理,实现对数据资产的管理。3.ETL-概念ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。3.ETL-导图4.数据仓库导图5.数据仓库分层架构背景:当企业发展到一定阶段,数据库无法承载大量的数据承载,尤其在数据多而繁杂的情况下,对于使用者,需要数可以更加清晰且有逻辑的适用;对于维护者可以高效有序的进行维护,分层数据设计,即数据仓库分层架构应运而生。简单来解释,就是把大量数据更有逻辑的组合在一起,并且同时方便使用者和创建者进行操作与应用。ODSDWDDWSADSETLETLETLDIMdws_purchasesum_day分层架构原因1.清晰的数据结构:每一个分层的数据都有其作用域,这样在使用数据时能够更加方便地进行定位和理解。2.数据血缘追踪:可以简单这样理解,数据仓库最终给业务方呈现的是一个可以直接使用的业务表,但是该表会依赖很多源表,如果其中一张表出现了问题,需要快速、准确的定位问题,并清楚其危害(影响)范围,分层可以很好的解决这个问题。例如下图:ODSDWDADSDWSods_purchasedetail_dayods_persion_allods_org_allods_post_alldwd_purchasedetail_daydwd_persion_alldwd_org_alldwd_post_allads_person_purchasesum_day分层架构原因3.减少重复开发:通过数据分层,在开发一些通用的中间层时,能够很大程度减少可重复开发。4.复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤。比较简单,也容易理解,而且便于维护数据的准确性。当数据出现问题后,不需要修复所有的数据,只需要从有问题步骤开始修复即可。4.数据仓库逻辑架构5.某网上商城数据仓库案例一、DAMA数据架构二、数据仓库逻辑架构三、数据仓库技术架构四、湖仓一体化平台架构

目录1.最早的数据仓库技术架构最早的数据仓库,是以单机数据库为载体,数据的存储、计算都在同一数据库内,资源较小,只存结构化数据。后来出现多数据库数据仓库,大大提升了计算、存储、以及高可用能力。这一时期,结构化数据库有了较大的发展,有DB2、Oracle、Mysql等等。特点:存储数据量较小、计算能力较弱。单节点的数据仓库ETL2.Hadoop的出现2003年谷歌发表了三篇论文:GFS—GoogleFileSystem描述数据存储的思想,解决了海量数据如何存储的问题。MapReduce—描述分布式运算系统,解决了海量数据如何计算的问题。bigtable—快速查询的google的分布式数据库,解决了海量数据如何快速查询的问题。DougCutting将Google的三篇文章用Java重新实现HDFS(HadoopDistributedFileSystem)Hadoop的分布式文件存储系统,用于解决海量数据存储的问题。MapReduce—MapReduce,解决海量数据分布式计算问题。bigtable—Hbase,解决海量数据的快速查询问题。3.Hadoop组件架构Hadoop是以HDFS为核心存储,以MapReduce为基本计算模型的批量数据处理基础设施,围绕HDFS和MR,产生了一系列的组件,不断完善整个大数据平台的数据处理能力,例如面向KV的HBase、面向SQL的Hive、面向工作流的PIG等。以Hadoop为核心的数据存储及数据处理技术逐渐成为数据处理中的“中流砥柱”。技术栈如图:

在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术在大数据场景中被广泛使用。(离线数仓定时跑批)3.Hadoop离线数仓4.批处理与流处理批处理:当我们处理相对大量的数据时,如果此数据的来源是与流数据处理不兼容的旧系统或遗留系统,批处理是一种很好的解决方案。批处理通常适用于不需要实时分析的场景,以及处理大量数据的能力比处理所述数据的速度更重要的场景(可以接受较慢的分析结果,比如:账单、客户订单、工资单等)流处理:如果我们需要实时分析结果,那么流处理是唯一的方法。使用数据流将其输入分析工具,在生成数据的那一刻,就能够获得几乎即时的结果。流处理在欺诈检测中很有用,因为流处理允许实时检测异常。流处理的延迟通常以秒或毫秒为单位,因为在流处理中,数据在到达磁盘之前会被分析。流处理通常被用于:欺诈识别、日志监控、客户行为分析、分析社交媒体。4.批处理和流处理的区别3.Spark诞生ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。特点:拆分批量时间,一秒执行一次,伪实时。4.Flink诞生ApacheFlink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。ApacheFlink功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink不仅可以运行在包括YARN、Mesos、Kubernetes在内的多种资源管理框架上,还支持在裸机集群上独立部署。特点:实时检测数据,到来一条就处理一条,是真正的实时。5.数据平台能力6.架构演进-传统离线+实时数仓-Lambda架构

在Lambda架构中,为了计算一些实时指标,就在原来的离线数仓基础之上增加了一个实时计算的链路,并对数据源做流式改造:把消息发送到消息队列中(大数据中常用Kafka),实时计算去消费消息队列中的数据,完成实时指标计算,推送到下游的数据服务中去,由数据服务层完成离线与实时结果的合并。架构图如下:7.架构演进-实时数仓-Kappa架构

Kappa架构的核心思想是通过改进流计算系统来解决数据全量处理的问题,使得实时计算和批处理过程使用同一套代码。此外Kappa架构认为只有在有必要的时候才会对历史数据进行重复计算,而如果需要重复计算时,Kappa架构下可以启动很多个实例进行重复计算,方式是通过上游重放完成(从数据源拉取数据重新计算)。架构图如下:Kappa架构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论