数据仓库基础_第1页
数据仓库基础_第2页
数据仓库基础_第3页
数据仓库基础_第4页
数据仓库基础_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库基础,信息技术部,开发三处,徐景春,第,1,页,日程,第,2,页,日程:技术知识,基本概念,体系结构,设计方法,技术实现,第,3,页,背景:数据处理的发展历程,传统数据仓库,OLAP,处理分析,性能问题,非结构化数据,实时,DW2.0,大数据平台,文件方式,数据与程序混杂,管理复杂,并发问题,一致性问题,数据库,OLTP,处理交易,统计类需求,数据源繁杂,说明,不是“替代”关系,本文档重点介绍“传统数据仓库,第,4,页,OLTP,与,OLAP,OLTP,处理交易,流程,运转,第,5,页,OLAP,分析数据,数据,记录、观察,数据仓库定义,Data warehouse is,a subj

2、ect oriented, integrated,non,volatile and time variant collection of data,in support of,managements decision,Inmon,1996,数据仓库是一个面向主题的、集成的、非易失的且随时间,变化的数据集合,用来支持管理人员的决策,第,6,页,数据仓库其他定义,Data warehouse is a set,of methods, techniques,and,tools,t,hat may be leveraged together to produce a,vehicle that deli

3、vers data to end-users on an integrated,platform,Ladley,1997,是一组方法、技术、工具,Data warehouse is a,process,of crating, maintaining,and,using a decision-support infrastructure,Appleton,1995Haley,1997Gardner 1998,是一个过程,第,7,页,四个特征,Inmon,1996,面向主题,主题是在较高层次上对数据抽象,面向主题的数据组织分为两步骤,确定主题,确定每个主题所包含的数据内容,每个主题由一组关系表实现

4、,相关表通过公共的键码关联(如:客户,ID,主题内数据可以存储在不同介质上(综合级,细节级,多粒度,集成,从原有的分散数据库数据中抽取来的,需要消除数据表述的不一致性(数据的清,洗,代码、粒度、结构,非易失的(不可更改的,批处理增加,仓库已经存在的数据不会改变,随时间变化,第,8,页,键码都包含时间项,以标明数据的历史时期,面向主题,第,9,页,集成,第,10,页,非易失的(不可更改的,第,11,页,随时间变化,第,12,页,Data Mart,ODS,ETL,Data Mart,数据集市,小型的,面向部门或工作组级数据仓库,Inmon,部门级仓库,数据仓库数据的部分拷贝,Kimball,数据

5、仓库的组成部分,构成数据仓库,Operation Data Store,操作数据存储,支持企业日常的全局应用的数据集合,是不同于,DB,的一种新的数据环境,四个基本特点,ETL,第,13,页,面向主题的,Subject -Oriented,集成的,可变的,当前或接近当前的,元数据、分割、粒度,元数据,关于数据的数据。用于构造、维持、管理使用数据仓库,分割,数据分散到各自的物理单元中去,它们能独立地处理,粒度,指数据仓库的数据单位中保存数据的细化或综合程度的级别,粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多,粒度影响数据仓库中数据量的大小,粒度问题是设计数据仓库的一个重要方面,在数

6、据仓库的细节级上创建两种粒度,短期储存的低粒度(真实档案),满足细节查询,具有综合的高粒度(轻度综合),做分析,第,14,页,BI,的由来,商业智能,Business Intelligence,简称,BI,最早是由美国,Gartner Group,于,1996,年提出的。当时将其,定义为一类数据仓库(或数据集市)、查询报表、数据分,析、数据挖掘、数据备份和恢复等部分组成的、以帮助企,业决策为目的技术及其应用,数据仓库,OLAP,数据挖掘,总是纠缠在一起,交流太麻,烦,统称为,BI,不仅如此,以后不用,DW/OLAP/DM,BI,也不会过时,本文没有严格区分数据仓库和,BI,第,15,页,日程:

7、技术知识,基本概念,体系结构,设计方法,技术实现,ETL,数据获取,调度管理,数据仓库,数据存储,分析,数据使用,门,户,元数据管理,数据标准管理,数据质量管理,第,16,页,体系结构的重点,重点问题:数据的获取、存储和使用,数据仓库和集市的加载能力至关重要,数据仓库和集市的查询输出能力至关重要,End-User,Tool,End-User,Tool,Relational,Package,Legacy,External,source,Data,Clean,Tool,第,17,页,Data,Staging,Enterprise,Data,Warehouse,Datamart,RDBMS,Data

8、mart,RDBMS,ROLAP,End-User,Tool,MDB,End-User,Tool,Data Staging,数据,处理区域,为了实现,ETL,过程的临时存储,体系结构,Pieter,1998,Warehouse,Admin,Tools,Mid,Tier,Central,Data,Warehouse,Data,Mart,Local,Metadata,Metadata,Exchange,Local,Metadata,Relational,Appl. Package,Extract,Transform,and Load,Central,Metadata,Mid,Tier,Legacy

9、,RDBMS,External,Data,Cleansing,Tool,Source,Databases,第,18,页,Data,Mart,RDBMS,MDB,End-User,DW Tools,Architected,Data Marts,Data Access,and Analysis,Data,Modeling,Tool,Local,Metadata,Data Extraction,Transformation, load,Central Data,Warehouse,带,ODS,的体系结构,ODS,OLTP,Tools,Warehouse,Admin,Tools,Mid,Tier,Ce

10、ntral,Data,Warehouse,Data,Mart,RDBMS,Local,Metadata,Relational,Appl. Package,Extract,Transform,and Load,Central,Metadata,Legacy,Local,Metadata,Metadata,Exchange,Mid,Tier,External,Data,Cleansing,Tool,Source,Databases,第,19,页,Data,Modeling,Tool,Hub,Data Extraction,Transformation, load,Data,Mart,RDBMS,L

11、ocal,Metadata,MDB,End-User,DW Tools,Data Access,and Analysis,Central Data Ware,house and ODS,Architected,Data Marts,小结:体系结构,调度管理,ETL,数据获取,数据仓库,数据存储,分析,数据使用,元数据管理,数据标准管理,数据质量管理,门,户,数,据,源,用,户,第,20,页,调度管理,ETL,数据仓库,数据存储,分析,数据使用,数据获取,ETL,职责,负责将数据从源系统提取到数据仓库中,数据获取,门,户,元数据管理,数据标准管理,数据质量管理,功能,去掉操作型数据库中不需要的数

12、据,统一转换数据的名称和定义,计算汇总数据和派生数据,估计遗失数据的缺省值,关键问题,增量数据获取,异常处理,异常捕获、异常处理,非功能需求,如何复用代码,第,21,页,性能:是否使用存储过程、如何转换,增量数据获取方式,插入,时间戳,源表有时间戳字段,记录新增,修改、删除更新时间戳字段,修改,删除,增量,2,增量,1,ETL,触发器,源表中创建触发器,通过触发器,捕获数据的增、删、改,数据仓库,存量数据,数据库日志,对事务数据库的日志文件进行分析,获取变化的数据,Hash,值,通过比对记录的,hash,值,识别出变化的数据,业务日期,根据源表中有业务含义的日期字段获取增量,如保单表的签单日、

13、生效日,收付,费表的实收日期,保全生效日等,CDC,组件,第,22,页,Change Data Capture,改变数据捕获,CDC,整体连接示意图,system,CDC for Oracle,S1,实例,D11,数据存,储,CDC for Datastage,D1,实例,S11,数据存储,CDC for Accessserver,Admin,Admin,客户端用户,客户端用户,userA,登录服务器用户,cdd user,登录服务器用户,cdc user,登录服务器用户,Admin,Admin,客户端用户,客户端用户,CDC FOR ORACLE,连接核心,Oracle,数据库作为数据源,C

14、DC FOR DATASTAGE,让数据源的增量数据落地成数据文件,作为目标端,CDC FOR ACCESSSERVER,连接,CDC FOR ORACLE,和,CDC FOR DATASTAGE,并提供用户管理,第,23,页,如何选择增量获取方式,第,24,页,调度管理,ETL,数据仓库,数据存储,分析,数据使用,数据存储:数据仓库,职责,负责存储数据,数据获取,门,户,元数据管理,数据标准管理,数据质量管理,功能,快速存取,适应变化,关键问题,4,个基本特征的数据集合,数据架构:分哪几层,数据模型:每层如何存储数据,数据流向,第,25,页,调度管理,ETL,数据仓库,数据存储,分析,数据使

15、用,数据使用:分析,职责,负责数据的使用、分析、展现,数据获取,门,户,元数据管理,数据标准管理,数据质量管理,常见方式,报表:常规的制式固定报表,OLAP,联机分析处理,数据挖掘,即席查询,自助查询,第,26,页,联机分析处理,OLAP,是针对特定问题的联机访问和分析,通过对信息的很多种可能的观察形式进行快速、稳定一致,和交互性的存取,允许分析人员对数据进行深入观察,概念,变量是数据的实际意义,描述数据是什么,维是人们观察数据的特定角度,维的层次是维在不同细节程度的描述,维成员是维的一个取值,多层次维的维成员是各层次取值的组合,对应一个数据项,维成员是该数据项在该维中位置的描述,多维数组可以

16、表示为(维,1,维,2,变量),如(地区,时间,销售渠道,销售额,多维数组的取值称为数据单元(单元格,可以理解为交叉表的数据格,第,27,页,第,28,页,钻取和上卷,第,29,页,旋转,第,30,页,示例:钻取,操作,第,31,页,示例:钻取,效果,第,32,页,基于多维数据库的,OLAP,MOLAP,以多维方式组织数据(综合数据,以多维方式显示(观察)数据,多维数据库的形式类似于交叉表,可直观地表述一对多,多对多的关系,如:产品、地区、销售额,关系,多维,多维数据库由许多经压缩的、类似于数组的对象构成,带,有高度压缩的索引及指针结构,以关系数据库存放细节数据、以多维数据库存放综合数据,第,

17、33,页,MOLAP,架构,第,34,页,基于关系数据库的,OLAP,ROLAP,以二维表与多维联系来表达多维数据(综合数据,星型结构,事实表,存储事实的量及各维的码值,BCNF,维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余,事实表通过外键与每个维表相联系,雪花、星座、雪暴,模拟多维方式显示(观察)数据,第,35,页,ROLAP,架构,第,36,页,MOLAP,与,ROLAP,MOLAP,计算速度较快,支持的数据容量较小,缺乏细节数据的,OLAP,多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指,针结构,以关系数据库存放细节数据、以多维数据库存放综合数

18、据,ROLAP,结构较复杂,以关系模拟多维,支持适当细节的,OLAP,较成熟,HOLAP,是以上两种的综合,第,37,页,数据挖掘,Data Mining,探测型的数据分析,发现信息、发现知识,基于人工智能、机器学习、统计学,由计算机自动智能地分析数据,获取信息,作出预测或帮,助决策,需要算法的支持和机器的环境,第,38,页,数据挖掘的常用方法,决策树方法,利用信息论中的互信息,寻找数据库中具有最大信息量的属性字段,建立决策树,的节点,再根据该属性字段的不同取值建立树的分支,在每个分支子集中重复建立下层节点和分支,关联分析,为了挖掘出隐藏在数据间的相互关系,支持度,置信度作为输入的条件,进行筛

19、选、分析,序列模式分析,类似与关联分析,着重于分析数据的前因后果,分类分析,对于不同分类的数据进行分析,找出他们的规律、特征,聚类分析,是分类的逆过程,第,39,页,根据数据特征,进行分类,数据挖掘与,OLAP,都属于分析型工具,DM,是挖掘型工具,DM,试图自动地发现隐藏在数据中的模式或规律,OLAP,是验证型工具,OLAP,更多地依赖于用户的输入和假设,两者相辅相成,互补,以,DM,挖掘潜在的模式、预测未来趋势,以,OLAP,来验证,DM,的结果,第,40,页,调度管理,ETL,数据仓库,数据存储,分析,数据使用,调度管理,职责,数据获取,门,户,元数据管理,数据标准管理,数据质量管理,负

20、责监控、管理,ETL,程序,ETL,程序类型通常会有所扩展)的执行,功能,调度策略(定时、依赖关系,调度监控,手工处理,其他,扩展:分布式,总分间的数据传输,ETL,工具有相关功能,定制开发,第,41,页,调度管理,ETL,数据仓库,数据存储,分析,数据使用,元数据管理,职责,负责元数据的管理,数据获取,门,户,元数据管理,数据标准管理,数据质量管理,应用场景,第,42,页,元数据分类,Alex Berson etc, 1999,业务元数据,定义:给用户易于理解的信息,主题区和信息对象类型,包括查询、报表、图像、音频、视频等,维度、指标、报表,技术元数据,定义:为数据仓库设计人员和管理员使用的

21、数据仓库数据信息,用于执行数据仓,库开发和管理任务,数据源信息,转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法,目标数据的仓库对象和数据结构定义,数据清洗和数据增加的规则,数据映射操作,访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问等,数据仓库操作型信息,例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法,第,43,页,示例:元数据管理模块的逻辑架构,第,44,页,数据管控,技术支撑,第,45,页,日程:技术知识,基本概念,体系结构,设计方法,技术实现,第,46,页,设计方法,从顶层、抽象角度,数据仓库的建设方法可,分为:自顶而下,自底而上,从系

22、统架构设计角度,数据仓库作为一,个系统,其架构设计应包括的内容。如,系统定位、模块组成及相互关系、各,模块的架构设计等,数据存储是数据仓库建设的核心,问题,因此数据架构的设计更值,得关注。包括数据层、数据流向,数据模型,第,47,页,方法论:自顶而下,构建企业数据仓库,EDW,Common central data model,Data re-engineering performed once,最低限度减少数据冗余和不一致性,明细历史数据,全局数据查找,操作型数据,外部数据,基于,EDW,构建数据集市,DM,和部门相关的数据仓库子集,几乎是汇总级数据,直接依赖,EDW,的数据,企业数据仓库,

23、局部数据集市,局部数据集市,第,48,页,操作型数据,全部,外部数据,方法论:自底而上,创建部门的数据集市,DM,范围局限于一个主题区域,快速的,ROI,局部的商业需求得到满足,本部门自治,设计上具有灵活性,对其他部门数据集市是一个好的指导,容易复制到其他部门,需要为每个部门做数据重建,有一定级别的冗余和不一致性,一个切实可行的方法,操作型数据,局部,操作型数据,局部,局部数据集市,局部数据集市,扩大到企业数据仓库,EDW,创建,EDW,作为一个长期的目标,企业数据仓库,第,49,页,系统架构设计,体系结构,架构,5,视图,调度管理,ETL,数据获取,数据仓库,数据存储,分析,数据使用,门,户

24、,元数据管理,数据标准管理,数据质量管理,第,50,页,数据架构,第,51,页,示例:参考数据架构,参考数据架构的说明,分层是从逻辑角度划分的,并非物理上的,整合层、通用语义层、应用层是可灵活组合的,数据流向并非严格的顺层流动,整合层的主流行业概念模型,EDW,IBM IIW,Teradata,FS-LDM (Financial Service Logical Data Model,第,52,页,数据模型(逻辑模型,数据模型,模型是对现实世界进行抽象的工具。在数据仓库系统中需要将,现实世界,的事物及,其有关特征转换为,信息世界,的数据才能对信息进行处理与管理,这就需要依靠,数,据模型,作为这种

25、转换的桥梁,这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型,到物理模型的转换过程,现实世界,概念模型,逻辑模型,计算机世界,信用,张三,客户,客户与产品,特性,个体,整体,整体间联系,属性,实体,同质总体,异质总体,列(字段,数据项,记录,表文件,数据库,第,53,页,模型设计方法,第三范式建模,Third Normal Form,简称,3NF,定义,1,第三范式设计必须满足以下条件,每个属性的值唯一,不具有多义性;,2,每,个非主属性必须完全依赖于整个主键,而非主键的一部分;,3,每个非主属性不能依赖,于其他关系中的属性,优点:数据冗余少;抽象程度高、信息高度集成;支

26、持应用灵活,缺点:数据获取效率较差;建设难度大;周期较长,维度建模,Star-Schema,定义:维度建模是一种多维的数据关系,它由一个事实表,Fact Table,和一组维表,Dimension Table,组成。每个维表都有一个维作为主键,所有这些维则组合成事实表的,主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实,Fact,它们一般都是数值或其他可以进行计算的数据,优点:信息显性化,因此运行效率较高;周期较短,容易见效,缺点:数据冗余大;对信息跳跃性较强的应用支持不够理想,第,54,页,模型设计方法:第三范式建模,Bill Inmon,先生系统地阐述了企业级数据

27、仓库的定义及体系结构,被誉为数据仓库之父,其核心观点认为数据仓库应该从构建,高度抽象的企业数据模型,开始,特点,是一种数据驱动方法,以,3NF,建模为基础,着眼公司中、长期目标,建成后系统具备较好的,适应性和扩展性,数据源,业务,ETL,数据仓库,产品,渠道,数据集市,客户流失,渠道分析,收付,ETL,客户,保单,产品分析,保费分析,外部,第,55,页,模型设计方法:维度建模,Ralph Kimball,先生作为数据仓库体系结构的最早实践者,在数据仓库的建设方面做了大量的工作,其,业务维度生命周期方法指引了世界范围内众多数据仓,库项目的实施,业务维度生命周期方法的突出贡献是采用了,一致的维度与

28、事实,的概念来构建,数据仓库总线,结构,特点,是一种需求驱动方法,以维度建模为基础,实施周期短,见效快,实施风险较低,维度模型可理解性,让所有事项尽可能简单,但是又不能简,单得过了头,模型要保留“源”有信息,有价值与元,价值信息都要保留,反规范化维度层次结构设计是维度建模,提高查询性能保障,每个维都是一个等效的事实表入口点,数据源,业务,ETL,数据仓库,一致的维度下的,数据集市,保费分析,收付,客户留存,产品分析,外部,BI,展现工具多维立方体是维度建模完善,体现,维度模型扩展易用性,第,56,页,渠道分析,维度模型,VS,规范化模型,规范化模型,描述业务的逻辑关系,消除冗余,解决数据的一致

29、性问题,模型灵活、稳定,如果数据源没有企业数据模型控制,ETL,抽取很难,整合层,维度模型,易于理解,因为冗余,性能好易于访问,多维模型在满足用户需求方面是非常高效的,但是灵活性不好,通用语义层,集市层,第,57,页,数据模型的评估,结构集成,内容集成,主题集成,扩展集成,集成可操作,增量策略,优化,BI,应用性能,优化,ETL,性能,安全管理,支持数据的维护,数据生命周期管理,易于理解,设计合理,性能,集成性,完整性,数据,模型,可用性,模型管理,制定标准和规范,管理性,扩展性,支持各类,BI,应用,涵盖保险业务各环节,参考主流行业模数据型,第,58,页,支持,BI,应用,扩展,支持数据源扩

30、展,支持模型自身扩展,快速扩展,维度建模相关概念,第,59,页,维度基本概念:以日期维度为例,主键,维度属性,每一字段,列,成员,每一行,代理键,日期,标识,层次关系,维度属性,月,1,月,1,月,1,月,1,月,层次关系(路径,日期,年,半年,季度,年、半年、季度、月、日,2015,年,1,月,1,日,2015,年,1,月,2,日,2015,年,1,月,3,日,2015,年,1,月,4,日,2015,年,2015,年,2015,年,2015,年,上半年,上半年,上半年,上半年,1,季度,1,季度,1,季度,1,季度,日,1,日,2,日,3,日,4,日,星期,星期四,星期五,星期六,星期日,周

31、描,述,第,1,周,第,1,周,第,1,周,第,2,周,旬描,述,上旬,上旬,上旬,上旬,年天,数,1,2,3,4,假期,元旦,工作日,周末,周末,农历,年,腊月,腊月,腊月,腊月,农历,月,十一,十二,十三,十四,20150101,20150102,20150103,20150104,第,60,页,成员,维度特点,观察的角度,包含丰富的维度属性,即很多列,且带有描述性质,维度属性用于查询约束条件、报表标签、分组汇总,丰富的维度属性带来丰富的分析能力,维度表是进入事实表的入口,理论上不必有代码,如果用户很熟悉代码则可加,通用性:日期、机构、险种、渠道,第,61,页,缓慢变化维,SCD,Slow

32、ly Changing Dimensions,背景,在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生变化。这种,随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变,化信息的问题称为处理缓慢变化维的问题,处理缓慢变化维的方式,TYPE 1,第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历,史数据,无法分析历史变化信息,TYPE 2,第二种方式是添加维度行。这样处理,需要代理键的支持。实现方式是,当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通,过自然键可以和原维度记录保持关联,TYPE 3,第三种方式是添加属性列。这种处理的实现

33、方式是对于需要分析历史信,息的属性添加一列,来记录该属性变化前的值,而本属性字段使用,TYPE 1,来直接,覆盖。这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保,留了最后一次变化信息,第,62,页,示例,SCD,维度,展业机构,业务键,展业机构代码,AgentGroup,代理键,展业机构,ID,AgentGroupID,类型,2,Branchattr,Branchtype,Branchtype2,逻辑,当上述,3,个维度属性的值,发生变化时,增加一条记录,第,63,页,代理键,可以保证源系统的变化不会对,BI,系统产生影响,可以允许,BI,系统整合多个源系统中的数据,可以允许

34、在维度表中加入不存在的行,提供了一种跟踪维度属性随时间变化的方法,使用整型的代理键在关系库、多维库中是高效的方法,提高系统查询,和处理性能,减少了事实表本身的大小,代价,ETL,的性能耗费,根据成员个数选择,smallint,int,bigint,第,64,页,退化维度、杂项维度,退化维度,维度除了主键以外没有其他维度属性,没有维度表,如订单号,杂项维度,junk dimension,通过创建一个抽象的维度将多个低基数的标志位合并以将其放到维度体系中,第,65,页,星型模型,以事实表为中心,加上若干维表,组成星型数据模式。事,实表存放基本数据,第,66,页,雪花模型,维一般是由若干层次组成,把

35、维按其层次结构表示成若干个表,规范化、节省存储空间,但需多做连接操作,第,67,页,事实表,事务型事实表,事务发生时,每个事务记录一行,不需要更新,维度:事务日期,例子:支付事实表、收费事实表,周期快照型事实表,周期性快照,不需要更新,维度:快照日期,例子:待发货、有效保单、有效人力,累积快照型事实表,一个事件一行,由多个步骤组成,步骤发生时更新,维度:关键步骤的多个日期,例子,1,购买(订购日期、付款日期、发货日期、收货日期,例子,2,承保(申请日期、暂收日期、核保日期、签单日期、核销日期,第,68,页,示例:维度与事实,第,69,页,设计过程,第,70,页,示例:总线矩阵、一致性维度,第,

36、71,页,日程:技术知识,基本概念,体系结构,设计方法,技术实现,第,72,页,技术实现,调度管理,ETL,数据获取,数据仓库,数据存储,分析,数据使用,门,户,元数据管理,数据标准管理,数据质量管理,逻辑,分析工具,ETL,工具,数据库,操作系统,硬件,报表工具,开发工具,中间件,第,73,页,Gartner 2015,数据仓库和分析市场魔力象限,第,74,页,领导者,Teradata,Oracle,IBM,微软,SAP,惠普,挑战者,MapR Technologies,Cloudera,1010data,AWS,特定领域者,Exasol,MarkLogic,Kognitio,Hitachi

37、,Infobright,远见者,Actian,Pivotal,各厂商解决方案及产品,Teradata,ETL,及调,度,数据,仓库,Teradata,数,据库迁移工具,ETL,Automation,调度,Teradata,数,据库,SAP,SAP,集成平台,XI,Administrato,r workbench,调度,SAP,数据仓库,BW,OLAP,IBM,DataStage,Oracle,Oracle,Warehouse,Builder,微软,Integration,Services,其他,Informatica,DB2,Ooracle,Oracle,Express,OLAP,Oracle

38、,Reports,Oracle,Discoverer,SQL Server,Analysis,Services,OALP,Reporting,Services,racle,展现,及分,析,Teradata,元,数据,管理应用,数据质量管,理应用,业务浏览器组,件,Business,Explore Suite,包括查询,分析,web,发,布,主数据管理,MDM,Cognos,SPSS,MSTR,SAS,数据,管控,门户,Common,Warehouse,Metadata(CWM,JAVA,定制开发,NET,定制开发,Teradata,第,75,页,SAP,企业门户,Oracle,Performa

39、nceP,JAVA,定制开发,知识体系,业务,后台,技术,前台,分析,管理,保险实务,SQL,编程,DW,设计,前端工具,Java,编程,分析工具,项目管理,保险原理,数据库原理,数据仓库,数据建模,面向对象程序设计,设计模式,统计学,数据挖掘,项目管理,软件工程,第,76,页,参考书,数据仓库(原书第,4,版,数据仓库工具箱(第,3,版,维度建模权威指南,数据仓库工具箱,面向,SQL Server2005,和,Microsoft,商业智能工具集,数据仓库设计,数据模型资源手册,第,77,页,日程,第,78,页,开发过程及相关角色,集,成,测,试,用,户,测,试,项目经理,技术经理,业务顾问,

40、第,79,页,模型设计师,各角色责任细分(一,项目经理,负责协调资源,控制项目进度、质量,达成项目目标。项目的灵魂人物,项目成,败的关键,应具备的能力,有效计划和分配资源,团结并激励整个团队并使其保持和谐,善于与客户沟通,控制项目范围,风险管理,定期评定项目开发成果并评估每个人员,敢于承认失败并把项目带回正轨,技术经理,第,80,页,负责系统的架构设计,确保各模块能组装到一起,各角色责任细分(二,业务顾问,负责需求调研、分析,解答业务问题,分析指标统计逻辑,协助数据探查及分析,应具备能力,相关业务经验比最终用户还要丰富,了解行业的标准及发展趋势,了解数据仓库的一些技术实现,善于将业务转化为技术

41、人员所能接受的语言,模型设计师,负责设计数据模型、设计转换规则、数据探查,应具备的能力,分析并引导用户的需求,对数据库的范式和星型结构熟练运用,第,81,页,设计系统的,ER,图和数据字典如属性、约束等,各角色责任细分(三,ETL,工程师,负责,ETL,程序的开发。工作量最大,应具备能力,深入了解就有系统,并理解系统内数据存储,向最终用户的顾问学习业务知识,熟悉各种常用系统的接口和规范,有很强的编码和开发能力最好能熟悉一些常用工具,能够制定计划并使数据的迁移过程自动进行,应该是一个认真仔细的人,脏数据对系统的影响往,往能超出一的想象,前端工程师,Java,工程师,负责报表程序,JAVA,程序的

42、开发,第,82,页,应具备能力,成长路径,DW,设计,SQL,编程,ETL,工程师,模型设计师,技术经理,保险实务,业务顾问,分析工具,数据分析师,项目经理,前端工具,前端工程师,项目管理,第,83,页,Java,编程,Java,工程师,不同于,OLTP,系统的开发,基础工作,数据探查,理解数据源:正确写出统计逻辑;正确设计数据转换规,则;正确分析数据,需求分析,统计逻辑不明确,有标准值:直接取用标准值,或分析标准值计算逻辑,无标准值:自行计算基准值,然后与业务一同核对。不,断修正,成果物:指标卡片,业务部分:业务语言描述;技术部分,SQL,描述,系统设计,第,84,页,数据架构、数据模型,本

43、质:数据类项目,第,85,页,关于逻辑确认:越早越好,第,86,页,日程,第,87,页,传统数据仓库的困境,数据源频繁变化,非结构化数据,数据质量不高,存储的数据越来越多,访问速度要求越来越快,应用越来越复杂:混合场景、实时、快速变化,第,88,页,DW2.0,数据生命周期,交互区,整合区,近线区,归档区,非结构化数据,元数据,技术基础能够,随时间变化,第,89,页,图摘自,Data Warehousing in the Age of Big Data,P142 FIGURE 6.6,大数据特征,不仅仅是技术,改变人的思维方式,视野更加开阔,信息更加丰富,数据分析,价值链,商业模式,第,90,页,大数据技术组件,数据集成,RDBMS,ETL,工具,SQOOP,FTP,MQ,Kafka,离线批量计算,数据挖,掘,R/Ma,高性能数,hout,据分析,Impala,内存计算,数据挖,掘,R,类,SQL,查询,Shark,流计算,在线,NoSQL,数,据库,内容搜索,系统工具,分布式协,作服务,Zookeep,er,序列化工,具,Avro,数据处,理脚本,PIG,类,SQL,查询,Hive,Stor,m,Spark,S4,全文检索,HBase,Se

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论