数据仓库及ETL介绍(共45页).ppt_第1页
数据仓库及ETL介绍(共45页).ppt_第2页
数据仓库及ETL介绍(共45页).ppt_第3页
数据仓库及ETL介绍(共45页).ppt_第4页
数据仓库及ETL介绍(共45页).ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、12目录根底概念Informatica 组件详解Informatica KB介绍ETL系统介绍31、数据仓库数据仓库是一个:面向主题的Subject Oriented集成的Integrate相对稳定的Non-Volatile反映历史变化Time Variant的数据集合41、数据仓库数据仓库是一个:面向主题的Subject Oriented集成的Integrate相对稳定的Non-Volatile反映历史变化Time Variant的数据集合51、数据仓库的特点 面向主题的Subject Oriented 数据是面向应用程序事务的,而数据仓库中数据的是按商业主题存放的,商业主题会随着企业的不同

2、而不同。 集成的Integrate 在将不同来源的数据存入数据仓库中之前,必须把这些不同的数据元素标准化,对数据进行清洗、转换等集成操作。 相对稳定的Non-Volatile 一旦某个数据进入数据仓库以后,一般情况下将被长期保存,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化Time Variant 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信。6主题与主题域主题面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。

3、主题域主题域是对某个主题进行分析后确定的主题的边界7主题与主题域主题与主题域:财务:资金筹集、资金配置、资本结构、现金创造、现金管理资产质量、盈利能力、债务风险、本钱、费用、差旅人力资源:人员、薪酬、职位、员工关心、人员流动、技能提升资产:固定资产、资产使用、资产维护、折旧、残值经营分析:流量、生产保障、精细化管理、运营效率、设施效率8主题与主题域9维度建模维度建模:其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。维度表: 维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有

4、用的信息,维度表包含帮助汇总数据的特性的层次结构。事实表:在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表。10维度建模简单的说:1、事实表就是你要关注的内容;2、维表就是你观察该事务的角度,是从哪个角度去观察这个内容的。 11星形模型与雪花模型12雪花模型13星形模型与雪花模型星形模型 一种使用关系数据库实现多维分析空间的模式,称为星型模式。星型模式的根本形式必须实现多维空间常常被称为方块,以使用关系数据库的根本功能。雪花模式不管什么原因,当星型模式的维度需要进行标准化时,星型模式就演进为雪花模式。14星形模型缺点Benefits:Simpler queriesSimplified

5、 business reporting logicQuery performance gainsExpansibilityDisadvantagesredundancy dataHarder Complex Queries 15缓慢变化维Supplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcme Supply CoCASupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcme Supply CoILoriginalNow16缓慢变化维处理方式Type 0: ret

6、ain originalType 1: overwriteType 2: add new rowType 3: add new attributeType 4: add history tableType 6: hybrid17Type 2 & TYPE 3Supplier_KeySupplier_CodeSupplier_NameSupplier_StateStart_DateEnd_Date123ABCAcme Supply CoCA01-Jan-200021-Dec-2004124ABCAcme Supply CoIL22-Dec-2004NULLSupplier_KeySupp

7、lier_CodeSupplier_NameOriginal_Supplier_StateEffective_DateCurrent_Supplier_State123ABCAcme Supply CoCA22-Dec-2004IL18Type 4: add history tableSupplier_keySupplier_CodeSupplier_NameSupplier_State124ABCAcme & Johnson Supply CoILSupplier_keySupplier_CodeSupplier_NameSupplier_StateCreate_Date123ABC

8、Acme Supply CoCA14-June-2003124ABCAcme & Johnson Supply CoIL22-Dec-200419Type 6 Supplier_KeySupplier_CodeSupplier_NameCurrent_StateHistorical_StateStart_DateEnd_DateCurrent_Flag123ABCAcme Supply CoNYCA01-Jan-200021-Dec-2004N124ABCAcme Supply CoNYIL22-Dec-200403-Feb-2008N125ABCAcme Supply CoNYNY0

9、4-Feb-200831-Dec-2009Y20代理主键代理主键: 维度建模理论中,维表里使用原业务中的主键作为主键就是业务键Business Key;建立新的主键就是代理键Surrogate Key为什么使用代理主键:性能主键重复21一致性维度一致性维度:当不同的维度表的属性具有相同列名和领域内容时,称维度表具有一致性。利用一致性维度属性与每个事实表关联,可将来自不同事实表的信息合并到同一报表中。建模四步骤:22总线架构23数据仓库架构24快速判断数据仓库水平 有没有带缓慢变化维度一致性维度 有没有跨层取数的现象25ETL 34个子系统抽取在ETL环境中从源系统收集原始数据并且在任何对数据的

10、重要重构发生之前都将数据写入磁盘。子系统1到子系统3都支持抽取过程。清洗和一致化通过ETL系统中的一系列处理步骤发送源数据,这些步骤提高了从源系统接收数据的质量,并且对两个或多个源系统中的数据进行了合并,创立并强化了一致性维度和一致性度量。子系统4到子系统8描述了支持清洗和一致化过程所需的架构。26ETL 34个子系统提交从物理上将数据组织和装载到呈现效劳器的目标维度模型中。子系统9到子系统21提供了假设干种将数据提交到效劳器上的功能。管理用一致的方式来管理ETL环境中的相关系统和过程。子系统22到子系统34都描述了支持ETL系统现行管理所需的组件。27抽取子系统1-数据探查子系统2-变化数据

11、捕捉系统审计列定时抽取完全差异比较数据库日志刮取消息队列监视28抽取子系统3-抽取系统 文件 FTP WEB SERVICE 数据库 接口29数据的清洗和一致化子系统子系统4-数据清洗系统数据清洗系统 对数据质量问题的早期诊断和鉴别分类: 完整性、一致性、准确性、及时性 让源系统和集成工作提供更优质的数据 具有为ETL过程中遇到的数据错误提供特定描述的功能 具有能够随着时间推移捕捉所有数据质量错误和度量数据质量的框架 对最终数据的质量可信度进行度量的附加功能30数据的清洗和一致化子系统子系统5-5-错误事件模式错误事件模式子系统子系统6-审计维装配器审计维装配器31数据的清洗和一致化子系统子系

12、统7-7-重复数据删除系统重复数据删除系统子系统子系统8-一致化系统一致化系统子系统子系统9-向呈现层交付数据向呈现层交付数据子系统子系统9-缓慢变化维管理器缓慢变化维管理器子系统子系统10-代理键生成器代理键生成器子系统子系统11-层次管理器层次管理器32数据的清洗和一致化子系统子系统12-专用维度管理器专用维度管理器日期日期/时间维时间维杂项维杂项维微型维视图维度微型维视图维度小型静态维小型静态维用户维护的维度用户维护的维度子系统子系统13-事实表构建器事实表构建器事务处理粒度事实表装载器事务处理粒度事实表装载器周期快照事实表装载器周期快照事实表装载器累积快照事实表装载器累积快照事实表装载

13、器33数据的清洗和一致化子系统子系统14-14-代理键管道代理键管道子系统子系统15-15-多值维度桥接表构建器多值维度桥接表构建器子系统子系统16-延迟到达数据处理器延迟到达数据处理器子系统子系统17-维度管理系统维度管理系统子系统子系统18-事实提供系统事实提供系统子系统子系统19-聚集构建器聚集构建器子系统子系统20-OLAP多维数据集构建器多维数据集构建器子系统子系统21-数据传播管理器数据传播管理器34管理ETL环境 子系统子系统22-22-作业调度器作业调度器 子系统子系统23-23-备份系统备份系统 子系统子系统24-24-恢复和重启系统恢复和重启系统 子系统子系统25-25-版

14、本控制系统版本控制系统 子系统子系统26-26-版本迁移系统版本迁移系统 子系统子系统27-27-工作流监视器工作流监视器 子系统子系统28-28-排序系统?排序系统? 子系统子系统29-29-沿袭和依赖分析器沿袭和依赖分析器 子系统子系统30-30-问题自动调整系统问题自动调整系统 子系统子系统31-31-并行并行/ /管道系统管道系统 子系统子系统32-32-平安系统平安系统 子系统子系统33-33-合规性管理器合规性管理器35管理ETL环境子系统子系统34-元数据知识库管理器元数据知识库管理器技术元数据业务元数据运行元数据36Informatica整体架构37两个效劳器端和五个客户端组件

15、 效劳器端 Repository Server Informatca Server 客户端 Repository Manager Designer Workflow Manager Workflow Monitor Repository Server Administration Console 38五个客户端组件的作用 Repository Manager 元数据资料库,依赖分析,平安性管理等。 Designer 定义源和目标数据结构,设计转换规那么,生成ETL映射。 Workflow Manager 合理地实现复杂的ETL工作流,基于时间或事件的作业调度。 Workflow Monitor 监控workflow和session,生成工作日志及报告。 Repository Server Administration Console Repository的建立与维护39INFA安装配置 依赖:Oracle DB2 或SQL SERVER的DBA权限 安装配置过程: 点击Server软件包 setup.exe 完成安装 登录控制台创立RS,IS,把RS由独占模式改为普通模式 点击Client软件包setup.exe 配置连接信息,连接到效劳器端40客户端和效劳端端组件 效劳器端 Repository Server Informatca Server 客户端 Repositor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论