数据仓库概述和设计_第1页
数据仓库概述和设计_第2页
数据仓库概述和设计_第3页
数据仓库概述和设计_第4页
数据仓库概述和设计_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2/23/2022大数据培训-数据仓库概述v讲师:杨勇 v2015年7月v电话:133820447282/23/2022数据仓库提纲v 数据仓库概念v 数据仓库体系结构及组件v 数据仓库设计v 数据仓库技术(与数据库技术的区别)2/23/2022基本概念数据仓库产生背景v 数据仓库技术是随着人们对大型数据库系统研究的不断深入,在传统数据库技术基础之上发展而来的,其主要目的就是为决策提供支持为决策提供支持,为为OLAP、数据挖掘深层次的分析提供、数据挖掘深层次的分析提供平台平台。v 数据仓库是一个和实际应用密不可分的研究领域,与传统数据库相比,数据仓库不仅引入了许多新的概念,而且在体系结构、数据

2、组织体系结构、数据组织等方面,均有其自身的特点。2/23/2022基本概念数据仓库定义 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,主要用于支持管理决策和信息的全局共享。 -数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”(建立数据仓库) 2/23/2022基本概念数据仓库特征Inmon,1996v 面向主题u 一个主题领域的表来源于多个操作型应用(如:客户主题

3、,来源于:定单处理;应收帐目;应付帐目;)u 典型的主题领域:客户;产品;交易;帐目u 主题领域以一组相关的表来具体实现u 相关的表通过公共的键码联系起来(如:顾客标识号Customer ID)u 每个键码都有时间元素(从日期到日期;每月累积;单独日期)u 主题内数据可以存储在不同介质上(综合级,细节级,多粒度)v 集成 数据提取、净化、转换、装载v 稳定性 批处理增加,仓库已经存在的数据不会改变v 随时间而变化(时间维)v 管理决策支持2/23/2022基本概念Data Mart, ODSvData Mart 数据集市 - 小型的,面向部门或工作组级数据仓库。vOperation Data

4、Store 操作数据存储 ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。2/23/2022基本概念ETL, 元数据,粒度,分割vETL(也有ELT) ETL(Extract/Transformation/Load)数据装载、转换、抽取工具。Microsoft DTS; IBM Visual Warehouse etc.v元数据 关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。v粒度 数据仓库的数据单位中

5、保存数据的细化或综合程度的级别。细化程度越高,粒度越小。v分割 数据分散到各自的物理单元中去,它们能独立地处理。2/23/2022数据 数据仓库是一个建设过程,而不是一个产品。数据仓库数据仓库是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助决策支持。方法来帮助决策支持。数据仓库最新理解数据数据信息信息知识知识决策决策获取管理使用2/23/2022数据仓库提纲v 数据仓库概念v 数据仓库体系结构及组件v 数据仓库设计v 数据仓库技术(与数据库技术的区别)2/23/2022数据仓库体系结构及组件v 体系结构v ETL工具

6、v 元数据库(Repository)及元数据管理v 数据访问和分析工具2/23/2022体系结构 源数据库系统源数据库系统数据抽取、转换加载数据抽取、转换加载WarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadata数据集市数据集市数据访问与分析数据访问与分析中央数据仓库中央数据仓库Central DataWarehouseMid-TierMid-TierDataMartDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchang

7、eMDBDataCleansingToolRelationalAppl. PackageLegacyExternalRDBMSRDBMS2/23/2022带ODS的体系结构源数据库系统源数据库系统数据抽取、转换、加载数据抽取、转换、加载WarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadata数据集市数据集市数据访问与分析数据访问与分析中央数据仓库和中央数据仓库和ODSCentral DataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLoc

8、al MetadataLocal MetadataLocal MetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl. PackageLegacyExternalMDBEnd-UserDW Tools2/23/2022一个实际的数据仓库的完整架构数据转换数据转换中央数据仓库中央数据仓库信息展现信息展现业务用户业务用户源数据源数据数据获取数据获取数据管理数据管理数据使用数据使用项目管理 数据仓库实施指导方法论业务规划 信息评估 逻辑数据 模型设计 物理数据模型设计数据库管理 元数据管理 应用开发 顾问咨询 知识转移

9、营销系统营销系统财务系统财务系统物资系统物资系统PMS系统系统抽取转化过滤加载随即查询随即查询报表报表多维分析多维分析数据挖掘数据挖掘Portal集成集成RelationalTransformationOLAPData Mining数据集市企业级企业级EDW直接用户直接用户(客户端客户端)Olap用户用户Web用户用户应用应用服务器服务器决策者分析员研究员查询人员2/23/2022数据仓库的焦点问题-数据的获得、存储和使用RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterprise DataWarehouse D

10、atamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool2/23/2022ETL工具v 去掉操作型数据库中的不需要的数据v 统一转换数据的名称和定义v 计算汇总数据和派生数据v 估计遗失数据的缺省值v 调节源数据的定义变化 2/23/2022ETL工具体系结构2/23/2022元数据库及元数据管理v元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-Alex Berson etc, 1999v技术元数据 包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理

11、任务。包括: 数据源信息 转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法) 目标数据的仓库对象和数据结构定义 数据清洗和数据增加的规则 数据映射操作 访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等2/23/2022元数据库及元数据管理v 商业元数据 给用户易于理解的信息,包括: 主题区和信息对象类型,包括查询、报表、图像、音频、视频等 Internet主页 支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等v数据仓库操作型信息 例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法 2/23

12、/2022数据访问和分析工具v 报表v OLAPv 数据挖掘2/23/2022数据仓库设计v 自上而下(Top-Down)v 自底而上(Bottom Up)v 混合的方法v 数据仓库建模2/23/2022自上而下设计方法v 建立企业数据仓库H通用数据模型通用数据模型H数据重新执行数据重新执行H减少冗余和不一致减少冗余和不一致 H详细和历史数据详细和历史数据; 全局数据知识发现全局数据知识发现v 根据企业数据仓库(EDW)建立数据集市H部门级数据仓库部门级数据仓库H主要为汇总数据主要为汇总数据H直接依赖有效的数据仓库直接依赖有效的数据仓库外部数据外部数据操作数据操作数据企业数据仓库企业数据仓库2

13、/23/2022自底而上设计方法l创建部门的数据集市l范围局限于一个主题区域范围局限于一个主题区域l快速的快速的 ROI - 局部的商业需求得局部的商业需求得到满足到满足l本部门自治本部门自治 - 设计上具有灵活性设计上具有灵活性l对其他部门数据集市是一个好的对其他部门数据集市是一个好的指导指导l容易复制到其他部门容易复制到其他部门 l需要为每个部门做数据重建需要为每个部门做数据重建l有一定级别的冗余和不一致性有一定级别的冗余和不一致性l一个切实可行的方法一个切实可行的方法l扩大到企业数据仓库l 创建创建EDB作为一个长期的目标作为一个长期的目标局部数据集市局部数据集市外部数据外部数据操作型数

14、据操作型数据 (全部全部)操作型数据操作型数据(局部局部)操作型数据操作型数据(局部局部)局部数据集市局部数据集市企业数据仓库企业数据仓库EDB2/23/2022数据仓库建模 星型模式DateMonthYearDateCustIdCustNameCustCityCustCountryCust销售事实表 Date Product Store Customer unit_sales dollar_sales Yen_sales度量ProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore2/23/2022数据仓库建模 雪花模式 DateMonthDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_sales度量ProductNoProdNameProdDescCategoryQOH

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论