数据仓库第二章数据仓库组成部分.ppt_第1页
数据仓库第二章数据仓库组成部分.ppt_第2页
数据仓库第二章数据仓库组成部分.ppt_第3页
数据仓库第二章数据仓库组成部分.ppt_第4页
数据仓库第二章数据仓库组成部分.ppt_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chapter Two 数据仓库组成部分,本章学习目标 数据仓库的定义 区分数据仓库和数据集市 学习数据仓库的每一个组成部分 介绍元数据的概念和它的重要性 提纲 2.1 定义的特点 2.2 数据仓库和数据集市 2.3 数据仓库的组成部分 2.4 元数据MetaData,数据仓库的创始者 Bill Inmon : “A Data Warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of managements decisions.” “数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合” 数据仓库的开拓者Sean Kelly,认为数据仓库中的数据是: 彼此分离 可利用的 综合的,包含时间标记的 面向主题的 非易失性的 能访问的,2.1 定义的特点,“面向主题”的数据 在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的 在数据仓库中 数据是按主题而不是按照应用程序存储的。 数据是跨应用程序的,订单处理,客户贷款,顾客帐单,可接收帐款,索赔处理,储蓄帐目,销售,产品,客户,帐户,索赔,政策,操作型应用程序,数据仓库主题,储蓄帐户,支票帐户,贷款帐户,主题帐户,来自应用程序的数据,数据仓库主题,“综合”的数据 数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台) 数据进入数据仓库前,需要进行的标准化工作: 命名规则 编码 数据特性 度量单位,数据的“时间特性” 数据仓库中的每一个数据结构都包含了时间要素。 数据仓库中的数据是和时间变化相关的数据 可以对过去进行分析 与当前的信息相关 可以对未来进行预测,数据的非易变性 操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新 数据仓库中的数据用来进行查询和分析的 不能在数据仓库中实时地删除数据 不能在数据仓库中修改数据,决策支持系统,操作型系统,OLTP数据库,数据仓库,读取 增加 修改 删除,读取,Data Granularity,数据粒度:数据的细节程度 在操作型系统中,数据粒度一般都很细。一般不保存加和的数据。 在数据仓库中,保存加和这一个数据项。一般来说,按不同层次组织数据,用户是从高层次向低层次的细节过渡。 根据需求的不同,需要不同层次的数据细节。,银行数据仓库的三个层次 数据粒度,2.2 数据仓库和数据集市,数据仓库和数据集市是一个混淆不清的概念。是学术界争论的话题 Bill Inmon(1998):“今年IT经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市”,今天依然如此。 在建立数据仓库前,我们需要考虑下列这些问题: 采取自上而下还是自下而上的方法 企业范围还是部门范围 先建立数据仓库还是数据集市 数据集市是否相互独立,数据仓库 vs. 数据集市(Data Mart),自上而下的方法 优点 可以从整个企业的角度看待数据 有机的结合,不是彼此分离的数据集市组成 数据内容唯一、集中存储 集中控制和集中的规则 对反复的查询能够做出快速的反映 缺点 需要花费较多的时间建造 失败风险很大 需要高水平的总和技能 费用很高,自下而上的方法 优点 实施快速而方便 良好的投资回报 失败的风险较小 可以先建立重要的数据集市 项目团队可以从中学习和成长 缺点 每个数据集市对数据的视角都较窄 每个数据集市都有多余的数据 总有矛盾和不一致的数据 增加无法管理的接口,折中的思想,主要推崇者为著名的数据库专家Ralph Kimball,主要步骤如下: 从整个企业的角度来计划和定义需求 为完整的仓库创造一个体系结构 使数据内容一致而且标准化 将数据仓库作为一组超级数据集市来实施,每次一个,2.3 数据仓库的组成部分,数据仓库:各个功能块或组件,2.3.1 源数据部分,主要类别 生产数据:多个系统多种数据的标准化、转换、整合 内部数据:表格、文档 存档数据:旧的历史的数据 外部数据:社会的企业,社会的人,2.3.2 数据准备部分,ETL(ETCL) 数据抽取(Extract):多源、异构数据的抽取 数据转换(Transform): 清洗、标准化等过程 数据装载(Load) 这个过程需要很多的时间 最初的装载工作需要载入大量的数据 更新周期的决定(年、季、月、日),2.3.3数据存储部分,数据仓库的数据存储器是一个独立的部分 与操作型的数据库分开存储 大多数数据仓库都采用关系数据库管理系统,2.3.4 信息传递部分,多种信息传递方式 特别的报表 复杂的查询 多维分析 统计分析 主管信息系统的需求 数据挖掘,2.4 元数据MetaData,描述数据的数据 数据仓库内容的一本字典 元数据是数据仓库数据本身信息的数据 元数据的类型 操作型元数据 包含了所有操作型数据源的信息 抽取和转换元数据 包含了源数据系统的数据抽取信息(抽取方法、抽取商业规则) 最终用户元数据 允许最终用户使用自己的商业术语和自己一般认可的方式来找寻信息 元数据对于数据仓库极其重要,小结,数据仓库定义的特点是:面向主题的、完整的、包含时间变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论