第二章 数据仓库的技术与开发-hym.ppt_第1页
第二章 数据仓库的技术与开发-hym.ppt_第2页
第二章 数据仓库的技术与开发-hym.ppt_第3页
第二章 数据仓库的技术与开发-hym.ppt_第4页
第二章 数据仓库的技术与开发-hym.ppt_第5页
已阅读5页,还剩127页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章数据仓库的技术与开发,数据仓库的技术与开发,数据仓库的体系结构 元数据 数据仓库的数据模型 粒度和分割 数据仓库和开发流程 总线型结构的数据仓库,数据仓库的技术与开发,数据仓库的体系结构 元数据 数据仓库的数据模型 粒度和分割 数据仓库和开发流程 总线型结构的数据仓库,数据仓库的体系结构,用户眼中的数据仓库结构 数据仓库系统的体系结构 数据集市,数据仓库的体系结构,用户眼中的数据仓库结构 数据仓库系统的体系结构 数据集市,组成部分,数据源 数据仓库的数据存储 数据仓库的应用工具 可视化用户界面,图示,数据仓库 的数据存储,应用工具 1.OLAP 2.数据挖掘 3.其它,用户界面,抽取、净

2、化、变换,提供原始数据,企业内部信息,企业外部信息,对存放在数据仓库中的数据进行分析处理,数据仓库的用户能够方便直观与系统进行交互,支持比较复杂的查询分析,从大量数据中寻找尚未发现的知识,从数据源中获取有效数据,进行有效组织,存储在数据仓库中,数据仓库的体系结构,用户眼中的数据仓库结构 数据仓库系统的体系结构 数据集市,数据仓库系统的体系结构,数据仓库体系结构的框架 数据仓库的技术体系结构,数据仓库系统的体系结构,数据仓库体系结构的框架 数据仓库的技术体系结构,数据仓库体系结构的框架,数据体系结构 系统体系结构 技术体系结构,数据仓库体系结构的框架,技术体系结构,对网络环境、软硬件平台的性能要

3、求,如何获得信息? 如何使用信息?,如何将原始数据变换成所需的信息,在适当的时间以正确的内容和恰当的格式存储或输出?,对原始数据进行抽取、清洗、转换和存储,生成分析报表等数据处理结果提供给用户。,数据仓库系统的体系结构,数据仓库体系结构的框架 数据仓库的技术体系结构,数据仓库的技术体系结构,后台数据预处理 数据仓库数据管理 数据仓库的前台查询服务,数据仓库的技术体系结构,三大过程: 预处理 数据管理 查询服务,数据仓库的技术体系结构-预处理,功能:对数据源中的数据进行预处理,数据仓库的技术体系结构-数据管理,功能:完成数据仓库的建模、确定数据的粒度级别、指定数据仓库的物理存储模式、确保数据仓库

4、的运行效率,数据仓库的技术体系结构-数据管理,数据存储: 数据源 主题数据 数据准备区 查询服务数据,数据源,主题数据,最终查询结果,数据准备区,查询服务数据,数据仓库的技术体系结构-应用服务,内部 数据源,应用工具 OLAP 数据挖掘 其它,外部 数据源,用户界面,数据源,数据预 处理工具 抽取/清洗 转换/加载,数据准备区,数据仓库 的数据存储,数据仓库 管理工具,数据 集市,数据 集市,查询 服务数据,元数据,功能:提供各种应用工具来对数据仓库中的数据进行处理,数据仓库的技术体系结构-应用服务,工具分类 数据挖掘工具 特别查询工具 OLAP 交互报告 静态报告,内部 数据源,应用工具 O

5、LAP 数据挖掘 其它,外部 数据源,用户界面,数据源,数据预 处理工具 抽取/清洗 转换/加载,数据准备区,数据仓库的数据存储,数据仓库 管理工具,数据 集市,数据 集市,查询 服务数据,元数据,数据仓库的体系结构,用户眼中的数据仓库结构 数据仓库系统的体系结构 数据集市,数据集市,数据集市的概念 数据集市的分类,数据集市,数据集市的概念 数据集市的分类,数据集市的概念,数据集市我们可以把它理解成为部门级的数据仓库 数据仓库是数据集市的集合,数据集市,数据集市的概念 数据集市的分类,数据集市的分类,独立的数据集市 从属的数据集市,数据集市的分类,独立的数据集市 从属的数据集市,独立的数据集市

6、,如果一个数据集市不依赖于中央数据仓库,则这个数据集市为独立数据集市。 独立数据集市可能会造成各数据集市中的数据不一致、形成信息孤岛、维护困难等问题。,数据集市的分类,独立的数据集市 从属的数据集市,从属的数据集市,从数据仓库中获得数据,并根据部门的分析领域和查询功能进行重新组织和优化的数据集市称为从属数据集市。 保证了各个数据集市间和数据仓库中数据的一致性。,数据源,从属 数据集市,从属 数据集市,数据源,数据源,应用工具,应用工具,应用工具,数据 仓库,内部 数据源,应用工具 OLAP 数据挖掘 其它,外部 数据源,用户界面,数据源,数据预 处理工具 抽取/清洗 转换/加载,数据准备区,数

7、据仓库 的数据存储,数据仓库 管理工具,数据 集市,数据 集市,查询 服务数据,元数据,数据仓库的技术与开发,数据仓库的体系结构 元数据 数据仓库的数据模型 粒度和分割 数据仓库和开发流程 总线型结构的数据仓库,元数据,元数据的定义 元数据的主要作用 元数据的分类,元数据,元数据的定义 元数据的主要作用 元数据的分类,元数据的定义,定义一:关于数据的数据。 定义二:元数据的描述 前台元数据:更具描述性质,它帮助查询工具和报表生成更顺利地工作,它主要出于终端用户考虑。 后台元数据:与过程相关,它指导着数据抽取、净化和装载的过程。,元数据,元数据的定义 元数据的主要作用 元数据的分类,元数据的主要

8、作用,管理数据仓库:利用元数据来存储和更新数据。 帮助使用数据仓库:用户利用元数据来了解、访问数据。,元数据,元数据的定义 元数据的主要作用 元数据的分类,元数据的分类,据内容分: 据作用分:,元数据的分类-内容,元数据无处不在,内部 数据源,应用工具 OLAP 数据挖掘 其它,外部 数据源,用户界面,数据源,数据预 处理工具 抽取/清洗 转换/加载,数据准备区,数据仓库 的数据存储,数据仓库 管理工具,数据 集市,数据 集市,查询 服务数据,元数据,数据源元数据,预处理数据元数据,数据仓库主题数据元数据,查询服务元数据,元数据的分类-作用,管理元数据:创建和维护数据仓库(包括数据源元数据、预

9、处理数据元数据和数据仓库主题数据元数据三类) 用户元数据:帮助用户进行查询(包括查询服务元数据),数据仓库的技术与开发,数据仓库的体系结构 元数据 数据仓库的数据模型 粒度和分割 数据仓库和开发流程 总线型结构的数据仓库,数据仓库的数据模型-对现实世界进行抽象的工具,类似数据库的设计 数据仓库的数据建模 概念建模 逻辑建模 物理建模,数据仓库的数据模型-对现实世界进行抽象的工具,类似数据库的设计 数据仓库的数据建模 概念建模 逻辑建模 物理建模,数据库的设计,数据仓库的数据模型-对现实世界进行抽象的工具,类似数据库的设计 数据仓库的数据建模 概念建模 逻辑建模 物理建模,数据仓库的数据建模,数

10、据仓库的数据建模,数据建模的三个层次: 概念模型 逻辑模型 物理模型,数据仓库的数据模型-对现实世界进行抽象的工具,类似数据库的设计 数据仓库的数据建模 概念建模 逻辑建模 物理建模,概念建模,概念建模的目的 概念建模的工作内容 概念建模的方法 概念建模的例子,概念建模,概念建模的目的 概念建模的工作内容 概念建模的方法 概念建模的例子,概念建模的目的,确定数据仓库中应该包含的数据类及 其相互关系,而不必考虑具体技术条件的 限制。,概念建模,概念建模的目的 概念建模的工作内容 概念建模的方法 概念建模的例子,概念建模的工作内容,确定系统应包含的主题域 确定数据挖掘中各主题的要素及其描述属性 分

11、析问题时所关心的事实 分析问题时的各种观察角度 描述事实及观察角度的属性,对数据仓库系统设计的需求分析,概念建模,概念建模的目的 概念建模的工作内容 概念建模的方法 概念建模的例子,概念建模的方法,传统方法ER图 缺点 多维数据模型(星型模型) 维度 事实度,概念建模的方法,传统方法ER图 缺点 多维数据模型(星型模型) 维度 事实度,传统方法ER图,从数据模型的角度看,所有实体之间的关系是对等的。 但是实际上数据仓库的实体绝不会是相互对等的。,概念建模的方法,传统方法ER图 缺点 多维数据模型(星型模型) 维度 事实度,缺点,如左图,代表供应商、客户、产品和发货的实体数量只是一些说明订单的实

12、体,而订单实体则是管理者所关心的分析对象。 这样,在数据仓库的应用中将有大量的数据载入订单实体表,而其他实体表中的数据载入量则相对较少。因此需要一种不同的数据模型设计处理方式,来管理数据仓库中载入 某个实体的大量数据的设计结构。 这就是多维数据模型,概念建模的方法,传统方法ER图 缺点 多维数据模型(星型模型) 维度 事实度,多维数据模型(星型模型),它是一种能够清楚表达分析领域的数据模型。 它包括两种建模要素: 观察事物的角度-维度 观察得到的事实数据-事实,概念建模,概念建模的目的 概念建模的工作内容 概念建模的方法 概念建模的例子,概念建模的例子,问题:为了对应日趋激烈的市场竞争,商场经

13、理需要更加准确地了解商场的经营状况,跟踪市场需求,更加合理地定制商品采购与销售策略。,概念建模的例子,主题域的确定:商场经理迫切地需求在于把握商场的经营状况,这主要是商场商品的采购情况和销售情况。一般经理感兴趣或需要进行分析主要有: 顾客的购买趋势 商品供应市场的变化趋势 供应商信用等级情况 要进行以上分析,所需要的数据包括: 商品销售数据 商品采购数据 商品库存数据 顾客数据 供应商数据,概念建模的例子,确定各主题的事实和维度(以商品销售为例),概念建模的例子(描述属性),概念建模的例子,练习:以商品采购为例确定各主题的事实和维度,数据仓库的数据模型-对现实世界进行抽象的工具,类似数据库的设

14、计 数据仓库的数据建模 概念建模 逻辑建模 物理建模,逻辑建模,逻辑模型是概念模型到物理模型的一个过渡 逻辑模型的作用 逻辑模型的描述方法 逻辑模型的工作内容,逻辑建模,逻辑模型是概念模型到物理模型的一个过渡 逻辑模型的作用 逻辑模型的描述方法 逻辑模型的工作内容,逻辑模型的作用,由于概念模型并不能直接建立数据仓库的 物理模型,所以我们必须通过逻辑模型来 指导数据仓库的物理实施。,逻辑建模,逻辑模型是概念模型到物理模型的一个过渡 逻辑模型的作用 逻辑模型的描述方法 逻辑模型的工作内容,逻辑模型的描述方法,逻辑模型的描述方法是利用关系模型,即 用一系列的关系模式来表达数据仓库概念 模型中的事实实

15、体和维度实体(另外还要 考虑粒度),逻辑建模,逻辑模型是概念模型到物理模型的一个过渡 逻辑模型的作用 逻辑模型的描述方法 逻辑模型的工作内容,逻辑模型的工作内容,粒度层次划分 数据分割策略的确定 关系模型的定义* 数据源及数据抽取模型的确定*,逻辑模型的工作内容,粒度层次划分 数据分割策略的确定 关系模型的定义* 数据源及数据抽取模型的确定*,数据分割策略的确定,数据分割策略是指把逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储的方法。 比如,由于超市管理者经常关心的问题是商品在某个季节的销售情况,从而我们将超市的销售数据按季节进行分割,可以大大减少数据检索的范围,从而达到减少物理

16、I/O次数,提高系统性能的目的,逻辑模型的工作内容,粒度层次划分 数据分割策略的确定 关系模型的定义* 数据源及数据抽取模型的确定*,关系模型的定义,关系模型包括事实表的关系模式和维度表 的关系模式,分别包含列名、含义、列的 码属性、取值范围和类型大小等。,销售事实表的关系模式,商品维度表的关系模式,练习,描述顾客维度表的关系模式,逻辑模型的工作内容,粒度层次划分 数据分割策略的确定 关系模型的定义* 数据源及数据抽取模型的确定*,数据抽取模型的过程,数据源中抽取数据到准备区中 从哪些数据源中抽取数据 数据源是基于什么系统平台 进行数据抽取的过滤和连接 将数据准备区中的数据经过各种清理工作加载

17、到数据仓库中去 清理工作包括格式转换、类型转换、统一单位、按粒度层次进行汇总、聚集等。,数据抽取模型的过程的例子,数据源中抽取数据到准备区中,表名与列名,过滤与连接条件,比较值,复合条件,备注,Saledata.date,2000-12-31,AND,取2000年以后的数据,数据抽取模型的过程的例子,将准备区中的数据加载到数据仓库中,数据仓库的数据模型-对现实世界进行抽象的工具,类似数据库的设计 数据仓库的数据建模 概念建模 逻辑建模 物理建模,物理建模,物理建模考虑要素 物理建模过程,物理建模,物理建模考虑要素 物理建模过程,物理建模考虑要素,数据仓库的性能问题 数据粒度与分割 合理冗余 进

18、一步分割数据 预格式化、预分配 建立人工关系 预连接表,提高对数据仓库中数据的I/O效率,因此,进行数据仓库的物理设计就是要物理地组织好数据,以访问尽可能少的数据块返回尽可能多的有效记录,物理建模,物理建模考虑要素 物理建模过程,物理建模过程,事实表模型设计 维模型设计,例子,金融企业客户主题逻辑模型,事实表模型设计,客户事实表 客户基本情况表(帐号Integer9,姓名Character12,出生地Character20,开户时间Date) 客户变动情况表(帐号Integer9,省Character20,市Character20,县Character20,街道Character20,邮政编码

19、Character6) 客户贷款事实表 客户房屋贷款情况表(帐号Integer9,地址Character50,委托人Character12,评估Memo) 客户汽车贷款情况表(帐号Integer9,时间Date,制造商Character40,型号Integer10,颜色Character8) 客户存款事实表 客户存款表1(帐号Integer9,时间Date,最小存款额Number7.2,最小余额Number7.2) 客户存款表2(帐号Integer9,时间Date,最小存款额Number7.2,最小余额Number7.2) 客户担保事实表 客户担保表1(帐号Integer9,时间Date,责任

20、人Character12,种类Character2,担保金额Number7.2),维模型设计,客户主题维度表模型 时间纬度表(年Date,月date,日Date) 地点纬度表(省Character20,市Character20,县Character20,街道Character20) 贷款纬度表(抵押贷款Character20,非抵押贷款Character20),粒度和分割,粒度: 分割:,指数据仓库的数据单位中保存数据的细化或综合 程度的级别。粒度可以影响数据仓库所能回答的 查询类型,同时决定了存放在数据仓库中数据量 的大小和查询效率。,是把大的数据集划分成多个较小的数据集,并分散到不同的物理

21、单元进行存储,使它们能独立地被处理。它便于管理,并可以提高访问效率。,粒度,粒度的确定 粒度划分实例,粒度,粒度的确定 粒度划分实例,粒度的确定,比较高粒度和低粒度 确定粒度大小的考虑原则 粒度的实际应用,粒度的确定,比较高粒度和低粒度 确定粒度大小的考虑原则 粒度的实际应用,比较高粒度和低粒度,粒度的确定,比较高粒度和低粒度 确定粒度大小的考虑原则 粒度的实际应用,确定粒度大小的考虑原则,如数据仓库的空间有限,则应考虑采用高粒度级别 如追求数据仓库能回答的问题类型的能力,则应考虑采用低粒度级别 如要减轻处理器的负担,提高查询效率,则应考虑采用高粒度级别 如没有存储空间的限制,则可采用多重粒度

22、级别,粒度的确定,比较高粒度和低粒度 确定粒度大小的考虑原则 粒度的实际应用,粒度的实际应用,一般普遍采用双重粒度级别 一个低粒度的“真实档案”细节数据 一个轻度综合的较高的数据粒度级别,数据仓库的存储空间与粒度划分策略对照表,一年数据,五年数据,粒度,粒度的确定 粒度划分实例,粒度划分实例,客户某某在5月1日有无打电话给某某? 客户某某在5月份市话通话次数是多少? 某月杭州每户电话平均打多少个长途电话?,客户通话记录,客户通话综合信息,练习,航空公司希望分析在其服务旅客中的常客旅行趋势,可 为公司正确定位航空市场中的常客市场,并且希望跟踪 不同航线上旅客的季节变化情况和增长;跟踪不同航班 上

23、所消费的食品和饮料情况,帮助航空公司安排不同航 线上的航班和食品供应。如果航空公司希望将旅客数据 至少保留三年,公司每天有100条航线,共300架次飞行, 每架次的旅客平均为100人。每架次的食品种类有50种, 前后共采购1000种。食品受季节影响较大,每年食品价 格呈现一种周期性变化。食品的详细数据只需要一年就 可以。请为航空数据仓库设计一个合适的数据粒度模型,数据分割,数据分割的好处 数据分割的标准 数据分割的考虑因素 数据分割的例子,数据分割,数据分割的好处 数据分割的标准 数据分割的考虑因素 数据分割的例子,数据分割的好处,容易重构 方便建立更高的索引 可以在用户能够容忍的限度内实施顺序扫描 容易对数据仓库进行监控和管理,数据分割,数据分割的好处 数据分割的标准 数据分割的考虑因素 数据分割的例子,数据分割的标准,按时间分割 按地理位置分割 按对象类别分割 多种组合分割,数据分割,数据分割的好处 数据分割的标准 数据分割的考虑因素 数据分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论