数据仓库--课件_第1页
数据仓库--课件_第2页
数据仓库--课件_第3页
数据仓库--课件_第4页
数据仓库--课件_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库数据仓库 一、基本概念一、基本概念 随着数据库技术的应用普及和发展,人们不再仅随着数据库技术的应用普及和发展,人们不再仅 仅满足于一般的业务处理,而对系统提出了更高的要仅满足于一般的业务处理,而对系统提出了更高的要 求:求:提供决策支持提供决策支持。 何谓数据仓库何谓数据仓库 一种面向分析的环境;一种面向分析的环境; 一种把相关的各种数据转换成有商业价值的信息一种把相关的各种数据转换成有商业价值的信息 的技术。的技术。 1、从数据库到数据仓库、从数据库到数据仓库 数据库系统能够很好的用于事务处理,但它对分数据库系统能够很好的用于事务处理,但它对分 析处理的支持一直不能令人满意。特别是当

2、以业务处析处理的支持一直不能令人满意。特别是当以业务处 理为主的联机事务处理(理为主的联机事务处理(OLTP) 应用和以分析处理应用和以分析处理 为主的为主的DSS应用共存于一个数据库系统时,就会产生应用共存于一个数据库系统时,就会产生 许多问题。许多问题。 例如,事务处理应用一般需要的是当前数据,例如,事务处理应用一般需要的是当前数据, 主要考虑较短的响应时间;而分析处理应用需要是历主要考虑较短的响应时间;而分析处理应用需要是历 史的、综合的、集成的数据,它的分析处理过程可能史的、综合的、集成的数据,它的分析处理过程可能 持续几个小时,从而消耗大量的系统资源。持续几个小时,从而消耗大量的系统

3、资源。 人们逐渐认识到直接人们逐渐认识到直接用事务处理环境来支持用事务处理环境来支持DSS是是 行不通的。要提高分析和决策的有效性,分析型处理及行不通的。要提高分析和决策的有效性,分析型处理及 其数据必须与操作型处理及其数据分离。必须把分析型其数据必须与操作型处理及其数据分离。必须把分析型 数据从事务处理环境中提取出来,按照数据从事务处理环境中提取出来,按照DSS处理的需要处理的需要 进行重新组织,建立单独的分析处理环境。进行重新组织,建立单独的分析处理环境。 数据仓库技术正是为了构建这种新的分析处理环境数据仓库技术正是为了构建这种新的分析处理环境 而出现的一种数据存储和组织技术。而出现的一种

4、数据存储和组织技术。 操作型数据操作型数据分析型数据分析型数据 细节的细节的综合的,或提炼的综合的,或提炼的 在存取瞬间是准确的在存取瞬间是准确的代表过去的数据代表过去的数据 可更新可更新不更新不更新 操作需求事先可知道操作需求事先可知道操作需求事先不知道操作需求事先不知道 生命周期符合生命周期符合SDLC完全不同的生命周期完全不同的生命周期 对性能要求高对性能要求高对性能要求宽松对性能要求宽松 一个时刻操作一个单元一个时刻操作一个单元一个时刻操作一个集合一个时刻操作一个集合 事物驱动事物驱动分析驱动分析驱动 面向应用面向应用面向分析面向分析 一次操作数据量小一次操作数据量小一次操作数据量大一

5、次操作数据量大 支持日常操作支持日常操作支持管理需求支持管理需求 数据仓库的定义及特征数据仓库的定义及特征 数据仓库理论的创始人数据仓库理论的创始人W.H.Inmon在其在其Building the Data Warehouse一书中,给出了数据仓库的四个一书中,给出了数据仓库的四个 基本特征:基本特征:面向主题,数据是集成的,数据是不可更新面向主题,数据是集成的,数据是不可更新 的,数据是随时间不断变化的的,数据是随时间不断变化的。 3、数据仓库中的数据组织、数据仓库中的数据组织 数据仓库中的数据分为四个级别:早期细节级,当数据仓库中的数据分为四个级别:早期细节级,当 前细节级,轻度综合级,

6、高度综合级。前细节级,轻度综合级,高度综合级。 19851998年年 销售明细表销售明细表 19982003年年 销售明细表销售明细表 19982003年年 每月销售表每月销售表 19982003年年 每季度销售表每季度销售表 DW中还有一类重要的数据:元数据(中还有一类重要的数据:元数据(metedata)。)。 元数据是元数据是“关于数据的数据关于数据的数据”(RDBMS中的数据字典中的数据字典 就是一种元数据)。就是一种元数据)。 数据仓库中的元数据描述了数据的结构、内容、索数据仓库中的元数据描述了数据的结构、内容、索 引、码、数据转换规则、粒度定义等。引、码、数据转换规则、粒度定义等。

7、 4、数据仓库系统结构、数据仓库系统结构 RDBMS 数据文件数据文件 其他其他 综合数据综合数据 当前数据当前数据 历史数据历史数据 元数据元数据 抽取、转换、装载抽取、转换、装载 数据仓库数据仓库 OLAP工具工具 DM工具工具 查询工具查询工具 分析工具分析工具 二、数据仓库设计二、数据仓库设计 数据仓库的设计分为如下三个阶段:数据仓库的设计分为如下三个阶段: 数据仓库建模数据仓库建模 分析主题域分析主题域 确定粒度层次确定粒度层次 确定数据分割策略确定数据分割策略 构建数据仓库构建数据仓库 数据的存储结构与存储策略数据的存储结构与存储策略 DSS应用编程应用编程 三、操作数据存储(三、

8、操作数据存储(ODS ) 在许多情况下,在许多情况下,DB-DW的两层体系结构并不适合的两层体系结构并不适合 企业的数据处理要求。因为,虽然可以粗略地把数据处企业的数据处理要求。因为,虽然可以粗略地把数据处 理分成操作型和分析型,但这两种处理处理并不是泾渭理分成操作型和分析型,但这两种处理处理并不是泾渭 分明的。分明的。 ODS(Operational Data Store)作为一个中间层次,)作为一个中间层次, 一方面,它包含企业全局一致的、细节的、当前的或接一方面,它包含企业全局一致的、细节的、当前的或接 近当前的数据,另一方面,它又是一个面向主题、集成近当前的数据,另一方面,它又是一个面

9、向主题、集成 的数据环境,适合完成日常决策的分析处理。的数据环境,适合完成日常决策的分析处理。 四、数据仓库的实现四、数据仓库的实现 数据仓库的工具主要有:数据预处理工具,数据数据仓库的工具主要有:数据预处理工具,数据 分析(分析( OLAP )工具,数据挖掘工具,)工具,数据挖掘工具,OLAP服务器。服务器。 数据仓库和数据仓库和OLAP工具基于工具基于多维数据模型多维数据模型(在数据(在数据 仓库中,通常以多维方式来存储数据。仓库中,通常以多维方式来存储数据。 )。)。 基本概念基本概念 维维:人们观察数据的特定角度。:人们观察数据的特定角度。 维的层次维的层次:人们观察数据的特定角度可能

10、存在细节:人们观察数据的特定角度可能存在细节 程度不同的多个描述方面,我们称其为维的层次。程度不同的多个描述方面,我们称其为维的层次。 多维分析的基本动作多维分析的基本动作 切片,旋转,上卷,下钻切片,旋转,上卷,下钻。 lSales volume as a function of product, month, and region Product Region Month Dimensions: Product, Location, Time Hierarchical summarization paths Industry Region Year Category Country Qua

11、rter Product City Month Week Office Day Total annual sales of TV in U.S.A. Date Product Country sum sum TV VCR PC 1Qtr2Qtr3Qtr 4Qtr U.S.A Canada Mexico sum 产品销售 情况 某年某月产 品销售情况 选定两个维:产品维和地区维选定两个维:产品维和地区维 时间维时间维 数据切片数据切片 产品维产品维 地区维地区维 产品维产品维 地区维地区维 基于基于RDBMS的数据仓库实现的数据仓库实现 关系数据库将多维数据库中的多维结构分为两类:关系数据库将多

12、维数据库中的多维结构分为两类: 一类是事实表,用来存储事实的度量值以及各个维的码一类是事实表,用来存储事实的度量值以及各个维的码 值;另一类是维表。值;另一类是维表。 数据仓库的设计模型有数据仓库的设计模型有:星型模式,雪花模式,混星型模式,雪花模式,混 合模式合模式 数据仓库的设计也可以理解为面向数据仓库的设计也可以理解为面向OLAP的数据库的数据库 设计。设计。 在星型模式中,主要数据存储在事实表中,没有在星型模式中,主要数据存储在事实表中,没有 冗余,并符合冗余,并符合3NF或或BCNF。 维值信息存储在维表中。维表一般不需要规范化。维值信息存储在维表中。维表一般不需要规范化。 主要原因

13、是维表是静态的,是否会产生因更新而导致主要原因是维表是静态的,是否会产生因更新而导致 异常也就不重要了。异常也就不重要了。 Products Pid pname category price Locations Locid city state country Pid timeid locid sales Timeid date month quarter year holiday_flag Times Sales 定单号定单号 销售员号销售员号 客户号客户号 产品号产品号 日期标识日期标识 地区名称地区名称 数量数量 总价总价 定单号定单号 定货日期定货日期 客户号客户号 客户名称客户名称

14、客户地址客户地址 销售员号销售员号 姓名姓名 城市城市 产品号产品号 产品名称产品名称 单价单价 日期标识日期标识 日日 月月 年年 地区名称地区名称 省省 事实表事实表 星型模式星型模式 定单号定单号 销售员号销售员号 客户号客户号 产品号产品号 日期标识日期标识 地区名称地区名称 数量数量 总价总价 定单号定单号 定货日期定货日期 客户号客户号 客户名称客户名称 客户地址客户地址 销售员号销售员号 姓名姓名 城市城市 产品号产品号 产品名称产品名称 单价单价 日期标识日期标识 日日 月月 年年 地区名称地区名称 省省 事实表事实表 雪花模式雪花模式 产品号产品号 公司代码公司代码 公司代码

15、公司代码 公司名称公司名称 地址地址 五、五、SQL Server 2000 数据仓库工具数据仓库工具 数据转换服务数据转换服务(DTS) 用于向数据仓库中加载数据用于向数据仓库中加载数据 数据复制数据复制 用于分布式数据仓库分布和加载数据用于分布式数据仓库分布和加载数据 OLE DB 提供应用程序与数据源的接口提供应用程序与数据源的接口API Analysis Service 用于采集和分析数据仓库中的数据用于采集和分析数据仓库中的数据 English Query 提供使用英语语言查询数据仓库提供使用英语语言查询数据仓库 Meta Data Service 浏览数据仓库中的元数据浏览数据仓库

16、中的元数据 PivotTable服务服务 用于定制操作多维数据的客户端接口用于定制操作多维数据的客户端接口 在数据仓库或者数据市场中的信息可以由联机在数据仓库或者数据市场中的信息可以由联机 分析分析(OLAP)处理,处理,OLAP可以有效地以由维度和度可以有效地以由维度和度 量组成的立方体方式查看数据。然而,存在着这种量组成的立方体方式查看数据。然而,存在着这种 问题:虽然问题:虽然OLAP合计是在数据仓库中可以达到的查合计是在数据仓库中可以达到的查 询性能的关键因素,但是存储这些合计数据的成本询性能的关键因素,但是存储这些合计数据的成本 是磁盘存储量。事实上,合计数据量可以轻易地超是磁盘存储

17、量。事实上,合计数据量可以轻易地超 过原有的数据量。另外,当维度和合计量提高时,过原有的数据量。另外,当维度和合计量提高时, 所要求的所要求的OLAP数据存储量也大大地提高。这种对存数据存储量也大大地提高。这种对存 储量的极大要求一般称为储量的极大要求一般称为数据爆炸数据爆炸。 OLAP描述的描述的 是一种多维数据服务,这种服务的设计目的是保证是一种多维数据服务,这种服务的设计目的是保证 分析员、经理和决策者针对特定的问题,通过快速、分析员、经理和决策者针对特定的问题,通过快速、 一致、交互式的实时数据访问和分析,获得有创意一致、交互式的实时数据访问和分析,获得有创意 的发现。的发现。 在在S

18、QL Server 2000中,有中,有3种用于存储数据仓库种用于存储数据仓库 中维度数据的方法,每一种方法都随其数据存储要求中维度数据的方法,每一种方法都随其数据存储要求 和其数据检索速度而变化。和其数据检索速度而变化。 (l) MOLAP:多维型:多维型OLAP在一个用于压缩索引在一个用于压缩索引 的永久数据存储中存储维度数据和事实数据。合计存的永久数据存储中存储维度数据和事实数据。合计存 储用来加快数据访问。储用来加快数据访问。MOLAP查询引擎是专有的,查询引擎是专有的, 并且优化成由并且优化成由MOLAP数据存储使用的存储格式。数据存储使用的存储格式。 MOLAP提供了比提供了比ROLAP更快的查询处理速度,并且更快的查询处理速度,并且 要求更少的存储空间。然而,它不能较好地伸缩,并要求更少的存储空间。然而,它不能较好地伸缩,并 且要求使用单独的数据库来存储。且要求使用单独的数据库来存储。 (2) ROLAP:关系型:关系型OLAP在关系型数据表中存在关系型数据表中存 储合计。储合计。ROLAP针对关系型数据库的应用允许其利针对关系型数据库的应用允许其利 用已有的数据库资源,并且允许用已有的数据库资源,并且允许R OLAP应用程序很应用程序很 好地伸缩。然而,好地伸缩。然而,ROLAP使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论