第十七课--数据仓库和数据集市.ppt_第1页
第十七课--数据仓库和数据集市.ppt_第2页
第十七课--数据仓库和数据集市.ppt_第3页
第十七课--数据仓库和数据集市.ppt_第4页
第十七课--数据仓库和数据集市.ppt_第5页
免费预览已结束,剩余31页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Copyright2007创智新程,数据仓库和数据集市,Copyright2007-2009创智新程,Copyright2007创智新程,数据仓库和数据集市,目标什么是数据仓库数据仓库系统体系结构操作数据库与数据仓库的区别维度建模的相关概念维度建模的基本步骤数据集市,Copyright2007创智新程,数据仓库的定义,数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volation)、反映历史变化(TimeVariant)的集合数据,用于支持管理决策和信息的全局共享。-W.H.Inmon,Copyright2007创智新程,面向主题的,数据仓库是面向不同的主题域进行组织。一个主题通常与多个操作型信息系统相关。,Copyright2007创智新程,集成的,数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。,Copyright2007创智新程,相对稳定的,数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。,Copyright2007创智新程,反映历史变化的,数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。,Copyright2007创智新程,数据仓库系统体系结构,Copyright2007创智新程,数据仓库系统体系结构,数据源数据存储及管理OLAP引擎前端工具,Copyright2007创智新程,操作数据库与数据仓库的区别,操作数据库系统的主要任务是联机事务处理OLTP。数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP。,Copyright2007创智新程,维度建模的相关概念,数据仓库数据集市事实维度数据挖掘,Copyright2007创智新程,维度建模的相关概念,分析空间数据仓库中一定量的数据,用于进行数据挖掘以发现新信息同时支持管理决策。切片一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。星型模型一种使用关系数据库实现多维分析空间的模型。雪花模型不管什么原因,当星型模型的维度需要进行规范化时,星型模型就演化为雪花模型。,Copyright2007创智新程,多维数据模型,一种非规范化的关系模型。由一组属性构成的表所组成。表跟表之间的关系通过关键字和外键来定义。以良好的可理解性和方便的产生报表来进行数据组织,很少考虑修改的性能。通过SQL或者相关的工具实现数据的查询和维护。,Copyright2007创智新程,多维数据模型,数据仓库和OLAP工具基于多维数据模型,该模型将数据看作数据立方体形式。数据立方体允许以多维对数据建模和观察。,一个具有x、y、z维度的方块,Copyright2007创智新程,多维数据模型的组成,维事实数据立方体,Copyright2007创智新程,多维数据模型举例,关系表与多维Cube,Copyright2007创智新程,多维建模技术,星型和雪花模式是主要的存在形式。星型模式包含一个大的包含大批数据的事实表和一系列维表。雪花模式是星型模式的变种,不同的是将某些维表规范化。,Copyright2007创智新程,星型模式,Copyright2007创智新程,维表进一步层次化,改善查询性能,增加表数量,增加查询复杂性。,雪花模式,Copyright2007创智新程,事实表,每一个事实表通常包含了处理所关心的一系列的度量值。每一个事实表的行包括:具有可加性的数值型的度量值。文本事实通常具有不可预见的内容,很难进行分析。与维表相连接的外键。通常具有两个和两个以外的外键。外键之间表示维表之间多对多的关系。,Copyright2007创智新程,事实表,事实表的特征非常大包含几百几千条甚至几万、几十万的记录。内容相对的窄列数较少经常发生变化现实世界中新事件的发生-事实表中增加一条记录。典型情况下,仅仅是数据的追加。事实表的使用各类度量值的聚类计算,Copyright2007创智新程,维表,每一张维表对应现实世界中的一个对象或者概念。例如:客户、产品、日期、地区、商场维表的特征包含了众多描述性的列维表的范围很宽(具有多个属性)通常情况下,跟事实表相比,行数相对较少通常10万条内容相对固定几乎就是一类查找表,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,解题步骤定义OLAP的数据集市:包括使用星型模型或雪花模型。事实的选择:通过事实表的共有特性及四种常见样式来选择适当的事实种类。四种常见的事实样式为:事务事实、快照事实、线性项目事实、事件/状态事实。维的创建。聚合体的设计。,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,设计分析OLAP数据来源:Northwind数据库共有8个表,分别是Orders、OrderDetails、Customers、Products、Categories、Employees、Shippers及Suppliers。Time_Dim时间维Northwind销售系统的日期以Orders的出货日为事实的时间,因此产生一个Time_Dim。,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,设计分析事实表的主轴:Orders和OrderDetails两个表的连接。OrderDetails中包括了数值字段:UnitPrice、Quantity及Discount。可以推算出事实所需要的度量值:运费、销售金额、销售数量和折扣。四个维表Customer_Dim、Product_Dim、Employee_Dim及Shipper_Dim的确定。Orders及OrderDetails两个表中的外部键有CustomerID、ProductID、EmployeeID及ShipperID。,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,设计分析Product_Dim具有一个分层结构:产品类别,并且采用的是合并维分层结构。Northwind数据库Categories的CategoriesID与Products的CategoriesID是一对多的关系,因此可以通过连接将Categories的CategoriesName合并到Product_Dim中。Northwind数据库Suppliers的SupplierID与Products的SupplierID是一对多的关系,因此可以通过连接将Suppliers的CompanyName合并到Product_Dim的供应商中。,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,设计实施建立Sales_Fact事实表主键是由时间序号、客户序号、发货人序号、产品序号及员工序号共同组成一个多值键,并且这几个字段的值都是来自维表的外部键。,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,设计实施建立Time_Dim维表。时间序号,是一个由标识(Identity)生成的代理键。出货日,即Orders的ShippedDate。几乎所有的数据仓库中均包含时间维。数据仓库是反映历史变化的允许针对历史的数据进行分析典型的粒度:eachrow=1day,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,设计实施建立Customer_Dim维表客户序号,是一个由标识生成的代理键。其他字段都是由Customers这个表来产生。,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,设计实施建立Product_Dim维表。产品序号,是一个由标识生成的代理键。Product_Dim有一个分层结构:产品类别,并且采用的是合并维分层结构。所以产品类别这个字段从Categories的ProductID与Products的ProductID连接而来。其他字段都是由Products这个表来产生。,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,设计实施建立Employee_Dim维表。员工序号,是一个由标识生成的代理键。员工姓名:由DTS的ActiveXScript将Northwind数据库中的Employees这个表的lastname与firstname合并而成。年龄及年薪由Employees这个表的BirthDate、HireDate产生。年龄层及年薪层是基于分析便利而产生的统计组,当数据由OLTP转换到OLAP时,由DTS的ActiveXScript来负责做建立分组的动作。其他字段都是由Employees这个表来产生。,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,设计实施建立ShipperDim这个维表发货人序号,是一个由标识生成的代理键。其他字段都是由Shippers这个表来产生。,Copyright2007创智新程,任务一:设计Northwind数据库的星型模型,将五个维表Time_Dim、Customer_Dim、Product_Dim、Employee_Dim及Shipper_Dim与事实表Sales_Fact作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论