数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第1页
数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第2页
数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第3页
数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第4页
数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库与数据挖掘数据仓库与数据挖掘 (data warehousing and data miningdata warehousing and data mining) 石家庄铁道大学石家庄铁道大学 dw&dm2021-11-14-2-内内 容容 第第2章章 数据仓库的数据模型数据仓库的数据模型 第第3章章 数据仓库的数据组织数据仓库的数据组织 第第4章章 数据仓库设计数据仓库设计dw&dm2021-11-14-3-第第2章章 数据仓库的数据模型数据仓库的数据模型本章要点本章要点 数据仓库的概念模型:信息包图数据仓库的概念模型:信息包图 数据仓库的逻辑模型:星型图、雪花模型数

2、据仓库的逻辑模型:星型图、雪花模型 数据仓库的物理模型数据仓库的物理模型dw&dm2021-11-14-4-数据仓库的数据模型数据仓库的数据模型 与数据库系统数据模型的区别与数据库系统数据模型的区别n数据仓库的数据模型中不包含纯操作型数据。数据仓库的数据模型中不包含纯操作型数据。n数据仓库的数据模型扩充了键结构,增加了时间属性作为数据仓库的数据模型扩充了键结构,增加了时间属性作为键的一部分。键的一部分。n数据仓库的数据模型中增加了一些面向主题的导出数据。数据仓库的数据模型中增加了一些面向主题的导出数据。dw&dm2021-11-14-5- 星型图模型星型图模型 物 理 数 据

3、模物 理 数 据 模型型概念模型概念模型逻辑模型逻辑模型物理模型物理模型面向用户的需求面向用户的需求细细 化化层层次次更详细的更详细的技术细节技术细节数据仓库的数据模型数据仓库的数据模型信息包图信息包图dw&dm2021-11-14-6-信息包图(概念模型)信息包图(概念模型)n信息包图信息包图:是数据仓库的数据模型的第一层或最高层。由:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是于大多数商务数据是多维多维的,但传统的数据模型表示三维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计

4、多维信息包并与开发者和其他用户建立联系。允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。人员思维模式的可视化表示。n工作:工作:n确定确定系统边界系统边界:决策类型、需要的信息、原始信息:决策类型、需要的信息、原始信息n确定确定主题域主题域及其内容:主题域的公共键、联系、属性组及其内容:主题域的公共键、联系、属性组n确定确定维度维度:如时间维、销售位置维、产品维、组别维等:如时间维、销售位置维、产品维、组别维等n确定确定类别类别:相应维的详细类别:相应维的详细类别n

5、确定确定指标和事实指标和事实:用于进行分析的数值化信息:用于进行分析的数值化信息dw&dm2021-11-14-7-信息包:信息包: 维度维度类别类别空白信息包图样式空白信息包图样式指标和事实指标和事实dw&dm2021-11-14-8-解:首先根据销售分析的实际需求,确定信息包的维度、类别解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:和指标与事实:(1)维度:维度:包括日期维、销售地点维、销售产品维、年龄组包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。别维、性别维等。(2)类别:类别:确定各维的详细类别,如:日期维包括年(确定各维的详细类别,

6、如:日期维包括年(10)、)、季度(季度(40)、月()、月(120)等类别,括号中的数字分别指出)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(各类别的数量;销售地点维包括国家(15)、区域()、区域(45)、)、城市(城市(280)、区()、区(880)、商店()、商店(2000)等类别,括号)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。售产品、年龄组别维、性别维等的详细类别。(3)指标和事实:指标和事实:确定用于进行分析的数值化信息,包括预确定用于进行分析的数值

7、化信息,包括预测销售量、实际销售量和预测偏差等。测销售量、实际销售量和预测偏差等。 例试画出销售分析的信息包图例试画出销售分析的信息包图dw&dm2021-11-14-9-销售分析的信息包图销售分析的信息包图日期日期销售地点销售地点销售产品销售产品年龄组别年龄组别性别性别年(10)国家(15)产品类(6)年龄组(8) 性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)指标和事实指标和事实:预测销售量、实际销售量、预测偏差预测销售量、实际销售量、预测偏差信息包:信息包: 销售分析销售分析维度维度类别类别dw&dm

8、2021-11-14-10-星型图模型(逻辑模型)星型图模型(逻辑模型)n星型图:星型图:数据仓库的数据模型的第二层是向最终的数据数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。结构添加某些细节的星型图模型。n与传统的关系模型相比,星型图模型简化了用户分析所与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。大量复杂查询。n星形图包括了三种逻辑实体:星形图包括了三种逻辑实体:指标、维度、详细类别指标、维度、详细类别 dw&dm2021-11-14-11- 例销

9、售分析的星型图模型。例销售分析的星型图模型。日期维日期维产品维产品维地区维地区维代理商维代理商维其他维其他维销售分析销售分析实际销售实际销售预测销售预测销售预测偏差预测偏差在星型图中,通过维度实体获得指标实体数据。指标实体与在星型图中,通过维度实体获得指标实体数据。指标实体与维度实体间的联系通过每个维度中的最低层的详细类别实体维度实体间的联系通过每个维度中的最低层的详细类别实体连接。连接。dw&dm2021-11-14-12-n在很多情况下,维度实体还要向外延伸至详细类别实体,在很多情况下,维度实体还要向外延伸至详细类别实体,或者说,详细类别实体是维度实体的附加信息,是维度或者说,详细

10、类别实体是维度实体的附加信息,是维度实体的扩展,说明了维度实体间的关系。这种在维度实实体的扩展,说明了维度实体间的关系。这种在维度实体上扩展详细类别实体的星形图称为体上扩展详细类别实体的星形图称为雪花图雪花图。dw&dm2021-11-14-13-雪花图模型(逻辑模型)雪花图模型(逻辑模型)n雪花模型雪花模型包括了三种逻辑实体:指标、维度、详细类别。包括了三种逻辑实体:指标、维度、详细类别。n雪花模型通常由一个很大的中心表(雪花模型通常由一个很大的中心表(指标指标表)和一组较小的表)和一组较小的表(维表)组成。雪花模型的表(维表)组成。雪花模型的指标指标表与所有的维表都要进行表与所有的

11、维表都要进行连接。连接。 日期维日期维产品维产品维地区维地区维代理商维代理商维其他维其他维销售分析销售分析实际销售实际销售预测销售预测销售预测偏差预测偏差年、月、日年、月、日国家、地区、城市国家、地区、城市类别、型号、产品名称类别、型号、产品名称城市、区、名称城市、区、名称dw&dm2021-11-14-14-物理模型物理模型n物理数据模型:数据模型的第三层,它是星型图模型在数物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。据仓库中的实现,如物理的存取方式、数据存储结构等。n在物理设计时,常常要按数据的重要程度、使用频率以及在物理设计

12、时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设低或对存取响应时间要求低的数据则可以放在低速存储设备上。备上。dw&dm2021-11-14-15-第第3章章 数据仓库的数据组织数据仓库的数据组织本章要点本章要点 数据仓库中的数据组织数据仓库中的数据

13、组织 粒度与分割粒度与分割 数据仓库的数据追加数据仓库的数据追加dw&dm2021-11-14-16-n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别n早期细节级早期细节级n当前细节级当前细节级n轻度综合级轻度综合级n高度综合级高度综合级n粒度:数据的不同综合级别粒度:数据的不同综合级别n粒度越大、表示细节程度越低、综合程度越高。粒度越大、表示细节程度越低、综合程度越高。n级别的划分是根据粒度进行的级别的划分是根据粒度进行的数据仓库中的数据组织数据仓库中的数据组织dw&dm2021-11-14-17- 数据仓库的数据组织结构数据仓库的数据组织结构高度综

14、合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级dw&dm2021-11-14-18- 数据仓库的数据组织结构数据仓库的数据组织结构 高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级1996-2004年年 每月销售表每月销售表1996-2004年年每周销售表每周销售表1996-2004年年销售明细表销售明细表1990-1995年年销售明细表销售明细表 dw&dm2021-11-14-19- n粒度粒度问题是设计数据仓库的一个最重要方面。问题是设计数据仓库的一个最重要方面。n粒度是指数据仓库的数据单位中保存数据的细化或综合

15、粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。程度的级别。n细化程度越高,粒度级就越小;相反,细化程度越低,细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度级就越大。n在数据仓库环境中粒度之所以是主要的设计问题,是因在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。影响数据仓库所能回答的查询类型。n需要在数据仓库中的数据量大小与查询的详细程度之间需要在数据仓库中的数据量大小与查询的详细程度之间要作出权衡。要作出权衡。粒度粒度 1. 粒

16、度粒度粒粒度度的的一一个个例例子子确定粒度级是数据仓库环确定粒度级是数据仓库环境中最重要的设计问题境中最重要的设计问题dw&dm2021-11-14-21- n该图的左边是一个低粒度级,每一次电话都被详细记录下该图的左边是一个低粒度级,每一次电话都被详细记录下来,每个顾客平均有来,每个顾客平均有2 0 02 0 0条记录,每个记录条记录,每个记录2 0 02 0 0个字节,个字节,因而总共需要因而总共需要40 00040 000个字节。个字节。n该图的右边是一个高粒度级。数据代表一位顾客一个月的该图的右边是一个高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只有一个记录,这样

17、的记录大约综合信息,每位顾客一个月只有一个记录,这样的记录大约只需只需2 0 02 0 0个字节。个字节。n显然,用高粒度级表示数据将比用低粒度级表示数据的效显然,用高粒度级表示数据将比用低粒度级表示数据的效率空间要高得多。率空间要高得多。n高粒度级不仅只需要少得多的字节存放数据,而且只需要高粒度级不仅只需要少得多的字节存放数据,而且只需要较少的索引项。较少的索引项。dw&dm2021-11-14-22- n但是,当提高粒度级时,会出现另一个问题。即当提高数但是,当提高粒度级时,会出现另一个问题。即当提高数据粒度级时据粒度级时, ,数据所能回答查询的能力就会随之降低。数据所能回答查询的

18、能力就会随之降低。n换句话说换句话说, ,在一个很低的粒度级上实际可以回答任何问题在一个很低的粒度级上实际可以回答任何问题, ,但在高粒度级上但在高粒度级上, ,数据所能处理的问题的数量是有限的。数据所能处理的问题的数量是有限的。n在设计和构造数据仓库之初就必须仔细考虑这种权衡。在设计和构造数据仓库之初就必须仔细考虑这种权衡。dw&dm2021-11-14-23- 1. 粒度粒度粒度级对能回答什么问题和回答粒度级对能回答什么问题和回答问题所需什么资源有深刻的影响问题所需什么资源有深刻的影响dw&dm2021-11-14-24- 粒度的权衡是首要的,所以大多数组织的粒度的权衡是首

19、要的,所以大多数组织的最佳解决办法是采用多重粒度级的形式最佳解决办法是采用多重粒度级的形式 1. 粒度粒度dw&dm2021-11-14-25- n很多时候,十分需要提高存储与访问数据的效率,以及非很多时候,十分需要提高存储与访问数据的效率,以及非常详细地分析数据的能力。当一个企业或组织的数据仓库中常详细地分析数据的能力。当一个企业或组织的数据仓库中拥有大量数据时,在数据仓库的细节部分考虑拥有大量数据时,在数据仓库的细节部分考虑双重双重( (或多重或多重) )粒度级粒度级是很有意义的。是很有意义的。n一个电话公司的一个电话公司的 “ “双重双重”粒度级的设计,能满足大多数机粒度级的设计

20、,能满足大多数机构的需要。在操作层是大量的细节,其中大部分细节是为了构的需要。在操作层是大量的细节,其中大部分细节是为了满足结帐系统的需求。多达满足结帐系统的需求。多达3 03 0多天的细节存放在这种操作多天的细节存放在这种操作层中。层中。n在这个例中的数据仓库包括两种类型的数据:轻度综合数在这个例中的数据仓库包括两种类型的数据:轻度综合数据和据和“真实档案真实档案”细节数据。细节数据。粒度的双重级别粒度的双重级别dw&dm2021-11-14-26- n当数据从操作型环境当数据从操作型环境( (存储存储3030天的数据天的数据) )载入时,它就被综载入时,它就被综合成可能用于合成可能

21、用于dssdss分析的数据域。分析的数据域。n例如:例如:jonesjones的记录显示她每月打电话的次数、每个电话的的记录显示她每月打电话的次数、每个电话的平均长度、长途电话的次数、接线员帮助呼叫的次数,等等平均长度、长途电话的次数、接线员帮助呼叫的次数,等等。dw&dm2021-11-14-27- 1. 粒度粒度dw&dm2021-11-14-28- n样本数据库样本数据库:另一种改变数据粒度的方法另一种改变数据粒度的方法n根据采样率的高低来划分粒度:以一定的采样率从细根据采样率的高低来划分粒度:以一定的采样率从细节数据或轻度综合数据中抽取的一个子集节数据或轻度综合数据中抽

22、取的一个子集n用处:代替源数据进行模拟分析用处:代替源数据进行模拟分析n抽样的方法:随机抽取抽样的方法:随机抽取n优点:优点:高效率高效率源数据量很大的情况下,抽样数据可以大大下降源数据量很大的情况下,抽样数据可以大大下降 分析结果误差极小分析结果误差极小有助于抓住主要因素和主要矛盾有助于抓住主要因素和主要矛盾样本数据库样本数据库dw&dm2021-11-14-29- n在某些情况下在某些情况下( (如人口统计分析如人口统计分析) ),样本数据库是非常有,样本数据库是非常有用的。用的。n但是对使用样本数据库有一些苛刻的限制。除非设计者但是对使用样本数据库有一些苛刻的限制。除非设计者知道

23、这些限制,否则就不应该创建这种数据库以作为数知道这些限制,否则就不应该创建这种数据库以作为数据仓库的一部分。据仓库的一部分。n样本数据库不是通用的数据库。假如想知道样本数据库不是通用的数据库。假如想知道“jonesjones是是不是顾客?不是顾客?” ” 不要在样本数据库中找这条信息。完全可不要在样本数据库中找这条信息。完全可能能jonesjones是一个顾客,但她不在样本数据库的记录中。是一个顾客,但她不在样本数据库的记录中。n样本数据库适用于作统计分析和观察发展趋势。样本数据库适用于作统计分析和观察发展趋势。dw&dm2021-11-14-30- n当数据必须以整体观察时,样本数据

24、库能提供非常理当数据必须以整体观察时,样本数据库能提供非常理想的结果,但决不适用于处理单个的数据记录。想的结果,但决不适用于处理单个的数据记录。n样本记录的选取一般是随机的,必要时可采用一个样本记录的选取一般是随机的,必要时可采用一个“判断样本判断样本” (” (即记录必须达到一定标准才能被选中即记录必须达到一定标准才能被选中) )。判断样本所带来的问题是会使样本数据具有某种偏差,判断样本所带来的问题是会使样本数据具有某种偏差,随机抽取数据带来的问题是可能无法进行统计。随机抽取数据带来的问题是可能无法进行统计。n无论如何,数据是选择作为样本的,所以在样本数据无论如何,数据是选择作为样本的,所以

25、在样本数据库中找不到任何给定的记录这一事实是说明不了任何库中找不到任何给定的记录这一事实是说明不了任何问题的。问题的。dw&dm2021-11-14-31- n分割分割是数据仓库中数据的第二个主要的设计问题是数据仓库中数据的第二个主要的设计问题( (在粒在粒度问题之后度问题之后) ),数据分割是指把数据分散到各自的物理单,数据分割是指把数据分散到各自的物理单元中去,它们能独立地处理。元中去,它们能独立地处理。n在数据仓库中,围绕分割问题的焦点不是该不该分割而在数据仓库中,围绕分割问题的焦点不是该不该分割而是如何去分割的问题。是如何去分割的问题。n对当前细节数据进行分割的总体目的是把数据

26、划分成小对当前细节数据进行分割的总体目的是把数据划分成小的物理单元。的物理单元。n数据分割为什么如此重要呢?因为小的物理单元能为操数据分割为什么如此重要呢?因为小的物理单元能为操作者和设计者在管理数据时提供比对大的物理单元更大作者和设计者在管理数据时提供比对大的物理单元更大的灵活性。的灵活性。分割分割 dw&dm2021-11-14-32- n分割之后有以下优点:分割之后有以下优点:n容易重构;容易重构;n自由索引;自由索引;n顺序扫描顺序扫描( (若需要若需要) );n容易重组;容易重组;n容易恢复;容易恢复;n容易监控。容易监控。dw&dm2021-11-14-33- n简

27、单地说,数据仓库的本质之一就是灵活地访问数据。简单地说,数据仓库的本质之一就是灵活地访问数据。如果是大块的数据,就达不到这一要求。因而,对所有当如果是大块的数据,就达不到这一要求。因而,对所有当前细节的数据仓库数据都要进行分割。前细节的数据仓库数据都要进行分割。n分割数据的准确含义是什么呢?当结构相同的数据被分分割数据的准确含义是什么呢?当结构相同的数据被分成多个数据物理单元时,数据便被分割了。此外,任何给成多个数据物理单元时,数据便被分割了。此外,任何给定的数据单元属于且仅属于一个分割。定的数据单元属于且仅属于一个分割。dw&dm2021-11-14-34- n有多种数据分割的标准。

28、例如,按:有多种数据分割的标准。例如,按:n时间时间n商业线商业线n地理位置地理位置n组织单位组织单位n所有上述标准所有上述标准n数据分割的标准是严格地由开发人员来选择的。然而,在数据分割的标准是严格地由开发人员来选择的。然而,在数据仓库环境中,按日期几乎总是分割标准中的一个必然组数据仓库环境中,按日期几乎总是分割标准中的一个必然组成部分。成部分。dw&dm2021-11-14-35- n数据追加:数据仓库的数据初装完成后数据追加:数据仓库的数据初装完成后, , 再向数据仓库再向数据仓库输入数据的过程输入数据的过程n追加内容:上次数据追加后在追加内容:上次数据追加后在oltpoltp数

29、据库中变化了的数数据库中变化了的数据据 n变化数据的捕捉途径变化数据的捕捉途径: :n时标方法时标方法 ndeltadelta文件文件n前后映象文件前后映象文件n日志文件日志文件数据仓库的数据追加数据仓库的数据追加dw&dm2021-11-14-36- n时标方法:时标方法:为数据记录增加一个时间字段。对新插入或为数据记录增加一个时间字段。对新插入或更新的数据记录加更新时的时标更新的数据记录加更新时的时标n优点优点n方法简单方法简单n问题问题n许多数据库中的数据并不含有时标,很难在得到实际许多数据库中的数据并不含有时标,很难在得到实际应用应用dw&dm2021-11-14-37

30、- ndeltadelta文件方法文件方法:从应用程序感知数据变化的方法。由应:从应用程序感知数据变化的方法。由应用生成用生成deltadelta文件,记录应用所改变的所有内容文件,记录应用所改变的所有内容n优点优点n避免了扫描整个数据库,效率比较高避免了扫描整个数据库,效率比较高n问题问题n一般的应用程序不具有生成一般的应用程序不具有生成deltadelta文件的功能文件的功能n更改应用代码,应用在生成新数据时可自动将其记录更改应用代码,应用在生成新数据时可自动将其记录下来下来n应用成千上万,且修改代码十分繁琐,很难实现应用成千上万,且修改代码十分繁琐,很难实现dw&dm2021-1

31、1-14-38- n前后映象文件的方法:前后映象文件的方法:抽取数据到数据仓库之后抽取数据到数据仓库之后, , 本次将本次将抽取数据之前,对数据库分别作一次快照,比较两幅快照抽取数据之前,对数据库分别作一次快照,比较两幅快照的不同,确定追加的数据的不同,确定追加的数据n优点优点n方法简单方法简单n问题问题n占用大量资源,影响系统性能,不实用占用大量资源,影响系统性能,不实用dw&dm2021-11-14-39- n日志文件法:日志文件法:通过分析数据库系统日志文件来获取数据变通过分析数据库系统日志文件来获取数据变化的情况,得到追加内容。化的情况,得到追加内容。n优点优点n利用利用dbd

32、b的固有机制,数据只限于日志文件,不用扫描的固有机制,数据只限于日志文件,不用扫描整个数据库整个数据库n缺点缺点n原来日志文件的格式是依据原来日志文件的格式是依据dbdb系统的要求设计的。要系统的要求设计的。要进行改进。如:对一个记录的多次更新,日志文件将进行改进。如:对一个记录的多次更新,日志文件将全部变化过程都记录下来,而数据仓库,只要最终结全部变化过程都记录下来,而数据仓库,只要最终结果果dw&dm2021-11-14-40-第第4章章 数据仓库设计数据仓库设计本章要点本章要点 数据仓库的设计原则数据仓库的设计原则 数据仓库的设计步骤数据仓库的设计步骤 数据仓库生成数据仓库生成

33、数据仓库的使用与维护数据仓库的使用与维护dw&dm2021-11-14-41- 数据仓库设计数据仓库设计n事务型事务型数据处理中需要作数据处理中需要作数据库设计数据库设计,而在,而在分析型分析型数据数据处理中则需作处理中则需作数据仓库设计数据仓库设计,这两者在原理上是一致的。,这两者在原理上是一致的。n因此,数据库设计中的很多设计思想与方法都可在数据因此,数据库设计中的很多设计思想与方法都可在数据仓库中得到应用。仓库中得到应用。n但是由于事务型与分析型的但是由于事务型与分析型的数据处理的不一致数据处理的不一致,因此两,因此两者在设计中的很多方面也存在着者在设计中的很多方面也存在着差别差

34、别。dw&dm2021-11-14-42- n面向面向oltpoltp的数据库设计有着的数据库设计有着明确的应用需求明确的应用需求,严格遵,严格遵循系统生命周期的阶段划分,每个阶段都规定有明确循系统生命周期的阶段划分,每个阶段都规定有明确的任务,上一阶段确定的任务完成后,产生一定格式的任务,上一阶段确定的任务完成后,产生一定格式的文档交给下一阶段。的文档交给下一阶段。n数据仓库是面向主题的、集成的、不可更新的、随时数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的系统设计

35、不能采用同开发传统的oltp数据库一样的设数据库一样的设计方法。计方法。dw&dm2021-11-14-43-数据仓库的设计数据仓库的设计与数据库设计的区别与数据库设计的区别n系统设计的系统设计的目标目标不同:不同:数据库数据库是是面向事务型处理面向事务型处理的,所以的,所以事务型处理性能是系统设计的一个主要目标。而事务型处理性能是系统设计的一个主要目标。而数据仓库数据仓库是为了是为了支持决策分析支持决策分析而建立的一种数据存储集合,在系统而建立的一种数据存储集合,在系统设计时,更关心的是建立起一个全局一致的分析型处理环设计时,更关心的是建立起一个全局一致的分析型处理环境来支持企业的决

36、策分析。境来支持企业的决策分析。dw&dm2021-11-14-44-数据仓库的设计数据仓库的设计与数据库设计的区别与数据库设计的区别(cont.)n面向的面向的需求需求不同:不同:数据库系统数据库系统是是面向应用面向应用的,所以在系统的,所以在系统设计时应以此为出发点和基础。而在设计时应以此为出发点和基础。而在决策分析决策分析时,决策者时,决策者分析问题的角度多种多样,所以数据处理流和信息流不固分析问题的角度多种多样,所以数据处理流和信息流不固定,甚至决策者对所要进行的分析处理都不太明了,数据定,甚至决策者对所要进行的分析处理都不太明了,数据的分析处理的需求更灵活。这就决定了在数据仓

37、库系统设的分析处理的需求更灵活。这就决定了在数据仓库系统设计时,不可能从用户需求出发来进行设计。计时,不可能从用户需求出发来进行设计。dw&dm2021-11-14-45-数据仓库的设计数据仓库的设计与数据库设计的区别与数据库设计的区别(cont.)n数据来源数据来源不同:不同:数据库系统数据库系统中数据是从企业外部通过输入得中数据是从企业外部通过输入得到的,所以系统设计时就是设计如何与外部对话得到数据,到的,所以系统设计时就是设计如何与外部对话得到数据,如何存储这些数据,它如何存储这些数据,它关心的是数据的安全性和完整性关心的是数据的安全性和完整性等。等。数据仓库数据仓库中的数据大部

38、分是从企业内部的数据库系统得到的,中的数据大部分是从企业内部的数据库系统得到的,还有一部分是企业外部的非结构化数据,这些数据都是安全还有一部分是企业外部的非结构化数据,这些数据都是安全可靠且正确有效的,所以在系统设计时它关心的不是数据的可靠且正确有效的,所以在系统设计时它关心的不是数据的安全性和完整性,而安全性和完整性,而是数据的一致性是数据的一致性。dw&dm2021-11-14-46-数据仓库的设计数据仓库的设计与数据库设计的区别与数据库设计的区别(cont.)n数据的处理类型数据的处理类型不同:不同:数据库系统数据库系统支持的是事务型处理,支持的是事务型处理,主要指数据的主要指数

39、据的增、删、改、查增、删、改、查等等,系统设计时都是针对等等,系统设计时都是针对某一具体应用。某一具体应用。数据仓库数据仓库是面向分析的,它的数据处理大是面向分析的,它的数据处理大都是对数据的都是对数据的复杂查询复杂查询,所以在设计时考虑的是如何更好,所以在设计时考虑的是如何更好地面向主题等。地面向主题等。dw&dm2021-11-14-47-数据仓库的设计数据仓库的设计与数据库设计的区别与数据库设计的区别(cont.)n设计方法设计方法不同:由于在不同:由于在数据库系统数据库系统中业务过程和规则比较中业务过程和规则比较规范固定,系统设计人员能清楚的知道应用需求和数据流规范固定,系统设

40、计人员能清楚的知道应用需求和数据流程,所以系统设计一般采用程,所以系统设计一般采用系统生命周期法系统生命周期法( (systems systems development life cycle development life cycle ,sdlc)sdlc)。在决策分析时,决策在决策分析时,决策人员往往无法给决策需求一个规范的说明,只能给出一个人员往往无法给决策需求一个规范的说明,只能给出一个模糊的描述,对这种需求不确定的开发过程,设计方法有模糊的描述,对这种需求不确定的开发过程,设计方法有很大的不同,采用与很大的不同,采用与sdlcsdlc相反的相反的cldsclds法法。( (注注:

41、: cldsclds没有具没有具体意义体意义, ,只是字母排列顺序与只是字母排列顺序与sdlcsdlc相反相反。sdlcsdlc起始于需求,起始于需求,cldsclds起始于数据起始于数据。) ) 收集应用需求 分析应用需求 构建数据库 数据仓库建模 数据获取与集成 构建数据仓库 系统实施 应用编程 系统测试 dss应用编程 系统测试 理解需求db应 用b应 用adbdb 外部数据dw sdlc方法方法 clds方法方法systems development life cyclesystems development life cycledw&dm2021-11-14-49-生命周期的

42、比较生命周期的比较sdlcclds需求汇总需求汇总实现实现分析分析集成数据集成数据设计设计偏差测试偏差测试编程编程针对数据的编程针对数据的编程测试测试分析结果分析结果集成集成理解需求理解需求dw&dm2021-11-14-50-数据仓库设计的技术要求数据仓库设计的技术要求n对大量数据的组织和管理对大量数据的组织和管理。数据仓库中包含了大量的历史。数据仓库中包含了大量的历史数据,它是一段较长时间内的数据。另外,数据仓库中的数据,它是一段较长时间内的数据。另外,数据仓库中的数据是从数据库中提取得来的,所以不必关心它的数据安数据是从数据库中提取得来的,所以不必关心它的数据安全性和数据完整性,

43、它要求进行大量数据的组织与管理。全性和数据完整性,它要求进行大量数据的组织与管理。n支持高性能的复杂分析支持高性能的复杂分析。复杂分析时通常涉及大量数据的。复杂分析时通常涉及大量数据的聚集、综合聚集、综合等,在进行复杂查询时经常会使用等,在进行复杂查询时经常会使用多表的联接、多表的联接、累计、分类、排序累计、分类、排序等操作,这对数据仓库基于的数据库系等操作,这对数据仓库基于的数据库系统的性能特别是并行处理能力提出了挑战。统的性能特别是并行处理能力提出了挑战。dw&dm2021-11-14-51-数据仓库设计的技术要求数据仓库设计的技术要求(cont.)n对提取出来的数据进行集成对提取

44、出来的数据进行集成。数据仓库中的数据是从多个。数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式。如果直接对这些数据进库系统中都有不同的结构和形式。如果直接对这些数据进行分析,会得到不同的结果,所以如何对数据进行集成也行分析,会得到不同的结果,所以如何对数据进行集成也是构建数据仓库的一个重要方面。是构建数据仓库的一个重要方面。n对高层决策的最终用户提供工具对高层决策的最终用户提供工具。数据仓库只是一个数据。数据仓库只是一个数据存储的集合,如果没有存储的集合,如果没有各种分析应用工具各种分析应用

45、工具,一个庞大的数,一个庞大的数据仓库是毫无意义的。这些工具的设计对于开发一个完整据仓库是毫无意义的。这些工具的设计对于开发一个完整的数据仓库及其应用体系是至关重要的。的数据仓库及其应用体系是至关重要的。dw&dm2021-11-14-52- n数据仓库是数据仓库是面向主题的面向主题的、集成的集成的、不可更新的不可更新的、随时随时间的变化而不断变化的间的变化而不断变化的,这些特点决定了数据仓库的,这些特点决定了数据仓库的系统设计不能采用同开发传统的系统设计不能采用同开发传统的oltpoltp数据库一样的设数据库一样的设计方法计方法,其设计过程必须遵循下述,其设计过程必须遵循下述三条原则

46、三条原则:面向主题面向主题原则原则数据驱动数据驱动原则原则原型法设计原型法设计原则原则数据仓库的设计原则数据仓库的设计原则数据仓库的设计原则dw&dm2021-11-14-53-面向主题原则面向主题原则n建立数据仓库的目的建立数据仓库的目的- - -构建数据仓库的目的是面向企业的管理人员,为经营管理提供构建数据仓库的目的是面向企业的管理人员,为经营管理提供决策支持信息。因此数据仓库的组织设计必须以用户决策的需决策支持信息。因此数据仓库的组织设计必须以用户决策的需要来确定,即从用户决策的主观需求(主题)开始。要来确定,即从用户决策的主观需求(主题)开始。n数据仓库中数据的组织方法数据仓库

47、中数据的组织方法- - -为了进行数据分析首先要有分析的主题,以主题为起始点,进为了进行数据分析首先要有分析的主题,以主题为起始点,进行相关数据的设计,最终建立起一个面向主题的分析型环境。行相关数据的设计,最终建立起一个面向主题的分析型环境。- - -在数据库设计中则是以客体(在数据库设计中则是以客体(objectobject)为起始点,即以客观操为起始点,即以客观操作需求为设计依据。作需求为设计依据。 数据仓库中的数据组织数据仓库中的数据组织 dw&dm2021-11-14-54-数据驱动原则数据驱动原则n数据的来源数据的来源- - -由于数据仓库是在现存数据库系统基础上进行开发的,

48、它着眼由于数据仓库是在现存数据库系统基础上进行开发的,它着眼于有效地提取、综合、集成和挖掘已有数据库中的数据资源,于有效地提取、综合、集成和挖掘已有数据库中的数据资源,服务于企业高层领导管理决策分析的需要。因此数据仓库中的服务于企业高层领导管理决策分析的需要。因此数据仓库中的数据必须是从已有的数据源中抽取出来,是已经存在的数据或数据必须是从已有的数据源中抽取出来,是已经存在的数据或对已经存在的数据进行加工处理而获得。对已经存在的数据进行加工处理而获得。n数据驱动方法(原则)数据驱动方法(原则)- - -在数据仓库设计中,由于其所有数据均应建立在已有的数据库在数据仓库设计中,由于其所有数据均应建

49、立在已有的数据库基础上,即是从已经存在于操作型环境中的数据出发进行数据基础上,即是从已经存在于操作型环境中的数据出发进行数据仓库的设计,这种设计方法被称为:仓库的设计,这种设计方法被称为:“数据驱动数据驱动”方法。方法。 数据仓库中的数据组织数据仓库中的数据组织 dw&dm2021-11-14-55-原型法设计原则原型法设计原则n数据仓库系统的原始需求不明确数据仓库系统的原始需求不明确,且不断变化与增加,开发者最,且不断变化与增加,开发者最初并不能确切了解到用户的明确而详细的需求,用户所能提供的初并不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更

50、不能较准确地预见到以无非是需求的大的方向以及部分需求,更不能较准确地预见到以后的需求。因此,后的需求。因此,采用原型法采用原型法来进行数据仓库的开发是比较合适来进行数据仓库的开发是比较合适的,即从构建系统的基本框架着手,不断丰富与完善整个系统。的,即从构建系统的基本框架着手,不断丰富与完善整个系统。n数据仓库的设计是一个逐步求精的过程数据仓库的设计是一个逐步求精的过程,用户的需求是在设计过,用户的需求是在设计过程中不断细化明确的。同时,数据仓库系统的开发也是一个经过程中不断细化明确的。同时,数据仓库系统的开发也是一个经过不断循环、反馈而使系统不断增长与完善的过程不断循环、反馈而使系统不断增长与

51、完善的过程。在数据仓库开。在数据仓库开发的整个过程中,自始至终要求决策人员和开发者的共同参与和发的整个过程中,自始至终要求决策人员和开发者的共同参与和密切合作,不做或尽量少做无效工作或重复工作。密切合作,不做或尽量少做无效工作或重复工作。 数据仓库中的数据组织数据仓库中的数据组织 dw&dm2021-11-14-56- 数据仓库设计步骤数据仓库设计步骤 明确主题明确主题 概念设计(高层设计)概念设计(高层设计) 技术准备技术准备 逻辑设计(中层设计)逻辑设计(中层设计) 物理设计(低层设计)物理设计(低层设计) 数据仓库生成数据仓库生成 数据仓库的运行与维护数据仓库的运行与维护dw&a

52、mp;dm2021-11-14-57-n在数据仓库设计的开始,首先要做的事是有关分析人在数据仓库设计的开始,首先要做的事是有关分析人员需确定领域的分析对象,这个员需确定领域的分析对象,这个对象就是对象就是主题主题。如在。如在商场中经常需要分析的主题是商品、顾客与供应商。商场中经常需要分析的主题是商品、顾客与供应商。n主题是一种较高层次的抽象主题是一种较高层次的抽象,对它的认识与表示是一,对它的认识与表示是一个逐步完善的过程。因此,在开始时不妨先确定一个个逐步完善的过程。因此,在开始时不妨先确定一个初步的主题概念以利于设计工作的开始,此后随着设初步的主题概念以利于设计工作的开始,此后随着设计工作

53、的进一步开展,再逐步扩充与完善。计工作的进一步开展,再逐步扩充与完善。设计步骤设计步骤 - - 明确主题明确主题dw&dm2021-11-14-58-设计步骤设计步骤 概念设计(高层设概念设计(高层设计)计)n高层设计:高层设计:主要考虑商业过程和商业需求的集成,将与目前商业过程主要考虑商业过程和商业需求的集成,将与目前商业过程有关的信息和数据仓库试图实现的目标合并在一起,有关的信息和数据仓库试图实现的目标合并在一起,创建信息包图创建信息包图。n创建信息包图的过程创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。:分析用户需求,收集信息将信息打包的过程。n分析用户需求(分析用

54、户需求(确定系统边界确定系统边界)确定用户要做的决策类型、确定用户决策时需要的信息、确定确定用户要做的决策类型、确定用户决策时需要的信息、确定原始信息原始信息n定义关键性能指标(定义关键性能指标(确定主要的主题域确定主要的主题域)主题域的公共键、主题域间的联系、充分代表主题的属性主题域的公共键、主题域间的联系、充分代表主题的属性n设计成果设计成果:n信息包信息包图图dw&dm2021-11-14-59-概念模型设计(高层设计)概念模型设计(高层设计)(cont.)n定义维度定义维度:每一个维代表一个统一的访问数据仓库中信息:每一个维代表一个统一的访问数据仓库中信息的途径。这些维也定义了

55、一个完整的主题分类,而且这些的途径。这些维也定义了一个完整的主题分类,而且这些分类将被用作支持主要指标的参考内容。在定义维度时,分类将被用作支持主要指标的参考内容。在定义维度时,一般只涉及信息的主要途径,不是企图涉及所有可能的路一般只涉及信息的主要途径,不是企图涉及所有可能的路径。径。n定义类别定义类别:类别提供了一个指定维的详细信息,它们是一:类别提供了一个指定维的详细信息,它们是一个集合层或一个维度体系。随着维度的定义,应该进一步个集合层或一个维度体系。随着维度的定义,应该进一步确定用户将怎样对详细信息进行检索,或者怎样聚集数据。确定用户将怎样对详细信息进行检索,或者怎样聚集数据。dw&a

56、mp;dm2021-11-14-60-概念模型设计(高层设计)概念模型设计(高层设计)(cont.)n创建信息包图创建信息包图n确定涉及的主题域,例如:时间、顾客、地位置和产品。确定涉及的主题域,例如:时间、顾客、地位置和产品。n设计可以跟踪的、确定一个事件怎样被完成和运行的关键指标。设计可以跟踪的、确定一个事件怎样被完成和运行的关键指标。n决定在给定的用户分析或查询中实际包含了多少数据。决定在给定的用户分析或查询中实际包含了多少数据。n确定用户如何按层次聚合数据和移动数据。确定用户如何按层次聚合数据和移动数据。n决定数据层次。决定数据层次。n估计数据仓库的大小。估计数据仓库的大小。n确定一个

57、数据仓库里数据的更新频率。确定一个数据仓库里数据的更新频率。n定义如何访问数据。定义如何访问数据。n决定数据如何被传递给仓库的用户。决定数据如何被传递给仓库的用户。dw&dm2021-11-14-61-设计步骤设计步骤 逻辑设计(中层设逻辑设计(中层设计)计)n中层设计中层设计:建立数据仓库的逻辑模型,对前期收集的信息的细化,将信息:建立数据仓库的逻辑模型,对前期收集的信息的细化,将信息包图转换成包图转换成星型图模型星型图模型。n主要工作主要工作:n定义指标实体定义指标实体。将信息包图中的内容放到星形图中,每个信息包图代表一个。将信息包图中的内容放到星形图中,每个信息包图代表一个完整的

58、星和信息包。维度实体在指标实体中表示。完整的星和信息包。维度实体在指标实体中表示。n定义维度实体定义维度实体。信息包图中的每一个维度实体位于星形图的星角上,它以维。信息包图中的每一个维度实体位于星形图的星角上,它以维度表的形式存在。随着维度实体在星形图上的定位,进一步定义它与指标实度表的形式存在。随着维度实体在星形图上的定位,进一步定义它与指标实体间的关系。体间的关系。n定义详细类别实体定义详细类别实体。在一个简单的星形图模型中,指标实体被用于访问的维。在一个简单的星形图模型中,指标实体被用于访问的维度实体包围。但是在有的决策分析中仅仅知道指标值是不够的,需要定义详度实体包围。但是在有的决策分

59、析中仅仅知道指标值是不够的,需要定义详细类别实体,将星型图模型转换为雪花图模型。细类别实体,将星型图模型转换为雪花图模型。n设计成果设计成果:n适当的粒度划分、合理的数据分割策略、适当的表划分、定义适当的数据源适当的粒度划分、合理的数据分割策略、适当的表划分、定义适当的数据源dw&dm2021-11-14-62-n低层设计低层设计:建立数据仓库的:建立数据仓库的物理模型物理模型,确定数据仓库的存储结构、数据的存储,确定数据仓库的存储结构、数据的存储位置和索引策略。位置和索引策略。n设计人员需要了解和考虑的问题设计人员需要了解和考虑的问题:n所选用的数据库系统,特别是存储结构和存取方法;

60、所选用的数据库系统,特别是存储结构和存取方法;n数据环境、数据的使用频率、使用方式以及响应时间;数据环境、数据的使用频率、使用方式以及响应时间;n存储设备的特性等。存储设备的特性等。n主要工作主要工作:n确定数据的存储结构确定数据的存储结构。不同的存储结构有不同的实现方式,应综合考虑存取时间、。不同的存储结构有不同的实现方式,应综合考虑存取时间、存取空间利用率和维护代价等因素,根据各种存储结构的优缺点和适用范围选择合存取空间利用率和维护代价等因素,根据各种存储结构的优缺点和适用范围选择合适的存储结构。适的存储结构。n确定数据的存储位置确定数据的存储位置。对数据按照其重要程度、使用频率和对响应时间的要求等进。对数据按照其重要程度、使用频率和对响应时间的要求等进行分类,并将不同类别的数据存储在不同的存储设备中。设置存储分配参数,对块行分类,并将不同类别的数据存储在不同的存储设备中。设置存储分配参数,对块的大小、缓冲区的大小和个数等进行物理优化处理。的大小、缓冲区的大小和个数等进行物理优化处理。n确定索引策略确定索引策略。通过对数据存取路径的分析,为各个数据存储建立专用的索引,以。通过对数据存取路径的分析,为各个数据存储建立专用的索引,以获得存取的高效率。获

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论