研究生第六章数据仓库与数据挖掘的决策支持汇编资料_第1页
研究生第六章数据仓库与数据挖掘的决策支持汇编资料_第2页
研究生第六章数据仓库与数据挖掘的决策支持汇编资料_第3页
研究生第六章数据仓库与数据挖掘的决策支持汇编资料_第4页
研究生第六章数据仓库与数据挖掘的决策支持汇编资料_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第6 6章章 数据仓库与数据挖掘数据仓库与数据挖掘 的决策支持的决策支持n6.1.1 数据仓库概念数据仓库概念n6.1.2 数据仓库结构数据仓库结构n6.1.3 数据集市数据集市n6.1.4 元数据元数据 (1 1)W.H.InmonW.H.Inmon在在建立数据仓库建立数据仓库一书中,对数据仓库的定义为:一书中,对数据仓库的定义为: 数据仓库是面向数据仓库是面向主题的主题的、集成的集成的、稳定的稳定的,不同时间不同时间的数据集合,用于支的数据集合,用于支持经营管理中持经营管理中决策制定决策制定过程。过程。(2 2)SASSAS软件研究所定义:软件研究所定义: 数据仓库是一种数据仓库是一种管

2、理技术管理技术,旨在通过,旨在通过通畅通畅、合理合理、全面全面的信息管理,达到有的信息管理,达到有效的决策支持。效的决策支持。 传统数据库用于事务处理,也叫传统数据库用于事务处理,也叫操作型处理操作型处理,是,是指对数据库联机进行日常操作,即对一个或一组记录指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业的查询和修改,主要为企业特定的应用特定的应用服务的。用户服务的。用户关心的是响应时间,数据的安全性和完整性。关心的是响应时间,数据的安全性和完整性。 数据仓库用于决策支持,也称数据仓库用于决策支持,也称分析型处理分析型处理,用于,用于决策分析,它是建立决策支持系统(决策分

3、析,它是建立决策支持系统(DSSDSS)的基础。)的基础。操作型数据(操作型数据(DBDB数据)与数据)与分析型数据(分析型数据(DWDW数据)之间的差别为:数据)之间的差别为:D DB B数数据据 D DW W数数据据 细细节节的的 综综合合或或提提炼炼的的 在在存存取取时时准准确确的的 代代表表过过去去的的数数据据 可可更更新新的的 不不更更新新 一一次次操操作作数数据据量量小小 一一次次操操作作数数据据量量大大 面面向向应应用用 面面向向分分析析 支支持持管管理理 支支持持决决策策 主题是数据主题是数据归类归类的标准,每一个主题基本对应一的标准,每一个主题基本对应一个宏观的分析领域。个宏

4、观的分析领域。 例如,银行的数据仓库的主题:客户例如,银行的数据仓库的主题:客户 DW DW的客户数据来源:的客户数据来源: 从从银行储蓄银行储蓄DBDB、信用卡、信用卡DBDB、贷款、贷款DBDB等三个等三个DBDB中抽中抽取同一客户的数据整理而成。取同一客户的数据整理而成。 在在D DW W中分析客户数据,可决定是否继续给予贷款中分析客户数据,可决定是否继续给予贷款 数据进入数据仓库之前,必须经过加工与集成数据进入数据仓库之前,必须经过加工与集成对对不同的不同的数据来源进行统一数据结构和编码数据来源进行统一数据结构和编码统一原始数据中的所有统一原始数据中的所有矛盾矛盾之处,如字段的之处,如

5、字段的同名异义同名异义,异名同义异名同义,单位不统一,字长不,单位不统一,字长不一致等。一致等。 总之总之, ,将原始数据结构做一个从将原始数据结构做一个从面向应用面向应用到到面向主面向主题题的大转变。的大转变。 数据仓库中包括了大量的历史数据。数据经集数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是成进入数据仓库后是极少极少或或根本根本不更新的。不更新的。 数据仓库内的数据时限在数据仓库内的数据时限在5 5 1010年,故数据的键年,故数据的键码包含时间项,标明数据的历史时期,这适合码包含时间项,标明数据的历史时期,这适合DSSDSS进行进行时间趋势分析时间趋势分析。 数据库只包含

6、当前数据,即存取某一时间的正数据库只包含当前数据,即存取某一时间的正确的有效的数据。确的有效的数据。 大型大型DWDW是一个是一个TBTB(1000GB1000GB)级数据库问题(一般)级数据库问题(一般为为10GB10GB级相当于一般数据库级相当于一般数据库100MB100MB的的100100倍)倍) 需要一个巨大的硬件平台需要一个并行的数据库需要一个巨大的硬件平台需要一个并行的数据库系统系统. . 最好的数据仓库是大的和昂贵的。最好的数据仓库是大的和昂贵的。 近期基本数据:近期基本数据:是最近时期的业务数据,是数据仓库用是最近时期的业务数据,是数据仓库用户户最感兴趣最感兴趣的部分,数据量大

7、。的部分,数据量大。 历史基本数据:历史基本数据:近期基本数据近期基本数据随时间的推移,由数据仓随时间的推移,由数据仓库的库的时间控制机制时间控制机制转为历史基本数据。转为历史基本数据。 轻度综合数据:轻度综合数据:是从是从近期基本数据近期基本数据中提取出的,这层数中提取出的,这层数据是按时间段选取,或者按数据属性(据是按时间段选取,或者按数据属性(attributesattributes)和内容)和内容(contentscontents)进行综合。)进行综合。 高度综合数据层:高度综合数据层:这一层的数据是在这一层的数据是在轻度综合数据轻度综合数据基础基础上的再一次综合,是一种准决策数据。上

8、的再一次综合,是一种准决策数据。 元数据元数据: :整个数据仓库的组织结构由元数据组织整个数据仓库的组织结构由元数据组织, ,它不包含它不包含数据仓库中的数据仓库中的实际数据信息实际数据信息。 作用:作用: (1 1)定位数据仓库的目录内容)定位数据仓库的目录内容 (2 2)数据从)数据从业务环境业务环境向向数据仓库环境数据仓库环境传递时数据仓库的目传递时数据仓库的目录内容录内容 (3 3)指导从)指导从当前基本数据当前基本数据到到轻度综合数据轻度综合数据到到高度综合数据高度综合数据的综合算法的选择。的综合算法的选择。 组成:组成: (1 1)数据结构)数据结构 (2 2)用于综合的算法)用于

9、综合的算法 (3 3)从业务环境到)从业务环境到DWDW规划规划 元元数数据据 高高度度综综合合数数据据轻轻度度综综合合数数据据当当前前基基本本数数据据历历史史数数据据层层 数据仓库结构图数据仓库结构图 元数据元数据是数据仓库的重要组成部分。元数据描是数据仓库的重要组成部分。元数据描述了数据仓库的数据和环境,即述了数据仓库的数据和环境,即关于数据的数据关于数据的数据(meta data)(meta data)。元数据元数据就相当于数据库系统中的就相当于数据库系统中的数数据字典据字典 元数据包括四种元数据元数据包括四种元数据关于关于数据源数据源的元数据的元数据关于关于数据模型数据模型的元数据的元

10、数据关于关于数据仓库映射数据仓库映射的元数据的元数据关于关于数据仓库使用数据仓库使用的元数据的元数据6.1.4 元数据元数据 它是现有的业务系统的数据源的描述信息。这它是现有的业务系统的数据源的描述信息。这类元数据是对类元数据是对不同平台不同平台上的数据源的上的数据源的物理结构物理结构和和含含义义的的描述描述。具体为:。具体为: (1 1)数据源中所有物理数据结构,包括所有的数据项及)数据源中所有物理数据结构,包括所有的数据项及数据类型。数据类型。 (2 2)所有数据项的业务定义。)所有数据项的业务定义。 (3 3)每个数据项更新的频率,以及由谁或哪个过程更新)每个数据项更新的频率,以及由谁或

11、哪个过程更新的说明。的说明。 (4 4)每个数据项的有效值。)每个数据项的有效值。1 1、关于、关于数据源数据源的元数据的元数据 这类元数据描述了数据仓库中有什么数据以及这类元数据描述了数据仓库中有什么数据以及数据之间的关系数据之间的关系, ,它们是用户使用管理数据仓库的它们是用户使用管理数据仓库的基础。这类元数据可以基础。这类元数据可以支持用户支持用户从数据仓库中从数据仓库中获取获取数据。数据。 数据仓库的数据模型是星型模型。数据仓库的数据模型是星型模型。 通常通常企业数据模型企业数据模型被用作建立仓库数据模型的被用作建立仓库数据模型的起始点起始点,再对模型加以修改和变换。,再对模型加以修改

12、和变换。2 2、关于、关于数据模型数据模型的元数据的元数据 这类元数据是数据源与数据仓库数据间的这类元数据是数据源与数据仓库数据间的映射。映射。 当数据源中的一个数据项与数据仓库建立了映射当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换、变换和加载过程数据源填充的,经过那些转换、变换和加载过程3 3、关于、关于数据仓库映射数据仓库映射的元数据的元数据3、关于、关于数据仓库映射数据仓库映射的

13、元数据的元数据n一个抽取要经过以下几个步聚一个抽取要经过以下几个步聚n获取获取n过滤过滤n验证验证n融合融合n综合综合n装载装载n存档存档 从源系统的数据到数据仓库中从源系统的数据到数据仓库中的目标数据的转移是一项复杂的工的目标数据的转移是一项复杂的工作,其工作量占整个数据仓库开发作,其工作量占整个数据仓库开发的的70% 这类元数据是数据仓库中信息的使用情况描述。这类元数据是数据仓库中信息的使用情况描述。 数据仓库的用户最关心的是两类元数据:数据仓库的用户最关心的是两类元数据: (1 1)元数据告诉数据仓库中有什么数据,它们从哪里来。)元数据告诉数据仓库中有什么数据,它们从哪里来。即即如何按主

14、题查看数据仓库的内容如何按主题查看数据仓库的内容。 (2 2)元数据提供)元数据提供已有的可重复利用的查询语言信息已有的可重复利用的查询语言信息。如。如果某个查询能够满足他们的需求,或者与他们的愿望相似,果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。他们就可以再次使用那些查询而不必从头开始编程。 关于数据仓库使用的元数据能帮助用户到数据仓库查询关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。所需要的信息,用于解决企业问题。数据仓库使用数据仓库使用1.1.数据集市的产生数据集市的产生n数据仓库工作范围和成本常常是

15、巨大的。开发数据仓库工作范围和成本常常是巨大的。开发数据库是数据库是代价很高代价很高、时间较长时间较长的大项目。提供的大项目。提供更紧密集成的数据集市就应运产生。更紧密集成的数据集市就应运产生。n目前,全世界对数据仓库目前,全世界对数据仓库总投资的一半总投资的一半以上均以上均集中在数据集市上。集中在数据集市上。n数据集市(数据集市(Data MartsData Marts)是一种)是一种更小更小、更集中更集中的的数据仓库,为公司提供分析商业数据的一条廉价数据仓库,为公司提供分析商业数据的一条廉价途径。途径。n数据集市是指具有数据集市是指具有特定应用特定应用的数据仓库,主要针的数据仓库,主要针对

16、某个应用或者具体部门级的应用,支持用户获对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案得竞争优势或者找到进入新市场的具体解决方案2.数据集市概念数据集市概念3.数据集市与数据仓库的数据集市与数据仓库的关系关系n数据集市不等于数据仓库,多个数据集市简单合数据集市不等于数据仓库,多个数据集市简单合并起来不能成为数据仓库。并起来不能成为数据仓库。n各数据集市之间对详细数据和历史数据的存储各数据集市之间对详细数据和历史数据的存储存在大存在大量冗余量冗余。n同一个问题在不同的数据集市的查询结果同一个问题在不同的数据集市的查询结果可能不一致,可能不一致,甚至互相矛盾。

17、甚至互相矛盾。n各数据集市之间以及与源数据库系统之间各数据集市之间以及与源数据库系统之间难以管理难以管理。 1 1、规模小、规模小2 2、特定的应用、特定的应用3 3、面向部门、面向部门4 4、由业务部门定义,设计和开发、由业务部门定义,设计和开发5 5、由业务部门管理和维护、由业务部门管理和维护6 6、快速实现、快速实现7 7、购买较便宜、购买较便宜8 8、投资快速回收、投资快速回收9 9、工具集的紧密集成、工具集的紧密集成1010、更详细的、预先存在的数据仓库的摘要子集、更详细的、预先存在的数据仓库的摘要子集1111、可升级到完整的数据仓库、可升级到完整的数据仓库4.数据集市的特性数据集市

18、的特性5.两种数据集市结构两种数据集市结构 从属:从属:5.两种数据集市结构两种数据集市结构独立数据集市独立数据集市(Independent Data Mart) 独立:独立:6.数据集市与数据仓库的数据集市与数据仓库的差别差别n数据仓库是基于数据仓库是基于整个企业整个企业的数据模型建立的,它面向企业的数据模型建立的,它面向企业范围的主题;范围的主题;n数据集市是按照数据集市是按照某一特定部门某一特定部门的数据模型建立的,由于每的数据模型建立的,由于每个部门有自己特定的需求,因此,对他们对数据集市的期个部门有自己特定的需求,因此,对他们对数据集市的期望也不一样,也称作部门级数据仓库望也不一样,

19、也称作部门级数据仓库n部门的主题与企业的主题之间可能存在关联,也可能不存部门的主题与企业的主题之间可能存在关联,也可能不存在关联。在关联。n数据集市的数据组织一般采用星形模型,大型数据仓库的数据集市的数据组织一般采用星形模型,大型数据仓库的数据组织采用第三范式。数据组织采用第三范式。 6.2.1数据仓库系统结构数据仓库系统结构 数据仓库系统由数据仓库(数据仓库系统由数据仓库(DWDW)、仓库管理和分析工具三部分组成)、仓库管理和分析工具三部分组成(1 1)定义部分)定义部分 用于定义和建立数据仓库系统。它包括:用于定义和建立数据仓库系统。它包括:设计和定义数据仓库的数据库设计和定义数据仓库的数

20、据库定义数据来源定义数据来源确定从源数据向数据仓库复制数据时的清理和增确定从源数据向数据仓库复制数据时的清理和增强规则强规则(2 2)数据获取部分)数据获取部分 该部件把数据从源数据中提取出来,依定义部件的该部件把数据从源数据中提取出来,依定义部件的规则,抽取、转化和装载数据进入数据仓库。规则,抽取、转化和装载数据进入数据仓库。 (3 3)管理部分)管理部分 它用于管理数据仓库的工作,包括:它用于管理数据仓库的工作,包括:对数据仓库中数据的维护对数据仓库中数据的维护把仓库数据送出给分散的仓库服务器或把仓库数据送出给分散的仓库服务器或DSSDSS用用户户对仓库数据的安全、归档、备份、恢复等处理对

21、仓库数据的安全、归档、备份、恢复等处理工作工作(4 4)信息目录部件(元数据)信息目录部件(元数据) 数据仓库的目录数据是元数据,由三部分组成:数据仓库的目录数据是元数据,由三部分组成: 技术目录:技术目录:由定义部件生成,关于数据源、目标、清理规由定义部件生成,关于数据源、目标、清理规则、变换规则以及数据源和仓库之间的映象信息。则、变换规则以及数据源和仓库之间的映象信息。 业务目录:业务目录:由仓库管理员生成,关于仓库数据的来源及当由仓库管理员生成,关于仓库数据的来源及当前值;预定义的查询和报表细节;合法性要求等。前值;预定义的查询和报表细节;合法性要求等。 信息引导器:信息引导器:使用户容

22、易访问仓库数据。利用固定查询或使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。建立新的查询,生成暂时的或永久的仓库数据集合的能力等。(5 5)DBMSDBMS部分部分 DWDW的存储形式仍为关系型数据库。的存储形式仍为关系型数据库。 分析工具集分两类工具:分析工具集分两类工具:(1 1)查询工具)查询工具 数据仓库的查询不是指对记录级数据的查数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。询,而是指对分析要求的查询。 一般包含:一般包含: 可视化工具:可视化工具:以图形化方式展示数据,可以图形化方式展示数据,可以帮助了解数据的结构、关

23、系以及动态性。以帮助了解数据的结构、关系以及动态性。 多维分析工具(OLAP工具): 通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。 多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。(2 2)数据挖掘工具)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。 数据仓库应用是一个典型的客户数据仓库应用是一个典型的客户/ /服务器(服务器(C/SC/S)结构形式)结构形式 数据仓库采用服务器结构,客户端所做的工作有:客户交数据仓库采用服务器结构,客户端所做的工作有:客户交互、格式化

24、查询、结果显示、报表生成等。互、格式化查询、结果显示、报表生成等。 服务器端完成各种辅助决策的服务器端完成各种辅助决策的SQLSQL查询、复杂的计算和各查询、复杂的计算和各类综合功能等。类综合功能等。 现在,越来越普通的一种形式是三层现在,越来越普通的一种形式是三层C/SC/S结构形式,即在结构形式,即在客户与数据仓库服务器之间增加一个多维数据分析(客户与数据仓库服务器之间增加一个多维数据分析(OLAPOLAP)服务器。服务器。客 户 端OLAP 服 务 器数 据 仓 库服 务 器 OLAPOLAP服务器将服务器将加强加强和和规范化规范化决策支持的服务工决策支持的服务工作,集中和简化了原客户端

25、和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,分工作,降低了系统数据传输量降低了系统数据传输量。 这种结构形式工作效率更高。这种结构形式工作效率更高。n数据仓库存储采用多维数据模型。数据仓库存储采用多维数据模型。n维就是相同类数据的集合,商店、时间和产品都是维维就是相同类数据的集合,商店、时间和产品都是维n两维表,如通常的电子表格。三维构成立方体,若再两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出增加一维,则图形很难想象,也不容易在屏幕上画出来。来。n数据仓库是以多维表型的数据仓库是以多维表型的“维表维表事实表事实表”结构

26、结构形式组织的,共有三种形式:形式组织的,共有三种形式:n1 1、星型模型、星型模型n大多数的数据仓库都采用大多数的数据仓库都采用“星型模型星型模型”。星型模型是由。星型模型是由“事实表事实表”(大(大表)以及多个表)以及多个“维表维表”(小表)所组成。(小表)所组成。n“事实表事实表”中存放大量关于企业的事实数据(数量数据)。中存放大量关于企业的事实数据(数量数据)。 例如:多个时期的数据可能会出现在同一个例如:多个时期的数据可能会出现在同一个“事实表事实表”中。中。n“维表维表”中存放描述性数据,维表是围绕事实表建立的较小的中存放描述性数据,维表是围绕事实表建立的较小的表表n2、雪花模型、

27、雪花模型n雪花模型是对星型模型的扩展,雪花模型对星型模型的雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,维表进一步层次化,原来的各维表可能被扩展为小的事原来的各维表可能被扩展为小的事实表实表,形成一些局部的,形成一些局部的“层次层次”区域。区域。n它的优点是最大限度地它的优点是最大限度地减少减少数据存储量,以及把数据存储量,以及把较小较小的的维表联合在一起来改善查询性能。维表联合在一起来改善查询性能。n在上面星型模型的数据中在上面星型模型的数据中 ,对,对“产品表产品表”“”“日期日期表表”“”“地区表地区表”进行扩展形成雪花模型数据见下图。进行扩展形成雪花模型数据见下图。

28、n3、星网模型、星网模型n星网模型是将多个星型模型连接起来形成网状结构。星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个多个星型模型通过相同的维,如时间维,连接多个事实表。事实表。第(第(2 2)部分)部分 6.3 6.3 联机分析处理(联机分析处理(OLAPOLAP) 6.4 6.4 数据仓库的决策支持数据仓库的决策支持n联机分析处理(联机分析处理(On Line Analytical Processing,OLAP)的概念最早是由关系数据库之父的概念最早是由关系数据库之父E.F.Codd(科科德德)于于1993年提出的。年提出的。n在数据仓库系统中

29、,联机分析处理是重要的数据分析在数据仓库系统中,联机分析处理是重要的数据分析工具工具。nOLAP的基本思想是从的基本思想是从多方面多方面和和多角度多角度以多维的形式来以多维的形式来观察企业的状态和了解企业的变化。观察企业的状态和了解企业的变化。6.3.1 基本概念nOLAP是在是在OLTP(联机事务处理系统联机事务处理系统 )的基础上发展起来的。的基础上发展起来的。nOLTP是以数据库为基础的,面对的是操作人员和低层管理人是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。员,对基本数据的查询和增、删、改等进行处理。nOLAP是以数据仓库为基础的数据分析

30、处理。它有两个特点:是以数据仓库为基础的数据分析处理。它有两个特点:n一是在线性(一是在线性(On Line),由客户机),由客户机/服务器这种体系结构来完成的;服务器这种体系结构来完成的;n二是多维分析,这也是二是多维分析,这也是OLAP的核心所在。的核心所在。总结:联机分析处理是一种用于组织大型商务数据库和支持商务智能的总结:联机分析处理是一种用于组织大型商务数据库和支持商务智能的技术。技术。OLAP 数据库分为一个或多个多维数据集,每个多维数据集都数据库分为一个或多个多维数据集,每个多维数据集都由多维数据集管理员组织和设计以适应用户检索和分析数据的方式,由多维数据集管理员组织和设计以适应

31、用户检索和分析数据的方式,从而更易于创建和使用所需的数据透视表和数据透视图。从而更易于创建和使用所需的数据透视表和数据透视图。n联机分析处理是共享多维信息的快速分析。联机分析处理是共享多维信息的快速分析。n它体现了四个特征:它体现了四个特征:n(1)快速性)快速性:用户对:用户对OLAP的快速反应能力有很高的快速反应能力有很高的要求。的要求。 n(2)可分析性)可分析性:OLAP系统应能处理任何逻辑分析系统应能处理任何逻辑分析和统计分析。和统计分析。 n(3)多维性)多维性:系统必须提供对数据分析的多维视:系统必须提供对数据分析的多维视图和分析。图和分析。n(4)信息性)信息性:OLAP系统应

32、能及时获得信息,并且系统应能及时获得信息,并且管理大容量的信息。管理大容量的信息。 n1993年,年,E.F.Codd提出提出OLAP的的12条准则,条准则,其主要的准则有:其主要的准则有: 1)多维数据分析;)多维数据分析; 2)客户)客户/服务器结构;服务器结构; 3)多用户支持;)多用户支持; 4)一致的报表性能等。)一致的报表性能等。 n多维概念视图多维概念视图n企业的数据空间本身就是多维的。因此企业的数据空间本身就是多维的。因此OLAP的概念模型也应是多维的。的概念模型也应是多维的。n用户可以对多维数据模型进行用户可以对多维数据模型进行切片、切块、切片、切块、旋转坐标或进行多维的联合

33、旋转坐标或进行多维的联合(概括和聚集)(概括和聚集)分析。分析。n 稳定的报表性能稳定的报表性能n报表操作报表操作不应不应随维数增加而削弱,即当数据随维数增加而削弱,即当数据维数和数据的综合层次增加时,维数和数据的综合层次增加时,提供的报表提供的报表能力和响应速度不应该有明显的降低能力和响应速度不应该有明显的降低。 n 客户客户/服务器体系结构服务器体系结构 nOLAP是建立在客户是建立在客户/ 服务器体系结构上的。服务器体系结构上的。n要求多维数据库服务器能够被不同的应用和要求多维数据库服务器能够被不同的应用和工具所访问。工具所访问。 n 多用户支持多用户支持 n当多个用户要在同一分析模式上

34、并行工作,需当多个用户要在同一分析模式上并行工作,需要这些功能的支持。要这些功能的支持。n灵活的报表生成灵活的报表生成 n报表必须报表必须充分反映充分反映数据分析模型的数据分析模型的多维特征多维特征,并可按用户需要的方式来显示它。并可按用户需要的方式来显示它。 nOLAP是针对特定问题的联机数据访问和分析。是针对特定问题的联机数据访问和分析。 n (1)变量)变量 :变量是数据的实际意义,即描述数据:变量是数据的实际意义,即描述数据“是什么是什么”。 n (2)维)维:维是人们观察数据的特定角度。如产品维、:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。顾客维、时间维等。 n (3)

35、维的层次)维的层次:数据的细节不同程度为维的层次。:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。如日、月、季、年是时间维的层次。 n (4)维成员)维成员:维的一个取值称为该维的一个维成员。:维的一个取值称为该维的一个维成员。如如“某年某月某日某年某月某日”是时间维的一个成员。是时间维的一个成员。 n5)多维数组)多维数组:一个多维数组可以表示为:一个多维数组可以表示为:n(6)数据单元(单元格)数据单元(单元格):n(1)OLTP (联机事务处理系统联机事务处理系统 )nOLTP是低层人员利用计算机网络对数据库中是低层人员利用计算机网络对数据库中的数据进行查询、增、删、改等

36、操作,以完成的数据进行查询、增、删、改等操作,以完成事务处理工作。事务处理工作。nOLTP利用数据库快速地处理具体业务。利用数据库快速地处理具体业务。OLTP应用要求多个查询并行。应用要求多个查询并行。 n(2)OLAPnOLAP是高层人员对数据仓库进行信息分析处理。是高层人员对数据仓库进行信息分析处理。n 存取大量的数据存取大量的数据 n 包含聚集的数据包含聚集的数据 n 按层次对比不同时间周期的聚集数据按层次对比不同时间周期的聚集数据 n 以不同的方式来表现数据以不同的方式来表现数据 n 要包含数据元素之间的复杂的计算要包含数据元素之间的复杂的计算 n 能够快速的响应用户的查询能够快速的响

37、应用户的查询(3)OLAP与与OLTP对比(对比表)对比(对比表)OLTPOLAP数据库数据数据库数据数据仓库数据数据仓库数据细节性数据细节性数据综合性数据综合性数据当前数据当前数据历史数据历史数据一次性处理的数据量小一次性处理的数据量小一次处理的数据量大一次处理的数据量大对响应时间要求高对响应时间要求高响应时间合理响应时间合理用户数量大用户数量大用户相对较少用户相对较少面向应用,事务驱动面向应用,事务驱动面向分析,分析驱动面向分析,分析驱动 nMOLAP(MOLAP(多维多维OLAP)OLAP)和和ROLAP(ROLAP(关系关系OLAP)OLAP)是是OLAPOLAP的两的两种具体形式:种

38、具体形式: nROLAPROLAP是基于是基于关系数据库关系数据库存储方式建立的存储方式建立的OLAPOLAP。多维数。多维数据映射成平面型的关系表。采用星型模型。据映射成平面型的关系表。采用星型模型。nMOLAPMOLAP是基于是基于多维数据库多维数据库存储方式建立的存储方式建立的OLAPOLAP;表现为;表现为“超立方超立方”结构,类似于多维数组的结构。结构,类似于多维数组的结构。n在分析中,需要在分析中,需要“旋转旋转”数据立方体以及数据立方体以及“切切片片” 、“切块切块”等操作。等操作。MOLAPMOLAP和和ROLAPROLAP的对比表的对比表MOLAPMOLAPROLAPROLA

39、P固定维固定维可变维可变维维交叉计算维交叉计算多维视图多维视图行级计算行级计算超大型数据库超大型数据库读读- -写应用写应用维数据变化速度快维数据变化速度快数据集市数据集市数据仓库数据仓库例如,以例如,以“产品、城市、时间产品、城市、时间”三维数据,如三维数据,如图图时间城市产品电视机电冰箱广州上海9596 对三维数据,通过对三维数据,通过“切片切片” ,分别从城市和产,分别从城市和产品等不同的角度观察销售情况:品等不同的角度观察销售情况: 电视机电冰箱广州上海钻取:例如,钻取:例如,19951995年各部门销售收入表如下:年各部门销售收入表如下:对时间维进行下钻操作,获得新表如下:对时间维进

40、行下钻操作,获得新表如下:1995年1996年部 门1季 度 2季 度 3季 度 4季 度 1季 度 2季 度 3季 度 4季 度部 门1200200350150120200250140部 门225050150150200180230120部 门3200150180270180200170250旋转前的数据旋转前的数据1季度2季度3季度4季度部门95年96年95年96年95年96年95年96年部门1200120200200350250150140部门225020050180150230150120部门3200180150200180170270250旋转后的数据旋转后的数据1季度2季度3季度4

41、季度年龄95年96年95年96年95年96年95年96年2010060805010050504050 x2030023011025027033020022050250210210280310270320250旋转后再切片旋转后再切片 假设有一个假设有一个5 5维数据模型,维数据模型,5 5个维分别为:商店,个维分别为:商店,方案,部门,时间,销售。方案,部门,时间,销售。 1 1三维表查询三维表查询 在指定在指定“商店商店=ALL=ALL,方案,方案= =现有现有”情况的三维情况的三维表(行为部门,列为时间和销售量)表(行为部门,列为时间和销售量) 20042005%增长率销售量利润增长%销售

42、量利润增长%销售量利润增长服装234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽车375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9 20042005%增长率增长率销售销售利润增利润增长长%销售销售利润增利润增长长%销售销售利润增利润增长长汽车汽车375,09822.4325,40227.2(13.2)21.4维修维修195,05114.2180,78615.0(7.3)5.6附件附件116,28043.9122,545

43、音乐音乐63,7678.222,07114.2(63.4)7.3 对汽车部门向下钻取出具体项目的销售情况和对汽车部门向下钻取出具体项目的销售情况和利润增长情况。利润增长情况。 1995Sales服装服装381,102家具家具66,005汽车汽车325,402所有其它所有其它306,677 切片(切片(SliceSlice)操作是除去一些列或行不显示)操作是除去一些列或行不显示 1995销售量销售量现有现有计划计划差量差量差量差量%服装服装381,102350,00031,1028.9家具家具66,00569,000(2,995)(4.3)汽车汽车325,402300,00025,4028.5所

44、有其它所有其它306,677350,000(44,322)12.7 这次旋转操作得到这次旋转操作得到19951995年的交叉表方案为:现年的交叉表方案为:现有、计划、有、计划、 差量、差量差量、差量% %。n美国著名的美国著名的NCR数据仓库公司对数据仓库总结数据仓库公司对数据仓库总结5种决策支持能力。种决策支持能力。n 1、报表、报表 n 2、随机分析、随机分析n 3、预测、预测n 4、实时决策、实时决策n 5、事件触发的自动决策、事件触发的自动决策n数据仓库所面临的数据仓库所面临的最大挑战是数据集成最大挑战是数据集成。传统。传统的环境经常有上百个数据源,每一数据源都有的环境经常有上百个数据

45、源,每一数据源都有各自定义的标准和实施技术。各自定义的标准和实施技术。 n建立的数据仓库是通过收集各种来源的数据,建立的数据仓库是通过收集各种来源的数据,来来回答预先设置的一些问题,告诉决策者回答预先设置的一些问题,告诉决策者“发发生了什么生了什么”。它为以后数据仓库的发展奠定了。它为以后数据仓库的发展奠定了基础。基础。 n数据仓库应用的第二种决策支持是,数据仓库应用的第二种决策支持是,从从“发生发生了什么了什么”转向转向“为什么会发生为什么会发生”。分析活动就分析活动就是了解报表数据的涵义,需要更多更详细的数是了解报表数据的涵义,需要更多更详细的数据进行各种角度的分析。在第二阶段的数据仓据进

46、行各种角度的分析。在第二阶段的数据仓库主要用于随机分析。库主要用于随机分析。 3 3、预测、预测n数据仓库的第三种决策支持是帮助决策者来预数据仓库的第三种决策支持是帮助决策者来预测未来,测未来,回答回答“将要发生什么将要发生什么”。n数据仓库需要利用历史资料创建预测模型。数据仓库需要利用历史资料创建预测模型。4 4、实时决策、实时决策n数据仓库的第数据仓库的第4种决策支持是企业需要准确了解种决策支持是企业需要准确了解“正在发正在发生什么生什么”,从而需要建立动态数据仓库(实时数据库),从而需要建立动态数据仓库(实时数据库),用于支持战术型决策,即实时决策。有效地解决当前的用于支持战术型决策,即

47、实时决策。有效地解决当前的实际问题。实际问题。n第第1到第到第3种决策支持的数据仓库都以支持企业种决策支持的数据仓库都以支持企业内部战略内部战略性决策为重点性决策为重点,帮助企业制定发展战略。,帮助企业制定发展战略。 n第第4种决策支持侧重在战术性决策支持。种决策支持侧重在战术性决策支持。n动态数据仓库能够逐项产品、逐个店铺、逐秒地作出最动态数据仓库能够逐项产品、逐个店铺、逐秒地作出最佳决策支持。佳决策支持。5 5、事件触发的自动决策、事件触发的自动决策n数据仓库的第数据仓库的第5种决策支持是由事件触发,利用种决策支持是由事件触发,利用动态数据库自动决策,动态数据库自动决策,达到达到“希望发生

48、什么希望发生什么”。 例如,电子货架标签技术结合动态数据仓库,可例如,电子货架标签技术结合动态数据仓库,可以帮助企业按照自己的意愿实现复杂的价格管理以帮助企业按照自己的意愿实现复杂的价格管理自动化,以便以最低的损耗售出最多的存货。自动化,以便以最低的损耗售出最多的存货。 6.5 6.5 知识发现与数据挖掘知识发现与数据挖掘 6.6 6.6 数据挖掘的决策支持及应用数据挖掘的决策支持及应用演变阶段商业问题支持技术产品厂家产品特点数据搜集(20世纪60年代)数据访问(20世纪80年代)数据仓库决策支持(20世纪90年代数据挖掘(正在流行)“过去五年中整个有关联锁超市总收入是多少?”“联锁超市第一分

49、部去年三月的销售额是多少?”“联锁超市第一分部去年三月的销售额是多少?第二分部据此可得出什么结论?”“下个月第二分部的销售会怎么样?为什么?”计算机、磁带和磁盘关系数据库(RDBMS),查询语言(SQL),ODBCOLAP、多维数据库和数据仓库高级算法、多处理器计算机和海量数据库IBM和CDCOracle、Sybase、Informix、IBM和MicrosoftPilot、Comshare、Arbor、Cognos和MicrostrategyPilot、Lockheed、IBM、SGI和其他初创公司提供历史性的静态的数据在记录级提供历史性动态数据在各种层次上提供回溯的动态数据提供预测性信息表

50、 数据挖掘的演变进程产 品ClementineDarwinData mining WorkstationData EngineIBM Intelligent MinerF-DBMSIDISInformation HarvesterKnowledge SeekerNeural WarePrisonRe Mind技 术供应商规则归纳神经网络、遗传算法等神经网络神经网络、模糊逻辑、信号处理多种技术分数维规则发现模糊专家系统规则发现、决策树神经网络神经网络基于实例的推理、归纳逻辑Ingegral SolutionsThinking Machines Corp.HNC Software Inc.MIT

51、GmbhIBM Corp.Cross/Z International Inc.Informational Discovery Inc.Informational HarvestingAngoss Software Int1 Ltd.Neural Ware Inc.Nestor Inc.Cognitive Systems表 一些主要的数据挖掘产品数据挖掘的兴起数据挖掘的兴起 (1 1)8080年在美国召开了第一届国际机器学习研年在美国召开了第一届国际机器学习研讨会;讨会; (2 2)8989年年8 8月于美国底特律市召开的第一届月于美国底特律市召开的第一届KDDKDD国际学术会议;国际学术会议;

52、 (3 3)9595年在加拿大召开了第一届知识发现和数年在加拿大召开了第一届知识发现和数据挖掘国际学术会议;据挖掘国际学术会议; (4 4)我国于)我国于8787年召开了第一届全国机器学习研年召开了第一届全国机器学习研讨会。讨会。知识发现(知识发现(KDD):):从数据中发现有用知识的整个过程。从数据中发现有用知识的整个过程。 KDD过程定义:过程定义: 从数据集中提取出可信的、新颖的、潜在有用的从数据集中提取出可信的、新颖的、潜在有用的,以及最以及最终可理解的终可理解的模式模式的高级处理过程。的高级处理过程。 “模式模式”可以看成是可以看成是“知识知识”的雏形,经过验证、完善后的雏形,经过验

53、证、完善后形成知识。形成知识。数据挖掘(数据挖掘(DMDM):):KDDKDD过程中的一个特定步骤,它用专门算过程中的一个特定步骤,它用专门算 法从数据中抽取模式(法从数据中抽取模式(patternspatterns)。)。数据源数据源数据数据数据集成数据集成目标数据目标数据预处理后预处理后数据数据转换数据转换数据模式模式知识知识数据选择数据选择预处理预处理数据挖掘数据挖掘数据转换数据转换结果表达和解释结果表达和解释数据准备数据准备数据挖掘数据挖掘结果表达和解释结果表达和解释(一)归纳学习方法(一)归纳学习方法 分为两大类:信息论方法(决策树方法)和集合论方法分为两大类:信息论方法(决策树方法

54、)和集合论方法 1 1、信息论方法(决策树方法)、信息论方法(决策树方法) 利用信息论的原理建立决策树或者是决策规则树。利用信息论的原理建立决策树或者是决策规则树。 (1 1)ID3ID3方法:方法:QuiulanQuiulan研制的研制的ID3ID3方法是利用信息论中互方法是利用信息论中互信息建立决策树。信息建立决策树。 (2 2)IBLEIBLE方法:方法:我们研制的我们研制的IBLEIBLE方法,是利用信息论中方法,是利用信息论中信道容量,寻找数据库中信息量大的多个字段的取值建立决信道容量,寻找数据库中信息量大的多个字段的取值建立决策规则树。策规则树。 2 2、集合论方法、集合论方法 (

55、1 1)粗糙集()粗糙集(Rough SetRough Set)方法)方法 对数据库中的条件属性集与决策属性集建立上下近似对数据库中的条件属性集与决策属性集建立上下近似关系,对下近似集合建立确定性规则,对上近似集合建立关系,对下近似集合建立确定性规则,对上近似集合建立不确定性规则(含可信度)。不确定性规则(含可信度)。 (2 2)关联规则挖掘)关联规则挖掘 在交易事务数据库中,挖掘出不同商品集的关联关系,在交易事务数据库中,挖掘出不同商品集的关联关系,即发现哪些商品频繁地被顾客同时购买。即发现哪些商品频繁地被顾客同时购买。 (二)仿生物技术(二)仿生物技术 仿生物技术典型的方法是神经网络方法和

56、遗传算法。仿生物技术典型的方法是神经网络方法和遗传算法。 1 1、神经网络方法:、神经网络方法:包括:前馈式网络、反馈式网络、自包括:前馈式网络、反馈式网络、自组织网络等多个神经网络方法。组织网络等多个神经网络方法。 2 2、遗传算法:、遗传算法:这是模拟生物进化过程的算法。这是模拟生物进化过程的算法。 它由三个基本算子组成:它由三个基本算子组成:繁殖(选择)、交叉(重组)、变异(突变)繁殖(选择)、交叉(重组)、变异(突变) 遗传算法起到产生优良后代的作用,经过若干代的遗传,遗传算法起到产生优良后代的作用,经过若干代的遗传,将得到满足要求的后代(问题的解)。将得到满足要求的后代(问题的解)。

57、(三)公式发现(三)公式发现 在工程和科学数据库中对若干数据项(变量)在工程和科学数据库中对若干数据项(变量) 进行一进行一定的数学运算,求得相应的数学公式。定的数学运算,求得相应的数学公式。 1 1物理定律发现系统物理定律发现系统BACONBACON BACONBACON发现系统完成了物理学中大量定律的重新发现。发现系统完成了物理学中大量定律的重新发现。 2 2经验公式发现系统经验公式发现系统FDDFDD 我们研制了我们研制了FDDFDD发现系统,寻找由数据项的初等函数或发现系统,寻找由数据项的初等函数或复合函数组合成的经验公式。复合函数组合成的经验公式。 (四)统计分析方法(四)统计分析方

58、法 利用统计学原理通过对总体中的样本数据进行分析得出利用统计学原理通过对总体中的样本数据进行分析得出描述和推断该总体信息和知识的方法。描述和推断该总体信息和知识的方法。(五)模糊数学方法(五)模糊数学方法 利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分类等。类等。 (六)可视化技术(六)可视化技术 利用可视化技术分析数据库,找到潜在的有用信息。利用可视化技术分析数据库,找到潜在的有用信息。主要有四种:主要有四种:规则、决策树、浓缩数据、公式。规则、决策树、浓缩数据、公式。 1、规则、规则 规则知识由规则知识由前提条件前提条件和和结论结论两部分组

59、成两部分组成 前提条件前提条件由字段项(属性)的取值的合取(与由字段项(属性)的取值的合取(与 ) 和析取(或和析取(或 )组合而成。)组合而成。 结论结论为决策字段项(属性)的取值或者类别组成。为决策字段项(属性)的取值或者类别组成。2、决策树、决策树例如:上例的人群数据库,按例如:上例的人群数据库,按ID3ID3方法得到的决策树如下:方法得到的决策树如下: 3、知识基(浓缩数据)、知识基(浓缩数据) 例如上例的人群数据库,通过计算可以得出例如上例的人群数据库,通过计算可以得出身高身高是不重要的字段,是不重要的字段,删除它后,再合并相同数据元组,得到浓缩数据如下表:删除它后,再合并相同数据元

60、组,得到浓缩数据如下表: 5、公式、公式 例如,太阳系行星运动数据中包含行星运动周期(旋转一周所例如,太阳系行星运动数据中包含行星运动周期(旋转一周所需时间,天),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的需时间,天),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的长半轴,百万公里),数据如下表:长半轴,百万公里),数据如下表:发现的公式为:发现的公式为:d3/p2=25 6.6.1 6.6.1 数据挖掘的决策支持分类有:数据挖掘的决策支持分类有: 关联分析、时序模式、聚类、分类、偏差检测、预测。关联分析、时序模式、聚类、分类、偏差检测、预测。1 1、关联分析、关联分析 若两个或多个数据项的取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论