数据仓库和数据挖掘第二章_第1页
数据仓库和数据挖掘第二章_第2页
数据仓库和数据挖掘第二章_第3页
数据仓库和数据挖掘第二章_第4页
数据仓库和数据挖掘第二章_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章数据仓库

第2章数据仓库2.1数据仓库的体系结构数据仓库系统的层次结构数据集市2.2数据仓库构造模式自顶向下模式自底向上模式2.3数据仓库的技术要求2.4数据仓库的数据模型概念模型逻辑模型物理模型2.5数据仓库数据组织粒度维度元数据数据分割数据仓库的数据组织方式数据仓库的数据存储组织

2.1数据仓库的体系结构一、数据仓库系统的层次结构从数据仓库系统的总体结构看,数据仓库系统应该分为三个层次:数据获取/管理层、数据存储层、数据分析/应用层。

2.1数据仓库的体系结构

数据分析/应用层

数据

获取/

管理层

数据存储层

外部数据源

业务数据仓库

元数据

数据集市

2.1数据仓库的体系结构

1.数据获取/管理层

(1)数据仓库的定义与修改。定义数据仓库的数据来源、数据的组织方式,并根据决策的需要与环境的变化对这些内容进行修改,同时对数据仓库的元数据进行管理。

(2)数据的获取。根据已制定的规则,定期从指定的数据源中抽取源数据,并按规则对数据进行清洗、转换和集成,对数据仓库的内容定期进行校验和清理。

(3)数据仓库系统的管理。根据既定的规则和实际工作情况,实施数据仓库的维护、安全管理、备份、恢复和日志记录等工作。2.1数据仓库的体系结构

2.数据存储层

数据存储层是数据仓库的主体,存储的数据包括三部分:(1)从外部数据源抽取并按主题组织存放的业务数据。(2)数据仓库的元数据(3)针对不同的数据挖掘和分析主题而生成的数据集市。

2.1数据仓库的体系结构3.数据分析/应用层

满足用户的查询需要,并以适当的方式向用户展示查询、分析的结果。数据分析/应用层的主要包括以下功能。(1)查询/统计服务。为用户提供常规的查询检索、简单统计和报表等服务,这是数据仓库最基本的功能。(2)OLAP服务。对于以多维数据库方式进行数据组织的数据仓库,OLAP是一种极为有效的分析方法,它通过上卷、下钻、切片、切块和旋转等操作,对多维数据库进行深入的分析。(3)数据挖掘服务。数据挖掘服务是数据仓库系统的一种深层次应用,它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、不为人们所知的、但又是十分有用的信息和知识的过程二、数据集市1、数据集市的类型

数据集市为部门及的数据仓库,可以分为两种,一种是独立数据集市,另一种是从属数据集市。

独立型数据集市属型数据集市的逻辑结构2数据集市2、数据集市的特点

数据集市除具有数据仓库的基本特征以外,还具有以下特点:(1)规模较小、灵活,可以按照多种方式来组织,如按特定的分析应用、部门、地域、主题等。(2)开发工作一般由业务部门主持定义、设计、实施、管理和维护。(3)能够快速实现,代价较低,投资回收期短,风险小。(4)有利于进一步升级到完整的数据仓库或形成分布式数据仓库。2.2数据仓库的构造模式

构造一个完整的数据仓库,是十分复杂的过程。通常有以下两种模式:

(1)数据仓库的自顶向下结构,这是最早提出的数据仓库结构。(2)数据仓库的自底向上结构,核心是通过独立开发的数据集市逐渐构建数据仓库。1、自顶向下模式构造方向2、自底向上模式2.3数据仓库的技术要求1.数据管理技术大批量数据管理技术数据仓库的高效率索引技术数据仓库的数据监控技术元数据管理技术数据压缩技术复合键码技术数据装载技术2.3数据仓库的技术要求(1)大批量数据管理技术在数据仓库的所有技术中最重要的是管理大批量数据技术。如果不能管理大批量数据,那么数据仓库的创建与使用是不可能的。(2)数据仓库的高效率索引技术数据仓库中对数据的访问应有灵活性,即对数据具有快速和易访问的能力。显然,如果数据不能被方便地检索和访问,数据仓库很难适应大数据量存储和处理的要求。因此,支持辅助索引、稀疏索引、动态索引和临时索引等的索引技术就变得十分重要,还必须考虑创建索引和使用索引的代价等。2.3数据仓库的技术要求(3)数据仓库的数据监控技术能够随时监控数据仓库有许多方面的原因,包括:

A.决定是否对数据进行重组。

B.决定索引结构的有效性。

C.决定数据仓库中的数据是否溢出。

D.决定数据的统计组成。

E.决定剩余可用空间。2.3数据仓库的技术要求(4)元数据管理技术

A.数据仓库表结构。

B.数据仓库表属性。

C.数据仓库数据源。

D.从记录系统到数据仓库的映射。

E.数据模式说明。

F.数据抽取和转换。

G.通用数据访问例程。2.3数据仓库的技术要求表2-1技术元数据的内容项目作用基础数据信息对数据集市、数据仓库和OLAP系统的体系结构域实施方案作出详细的描述。如操作系统和DBMS的种类与版本、表的结构与属性的限制、索引的设置方案等抽取调度信息说明数据从数据源中经过抽取、清洗、转换,最终进入数据仓库的方法,着重说明抽取过程的调度方法,以及元数据与目标数据间的对应关系映射依赖信息对数据仓库内部各表之间的依赖、映射关系,表与视图的对应关系,中间表与源表的依存关系等,从物理级和实现级的角度,作出详细的解释其他技术信息介绍系统导入的元数据、特定用户(如DBMS的sa)所产生的元数据的情况2.3数据仓库的技术要求表2-2业务元数据的内容项目作用企业概念信息介绍企业的数据模型和业务概念,说明各业务之间的关系,为对业务逻辑或数据仓库不太熟悉的用户提供帮助

多维数据信息对企业概念信息的进一步细化与深化,为业务用户提供多维数据库中有关维定义、维类别、数据立方体,以及数据集市的聚合原则等方面的信息数据依存信息描述业务模型与物理数据间的依存、对应关系,说明物理上的库、表及其属性与具体业务属性之间的对应关系

数据挖掘信息目前描述数据仓库中的语义关联和专有的业务概念层次关系,为基于元数据的假设、生成和结果过滤准备条件,从而支持以此为依据的数据挖掘

查询导航信息对数据依存信息的全面细化,便于实现基于业务术语的请求在数据库中的查询实现,并实现面向业务的导航2.3数据仓库的技术要求(5)数据压缩技术(6)复合键码技术(7)数据装载技术2.4数据仓库的数据模型模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。

数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂——元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。现实世界概念模型逻辑模型物理模型数据仓库元数据模型数据粒度和聚集模型2.4数据仓库的数据模型数据仓库与数据库系统数据模型的区别:数据仓库的数据模型中不包含纯操作型数据。数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。数据仓库的数据模型中增加了一些面向主题的导出数据。2.4.1概念模型(信息包图)信息包图:

是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。工作:确定系统边界:决策类型、需要的信息、原始信息确定主题域及其内容:主题域的公共键码、联系、属性组确定维度:如时间维、销售位置维、产品维、组别维等确定类别:相应维的详细类别确定指标和事实:用于进行分析的数值化信息2.4.1概念模型(信息包图)信息包:

维度类别

空白信息包图样式指标和事实2.4.1概念模型(信息包图)例:试画出销售分析的信息包图。解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。(2)类别:确定各维的详细级别,如:日期维包括年(10)、季度(40)、月(120)等级别,括号中的数字分别指出各级别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等级别,括号中的数字同样分别指出各级别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。(3)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。

销售分析的信息包图日期销售地点销售产品年龄组别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)指标和事实:预测销售量、实际销售量、预测偏差信息包:销售分析 维度类别2.4.2逻辑模型(星型模型)1、星型模型:是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。

核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。

事实表维度表维度表维度表维度表维度表1、维度表

维度表包含描述事实数据表中的事实记录的特性。在星型结构中,每个维度表都有一个维主键,该主键链接到事实数据表中外键。2、事实数据表

事实数据表的主要特点是包含数字数据(事实),和多个维外键。2.4.2逻辑模型(星型模型)时间维产品维地区维组别维其他维销售分析:

实际销售预测销售预测偏差2.4.2逻辑模型(星型/雪花模型)1、星型模型例:销售分析的星型图模型。2.4.2逻辑模型(雪花模型)2、雪花模型:是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。

在雪片型结构中,一个或多个维度表分解为多个表,每个表都有连接到主维度表。详细类别表

事实表维度表维度表维度表维度表维度表详细类别表详细类别表详细类别表2.4.2逻辑模型(元数据模型)1.元数据的定义

元数据关于数据的数据,它在数据仓库的设计、运行中有着重要的作用,它表述了数据仓库中的各对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、关于数据的数据,是整个数据仓库的核心。要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。2、元数据的在数据仓库中的用途A.起到辅助决策分析过程中定位数据仓库的目录作用。B.数据从业务环境向数据仓库环境传送时数据仓库的目录内容。C.指导从近期基本数据到轻度综合数据和到高度综合数据的综合算法选择。2.4.2逻辑模型(元数据模型)3、元数据的分类:(1)数据源的元数据(2)数据模型的元数据(3)数据源与数据仓库映射的元数据(4)数据仓库应用的元数据2.4.3物理数据模型物理数据模型:数据模型的第三层,它是逻辑模型在数据仓库中的实现,如物理的存取方式、数据存储结构、索引结构等。在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。将重要程度高、经常存取并对响应时间高的数据存放在高速存储设备上,将存取频率低或对存取响应时间要求低的数据存放在低速存储设备上。2.4.3物理数据模型

数据仓库物理数据模型的性能问题

依据数据仓库数据量大但是操作单一的特点,可以采取以下一些技术来进行数据仓库的物理数据模型设计。(1)合并表(2)建立数据序列(3)引入冗余(4)表的物理分割(5)生成导出数据2.4.3物理数据模型1.合并表:几个表的记录分散存放在几个物理块中时,多个表的存取和连接操作的代价会很大。2.建立数据序列:按照某一固定的顺序访问并处理一组数据记录。将数据按照处理顺序存放到连续的物理块中,形成数据序列。3.引入冗余:一些表的某些属性可能在许多地方都要用到,将这些属性复制到多个主题中,可以减少处理时存取表的个数。4.表的物理分割:每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成两个或多个表,将具有相似访问频率的数据组织在一起。5.生成导出数据:在原始数据的基础上进行总结或计算,生成导出数据,可以在应用中直接使用这些导出数据,减少I/O次数,免去计算或汇总步骤,在更高级别上建立了公用数据源,避免了不同用户重复计算可能产生的偏差。2.5数据仓库数据组织一、粒度粒度:是指数据仓库的数据单位中保存数据的细化或综合程度的级别。对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多;粒度越高,综合程度越高,查询的效率也越高。在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。粒度影响数据仓库中数据量的大小,粒度问题是设计数据仓库的一个重要的设计问题。2.5数据仓库数据组织二、数据分割是指把数据分散存储到多个物理存储单元中,以便能分别独立处理,提高数据处理效率,它是粒度之后的第二个主要设计问题。数据分割的标准:日期:最常用的地理位置组织单位…...2.5数据仓库数据组织数据分割的方法垂直分割:

垂直分割就是把一个表垂直分成多个独立的表,分割后的表之间通过关键字段相关联。水平分割:

水平分割就是把表按行分成多个部分。按时间分割按地理位置进行分割2.5数据仓库数据组织四、数据存储方式基于关系表的存储方式。多维数据库存储方式。

数据组织形式产品名称地区销售量冰箱东北50冰箱西北60冰箱华北100彩电东北40彩电西北70彩电华北80空调东北90空调西北120空调华北140

东北西北华北冰箱5060100彩电407080空调90120140产品名称地区销售量冰箱东北50冰箱西北60冰箱华北100冰箱总和210彩电东北40彩电西北70彩电华北80彩电总和190空调东北90空调西北120空调华北140空调总和350总和东北180总和西北250总和华北320总和总和750

东北西北华北总和冰箱5060100210彩电407080190空调90120140350总和1802503207502.5数据仓库数据组织

数据仓库中数据的组织方式与数据库不同,通常采用分级的方式进行组织。一般包括早期细节数据、当前细节数据、轻度综合数据、高度综合数据以及元数据五部分。

(1)早期细节数据:指存储过去的详细数据,它反映了真实的历史情况。(2)当前细节数据:指最近时期的业务数据,它反映了当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。2.5数据仓库数据组织

(3)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论