第二章 基于数据仓库的数据挖掘技术_第1页
第二章 基于数据仓库的数据挖掘技术_第2页
第二章 基于数据仓库的数据挖掘技术_第3页
第二章 基于数据仓库的数据挖掘技术_第4页
第二章 基于数据仓库的数据挖掘技术_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本章内容提要: 1、介绍数据仓库的结构和技术要求 2、介绍数据仓库的数据组织和模型 3、介绍元数据,第一节 数据仓库的结构和技术要求 一、数据仓库的总体结构 (一)数据仓库的概念结构 数据仓库的概念结构包含数据源、数 据准备区、数据仓库、数据集市以及 各种管理工具和应用工具等等。,数 据 准 备 区,数 据 仓 库,数 据 集 市,应用工具,用 户,内 部 数 据 源,外 部 数 据 源,管 理 工 具,(二)数据仓库的层次结构 (1)功能层 完成数据仓库和数据集市的结构、数 据的存取和使用等功能 (2)管理层 数据管理和元数据管理 (3)环境支持层 数据传输和数据仓库基础结构,(三)数据仓库

2、的结构模式 (1)数据仓库的自顶向下结构 (2)数据仓库的自底向上结构 比较: 指导思想 集成的力度 数据集市中的数据粒度,(3)企业级数据集市结构(EDMA)通过创建一个共享的结构, EDMA支持由数据集市到数据仓库的开发。 EDMA框架包括企业主题域、通用维、度量、业务规则和数据源,所有这些都在逻辑上统一的全局元数据中心库中表示出来。这种框架不是固定不变的,它随数据仓库的开发而不断调整。,数据源,数据源,数据源,数 据 驻 留 单 元,数据集市,数据集市,数据集市,数据仓库,应用服务器,全局元数据中心库,企业级数据集市结构(EDMA),二、数据集市 (一)数据集市(Data Mart)的定

3、义 数据集市是针对某个具有战略意义的 应用或者具体部门级的应用的数据仓 库,它支持用户利用已有的数据进行 管理决策。,(二)数据集市的特点 规模小,可采用多种方式灵活组织。 工作由业务部门主持定义、设计、 实施、管理和维护。 快速实现,代价较低,投资回收快,风 险小。 紧密集成。 可升级到数据仓库。,(三)数据集市的类型 从属数据集市 独立数据集市 注:可以从数据仓库的结构模式来理 解。,三、数据仓库的技术要求 (一)数据管理技术 大批量数据管理技术、数据仓库索引 和数据监视技术、元数据管理技术、 数据压缩技术和复合键码技术等等。,(二)数据存储技术 多介质存储设备管理技术、数据存储 控制技术

4、、数据并行存储技术、可变 长技术、锁切换技术等等。 (三)数据仓库接口技术 多技术接口技术、多语言接口技术、 数据的高效装载技术等等。,第二节 数据仓库的数据组织和模型 一、数据仓库的数据组织 数据仓库系统通常由数据仓库、管理 部分和分析工具三个部分组成。,数据库,数据文件,其它,数据仓库 管理工具,抽取/转 换/装载,元数据 管理,数据建模 工具,元数据,综合数据,当前数据,历史数据,用户查 询工具,C/S工具,OLAP工具,数据挖掘 工具,管理部分,存储部分,应用部分,数据仓库系统,(一)数据仓库管理部分 (1)建模工具,主要用于完成定义数 据源、数据仓库以及两者相互转换、 清理的规则等工

5、作。 (2)抽取/转换/装载,主要用于完成 获取数据、消除不一致现象和集成数 据等工作。,(3)管理工具,主要用于完成数据仓 库中数据的维护、安全、备份、恢 复、日志等工作。 (4)元数据管理,主要用于完成元数 据的管理、存储以及对整个数据仓库 的检测等工作。,(二)数据仓库存储部分 数据仓库中数据的组织通常采用分级 的方式来进行的,一般包括早期细节 数据、当前细节数据、轻度综合数 据、高度综合数据以及元数据等五部 分组成。,(三)数据仓库应用部分 数据仓库应用部分主要由一些分析工 具组成,主要包括检索查询工具、联 机分析处理工具和数据挖掘工具等等 组成。,数据仓库系统采用典型的客户机/服 务

6、器结构形式,其客户端的工作主要 包括客户交互、格式化查询、可视化 以及报表生成等内容,服务器端完成 各种复杂的计算以及其它综合功能。 这种方式有助于提高性能和可靠性、 降低数据传输量以及保证数据的安全 性等方面具有很大的好处。,二、数据仓库的数据模型 (一)数据模型设计过程与方法 数据模型是对现实世界进行抽象的工 具,需要将现实世界的事物及其有关 特征转换为信息世界的数据,才能对 信息进行处理与管理,这就需要依靠 数据模型作为这种转换的桥梁。这种 转换经历了现实世界、概念世界、逻 辑世界和计算机世界等环节。,身 高,张 三,客 户,客户与产品,特 性,个 体,整 体,整体间联系,属 性,实 体

7、,同质总体,异质总体,字 段,记 录,表文件,数据库,现实世界,概念世界,逻辑世界,计算机世界,信息 包图法,物理数据模型法,星型 图法,概念 模型,逻辑 模型,物理 模型,面向用户的需求,具体的技术细节,细化,作为数据仓库设计的模型,除了要有描述 概念世界的概念模型、描述逻辑世界的逻 辑模型和描述计算机世界的物理模型以 外,还有元数据模型和数据粒度模型。,现实世界,概念模型,逻辑模型,物理模型,数据仓库,元 数 据 模 型,数 据 粒 度 模 型,(二)概念模型设计(信息包图) 在需求分析阶段,通过与用户的交 流,明确用户的需求,并将这些需求 抽象为信息结构(即概念模型)的过 程被称为概念模

8、型设计。,因为数据仓库具有多维性,即其维度多在 三维或者三维以上,数据呈现难以直观 化,所以在此可以采用一种称为信息包图 的方法在平面上将多维空间展开,即用二 维表格来传递决策者分析处理的需求,来 反映数据仓库的多维性。 信息包图是一种公共的、一致的和紧凑的 概念模型设计工具,可以反映用户需求的 集中范围,能在适当的时间内将有效的信 息传递给希望获取它们的人。,信息包图由名称、维度、类别、层次和度 量等五部分组成。 1、名称:名称表达了信息包图所描述的 主要内容。它书写在信息包图的二维表格 的上方。 2、维度:维度是一个物理特性,也是一 个访问和表达数据的基本途径,还是一个 观察和浏览数据的角

9、度。它书写在信息包 图的二维表格的第一行的每栏目中。,3、类别:类别是指按照一定的标准(称 之为类属性)对维度全集的划分。一个维 度的各个类别在信息包图中用二维表格中 的某列来表示。 4、层次:层次是指在一个维度内为表达 细节程度不同的数据而按照次序划分的多 个描 述方面。一个维度的所有层次组成在 信息包图中用二维表格中的某列来表示。,5、度量:度量是多维空间中衡量决策人 员最为关心的信息的一种尺度,是用户 访问数据仓库的关键所在。它填在信息 包图里的二维表格的最下面的一框中。,信息包图的设计目标是要满足决策者的 信息需求,因此利用信息包图法来设计 数据仓库的概念模型的时候,除了要确 定信息包

10、图的各个组成部分的内容之 外,还需要重视决策者的信息需求,以 便使得最终所设计出的数据仓库的概念 模型具有很大的适用性。,(三)逻辑模型设计(星型图) 数据仓库的逻辑模型设计是指对主题的多 维模式进行描述,它是数据仓库的数据模 型设计中的重要一环。 最便于转换信息包图和执行分析处理的逻 辑模型设计工具是星型图 。 原因有二: 1、一一对应。 2、简明易懂。,与信息包图相对应,星型图由五类逻辑实 体组成:度量逻辑实体、维度逻辑实体、 层次逻辑实体、详细信息逻辑实体和类别 逻辑实体。 下面具体叙述组成星型图的各个逻辑实体 的含义: 1、度量逻辑实体:它是信息包图中的度量 对象在星型图中的实现形式。

11、度量逻辑实 体包含了一系列相关的事实,是用户最关 心的逻辑实体和分析处理活动的中心。用 矩形框来表示。,2、维度逻辑实体:它是信息包图中的维度 对象在星型图中的实现形式。维度逻辑实 体的作用是对度量逻辑实体的数据进行过 滤和聚合,使得返回的信息简单明了,从 而帮助数据仓库的用户轻松地得到分析处 理的结果。用菱形框来表示。 3、层次逻辑实体和详细信息逻辑实体:将 信息包图中的层次对象转换为星型图中的 层次逻辑实体,特别的是,对于一个维度 中最底层次的对象,可以转化成详细信息,逻辑实体。用六边形框来表示层次逻辑 实体,用八边形框来表示详细信息逻辑 实体。 4、类别逻辑实体:它是信息包图中的类 别对

12、象在星型图中的实现形式。类别逻 辑实体的作用是在对维全集进行分类的 基础上,归纳总结出类内的共同点和类 间的差异点。用椭圆形框来表示。,(四)物理模型设计(物理数据模型) 与星型图相对应,物理数据模型由五类表组 成:事实表、维表、层次表、详细信息表和 类别表,它们分别对应于度量逻辑实体、维 度逻辑实体、层次逻辑实体、详细信息逻辑 实体和类别逻辑实体。 1、事实表:事实表由两部分组成,一部分 为维表的外键所共同组成的主键,另一部 分为反映度量逻辑实体内容的数据列。它存 储的数据量相对较大,并且增加的速度也较 快。,2、维表:维表由维度逻辑实体代码、名称 和其它信息组成。它存储的数据量相对较 小,

13、并且增加的速度也较慢。 3、层次表和详细信息表:层次表和详细信 息表分别存储有层次逻辑实体和详细信息 逻辑实体的代码、名称和其它信息。它们 存储的数据量和增加的速度介于事实表和 维表之间。,4、类别表:类别表存放着类别逻辑实体的 代码、名称和其它描述信息。它存储的数 据量和增加的速度基本上与层次表类似。 因为数据仓库中的数据是几乎不更新的, 并且设计的最终目标是用来访问的,所以 可做非规范化处理,从而提高数据分析处 理的效率,改善数据仓库的性能。,友情提示: 因为事实表数据量巨大,而大数据量的表 在备份、恢复、处理以及用户查询等方面 需要很多的时间,所以在实践中,可以利 用减少列的数量,降低每

14、列的大小,把历 史数据归档到单独的事实表中等多种方法 来降低事实表的大小。另外,在事实表中 还要解决数据的精度和粒度的问题。,设计维度表的主要目的是把参考事实表的 数据放置在一个单独的表中。最常用的维 度表数据应该参考事实表,而不应该是通 过其它维度表间接参考事实表。这种方法 可以实现最小化的连接数量,提高系统的 性能。,三、数据仓库的性能优化 因为数据仓库的数据量比较大,分析处理 时涉及的数据范围比较广,所以要求优化 数据仓库的性能,在此,输入/输出是关 键。,依据数据仓库的数据量大并且操作单一的 特点,可以采取如下技术来优化: (1)合并表 (2)建立数据序列 (3)引入冗余 (4)分割表

15、 (5)生成导出数据 (6)建立广义索引,第三节 元数据 一、元数据的定义与作用 (一)元数据的定义 元数据是关于数据、操纵数据的进程和应 用程序的结构和意义的描述信息,其主要 目的是提供数据资源的全面指南,其范围 是从现实世界的概念上的一般概括到详细 的物理说明。,元数据在数据仓库的设计、运行中有着重 要的作用,它表述了数据仓库中的各个对 象,遍及数据仓库的所有方面,是数据仓 库中所有管理、操作、数据的数据,是整 个数据仓库的核心。,(二)元数据的作用 元数据的主要目的是为了计算机系统的结 构、开发过程和使用方法提供一致的文 档,帮助理解系统,并且为开发和利用系 统的所有“角色”提供更加有效

16、的支持, 如终端用户、系统管理者、应用程序开发 人员等等。,在数据仓库中,生成和管理元数据主要有 两个目的: 1、减轻数据仓库的管理工作量 (1)实现管理工作的自动化。 (2)支持系统的集成。 (3)实施复杂的安全机制。 (4)支持新的应用和业务过程建模分析与 设计。 (5)改善系统的灵活性和软件模块的可重 用性。,2、改善信息抽取 (1)提高数据质量。 (2)提高查询、检索以及结果的质量。 (3)改善数据分析。 上述目标一般可以通过两种方式来支持: (1)被动的方式。 (2)主动的方式。,二、元数据的分类 (一)按照作用对象来划分 1、关于基本数据的元数据 2、关于数据处理的元数据 3、关于

17、企业组织结构的元数据 (二)按照抽象级别来划分 1、概念级元数据 2、逻辑级元数据 3、物理级元数据,(三)按照服务对象来划分 1、业务元数据 企业概念模型;多维数据模型;依 赖关系描述;导航帮助;基于业务术 语的查询;语义关联和概念层次等等。 2、技术元数据 关于数据仓库系统的体系结构和方案的 描述信息;关于数据仓库系统的实现级 上的映射关系的描述信息;抽取调度的,元数据;时间同步的元数据;用户权 限的信息等等。 (四)按照来源来划分 1、工具产生的元数据 2、源提供的元数据 3、企业模型 4、系统导入的元数据 5、特定的用户产生的元数据,(五)从目的来划分 1、用于信息的元数据 2、用于控制的元数据 (六)从产生/使用的时间来划分 1、根据获取或者生成的时间来划分: 设计时收集的元数据 构建时获取的元数据 运行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论