数据仓库,联机分析处理,数据挖掘DataWarehousing,.ppt_第1页
数据仓库,联机分析处理,数据挖掘DataWarehousing,.ppt_第2页
数据仓库,联机分析处理,数据挖掘DataWarehousing,.ppt_第3页
数据仓库,联机分析处理,数据挖掘DataWarehousing,.ppt_第4页
数据仓库,联机分析处理,数据挖掘DataWarehousing,.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库,联机分析处理,数据挖掘 Data Warehousing, OLAP, and Data Mining 数据仓库 : 一个面向主题的、集成的、随时 间变化的、非易失性数据的集合,用于支持 管理层的决策过程。 OLAP 与 数据挖掘工具 : 是两种主要的分析 工具,提供给决策者对数据进行分析,以针 对分析结果做出决策。 概要 数据仓库的引出 1.传统数据库以及OLTP(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中 获得了巨大的成功,但是对管理人员的决策分析要 求却无法满足。 2.因为,管理人员常常希望能够通过对组织中的大 量数据进行分析,了解业务的的发展趋势。而传统 数据库只保留了当前的业务处理信息,缺乏决策分 析所需要的大量的历史信息。 3.为满足管理人员的决策分析需要,就需要在数据 库的基础上产生适应决策分析的数据环境数据 仓库(Data Warehose)。 数据仓库的定义与基本特性 1. 数据仓库的定义 William H.Inmon在1993年所写的论著Building the DataWarehouse首先系统地阐述了关于数 据仓库的思想、理论,为数据仓库的发展奠定了 历史基石。文中他将数据仓库定义为: a data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions. 一个面向主题的、集成的、非易失性的、随时间变 化的数据的集合,以用于支持管理层决策过程。 2.数据仓库的重要特性 a) subject-oriented(面向主题性) 面向主题表示了数据仓库中数据组织的基本原则,数据仓库 中的数由数据都是围绕着某一主题组织展开的。由于数据仓库 的用户大多是企业的管理决策者,这些人所面对的往往是一些 比较抽象的、层次较高的管理分析对象。例如,企业中的客户 、产品、供应商等都可以作为主题看待。 从信息管理的角度看,主题就是在一个较高的管理层次上对信 息系统的数据按照某一具体的管理对象进行综合、归类所形成 的分析对象。 从数据组织的角度看,主题是一些数据集合,这些数据集合 对分析对象作了比较完整的、一致的描述,这种描述不仅涉 及到数据自身,而且涉及到数据之间的关系。 数据仓库的集成性是指根据决策分析的要求, 将分散于各处的源数据进行抽取、筛选、清理 、综合等工作,使数据仓库的数据具有集成性 。 b) integrated (数据集成性) 数据仓库在从业务处理系统那里获取数据时, 并不能将源数据库中的数据直接加载到数据仓 库中,而是需要进行一系列的数据预处理,即 数据的抽取、筛选、清理、综合等集成工作。 也就是说,首先要从源数据库中挑选出数据仓库 所需要的数据,然后将这些来自不同数据库中的 数据按照某一标准进行统一,即将不同数据源中 的数据的单位、字长与内容按照数据仓库的要求 统一起来,消除源数据中字段的同名异义、异名 同义现象,这些工作称为数据的清理(clean),把 数据仓库的数据呈现给用户一个一致统一的视图 。 源数据加载到数据仓库后,还要根据决策分析的 需要对这些数据进行概括、聚集处理。 数据仓库的时变性,就是数据应该随着时间的推移 而变化。 c) time-variant 数据的时变性 尽管数据仓库中的数据并不像业务数据库那样反 映业务处理的实际状况,但是数据也不能长期不 变,如果依据10前的数据进行决策分析,那决策 所带来的后果将是十分可怕的。 因此,数据仓库必须能够不断捕捉主题的变化数 据,将那些变化的数据追加到数据仓库中去,也 就是说在数据仓库中必须不断的生成主题的新快 照,以满足决策分析的需要。数据新快照生成的 间隔,可以根据快照的生成速度和决策分析的需 要而定。 例如,如果分析企业近几年的销售情况,那快照 可以每隔一个月生成一次;如果分析一个月的畅 销产品,那快照生成间隔就需要每天一次。 d) non-volatile 数据的非易失性 数据仓库的非易失性是指数据仓库的数据不进行更 新处理,而是一旦数据进入数据仓库以后,就会保 持一个相当长的时间。因为数据仓库中数据大多表 示过去某一时刻的数据,主要用于查询、分析,不 像业务系统中的数据库那样,要经常进行修改、添 加,除非数据仓库中的数据是错误的。 e) in support of management decisions 支持决策系统 数据仓库的组织的根本目的在于对决策的支持。 高层的企业决策者、中层的管理者和基层的业务 处理者等不同层次的管理人员均可以利用数据仓 库进行决策分析,提高管理决策的质量。 企业管理人员可以利用数据仓库进行各种管理决 策的分析,利用自己所特有的、敏锐的商业洞察 力和业务知识从貌似平淡的数据发现众多的商机 。数据仓库为管理者利用数据进行管理决策分析 提供了极大的便利。 对对比内容数据库库数据仓库仓库 数据内容当前值历史的、存档的、归纳 的、计算的数据 数据目标面向业务操作程序、重 复处理 面向主体域、管理决策 分析应用 数据特性动态变 化、按字段更新静态、不能直接更新、 只是定时添加 数据结构高度结构化、复杂、市 和操作计算 简单、适合分析 使用频率高中到低 数据访问量每个事务只访问少量记 录 有的事务可能要访问大 量记录 对相应时间 的要求以秒为单位计量以秒、分钟、甚至小时 为计量单位 数据仓库与传统数据库的比较 尽管OLTP系统和数据仓库有着许多不同的特性且 基本构建思想不同,但是他们却是紧密联系的,因 为OLTP系统是数据仓库的数据来源。 OLTP系统并不是为了快速回答查询,也不是为了 存储分析趋势的历史数据而创建的。一般的, OLTP提供了大量的原始数据,这些数据不易被分 析。 数据仓库需要回答更复杂的查询,而不仅仅使一些 像“英国主要城市的商品平均销售价格是多少”之类 的简单聚集数据查询。 数据仓库需要回答的查询类型可以是简单的查询, 也可以是高度复杂的,且还与终端用户使用的查询 工具相关。 DreamHome数据仓库的示例支持以下查询: 2001年第三季度,整个英格兰的总收入是多少? 2000年英国每一类房产销售的总收入是多少? 2001年租借房产业务中每个城市哪个地域最受欢迎?与 过去的两年相比有何不同? 每个分支机构本月的房产销售月收入是多少,并与刚过去 的12个月相比较。 如果对于10万英镑以上的房产,法定价格上升3.5%而政府税 收下降1.5%,对英国不同区域的销售会产生什么影响? 在英国主要城市中,哪种类型的房产销售价格高于平均房 产销售价格?这与人口统计数据有何联系? 数据仓库的一个案例 啤酒与尿布的故事 某大型超市发现每到周末,啤酒与尿布的销量就会同 时大增,这是什么原因呢? 经过研究人员分析发现,原来家里的太太们让丈夫们 去超市给孩子买尿布,而丈夫们在买尿布的时候往往 顺便买上几瓶啤酒回去喝。这样就产生了这个比较奇 怪的现象。 沃尔玛早年利用NCR数据仓库技术,对商品进行 市场类组分析,即分析哪些商品顾客最有希望一 起购买。沃尔玛利用NCR自动数据挖掘工具(模式 识别软件)对一年多详细的原始交易数据进行分析 和挖掘。一个意外的发现就是:跟尿布一起购买 最多的商品竟是啤酒!沃尔玛就在它的一个个商 店里将它们并排摆放在一起,结果是尿布与啤酒 的销售量双双增长。 来自美国俄亥俄州的NCR公司(纽约证券交易所股票代码为 NCR)是全球领先的信息技术公司之一,为全球超过130个 国家提供零售解决方案,业务涵盖食品店、药店、综合性商 场、超市、连锁店及餐饮业等市场,2001年总收益达59.17 亿美元。世界十大零售商中,就有六家应用NCR提供的零售 业全面解决方案。 数据仓库的体系结构 图示: datawarehouse_av.gif 操作型数据 加载管理器 : 执行所有与提取和装载数据到数据仓库的有 关操作。 仓库管理器 : 执行管理一个数据仓库数据所有的必 要程序,它可以由一些外购的数据管理工具和针对 特殊需要编写的程序组成。包括以下工作: 1.数据分析以确保一致性 2.将临时存储介质中的数据转换和合并后加载到数据仓库表中 3.为基础表创建索引和视图 4.依据需要,对数据进行弱规范化 5.依据需要,生成聚集信息 6.备份和归档数据 查询管理器 : 执行所有数据仓库中与查询工作相 关的管理工作。 细节数据 : 数据仓库中存储了许多数据库模式中 的细节数据 轻度和高度综合数据 : 数据仓库中存放了许多由 仓库管理器产生的预定义的轻度或高度综合(聚集 的)数据。 存储/备份数据 : 数据仓库中存储了用于备份和存档 的许多细节和综合数据。尽管综合数据是从细节数 据中产生的,但还是有必要备份这些综合数据,因 为他们可能已经超过了细节数据的保持期。这些数 据要转移到存储档案中,如磁盘或光盘上。 元数据(metadata): 数据仓库中存储了所有的元 数据定义,这些定义可用于数据仓库中的所有过 程。元数据的用途包括 : 1.数据抽取和加载过程: 元数据可用于将数据影射 到数据仓库的通用数据视图中。 2.数据仓库管理过程: 元数据可用于自动产生表。 3.作为查询过程的一部分: 元数据可用于将查询指 定到最合适的数据源。 终端用户访问工具 数据仓库的主要目的是为了给业务用户提供决策信 息。这些用户通过终端用户访问工具与数据仓库交 互。数据仓库必须有效地支持查询和例行分析。 这些工具一般分为 : a. 报表和查询工具 b. 应用程序开发工具 c. 可执行信息系统工具 d. 联机分析处理工具 e. 数据挖掘工具 OLAP技术 数据仓库是管理决策分析的基础,要有效地利用 数据仓库的信息资源,必须要有强大的工具对数据 仓库的信息进行分析决策。On-line Analytical Processing(在线分析处理或联机分析处理)就是一个 应用广泛的数据仓库使用技术。它可以根据分析人 员的要求,迅速灵活地对当量的数据进行复杂的查 询处理,并以直观的容易理解的形式将查询结果提 供给各种决策人员,使他们能够迅速准确地掌握企 业的运营情况,了解市场的需求。 发展背景 60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机 事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。 1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终 端用户对数据库查询分析的需要,SQL对大型数据库进行的简单 查询也不能满足终端用户分析的要求。用户的决策分析需要对关 系数据库进行大量计算才能得到结果,而查询的结果并不能满足 决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分 析的概念,即OLAP。 OLTP数据 OLAP数据 原始数据 导出数据 细节性数据 综合性和提炼性数据 当前值数据 历史数据 可更新 不可更新,但周期性刷新 一次处理的数据量小 一次处理的数据量大 面向应用,事务驱动 面向分析,分析驱动 面向操作人员,支持日常操作 面向决策人员,支持管理需要 二、什么是OLAP? 定义1 :OLAP(联机分析处理)是针对特定问题的联机数 据访问和分析。通过对信息(维数据)的多种可能的观察形 式进行快速、稳定一致和交互性的存取,允许管理决策人 员对数据进行深入观察。 定义2 :OLAP(联机分析处理) 是使分析人员、管理人员 或执行人员能够从多种角度对从原始数据中转化出来的、 能够真正为用户所理解的、并真实反映企业维特性的信息 进行快速、一致、交互地存取,从而获得对数据的更深入 了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报 表需求,它的技术核心是“维”这个概念,因此OLAP也可 以说是多维数据分析工具的集合。 相关基本概念 1.维:是人们观察数据的特定角度,是考虑问题 时的一类属性,属性集合构成一个维(时间维、 地理维等)。 2.维的层次:人们观察数据的某个特定角度(即 某个维)还可以存在细节程度不同的各个描述方 面(时间维:日期、月份、季度、年)。 3.维的成员:维的一个取值。是数据项在某维中 位置的描述。(“某年某月某日”是在时间维上位置 的描述) 4.多维数据集:是决策分析的支柱,OLAP的核心 ,有时也称立方体或者超立方。OLAP展现在用 户面前的是一幅幅多维视图。多维数据集可以用 一个多维数组来表示。 5.多维数组:维和变量的组合表示。一个多维数 组可以表示为:(维1,维2,维n,观察变量) 。(时间,地区,产品,销售额) 6.数据单元(单元格):多维数组的取值。(2000年1 月,上海,笔记本电脑,$100000) 三层数据仓库结构 底层数据仓库服务器,使用称作网间连接程序的 应用程序,由操作数据库和外部数据源提取数据. 中间层是OLAP服务器,实现方法有 关系OLAP模型ROLAP 在多维数据上的操作映射为标准的关系模型 多维OLAP模型MOLAP 直接实现多维数据的操作 顶层是客户,它包括查询和报告工具,分析工具和 数据挖掘工具(例如趋势分析,预测等) 业务处理系统 数据准备区 数据仓库 OLAP服务器 客户端 可视化处理 底层中间层顶层 数据抽取 数据清理 转换 多维化 数据加载 OLAP的特性 1. 快速性. 用户对OLAP的快速反应能力有很高的要求 。 2. 可分析性. OLAP系统应能处理与应用有关的逻辑与 统计分析。 3. 多维性. 多维性是OLAP的关键属性。系统能够提 供对数据分析的多维视图和多维分析。 4.信息型. 不论数据量有多大,也不管数据存储在何 处,OLAP系统应能及时获得信息,并且管理大容量 信息。 OLAP多维数据分析 1.切片和切块(Slice and Dice) 在多维数据结构中,按二维进行切片,按三维进行切 块,可得到所需要的数据。如在“城市、产品、时间 ”三维立方体中进行切块和切片,可得到各城市、各 产品的销售情况。 2.钻取(Drill) 钻取包含向下钻取(Drill-down)和向上钻取(Drill- up)/上卷(Roll-up)操作, 钻取的深度与维所划分 的层次相对应。 3.旋转(Rotate)/转轴(Pivot) 通过旋转可以得到不同视角的数据。 OLAP的分析方法(一)切片(slicing)、切块(dicing) OLAP的分析方法(二)钻取(drill-down) 按 时 间 维 向 下 钻 取 按 时 间 维 向 上 钻 取 60 OLAP的分析方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论