




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章数据仓库与OLAP技术概述数据仓库综合和合并多维空间的数据 构造数据仓库涉及数据清理 数据集成和数据变换 可以看作数据挖掘的一个重要预处理步骤 此外 数据仓库提供联机分析处理 OLAP 工具 用于这种粒度的多维数据的交互分析 有利于有效的数据泛化和数据挖掘 很多数据挖掘功能都可以与OLAP操作集成 以加强多个抽象层上的交互知识挖掘 数据仓库已经成为数据分析和联机分析处理日趋重要的平台 第一节 数据仓库 数据的定义数据仓库是一个面向主题的 集成的 时变的和非易失的数据集合 数据仓库的关键特征 面向主题的 数据仓库围绕一些主题如顾客 供应商等来组织 集成的 通常 构造数据仓库是将多个异构数据源集成在一起 时变的 数据存储从历史的角度提供信息 非易失的 数据仓库总是物理地分别存放数据 概言之 数据仓库是语义上一致的数据存储 它充当决策支持数据模型的物理实现 并存放企业战略决策所需要的信息 数据仓库常常被看作一种体系结构 通过将异构数据源中的数据集成在一起而构造 支持结构化和专门化的查询 分析报告和决策制定 操作数据库系统与数据仓库的区别联机操作数据库系统的主要任务是执行联机事务和查询处理 这种系统称作联机事务处理系统 OLTP 数据仓库系统在数据分析和决策方面为用户或知识工人提供服务 这种系统可以用不同的格式组织和提供数据 以满足不同用户的各种需求 这种系统称作联机分析处理 OLAP 系统 OLTP和OLAP的主要区别概述如下 用户和系统的面向性不同 OLTP系统是面向顾客的 OLAP系统是面向市场的 用于知识工人的数据分析 数据内容不同 OLTP系统管理当前数据 通常 这种数据太琐碎 难以用于决策 OLAP系统管理大量历史数据 提供汇总和聚集机制 并在不同粒度级别上存储和管理信息 数据库设计 通常 OLTP系统采用实体 联系 ER 数据模型和面向应用的数据库设计 OLAP系统通常采用星型或雪花模型和面向主题的数据库设计 视图不同 OLTP系统主要关注企业或部门内部的当前数据 而不涉及历史数据或不同组织的数据 相比之下 OLAP系统常常跨越数据库模式的多个版本 OLAP系统还处理来自不同组织的信息 由多个数据存储集成的信息 访问模式不同 OLTP系统的访问模式主要由短的原子事务组成 这种系统需要并发控制和恢复机制 对OLAP系统的访问大部分是只读操作 第二节多维数据模型数据仓库和OLAP工具基于多维数据模型 这种模型将数据看作数据立方体形式 由表和电子数据表到数据立方体数据立方体允许从多维对数据建模和观察 它由维和事实定义 一般 维是关于一个组织想要保存记录的透视图和实体 每个维都有一个表与之相关联 称为维表 它进一步描述维 通常 多维数据模围绕中心主题组织 主题用事实表表示 事实是数值度量的 事实表包括事实的名称或度量 以及每个相关维表的码 多维数据库模式 星型 雪花型和事实星座型最流行的数据仓库数据模型是多维模型 这种模型可以以星型模型 雪花模型或事实星座模型模式形式存在 星型模型其中数据仓库包括 中心表 事实表 一组小的附属表 维表 每维一个 在星型模型中 每维只用一个表表示 而每个表包含一组属性 雪花型模型雪花型模型是星型模型的变种 其中某些维表是规范化的 因而把数据进一步分解到附加的表中 事实星座形复杂的应用可能需要多个事实表共享维表 这种模式可以看作星形模式的汇集 定义星型 雪花型和事实星座形模型的例子数据挖掘查询语言可以用于说明数据挖掘任务 特殊地 我们考察如何用基于SQL的数据挖掘查询语言DMQL定义数据仓库和数据集市 数据仓库和数据集市可以使用两种语言原语定义 一种是立方体定义 一种是维定义 度量的分类和计算度量根据所用的聚集函数类型可以分为三类 分布的 代数的 整体的 概念分层概念分层定义一个映射序列 将低层概念映射到更一般的较高层概念 许多概念分层隐含在数据库模式中 若维的属性按全序相关 形成一个概念分层 维的属性也可以组织成偏序 形成一个格 概念分层为数据库模式中属性的全序或偏序称作模式分层 也可以通过将给定维或属性的值离散化或分组来定义概念分层 产生集合分组分层 多维数据模型中的OLAP操作 上卷上卷操作通过沿一个维的概念分层向上攀升或者通过维归约 对数据立方体进行聚集 沿概念分层向上攀升 对数据按较高层的概念进行分组 当用维进行上卷时 一个或多个维从给定的立方体中删除 下钻下钻是上卷的逆操作 它由不太详细的数据到更详细的数据 下钻可以通过沿维的概念分层向下或引入附加的维来实现 切片和切块切片操作对给定立方体的一个维进行选择 导致一个子立方体 切块操作通过对两个或多个维执行选择 定义子立方体 转轴 旋转 转轴是一种可视化操作 它转动数据的视角 提供数据的替代表示 其他OLAP操作有些OLAP系统还提供其他钻取操作 比如钻过和钻透 查询多维数据库的星形网查询模式多维数据库查询可以基于星形网模式 星形网模式由中心点发出的射线组成 其中每一条射线代表一个维的概念分层 第三节数据仓库的系统结构这一节 主要讨论数据仓库的系统结构问题 主要包括 如何设计和构造数据仓库 介绍三层数据仓库结构 介绍数据仓库的后端工具和实用工具 介绍元数据存储 介绍用于OLAP处理的各种类型的仓库服务器 数据仓库的设计和构造步骤为设计有效的数据仓库 需要理解和分析商务需求 并构造商务分析框架 关于数据仓库的设计 有四种不同的视角 自顶向下视图可以选择仓库所需的相关信息 这些信息能够满足当前和未来商务的需求 数据源视图揭示操作数据库系统收集 存储和管理的信息 这些信息可能以不同的详细程度和精度建档 存放在由个别数据源表到集成的数据源表中 数据仓库视图包括事实表和维表 提供存放在数据仓库内部的信息 包括预计算的总和与计数 以及提供历史背景的关于源 原始日期和时间等信息 商务查询视图从最终用户的角度透视数据仓库的数据 数据仓库的设计过程 一般 数据仓库的设计过程包含如下步骤 选取待建模的商务处理 选取商务处理的粒度 选取用于每个事实表记录的维 选取事实表中每条记录的度量 构建数据仓库使用的方法 自顶向下方法 自底向上方法 二者结合的混合方法 三层数据仓库的系统结构 通常 数据仓库采用三层结构 底层是仓库数据服务器它几乎总是关系数据库系统 使用后端工具和实用程序由操作数据库或其他外部数据源提取数据 放入底层 这些工具和使用程序进行数据提取 清理和变换 以及装入和刷新功能 以更新数据仓库 中间层是OLAP服务器其是关系OLAP ROLAP 模型或者是多维OLAP模型 MOLAP 具体的将在后面讲述 顶层是前端客户层它包括查询和报表工具 分析工具和数据挖掘工具 从结构的角度看 有三种数据仓库模型 企业仓库企业仓库收集了整个组织关于主题的所有信息 它提供企业范围内的数据集成 通常来自一个或多个数据库系统或外部信息提供者 并且是跨功能的 数据集成数据及时包含企业范围数据的一个子集 对于特定的用户群是有用的 其范围限定于限定的主题 虚拟仓库虚拟仓库是操作数据库视图的集合 为了有效地处理查询 只有一些可能的汇总视图可以物化 虚拟仓库易于建立 但需要操作数据库服务器具有剩余能力 元数据储存库元数据是关于数据的数据 在数据仓库中 元数据是定义仓库对象的数据 元数据储存库在数据仓库体系结构的底层 对于给定数据仓库的数据名和定义创建元数据 其他元数据包括对提取数据添加的时间标签 提取数据的源或集成处理添加的缺失字段等 元数据储存库应当包括如下内容 数据仓库结构的描述 操作元数据 用于汇总的算法 由操作环境到数据仓库的映射 关于系统性能的数据 商务元数据 OLAP服务器类型 关系OLAP ROLAP 服务器这是中间服务器 介于关系的后端服务器和客户端工具之间 使用关系的或扩充关系的DBMS存储并管理数据仓库 而OLAP中间件支持其余部分 多维OLAP MOLAP 服务器这些服务器通过基于数组的多维存储引擎支持数据的多维视图 将多维视图直接映射到数据立方体数组结构 混合OLAP HOLAP 服务器混合OLAP方法结合ROLAP和MOLAP的技术 得益于ROLAP较大的可伸缩性和MOLAP的快速计算 特殊的SQL服务器 第四节数据仓库实现 数据仓库包含海量数据 要求OLAP服务器在若干秒内回答决策支持查询 因此 至关重要的是 数据仓库系统要支持搞笑的立方体计算技术 存取技术和查询处理技术 数据立方体的有效计算多维数据分析的核心是有效地计算多个维集合上的聚集 每个聚集可以用一个方体表示 computercube操作与维灾难立方体计算的一种方法是扩充SQL 使之包含computercube操作 Computercube操作对操作指定维的所有子集计算聚集 然而 预计算的主要挑战是 如果数据立方体中所有的方体都预先计算 所需要的存储空间可能爆炸 特别是当立方体包含许多维时 当许多维都具有相关联的概念分层 每个具有多层时 存储需求甚至更多 这个问题称作维灾难 我们可以发现 预计算并物化由数据立方体可能产生的所有方体是不现实的 部分物化 方体的选择计算给定基本方体 数据立方体的物化有三种选择 不物化不预计算任何 非基本 方体 这导致回答查询时计算昂贵的多维聚集 这可能非常慢 完全物化预计算所有方体 计算的方体格是完整立方体 通常 这种选择需要海量存储空间来存放所有预计算的方体 部分物化有选择地计算整个可能的方体集中一个适当的子集 索引OLAP数据为了提供有效的数据访问 大部分数据仓库支持索引结构和物化视图 本节 我们考察如何使用位图索引和连接索引对OLAP数据进行索引 位图索引位图索引方法在OLAP产品中很流行 它允许在数据立方体中快速搜索 在给定属性的位图索引中 属性域中的每个值v有一个不同的位向量BV 如果给定的属性域包含n个值 则位图索引中每项需要n个位 如果数据表给定行上该属性值为v 则在位图索引的对应行 表示该值的位为1 该行的其他值均为0 连接索引连接索引登记来自关系数据库的两个关系的可连接行 OLAP查询的有效处理物化方体和构造OLAP索引结构的目的是加快数据立方体查询处理的速度 给定物化的视图 查询处理应按如下步骤进行 确定哪些操作应当在可利用的方体上执行 确定相关操作应当使用哪些物化的方体 第五节从数据仓库到数据挖掘本节 我们将研究用于信息处理 分析处理和数据挖掘的数据仓库应用 数据仓库的使用有三种数据仓库使用 信息处理支持查询 基本的统计分析 并使用交叉表 表 图表或图进行报告 分析处理支持基本的OLAP操作 包括切片与切块 下钻 上卷和转轴 与信息处理相比 联机分析处理主要优势在于它支持数据仓库数据的多维数据分析 数据挖掘支持知识发现 包括找出隐藏的模式和关联 构造分析模型 进行分类和预测 并使用可视化工具提供挖掘结果 信息处理基于查询 可以发现有用的信息 然而 这种查询的回答反映直接存放在数据仓库中的信息 或通过聚集函数可计算的信息 它们不反映复杂的模式或隐藏在数据库中的规律 因此 信息处理不是数据挖掘 联机分析处理向数据挖掘走进了一步 因为它可以由用户选定的数据仓库子集 在多粒度上导出汇总的信息 OLAP和数据挖掘的功能可以视为不交的 OLAP工具是数据汇总 聚集工具 帮助简化数据分析 而数据挖掘自动地发现隐藏在大量数据中的隐含模式和有趣知识 OLAP工具的目标是简化和支持交互数据分析 而数据挖掘工具的目标是尽可能的自动处理 由联机分析处理到联机分析挖掘在数据挖掘领域 一些研究成果已用于各种平台下的数据挖掘 包括事务数据库 关系数据库 空间数据库 文本数据库 时间序列数据库 一般文件和数据仓库等 联机分析挖掘 OLAM 也称OLAP挖掘 将联机分析处理与数据挖掘以及在多维数据库中发现知识集成在一起 OLAM特别重要 数据仓库中数据的高质量数据仓库中的数据 已经经过集成 一致和清理的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 柴油机水泵机组施工方案
- 高明区镀膜车间施工方案
- 智能化劳务施工方案
- 销售换房方案模板范本
- 网络安全第五章题库及答案解析
- 会议沟通技巧培训
- 储氧面罩使用技术
- 旅游补贴审计方案范本
- 闸机票务系统施工方案
- 年度工作总结如何制作
- 合肥市肥东县大学生乡村医生专项计划招聘考试真题2024
- 能源问题面试题库及答案
- 2025山西太原铁路局招聘试题及答案解析
- 2025年海上光伏产业技术创新与海洋能源市场前景报告
- TSG-T7001-2023电梯监督检验和定期检验规则宣贯解读
- 抢救车管理制度 课件
- 跌倒坠床不良事件鱼骨图分析
- 供应商分级管理制度管理办法
- 招议标管理办法
- 小儿急性上呼吸道感染的护理查房ppt
- 跨文化交际全套课件
评论
0/150
提交评论