了解数据仓库及其应用刘悦华.ppt_第1页
了解数据仓库及其应用刘悦华.ppt_第2页
了解数据仓库及其应用刘悦华.ppt_第3页
了解数据仓库及其应用刘悦华.ppt_第4页
了解数据仓库及其应用刘悦华.ppt_第5页
免费预览已结束,剩余61页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录 数据仓库和数据库的对比数据仓库的体系结构数据仓库的参照结构数据挖掘概述知识挖掘系统的体系结构OLAP技术介绍数据分析模型概述 数据仓库与数据库的对比 OLTP与OLAP的比较 OLAP所用数据来自OLTP数据库 进行了预综合和多维化处理 OLAP更强调界面的可视化和灵活性 可视化 多维报表 各种统计图形 灵活性 切片 切块 旋转 逐层细化 OLAP OLTP的主要区别 1 不同的性能需求联机事务处理 OLTP 快速的相应时间非常重要 1second 在任何时候 数据随时更新 必须保持数据的一致性和完整性 联机分析处理 OLAP 查询可能耗费大量的资源 可能使得CPUs和磁盘处于紧张的工作状态 操作通常基于某一个时间点的静态的数据 快照 OLAP与OLTP必须实现环境分离 OLAP可能导致OLTP系统性能的降低 甚至崩溃 例如 分析查询需要计算所有的销售量 为保证数据的一致性 防止脏数据的读出 对销售表进行 加锁 新的销售事务无法提交 OLAP OLTP的主要区别 2 不同的数据建模需求联机事务处理 OLTP 为保证数据的一致性 需要设计规范化的模式 复杂的数据模型 包含大量的数据表 查询和修改操作相对比较受限 联机分析处理 OLAP 简单的数据模型非常重要 允许业务人员执行各类即席查询 通常采用非规范化的模型 更少的连接操作 提高查询性能 更少的数据表 易于理解数据模式 OLAP OLTP的主要区别 3 分析需要综合多个不同的数据源OLTP系统主要服务于某一个特定的应用系统例如 在线商场的订单管理系统 OLAP需要集成多个不同的数据源 包含销售 订单 采购等 OLAP包含历史数据 确定长时间范围内的一些模式 发现一段时间内的变化情况 数据集成是OLAP系统的重点之一 数据仓库的体系结构 数据仓库的概念结构从数据仓库的概念结构看 应该包含 数据源 数据准备区 数据仓库数据库 数据集市 知识挖掘库以及各种管理工具和应用工具 虚拟数据仓库结构虚拟数据仓库利用描述了业务系统中数据位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括 聚合操作后 将最终结果提供给用户 数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库 没有一个独立的数据仓库 系统的数据不存储在同一数据仓库中 每个主题有自己的物理存储区 单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构 数据源中数据被按照同一标准抽取到独立的数据仓库中 用户在使用时再根据主题将数据仓库中的数据发布到数据集市中 分布式数据仓库结构在企业各个分公司具有相当大的独立性时 企业总部设置一个全局数据仓库 各个分公司设置各自的局部数据仓库 局部数据仓库主要存储各自的未经转换的细节数据 全局数据仓库中主要存储经过转换的综合数据 站点A站点B站点C站点D 全局数据仓库 总部 数据仓库的参照结构 数据仓库的基本功能包含 数据抽取 数据筛选 清理 清理后的数据加载 设立数据集市 完成数据仓库的查询 决策分析和知识的挖掘等操作 数据仓库的管理层分成数据管理与元数据管理两部分 主要负责对数据仓库中的数据抽取 清理 加载 更新与刷新等操作进行管理 数据仓库环境支持层包含数据传输和数据仓库基础两部分 数据仓库基本功能层 数据来源主要包含 业务数据 历史数据 办公数据 Web数据 外部数据以及数据源元数据数据准备区的功能结构部分由数据标准化处理 数据的过滤与匹配 数据的净化处理 标明数据的时间戳 确认数据质量与元数据抽取和创建等操作组成数据仓库的功能结构部分由数据重整和数据仓库创建以及元数据管理组成数据集市 知识挖掘库的功能结构与数据仓库的功能结构极为相似数据仓库的数据存取与使用结构主要为数据仓库的最终用户提供进行决策分析和挖掘知识的功能 数据仓库的数据存取与使用结构应该包含数据仓库存取与检索 元数据管理以及数据仓库分析与报告 数据仓库的管理层 数据管理层中的数据抽取 新数据需求与查询管理主要负责完成从数据源中抽取数据的管理 数据仓库中的数据加载 存储 刷新和更新系统则负责对从数据源中所抽取的数据在完成筛选 净化处理以后 将这些数据加载 存储到数据仓库中 捕获数据源中的数据变化 用最新数据充实数据仓库 根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作 安全性与用户授权管理系统主要负责数据仓库的安全管理工作 数据仓库的数据归档 恢复及净化系统主要负责定期对数据仓库中的数据进行归档 备份 净化系统则负责对从数据源所抽取的数据进行数据的筛选 数据标准的统一 数据内容的统一等各种求精 重整净化工作的管理 数据仓库的元数据管理层 负责管理数据仓库所使用的元数据 其中包括 数据仓库 数据集市 知识挖掘库和词汇表管理元数据抽取 创建 存储和更新管理预定义的查询和报表以及索引管理刷新与复制管理 登录 归档 恢复与净化管理 数据仓库的环境支持层 数据传输和传送网络客户 服务器代理和中间件复制系统数据传输的安全保障系统 数据挖掘概述 挖掘过程确定挖掘对象准备数据建立模型数据挖掘结果分析知识应用阶段 业务对象 源数据 集成数据 目标数据 预处理数据 商业模式 知识 应用方案 业务分析人员数据分析人员数据管理人员 数据挖掘的用户 知识挖掘系统的体系结构 知识发现的定义知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术 所抽取的信息是隐含的 未知的 并且具有潜在应用价值 知识发现可看成是一种有价值信息的搜寻过程 它不必预先假设或提出问题 仍然能够找到那些非预期的令人关注的信息 这些信息表示了不同研究对象之间的关系和模式 它还能通过全面的信息发现与分析 找到有价值的商业规则 知识发现意味着在数据仓库或数据集市的几千兆 几万兆字节数据中寻找预先未知的商业模式与事实 知识发现系统的结构知识发现系统的结构由知识发现系统管理器 知识库 商业分析员 数据仓库的数据库接口 数据选择 知识发现引擎 知识发现评价和知识发现描述等部分组成 下图 OLAP技术概念 在线分析处理或联机分析处理 线分析的处理上的OLAP 是一个应用广泛的数据仓库使用技术 两个特点 在线性 On Line 多维分析 Multi Analysis OLAP的发展针对特定问题的联机数据查询和分析对原始数据按照用户的观点进行转换处理反映用户眼中问题某一真实方面 维 快速 稳定 一致和交互式的存取允许用户对这些数据按照需要进行深入的观察 OLAP的特性 快速性系统能在数秒内对用户的多数分析要求做出反应可分析性用户无需编程就可以定义新的专门计算 将其作为分析的一部分 并以用户所希望的方式给出报告多维性提供对数据分析的多维视图和分析信息性能及时获得信息 并且管理大容量信息 OLAP与数据仓库关系 从OLAP使用的效率角度考虑 设计数据仓库时考虑因素 尽可能使用星型架构 如果采用雪花结构 就要最小化事实表底层维度表以后的维度表数量 为用户设计包含事实表的维度表 维度表的设计应该符合通常意义上的范式约束 维度表中不要出现无关的数据 事实表中不要包含汇总数据 事实表中所包含的用户需要访问的数据应该具有必需的粒度 对事实表和维度表中的关键字必须创建索引 同一种数据尽可能使用一个事实表 保证数据的参考完整性 避免事实表中的某些数据行在立方体进行聚集运算时没有参加进来 OLAP应用举例 不同时间段的比较 同期比 各种商品本周 本月 本年 的销售情况与以往相比 有何变化 今后趋势 排序和统计分类 topN bottomN 统计每天销售量 销售额和利润最高的10个商场 客户特定的即席分析 市场分割 即席分组的情况 按照季度统计一下东北地区前四个季度的收入情况 多维数据模型 多维数据模型又称多维概念视图 通常用Cube来表示 多维数据模型可以更加直观的表示现实中的复杂关系多维数据模型的基本组成 维 度量 变量 指标 举例 计算每一个商场 每个产品的销售额ProductAreaSales 多维数据模型举例 多维数据模型的组成 维 Dimension 维层次路径 维层次 维成员 维实例 维层次属性 事实 Fact 度量 Measure 数据立方体 Cube 维 维 对数据进行分类的一种结构 以用于从特定的角度观察数据 例如 时间 地区 产品 维的两个用途 选择针对期望详细程度的层次的数据 分组对细节数据综合 聚集 到相应的详细程度的数据层次 维 维的组织方式 维层次路径 HIERARCHY 维层次路径由代表不同详细程度的维层次 Level 组成 维的层次 特定角度的不同细节程度 维 维层次中包含 维成员 DIMENSIONVALUES 维成员树维的一个取值 称为该维的一个成员 每一个维成员属于某一个特定的维层次 例如 时间维 三个层次 日 月 年 维成员 1999年5月20日 1999年5月 1999年维成员是数据在该维上的位置描述例如 1999年5月20日销售额表示销售额数据在时间维上的位置 相当于时间轴上的某一点或某一区间 不同维层次的取值的组合 对多层次情况 例如 5月20日维层次属性 ATTRIBUTES 维层次上的描述属性 例如产品的 规格 颜色 销地 产地 维层次关系 定义维层次的聚集和钻取关系简单维层次关系 复杂的维层次关系 较为复杂的维层次关系 一个维包含拥有同一底层数据的多条维层次路径维成员树可能是一棵高度不平衡树 在维层次属性不仅分类属性 同时还拥有描述属性 在某些维层次结构中还包含复杂数据类型的维成员 为什么需要维层次关系 不支持层次关系带来的问题增加维的数目 变成非常 稀疏 的状况 维成员属性 维成员的 类 维成员属性 维成员的描述属性 维成员的 类 按一定的划分标准对维成员全集的一个 分类 划分划分 即把全集分成了若干子集各子集的和 并 等于全集子集间的交为空 维成员属性 划分标准一般是实体 维成员 的属性 特征 称为类属性例如 产品的 规格 颜色 销地 产地 一个类属性 对应一个划分 不同类属性 得到不同类划分 维层次和类的区别 表达的含义不同维层次表达变量在该维的综合的级别例 销售额在时间维上按三个级别 日 月 年 进行综合称为三个维层次父层次的值由其子层次的值综合得到维成员的类表达某一子集维成员的共同特征即 对应的类属性取相同值例如 颜色为红色的产品 不同颜色的产品为不同的类同一层次的维成员可划分为类 例如产品大类中的 家电 服装 文具 等不同层次的维成员之间不存在类的关系 维层次和类的区别 续1 分析动作不同按维层次进行分析逐层向上综合数据 逐层向下细化数据 按维成员的类进行分析选择类属性对维成员全集进行分类对同类维成员归纳出共同的特性按类进行分析不能跨维层次 只在同层次 兄弟结点 进行将维层次与类交叉组合进行分析 见下图 维层次和类的区别 续2 事实 度量 度量 指标 数据的实际意义 一般是一个数值度量指标例如 销售量 销售额 而具体数据 如 10000 是变量的一个值事实 存储一个多维数据表达期望分析的主题 目的 感兴趣的事情 事件或者指标等 具有一定的粒度 粒度的大小与维层次相关一个事实中通常包含一个或者多个度量一个度量的两个组件数字型指标聚集函数 Cubes 按照一定维层次结构和度量 事实 的逻辑上的组织 其逻辑上相当于一个多维数组 多维数组 多维数组 一个多维数组表示为 维1 维2 维n 变量 例如 时间 地区 销售渠道 销售额 可扩展维数 如 时间 地区 销售渠道 商品类型销售额 数据单元 Cell 数据单元 单元格 多维数组的取值可表示为 维1维成员 维2维成员 维n维成员 变量的值 例如 1997年1月 北京 批发 10000 多维分析的基本分析动作 切片 Slice 从多维数组选定一个二维子集 切出一个 平面 切块 Dice 从多维数组选定一个三维子集 切出一个 立方体 旋转改变一个报告 或页面 显示的维方向 钻取根据维层次 改变数据的粒度 切片的定义 定义1 在多维数组的某一维上选定一个维成员 即从n维数组选取n 1维子集 设多维数组 维1 维2 维n 变量 在维i上 选定维成员Vi则 多维数组的n 1维子集 维1 维i 1 维成员Vi 维i 1 维n 变量 为在维i上的一个切片 切片举例 切片的定义 定义2选定多维数组的一个二维子集设多维数组 维1 维2 维n 变量 除维i 维j外 每个维都取定一个维成员Vk 1 k n且k i k j 则 多维数组的二维子集 V1 Vi 1 维i Vi 1 Vj 1 维j Vj 1 Vn 变量 简单表示为 维i 维j 变量 为维i和维j上的一个切片 按定义2进行切片 所得切片是一个二维 平面 其它维的维成员都已确定 二维 平面 易想象 易观察 切片举例 多维数组 地区 时间 产品 销售渠道 销售额 选取地区维与产品维 其它维选定维成员时间 2006年1月销售渠道 零售得 地区 2006年1月 产品 零售 销售额 即为 2006年1月零售的产品销售情况 各地区各种产品的销售额 切块的定义 定义1在多维数组的某一维上选定某一区间的维成员 即限制某一维的取值区间 切片是切块的特例 即限制的取值区间只取一个维成员 切块可看作由多个邻接的切片迭合而成 例如 多维数组 地区 时间 产品 销售额 在时间维上选定一区间 2006年1月至2006年10月 得 地区 2006年1月至2006年10月 产品 销售额 为一切块 切块的定义 定义2选定多维数组的一个三维子集设多维数组 维1 维2 维n 变量 选定三个维 维i 维j 维k 该三个维上可取任意维成员或某一空间 其他维上都取定一个维成员得 维i 维j 维k 变量 为一个切块 切片和切块 在一个或多个维度上的投影操作 旋转的含义 旋转 改变一个报告或页面显示的内容 旋转的含义 续 旋转的含义 续 钻取操作 OLAP的其它操作 Drillthrough 穿透 钻取操作的进一步衍生 尤其对于ROLAP模式 直接得到最为底层的细节数据 数据通常以关系表的形式给出Ranking 排序 对数据单元的度量取值进行排序 获得top bottom的若干数据取值 数据挖掘工具与传统数据分析工具的比较 数据分析模型概述 以前的数据分析主要是静态的 不能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论