




已阅读5页,还剩94页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
在线分析处理 online analytical processing 1. olap简介 2. olap基本概念 3. olap准则和特性 4.olap的基本分析操作 5.olap数据模型的实现技术 6. olap体系结构和工具简介 大纲 企业所面临的问题 如何从数据到信息? 大量时间整理数据, 而没有时间利用数据 平时数据缺失, 开会时数据海洋 传递渠道长,时效性差 部门间信息“壁垒” 和信息孤岛 数据源多,一致性差 数据传递过程中 信息衰减或失真 随着企业信息化水平的提高,计算机技术的普及,如何准确、有效的利用这些 数据成了企业所面临的问题 企业要实现的目标 系统结构 olap发展背景 v 60年代,关系数据库之父e.f.codd提出了关系模型,促进 了联机事务处理(oltp)的发展(数据以表格的形式而非文 件方式存储)。 v 1993年,e.f.codd提出了olap概念,认为: oltp已不能满足终端用户对数据库查询分析的需要, sql对大型数据库进行的简单查询也不能满足终端用户分析的要求 。 用户的决策分析需要对关系数据库进行大量计算才能得到结果, 而查询的结果并不能满足决策者提出的需求。 v 因此,e.f.codd提出了多维数据库和多维分析的概念,即 olap。 v olap是目前rdbms不可缺少的功能,可以作为一个独立的 olap服务器实现,也可以集成在rdbms中。 联机事务处理 联机事务处理 oltp(on-line trasaction process) 又称事务型处理。信息系统中对日常事务的处理 称为事务性处理。 例:“电话计费收费管理信息系统”中的典型事务型处理 : (1)客户增减。(2)计费 (3)收费。 联机事务处理 联机事务处理的特性: 客观地反映了现实世界的实际活动过程。 具有原始性。每个处理均反映为客观世界的一次数据活动。 一般都呈现为短事务形式。一次操作内容简单、时间短。 次数多、频繁。 并发性要求高。 数据库是事务处理系统的核心和基础。数据库采用规范化 的方式存储数据。数据库努力降低其冗余度,保证同一个数据 不重复存储,保证数据的一致性。 联机分析处理 联机分析处理 olap(on-line analytical process): l指涉及对海量数据的复杂分析操作的数据处理过程。 l以决策支持为目标。 l主要为中、高级管理人员服务。 例:电信公司中典型的分析型处理: 1.客户分类及通话特点分析 2.营销策略效果分析。 联机分析处理 分析型处理的特点 与事务型处理相比,分析型处理的特点: a) 范围广,涉及的问题多。 b) 不确定性大。 c) 需要的数据种类多,时间跨度大。 d) 处理所需的时间长。 oltp与olap的比较 oltpolap 用户操作人员,低层管理人员决策人员,高级管理人员 功能日常操作处理分析决策 db 设计面向应用面向主题 数据 当前的、最新的、细节的、二 维的、分立的 历史的、聚集的、多维的、集成 的、统一的 存取读/写数十条记录读上百万条记录 工作单位简单的事务复杂的查询 用户数上千个上百个 db 大小100mb1gb100gb1tb olap的定义和目标 v 定义1 :olap(联机分析处理)是针对特定问题的联机数据 访问和分析。通过对信息(维数据)的多种可能的观察形式 进行快速、稳定一致和交互性的存取,允许管理决策人员 对数据进行深入观察。 v 定义2 :olap(联机分析处理) 是使分析人员、管理人员 或执行人员能够从多种角度对从原始数据中转化出来的、 能够真正为用户所理解的、并真实反映企业维特性的信息 进行快速、一致、交互地存取,从而获得对数据的更深入 了解的一类软件技术。(olap委员会的定义) v olap的目标是满足决策支持或多维环境特定的查询和报表 需求,它的技术核心是“维”这个概念,因此olap也可以说 是多维数据分析工具的集合。 olap决策分析 v olap分析属于验证驱动型发现:用户首先提出自己的假设 ,然后利用olap工具检索查询以验证或否定假设。 v olap技术主要有两个特点: 在线(on-line):表现为对用户请求的快速响应和交互操 作,它的实现是由客户机服务器体系结构完成的; 多维分析(multi-analysis):这也是olap技术的核心所在 。 olap数据源 oltp & legacy erp flat files data warehouses, data marts, ods spreadsheets olap的数据源多种多样,不仅仅局限于数据仓库 1. olap简介 2. olap基本概念 3. olap准则和特性 4.olap的基本分析操作 5.olap数据模型的实现技术 6. olap体系结构和工具简介 大纲 多维数据模型 v 多维数据模型又称多维概念视图,通常用cube来表示。 v 多维数据模型可以更加直观的表示现实中的复杂关系 v 多维数据模型的基本组成:维、度量(变量、指标) v 举例:计算每一个商场、每个产品的销售额 olap一些基本概念 1. 变量 u变量是数据的实际意义,即描述数据“是什么”。 u变量总是一个数值度量指标,例如人数、单价、销售 量等都是变量,而100则是变量的一个值。 olap一些基本概念 2维 v维是人们观察数据的特定角度。 v例如: 企业常常从时间的角度来观察产品的销售,所 以时间是一个维(时间维)。 企业也时常从地理分布的角度来观察产品的销 售,所以地理分布也是一个维(地理维)。 还有如产品维、顾客维等。 olap一些基本概念 3维的层次 v一个维往往具有多个层次 v例如: 日期、月份、季度、年等就是 时间维的层次; 城市、地区、国家等构成了地 理维的层次。 olap一些基本概念 4. 维成员 v 维的一个取值称为该维的一个维成员。 v 如果一个维是多层次的,那么该维的维成员是由各个不同维 层次的取值组合而成。例如: 时间维具有日期、月份、年这三个层次,分别在日期、月份、年上各 取一个值组合起来,就得到了时间维的一个维成员:“某年某月某日” 。 一个维成员并不一定在每个维层次上都要取值,例如“某年某月”、“某 月某日”、“某年”等等都是时间维的维成员。 v 对应一个数据项来说,维成员是该数据项在某维中位置的描 述。例如 对一个销售数据来说, “某年某月某日”是该销售数据在时间维上位置 的描述。 olap一些基本概念 5维的分类 u维不但存在层次性,而且为了分析的需要常常需要定义“类”。类就 是按照一定的划分标准对维的所有取值集合的一个分类划分。 u比如,产品可分成“畅销”、“不畅销”:移动通信品牌可分成“全球通 ”、“神州行”、“动感地带”等:移动通信业务类型可分成“通话”、“短 信”。 u维的层次主要是为了进行向下钻取和向上聚合,最终让用户能够 查看不同层次的数据。 u维的分类是对维取值的划分,其目的通常是为了在不同的类别间 进行比较。比如“畅销”、“不畅销”产品各占产品总量的比重,“全球 通”、“神州行”、“小灵通”对移动公司的收益贡献分别是多少,“通话” 、“短信”对移动公司的收益贡献分别是多少一个实际的系统中,维 分类和维层次常常同时存在。 olap一些基本概念 6多维数组 v 一个多维数组可以表示为:(维l,维2,维n,变量)。 v 可以将多维数组看作是维和变量的组合 v 例如: 若日用品销售数据是按时间、地区和销售渠道组织起来的三维立 方体,加上变量销售额,就组成了一个多维数组(地区、时间,销 售渠道,销售额), 如果再扩展一个产品维,就得到一个四维的结构,其多维数组为( 产品,地区,时间,销售渠道,销售额)。 olap一些基本概念 7数据单元(单元格) v多维数组的取值称为数据单元,也叫做事实。 当多维数组的各个维都选中一个维成员,这些维成员的 组合就唯一确定了一个变量的值。那么数据单元就可以 表示为(维1维成员,维2维成员,维n维成员,变量 的值)。 例如,在产品、地区、时间和销售渠道上各取维成员“牙 膏”、“上海”、“1998年12月”和“批发”,就唯一确定了变 量“销售额”的一个值(假设为100000),则该数据单元可 表示为(牙膏,上海,1998年12月,批发,100000)。 olap基本概念 4月份我在北京卖掉了 价值十万美元的可乐 一个数据单元格的例子 销售渠道 地区 北京 零售 批发 1 2 3 4 销售额(万元 ) 时间(月 ) 按销售渠道、时间和地区组织日用品销售数据 olap一些基本概念 1. olap简介 2. olap基本概念 3. olap准则和特性 4.olap的基本分析操作 5.olap数据模型的实现技术 6. olap体系结构和工具简介 大纲 olap准则 1993年,e.f.codd在providing olap to user analysis 中提出olap的12条准则来描述olap系统: 准则1 olap模型必须提供多维概念视图 准则2 透明性准则 准则3 存取能力准则 准则4 稳定的报表能力 准则5 客户/服务器体系结构 准则6 维的等同性准则 准则7 动态的稀疏矩阵处理准则 准则8 多用户支持能力准则 准则9 非受限的跨维操作 准则10 直观的数据操纵 准则11 灵活的报表生成 准则12 不受限的维与聚集层次 olap准则 1.多维概念视图 l 从用户分析员的角度来看,整个企业的视图本质上是多维的,因 此olap的概念模型也是多维的。 l 企业分析决策的目的不同,决定了分析和衡量企业的数据总是从 不同的角度来进行的,所有企业数据空间本身就是多维的 olap必须能够提供多维概念的视图,从而使数据分析 员能够从多种角度考察系统(企业)的运营情况。olap必须 实现数据切块、数据切片、数据旋转、数据钻取、数据聚 合等基本的分析动作。 olap准则 2.透明性准则 olap对于用户应当是透明的,其透明性包含两个意 义上的透明。 p 一是olap在体系结构中的位置对于最终用户应当是透明的,即olap的 功能是在客户端实现(client olap),还是在服务器端实现(server olap),对于最终用户来说并不需要区分, 并且olap应当具有真正的 开放系统结构,允许分析工具嵌入到分析人员指定的任何位置而不影 响嵌入工具的效率。 p 二是olap的数据源对用户应当是透明的,用户只需使用熟悉的查询工 具进行查询,而不需要关心olap提供的数据是从何处抽取来的。 olap准则 数据源 数据层应用逻辑层 界面层 服务器 侧 olap数 据源 客户 侧 olap 用户 界面 最终用 户 olap的数据接口 分析 工具 olap透明性示意图 olap 用户 界面 1)位置是随意的 2)数据源是随意的 olap准则 3.存取能力准则 olap必须提供高效的存取策略,使得系统只存取同 指定分析任务相关的数据,而不存取多余的数据。 要实现这一功能,就首先需要olap服务器具有访问异 种数据库系统的能力,这不但包括各种流行的关系型数据 库,还包括可能存在的非关系型数据库,如层次型数据库 和以其它形式存储的数据,并实现数据的转化和一致化工 作,从而对最终用户呈现一致的数据视图。 其次,olap服务器应当采用效率很高的策略来实现数 据访问、数据转化、数据管理、多维查询等一系列功能。 olap准则 4.稳定的报表能力 olap产品对于数据维度和数据维度层次的增加应当 保持比较稳定的性能。 通常随着数据维度的增加和维层次的增加,olap需要 维护的数据量将有较大的增加。稳定的性能就是在数据量 增加的情况下,系统的响应速度不应当有较大程度的减慢 ,即使数据模型发生了变化,许多核心数据及核心数据的 综合数据都不需要重新计算,或者可利用原先的计算结果 减少运算的复杂性。olap的这个性能实际上是olap产品可 维护性和可扩展性的重要指标 olap准则 5.客户服务器体系结构 olap建立在客户服务器的结构下,服务器端负责 数据抽取、数据存取、数据管理等复杂的功能,客户侧实 现较为简单的应用逻辑和用户界面。这种客户/服务器的 结构有利于功能的合理分担。服务器计算能力强,用于处 理复杂的功能;客户端计算能力相对较差,用于实现简单 的功能。 近年来,两层客户/服务器结构发展成了客户中间 层服务器的三层结构。在中间层实现应用逻辑,而在客 户端只实现界面功能,三层结构使得功能得到更进一步的 划分。由于应用逻辑变化比较频繁,将应用逻辑单独分离 出来,在应用逻辑发生变化的时候,只需修改中间层软件 olap准则 客户界面应用逻辑层数据层 数据层应用逻辑层、客户界面 服务器侧客户侧 服务器侧中间层客户侧 两层客户/服务器结构和三层结构 olap准则 6.维的等同性准则 在olap产品中,各个维度应当是等同对待的,在一 个维度上能够进行的操作在其它维度上也能执行。维度的 等同性原则实际上是多维概念视图原则的补充。 7.动态稀疏矩阵处理准则 olap需要提供高效存取数据的能力,动态稀疏矩阵处 理是实现高效存取的重要技术。 动态稀疏矩阵是指olap工具应当将基本物理数据单元 配置给可能出现的维的子集,同时还需要提供动态可变的 多种存取机制,比如b-tree索引、散列、直接地址计算或 者是多种技术的综合。使用这些技术的好处是存取速度将 不会受数据维度的增减、数据量级的大小而发生大的波动 。 olap准则 8.多用户支持能力准则 多个用户能够同时在同一企业数据上建立不同的 olap模型,或者同时对一个olap分析模型进行操作,为此 olap工具应当提供并发访问功能,并且需要确保数据的一 致性、完整性和安全性。 9.非受限的跨维操作 如果用户定义了维度的层次关系,则olap产品必须自 动地提供相关层次综合数据的计算方法,这些方法应当是 olap产品自动推导的,而不需要最终用户参与。 olap准则 10直观的数据处理 直观的数据处理要求用户能够非常方便直观的对数据进行操作, 从而使数据的内涵更容易为用户所感知。 11灵活的报表生成 报表的格式可以按照任意维度各种层次的组合来生成,这实际上 是多维概念视图的补充。例如下页表的报表形式,该表为一个四维( 包括统计指标自身)报表,分析人员可以根据需要对各维进行旋转, 汇总以及合并操作(如将季度维合并,变成三位报表等)。 l2不受限的维与聚集层次 olap工具应当支持不少于15个维度的数据模型,让数据分析人员 可以任意地进行各种维度各种层次的组合。 olap准则 维4 维1 维2 维3 北京地区上海地区 维2维3销售量纯利润/元成本/元销售量纯利润/元成本 第 一 季 度 工作站 pc机 软件 计算机配件 12 35 136 455 67000 19400 56900 23100 520 350 120 670 8 23 200 1270 41200 12700 75300 69700 440 200 100 1200 第 二 季 度 工作站 pc机 软件 计算机配件 5 20 213 568 31600 12400 87000 43600 200 100 100 540 2 12 54 260 11600 7390 21900 24500 100 200 100 250 olap准则之间的关系 透明性准则 存取能力准则 稳定的报表能力 客户服务器体系结构 多用户支持能力准则 动态稀疏矩阵处理准则 灵活的报表生成 多维概念视图 直观的数据处理维的等同性准则 不受限的跨维操作 非受限的维与聚集层次 图25 十二准则间的关系 olap特性 v 快速性:用户对olap的快速反应能力有很高的要求。系统 应能在5秒内对用户的大部分分析要求做出反应。客户/服 务器体系结构两层或三层c/s结构。 v 可分析性:olap系统应能处理与应用有关的任何逻辑分析 和统计分析。 v 共享性:是指多个用户可以共享同一olap数据。 v 多维性:多维性是olap的关键属性。系统必须提供对数据 的多维视图和分析,包括对层次维和多重层次维的完全支 持。 v 信息性:不论数据量有多大,也不管数据存储在何处, olap系统应能及时获得信息,并且管理大容量信息 1. olap简介 2. olap基本概念 3. olap准则和特性 4.olap的基本分析操作 5.olap数据模型的实现技术 6. olap体系结构和工具简介 大纲 olap的基本分析操作 v codd从可视化角度提出,主要基于统计的方法: v 切片和切块(slice and dice) 在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据 。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城 市、各产品的销售情况。 v 钻取(drill) 钻取包含向下钻取(drill-down)和向上钻取(drill-up)/上卷(roll-up)操作,钻 取的深度与维所划分的层次相对应。 其中向上钻取,也叫做上卷,或者聚合 v 旋转(rotate)/转轴 (pivot) 通过旋转可以得到不同视角的数据。 v 辅之于各种图形展示分析结果 olap的基本分析操作切片 v 定义:在多维数组的某一维上选定一维成员的动作称为切 片,即在多维数组(维l,维2,维n,变量)中选一维, 如维i,并取其一维成员(设为“维成员vi”),所得的多维数 组的子集(维1,维成员vi,维n,变量)称为在维i上 的一个切片。 v 一个多维数组的切片最终是由该数组中除切片所在平面两 个维之外的其他维的成员值确定的。 v 维是观察数据的角度,那么切片的作用或结果就是舍弃一 些观察角度,使人们能在两个维上集中观察数据。 olap的基本分析操作切片 v 注:多维数组(地区、时间、产品、销售额) v 若在时间维上选定维成员“1997年1月” v 得到时间维上的切片(地区、“1997年1月”、产品、销售额) rr 限制时间为 限制时间为 q4q4 广州 产 品 上海 q1q2q3q4 cd机 收音机 录音机 功率放大器 音箱 北京 地 区 时 间 数据切片技术图示数据切片技术图示 olap的基本分析操作切片 olap的基本分析操作切块 v定义:在多维数组的某一维上选定某一区间的维 成员的动作称为切块,即限制多维数组的某一维 的取值区间 v例如选定多维数组(地区,时间,产品,销售渠道 ,销售额)中的地区维、时间维与产品维在另外 的销售渠道维,选取一个维成员(如“批发”)就得到 了多维数组(地区,时间,产品,销售渠道,销售 额)在地区、时间和产品三个维上的一个切块(地 区,时间,产品,销售额)。这个切块表示各地区 、各产品在各个年度的批发销售情况。 olap的基本分析操作切块 784 728 682 59143746818 南京 上海 82560514 680 400 95231512 1023 30501 927103838580 812 q1 q2 q3 q4 家庭娱乐 计算机 电 话 安 全 在三个维上取某一区间或任意的维成员,在三个维上取某一区间或任意的维成员, 其余的维都取定一个成员可得到一个切块其余的维都取定一个成员可得到一个切块 南京 上海 北京 天津 870 789 698 984 1002 925 784 728 682 623 872 89882854 38 1087968 59143746818 82560514 680 400 95231512 1023 30501 927103838580 812 q1 q2 q3 q4 家庭娱乐 计算机 电 话 安 全 城市 季 度 商品类型 olap的基本分析操作旋转 v旋转即改变一个报告或页面显示的维方向。例如 : 旋转可能包含交换行和列 或是把某一个行维移到列维中去 olap的基本分析操作旋转 把一个横向为时间,纵向为产品的报表旋转成为横向 为产品和纵向为时间的报表 olap的基本分析操作旋转 v 把一个纵向为时间和产品,横向为地区的报表变成一个纵向为产品和 横向为地区和时间的报表。 olap的基本分析操作旋转 v 把一个横向为时间,纵向为产品的报表变成一个横向仍为 时间和纵向旋转为地区的报表。 销售量销售量 时时 间间 时时 间 间 销售量销售量 地地 区区 产产 品品 地地 区区 数据旋转技术图示数据旋转技术图示 产产 品品 9090度度 olap的基本分析操作旋转 olap的基本分析操作钻取 v 钻取是改变维的层次,变换分析的粒度。它包括上卷(roll up)和下钻(drill down)。 v 上卷是在某一维上将低层次的细节数据概括到高层次的汇 总数据,或者减少维数,上卷也被称为数据聚合。是对数 据进行高层次综合的操作。 v 下钻则相反,它从汇总数据深入到细节数据进行观察或增 加新维。一般情况下,钻取是指下钻,上钻用聚合名称表 示 v 例如销售数据,可以按月聚集(上卷)销售数据。反过来, 给定时间为划分成月份的数据表示,可能希望将月销售总 和分解(下钻)成日销售总和,当然,这要求基本销售数据 的时间粒度是按天的。 54 20294035 50413837 时间 产品 地区 一季度 二季度 三季度 四季度 南京 广州 手机 空调 下钻(drill_down): 按时间分到月、甚至 天为单位 6688 17161413 时间 南京 广州 手机8131113 14141312 16101015 13111016 空调 1 2 3 4 5 6 7 8 9 10 11 12 下钻 55 上卷(roll_up): 按时间上卷到半年为单位 20294035 50413837 时间 产品 地区 一季度 二季度 三季度 四季度 南京 广州 手机 空调 时间 产品 南京 广州 手机 空调 4975 9175 上半年 下半年 上卷 1. olap简介 2. olap基本概念 3. olap准则和特性 4.olap的基本分析操作 5.olap数据模型的实现技术 6. olap体系结构和工具简介 大纲 多维数据模型的实现技术 v relational olap (rolap) v 利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中 间件来支持缺失数据的处理 v 具有良好的可扩展性 v multidimensional olap (molap) v 利用多维数据库来存放和管理基本数据和聚合数据,其中需要对稀 疏矩阵处理技术 v 对预综合的数据进行快速索引 v hybrid olap (holap) v 利用关系数据库来存储和管理基本数据,利用多维数据库来存储和 管理聚合数据。 rolap 定义 rolap表示基于关系数据库的olap实现(relational olap)。 以关系数据库为核心,以关系型结构进行多维数据的表示和存储。 rolap主要通过一些软件工具或中间软件实现,物理层仍采用关系数 据库的存储结构,因此称为虚拟olap(virtualolap)。 rolap将多维数据库的多维结构划分为两类表: 一类是事实表,用来存储数据和维关键字。 另一类是维表,即对每个维至少使用一个表来存放维的层次、成员 类别等维的描述信息。 维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模 式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可 以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。 星座模型和雪暴模型:有多个事实表的星型模型和雪花模型 rolap星型模型 rolap星座模型 又称星座模型 rolap雪花模型 rolap服务器 v rolap服务器的结构 注:在rolap中,多维数据立 方体并没有真正存在,通常需要 在接受客户olap请求后, rolap服务器需要将sql语句转 化为多维存取语句,并利用连接 运算拼合出多维数据立方体,因 此rolap的响应时间较长。 rolap vrolap的特点 数据结构和组织模式需要预先设计和建立; 数据查询需要进行表连接,在查询性能测试中往往是影响速度的 关键; 数据汇总查询(例如查询某个品牌的所有产品销售额),需要进 行group by 操作,虽然实际得出的数据量很少,但查询时间变得 更长; 为了改善数据汇总查询的性能,可以建立汇总表,但汇总表的数 量与用户分析的角度数目和每个角度的层次数目密切相关。例如 ,用户从8个角度进行分析,每个角度有3个汇总层次,则汇总表 的数目高达3的8次方。 定义 molap表示基于多维数据组织的olap实现(multidimensional olap)。 以多维数据组织方式为核心,也就是说, molap使用多维数组存储 数据。 多维数据在存储中将形成“立方块(cube)”的结构,在molap中对 “立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技 术。 由于molap采用了新的存储结构,从物理层实现起,因此又称为 物理olap(physicalolap) molap 多维数据的组织存放(细节数据) v 例 维1:产品;维成员:冰箱、彩电、空调; v 维2:地区;维成员:东北、西北、华北; v 变量:销售量 v rdb中的数据组织 mdb中的数据组织 mdb方法的优点(细节数据) v清晰简明,占用存储少 v性能好,尤其像“冰箱销售总量是多少?”的查询 v rdb方法:找出有关“冰箱”的记录,再对销售 量求和 v mdb方法:找到有关“冰箱”的行,按行求和 多维数据的组织存放(综合数据) vrdb中的数据组织 多维数据的组织存放(综合数据) vmdb中的数据组织 v 表中交点处的数字称为数据单元 v mdb中的维对应rdb中的数据域(列) v mdb中的数据单元(包括相关的维成员)对应rdb中的记录(行) v 本表中有16个数据单元,上一表中有16条记录 mdb方法的优点(综合数据) v 多维概念表达清晰,占用存储少 v 对数据进行综合的速度快(只需按行/列累加) v 在rdb中,“总和”作为某个域上的取值(属性值)与列定义语义不符 v 细节数据 清晰简明,占用存储少 性能好,尤其像“冰箱销售总量是多少?”的查询 rdb方法:找出有关“冰箱”的记录,再对销售量求和 mdb方法:找到有关“冰箱”的行,按行求和 v综合数据 多维概念表达清晰,占用存储少 对数据进行综合的速度快(只需按行/列累加) 在rdb中,“总和”作为某个域上的取值(属性值)与列定义语义不符 molap和rolap的比较 结构分析 molap结构如图所示。 多维视图 多维 db dw 基础数据 计算结果 存取 多维数据库引擎 molap结构简图 molap和rolap的比较 sql 多维 db dw 基础数据 元数据 计算结果 存取 rdbms服务器 多维综合 引擎 关系型olap服务器多维视图 rolap结构简图 rolap结构如图所示 molap和rolap的比较 v 2 数据存储速度 rolap的多维数据以星型结构模型等关系关系数据库(平面形式)存储, 并不直接体现“超立方体”形式。在接受客户的olap请求时,rolap服务 器需要将sql语句转化为多维存储语句,并利用连接运算临时“拼合”多维 数据立方体,因此,rolap的响应时间比较长。 v 3 数据存储容量 rolap使用传统关系数据库的存储方法,对于存储容量基本上没有现在限 制。但是,需要指出的是,在rolap中为了提高分析响应速度,经常构 造大量的中间表(如综合表),这些中间表带来了大量的冗余数据。 v 4 多维计算能力 molap支持高性能的决策支持型计算,包括复杂的跨维计算、行级计算; 而在rolap中,sql无法完成部分计算,并且rolap无法完成多行的计 算和维之间的计算。 molap和rolap的比较 v 5 维度变化的适应性 molap需要在建立多维数据库块时确定各个维度以及维度之间的层次关 系。在多维数据库建立之后,如果要增加新的维度,通常需要重新建立 多维数据库。新增维度后的数据量会急剧增加。而rolap增加一个维 度时只是增加一张维表并修改事实表,系统中的其他维表无须修改,因 此rolap对于维表的变更有着更好的适应性。 v 6 数据变化的适应性 由于molap通过预综合处理来提高系统运行速度,当数据频繁的发生变 化时,molap需要重新进行大量的计算,甚至重新建立索引乃至重构 多维数据库。在rolap中,预综合处理通常由设计者根据需要制定, 因此灵活性较好,对于数据变化的适应性高。 molap和rolap的比较 v 7 软硬件平台的适应性 由于关系数据库已经在众多的软硬件平台上成功地运行,因此rolap 对软硬件平台的适应性很好,而molap则相对较差。 v 8 元数据管理 目前在元数据的管理上,molap和rolap尚无成形的标准,molap 产品将元数据作为其内部数据,而rolap产品将元数据作为应用开 发的一部分,由设计者来定义和处理。 v 9 系统培训和维护工作 rolap建立在关系数据库的基础上,所以熟悉关系数据库的rolap使 用人员能够很快的掌握rolap的操作。molap是比较新的技术,原 先熟悉关系数据库的用户通常不熟悉mddb。因此,对于molap系 统,相关的客户培训与维护工作较多。 molap和rolap的比较 项 目 数据存储 技 术 特 征 molap 详细数据通过关系表 存储在数据仓库中; 各种汇总数据保存在 多维数据库中;从数 据仓库中询问详细数 据,从多维数据库中 询问汇总数据 由molap引擎创建 ;预先建立多维数据 立方体;多维视图存 储在阵列而非表格中 ;可以高速检索矩阵 数据;利用稀疏矩阵 技术来管理汇总的稀 疏数据 询问的响应速度快; 能轻松的适应多维分 析;有广泛的钻取和 多层次/多视角查询 的能力 rolap 全部数据以关系表形 式存储在数据仓库中 ,可获得细节的和综 合汇总的数据;有非 常打的数据容量;从 数据仓库中询问所有 数据 使用复杂sql从数据 仓库中获得数据; rolap引擎在数据 分析中创建多维数据 立方体;表示层能够 表示多维视图 在复杂的数据分析功 能上具有局限性,需 要采用优化的olap ;向下钻取数据较容 易,但是跨维向下钻 取数据较困难 molap和rolap的综合比较 rolapmolap 沿用现有的关系数据库的技术专为 olap所设计 响应速度比molap慢; 现有关系型数据库已经对 olap做了很多优化, 包括并行存储、并行查询 、并行数据管理、基 于成本的查询优 化、位图索引、sql 的olap 扩展(cube、rollup)等,性能有所提高 性能好、响应速度快 数据装载速度快数据装载速度慢 存储空间耗费小,维数没有限制 需要进行预计 算,可能导致数据爆炸,维 数有限;无法支持维的动态变 化 借用rdbms存储数据,没有文件大小限制 受操作系统平台中文件大小的限制,难以 达到tb 级(只能1020g) 可以通过sql实现详细 数据与概要数据的存储缺乏数据模型和数据访问 的标准 不支持有关预计 算的读写操作 sql无法完成部分计算 无法完成多行的计算 无法完成维之间的计算 支持高性能的决策支持计算 复杂的跨维计 算 多用户的读写操作 行级的计算 维护 困难管理简便 holap v holap服务器结合rolap和molap技术 holap结构不应该是molap与rolap结构的简单组合,而是这 两种结构技术优点的有机结合,能满足用户各种复杂的分析请求 。 对于常用的维度和维层次,在holap中使用多维数据表来记录。 对于不常用的维度和数据,采用类似于rolap星型结构来存储。 holap得宜于rolap的可伸缩性,和molap的快速计算。 允许将大量详细数据存放在关系数据库中,而聚集保持在分离的 molap存储中。 在holap的多维数据表中的数据维度少于molap中的维度表, 数据存储容量也少于molap方式。 holap在数据存取速度上又低于molap。 holap在主要性能上都介于 molap和 rolap之间,其技术复杂 度高于molap和 rolap。 1. olap简介 2. olap基本概念 3. olap准则和特性 4.olap的基本分析操作 5.olap数据模型的实现技术 6. olap体系结构和工具简介 大纲 rolap体系结构 sql result set info. request result set database server r dbms front-end tool roalp architecture rolap server metadata request processing 这种体系结构,源于中间件技术和传统的rdb技术,具有较强的可 伸缩性。以rolap server为中间件,增加rollup、cube等操作,扩 充了sql为multiple sql(msql)支持复杂的多维分析。通常,采 用非规范化的星型或雪花模式组织数据来支持处理用户需求。用户 的查询需求通过olap引擎动态翻译为sql请求,然后由关系数据库 来处理sql请求,最后查询结果经多维处理将结果返回给用户。 molap体系结构 sql result set info. request result set load database server rdbms front-end tool moalp architecture molap server metadata request processing molap server采用多维数组技术存储数据,并对稀疏数据采用 压缩技术处理,提供切片、切块和旋转等分析操作。为提高响 应速度,对用户的查询需求进行预处理,在数据建立之初,将 数据从database server中聚集到molap server中。当分析需 求变化时,数据结构需要物理地重新组织,以便适应用户需求 变化。这给db管理者建立和维护db带来困难,费用及复杂性也 相应提高。 holap系统结构 result set or sql query sql result set info. request result set load database server rdbms front-end tool hybrid architecture molap server holap体系结构集成了rolap的可伸缩性和molap的快速计算的特点 。将大量详细数据存放在rdb中,聚集数据存放在molap中。未预 计算的操作,首先从dbms中查询,然后传输到molap数据立方体中 并存储其中,由olap引擎将结果返回给用户。以后用户便可以在 立方体上直接进行多维分析操作。 olap的体系结构与展现方式 volap的结构-逻辑结构 数据仓库 数据存储技术 客户 olap视图 olap结构:两个逻辑部分 数据存储 数据存储服务 客户 用户描述 olap服务 olap结构:三个功能构件 volap的结构-物理结构 数据 多维数 据存储 关系数 据存储 数据仓库 数据 数据 带关系数据存 储的数据仓库 带多维数据存储的olap服务器客户 olap服务器客户 olap视图 物理结构:多维数据存储与关系数据存储 olap的体系结构与展现方式 数据 数据数据 “胖”客户 olap数据 站场 数据仓库 数据仓库 “瘦”客户 带olap服务器和多维数据存 储的“胖”客户 带多维数据存储的olap 服务和数据站场 数据数据 数据仓库带多维数据存储的数 据站场 olap服务器“瘦”客户 图226 数据站场:三层结构 olap的体系结构与展现方式 v olap的web方式 olap服务器 数据仓库服务器 web服务器 cgi、asp、php等 客户浏览器 客户浏览器 客户浏览器 html、java、java applet 、activex control等 图2-27 web呈现方式的结构 olap的体系结构与展现方式 v 瘦客户机方式 web方式具有很好的跨平台性,随着object web日趋广泛的 应用,客户端和服务器端之间的交互有所改善,但是客户端 的分析操作或多或少的受到web方式的限制。 olap的体系结构与展现方式 oltp工具介绍 volap产品 hyperion essbase oracle express ibm db2 olap server sybase power dimension informix metacube ca olap server microsoft analysis services cognos microstrategy brio business object olap工具性能对比 vhyperion essbase 以服务器为中心的分布式体系结构有超过100个的应用程 有300多个用essbase作为平台的开发商 具有几百个计算公式,支持多种计算 用户可以自己构件复杂的查询 快速的响应时间,支持多用户同时读写 有30多个前端工具可供选择 支持多种财务标准 能与erp或其他数据源集成 全球用户超过1500家 oracle olap工具 oracle
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 摩托车涂装知识培训课件
- 内蒙古乌兰察布市2024-2025学年七年级下学期期末语文试题(解析版)
- 桥梁施工技术试题及答案
- 2025年版简易建筑工程合同与现行建筑工程合同对比分析
- 2025合作协议大棚合作协议范本
- 2025标准版房屋租赁合同范本协议书
- 投资建厂合作建设协议书
- 摄像相机基础知识培训课件
- 2025停车场使用权置换合同样本
- 2025有关餐饮行业购销合同范本
- 心之所向·素履以往+课件-2025-2026学年高三上学期开学第一课主题班会
- 2025秋人教版英语八年级上Unit 1 全单元听力材料文本及翻译
- 急性胰腺炎护理小讲课
- 电站安全急救课件
- 新型医药销售外包(CSO)行业跨境出海项目商业计划书
- 口腔诊室6S管理
- 临期保持食品管理制度
- 义务教育化学课程标准(2022年版)
- 旅游景区反恐管理制度
- 文印员考试题库及答案
- 安全总监考试试题及答案
评论
0/150
提交评论