OLAP-在线联机分析.ppt_第1页
OLAP-在线联机分析.ppt_第2页
OLAP-在线联机分析.ppt_第3页
OLAP-在线联机分析.ppt_第4页
OLAP-在线联机分析.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

OLAP,多维数据集,多维数据集提供了一种信息系统结构,这种结构可以使企业灵活地对数据进行访问,可以用多种方法对数据进行切片、分块、动态地考察汇总数据和细节数据之间的关系 数据仓库中的细节数据为多维数据集提供了稳健方便的数据源.,多维数据集和数据仓库,数据仓库与多维数据集的区别: 多维数据集数据量比数据仓库少一个数据量级 数据仓库只适合少量灵活访问,多维数据集适合大量不可预知的访问和分析 数据仓库存储很长时间范围内的数据,多维数据集存储较短时间范围内的数据 数据仓库只允许分析人员以受限的形式访问数据,而多维数据集允许自由地访问 多维数据集和数据仓库有着互补的关系: 数据仓库中可以存储非常细节的数据,而多维数据集中往往会对细节数据进行轻度综合,DSS分析人员可以同时获取这二种数据 汇总信息在多维数据集中计算和聚集后存储在数据仓库中,维(Dimension),维是人们观察数据的特定角度。 例如,企业常常关心产品销售随着时间推移而产生的变化的情况,这时他是从时间的角度来观察产品的销售,所以时间就是一个维(时间维)。 企业也常常关心自己的产品在不同地区的销售分布情况,这时他是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维)。,维度,维的层次,人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面,我们称这个描述方面为维的层次。 一个维往往具有多个层次,例如: 描述时间维时,可以从日期、月份、季度、年等不同层次来描述,那么日期、月份、季度、年等就是时间维的层次; 同样,城市、地区、国家就构成了一个地理维的多个层次。,维成员,维的一个取值就称为该维的一个维成员。 如果一个维是多层次的,那么该维的维成员就是不同维层次的取值的组合。 例如,考虑时间维具有日期、月份、年这三个层次,分别在日期、月份、年上各取一个值组合起来,就得到时间维的一个维成员,即“某年某月某日”。,多维数组,一个多维数组可以表示为(维1,维2,维n,变量),这样可以构成三维、四维及多维的数据表示结构。其中,变量表示我们所观察的数据对象,维1、维2、维n分别表示我们观察该数据对象的角度。 如(时间,商品种类,商店,销售额),从而构成一个有关商品销售额的三维数组。 (2000年, 家电, 南京市,1亿) (2000年7月,女性服装,江苏省,10亿),数据单元(单元格),多维数组的取值称为数据单元。 当多维数组的各个维都选中一个维成员,这些维成员的组合就唯一确定了一个观察对象的值,即(维成员1,维成员2,维成员n,对象值)。,立方体和超立方(Cube) 多维数据模型的数据结构可以用这样来一个多维数组来表示:(维1,维2,维n,度量值),例如:商品销售数据是按时间、地区、商品种类,加上度量“销售额”组成的一个三维数组:(地区,时间,商品种类,销售额)。三维数组可以用一个立方体来直观的表示,立方体中每一个交点对应于一个事件。一般地多维数组用多维立方体来表示,但数据立方体并不一定限于三维,因此又称为超立方,数据立方体,可以按照产品、日期、商店三个维度任意组合,生成销售情况,OLAP的产生背景,60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。 1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。,什么是OLAP?,OLAP,英文全称为On-Line Analysis Processing,中文名称为联机分析处理,也称为在线分析处理。 OLAP允许以一种称为多维数据集的多维结构访问来自商业数据源(如数据仓库)的经过聚合和组织整理的数 据。 OLAP是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者。,OLTP与OLAP,随着数据库系统广泛应用,数据库系统记录和处理的数据越来越多,及时地记录和处理企业的各种业务数据,这些系统成为联机事务处理(OLTP)系统。数据库技术的广泛应用和技术的发展,人们已经不再满足于仅仅用数据库系统来记录企业的业务活动数据和对数据的简单处理,人们需要对企业业务活动的数据进行各种分析,以便发现企业业务趋势,这些系统称为联机分析处理(OLAP)系统。,OLTP,OLAP,数据库原始操作,数据库导出数据或数据仓库数据,细节性数据,综合性数据,当前数据,历史性数据,经常性更新数据,不可更新,但可周期性刷新数据,一次性处理的数据量少,一次性处理的数据量多,对响应时间要求高,响应时间合理,用户量大,用户量少,面向操作人员、支持日常操作,面向决策人员、支持管理需要,面向应用、实物驱动,面向分析、分析驱动,OLTP与OLAP对比表,OLAP特性,快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。客户/服务器体系结构两层或三层C/S结构。 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。 多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。,数据仓库与OLAP,数据仓库是一个包含企业历史数据的大规模数据库,这些历史数据安用十对企业的经营决策提供分析和支持。数据仓库中的数据是不能用于OLTP的,而OLAP技术则利用数据仓库中的数据进行联机分析,将复杂的分析查询结果快速地返回用户。 OLAP利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅速进行评价。,OLAP是DW主要的前端支持工具。在OLAP系统中,客户能够以多维视觉图的方式,搜寻数据仓库中存储的数据。,多维报表 饼图 直方图 柱状图 曲线图 切片和切块 旋转 地图 ,OLAP的基本操作,OLAP的基本操作是指对以多维形式组织起来的数据采取钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据仓库中的数据,从而深入地了解包含在数据中的信息和内涵。,钻取(Drill),钻取:是改变维的层次,变换分析的粒度。 维度的层次反映了数据的综合程度。层次高,代表数据综合程度高,细节数据少,数据量也少;层次低,代表数据综合度低,细节数据多,数据量大。 钻取包括向下钻取(Drill-down)/下卷(Roll-down)、向上探取(Drill-up)/上卷(Roll-up) Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数 Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维,上钻,下钻,切片(Slice) 定义1:在多维数组的某一维上选定一个取值,则多维数组就从n维降为n-1维,我们称多维数组的子集 (维度1,维度2,维成员Vi,维度n,度量) 为多维数组在维度i上的切片(Vi表示维度i的维成员) 定义1中,一次切片一定使原来维数减1,因此所得切片结果并不一定是二维的“平面”,切片结果维数取决于原来的多维数组的维数。这个定义不够通俗,还有另外一个定义 定义2:选定多维数组中两个维:维i和维j,在这两个维上取一区间或者任意的维成员,而将其他维都分别取定一个维成员的动作,称为多维数组在维i和维j上的一个切片。,切块(Dice) 定义1:将多维数组的某一维上的取值设定为一个区间(如时间维的1999-2004年)的维成员的动作,称为切块。显然,当这一区间只取一个维成员时,即得到一个切片。 定义2:选定多维数组中三个维:维i、维j和维k,在这三个维上取一区间或者任意的维成员,而将其他维都分别取定一个维成员的动作,称为多维数组在维i、维j和维k上的一个切块。,选定两个维:产品维和地区维,时间维,数据切片,产品维,地区维,产品维,地区维,转轴:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。,转轴,OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。,OLAP存储模式,OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。,ROLAP,ROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批物化视图作为表也存储在关系数据库中。ROLAP针对关系型数据库的应用允许其利用已有的数据库资源,并且允许R OLAP应用程序很好地伸缩。然而,ROLAP使用表存储合计则要求比MOLAP更多的磁盘空间,速度相对比较慢。,ROLAP将多维数据库的多维结构划分为两类表: 一类是事实表,用来存储数据和维关键字。 另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。 维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。 星座模型和雪暴模型:有多个事实表的星型模型和雪花模型,定义 MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。 以多维数据组织方式为核心,也就是说, MOLAP使用多维数组存储数据。 多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。,OLAP分类,ROLAP与MOLAP比较,在MOLAP中,不但把多维实视图在概念上看成一个超立方体,而且在物理上把多维实视图组成一个多维数组,而不象ROLAP以表的形式存储实视图。 在MOLAP中,维的属性值被映射成多维数组的下标值或下标的范围,而总数据作为多维数组的值存储在数据的单元中。 ROLAP在节省存储空间、灵活性、与关系数据库保持一致性等方面有明显的优势; MOLAP则在性能和管理的简便性方面有其优点。,MOLAP的查询速度比较快,但有下面限制: 用多维数组实现多维实视图,需要很大的存储空间。在实际的数据仓库中,每维的属性值个数可能数万。例如几万种产品、几万个连锁店等。而实际的维数可能多达几十乃至几百。耗费的存储空间相当可观,由此带来加载、维护等问题。 在多维数组中,很可能有些单元是空白的,如节假日商店不营业;某些产品在某些地区不销售等。 MOLAP与关系数据库系统从存储结构到查询语言都有相当大的差别,不可能在RDBMS的基础上实现。,ROLAP与MOLAP比较(续),HOLAP (hybird OLAP),即混合OLAP,介于MOLAP 和ROLAP之间。 在HOLAP 中,对最常用的维度和维层次使用多维数据库来存储,对用户不常用的维度和数据使用ROLAP星形结构来存储。当用户查询不常用数据时, HOLAP 将会把简化的多维数据库和星形结构进行拼合,从而得到完整的多维数据库。 在HOLAP 多维数据库中的数据维度少于MOLAP 中的维度, 数据存储容量也少于MOLAP 方式;但HOLAP在存取速度上低于MOLAP 。,HOLAP数据模型,OLAP是介于客户与数据仓库之间的数据分析处理系统,它需要对来自数据仓库的数据进行多维处理和分析,因此在系统的构造中常常采用三层客户/服务器结构。 这种三层客户/服务器的结构通常将数据仓库、OLAP服务器与客户端严格区分。,数据准备区,数据仓库,OLAP服务器,数据仓库与OLAP关系,业务处理系统,第三层,第二层,第一层,数据抽取,数据加载,多维化 处理,数据清理、转换,可视化处理,客户端,关系OLAP(ROLAP)服务器 在ROLAP处理过程中,ROLAP服务器通过用户界面接受多维查询,将其转化为标准的SQL查询,在ROLAP中执行,然后再将查询结果以适当的形式通过用户端界面显示出来。多维立方体是借助RDBMS平台实现的,故系统的工作过程较复杂。,ROLAP服务器的体系结构,多维OLAP(MOLAP)服务器 在MOLAP中,MOLAP服务器的主要功能是:通过MDDB引擎访问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论