第4章:联机分析处理技术_第1页
第4章:联机分析处理技术_第2页
第4章:联机分析处理技术_第3页
第4章:联机分析处理技术_第4页
第4章:联机分析处理技术_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章

联机分析处理技术

OLAP概述OLAP中的多维分析操作OLAP的基本数据模型OLAP的衡量标准内容OLAP概述OLAP的由来联机事务处理(OLTP):利用关系数据库存储和管理业务数据,并建立相应的应用系统来支持日常业务运作。这种应用以支持业务处理为主要目的。所存储的数据被称为操作型数据或业务数据对OLTP数据库中的数据进行再加工,形成一个综合的、面向分析的、更好的支持决策制定的决策支持系统(DSS)OLAP概述联机分析处理(OnLineAnalysisProcessing,OLAP)在数据仓库系统中,联机分析处理是重要的数据分析工具。OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。OLAP是独立于数据仓库的一种技术概念当OLAP与数据仓库结合时,OLAP的数据源为数据仓库,数据仓库的大量数据是根据多维方式组织的。OLAP概述OLAP的由来Codd提出了多维数据库和多维分析的概念,即联机分析处理OLAP的定义OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。(OLAP理事会)OLAP概述OLAP的基本概念维dimension人们观察数据的特定角度如产品维、顾客维、时间维等维层次level人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面如时间维的日、月、季、年OLAP概述OLAP的基本概念维成员member维的一个取值称为该维的一个维成员是数据项在某维中位置的描述如“2012年9月10日”是在时间维上位置的描述OLAP概述OLAP的基本概念多维数据集是决策支持的支柱OLAP的核心又称立方体或超立方体三维数据可以利用三维坐标建立立方体进行表示超三维数据可以利用一个多维表来进行显示OLAP概述OLAP的基本概念数据单元在多维数据集中每个维都选定一个维成员后,这些维成员的组合就唯一确定了一个数据单元多维数据集的度量值在多维数据集中有一组度量值,这些值是基于多维数据集中事实表的一列或多列数字度量值是多维数据集的核心值,是最终用户在数据仓库应用中所需要查看的数据事实表维表OLAP概述OLAP的基本概念数据立方体由维和事实定义;每一个维都有一个表与之相关联,这些表叫维表;每一个维表包含各种属性;多维数据模型围绕中心主题组织;该主题用事实表示;事实是数值度量的;一个电子公司的销售一般从三个方面分析销售额:时间:在某一段时间内的销售情况,其度量为(年、季度、月、旬、天)地区:在某个地区的销售情况,度量可分为(地区、国家、省、市)产品:某类或某型号产品的销售情况,度量可分为(类别、型号等)此处,(时间,地区,产品)就构成了三个维。维有层次结构,可以在某个层上察看数据。11维的例子地区的层次12维的例子全国江苏北京上海苏州市扬州市宝应县OLAP数据立方体的计算(物化)一般,若有n个维,则立方体个数是13{(city,item,date),(city,item),(city,date),(item,date),(city),(item),(date),all}all表示不对任何维分组,这组形成了该数据立方体的方体格OLAP概述OLAP的基本概念事实表包括事实的名称或度量,以及每个相关维表的关键字;数据立方体是对多维数据存储的一种比喻;实际维上有分层,如(年、季度、月、星期、日),所以实际的立方体个数是极大的。所以,实时计算的工作量极大,但全部事先计算,则存储量又极大。方体的选择计算:不物化:即不预先计算任何“非基本”方体全物化:预先计算所有的方体部分物化:在整个可能的方体集中,有选择地物化一些适当的子集在OLAP中一般采用部分物化,应考虑三个因素:(1)确定要物化的方体子集;(2)利用查询处理时物化的方体;(3)在装入和刷新时,有效地更新物化的方体。15OLAP数据立方体的计算(物化)OLAP概述OLAP的基本概念概念分层(concepthierarchy):定义一映射序列,将低层概念映射到更一般的高层概念;如维location的概念分层:城市—省—国家OLAP概述OLAP的定义与特征使分析、管理或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术从不同的角度看同样的数据!OLAP概述OLAP的定义与特征如分析销售数据时间周期产品类别分销渠道地理分布客户群类OLAP概述OLAP的定义与特征主要特征快速性系统必须能快速响应用户的分析查询要求,对于用户大部分分析要求在5秒钟内作出反应可分析性OLAP系统能处理任何与用户和应用有关的逻辑分析和统计分析,在需要的情况下还允许用户无需编程就可为分析和生成报表定义一些新的特殊运算多维性

指对数据分析的多维视图和分析信息性能管理大量的数据并即时地获得用户所需信息数据的透明性OLAP中的多维分析操作钻取Drill/Rollup,Drilldown改变维的层次,变换分析的粒度分向上钻取和向下钻取向上钻取:在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数向下钻取:从汇总数据深入到细节数据进行观察或增加新维OLAP中的多维分析操作OLAP中的多维分析操作切片和切块切片:在给定数据立方体的一个维上进行选择操作,切片的结果是得到一个二维平面数据,如银行分行=“分行1”OLAP中的多维分析操作切片和切块切块:在给定数据立方体的两个或多个维上进行选择操作,切块的结果是得到一个子立方体,如(银行分行=“分行1”OR“分行2”)AND(时间=“2007年”OR“2008年”)AND(银行支行=支行1”OR“支行2”

)OLAP中的多维分析操作旋转变换维的方向,即在表格中重新安排维的放置,如行列互换OLAP中的多维分析操作旋转变换维的方向,即在表格中重新安排维的放置,如行列互换OLAP中的多维分析操作概化(generalize)通过用高层抽象(如time维的year)值替换低层抽象(如time维的day)值,概念分层可以用于概化数据;特化(specialize)通过用低层抽象(如time维的day)值替换高层抽象(如time维的year)值,概念分层可以用于特化数据;OLAP的基本数据模型OLAP系统一般以数据仓库作为基础,从数据仓库中抽取详细数据的一个子集,经过必要的聚集存储到OLAP存储器中供前端分析工具读取为了保证信息处理所需的数据以合适的粒度、合理的抽象程度和标准化程度存储,按照其数据存储格式可以分为关系OLAP(ROLAP)、多维OLAP(MOLAP)和混合OLAP(HOLAP)OLAP的基本数据模型关系联机分析处理ROLAP的数据模型以关系型的结果进行多维数据的表示与存储数据的预处理程度不高,灵活性高一般采用星状模式或雪花模式来表达多维数据视图OLAP的基本数据模型关系联机分析处理ROLAP的数据模型星状模式一个事实表:包含大批数据并且不含冗余的中心表一组小的维表,每维一个OLAP的基本数据模型关系联机分析处理ROLAP的数据模型星状模式OLAP的基本数据模型关系联机分析处理ROLAP的数据模型雪花模式是星状模式的变种某些维是规范化的,把数据进一步分解到附加表中OLAP的基本数据模型关系联机分析处理ROLAP的数据模型雪花模式OLAP的基本数据模型关系联机分析处理ROLAP的数据模型雪花模式与星状模式的区别雪花状的维表可能是规范化形式,以便减少冗余,易于维护,节省存储空间由于执行查询需要更多的连接操作,雪花状结构可能降低浏览的性能OLAP的基本数据模型多维联机分析处理MOLAP利用一种专有的多维数据库来存储OLAP分析所需要的数据数据采用n维数组的多维方式存储,形成“立方体”结构MOLAP存储模式将数据与计算结果都存储在立方体结构中,即将多维数据集区的聚合、维度、汇总数据以及其源数据的副本等信息均以多维结构存储在分析服务器上。MOLAP的数据模型MOLAP是表现为“超立方”结构,采用类似于多维数组的结构。例如,二维MDDB(数组,即矩阵)的数据组织见下表北京上海广州衣服600700500鞋800900700帽子1002008035OLAP的基本数据模型多维联机分析处理MOLAP的优缺点迅速响应决策分析人员的分析请求(预处理程度高)用户很难对维数进行动态变化,如增加一维对数据变化的适应能力较差-需重构多维数据库处理大量细节数据的能力差OLAP的基本数据模型MOLAP和ROLAP的比较ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。因此,ROLAP的响应时间较长。

MOLAP在数据存储速度上性能好,响应速度快。38数据存取速度ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。MOLAP通常采用多平面叠加成立体的方式存放数据。MOLAP受操作系统平台中文件大小的限制,当数据量超过操作系统最大文件长度时,需要进行数据分割。多维数据库的数据量级难以达到TB级(只能10~20G)39数据存储的容量MOLAP增加新的维度,则多维数据库通常需要重新建立。ROLAP对于维表的变更有很好的适应性。40维度变化的适应性当数据频繁的变化时,MOLAP需要进行大量的重新计算,甚至重新建立索引乃至重构多维数据库。在ROLAP中灵活性较好,对于数据变化的适应性高。41数据变化的适应性42MOLAPVSROLAPMOLAPROLAP固定维可变维维交叉计算多维视图行级计算超大型数据库读-写应用维数据变化速度快数据集市数据仓库OLAP的基本数据模型混合型联机分析处理原始数据存储在原来的关系数据库中聚合数据则以多维的形式存储准则维数可以被动态更新可根据关系数据库管理系统的元数据产生多维视图可以快速地存取各种级别的汇总数据可适应大数据量数据的分析可以方便地对计算和汇总算法进行维护和修改OLAP的衡量标准1993年,E.F.Codd提出了关于OLAP的12条标准目的是加深对OLAP的理解已成为OLAP工具所应有的关键特性的最小描述OLAP的衡量标准准则1:OLAP模型必须提供多维概念视图准则2:透明性准则OLAP的数据源对用户是透明的准则3:存取能力准则提供高效的存取策略准则4:稳定的报表性能当维数和数据综合层次增加时,其报表能力和响应速度不应该有明显的降低和减慢OLAP的衡量标准准则5:客户/服务器体系结构建立统一的公共概念模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论