




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、3.1.1OLAP的定义联机分析处理(On Line Analytical ProcessingOn Line Analytical Processing,OLAPOLAP)在数据仓库系统中,联机分析处理是重要的数据分析工具。OLAPOLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。1第1页/共40页3.1.1OLAP的定义特点:2第2页/共40页3.1.2OLAP的准则准则:准则1 OLAP模型必须提供多维概念视图准则2 透明性准则 准则3 存取能力准则 准则4 稳定的报表能力 准则5 客户/服务器体系结构 准则6 维的等同性准则 准则7 动态的稀疏矩阵处理准
2、则 准则8 多用户支持能力准则 准则9 非受限的跨维操作 准则10 直观的数据操纵 准则11 灵活的报表生成 准则12 不受限的维与聚集层次3第3页/共40页4基本概念变量:是数据的实际意义,即描述数据“是什么”。维:观察数据的特定角度。如时间维、产品维、顾客维。维的层次:数据的维可以存在细节程度不同的多个描述方面,我们称这多个描述方面为维的层次。例:例:人数,单价,人数,单价,销售额销售额等等例:时间维可以从例:时间维可以从等不等不 同层次来描述。同层次来描述。第4页/共40页5几个基本概念维成员:维的一个具体取值称为维成员,也就是将数据项在某维中位置的描述称为维的成员。若一个维是多层次的,
3、则该维的维成员是在不同维层次的取值的组合。多维数组:由多个维和变量组合起来,称为多维数组,是多维数据的表达方式。 (维1,维2,维n,变量)单元格:多维数组的取值称为单元格(数据单元),可表示为 (维1维成员,维n维成员,变量值)例:例:设时间维有日设时间维有日, ,月月, ,年,年,则分别各取一个值组合起则分别各取一个值组合起来,就得到一个维成员来,就得到一个维成员, ,即即“某年某月某日某年某月某日”例例: :(地区地区, ,时间时间, ,类型类型, ,销售额)销售额)例例: :(南京(南京, ,一季度一季度, ,计算机计算机,825,825)第5页/共40页63.2OLAP的数据模型的数
4、据模型 MOLAP(多维OLAP,Multi-dimensional OLAP) ROLAP(关系OLAP,Relational OLAP) HOLAP(混合OLAP,Hybrid OLAP) 第6页/共40页3.2.1MOLAP数据模型 MOLAPMOLAP是基于多维数据库存储方式建立的OLAPOLAP;表现为“超立方”结构,采用类似于多维数组的结构。 例如,二维MDDB(数组,即矩阵)的数据组织见表3.1所示。 第7页/共40页表3.1 MDDB(二维)数据组织北京上海广州衣服600700500鞋800900700帽子10020080第8页/共40页表3.2多维数据库中含综合数据的数据组织
5、北京上海广州总和衣服6007005001800鞋8009007002400帽子10020080380总和1500180012804580第9页/共40页产品名产品名地区地区销售量销售量衣服衣服北京北京600衣服衣服上海上海700衣服衣服广州广州500鞋鞋北京北京800鞋鞋上海上海900鞋鞋广州广州700帽子帽子北京北京100帽子帽子上海上海200帽子帽子广州广州80表3.3关系数据库RDBMS数据组织第10页/共40页产品名产品名地区地区销售量销售量衣服衣服北京北京600衣服衣服上海上海700衣服衣服广州广州500鞋鞋北京北京800鞋鞋上海上海900鞋鞋广州广州700帽子帽子北京北京100帽子
6、帽子上海上海200帽子帽子广州广州80表3.4关系数据库中综合数据的数据组织第11页/共40页12总结:多维数据库比关系数据库表达更清晰,并且占用存储少。第12页/共40页133.2.2ROLAP3.2.2ROLAP数据模型数据模型 ROLAP ROLAP的数据与计算结果直接由原来的关系数据库取得。 ROLAP将支撑多维数据的原始数据、多维数据集数据、汇总数据和维度数据都存储在现有的关系数据库中,并用独立的关系表来存放聚集数据。 星型模型、雪花模型、星网模型,这种多维描述,每次对维的操作都要求有连接操作,因此必须用可靠的查询优化技术。 不存储源数据副本,占用的磁盘空间最少,但存取速度也比较低。
7、 第13页/共40页3.2.3ROLAP和MOLAP的比较14第14页/共40页MOLAPMOLAP和ROLAPROLAP的对比简表MOLAPMOLAPROLAPROLAP固定维可变维维交叉计算行级计算超大型数据库存储性能好,响应速度快数据集市数据仓库第15页/共40页16 HOLAP ROLAP与MOLAP存储方式的结合。 原始数据和ROLAP一样存储在原来的关系数据库中,而聚合数据则以多维的形式存储分析服务器。 优点: 既能与关系数据库建立连接,同时又利用了多维数据库的性能优势。 缺点: 是在ROLAP和MOLAP系统之间的切换会影响它的效率。 第16页/共40页17内容内容MOLAPRO
8、LAPHOLAP源数据的副本有无无占用分析服务器存储空间大小小使用多维数据集小较大大数据查询快慢慢聚合数据的查询快慢快使用查询频度经常不经常经常v 三种存储方式的比较第17页/共40页18 在实际决策过程中,决策者往往希望能从多个角度观察某个指标或多个指标的值,并且找出这些指标之间的关系,我们将这些观察数据的角度称为维。可以说决策数据是多维数据,多维数据分析是决策的主要内容。【例】一个比较有代表性的问题:需要知道东部地区和西部地区今年6月和去年6月在销售总额上的对比情况,并且销售额按10-20 万,20-30 万,30-40 万,40 万以上分组。 决策者所需的数据总是与一些统计指标、观察角度
9、、不同级别的统计有关。3.3OLAP的数据显示与多维数据分析第18页/共40页193.3.1 数据立方体由表到数据立方体 数据立方体允许以多维对数据建模和观察,它由维与事实定义。 维:观察数据的特定角度。每一个维都有一个表与之相关联,称为维表,用来进一步描述维。 多维数据模型通常围绕中心主题组织,该主题用事实表表示。 事实:是数值度量的,事实表包括事实的名称或数字度量值以及每个相关维表的关键字。第19页/共40页203.3.1 数据立方体由表到数据立方体 通常认为数据立方体是三维几何结构,在数据仓库中,数据立方体是N 维(N-D)的。 考察一个2-D数据立方体(实际上是一张某电子公司的销售数据
10、表)。特别观察公司在南京的所有分店每季度销售的商品情况。第20页/共40页213.3.1 数据立方体由表到数据立方体地区=“南京”销售数据按照时间,类型的2-D2-D视图 产 品 类 型家庭娱乐计算机 电 话安 全 Q1Q1 Q2Q2 Q3Q3 Q4Q4 605605 680680 812812 92792710231023103810389529528258251414313130303838400400512512501501580580时间(季度)第21页/共40页223.3.1 数据立方体由表到数据立方体 在这个2-D表示中,南京的销售用维时间和维类型表示,所显示的事实或度量是销售额(
11、万元)。 再以三维角度观察销售数据,例如从时间,类型,地区观察数据。地区是上海、北京、南京。3-D数据如下表所示:第22页/共40页23销售数据按照时间,类型和地区的3-D3-D视图时时间间 地区地区=“=“上海上海”产品类型产品类型 地区地区=“=“北京北京”产品类型产品类型 地区地区=“=“南京南京”产品类型产品类型家庭家庭娱乐娱乐计算计算机机电话电话家庭家庭娱乐娱乐计算计算机机电话电话 安全安全家庭家庭娱乐娱乐计算计算机机电话电话 安全安全安全安全Q1Q1Q2Q2Q3Q3Q4Q41087108711301130 1034103411421142 38384141 454554549689
12、6810241024 1034103410901090872872925925 10021002984984818818894894 940940978978746746769769 75975986486443435252 58585959591591682682 728728784784605605680680 812812927927825825952952 102310231038103814143131 30303838400400512512 501501580580第23页/共40页2460568081292782595210231038 38 30 31/p>
13、580818746 43591 3887296810876827287849251002984Q1Q1Q2Q2Q3Q3Q4Q4南京南京北京北京上海上海时间时间计算机计算机安全安全电话电话家庭娱乐家庭娱乐类型类型3-D3-D数据立方体表示:数据立方体表示:维是维是时间、类型、地区;度量时间、类型、地区;度量为为万元万元第24页/共40页253.3.1 数据立方体由表到数据立方体 假定我们想从四维的角度观察销售数据,再附加一维供应商。 观察4-D事物变得麻烦,可把4-D立方体看成3-D立方体的序列:第25页/共40页26销售数据的4-D4-D数据立方体表示:维是时间、类型、地区、供应商;所显示的度
14、量为万元时间时间类型类型供应商供应商1 1供应商供应商2 2供应商供应商3 3类型类型类型类型地区地区Q1Q1Q2Q2Q3Q3Q4Q4南京南京北京北京上海上海计算机计算机安全安全家庭娱乐家庭娱乐电话电话计算机计算机安全安全家庭娱乐家庭娱乐电话电话计算机计算机安全安全家庭娱乐家庭娱乐电话电话605 82514400第26页/共40页273.3.1 数据立方体由表到数据立方体 按此法继续下去,可把任意N-D数据立方体表示成(N-1)-D数据立方体序列。 数据立方体是对多维数据存储的一种比喻,这种数据的实际物理存储不同于它的逻辑表示。重要的是数据立方体是N维的,而不限于3-D。第27页/共40页28
15、3.3.2多维数据分析的基本操作1.切片定义1:在给定数据立方体的一个维上进行选 择,导致一个子方的操作称为切片操 作。定义2:选定多维数组的一个二维子集的动作 叫作切片。第28页/共40页29切片切片广州广州上海上海北京北京南京南京计算机计算机安全安全家庭娱乐家庭娱乐电话电话605 825 14 400类型类型城市城市Q1Q1Q2Q2Q3Q3Q4Q4计算机计算机安全安全家庭娱乐家庭娱乐电话电话南京南京北京北京上海上海广州广州6056058258251440040039539515601560440440地区地区( (城市城市) )时间时间( (季季) )类型类型【例1】对时间维的切片操作,它
16、对中心数据立方体使用条件:时间=“Q1”选择销售数据。第29页/共40页303.3.2多维数据分析的基本操作2.切块定义1:在给定数据立方体的两个或多个维上 执行选择,定义子方的操作称为切块 操作。定义2:选定多维数组的一个三维子集的动作 称为切块。第30页/共40页31【例2】涉及三个维的切块,条件为:(地点=“南京”OROR“北京”)ANDAND(时间=“Q1”OROR“Q2”)ANDAND(类型=“家庭娱乐”OROR“计算机”)Q1Q1Q2Q2Q3Q3Q4Q4计算机计算机安全安全家庭娱乐家庭娱乐电话电话南京南京北京北京上海上海广州广州605825144003951560440地区地区(
17、(城市城市) )时间时间( (季季) )类型类型切块切块计算机计算机家庭娱乐家庭娱乐Q1Q1Q2Q2南京南京北京北京605395第31页/共40页323.3.2多维数据分析的基本操作3.旋转 改变一个页面显示的维方向的操作称为旋转(或转轴)。第32页/共40页33广州广州上海上海北京北京南京南京计算机计算机安全安全家庭娱乐家庭娱乐电话电话605 825 14 400类型类型城市城市广州广州上海上海北京北京南京南京计算机计算机安全安全家庭娱乐家庭娱乐电话电话类型类型城市城市40014825605旋转旋转【例3】类型和地区在一个2-D2-D切片上转动。第33页/共40页343.3.2多维数据分析的
18、基本操作4.上卷 通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,称为上卷操作。 【例4】在中心数据立方体的地区维层次向上攀升,执行上卷操作。(这个分层被定义为全序:县城市州或省国家)第34页/共40页35Q1Q1Q2Q2Q3Q3Q4Q4计算机计算机安全安全家庭娱乐家庭娱乐电话电话南京南京北京北京上海上海广州广州605825144003951560440地区地区( (城市城市) )Q1Q1Q2Q2Q3Q3Q4Q4计算机计算机安全安全家庭娱乐家庭娱乐电话电话江苏省江苏省广东省广东省地区地区(省)(省)按地区上卷按地区上卷( (城市到省城市到省) )上卷上卷第35页/共40页363.3.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新闻记者职业资格考试新闻基础知识模拟试卷及答案解析一
- 2025年7月份三级培训教育考试卷及答案
- 2025年智能制造与工业互联网考试试题及答案
- 本册综合教学设计-2025-2026学年小学心理健康一年级上册教科版
- Unit 4 The Earth 第1课时 Reading 教学设计 2025学年沪教版英语七年级上册
- 全国质量月宣传活动口号与宣传语大全
- 任务三 发布动画作品 说课稿 -2024-2025学年桂科版初中信息技术八年级上册
- 广东省珠海市工厂消防安全测试题四(含答案)
- 11全包围的字教学设计小学书法苏少版五年级下册-苏少版
- 安徽省芜湖市工厂消防安全测试题十六(含答案)
- 中医基础理论知识竞赛题库及答案(300题)
- AQ7011-2018《高温熔融金属吊运安全规程》
- (高清版)AQ 2013.2-2008 金属非金属地下矿山通风技术规范 局部通风
- 译林版五年级上册英语Unit 2《A new student》单元话题阅读理解专项练习(含答案)
- 创伤急救(中医骨伤科学十三五教材)
- 食材配送服务方投标方案(技术标)
- 《社会学概论》教案
- v60呼吸机的使用与维护
- 论语全文带拼音
- 温病常用诊法舌诊课件
- 盆腔炎性疾病和生殖器结核专家讲座
评论
0/150
提交评论