数据立方体模型总结.docx_第1页
数据立方体模型总结.docx_第2页
数据立方体模型总结.docx_第3页
数据立方体模型总结.docx_第4页
数据立方体模型总结.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据立方体模型总结数据立方体认识定义:数据立方体是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个因素(维度)。数据立方体模型属于数据仓库的多维数据模型。意义:当我们试图从一堆数据中提取信息时,我们需要工具来帮助我们找到那些有关联的和重要的信息,以及探讨不同的情景。一份报告,不管是印在纸上的还是出现在屏幕上,都是数据的二维表示,是行和列构成的表格。在我们只有两个因素要考虑时,这就足矣,但在真实世界中我们需要更强的工具。数据立方体模型在预测趋势和分析业绩时,数据立方体是极其有用的。数据立方体的构成:数据立方体由两个单元构成1) 维度:因素2) 测度:实际的数据值建立数据立方体模型的方法(OLAP)OLAP(On-line Analytical Processing,联机分析处理)是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。(拓展)当今数据处理大致分为两类:OLAP(On-line Analytical Processing,联机分析处理) OLTP(On-line Transaction Processing,联机事务处理),两者的区别:OLAP与OLTP数据处理类型OLTPOLAP面向对象业务开发人员分析决策人员功能实现日常事务处理面向分析决策数据模型关系模型多维模型数据量几条或几十条记录百万千万条记录操作类型查询、插入、更新、删除查询为主OLAP的基本操作我们已经知道OLAP的操作是以查询也就是数据库的SELECT操作为主,但是查询可以很复杂,比如基于关系数据库的查询可以多表关联,可以使用COUNT、SUM、AVG等聚合函数。OLAP正是基于多维模型定义了一些常见的面向分析的操作类型是这些操作显得更加直观。OLAP的多维分析操作包括:钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot),下面还是以上面的数据立方体为例来逐一解释下:钻取(Drill-down):在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据,比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据,如上图;当然也可以钻取浙江省来查看杭州市、宁波市、温州市这些城市的销售数据。上卷(Roll-up):钻取的逆操作,即从细粒度数据向高层的聚合,如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据,如上图。切片(Slice):选择维中特定的值进行分析,比如只选择电子产品的销售数据,或者2010年第二季度的数据。切块(Dice):选择维中特定区间的数据或者某批特定值进行分析,比如选择2010年第一季度到2010年第二季度的销售数据,或者是电子产品和日用品的销售数据。旋转(Pivot):即维的位置的互换,就像是二维表的行列转换,如图中通过旋转实现产品维和地域维的互换。OLAP的类型(根据存储方式的不同进行分类)根据多维数据模型存储方式不同,OLAP主要可以分为三类:基于多维数据库OLAP(MOLAP),基于关系数据库的OLAP(ROLAP)和混合型的HOLAP。1MOLAPMOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成立方块(Cube)的结构,在MOLAP中对立方块的旋转、切块、切片是产生多维数据报表的主要技术。特点是将细节数据和聚合后的数据均保存在cube中,所以以空间换效率,查询时效率高,但生成cube时需要大量的时间和空间。2ROLAPROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了星型模式。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模式。特点是将细节数据保留在关系型数据库的事实表中,聚合后的数据也保存在关系型的数据库中。这种方式查询效率最低,不推荐使用。3 HOLAPHOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。由于MOLAP和ROLAP有着各自的优点和缺点,他们的结构也是迥然不同,这给分析人员设计OLAP结构提出难题。为此提出一个新的结构HOLAP(混合型olap),它能将MOLAP和ROLAP两种结构的优点结合起来。但是迄今为止还没能给HOLAP一个明确的定义。很明显HOLAP不是简单的MOLAP和ROLAP简单的有机结合,而是这两种技术的优点的集合,能满足用户各种的分析请求。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。特点是将细节数据保留在关系型数据库的事实表中,但是聚合后的数据保存在cube中,聚合时需要比ROLAP更多的时间,查询效率比ROLAP高,但低于MOLAP。RLOAP和MOLAP的区别:OLAP的衡量标准1.多维性2.直观性3.可访问性4.解释性批处理提取5.OLAP分析模型6.客户机/服务器结构性7.透明性或开放性8.多用户性9.处理非正规数据性10.存储OLAP结果11.提取丢失值12.处理丢失值13.弹性报告14.一致性能报告15.对物理层的自动调整16.通用维17.无限维与聚合层18.无限制跨维操作OLAP的实现数据库去实现的即时记录的功能,在数据准备区进行ETF处理,数据经过抽取、转换之后加载到数据仓库中,因此也说数据仓库是利用的已经存在的历史记录去整合,是利用原有数据分析下一步行动的决策,是有风险的。分析完主题和数据元后建立数据模型(概念模型、逻辑模型、物理模型)并形成事实表和纬度表,然后通过粒度分析将历史记录先抽取整合,然后再根据决策者可能用到的数据集合分解成若干记录,以备不同决策者使用;再利用OLAP工具技术进行数据的分析导出。当然,这些都在了解了管理者即客户的需求之后进行的,或者是由企业的管理者自己进行的技术应用或分析。OLAP的优势OLAP的优势是基于数据仓库面向主题、集成的、保留历史及不可变更的数据存储,以及多维模型多视角多层次的数据组织形式,如果脱离的这两点,OLAP将不复存在,也就没有优势可言。数据展现方式基于多维模型的数据组织让数据的展示更加直观,它就像是我们平常看待各种事物的方式,可以从多个角度多个层面去发现事物的不同特性,而OLAP正是将这种寻常的思维模型应用到了数据分析上。查询效率多维模型的建立是基于对OLAP操作的优化基础上的,比如基于各个维的索引、对于一些常用查询所建的视图等,这些优化使得对百万千万甚至上亿数量级的运算变得得心应手。分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论