版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章
在线分析处理01OLAP简介OLAP产生的原因美团点评的OLAP应用OLAP基本概念OLAP的特性OLAP的应用OLAP产生的原因累计数据激增增加了提取信息的难度联机事务处理系统对于分析处理的功能令人不满数据仓库促进OLAP技术的发展OLAP产生的原因美团点评的OLAP应用即席查询:指用户通过手写SQL来完成一些临时的数据分析需求。固化查询:指对一些固化下来的取数、看数的需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。HIVE维度组合的聚合成本高数据导入和查询速度慢集群的计算压力大OLAP美团点评的OLAP应用MPP搜索引擎架构预计算系统Kylin有很好的数据量和灵活性支持,但是对响应时间是没有保证的。牺牲了灵活性换取很好的性能,在搜索类查询上能做到亚秒级响应。进一步牺牲灵活性换取性能,以实现对超大数据集的秒级响应。联机事务处理
与联机分析处理OLAP概念OLAP委员会的定义:OLAP(联机分析处理)
:是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术OLAP的目标:满足决策支持或多维环境特定的查询和报表需求OLAPOLAP相关概念度量:度量表示用来聚合分析的数字信息,度量的集合组合成了一个特殊的维度。(如数量、销售额、利润等)维度:维度是一组属性,表示与多维数据集中度量值相关的领域,并且用于分析多维数据集中的度量值。维的成员:一个成员是维度(包括度量)上的项目值。度量维度维的成员OLAP基本概念多维数据集(Cube)Cube是指一组用于分析数据的相关度量值和维度,是分析服务中存储和分析的基本单位。Cube是聚合数据的集合,允许查询并快速返回结果。Cube就像一个坐标系,每一个Dimension代表一个坐标系,要想得到一个一个点,就必须在每一个坐标轴上取得一个值,而这个点就是Cube中的Cell。如下图所示。Cube能够包含不同维度的度量值,因此Cube有时也称为统一维度模型。维度的创建省市县产品系列大类小类厂商产品产地分类厂商日期年季度月日OLAP特性用户对OLAP的快速反应能力有很高的要求OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。快速性可分析性多维性信息性OLAP应用如食品的生产商、服装厂。通常每月或者每周都会对市场的经营状况和产品的销售情况分析一次。生活消费品行业零售业金融服务业点击流分析如各大超市、连锁店,面临的主要问题是数据量巨大。如银行、保险业,OLAP主要用来对金融产品的销售情况进行分析,分析时要具体到每个客户。电子商务网站通常都会通过日志的形式记录客户在网上的所有行为,为更精细地分析用户行为提供了可能。小试牛刀抢答加分环节1.OLAP产生的原因(
)A、累计数据激增
B、不够满意的联机事务处理系统C、数据仓库的发展
D、满意的联机处理系统多选2.OLAP的相关概念中有(
)A、度量
B、维的成员C、多维数据集
D、维度3.OLAP特性包括(
)A.快速性B.可分析性C.多维性D.信息小试牛刀抢答加分环节多选02OLAP多维数据分析OLAP多维分析切片切块钻取旋转OLAP多维分析多维分析多维分析是一种数据分析过程,在此过程中,将数据分成两类:维度和度量多维数据分析是以海量数据为基础的复杂数据分析技术查询结果直观易懂帮助企业制定方案,增加效益OLAP多维分析场景决策者可能想知道“A部门和B部门今年8月份和去年8月份在销售总额上的对比情况,并且销售额按10~20万、20~30万、30~40万,以及40万以上的分组”在实际决策过程中,决策者需要的数据往往不是某一指标单一的值,他们希望能从多个角度来观察一个或多个指标的值,并找出这些指标之间的关系。OLAP多维分析上卷下钻切块多维分析对数据的操作旋转切片多维数据分析可以对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,以便剖析数据,使得分析者、决策者能够从多个角度、多个侧面观察数据库中的数据,从而深入了解包含在数据中的信息和内涵,帮助其辅助决策。切片切片切块切块图B图A钻取钻取(Drill)
:钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,
钻取的深度与维所划分的层次相对应。上卷上卷是在数据立方体中执行聚集操作,通过在维度级别中上升或通过消除某个或某些维度来观察更概括的数据。图A图B钻取下钻下钻是通过在维度级别中下降或通过引入某个或某些维度来更细致的观察数据。图A图B旋转通过旋转可以得到不同视角的数据。将图A全球运输总额立方体通过旋转实现时间维和线路维的互换,旋转结果如下图B所示。图A图B1.构造多维数据的方法有(
)A.超立方结构B.多立方结构C.平面结构小试牛刀抢答加分环节多选2.多维数据分析可以对以多维形式组织起来的数据进行哪些操作?(
)A.上卷B.下钻C.切片D.切块和旋转03OLAP分类OLAP分类按数据存储格式划分关系OLAP多维OLAP混合型OLAPROLAP支持多维原始数据和汇总数据基于关系数据库的实现不存储数据副本,占用空间小存在的不足:由于ROLAP不存储源数据副本的特点,它最大的障碍就是从数据库中产生报表或处理多维数据时会影响操作类型数据库的使用,降低了事务执行的性能。MOLAPROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(VirtualOLAP)虚拟OLAPMOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。原理由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(PhysicalOLAP)物理OLAPROLAP和MOLAPRIDitem…daymonthquarteryeardollars_sold1001TV…1510Q42017250.61002TV…2310Q42017175……………………5001TV…all10Q4201745786.08数据怎样实际地存放在ROLAP和MOLAP结构中?我们首先看看ROLAP。如名称所示,ROLAP使用关系表存放联机分析处理数据。RID为1001和1002的元组数据在基本事实级,销售日期分别是2017年10月15日和2017年10月23日。RID为5001的元组,day的值被泛化为all,因此对应的time值为2017年10月,也就是说,显示的dollars_sold是一个聚集值。HOLAPROLAPMOLAPHOLAP在HOLAP中,原始数据和ROLAP一样存储在原来的关系数据库中,而聚合数据则以多维的形式存储。OLAP分类
ROLAPMOLAPHOLAP描述基于关系数据库的OLAP实现关系型数据库关系型数据库细节数据存储位置基于多维数据组织的OLAP实现数据立方体数据立方体聚合后数据存储位置基于混合数据组织的OLAP实现关系型数据库数据立方体效率查询效率最低空间换效率,查询时效率高查询效率比ROLAP高,但低于MOLAP聚合时间由于存储在关系型的数据库中聚合时间低生成cube时需要大量的时间和空间聚合时需要比ROLAP更多的时间具体使用过程中需要用到何种OLAP分析结构,需要针对业务的具体情况进行选择,ROLAP、MOLAP与HOLAP的对比情况如下表:多维数据模型-星型模型常见的模型:星型模型和雪花型模型。星型模型:当所有维度表连接到事实表上的时候,整个图就像一个星星,故称之为星型模型。雪花模型雪花模型:当有多个维度表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图形就像雪花,故称雪花模型。星型模型与雪花模型的对比星型模型和雪花模型对比:对比内容雪花模型
星型模型
数据优化规范化数据,消除冗余,其业务层级和维度都将存储在数据模型之中。反规范化数据,业务层级不会通过维度之间的参照完整性来部署。业务模型数据模型的业务层级是由一个不同维度表主键-外键的关系来代表的。所有必要的维度表在事实表中都只拥有外键。性能雪花模型在维度表、事实表之间的连接很多,因此性能方面会比较低。只需要将需要的维度表和事实表连接即可。ETL雪花模型加载数据集市,ETL操作在设计上更加复杂,而且由于附属模型的限制,不能并行化。星型模型加载维度表,不需要再维度之间添加附属模型,ETL就相对简单,而且可以实现高度的并行化。事实星座复杂的应用可能需要多个事实表共享维表。这种模型可以看做星型模型的汇集,因此称做星系模型或事实星座。OLAP与OLTP区别VS“OLTP”“OLAP”OLAP是面向市场的,用于数据分析OLAP采用星型或雪花模型和面向主题的数据库设计123OLTP是面向顾客的,用于事务和查询处理OLTP采用实体-联系ER模型和面向应用的数据库设计123OLTP系统管理当前数据OLAP系统管理大量历史数据,提供汇总和聚集机制OLTP系统的访问主要由短的原子事务组成4OLAP系统的访问大部分是只读操作4ROLAP、MOLAP与HOLAP的性能对比具体使用过程中需要用到何种OLAP分析结构,需要针对业务的具体情况进行选择,ROLAP、MOLAP与HOLAP的对比情况如下表所示:ROLAPMOLAPHOLAP描述基于关系数据库的OLAP实现关系型数据库关系型数据库细节数据存储位置基于多维数据组织的OLAP实现数据立方体数据立方体聚合后数据存储位置基于混合数据组织的OLAP实现关系型数据库数据立方体效率查询效率最低空间换效率,查询时效率高查询效率比ROLAP高,但低于MOLAP聚合时间由于存储在关系型的数据库中聚合时间低生成cube时需要大量的时间和空间聚合时需要比ROLAP更多的时间ROLAP体系结构ROLAPServer采用多维数据组技术存储数据,并对稀疏数据采用压缩技术处理,提供切片、切块和旋转等分析操作。稀疏数据是指,数据框中绝大多数数值缺失或者为零的数据。MOLAP体系结构MOLAP体系结构源于中间件技术和传统关系型数据库管理系统不具有较强的可伸缩性。以ROLAPServer为中间件,增加了ROLLUP、CUBE等操作,扩充了SQL为MultipleSQL支持复杂的多维分析。HOLAP体系结构HOLAP体系结构集成了ROLAP的可伸缩性和MOLAP的快速计算的特点。将大量详细数据存放在关系型数据库中,聚集数据存放在MOLAP中。1.关于星型模型的特性,说法错误的是:(
)A.反规范化数据,业务层级不会通过维度之间的参照完整性来部署。B.所有必要的维度表在事实表中都只拥有外键。C.只需要将需要的维度表和事实表连接即可。D.ETL操作在设计上更加复杂,而且由于附属模型的限制,不能并行化。小试牛刀抢答加分环节单选2.下述选项的特性中哪个是关于雪花模型的:(
)A.在维度表、事实表之间的连接很多,因此性能方面会比较低。B.星型模型加载维度表,不需要在维度之间添加附属模型,ETL就相对简单,而且可以实现高度的并行化。C.反规范化数据,业务层级不会通过维度之间的参照完整性来部署。D.所有必要的维度表在事实表中都只拥有外键。3.关于OLTP与OLAP的区别,说法正确的是(
)A.前者是细节性数据,后者是综合性和提炼性数据B.前者是当前值数据,后者是历史数据C.前者不可更新但周期性刷新,后者可更新D.前者一次处理的数据量小,后者一次处理的数据量大小试牛刀抢答加分环节多选4.关于星型模型的说法中错误的是(
)A.规范化数据,消除冗余,其业务层级和维度都将存储在数据模型之中。B.数据模型的业务层级是由一个不同维度表主键-外键的关系来代表的。C.星型模型在维度表、事实表之间的连接很多,因此性能方面会比较低。D.星型模型加载数据集市,ETL操作在设计上更加复杂,而且由于附属模型的限制,不能并行化。小试牛刀抢答加分环节多选小试牛刀抢答加分环节多选5.关于雪花模型的说法中正确的是()A.规范化数据,消除冗余,其业务层级和维度都将存储在数据模型之中。B.数据模型的业务层级是由一个不同维度表主键-外键的关系来代表的。C.雪花模型在维度表、事实表之间的连接很多,因此性能方面会比较低。D.雪花模型加载数据集市,ETL操作在设计上更加复杂,而且由于附属模型的限制,不能并行化。04主流OLAP工具主流OLAP产品IBMCognosPowerplayOracleEssbaseMicrosoftSSASMicroStrategyIBMCognosPowerplay轻松自如地探察数据简便直观的显示方式和趋势分析快速高效地访问信息灵活的部署能力强有力的立方体创建高效的OLAP分析与报表HyperionEssbase以服务器为中心的分布式体系结构具有几百个计算公式快速的响应时间,支持多用户同时读写
有300多个用Essbase作为平台的开发商用户可以自己构件复杂的查询支持多种财务标准MicrosoftSSASMicrosoftSSAS是用于SQLServer数据库用于BI的组件,通过SSAS可以创建多维数据库,并在之上进行数据挖掘操作SSASSSAS采用类似数组的结构,避免了连接操作,提高分析性能;提供一组存储过程语言来支持对数据的抽取;用户可通过Web和电子表格使用;灵活的数据组织方式,数据可以存放在;有内建的分析函数和4GL用户自己定制查询MicroStrategy核心的智能服务器是提供报表、分发、和多维分析服务的组件,同时也提供集群和多数据源的选项,用户可以用桌面来开发报表,一般是IT用户使用,也可以利用Web用户来开发,一般比较适合最终用户。开放的API(包括COM、XML、Java)零客户端的web前端展现工具支持大量用户及大数据量访问,支持TB级数据适合二次开发以及大量复杂二次运算OLAP工具比较比较项目CognosPowerPlayEssbaseSSASMicroStrategy产品价格价格中等价格最高价格最低价格中等市场份额用户数量最多大型企业BI项目大型企业BI项目加入中国较晚开发应用轻便、快捷界面友好、上手迅速部署复杂较为复杂几大主流OLAP产品各有优缺点,接下来对这几种主流OLAP工具从产品价格、市场份额和开发应用三个方面进行比较:OLAP实现步骤
01明确问题
02选择工具
03方案实施经济性不论各种影响工具选择的因素如何,不论你为自己还是为他人建立模型,也不论你是采用快速原型法还是在实现前先设计逻辑模型,你都需要经过几个独立的步骤来定义立方体、维、层次、成员、公式和数据链接,这些过程我们称为模型建立步骤。用户需求一组分析人员访问的是同一个工作表,或者访问许多个不同但又部分重叠的工作表;所分析的数据在一个可直接访问的数据仓库,或者是几个互联的数据库内,或在一个数据集市内;只有一个作为数据仓库的SQL关系数据库服务器,但在客户端有一堆SQL报表撰写工具需求调研需求文档定义模型定义OLAP解决方案的最常见顺序是直接在OLAP软件内从关系数据库内的星形结构的数据开始。典型的情况可能是把数据存放在一个或多个事实表及其关联的维表内。然后在OLAP环境内,数据仓库的数据被链接到OLAP模型,模型中建立了维表和OLA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年经济法案例分析企业法律风险防范与应对策略题库
- 2026年股票投资基础考试题与详细答案解析
- 外贸财务知识
- 2026年绵阳飞行职业学院单招综合素质笔试参考题库含详细答案解析
- 2026年长春医学高等专科学校单招综合素质考试参考题库含详细答案解析
- 2026年河南职业技术学院单招综合素质笔试参考题库含详细答案解析
- 2026年贵阳幼儿师范高等专科学校单招综合素质笔试备考试题含详细答案解析
- 2026年鹤壁能源化工职业学院单招职业技能考试模拟试题含详细答案解析
- 2026年广州城建职业学院单招职业技能考试参考题库含详细答案解析
- 2026年江苏财会职业学院单招综合素质考试参考题库含详细答案解析
- x探伤安全管理制度
- 财政分局对账管理制度
- 喷水机车间管理制度
- 云师大附中 2026 届高三高考适应性月考(一)-地理试卷(含答案)
- 高中数学北师大版讲义(必修二)第05讲1.5正弦函数、余弦函数的图象与性质再认识3种常见考法归类(学生版+解析)
- 商业银行反洗钱风险管理自评估制度研究
- 2025年度法院拍卖合同模板:法院拍卖拍卖保证金退还合同
- 海关特殊监管区域专题政策法规汇编 2025
- 《浙江省城市体检工作技术导则(试行)》
- 人教统编版(部编版)小学科学教材目录
- DB34∕T 1555-2011 存量房交易计税价格评估技术规范
评论
0/150
提交评论