版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与olap分析高级数据库技术课程讲义郭玉彬数据仓库与数据仓库与OLAP分析分析n数据仓库原理与实现技术数据仓库原理与实现技术nETL原理与实现技术原理与实现技术数据仓库原理与实现技术数据仓库原理与实现技术 技术现状技术现状2019年年olap技术开展:技术开展: Microsoft收买专业开发企业分析软件的收买专业开发企业分析软件的ProClarity,还发布了,还发布了PerformancePoint Server 2019 Oracle发布了具有内嵌发布了具有内嵌OLAP功能的数功能的数据库产品据库产品10g,以及在,以及在2019年收买了专年收买了专业的业的BI公司公司Hyper
2、ion数据仓库原理与实现技术数据仓库原理与实现技术 技术现状技术现状数据仓库原理与实现技术数据仓库原理与实现技术 技术现状技术现状nOracle的数据仓库处理方案的数据仓库处理方案nOracle Express:nOracle Express Server是一个是一个MOLAP (多维多维OLAP)效效力器力器nOracle Express Web Agent支持基于支持基于Web的动态多维的动态多维数据展现数据展现nOracle Express Objects前端数据分析工具,提供图形前端数据分析工具,提供图形化建模和假设分析功能,支持可视化开发和事件驱动化建模和假设分析功能,支持可视化开发
3、和事件驱动编程技术,提供兼容编程技术,提供兼容Visual Basic语法的言语,支持语法的言语,支持OCX和和OLE;nOracle Express Analyzer是通用的、面向最终用户的是通用的、面向最终用户的报告和分析工具目前仅支持报告和分析工具目前仅支持Windows平台。平台。nOracle Discoverer即席查询工具是专门为最终用户设即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。计的,分为最终用户版和管理员版。 数据仓库原理与实现技术数据仓库原理与实现技术 技术现状技术现状nMicrosoft将将OLAP功能集成到功能集成到Microsoft SQL Ser
4、ver 7.0中,提供可扩展的基于中,提供可扩展的基于COM的的OLAP接口。它经过一系列效力接口。它经过一系列效力程序支持数据仓库运用。程序支持数据仓库运用。 nSybaseWarehouse Studion 包括数据仓库的建模、数据抽取与转包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及换、数据存储与管理、元数据管理以及可视化数据分析等工具。可视化数据分析等工具。数据仓库原理与实现技术数据仓库原理与实现技术 技术现状技术现状nIBM:基于可视数据仓库的商业智能基于可视数据仓库的商业智能BI处处理方案,包括:理方案,包括:Visual WarehouseVW、Essbase
5、/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具,以及来自第三方的前端数据展现工具如如BO和数据发掘工具如和数据发掘工具如SAS。nBusiness ObjectsBO是集查询、报表和是集查询、报表和OLAP技术为一身的智能决策支持系统。技术为一身的智能决策支持系统。 nSAS公司公司90年代参与数据仓库市场的竞争,并年代参与数据仓库市场的竞争,并提供了特点鲜明的数据仓库处理方案,包括提供了特点鲜明的数据仓库处理方案,包括30多个公用模块。多个公用模块。数据仓库原理与实现技术数据仓库原理与实现技术 系统分层构系统分层构造图造图数据层各种数据源计
6、算层关系数据库XML 文本文件透视表效力数据发掘其它可视化控制层呈现层系统总体架构图数据仓库原理与实现技术数据仓库原理与实现技术 -模块划分模块划分n元数据MetaDatan数据立方体估计算PreComputationn数据立方体查询QueryComputationnMDX解析MDXParsernXMLA引擎EnginenETL数据仓库原理与实现技术数据仓库原理与实现技术 -模块划分模块划分n元数据MetaDatan数据立方体估计算PreComputationn数据立方体查询QueryComputationnMDX解析MDXParsernXMLA引擎EnginenETL数据仓库原理与实现技术数
7、据仓库原理与实现技术 -元数据管元数据管理理n技术现状nOMG 组织的CWM 规范(Common Warehouse Metamodel) n 一个特定于数据仓库领域的元数据模型集,它独立于详细数据仓库的实现,包含了各类有代表性的数据仓库元数据的有效描画。已被IBM、UNISYS、NCR、 Hyperion 、Oracle 等多家公司支持。n较成熟的元数据管理处理方案 nMicrosoft 的Meta Data Servicen Sybase 的WCC 数据仓库原理与实现技术数据仓库原理与实现技术 -元数据管元数据管理理数据仓库原理与实现技术数据仓库原理与实现技术 -元数据管元数据管理理n元数
8、据业务流程图解析XML文件XMl 文件XML解析器元数据对象容器创建元数据对象数据库或文本加载成员信息数据仓库原理与实现技术数据仓库原理与实现技术 -模块划分模块划分n元数据MetaDatan数据立方体估计算PreComputationn数据立方体查询QueryComputationnMDX解析MDXParsernXMLA引擎EnginenETL数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体估数据立方体估计算计算估计算:估计算:估计算指将维度不同的组合即方体对应的聚集值预估计算指将维度不同的组合即方体对应的聚集值预先计算出来。估计算的关键是要减少数据立方体的存先计算出来。估计算的关
9、键是要减少数据立方体的存储空间和计算时间。当前研讨的算法主要分类如下:储空间和计算时间。当前研讨的算法主要分类如下:1选择物化:即选择关键方体进展计算。例如:选择物化:即选择关键方体进展计算。例如:iceberg cube、star cube2紧缩技术:即将数据立方体的存储空间进展一定的紧紧缩技术:即将数据立方体的存储空间进展一定的紧缩。例如:缩。例如:condensed cube、dwarf cube、quotient cube、closed cube、approximate cubes3分区技术:垂直分区及程度分区。例如:分区技术:垂直分区及程度分区。例如:frag cube4并行技术:例
10、如:并行技术:例如:pipesort算法、算法、LeastBenefitFirst算算法法 数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体估数据立方体估计算计算估计算模块:根据估计算模块:根据Cube对象读取其对应的数据源信息,对象读取其对应的数据源信息,从而获得相应的现实表和维表,并做聚集计算。主要从而获得相应的现实表和维表,并做聚集计算。主要功能为:功能为:支持维及层次上的聚集。支持维及层次上的聚集。完成的聚集函数:完成的聚集函数:sum、count、avg、max、min。可以集成可以集成“元数据模块接口读取立方体信息以及数据源元数据模块接口读取立方体信息以及数据源信息,并加
11、载相应的根本表和维表。信息,并加载相应的根本表和维表。支持支持MOLAP及及ROLAP下的估计算。下的估计算。支持多核和集群的并行计算支持多核和集群的并行计算数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体估数据立方体估计算计算立方体类型:立方体类型:常规立方体:为输入数据的聚合定义的框常规立方体:为输入数据的聚合定义的框 架构造架构造虚拟立方体:是一个或多个常规虚拟虚拟立方体:是一个或多个常规虚拟 立方体的衔接视图立方体的衔接视图组成:任何立方体的任何维组成:任何立方体的任何维优点:优点:可以处理常规立方体遇到的问题可以处理常规立方体遇到的问题可以处理平安性问题可以处理平安性问题在
12、常规立方体中被禁用的维级可以在虚拟立在常规立方体中被禁用的维级可以在虚拟立方体中启用方体中启用数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体估数据立方体估计算计算数据立方体存储:数据立方体存储:分区:实现数据的逻辑分段减少反复数分区:实现数据的逻辑分段减少反复数 据和去除重要数据据和去除重要数据立方体数据构造可以存储到一个或多个分区上立方体数据构造可以存储到一个或多个分区上每个分区可以运用不同的存储方式每个分区可以运用不同的存储方式ROLPA、MOLAP、HOLAP分区可以组合分区可以组合优点:有助于数据构造进展管理和协调优点:有助于数据构造进展管理和协调数据仓库原理与实现技术数据
13、仓库原理与实现技术 -数据立方体估数据立方体估计算计算数据更新方式:数据更新方式:增量更新增量更新将新数据添加到立方体中的分区并更新聚合。不处置将新数据添加到立方体中的分区并更新聚合。不处置对立方体构造度量值、维度等或对其现有源数对立方体构造度量值、维度等或对其现有源数据的更改。新数据创建暂时分区并把它合并到现有据的更改。新数据创建暂时分区并把它合并到现有分区。分区。刷新刷新去除并重新加载立方体数据,并重新计算它的聚合。去除并重新加载立方体数据,并重新计算它的聚合。在立方体源数据已更改、但其构造未更改的情况下在立方体源数据已更改、但其构造未更改的情况下运用。运用。完全处置完全处置在当前定义根底
14、上完全重新构造立方体,然后重新计在当前定义根底上完全重新构造立方体,然后重新计算它的数据。算它的数据。数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体估数据立方体估计算计算索引技术:索引技术:位图索引最常用的一种索引位图索引最常用的一种索引减少大级别特别查询的呼应时间;减少大级别特别查询的呼应时间;减少对存储空间占用;减少对存储空间占用;在在CPU和内存资源相对较少时,仍大幅度提升性能;和内存资源相对较少时,仍大幅度提升性能;运用并行运用并行DML或或LOAD时,索引维护高效。时,索引维护高效。 适用于集势选择性较低的列适用于集势选择性较低的列 。BTREE索引运用较少索引运用较少主
15、要用在独一或接近独一的列上。主要用在独一或接近独一的列上。1反转索引列表等其它索引技术反转索引列表等其它索引技术数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体估数据立方体估计算计算构造技术:构造技术:Iceberg对进入数据立方体的元组施加了限对进入数据立方体的元组施加了限制条件制条件,减少了数据立方体的元组个数减少了数据立方体的元组个数.Condensed Cube, Quotient Cube和和Dwarf,其根本思想都是经过共享元组来紧缩数其根本思想都是经过共享元组来紧缩数据立方体的体积据立方体的体积,而且不需求实时计算而且不需求实时计算. 封锁数据立方体的概念封锁数据立方体
16、的概念数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体估数据立方体估计算计算封锁数据立方体的概念封锁数据立方体的概念一个单元一个单元c是封锁的假设没有其它单元是封锁的假设没有其它单元c满足以下满足以下条件:条件:1c可由可由c上卷而来;并且上卷而来;并且2c与与c聚集值相等聚集值相等封锁立方体封锁立方体Closed Cube是指只包含封锁单元是指只包含封锁单元的数据立方体。的数据立方体。注:商立方体注:商立方体Quotient Cube与封锁立方体概与封锁立方体概念等价,封锁单元在商立方体中称为上界念等价,封锁单元在商立方体中称为上界数据仓库原理与实现技术数据仓库原理与实现技术 -模
17、块划分模块划分n元数据MetaDatan数据立方体估计算PreComputationn数据立方体查询QueryComputationnMDX解析MDXParsernXMLA引擎EnginenETL数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体数据立方体查询查询概念:概念:点查询:查询条件是值的查询;点查询:查询条件是值的查询;范围查询:查询条件不是值,而是范围的查询;范围查询:查询条件不是值,而是范围的查询;冰山查询:冰山查询,查询度量值大于某个阈值,如冰山查询:冰山查询,查询度量值大于某个阈值,如select R1, R2 from T group by R1 having co
18、unt(*)=n, 阈值为阈值为n增量维护:对根底数据变化后的更新维护;增量维护:对根底数据变化后的更新维护;封锁立方体算法:一种封锁立方体算法:一种QC的改良算法;的改良算法;完全物化:生成一切能够的聚集;完全物化:生成一切能够的聚集;QC立方体:快速产生聚集的集合;立方体:快速产生聚集的集合;QC-tree:一种快速聚集实现:一种快速聚集实现QC的算法;的算法;覆盖集:覆盖集:t可以上卷到可以上卷到c,那么,那么c覆盖覆盖t;c的覆盖集为满足条的覆盖集为满足条件的件的t的集合;的集合;上界集上界集:对聚集的每个对聚集的每个cell分类分类,归类的最细粒度的归类的最细粒度的cell集集下界集
19、下界集:对聚集的每个对聚集的每个cell分类分类,归类的最粗粒度的归类的最粗粒度的cell集集数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体数据立方体查询查询根据其查询要求对上界集进展点查询和范围查询操作。主要功能:封锁立方体查询算法:主要是分层查询的思想,采用了反转表、位图等方式实现。完全立方体查询算法:基于ROLAP上被完全物化视图的查询。不计算立方体的查询算法:即直接把MDX查询转化为对根本表的SQL查询。 数据仓库原理与实现技术数据仓库原理与实现技术 -数据立方体数据立方体查询查询n业务流程图有结果无 结 果有结果无结果输入处置输出数据仓库原理与实现技术数据仓库原理与实现技
20、术 -模块划分模块划分n元数据MetaDatan数据立方体估计算PreComputationn数据立方体查询QueryComputationnMDX解析MDXParsernXMLA引擎EnginenETL数据仓库原理与实现技术数据仓库原理与实现技术 -MDX解析解析nMDX (MultiDimensional Expressions)是一种用来处置多维是一种用来处置多维数据存储,支持多维数据存储,支持多维 对象与数据的定义和操作的言对象与数据的定义和操作的言语。语。nMDX语句语句nSELECT Measures.Sales, Measures.Units ON COLUMNS, n Time
21、. 2000.Q1, Time. 2000.Q2 ON ROWS nFROM SalesnWHERE ( CITY.上海上海 ) SalesUnits2000Q1825100Q249658数据仓库原理与实现技术数据仓库原理与实现技术 -MDX解析解析MDX根本语法根本语法SELECT , FROM WHERE (slicer_specification )被定义成:被定义成:NON EMPTY ON 被定义成:被定义成:COLUMNS / ROWS /PAGES / SECTIONS / CHAPTERS / AXIS(0) AXIS(1) AXIS(2) AXIS(3) AXIS(4)数据仓
22、库原理与实现技术数据仓库原理与实现技术 -MDX解析解析nMDX解析器的构造图解析器的构造图数据仓库原理与实现技术数据仓库原理与实现技术 -MDX解析解析n由由LEX和和YACC构成的编译器框架构成的编译器框架数据仓库原理与实现技术数据仓库原理与实现技术 -模块划分模块划分n元数据MetaDatan数据立方体估计算PreComputationn数据立方体查询QueryComputationnMDX解析MDXParsernXMLA引擎EnginenETL数据仓库原理与实现技术数据仓库原理与实现技术 -XMLA引擎引擎nXML for Analysis 以下简称以下简称XMLA是是Microsof
23、t公司与公司与Hyperion Solutions公司所倡公司所倡导的规范组织制定的数据通用访问规范,其导的规范组织制定的数据通用访问规范,其扩展了扩展了 OLE DB 的概念,提供对的概念,提供对 Web 上一切上一切规范数据源的规范化通用数据访问,而无需规范数据源的规范化通用数据访问,而无需对提供对提供 COM 接口的客户端组件进展部署。接口的客户端组件进展部署。n 规范建立在规范建立在 、XML 和和 SOAP 等开放式等开放式 Internet 规范之上,不受任何详细言语或技术规范之上,不受任何详细言语或技术的限制的限制 数据仓库原理与实现技术数据仓库原理与实现技术 -XMLA引擎引擎
24、XMLA规范具有以下特点:规范具有以下特点:1、为远程数据访问提供程序可通用于、为远程数据访问提供程序可通用于 Internet 或或 Intranet,提供多维数据提供规范数据访问提供多维数据提供规范数据访问 API。2、优化无形状构造,不要求、优化无形状构造,不要求 Web 客户端组件,往返调用最少。客户端组件,往返调用最少。3、支持运用任何工具、编程言语、技术、硬件平台或设备的、支持运用任何工具、编程言语、技术、硬件平台或设备的、与技术无关的实现过程。与技术无关的实现过程。4、建立在开放式、建立在开放式 Internet 规范如规范如 SOAP、XML 和和 之上。之上。5、利用并反复运
25、用胜利的、利用并反复运用胜利的 OLE DB 设计概念,使设计概念,使 OLE DB for OLAP 运用程序和运用程序和 OLE DB 提供程序可轻松采用提供程序可轻松采用 XML for Analysis。6、高效运用规范数据源如关系型、高效运用规范数据源如关系型 OLAP 和数据发掘。和数据发掘。数据仓库原理与实现技术数据仓库原理与实现技术 -XMLA引擎引擎XMLA引擎功能:引擎功能:实现实现XML/A协议:向协议:向JPivot提供提供OLAP元元数据和数据和OLAP查询结果;查询结果;SOAP效力器和效力器和HTTP效力器:为了支持效力器:为了支持XML/A协议,实现协议,实现S
26、OAP协议的封装和协议的封装和提供提供HTTP恳求呼应的效力器;恳求呼应的效力器;XMLA模模块块构构造造图图数据仓库原理与实现技术数据仓库原理与实现技术 -模块划分模块划分n元数据MetaDatan数据立方体估计算PreComputationn数据立方体查询QueryComputationnMDX解析MDXParsernXMLA引擎EnginenETL数据仓库原理与实现技术数据仓库原理与实现技术 -ETLnETLExtraction-Transformation-Loading,数据抽取、转换和加载过程,担任从异构数据源抽取数据、进展预设的转换清洗并加载到目的数据仓库。nExtraction
27、数据抽取,指从RDB等原始系统中抽取数据的过程;nTransformation and Transportation数据转换与数据传送,这里暗指了ETL所包含的控制流与数据流两种概念以及两种过程;nLoading数据装载,指把转换及处置后的数据装载到目的数据仓库的过程;ETL业务流程ETL整整体体架架构构ETL阐明阐明nETL操作主要有以下操作主要有以下12种:抽取操作、加载种:抽取操作、加载操作、过滤操作、投影操作、清洗操作、聚操作、过滤操作、投影操作、清洗操作、聚集操作、衔接操作、排序操作、集合操作、集操作、衔接操作、排序操作、集合操作、字段拆分操作、字段合并操作、序列生成操字段拆分操作、字段合并操作、序列生成操作。作。n以任务流方式组织执行以任务流方式组织执行 n元数据:元数据:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工方案中的难点(3篇)
- 智能产品营销方案范文(3篇)
- 桥桩反循环施工方案(3篇)
- 水果糖营销方案(3篇)
- 泰康之家营销方案(3篇)
- 清理洗脑油罐施工方案(3篇)
- 电缆施工方案怎么写(3篇)
- 管道及道路施工方案(3篇)
- 美发裂变营销方案策划(3篇)
- 装修公司营销引流方案(3篇)
- 病历书写基本规范2025
- 蛋糕加工技术-慕斯蛋糕制作工艺
- 医疗器械借用合同范例
- 雨棚整体吊装施工方案
- 2025年高中自主招生模拟考试数学试卷试题(含答案详解)
- 《祝福》教学设计 统编版高中语文必修下册
- 2024-2034年全球及中国智能运动器材和设备(SSDE)行业市场发展分析及前景趋势与投资发展研究报告
- ISO28000:2022供应链安全管理体系
- 人教版六年级数学下册全册分层作业设计含答案
- CCS船舶建造检验流程课件
- 超声波UTⅠ级考试题库
评论
0/150
提交评论