




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021-10-22数据仓库最新课件1Data Mining: Concepts and Techniques Chapter 3 Jiawei HanDepartment of Computer Science University of Illinois at Urbana-Champaign2006 Jiawei Han and Micheline Kamber, All rights reserved2021-10-22数据仓库最新课件22021-10-22数据仓库最新课件3第三章 数据仓库与OLAP技术概述什么是数据仓库 多维数据模型设计仓库体系结构数据仓库实现从数据仓库到数据挖掘2
2、021-10-22数据仓库最新课件42.2.1 2.2.1 数据仓库的产生数据仓库的产生 数据仓库技术是随着人们对大型数据库系统研究的不断深入数据仓库技术是随着人们对大型数据库系统研究的不断深入,在传统数据库技术基础之上发展而来的在传统数据库技术基础之上发展而来的,其主要目的就是其主要目的就是为决策为决策提供支持提供支持,为为OLAP、数据挖掘深层次的分析提供平台、数据挖掘深层次的分析提供平台。 数据仓库是一个和实际应用密不可分的研究领域,与传统数数据仓库是一个和实际应用密不可分的研究领域,与传统数据库相比,数据仓库不仅引入了许多新的概念,而且在据库相比,数据仓库不仅引入了许多新的概念,而且在
3、体系结构、体系结构、数据组织数据组织等方面,均有其自身的特点。等方面,均有其自身的特点。什么是数据仓库?2021-10-22数据仓库最新课件5数据仓库要解决的基本问题全局范围内统一数据视图全局范围内统一数据视图n数据内容数据内容n数据的完整性数据的完整性n数据的准确性数据的准确性n数据的一致性数据的一致性n数据组织数据组织n面向分析决策面向分析决策为什么需要数据仓库技术为什么需要数据仓库技术2021-10-22数据仓库最新课件6在实际中经常存在这样为什么需要数据仓库技术为什么需要数据仓库技术2021-10-22数据仓库最新课件7“蜘蛛网”问题没有统一规划和设计没有统一规划和设计数据模型不一致数
4、据模型不一致数据定义不一致数据定义不一致数据准确性差,冗余数据准确性差,冗余度高度高历史数据不统一、不历史数据不统一、不规范规范解决方案:解决方案:深入、全面、客观的数据深入、全面、客观的数据源分析源分析为什么需要数据仓库技术为什么需要数据仓库技术2021-10-22数据仓库最新课件8 传统数据库的主要任务是进行传统数据库的主要任务是进行事物事物处理处理(OLTP),它,它所关注的是事物处理的所关注的是事物处理的及时性、完整性与正确性及时性、完整性与正确性,而,而在数据的在数据的分析处理方面分析处理方面,则存在着不足,主要体现在,则存在着不足,主要体现在 、集成性的缺乏、集成性的缺乏 首先,业
5、务数据库系统的条块与部门分割,导致数首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化据分布的分散化与无序化为什么需要数据仓库技术为什么需要数据仓库技术2021-10-22数据仓库最新课件9证券公司内部信息系统上海股东开户系统上海股东开户系统(指定)(指定)数据组织方式数据组织方式关系数据库系统关系数据库系统行情分析系统行情分析系统(类型可以选择)(类型可以选择)数据组织方式数据组织方式加密文本文件加密文本文件上海法人清算系统上海法人清算系统(指定)(指定)数据组织方式数据组织方式关系数据库系统关系数据库系统 证券交易系统证券交易系统 (类型可以选择)(类型可以选择) 数据组织
6、方式数据组织方式 关系数据库系统关系数据库系统财务分析系统财务分析系统(指定)(指定)数据组织方式数据组织方式关系数据库系统关系数据库系统证券咨询系统证券咨询系统(类型可选择)(类型可选择)数据组织方式数据组织方式加密文本文件加密文本文件为什么需要数据仓库技术为什么需要数据仓库技术2021-10-22数据仓库最新课件10其次,业务数据库缺乏统一的定义与规划,导致数其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义据定义存在歧义证券交易数据库证券交易数据库客户信息表客户信息表acc-_num char(10)CRM数据库数据库客户信息表客户信息表acc-_num char(10)为什么需
7、要数据仓库技术2021-10-22数据仓库最新课件11上交所行情数据库上交所行情数据库S1 char(6)深交所行情数据库深交所行情数据库hqzy char(6)为什么需要数据仓库技术2021-10-22数据仓库最新课件12. .主题不明确主题不明确 建立传统数据库的目的是为了建立传统数据库的目的是为了满足事物处理满足事物处理的需求,的需求,库和表的定义完全以此为基础进行,对数据分析库和表的定义完全以此为基础进行,对数据分析而言缺少明确的而言缺少明确的主题主题。、分析处理效率低、分析处理效率低为什么需要数据仓库技术2021-10-22数据仓库最新课件13进一步整合现有的数据企业范围内的信息共享
8、企业范围内的信息共享准确、一致的集成数据准确、一致的集成数据n快速访问快速访问n精确、灵活分析精确、灵活分析解决方案:解决方案:引入数据仓库、联机分析引入数据仓库、联机分析处理和数据挖掘等技术处理和数据挖掘等技术为什么需要数据仓库技术为什么需要数据仓库技术2021-10-22数据仓库最新课件14数据仓库的定义 数据仓库之父数据仓库之父Bill Inmon在在1991年出版的年出版的“Building the Data Warehouse”(建立数建立数据仓库据仓库) 数据仓库(数据仓库(Data WarehouseData Warehouse)是一个)是一个面向主题面向主题的的(Subject
9、 Oriented Subject Oriented )、)、集成的集成的(IntegratedIntegrated)、)、相对稳定的(相对稳定的(Non-Non-VolatileVolatile)、)、反映历史变化反映历史变化(Time VariantTime Variant)的数据集合的数据集合,用于支持管理决策和信息的全局,用于支持管理决策和信息的全局共享。共享。什么是数据仓库什么是数据仓库2021-10-22数据仓库最新课件15注意注意: 数据仓库是一个过程而不是一个项目;数据仓库是一个过程而不是一个项目; 数据仓库是一个环境,而数据仓库是一个环境,而 不是不是 一件产品。一件产品。数
10、据仓库提供用户数据仓库提供用户用于决策支持的当前和历史数据用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把到。数据仓库技术是为了有效的把操作形数据集操作形数据集成到统一的环境中以提供决策型数据访问成到统一的环境中以提供决策型数据访问,的各,的各种技术和模块的总称。所做的一切都是为了让用种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持户更快更方便查询所需要的信息,提供决策支持 2021-10-22数据仓库最新课件16 数据仓库的特点数据仓库的特点1.面向主题的面向主
11、题的 主题主题:在较高层次上将企业信息系统中的数据综合、在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象;在逻辑意义上,它对归类并进行分析利用的抽象;在逻辑意义上,它对应企业中某一宏观分析领域所涉及的分析对象。应企业中某一宏观分析领域所涉及的分析对象。2021-10-22数据仓库最新课件17数据仓库的特点:面向主题寿险寿险财产险财产险机动车险机动车险客户客户s操作型数据库是面向特殊操作型数据库是面向特殊处理任务,各个系统之间处理任务,各个系统之间各自分离各自分离s数据仓库是按照一定的数据仓库是按照一定的主主题域题域进行组织。一个主题进行组织。一个主题通常与多个操作型信息系通常与
12、多个操作型信息系统相关。统相关。操作型数据库操作型数据库数据仓库数据仓库2021-10-22数据仓库最新课件18数据仓库围绕一些主题,如顾客、供应商、产品和销售数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。组织。数据仓库关注数据仓库关注决策者决策者的数据建模与分析,而不是集中于的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。因此,数据仓库排组织机构的日常操作和事务处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图。除对于决策无用的数据,提供特定主题的简明视图。2021-10-22数据仓库最新课件192 2、集成的、集成的 数据仓库中的数据是在对原有分散的数据
13、库数据仓库中的数据是在对原有分散的数据库数数据抽取、清理的基础上经过系统加工、汇总和整据抽取、清理的基础上经过系统加工、汇总和整理得到的理得到的,必须消除源数据中的不一致性,以保,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全证数据仓库内的信息是关于整个企业的一致的全局信息。局信息。2021-10-22数据仓库最新课件20数据仓库的特点:集成的面向特定应用面向特定应用集成的集成的s每一个数据库面向特定的每一个数据库面向特定的应用,各类应用(包括其应用,各类应用(包括其相关的数据库)之间相互相关的数据库)之间相互独立。独立。s数据仓库中的数据面向整个企数据仓库中的数据
14、面向整个企业的分析处理,数据仓库中的业的分析处理,数据仓库中的数据是已经集成了的,消除了数据是已经集成了的,消除了数据的不一致性。数据的不一致性。操作型数据库操作型数据库数据仓库数据仓库2021-10-22数据仓库最新课件21通常,构造数据仓库是将多个异种数据源,如关系通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录,集成在数据库、一般文件和联机事务处理记录,集成在一起。使用数据清理和数据集成技术,确保命名一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。约定、编码结构、属性度量等的一致性。 2021-10-22数据仓库最新课件223、
15、反映历史变化、反映历史变化 数据仓库中的数据通常包含历史信息,系统记数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点录了企业从过去某一时点(如开始应用数据仓库的如开始应用数据仓库的时点时点)到目前的各个阶段的信息,通过这些信息,到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析可以对企业的发展历程和未来趋势做出定量分析和预测和预测。2021-10-22数据仓库最新课件23数据仓库的特点:反映历史变化s主要关心当前数据主要关心当前数据s通常包含历史数据通常包含历史数据操作型数据库操作型数据库数据仓库数据仓库2021-10-22数据仓库最新课件24数据存
16、储从历史的角度数据存储从历史的角度(例如过去例如过去5-10年年)提供信息。提供信息。数据仓库中的关键结构,隐式或显式地包含时间数据仓库中的关键结构,隐式或显式地包含时间元素。元素。2021-10-22数据仓库最新课件254 4、相对稳定的、相对稳定的 数据仓库的数据主要供企业决策分析之用,所数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的也就是数据仓库中一般有大量的查询查询操作,但操作,但修修改和删除改和删
17、除操作很少,通常只需要操作很少,通常只需要定期的加载、刷定期的加载、刷新。新。2021-10-22数据仓库最新课件26数据仓库的特点:相对稳定的modifydeleteinsertupdateLoad/ Update在某个时间段内保持相对稳定在某个时间段内保持相对稳定s实时更新,数据根据需实时更新,数据根据需要及时发生变化要及时发生变化s定期加载,加载后的数据极少定期加载,加载后的数据极少更新。更新。实时更新实时更新操作型数据库操作型数据库数据仓库数据仓库2021-10-22数据仓库最新课件27数据库技术与数据仓库技术数据库技术数据库技术在系统功能和性能需求在系统功能和性能需求n强调的是多用户
18、环境下如何针对并发用户的增强调的是多用户环境下如何针对并发用户的增删改操作,保证数据的一致性和可恢复性,删改操作,保证数据的一致性和可恢复性,并并发用户的吞吐量发用户的吞吐量为数据库管理系统的重要性能为数据库管理系统的重要性能指标指标数据仓库技术数据仓库技术在系统功能和性能需求在系统功能和性能需求n强调的是大数据量环境下的高效、快速查询,强调的是大数据量环境下的高效、快速查询,查询的吞吐量查询的吞吐量为数据仓库管理系统的重要性能为数据仓库管理系统的重要性能指标指标 2021-10-22数据仓库最新课件28传统数据库与数据仓库的比较比较项目比较项目 传统数据库传统数据库 数据仓库数据仓库总体特征
19、总体特征 围绕高效的事务处理围绕高效的事务处理 以提供决策为目标以提供决策为目标存储内容存储内容 以当前数据为主以当前数据为主 历史、存档、归纳历史、存档、归纳面向用户面向用户 普通业务处理人员普通业务处理人员 高级决策管理人员高级决策管理人员功能目标功能目标 面向业务操作,注重实时面向业务操作,注重实时 面向主题,注重分析面向主题,注重分析汇总情况汇总情况 原始数据原始数据 多层次汇总,数据细节损失多层次汇总,数据细节损失数据结构数据结构 结构化程度高,适合运算结构化程度高,适合运算 结构化程度适中结构化程度适中。2021-10-22数据仓库最新课件29OLTPOLTP与与OLAPOLAP1
20、.OLTP(OnLine Transaction Processing)联联机事务处理系统,它是事件驱动、面向应用的。机事务处理系统,它是事件驱动、面向应用的。 例如银行的储蓄系统就是一个典型的例如银行的储蓄系统就是一个典型的OLTP系统。系统。 其特点是:其特点是: 对响应时间要求非常高;对响应时间要求非常高; 用户数量非常庞大,主要是操作人员;用户数量非常庞大,主要是操作人员; 数据库的各种操作基于索引进行数据库的各种操作基于索引进行n关系数据库满足了联机事务处理(关系数据库满足了联机事务处理(OLTPOLTP)的要)的要求求2021-10-22数据仓库最新课件302.OLAP2.OLAP
21、(OnLine Analytical ProcessingOnLine Analytical Processing)-)-联机联机分析处理是基于数据仓库的信息分析处理过程,分析处理是基于数据仓库的信息分析处理过程,是数据仓库的是数据仓库的用户接口部分。用户接口部分。OLAPOLAP系统是系统是跨越部门跨越部门、面向主题面向主题的。的。其基本特点是:其基本特点是: 基础数据来源于信息系统中的操作数据;基础数据来源于信息系统中的操作数据; 响应时间合理;响应时间合理; 用户数量相对较少,主要是业务决策与管理人用户数量相对较少,主要是业务决策与管理人员;员; 数据库的各种操作不能完全基于索引进行。数
22、据库的各种操作不能完全基于索引进行。2021-10-22数据仓库最新课件31OLTP与OLAP的比较OLTPOLAP用户用户面向操作人员,支持日常操面向操作人员,支持日常操作作 面向决策人员,支持管理需要面向决策人员,支持管理需要 用途用途 面向应用,事务驱动面向应用,事务驱动 面向分析,分析驱动面向分析,分析驱动 数据情况数据情况 当前值数据,细节性数据当前值数据,细节性数据 历史数据历史数据 ,综合数据,综合数据一次处理数据量一次处理数据量小小 大大 访问更新访问更新可更新可更新 大量查询,极少更新,但周期性大量查询,极少更新,但周期性刷新刷新 用户量用户量大大小小数据规模数据规模100M
23、-1GB100GB-TB考察角度考察角度事务吞吐量事务吞吐量查询吞吐量,响应时间查询吞吐量,响应时间2021-10-22数据仓库最新课件32OLTP vs. OLAP OLTP OLAP users clerk, IT professional knowledge worker function day to day operations decision support DB design application-oriented subject-oriented data current, up-to-date detailed, flat relational isolated hist
24、orical, summarized, multidimensional integrated, consolidated usage repetitive ad-hoc access read/write index/hash on prim. key lots of scans unit of work short, simple transaction complex query # records accessed tens millions #users thousands hundreds DB size 100MB-GB 100GB-TB metric transaction t
25、hroughput query throughput, response P692021-10-22数据仓库最新课件33Chapter 3: Data Warehousing and OLAP Technology: An OverviewWhat is a data warehouse? A multi-dimensional data modelData warehouse architectureData warehouse implementationFrom data warehousing to data mining2021-10-22数据仓库最新课件34第三章 数据仓库与OLA
26、P技术概述什么是数据仓库 多维数据模型设计仓库体系结构数据仓库实现从数据仓库到数据挖掘2021-10-22数据仓库最新课件35从表到数据立方体设计仓库建立在多维数据模型上,以数据立方体的方式来观察数据A data cube, such as sales, allows data to be modeled and viewed in multiple dimensionsnDimension tables, such as item (item_name, brand, type), or time(day, week, month, quarter, year) nFact table co
27、ntains measures (such as dollars_sold) and keys to each of the related dimension tablesIn data warehousing literature, an n-D base cube is called a base cuboid(基本立方体). The top most 0-D cuboid, which holds the highest-level of summarization, is called the apex cuboid(顶点立方体). The lattice of cuboids fo
28、rms a data cube.2021-10-22数据仓库最新课件36Cube: A Lattice of Cuboidstime,itemtime,item,locationtime, item, location, supplieralltimeitemlocationsuppliertime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,suppliertime,location,supplieritem,location,supplier0-D(apex) cuboid1-D cub
29、oids2-D cuboids3-D cuboids4-D(base) cuboid2021-10-22数据仓库最新课件37Conceptual Modeling of Data WarehousesModeling data warehouses: dimensions & measuresnStar schema: A fact table in the middle connected to a set of dimension tables nSnowflake schema: A refinement of star schema where some dimensional hie
30、rarchy is normalized into a set of smaller dimension tables, forming a shape similar to snowflakenFact constellations: Multiple fact tables share dimension tables, viewed as a collection of stars, therefore called galaxy schema or fact constellation 2021-10-22数据仓库最新课件38常见的概念模型常用的概念数据模型有:常用的概念数据模型有:n
31、星形模型星形模型n雪花模型雪花模型n事实星座模型事实星座模型2021-10-22数据仓库最新课件391.星形模型 星形模型简洁,可以很准确地反映出各实星形模型简洁,可以很准确地反映出各实体之间的逻辑关系,并依据实体的重要程体之间的逻辑关系,并依据实体的重要程度,将这种关系展示出来。度,将这种关系展示出来。 星形模型由以下两部分构成:星形模型由以下两部分构成:n事实表事实表n维度表维度表2021-10-22数据仓库最新课件40事实表事实表 是星形模型的中心是星形模型的中心 包含有大量的数据包含有大量的数据 具有较小的(或没有)冗余度具有较小的(或没有)冗余度 数据只需追加,不进行修改数据只需追加
32、,不进行修改维度表维度表 是事实表的附属表是事实表的附属表 一个事实表拥有一组维度表一个事实表拥有一组维度表 每个维度表通过主键与事实表相连,维度每个维度表通过主键与事实表相连,维度表之间通过表之间通过事实表的中介相联系事实表的中介相联系2021-10-22数据仓库最新课件41Example of Star Schema time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key bra
33、nch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchP73 例3-12021-10-22数据仓库最新课件422.雪花模型 雪花模型是星形模型的拓展,在事实表和雪花模型是星形模型的拓展,在事实表和维度表的基础上,增加了一类新表维度表的基础上,增加了一类新表“详细类别表详细类别表”,用于对维度表进行描述。,用于对维度表进行描述。 雪花模型的维度表具有较小的数据冗余,雪
34、花模型的维度表具有较小的数据冗余,易于维护,节省存储空间,具有较高的灵易于维护,节省存储空间,具有较高的灵活性。活性。2021-10-22数据仓库最新课件43Example of Snowflake Schematime_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_n
35、amebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity2021-10-22数据仓库最新课件44Example of Fact Constellationtime_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact T
36、abletime_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyshipper_namelocation
37、_keyshipper_typeshipper2021-10-22数据仓库最新课件45Cube Definition Syntax (BNF) in DMQLCube Definition (Fact Table)define cube : Dimension Definition (Dimension Table)define dimension as ()Special Case (Shared Dimension Tables)nFirst time as “cube definition”ndefine dimension as in cube 2021-10-22数据仓库最新课件46
38、Defining Star Schema in DMQLdefine cube sales_star time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, bran
39、d, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)2021-10-22数据仓库最新课件47Defining Snowflake Schema in DMQLdefine cube sales_snowflake time, item, branch, location:dollars_sold = su
40、m(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)define dimension branch as (branch_key, branch_name
41、, branch_type)define dimension location as (location_key, street, city(city_key, province_or_state, country)2021-10-22数据仓库最新课件48Defining Fact Constellation in DMQLdefine cube sales time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = coun
42、t(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, count
43、ry)define cube shipping time, item, shipper, from_location, to_location:dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as (shipper_key, shipper_name, location as location in cub
44、e sales, shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales2021-10-22数据仓库最新课件49数据立方体的三种度量(P76)Distributive: if the result derived by applying the function to n aggregate values is the same as that derived by applying the functi
45、on on all the data without partitioningnE.g., count(), sum(), min(), max()Algebraic: if it can be computed by an algebraic function with M arguments (where M is a bounded integer), each of which is obtained by applying a distributive aggregate functionnE.g., avg(), min_N(), standard_deviation()Holis
46、tic: if there is no constant bound on the storage size needed to describe a subaggregate. nE.g., median(), mode(), rank()分布的代数的整体的2021-10-22数据仓库最新课件50A Concept Hierarchy: Dimension (location)allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM. WindL. Chan.allregionofficecountryTorontoFrankfurtc
47、ity2021-10-22数据仓库最新课件51View of Warehouses and HierarchiesSpecification of hierarchiesSchema hierarchyday month quarter; week yearSet_grouping hierarchy1.10 = minsupMotivationnOnly a small portion of cube cells may be “above the water in a sparse cubenOnly calculate “interesting” cellsdata above cert
48、ain thresholdnAvoid explosive growth of the cubenSuppose 100 dimensions, only 1 base cell. How many aggregate cells if count = 1? What about count = 2?2021-10-22数据仓库最新课件72Indexing OLAP Data: Bitmap IndexIndex on a particular columnEach value in the column has a bit vector: bit-op is fastThe length o
49、f the bit vector: # of records in the base tableThe i-th bit is set if the i-th row of the base table has the value for the indexed columnnot suitable for high cardinality domainsCust Region TypeC1AsiaRetailC2EuropeDealerC3AsiaDealerC4America RetailC5EuropeDealerRecID Retail Dealer110201301410501Rec
50、IDAsia Europe America11002010310040015010Base tableIndex on RegionIndex on Type2021-10-22数据仓库最新课件73Indexing OLAP Data: Join IndicesJoin index: JI(R-id, S-id) where R (R-id, ) S (S-id, )Traditional indices map the values to a list of record idsnIt materializes relational join in JI speeds up relation
51、al join In data warehouses, join index relates the values of the dimensions of a start schema to rows in the fact table.nE.g. fact table: Sales and two dimensions city and productnA join index on city maintains for each distinct city a list of R-IDs of the tuples recording the Sales in the city nJoi
52、n indices can span multiple dimensions2021-10-22数据仓库最新课件74Efficient Processing OLAP QueriesDetermine which operations should be performed on the available cuboidsnTransform drill, roll, etc. into corresponding SQL and/or OLAP operations, e.g., dice = selection + projectionDetermine which materialize
53、d cuboid(s) should be selected for OLAP op.nLet the query to be processed be on brand, province_or_state with the condition “year = 2004”, and there are 4 materialized cuboids available:1) year, item_name, city 2) year, brand, country3) year, brand, province_or_state4) item_name, province_or_state w
54、here year = 2004Which should be selected to process the query?Explore indexing structures and compressed vs. dense array structs in MOLAP2021-10-22数据仓库最新课件75Chapter 3: Data Warehousing and OLAP Technology: An OverviewWhat is a data warehouse? A multi-dimensional data modelData warehouse architecture
55、Data warehouse implementationFrom data warehousing to data mining2021-10-22数据仓库最新课件76Data Warehouse UsageThree kinds of data warehouse applicationsnInformation processingnsupports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphsnAnalytical processingnmul
56、tidimensional analysis of data warehouse datansupports basic OLAP operations, slice-dice, drilling, pivotingnData miningnknowledge discovery from hidden patterns nsupports associations, constructing analytical models, performing classification and prediction, and presenting the mining results using
57、visualization tools2021-10-22数据仓库最新课件77From On-Line Analytical Processing (OLAP) to On Line Analytical Mining (OLAM)Why online analytical mining?nHigh quality of data in data warehousesnDW contains integrated, consistent, cleaned datanAvailable information processing structure surrounding data wareh
58、ousesnODBC, OLEDB, Web accessing, service facilities, reporting and OLAP toolsnOLAP-based exploratory data analysisnMining with drilling, dicing, pivoting, etc.nOn-line selection of data mining functionsnIntegration and s of multiple mining functions, algorithms, and tasks2021-10-22数据仓库最新课件78An OLAM
59、 System ArchitectureData WarehouseMeta DataMDDBOLAMEngineOLAPEngineUser GUI APIData Cube APIDatabase APIData cleaningData integrationLayer3OLAP/OLAMLayer2MDDBLayer1Data RepositoryLayer4User InterfaceFiltering&IntegrationFilteringDatabasesMining queryMining result2021-10-22数据仓库最新课件79Chapter 3: Data W
60、arehousing and OLAP Technology: An OverviewWhat is a data warehouse? A multi-dimensional data modelData warehouse architectureData warehouse implementationFrom data warehousing to data miningSummary2021-10-22数据仓库最新课件80Summary: Data Warehouse and OLAP TechnologyWhy data warehousing?A multi-dimensiona
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 豫园飞天课件
- 2025年智能仓储物流系统软件开发采购合同
- 2025年度网络安全宣传海报设计制作服务合同
- 2025吊装合同协议:城市景观设施吊装施工合同
- 2025版三方协议附加技术支持与维护服务附加协议
- 2025年度电子元器件采购委托合同范本
- 2025版摊铺机设备租赁与道路施工安全验收与评价合同
- 2025年度智慧城市安防监控技术合同
- 说课小蝌蚪变青蛙课件
- 红酒品鉴科普知识培训内容课件
- 临床研究课题验收报告
- 扳机点(激痛点)疗法(理论及实操演示附全身激痛点分布图)
- 2024ESC心房颤动管理指南解读
- 村级换届业务培训
- 《预防未成年人犯罪》课件(图文)
- 医院数据分级分类制度
- 常见皮肤病的治疗课件
- GB/T 22838.5-2024卷烟和滤棒物理性能的测定第5部分:卷烟吸阻和滤棒压降
- 议论文阅读训练10篇(附答案及解析)
- 《医师资格考试报名资格规定2014版》
- 《市场营销英语》全套教学课件
评论
0/150
提交评论