Lecture3数据仓库与OLAP技术概述_第1页
Lecture3数据仓库与OLAP技术概述_第2页
Lecture3数据仓库与OLAP技术概述_第3页
Lecture3数据仓库与OLAP技术概述_第4页
Lecture3数据仓库与OLAP技术概述_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、12 十月 2022Data Mining: Concepts and Techniques1数据挖掘: 概念与技术 第三、四章 王家兵 博士华南理工大学计算机科学与工程学院E-mail: 11二二月2020Data Mining:Conceptsand Techniques2Lecture 3:数据仓库库、OLAP及数据立立方体计计算什么是数数据仓库库(data warehouse)?多维数据据模型数据仓库库体系结结构数据仓库库实施11二二月2020Data Mining:Conceptsand Techniques3什么是数数据仓库库?有多种但但并不严严格的定定义与操作数数据库相相隔离并并

2、单独维维护的一一个用来来支持决决策过程程的数据据库一个用来来对整理理过的历历史数据据进行分分析以便便支持信信息处理理的固定定平台.“数据仓库库是面向主题题的、集成的、时变的、非易失的的数据集合合,它用用来支持持管理部部门的决策过程”W.H.Inmon11二二月2020Data Mining:Conceptsand Techniques4数据仓库库面向向主题的的围绕主题题组织, 如消消费者(customer)、产品(product),销售量(sales)等。主要目的的是对数数据建模模与分析析,以便便于决策策者的决决策过程程,而不不是日常常操作与与事物处处理。排出那些些对决策策过程没没有用的的数据

3、,为决策策者提供供一个简简明的有有关特定定主题的的视图。11二二月2020Data Mining:Conceptsand Techniques5数据仓库库集成成的集成多个个、异构构数据源源关系数据据库,普普通文件件,联机机事物记记录。应用了数数据清洗洗与数据据集成技技术确保多个个数据源源命名惯惯例、编编码结构构、属性性度量等等的一致致性。在数据移移入数据据仓库之之前,对对它进行行转换。11二二月2020Data Mining:Conceptsand Techniques6数据仓库库时变变的数据仓库库跨越的的时间比比操作数数据库要要长的多多.操作数据据库:当当前值值数据。数据仓库库:从从历史的的

4、视角提提供信息息(如过过去5-10的数据)数据仓库库的健值值属性隐式或显显式地包包含一个个时间键键。操作数据据库可以以也可以以不包含含时间键键。11二二月2020Data Mining:Conceptsand Techniques7数据仓库库非易易失的与操作数数据库分分隔存储储。操作数据据库的数数据更新新不在数数据仓库库环境出出现。不需要事事务处理理,数据据恢复以以及并发发控制机机制。仅仅需要要以下2种操作作:数据的初初始装载载与数据据访问。11二二月2020Data Mining:Conceptsand Techniques8数据仓库库vs.数据库管管理系统统联机事物物处理(OLTP,on-

5、linetransactionprocessing)传统关系系数据库库的主要要任务日常操作作:购买,存货,财财务等等.联机分析析处理(OLAP,on-line analyticalprocessing)数据仓库库的主要要任务数据分析析与决策策支持11二二月2020Data Mining:Conceptsand Techniques9OLTPOLAP用户员工, IT专业人员知识工作者功能每天的日常操作决策支持DB设计面向应用+ER面向主题+Star数据当前的,详细的数据历史的, 汇总的, 多维的集成的, 整理过的使用重复的特定的访问读/写、索引多次扫描工作单元短的, 简单的事务处理复杂查询记录数

6、/查询几十百万用户数上千百DB规模100MB-GB100GB-TBmetrictransaction throughputquery throughput, response11二二月2020Data Mining:Conceptsand Techniques10为什么要要建立隔隔离的数数据仓库库?使得操作作数据库库与数据据仓库都都获得高高性能DBMSOLTP:访问方法法,索索引,并发控制制,数据恢复复。WarehouseOLAP:复杂OLAP查询,多维视图图,整理。对数据与与功能的的要求不不同:丢失的数数据:决决策支支持需要要历史数数据,而而传统数数据库并并不一定定维护历历史数据据。数据整理

7、理:决决策支支持需要要对异构构数据源源进行数数据整理理 。数据质量量:不同的数数据源常常常具有有不一致致的数据据表示,编码结结构与格格式。11二二月2020Data Mining:Conceptsand Techniques11数据挖掘掘中的数数据仓库库与OLAP技术什么是数数据仓库库?多维数据据模型数据仓库库体系结结构数据仓库库实施11二二月2020Data Mining:Conceptsand Techniques12由表和电电子数据据表到数数据立方方体I数据仓库库基于多多维数据据模型,以数据据立方体体的形式式对数据据进行观观察。数据立方方体,如如销售,允许以以多维来来对数据据进行建建模与

8、观观察。维表:如维item (item_name, brand,type),或维time(day,week,month, quarter, year)。事实表包包含度量量(measures):如销售额额以及每每个相关关维表的的关键字字。11二二月2020Data Mining:Conceptsand Techniques13由表和电电子数据据表到数数据立方方体II在数据仓仓库的研研究文献献中,一一个n维立方体体(n-D)称为基本方体体(base cuboid);0-D方体存放放最高层层的汇总总 ,称称为顶点方体体(apex cuboid),方体的的格称作作数据立方方体(data cube)。1

9、1二二月2020Data Mining:Conceptsand Techniques14立方体: 方体体格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime, item, location, supplier0-D(apex) cuboid1-D cuboids2-D c

10、uboids3-D cuboids4-D(base) cuboid11二二月2020Data Mining:Conceptsand Techniques15数据仓库库概念模模型建模数据据仓库:维&度量星型模式式(Star schema):一个事实实表以及及一组与与事实表表连结的的维表。雪花模式式(Snowflakeschema):雪花模式式是星型型模式的的变种,其中某某些维表表是规范范化的。(normalized),因而把数数据进一一步分解解到附加加的表中中。事实星座座(Fact constellations):多个事实实表分享享共同的的维表,这种模模式可以以看作星星型模式式的集合合,因此此称

11、为星星系模式式(galaxyschema)或事实星星座。11二二月2020Data Mining:Conceptsand Techniques16星型模式式 time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFact Tabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesup

12、plier_typeitembranch_keybranch_namebranch_typebranch11二二月2020Data Mining:Conceptsand Techniques17雪花模式式time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFact Tabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtype

13、supplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity11二二月2020Data Mining:Conceptsand Techniques18事实星座座time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFact Tabletime_key

14、item_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFact Tabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper11

15、二二月2020Data Mining:Conceptsand Techniques19度量的分分类I分布式的的(distributive):一个聚集集函数是是分布的的,如果果它能以以以下分分布式进进行计算算:如果果将函数数用于n个聚集值值得到的的结果,与将函函数用于于所有数数据得到到的结果果一样,则该函函数可以以用分布布式计算算。如,count(),sum(),min(), max().代数的(algebraic):一个函数数是代数数的,如如果它能能够由一一个具有有M个参数的的代数函函数计算算(其中中M是一个有有界整数数),而而每个参参数都可可以用一一个分布布聚集函函数得到到。如,avg(),

16、standard_deviation().11二二月2020Data Mining:Conceptsand Techniques20度量的分分类II整体的(holistic):如果描述述它的子子聚集所所需的存存储没有有一个常常数界,即不存存在一个个具有M个参数的的代数函函数进行行这一计计算(其其中M是常数)。如,median()(中位数数), mode()(出现次次数最多多的数,众数)等。11二二月2020Data Mining:Conceptsand Techniques21一个概念念层次: 维(location)allEuropeNorth_AmericaMexicoCanadaSpain

17、GermanyVancouverM. WindL. Chan.allregionofficecountryTorontoFrankfurtcity11二二月2020Data Mining:Conceptsand Techniques22多维数据据销售立方方体ProductRegionMonth维:Product,Location,Time概念层次次图:IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay11二二月2020Data Mining:Conceptsand Techniques23示例:数数据立方方

18、体TV在美国的的年销售售额DateProductCountryAll, All, Allsumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum11二二月2020Data Mining:Conceptsand Techniques24对应立方方的立方方体allproductdatecountryproduct,dateproduct,countrydate, countryproduct, date, country0-D(apex) cuboid1-D cuboids2-D cuboids3-D(base) cuboid11二二月2020Data

19、Mining:Conceptsand Techniques25典型的OLAP操作I上卷Roll up (上钻drill-up):通过一个个维的概概念分层层向上攀攀升或通通过维规规约,在在数据立立方体上上进行聚聚集。下钻Drilldown (roll down):上卷的逆逆操作,它由不不太详细细的数据据得到更更详细的的数据。可以通过过沿维的的概念分分层向下下或引入入新的维维实现。11二二月2020Data Mining:Conceptsand Techniques26典型的OLAP操作II切片Slice与切块dice投影与选选择。转轴Pivot(rotate)是一种目目视操作作,它转转动数据据的

20、视角角,提供供数据的的替代表表示其它操作作钻过drillacross:执行涉涉及多个个事实表表的查询询。钻透drillthrough:使用SQL的机制,钻到数数据立方方的底层层,到后后端关系系表。11二二月2020Data Mining:Conceptsand Techniques27数据挖掘掘中的数数据仓库库与OLAP技术什么是数数据仓库库?多维数据据模型数据仓库库体系结结构数据仓库库实施11二二月2020Data Mining:Conceptsand Techniques28多层体系系结构DataWarehouseExtractTransformLoadRefreshOLAP Engine

21、AnalysisQueryReportsData miningMonitor&IntegratorMetadataData SourcesFront-EndToolsServeData MartsOperational DBsothersourcesData StorageOLAP Server11二二月2020Data Mining:Conceptsand Techniques29三个数据据仓库模模型企业仓库库(Enterprise warehouse)搜集了关关于主题题的所有有信息,跨越整整个组织织。数据集市市(Data Mart)包含企业业范围数数据的一一个子集集,对于于特定的的用户是是

22、有用的的,其范范围限于于选定的的主题。虚拟仓库库(Virtual warehouse)操作数据据库上视视图的一一组集合合。为了有效效处理查查询,只只有一些些可能的的汇总视视图被物物化。11二二月2020Data Mining:Conceptsand Techniques30数据挖掘掘中的数数据仓库库与OLAP技术什么是数数据仓库库?多维数据据模型数据仓库库体系结结构数据仓库库实施11二二月2020Data Mining:Conceptsand Techniques31数据立方方的有效效计算数据立方方可以看看作是由由立方体体形成的的格结构构最底层的的立方体体称为基基本方体体(base cuboid)最上层的的方体称称为顶点点方体(apexcuboid)一个L层的n维立方有有多少立立方体呢呢?11二二月2020Data Mining:Conceptsand Techniques32数据立方方的物化化物化每一个立方体,不物化,或者部分物化物化每一个立方体?不物化?部分物化!选择将要要物化的的立方体体基于尺寸寸大小,共享,访问频率率等。11二二月2020Data Mining:Conceptsand Techniques33立方计算算的多路路数组聚聚集方法法I把数组划划分成块(chunks,一个子方方,其大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论