4数据挖掘概念与技术-第三章-数据仓库和OLAP技术1_第1页
4数据挖掘概念与技术-第三章-数据仓库和OLAP技术1_第2页
4数据挖掘概念与技术-第三章-数据仓库和OLAP技术1_第3页
4数据挖掘概念与技术-第三章-数据仓库和OLAP技术1_第4页
4数据挖掘概念与技术-第三章-数据仓库和OLAP技术1_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘:概念与技术 第三章:数据仓库与OLAP技术概述 2022/10/121数据挖掘:概念与技术第三章:数据仓仓库与OLAP技术概述述什么是数数据仓库库?多维数据据集模型型数据仓库库体系结结构数据仓库库实现从数据仓仓库到数数据挖掘掘2020-03-012数据挖掘掘:概念念与技术术什么是数数据仓库库?多种定义义方式,但不严严格从组织机机构的操操作数据据库分离离并独立立维护的的决策支支持数据据库支持信息息处理,为统一一的历史史数据分分析提供供坚实的的平台数据仓库库是一个个面向主主题的、集成的的、时变变的和非非易失的的数据集集合,支支持管理理部门的的决策过过程。W.H.Inmon建立数据据仓库:

2、构建和使使用数据据仓库的的过程2020-03-013数据挖掘掘:概念念与技术术数据仓库库面向主题题的围绕主题题组织数数据,如顾客、产品、销售等等。关注决策策者的数数据建模模与分析析,而不不是组织织机构的的日常操操作和事事务处理理。提供特定定主题的的简明视视图,排排除对于于决策支支持过程程无用的的数据。2020-03-014数据挖掘掘:概念念与技术术数据仓库库集成的由多个异异构数据据源集成成构建关系数据据库,平面文件件,联机事务务记录应用数据据清理和和数据集集成技术术确保命名名约定,编码结结构,属属性度量量等一致致性将数据迁迁入数据据仓库时时需要进进行数据据转换2020-03-015数据挖掘掘:

3、概念念与技术术数据仓库库时变的数据仓库库中数据据的时间间范围比比业务操操作系统统中长得得多业务操作作数据库库:当前前数据数据仓库库:提供供历史数数据信息息(如过去5-10年)数据仓库库中的结结构主键键:都隐式或或显示包包含时间间元素但业务操操作数据据主键不不一定包包含时间间元素2020-03-016数据挖掘掘:概念念与技术术数据仓库库非易失的的物理存储储:与操操作环境境分离,虽然来来自其中中。数据仓库库环境中中不发生生数据更更新操作作不需要事事务处理理,恢复复和并发发控制机机制只需要两两种数据据操作:i数据初始始化装入入数据访问问2020-03-017数据挖掘掘:概念念与技术术数据仓库库与异构

4、构数据库库传统异构构数据库库集成:查询驱动动方法在异构数数据库上上建立包装程序序和集成程序序(中介介程序)提交查询询时,使使用元数数据字典典将查询询转换为为异构站站点上的的查询。然后将将查询映映射和发发送到局局部查询询处理器器,由不不同站点点返回的的结果集集成为全全局查询询结果集集。复杂的信信息过滤滤和集成成处理,与局部部数据源源的处理理竞争资资源数据仓库库:更新驱动动方法,高性能将异构源源的信息息预先集集成并存存储在数数据仓库库中,供供直接查查询和分分析不包含最最近的信信息支持复杂杂多维查查询2020-03-018数据挖掘掘:概念念与技术术数据仓库库与业务务操作数数据库OLTP (on-li

5、ne transaction processing),联机事务务处理传统关系系数据库库管理系系统的主主要任务务日常操作作:购物物,库存存,制造造,银行行,工资资,注册册,记账账等。OLAP (on-line analyticalprocessing),联机分析析处理数据仓库库系统的的主要任任务数据分析析和决策策制定区别(OLTPvs.OLAP):用户和系系统的面面向性:顾客事务和查查询(办办事员,打工仔仔)与市市场数据分析析(知识识工人,老板)数据内容容:当当前的,细节的的vs.历史的,汇总聚集集的数据库设设计:E-R+业务应用用vs.星形、雪雪花型+主题视图:当前的,局部的vs.进化的,集成

6、的访问模式式:更新vs.只读但但查询复复杂2020-03-019数据挖掘掘:概念念与技术术OLTP vs.OLAP2020-03-0110数据挖掘掘:概念念与技术术为什么需需要分离离数据仓仓库?提高两个个系统的的系能DBMStunedforOLTP:access methods, indexing,concurrencycontrol,recoveryWarehousetunedfor OLAP: complexOLAPqueries,multidimensional view, consolidation不同的功功能和不不同的数数据:数据不全全: Decision supportrequir

7、eshistoricaldata which operational DBsdonottypically maintain数据聚合合:DSrequiresconsolidation (aggregation,summarization)ofdatafrom heterogeneoussources数据质量量: differentsources typicallyuseinconsistent datarepresentations,codesandformatswhichhave to be reconciledNote:越来越多多的系统统直接在在DBMS上进行2020-03-0111数据挖掘

8、掘:概念念与技术术Chapter 3: DataWarehousingand OLAPTechnology:AnOverviewWhat is adatawarehouse?A multi-dimensional datamodelData warehousearchitectureData warehouseimplementationFrom datawarehousingtodatamining2020-03-0112数据挖掘掘:概念念与技术术由表和电电子数据据表到数数据立方方体数据仓库库和OLAP工具基于于多维数数据模型型,以数数据立方方体的方方式观察察数据数据立方方体,如销售,从多维

9、角角度对数数据建模模和观察察维度表,如item (item_name, brand,type),ortime(day,week,month, quarter, year)事实表(如dollars_sold)包含度量量值和关关联维度度表的码码名词:数据立方方体成为为方体(cuboid)存放最底底层汇总总的方体体(n-D)成为基本方体体(basiccuboid)存放最高高层汇总总的方体体(0-D)称为顶点方体体(apexcuboid),用all标记方体的格格成为数据立方方体(datacube)2020-03-0113数据挖掘掘:概念念与技术术3-D数据立方方体2020-03-0114数据挖掘掘:概

10、念念与技术术4-D数据立方方体2020-03-0115数据挖掘掘:概念念与技术术数据立方方体:方体的格格time,itemtime,item,locationtime,item,location,supplieralltimeitemlocationsuppliertime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,suppliertime,location,supplieritem,location,supplier0-D(apex) cuboid1-D cuboids2-D cuboi

11、ds3-D cuboids4-D(base) cuboid2020-03-0116数据挖掘掘:概念念与技术术数据仓库库的概念念建模数据仓库库建模:dimensions &measures星形模型型:A facttableinthe middleconnectedtoasetofdimension tables雪花模型型:A refinementofstarschemawheresomedimensionalhierarchyisnormalizedinto aset of smallerdimension tables, formingashapesimilar to snowflake事实星

12、座座型:Multiplefact tablessharedimensiontables, viewedasa collectionofstars, thereforecalledgalaxyschemaorfact constellation2020-03-0117数据挖掘掘:概念念与技术术星形模型型例子 time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFact Tabletime_keyitem_keybranch_keylocat

13、ion_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch2020-03-0118数据挖掘掘:概念念与技术术雪花模型型例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFact Tabletime_keyitem_keybranch_keylocation_keyunits_so

14、lddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity2020-03-0119数据挖掘掘:概念念与技术术事实星座座型例子子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_st

15、atecountrylocationSalesFact Tabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFact Tabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyship

16、per_namelocation_keyshipper_typeshipper2020-03-0120数据挖掘掘:概念念与技术术DMQL中的立方方体定义义语法立方体定定义(FactTable)definecube:维度定义义(Dimension Table)definedimensionas()Special Case(SharedDimensionTables)Firsttime as “cube definition”definedimensionasincube2020-03-0121数据挖掘掘:概念念与技术术DMQL定义星形形模型definecubesales_star time,it

17、em,branch, location:dollars_sold=sum(sales_in_dollars), avg_sales= avg(sales_in_dollars),units_sold= count(*)definedimensiontimeas(time_key, day,day_of_week, month,quarter,year)definedimensionitemas(item_key, item_name,brand, type, supplier_type)definedimensionbranchas(branch_key,branch_name, branch

18、_type)definedimensionlocationas(location_key,street, city, province_or_state,country)2020-03-0122数据挖掘掘:概念念与技术术DMQL定义雪花花模型definecubesales_snowflaketime, item, branch,location:dollars_sold=sum(sales_in_dollars), avg_sales= avg(sales_in_dollars),units_sold= count(*)definedimensiontimeas(time_key, day,d

19、ay_of_week, month,quarter,year)definedimensionitemas(item_key, item_name,brand, type,supplier(supplier_key, supplier_type)definedimensionbranchas(branch_key,branch_name, branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country)2020-03-0123数据挖掘掘:概念念与技术术DMQL定义事

20、实实星座型型definecubesalestime,item,branch,location:dollars_sold=sum(sales_in_dollars), avg_sales= avg(sales_in_dollars),units_sold= count(*)definedimensiontimeas(time_key, day,day_of_week, month,quarter,year)definedimensionitemas(item_key, item_name,brand, type, supplier_type)definedimensionbranchas(bra

21、nch_key,branch_name, branch_type)definedimensionlocationas(location_key,street, city, province_or_state,country)definecubeshippingtime,item,shipper,from_location,to_location:dollar_cost= sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesale

22、sdefinedimensionshipperas(shipper_key, shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales2020-03-0124数据挖掘掘:概念念与技术术数据立方方体的度度量:三类分布式度度量:将函数用用于n个聚合值值得到的的结果与与将函数数用于整整个数据据集(不不划分)得到的的结果一一样E.g.,count(),sum

23、(),min(), max()代数度量量:能够用具具有M个参数的的代数函函数计算算,而每每个参数数都可以以用一个个分布式式聚合函函数求得得E.g.,avg(),min_N(),standard_deviation()整体度量量:描述它的的子聚集集所需的的存储没没有常数数界。E.g.,median(),mode(),rank()2020-03-0125数据挖掘掘:概念念与技术术概念分层层:维度(location)allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan.allregionofficecountryTor

24、ontoFrankfurtcity2020-03-0126数据挖掘掘:概念念与技术术概念分层层:数值值型数据据(price)2020-03-0127数据挖掘掘:概念念与技术术数据仓库库和分层层视图Specification of hierarchiesSchemahierarchydaymonthquarter;week yearSet_groupinghierarchy1.10 =minsup动机仅一小部部分“浮浮于水面面”的立立方体单单元存储储在稀疏疏立方体体中仅计算感感兴趣的的单元数据超出出某一阈阈值避免立方方体的爆爆炸性增增长2020-03-0153数据挖掘掘:概念念与技术术索引OLA

25、P数据:位位图索引引某一具体体列上的的索引;列中的每每一个值值都有一一个位向向量:位位操作速速度快如果给定定属性上上包含n个值,则则位图索索引中每每项需要要n个位。位向量的的长度:基本表表的记录录数如果基表表给定行行上该属属性值为为v,则位图图索引对对应行的的该值位位置1。不适合集集数很大大的域,导致位位向量很很长2020-03-0154数据挖掘掘:概念念与技术术位图索引引例子2020-03-0155数据挖掘掘:概念念与技术术索引OLAP数据:连接索引引连接索引引:JI(R-id,S-id)whereR (R-id,)S (S-id,)传统的索索引将给给定列上上的值映映射到具具有该值值的行的的

26、列表上上在JI文件中物物化关系系连接,加快连连接速度度在数据仓仓库中,连接索索引维护护维的属属性值与与事实表表的对应应行的联联系连接索引引可以跨跨越多维维,形成成符合连连接索引引2020-03-0156数据挖掘掘:概念念与技术术连接索引引例子2020-03-0157数据挖掘掘:概念念与技术术OLAP查询的有有效处理理确定哪些些操作应应该在可可利用的的方体上上执行将drill,roll等操作转转化为SQL或OLAP操作e.g.,dice =selection +projection确定相关关操作应应当使使用哪些些物化的的方体假设对brand, province_or_state处理查询询,选择择

27、常量“year= 2004”,有4个物化方方体可用用:1)year,item_name,city2)year,brand, country3)year,brand, province_or_state4)item_name,province_or_statewhere year=2004应该选择择哪一个个来处理理查询?基于代价价的估计计。采用稀疏疏矩阵和和数据压压缩技术术2020-03-0158数据挖掘掘:概念念与技术术Chapter 3: DataWarehousingand OLAPTechnology:AnOverviewWhat is adatawarehouse?A multi-di

28、mensional datamodelData warehousearchitectureData warehouseimplementationFrom datawarehousingtodatamining2020-03-0159数据挖掘掘:概念念与技术术数据仓库库的使用用三种数据据仓库应应用信息处理理支持查询询、基本本的统计计分析、使用交交叉表、表、图图表进行行报告构造低代代价的基基于Web的访问工工具。分析处理理多维数据据分析支持OLAP操作:slice-dice,drilling,pivoting数据挖掘掘从隐藏的的模式中中发现知知识支持关联联分析,构造分分析模型型,进行行分类和和预

29、测,使用可可视化工工具提供供挖掘结结果2020-03-0160数据挖掘掘:概念念与技术术数据仓库库的渐进进使用商务管理理人员使使用数据据仓库和和数据集集市进行行数据分分析和战战略决策策数据仓库库使用时时间越长长,进化化的越好好开始,用用于产生生报告和和回答预预先定义义的查询询渐渐地,用于分分析汇总总和详细细的数据据结果以以报表和和图表提提供稍后,用用于战略略目的,进行多多维分析析和复杂杂的切片片和切块块操作。最后,用用于知识识发现,并使用用数据挖挖掘工具具进行战战略决策策。数据仓库库工具:访问与与检索工工具,数数据库报报表工具具,数据据分析工工具和数数据挖掘掘工具2020-03-0161数据挖

30、掘掘:概念念与技术术从联机分分析处理理(OLAP)到联机分分析挖掘掘(OLAM)为什么需需要联机机分析挖挖掘?数据仓库库中数据据的高质质量DW中包含集集成,一一致,干干净的数数据环绕数据据仓库的的信息处处理基础础设施ODBC,OLEDB,Web访问,服务机制制, reportingandOLAPtools基于OLAP的探测试试数据分分析Miningwithdrilling,dicing,pivoting,etc.数据挖掘掘功能的的联机选选择Integrationandswappingofmultiplemining functions,algorithms,and tasks2020-03-0

31、162数据挖掘掘:概念念与技术术联机分析析挖掘的的体系结结构数据仓库元数据MDDBOLAM引擎OLAP引擎图形用户界面 API立方体 API数据库 API数据清理数据集成第三层OLAP/OLAM第2层多维数据库第1层数据存储第4层用户界面层过滤&集成过滤数据库挖掘查询挖掘结果2020-03-0163数据挖掘掘:概念念与技术术Chapter 3: DataWarehousingand OLAPTechnology:AnOverviewWhat is adatawarehouse?A multi-dimensional datamodelData warehousearchitectureData

32、 warehouseimplementationFrom datawarehousingtodataminingSummary2020-03-0164数据挖掘掘:概念念与技术术总结:数据仓库库和OLAP技术为什么需需要数据据仓库?数据仓库库的多维维数据模模型Star schema,snowflake schema,factconstellationsA datacubeconsistsofdimensions &measuresOLAP操作: drilling,rolling,slicing,dicingand pivoting数据仓库库结构体体系OLAP服务器: ROLAP,MOLAP,HOLAP数据立方方体的有有效计算算Partial vs.full vs.nomaterializationIndexingOALP data:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论