数据挖掘[6-5]Cluster-HierMeth(16)_第1页
数据挖掘[6-5]Cluster-HierMeth(16)_第2页
数据挖掘[6-5]Cluster-HierMeth(16)_第3页
数据挖掘[6-5]Cluster-HierMeth(16)_第4页
数据挖掘[6-5]Cluster-HierMeth(16)_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Data Mining (Spring 2012), Tsinghua University0Data Model Review the basic concepts of database What is a data warehouse? A multi-dimensional data model Data warehouse architecture Data warehouse implementation From data warehousing to data miningData Mining (Spring 2012), Tsinghua University1数据立方体数

2、据立方体(1) 数据仓库基于一个多维度数据模型,以数据立方体的方式看待数据数据仓库基于一个多维度数据模型,以数据立方体的方式看待数据 一个数据立方体,例如销售量,允许数据进行建模,并在多个层面观看一个数据立方体,例如销售量,允许数据进行建模,并在多个层面观看 Dimension tables(维表)(维表), 例如项目例如项目(项目名字项目名字, 品牌品牌, 类型类型), 或者时间或者时间(天天, 周周,月月,季度季度,年年) Fact table (事实表)包含相关维度表的层组(例如销售额)和键(事实表)包含相关维度表的层组(例如销售额)和键 在数据仓库文献中在数据仓库文献中,一个一个n维基

3、本立方体被称为基本方体。维基本立方体被称为基本方体。 拥有最高级汇总拥有最高级汇总的最上层的的最上层的0维方体维方体, 被称为顶端立方体。长方体晶格形成了一个数据立方被称为顶端立方体。长方体晶格形成了一个数据立方体。体。Data Mining (Spring 2012), Tsinghua University2数据立方体数据立方体 (2) 维度和维度表维度和维度表 维度维度: 是一个组织要保留的观点或实体是一个组织要保留的观点或实体. 维度表维度表: 是进一步描述一个维度的一组属性是进一步描述一个维度的一组属性. 每个维度有可能有与之相联系的一个维度表每个维度有可能有与之相联系的一个维度表.

4、时间,项目,地点,供应者时间,项目,地点,供应者 事实事实 和事实表和事实表 事实事实: 衡量一个主题衡量一个主题 事实表事实表: 事实的表现事实的表现. 它包含每个相关维表的事实和键名。事实是数值,销售金额Data Mining (Spring 2012), Tsinghua University3Data Cube (3) 数据立方的维度数量数据立方的维度数量观察到的维度数量观察到的维度数量. Sales(item time location dollars_sold )基本方体基本方体: 包含所有在数据仓库中可以被观察到的维度的立方体包含所有在数据仓库中可以被观察到的维度的立方体.顶端立

5、方体顶端立方体: 不包含维度的立方体不包含维度的立方体.数据立方数据立方: 一个多维度数据模型中的所有立方体一个多维度数据模型中的所有立方体.Data Mining (Spring 2012), Tsinghua University4数据立方数据立方 One Example(1)ALLElectronics sales维度:维度:时间,项目,地点,品牌时间,项目,地点,品牌维度表:维度表:time(time_key day day_of_week month quarter year)item(item_key item_name brand type supplier_key)fact t

6、able:(time_key item_key brand_key location_key dollars_sold units_sold)Data Mining (Spring 2012), Tsinghua University5数据立方数据立方 One Example(2)2维数据立方:维数据立方:location”Vancouver” item(type)Time(quarter)entertainment computer security Q1 605 825 400 Q2 680 920 512 Q3 781 1026 501 Q4 824 1120 580Data Minin

7、g (Spring 2012), Tsinghua University6数据立方数据立方 One Example(3) 4维数据立方维数据立方家庭娱乐计算机电话安全Q1Q2Q3Q4VanciuerTorontoNew YorkChicagoitemtimeLocationsupplierData Mining (Spring 2012), Tsinghua University7Cube: A Lattice of Cuboidsalltimeitemlocationsuppliertime,locationtime,supplieritem,locationitem,supplierloc

8、ation,suppliertime,item,suppliertime,location,supplieritem,location,supplier0-D(apex) cuboid1-D cuboids2-D cuboids3-D cuboids4-D(base) cuboidData Mining (Spring 2012), Tsinghua University8数据仓库的概念模型数据仓库模型数据仓库模型: 维度维度&层组层组 星型模式星型模式: 中间的事实表和一组维度表相连中间的事实表和一组维度表相连 雪花模式雪花模式: 是星型模式的改进,一些维度层级标准化成一组更小的维度

9、是星型模式的改进,一些维度层级标准化成一组更小的维度表,形成类似雪花的形状表,形成类似雪花的形状 Fact constellations(事实星座)(事实星座):多个事实表共享维度表,看起来像星星的集合,因此被称为星系模式或事实星座Data Mining (Spring 2012), Tsinghua University9Example of Star Schema time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Tab

10、le time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchData Mining (Spring 2012), Tsinghua University10Example of Snowflake Schematime_keydayday_of_the_weekmonthquarteryeartimelocation_key

11、streetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycityData Mining (Spring 2012)

12、, Tsinghua University11Example of Fact Constellations Schematime_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeit

13、embranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipperData Mining (Spring 2012), Tsinghua University12在在DMQL的多维数据定义语法的多维数据定义语法 多维数据集定义(事实表事实表)define cube : 维度定

14、义维度定义(维度表维度表)define dimension as () 特例特例(共享维度表共享维度表) First time as “cube definition” define dimension as in cube Data Mining (Spring 2012), Tsinghua University13在在DMQL定义星型模式定义星型模式define cube sales_star time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollar

15、s), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, pro

16、vince_or_state, country)Data Mining (Spring 2012), Tsinghua University14在在DMQL定义雪花模式定义雪花模式define cube sales_snowflake time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month

17、, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, province_or_state, country)Data Mining (Spring 2012), T

18、singhua University15在在DMQL定义事实星座定义事实星座define cube sales time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name,

19、 brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)define cube shipping time, item, shipper, from_location, to_location:dollar_cost = sum(cost_in_dollars), unit_shipped = co

20、unt(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cub

21、e salesData Mining (Spring 2012), Tsinghua University16一个概念层级一个概念层级: 维度维度 一个概念层级定义了从一套更低级别的概念到更高、更一般的概念的映射一个概念层级定义了从一套更低级别的概念到更高、更一般的概念的映射序列。序列。类别类别:- 属性的层级属性的层级: 地点地点,省省,村村- 属性值的层级或分组属性值的层级或分组 对于一个给定的维度,或许会有不止一个概念层级对于一个给定的维度,或许会有不止一个概念层级.Data Mining (Spring 2012), Tsinghua University17一个概念层级一个概念层级:

22、 维度维度(地点地点)allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM. WindL. Chan.全部地区办公室国家TorontoFrankfurt城市Data Mining (Spring 2012), Tsinghua University18多维度数据多维度数据 作为产品,月份和地区的一个函数的销售量作为产品,月份和地区的一个函数的销售量ProductRegionMonth维度维度:产品产品,地点地点,时间时间层级汇总路径层级汇总路径Industry Region YearCategory Country QuarterPr

23、oduct City Month Week Office DayData Mining (Spring 2012), Tsinghua University19一个数据立方样本一个数据立方样本Total annual salesof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosumData Mining (Spring 2012), Tsinghua University20Cuboids Corresponding to the Cubeallproductdatecountryp

24、roduct,dateproduct,countrydate, countryproduct, date, country0-D(apex) cuboid1-D cuboids2-D cuboids3-D(base) cuboidData Mining (Spring 2012), Tsinghua University21数据仓库和层级结构的观察数据仓库和层级结构的观察 可视化可视化 OLAP功能功能 交互操作交互操作Data Mining (Spring 2012), Tsinghua University22典型的典型的OLAP 操作操作 上卷上卷(上钻上钻): 汇总数据汇总数据通过爬升

25、到更高的层级或者是减少维度通过爬升到更高的层级或者是减少维度 下钻下钻(下卷下卷): 与上卷相反与上卷相反从更高层级的汇总到更低层级的汇总或者使数据详细化,或者引进新的维度从更高层级的汇总到更低层级的汇总或者使数据详细化,或者引进新的维度 切片和切块切片和切块: 在一个或更多的维度上投射或选择在一个或更多的维度上投射或选择 旋转旋转 (rotate): 重新定位立方体重新定位立方体, 可视化可视化, 3D到一系列的到一系列的2D平面平面 其他操作其他操作交叉探查交叉探查: 涉及不止一个事实表涉及不止一个事实表钻取钻取: 从立方体的最底层到它后端的相关表从立方体的最底层到它后端的相关表(用用SQ

26、L)Data Mining (Spring 2012), Tsinghua University23典型的典型的OLAP 操作操作(1) Roll up 上卷上卷 (drill-up上钻上钻): 汇总数据汇总数据通过爬升到更高的层级通过爬升到更高的层级 (减少维度减少维度) roll-up on location from cities to countiesQ1Q2Q3Q4 Chicago New York Vancouver TV CD PC710 820 402471 605Q1Q2Q3Q4USACanada1181605 TV CD PCData Mining (Spring 2012

27、), Tsinghua University24典型的典型的OLAP 操作操作(2) Roll down下卷下卷 (Drill down下钻下钻): 与上卷相反与上卷相反从更高层级的汇总到更低层级的汇总或者使数据详细化,或者引进新的维度从更高层级的汇总到更低层级的汇总或者使数据详细化,或者引进新的维度 drill-down on time from quarters to monthsQ1Q2Q3Q4 Chicago New York Vancouver TV CD PC710 820 402471 605 TV CD PC New York Vancouver ChicagoJanFeb MarAprMayJunJulAugSepOctNovDec 102 150 150Data Mining (Spring 2012), Tsinghua University25典型的典型的OLAP 操作操作(3) Slice(切片切片) and dic

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论