数据仓库和数据挖掘的OLAP技术课件_第1页
数据仓库和数据挖掘的OLAP技术课件_第2页
数据仓库和数据挖掘的OLAP技术课件_第3页
数据仓库和数据挖掘的OLAP技术课件_第4页
数据仓库和数据挖掘的OLAP技术课件_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆)2023/6/7数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库-数据挖掘的有效平台。数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤。数据仓库提供OLAP工具,可用于不同粒度的数据分析。很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现。分类预测关联聚集2.1什么是数据仓库数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)20世纪80年代中期,“数据仓库”这个名词首次出现在号称“数据仓库之父”W.H.Inmon的《BuildingDataWarehouse》一书中。在该书中,W.H.Inmon把数据仓库定义为“一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程”。2.1.1数据仓库的定义数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库还有许多不同的定义,如:“数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段”。“数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程”。“数据仓库是一种具有集成性、稳定性和提供决策支持的处理”。“为查询和分析(不是事务处理)而设计的关系数据库”数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)在众多的数据仓库定义中,公认的仍然是W.H.Inmon的定义,该定义指出了数据仓库面向主题、集成、稳定、随时间变化这4个最重要的特征。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)(1)面向主题

主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。如顾客、供应商、产品和销售组织等。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)(2)集成数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、综合等工作。这是因为:1)原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理。在进入数据仓库之前必须经过综合、计算,同时抛弃一些分析处理不需要的数据项,必要时还要增加一些可能涉及的外部数据。2)数据仓库每一个主题所对应的源数据在源分散数据库中有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量;显然,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决策。3)源数据加载到数据仓库后,还要根据决策分析的需要对这些数据进行概括、聚集处理。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)(3)稳定性即非易失的业务系统的数据库中一般只存储短期数据,因此在数据库系统中数据是不稳定的,它记录的是系统中数据变化的瞬态。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有大量历史数据的支持是难以进行企业的决策分析的,因此数据仓库中的数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)(4)随时间而变化即时变的数据仓库中数据是批量载入的,是稳定的,这使得数据仓库中的数据总是拥有时间维度。从这个角度,数据仓库实际是记录了系统的各个瞬态,并通过将各个瞬态连接起来形成动画,从而在数据分析的时候再现系统运动的全过程。数据批量载入(提取)的周期实际上决定了动画间隔的时间,数据提取的周期短,则动画的速度快。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.1.2数据仓库与操作数据库系统的区别操作数据库系统的主要任务是联机事务处理OLTP日常操作:购买,库存,银行,制造,工资,注册,记帐等。数据仓库的主要任务是联机分析处理OLAP数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)OLTP和OLAP的比较(1/3)用户和系统的面向性面向顾客(事务)面向市场(分析)。数据内容当前的、详细的数据历史的、汇总的数据。数据库设计实体-联系模型(ER)和面向应用的数据库设计星型/雪花模型和面向主题的数据库设计。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)OLTP和OLAP的比较(2)数据视图当前的、企业内部的数据经过演化的、集成的数据。访问模式事务操作只读查询(但很多是复杂的查询)任务单位简短的事务复杂的查询。访问数据量数十个数百万个。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)OLTP和OLAP的比较(3)用户数数千个数百个。数据库规模100M~数GB100GB~数TB。设计优先性高性能、高可用性高灵活性、端点用户自治。度量事务吞吐量查询吞吐量、响应时间。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.1.3为什么需要一个分离的数据仓库?提高两个系统的性能DBMS是为OLTP而设计的:存储方式、索引、并发控制和恢复。数据仓库是为OLAP而设计:复杂的OLAP查询、多维视图和汇总。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)不同的功能和不同的数据:历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护。数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)。数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.1.4数据仓库中的关键名词

1.ETL(Extract/Transformation/Load)—数据抽取、转换、加载工具ETL工具就是进行数据的抽取、转换和加载工具。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)(1)数据提取(DataExtract) 从业务数据库只需提取出系统分析必需的那一部分数据。例如,某超市确定以分析客户的购买行为为主题建立数据仓库,则我们只需将与客户购买行为相关的数据提取出来,而超市服务员工的数据就没有必要放进数据仓库。现有的数据仓库产品几乎都提供各种关系型数据接口,提供提取引擎,从关系型数据中提取数据。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)

(2)数据转换(DataTransform)由于业务系统可能使用不同的数据库厂商的产品,比如IBMDB2、Oracle、Informix、Sybase、NCRTeradata、SQLServer等,各种数据库产品提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式。如时间格式“年/月/日”,“月/日/年”、“日-月-年”的不一致问题等。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)

(3)数据清洗(DataClean)所谓“清洗”就是将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响决策支持系统决策的正确性。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆) (4)数据加载(DataLoad) 数据加载部件负责将数据按照物理数据模型定义的表结构装入数据仓库,包括清空数据域、填充空格、有效性检查等步骤。 数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)

2.元数据(MetaData) “什么是元数据?”元数据是描述数据的数据。在数据仓库中,元数据是定义数据仓库对象的数据。元数据包括相应数据仓库的数据名和定义、数据提取操作时被提取数据的时间和地点以及数据清理或数据集成过程添加的字段等。它提供了有关数据的环境,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。CREATETABLEstudent{noint;namechar(10);sexchar(2);classchar(8);}nonamesexclass1张三男1301…………数据数据的数据:元数据数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)

3.数据集市(DataMarket) 数据仓库中存放的是整个企业的信息,并且数据是按照不同主题来组织的。比如市场发展规律的分析主题主要由市场部门的人员使用,我们可以在逻辑上或者物理上将这部分数据分离出来,当市场部门人员需要信息时,不需要到数据仓库的巨量数据中检索,而只需在相应的部门数据上进行分析,因此从效率和处理速度的角度出发,这种划分是合算的。

这种面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市。换句话说,数据集市包含了用于特殊目的数据仓库的部分数据。 数据仓库面向整个企业,而数据集市则是面向企业中的某个部门。典型示例是销售部门、库存和发货部门、财务部门和高级管理部门等的数据集市。数据仓库中存放了企业的整体信息,而数据集市只存放了某个主题需要的信息,其目的是减少数据处理量,使信息的利用更快捷、灵活。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆) 4.OLAP OLAP(On-lineAnalyticalProcessing,在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对大量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。

数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.2多维数据模型2.2.1由表到数据立方体数据仓库和OLAP工具基于多维数据模型。

在多维数据模型中,数据以数据立方体(datacube)的形式存在。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据立方体允许以多维数据建模和观察。它由维和事实定义。维是人们观察数据的特定角度,是考虑问题时的一类属性。属性的集合构成一个维(如时间维、机构维等)。维分层:同一维度还可以在细节程度不同的各个描述方面(如时间维可包含年、季度、月份和日期等)。维属性:维的一个取值,是数据项在某维中位置的描述(如2013年11月2日在时间维上位置的描述)。每个维都有一个表与之相关联,称为维表。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)一个数据立方体:数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)多维数据模型围绕中心主题组织,该主题用事实表表示。事实表包括事实的名称或度量以及每个相关维表的关键字。事实指的是一些数字度量。学生课程分数100120018910022002831005200490┇┇┇学号姓名班号1张三1201┇┇┇学生1001┇课程编号名称20011C++┇┇┇学生维表成绩事实表课程维表数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)OLTP系统是为了快速回答简单查询,而不是为了存储分析趋势的历史数据而创建的。一般的OLTP提供了大量的原始数据,这些数据不易被分析。查询某人买房记录。查询某房的价值。…一个英国房屋销售系统:两个系统数据组织模式比较示例1来源于事务型的数据库,如采用关系型数据库进行数据存储数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库需要回答更复杂的查询,而不仅仅是一些像“英国主要城市的商品平均销售价格是多少”之类的简单聚集数据查询。数据仓库需要回答的查询类型可以是简单的查询,也可以是高度复杂的,且还与终端用户使用的查询工具相关。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2008年第三季度,整个英格兰的总收入是多少?2007年英国每一类房产销售的总收入是多少?2008年租借房产业务中每个城市哪个地域最受欢迎?与过去的两年相比有何不同?每个分支机构本月的房产销售月收入是多少,并与刚过去的12个月相比较。如果对于10万英镑以上的房产,法定价格上升3.5%而政府税收下降1.5%,对英国不同区域的销售会产生什么影响?在英国主要城市中,哪种类型的房产销售价格高于平均房产销售价格?这与人口统计数据有何联系?英国房屋销售数据仓库系统:来源于已处理的或汇总的数据,要预先采用数据结构如多维模型存放这些汇总的数据。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)

两个系统数据组织模式比较示例2数据库系统数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)面向“商品”、“供应商”和“顾客”的数据仓库系统商品数据仓库结构供应商数据仓库结构顾客数据仓库结构来源于的前面的多个表的数据数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)从上述实例,不难看出:在从面向应用到面向主题的转变过程中,丢弃了原来有的但不必要的、不适于分析的信息;在原有的数据库模式中,有关商品的信息分散在各个子系统之中;面向主题的数据组织方式所强调的就是要形成关于主题一致的信息集合;不同主题之间有重叠内容。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.2.2多维数据模型

time_keydayday_of_the_weekmonthquarteryeartime维表location_keystreetcitystate_or_provincecountrylocation维表Sales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitem维表branch_keybranch_namebranch_typebranch维表数据仓库:事实表+维表度量数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)在数据仓库中,数据立方体是n-D的(n维)(关系表和电子表格是几维的?)多维数据模型为不同角度上的数据建模和观察提供了一个良好的基础。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)示例AllElectronics的销售数据按维time,item的2-D视图。location=“Vancouver“(温哥华)item(类型)time(季度)家庭娱乐

计算机电话安全Q160582514400Q268095231512Q3812102330501Q4927103838580数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)AllElectronics的销售数据按维time,item和location的3-D视图。location=“Chicage”itemtime

家庭娱乐计算机电话安全Q185488289623Q294389064698Q3103292459789Q4112999263870location=“NewYork”itemtime家庭娱乐计算机电话安全Q1108796838623Q294389064698Q3103292459789Q4112999263870...数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)AllElectronics的销售数据按维time、item和location的3-D视图的3-D数据立方体表示。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)销售数据的4-D立方体表示。4维分别是time、item、location和supplier。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)一个n维的数据的立方体叫做基本立方体。给定一个维的集合,我们可以构造一个立方体的格,每个都在不同的汇总级或不同的数据子集显示数据,立方体的格称为数据立方体。0维立方体存放最高层的汇总,称作顶点立方体;而存放最底层汇总的立方体则称为基本立方体。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据立方体格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0维-顶点立方体1维-立方体2维-立方体3维-立方体4维-基本立方体数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)i-1维立方体i维立方体上卷下钻i越大,数据越细数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.2.3数据仓库的概念模型最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。

星型模式(Starschema):事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。1.星型模式数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)星型模式实例

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationsales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch维表度量维表维表维表数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)雪花模式(Snowflakeschema):是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。2.雪花模式数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)雪花模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationsales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity星型模式雪花模式维表规格化维表度量维表维表维表维表维表数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)事实星座(Factconstellations):多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式(galaxyschema),或者事实星座(factconstellation)。2.事实星座模式数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)事实星座模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationsales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch航运事实表time_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper星型/雪花模式事实模式多个事实表共享维表度量维表维表维表维表维表数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.2.4一种数据仓库查询语言:DMQLDMQL首先包括定义数据仓库和数据集市的语言原语,这包括两种原语定义:一种是立方体定义,一种是维定义立方体定义(事实表)definecube<cube_name>[<dimension_list>]:<measure_list>维定义(维表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)实例:使用DMQL定义星型模式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)星型模式实例

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationsales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch维表度量数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)实例:使用DMQL定义雪花模式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)雪花模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationsales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity星型模式雪花模式维表规格化维表度量数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)实例:使用DMQL定义事实星座模式definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)事实星座模式实例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationsales事实表time_keyitem_keybranch_keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch航运事实表time_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper星型/雪花模式事实模式多个事实表共享维表维表度量数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.2.5度量的分类一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类:分布的:将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。比如:count(),sum(),min(),max()等代数的:函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以由一个分布的聚集函数求得。比如:avg(),min_N(),standard_deviation()整体的:描述函数的子聚集所需的存储没有一个常数界。比如:median(),mode(),rank()数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.2.6概念分层

一个概念分层(concepthierarchy)定义一个映射序列,将低层概念映射到更一般的高层概念例如表示location的概念:杭州浙江中国亚洲。概念分层允许我们在各种抽象级审查和处理数据。概念分层可以由系统用户、领域专家、知识工程师人工地提供,也可以根据数据分布的统计分析自动地产生。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)概念分层:location维的一个概念分层allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity许多概念分层的定义隐含在数据库的模式中。比如:location维的定义,office<city<country<region;这些属性按一个全序相关,形成一个层次结构:yeardayquartermonthweek维的属性也可以组成一个偏序,形成一个格:数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)price属性上的概念分层数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)概念层次是一个偏序集(H,<),其中,H是概念的一个有限集,<是关于H的一个偏序。年月季度日星期数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)概念分层——使用概念分层为不同级别上的数据汇总提供了一个良好的基础综合概念分层和多维数据模型的潜力,可以对数据获得更深入的洞察力通过在多维数据模型中,在不同的维上定义概念分层,使得用户在不同的维上从不同的层次对数据进行观察成为可能。多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.2.7多维数据模型上的OLAP操作上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维归约。当用维归约进行上卷时,一个或多个维由给定的数据立方体删除。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)示例:OLAP操作-上卷在location上卷(由cities到countries汇总)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现(为给定数据添加更多细节)。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)示例:OLAP操作-下钻在time下钻(由quarters到months细化)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)切片和切块(sliceanddice)

切片操作在给定的数据立方体的一个维上进行选择,导致一个子方切块操作通过对两个或多个维进行选择,定义子方。切块操作在给定的数据立方体的多个维上进行选择,导致一个子方切块操作通过对两个或多个维进行选择,定义子方。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)示例:OLAP操作-切片切片条件:time=“Q2”数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)示例:OLAP操作-切块切块条件:(location=“Montreal”or“Vancouver”)and(time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)转轴(pivot)立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列。转轴是一种可视化操作,通过转动当前数据的视图来提供一个数据的替代表示。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)示例:OLAP操作-转轴转轴数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)其他OLAP操作钻过(drill_across):执行涉及多个事实表的查询。钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表。其他OLAP操作可能包括列出表中最高或最低的N项,以及计算移动平均值、增长率、利润、统计函数等等。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.3数据仓库的系统结构2.3.1数据仓库的设计步骤和结构设计和构造数据仓库、三层数据仓库结构。介绍中小型数据仓库的一般设计方法。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库给商业分析专家提供了什么?通过提供相关数据与信息,获得竞争优势。通过有效地收集精确地描述组织的数据,获得生产力的提高。通过提供不同级别(部门、市场、商业)的客户视图,协助客户关系管理。通过追踪长期趋势、异常等,降低成本。有效构建数据仓库的关键:理解和分析商业需求通过提供一个商业分析框架,综合各种不同的数据使用者的视图。1.数据仓库设计:一个商务分析框架数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库设计的四种视图自顶向下视图允许我们选择数据仓库所需的相关信息。数据源视图揭示被操作数据库系统所捕获、存储和管理的信息。数据仓库视图由事实表和维表所组成。商务查询视图从最终用户的角度透视数据仓库中的数据。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.数据仓库的设计过程自顶向下法、自底向上法或者两者的混合方法自顶向下法:由总体设计和规划开始在技术成熟、商业理解透彻的情况下使用。自底向上法:以实验和原型开始常用在模型和技术开发的初期,可以有效的对使用的技术和模型进行评估,降低风险。混合方法:上述两者的结合从软件工程的观点瀑布式方法:在进行下一步前,每一步都进行结构化和系统的分析。螺旋式方法:功能渐增的系统的快速产生,相继版本之间间隔很短。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)典型的数据仓库设计过程选取待建模的商务过程找到所构建的数据仓库的主题,比如:销售、货运、订单等等。选取商务过程的颗粒度数据起始于多细的颗粒度,比如,记录每条详细订单,或是开始于每日的汇总数据。选取用于每个事实表记录的维常用的维有:时间、货物、客户、供应商等。选取将安放在事实表中的度量常用的数字度量包括:售价、货物数量等。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.3.2三层数据仓库架构数据仓库提取清理转换装入刷新OLAP服务器查询报告分析数据挖掘监控、整合元数据存储数据源前端工具输出数据集市操作数据库其他外部信息源数据仓库服务器OLAP服务器底层中间层前端层数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)底层:数据仓库的数据库服务器关注的问题:如何从这一层提取数据来构建数据仓库(通过网关(ODBC,JDBC,OLE/DB等)来提取)。中间层:OLAP服务器关注的问题:OLAP服务器如何实施(关系型OLAP,多维OLAP等)。前端客户工具层关注的问题:查询工具、报表工具、分析工具、挖掘工具等。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)从体系结构的角度去看,数据仓库模型有以下三种:企业仓库搜集关于跨越整个组织的主题的所有信息。数据集市企业范围数据的一个子集,对于特定的客户是有用的。其范围限于选定的主题,比如一个商场的数据集市。独立的数据集市VS.非独立的数据集市(数据来自于企业数据仓库)。虚拟仓库操作数据库上的一系列视图。只有一些可能的汇总视图被物化。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库开发上的困难自顶向下的开发方法从全系统的角度提供解决方案,使得(模块)集成的问题最小;但是该方法十分昂贵,需要对组织进行长期研究和建模分析。自底向上方法提供了更多的开发灵活性,价格便宜;但往往会遇到集成问题(每个模块单独运行都没有问题,但是一集成就出异常)。解决方法使用递增性、演化性的开发方法高层数据模型企业仓库和数据集市并行开发通过分布式模型集成各数据集市多层数据仓库。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.3.3OLAP服务器类型逻辑上,OLAP服务器从数据仓库或数据集市中给商业用户提供多维数据物理上,OLAP的底层数据存储实现可以有多种不同的方式关系OLAP服务器(ROLAP)使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用OLAP中间件支持其余部分。包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务。较大的可扩展性。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)多维OLAP服务器(MOLAP)基于数组的多维存储引擎(稀疏矩阵技术)。能对预计算的汇总数据快速索引。混合OLAP服务器(HOLAP)结合上述两种技术,更大的使用灵活性。特殊的SQL服务器在星型和雪花模型上支持SQL查询。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)2.4数据仓库的实现数据仓库中的OLAP查询是一种海量数据计算(想象一下对过去10年各地区的软件产品销售的汇总查询)用户却希望这个计算能在数秒钟内完成解决方法在于给出一种有效的计算数据立方体的方法汇总的数据立方体可以被看成是一个立方体的格最底层的立方体是基本立方体最顶端的立方体(顶点)只包含一个单元的值一个n维的数据立方体,每维Li层,可能产生的立方体总数是多少?2.4.1数据立方体的有效计算1表示原始数据即all层数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)编号日期商品地区数量12011.5.10长虹电视机南京市…122011.5.20美的微波炉上海市…232011.6.2……142011.6.10……252011.7.12……362011.8.18……2……………事实表(可看成是基本立方体):一个立方体是某种汇总的结果数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)地区维(上卷到省市)日期维(上卷到季度)商品维(上卷到商品类别)一个立方体(3维)立方体是OLAP的基础。例如:对比江苏和上海在2010二季度的日用品销售情况当上述立方体存在时,其计算过程就非常快。数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)(商品)(地区)()(日期)(地区,商品)(地区,日期)(商品,日期)(地区,商品,日期)当Li=1时(没有概念分层),T=2n这里有8个立方体。立方体格:数据仓库和数据挖掘的OLAP技术(武汉大学李春葆)则立方体总数T=(4+1)×(3+1)×(2+1)=60个尽管立方体可以提高OLAP的效率,但事先产生所有的立方体是不现实的。年月季度日假设日期:4层假设地区:假设商品:商品大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论