《数据仓库与数据挖掘》课件-第4章:数据仓库使用_第1页
《数据仓库与数据挖掘》课件-第4章:数据仓库使用_第2页
《数据仓库与数据挖掘》课件-第4章:数据仓库使用_第3页
《数据仓库与数据挖掘》课件-第4章:数据仓库使用_第4页
《数据仓库与数据挖掘》课件-第4章:数据仓库使用_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析实务

第1章 数据仓库与数据挖掘概述

第四章数据仓库使用4.1 数据仓库与OLAP

4.2 元数据 4.3 数据仓库的管理4.4数据仓库的优化4.5主流数据仓库厂商及产品4.6基于AnalysisServices的数据仓库构建过程

4.1数据仓库与OLAP联机分析处理(On-LineAnalyticalProcessing,OLAP)4.1.1OLAP的概念

OLAP是使分析人员、管理人员或执行人员能够从多个角度对原始数据中转化出来的、能够真正为用户所理解并真实反映企业特性的信息进行快速、一致和交互性的存取,从而获得对数据本质内容的更深入了解的一类软件技术。4.1数据仓库与OLAP4.1.1OLAP的概念

OLAP是针对特定问题的联机数据分析,是数据仓库上的分析展示工具。它建立在数据多维视图的基础上,可以提供给用户强大的统计、分析、报表处理功能及进行趋势预测能力。其有两个重要特性:4.1数据仓库与OLAP4.1.1OLAP的概念

1.维2.多维数据集3.维成员4.度量值5.聚集4.1数据仓库与OLAP4.1.1OLAP的概念

销售地区西南华中华东四川云南河南湖北江苏上海1.维4.1数据仓库与OLAP4.1.1OLAP的概念

1.维id姓名年龄收入爱好性别是否购买10021张三404000/月户外运动男是20035李四233000/月读书看报男否30017王五171500/月唱歌跳舞女否40024赵六356300/月美食男是4.1数据仓库与OLAP4.1.1OLAP的概念

2.多维数据集产品名称销售地区销售数量电器电器电器服装服装服装江苏上海北京江苏上海北京940450340830350270江苏上海北京电器服装9408304503503402704.1数据仓库与OLAP4.1.1OLAP的概念

2.多维数据集产品名称销售地区销售数量电器电器电器电器服装服装服装服装汇总汇总汇总汇总江苏上海北京汇总江苏上海北京汇总江苏上海北京汇总9404503401730830350270145017708006103180江苏上海北京汇总电器服装汇总94083017704503508003402706101730145031804.1数据仓库与OLAP4.1.1OLAP的概念

2.多维数据集4.1数据仓库与OLAP4.1.1OLAP的概念

3.维成员

维的一个取值、不同维层次取值的组合、维成员描述所关心的主题在维中的位置数据单元可以表示为:(维1维成员,维2维成员,维3维成员,维4维成员,观察变量值)产品名称销售地区销售数量电器电器电器服装服装服装江苏上海北京江苏上海北京9404503408303502704.1数据仓库与OLAP4.1.1OLAP的概念

4.多维数据集的度量值

多维数据集的核心值(总数量,总金额等)5.聚集

立方体中包括很多层次,这些层次可以向用户提供某一层次的概括数据,通过聚集,形成基于维的有决策分析意义的一些数据交集4.1数据仓库与OLAP4.1.1OLAP的概念

4.1数据仓库与OLAP4.1.2OLAP与OLTP的区别

4.1数据仓库与OLAP4.1.3OLAP的好处

OLAP产品在众多行业中发挥着重要作用,并给它们带来巨大好处:4.1数据仓库与OLAP4.1.3OLAP的好处

(1)市场和销售分析:生活消费品行业:如各种化妆品、食品的生产厂商。通常每月或每周都会对市场状况和产品的销售情况分析一次。由于竞争激烈,此类行业通常需要复杂的分析和统计功能。零售业:如各大超市、连锁店。主要是电子销售网点的使用和会员卡的引入,给此行业产生了大量的数据。这种行业一般每周或每天对数据分析一次,且经常要求查看具体每一个顾客的数据。金融服务业:如银行、保险业。OLAP具在金融服务业中主要用于相关金融产品的销售分析,分析时要具体到每个客户。4.1数据仓库与OLAP4.1.3OLAP的好处

(2)点击流分析:电子商务网站记录了用户在网上的所有行为,为更精确的分析用户提供了可能性。一个典型的商务网站每天都会产生大量数据,简单的统计分析显然难以胜任,运用多维、分层的OLAP分析可以很好的把这些数据组织起来。4.1数据仓库与OLAP4.1.3OLAP的好处

(3)基于历史数据的营销:A、通过历史购买记录,得到对此项产品或服务感兴趣的用户。B、通过向有购买欲望的客户及时提供他想要得到的商品或服务,来提高客户忠诚度。C、找到“好”顾客的特点,利用其特点寻找有价值的顾客。4.1数据仓库与OLAP4.1.3OLAP的好处

(4)预算和利润分析A、预算制定者可以通过OLAP提供的工具浏览市场,销售、生产及合并计划等企业全方位的数据,得到一个较合理的方案,也可以利用这些数据自动制订出建议方案。B、通过OLAP工具对利润率的分析,可以知道企业能在哪里盈利,在哪里可能会出现亏损。4.1数据仓库与OLAP4.1.4数据仓库与OLAP

数据仓库是一个过程,包含那些通常表示某个企业的历史数据和一些应用程序。创建数据仓库不仅仅是抽取数据,还要对数据进行分类、综合,然后建立各自的数据表和表间的关联关系。通过分析这些历史数据,来支持对分散的组织单元进行从策略计划到性能评估的多级业务决策。对数据仓库中的数据进行组织是为了支持分析,而不像在联机事务处理系统中那样是为了处理实时事务。4.1数据仓库与OLAP4.1.4数据仓库与OLAP

OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。OLAP的多维数据模型和数据聚合技术可以组织并汇总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。OLAP系统可以快速灵活地为分析人员提供实时支持。通过组织和汇总数据,为高效分析查询创建多维数据集,OLAP为数据仓库数据提供了一种多维表现方式4.1数据仓库与OLAP4.1.4数据仓库与OLAP

数据仓库和OLAP是密不可分的4.1数据仓库与OLAP4.1.5OLAP多维数据分析

OLAP的目的是为决策管理人员提供一种灵活的数据分析、展现的手段,这是通过多维数据分析实现的。基本的多维数据分析概念包括切片、切块、旋转等。这些方法可以剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵。4.1数据仓库与OLAP4.1.5OLAP多维数据分析

切片选定多维数组的一个二维子集的操作叫做切片,即选定多维数组(维1,维2,……,维n,变量)中的两个维:如维i和维j,在这两个维上取某一区间或任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i和维j上的一个二维子集,称这个二维子集为多维数组在维i和维j上的一个切片,表示为(维i,维j,变量)。4.1数据仓库与OLAP4.1.5OLAP多维数据分析

切片4.1数据仓库与OLAP4.1.5OLAP多维数据分析

4.1数据仓库与OLAP4.1.5OLAP多维数据分析

切块选定多维数组(维1,维2,…,维n,变量)中的三个维:维I、维j和维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维I、维j和维r上的一个三维子集,我们称这个三维子集为多维数组在维I、维j和维r上的一个切块,表示为:(维I,维j,维r,变量)。切块和切片的作用与目的是相似的。4.1数据仓库与OLAP4.1.5OLAP多维数据分析

切块时间维的切片基础之上,如果将时间维上的取值设定为一个区间(例如,取“1990年~1999年”),而非单一的维成员时,就得到一个数据切块,它可以看成是由1990年~1999年10个切片叠合而成的4.1数据仓库与OLAP4.1.5OLAP多维数据分析

切块4.1数据仓库与OLAP4.1.5OLAP多维数据分析

钻取钻取有向下钻取(DrillDown)和向上钻取(DrillUp)操作。向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,而向上钻取是获取概括性的数据,也可称为上卷。4.1数据仓库与OLAP4.1.5OLAP多维数据分析

钻取95年公司各部门销售收入4.1数据仓库与OLAP4.1.5OLAP多维数据分析

钻取在时间维进行下钻(drilldown)操作4.1数据仓库与OLAP4.1.5OLAP多维数据分析

下钻4.1数据仓库与OLAP4.1.5OLAP多维数据分析

上卷4.1数据仓库与OLAP4.1.5OLAP多维数据分析

旋转旋转(turning)或称转轴(pivot)即是改变一个报告或页面显示的维方向,通过旋转可以得到不同视角的数据旋转可能包含了交换行和列;或是把某一个行维移到列维中去;或是把页面显示中的一个维和页面的另一个维进行交换,令其成为新一行或列中的一个4.1数据仓库与OLAP4.1.5OLAP多维数据分析

旋转4.1数据仓库与OLAP4.1.5OLAP多维数据分析

旋转2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962944.1数据仓库与OLAP4.1.5OLAP多维数据分析

旋转

北京市上海市天津市2002年1季度12313467

2季度5610373

3季度459859

4季度6687962003年1季度13410273

2季度5613969

3季度239762

4季度5582944.1数据仓库与OLAP4.1.5OLAP多维数据分析

旋转4.1数据仓库与OLAP4.1.5OLAP多维数据分析

4.1数据仓库与OLAP4.1.5OLAP多维数据分析

4.2元数据4.2.1元数据的概念

随着信息技术的迅速发展,应用范围的不断扩大,应用程度的日益深化,数据规模增长速度也在不断加快。大量的数据如果得不到良好的管理,就不能产生实际的应用,从而导致“数据泛滥,信息贫乏”的恶果。数据仓库中为了对大量数据进行有效的管理,采用了“元数据”机制,也正是因为有了元数据,用户才能更为有效地使用和维护数据仓库,从而实现对决策的支持4.2元数据4.2.1元数据的概念

元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。4.2元数据4.2.1元数据的概念

元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据。元数据的主要作用是对数据仓库中的各种业务数据的性质作出说明,从而使每个数据都具有其在客观世界中的确切含义4.2元数据4.2.1元数据的概念

使用过数码相机的同学都应该知道,每张数码照片都会存在一个EXIF信息。它就是一种用来描述数码图片的元数据。根据EXIF标准,这些元数据包括:ImageDescription(图像描述、来源.指生成图像的工具)、Artist(作者)、Make(生产者)、Model(型号)、…、等等。4.2元数据4.2.1元数据的概念

4.2元数据4.2.1元数据的概念

4.2元数据4.2.1元数据的概念

4.2元数据4.2.1元数据的概念

Tom是一个年龄为30岁的男性员工数据库XML配置文件一张便条上4.2元数据4.2.1元数据的概念

要把数据的存储方式由数据库改为XML文档,那么就必须针对XML文件的存取特点重新进行抽象。由于抽象方式是平台相关的,这些抽象出来的模型就不具有通用性,无法通过统一的方式来读取它们。比如要读懂T_Employee这张表中的字段的含义就要去查阅数据字典,要读懂便条上的“Tom30m”就要去询问写便条的人。4.2元数据4.2.1元数据的概念

元数据通过统一的、平台无关的、规范的方式对数据的模式特征进行描述,通过一个模型结构来表达通用的信息,它集设计模型、开发模型与运行模型为一体。元数据独立于平台之外!4.2元数据元数据的分类

元数据按其所描述的内容,可以分为三类关于基本数据的元数据关于数据处理的元数据关于企业组织的元数据4.2元数据元数据的分类

关于基础数据的元数据在数据仓库系统中,基本数据是指数据源、数据集市、数据仓库以及由应用程序所存储和管理的所有数据的总和。关于基本数据的元数据即包含了与上述各部分数据有关的内容。4.2元数据元数据的分类

关于数据处理的元数据数据处理主要指数据的抽取、转换、加载、更新、数据完整性与一致性的检查、缺失数据的补充等方面的工作。关于数据处理的元数据定义了同这些工作相关联的规则,它包括过滤器、联结器和聚合器等部件4.2元数据元数据的分类

关于企业组织的元数据所有与企业组织有关的信息,如数据集市/数据仓库的所有者、管理者的界定,以及各类用户使用系统的权限范围等,均由此类元数据加以说明。因此,这类元数据对于数据仓库的安全具有特殊意义。4.2元数据元数据的分类

元数据按用户对数据仓库的认识和使用目的可分为两类技术元数据业务元数据4.2元数据元数据的分类

技术元数据1、数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;2、业务系统、数据仓库和数据集市的体系结构和模式;3、汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;4、由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。4.2元数据元数据的分类

业务元数据业务元数据从业务角度描述了数据仓库中的数据,包括:1、使用者的业务术语所表达的数据模型、对象名和属性名;2、访问数据的原则和数据的来源;3、系统所提供的分析方法、公式和报表的信息;4.2元数据元数据的分类

元数据可分为三种模型企业概念模型多维数据模型业务概念模型和物理数据关联4.2元数据元数据的分类

企业概念模型表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。4.2元数据元数据的分类

多维数据模型业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。4.2元数据元数据的分类

概念模型与物理模型的关联以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。4.2元数据4.2.2元数据的作用

元数据在数据开发/重构中的作用描述业务规则与数据之间的映射作为数据分割的依据提高系统灵活性的手段定义标准处理的规则4.2元数据4.2.2元数据的作用

元数据在数据抽取/转换中的作用4.2元数据4.2.2元数据的作用

确定数据来源元数据不仅要说明数据源来自何处,还应对数据源和目标数据之间的对应关系做出详细说明,这也是对传统的数据字典的重要补充。4.2元数据4.2.2元数据的作用

保证数据仓库内容质量数据仓库内容的质量,包括数据的一致性(数据描述统一、无定义混淆与内容冲突)、完整性(数据无缺失)、精确性(数据的精确度与可信度符合要求)、正确性(数据存储值与设计字段的意义吻合)等。元数据中应包含必要的规则,以保证数据内容达到上述质量标准。此外,元数据还应包括必要的规则,负责跟踪应用系统的更新,升级所造成的数据源的变化,包括数据结构的改变、合并或重组,数据类型的变化,关键字段的变化等。4.2元数据4.2.2元数据的作用

实现属性间的映射与转换在多个数据源中的多个相似字段,只有建立映射,才可以在数据仓库中加载到同一目标字段中。元数据中的数据属性内容对此做出详细的说明。此外,在字段的抽取和加载过程中,源字段与目标字段的属性定义可能不同,因此其属性可能需要进行转换,如变量类型的变化、长度的变化等。元数据定义了数据属性的转换过程,通过截断、取舍等方法,实现这些字段的兼容,以保证数据抽取加载的完成。4.2元数据4.2.2元数据的使用

4.4数据仓库优化技术索引技术在数据仓库的优化中使用高效的索引技术不仅是是可行的,而且必要的。数据仓库面向分析型应用,其数据是相对稳定的,对数据仓库的操作主要是读取查询数据,很少进行更新。基于数据仓库的上述特点,在可以采用一些复杂的索引来提高数据仓库的查询性能。4.4数据仓库优化技术索引技术数据仓库管理系统中的索引能够提供一个相对快捷的方式定位数据。常用的索引技术如下4.4数据仓库优化技术B树索引B树是一种动态调节的平衡树,它引入了一种效率很高的外查找机制,比较适合于字段值分散且重复值少的字段。一个B树索引包含一个由高层结点和相继低层结点组成的层次结构。在B树索引中有两类结点:1、分支结点:简单地指向相应的低层结点(根节点就是最顶层的分支节点)。2、叶子结点:存放B树查找的实际内容。即包含指向叶子所对应的行的实际位置。4.4数据仓库优化技术B树索引在B树索引中,一个非常重要的变量就是建立在键值基础上的分区索引。根据一定范围的键值,表被分解成若干小部分(分区)。利用时间进行分区是常用的方法。B树结构的特点是简洁性、易维护性及支持具有高可选择性列值的高速检索。表的大小对于从其相应表中提取用B树索引的数据的速度差别很小,甚至没有影响。4.4数据仓库优化技术B树索引4.4数据仓库优化技术B树索引4.4数据仓库优化技术B树索引需要较少I/O操作适合于高基数的列查询速度较快节省内存空间索引空间的需求独立于被索引列的基数索引层次与文件大小相适应易于创建优点4.4数据仓库优化技术B树索引宽范围查询I/O代价相对较高低基数的列效果不好获取数据之前索引不能合并不支持即席查询缺点4.4数据仓库优化技术位图索引位图索引是数据仓库系统最常用的索引技术,能够消除查询中的连接操作,因为它实际上已经将连接的结果保存在索引当中了。而且,相对于在表的连接列上建普通位图索引来说,位图连接索引需要更少的存储空间。4.4数据仓库优化技术位图索引假设在一个与销售事实相对应的数据立方中,有一个顾客的性别属性Gender,一个是产品的种类属性Item。其中Gender属性有两个不同的值:“M”和“F”。产品的种类属性Item有四个不同的取值:“a”,“b”,“c”和“d”。设数据立方中共有8个元组。如果在Gender属性上建立位图索引则需要2个位向量,每个向量共8位。在Item上建立位图索引需要四个位向量,每个向量共8位。4.4数据仓库优化技术位图索引4.4数据仓库优化技术位图索引表名为table的表,由三列组成,分别是姓名、性别和婚姻状况,其中性别只有男和女两项,婚姻状况由已婚、未婚、离婚这三项,该表共有100w个记录。现在有这样的查询:select*fromtablewhereGender=‘男’andMarital=“未婚”;4.4数据仓库优化技术位图索引4.4数据仓库优化技术位图索引

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论