数据仓库与数据挖掘课件1 (2)_第1页
数据仓库与数据挖掘课件1 (2)_第2页
数据仓库与数据挖掘课件1 (2)_第3页
数据仓库与数据挖掘课件1 (2)_第4页
数据仓库与数据挖掘课件1 (2)_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1数据仓库原理数据仓库原理22.1 数据仓库结构体系数据仓库结构体系2.2 数据仓库的数据模型数据仓库的数据模型2.3数据抽取、转换和装载数据抽取、转换和装载2.4 元数据元数据32.1 数据仓库结构体系数据仓库结构体系2.1.1 数据仓库结构数据仓库结构2.1.2数据集市及其结构数据集市及其结构2.1.3 数据仓库系统结构数据仓库系统结构2.1.4 数据仓库运行结构数据仓库运行结构4 近期基本数据:近期基本数据:是最近时期的业务数据,是数是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。据仓库用户最感兴趣的部分,数据量大。 历史基本数据:历史基本数据:近期基本数据随时间的推移,近

2、期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。由数据仓库的时间控制机制转为历史基本数据。 轻度综合数据:轻度综合数据:是从近期基本数据中提取出的,是从近期基本数据中提取出的,这 层 数 据 是 按 时 间 段 选 取 , 或 者 按 数 据 属 性这 层 数 据 是 按 时 间 段 选 取 , 或 者 按 数 据 属 性(attributesattributes)和内容(和内容(contentscontents)进行综合。进行综合。 高度综合数据层:高度综合数据层:这一层的数据是在轻度综合这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。数据基础上的再一次综

3、合,是一种准决策数据。 元元数数据据 高高度度综综合合数数据据轻轻度度综综合合数数据据当当前前基基本本数数据据历历史史数数据据层层 6 数据粒度数据粒度 定义 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 粒度深深地影响存放在数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类型。 在数据仓库中的数据粒度与查询的详细程度之间要做出权衡。 当提高粒度级别时,数据所能回答查询的能力会随之降低。换言之,在一个很低的粒度级别上,几乎可以回答任何问题,但在高粒度级别上,数据所能处理的问题的数量是有限的。 7 左图是一个低粒

4、度级,每个活动(在这里是一次电话)被详细记录下来,数据的格式如图所示。到月底每个顾客平均有200条记录(全月中每个电话都记录一次),因而总共需要40000个字节; 右图的边是一个高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只有一个记录,这样的记录大约只需200个字节。 8问题:“上星期某某顾客是否给某某人打了电话?” 在低粒度级别上,完全可以回答这一问题,虽然这种回答将花费大量资源去查询大量的记录,但是问题结果是可以确定的。 在高粒度级别上,则无法明确地回答这个问题。假如在数据仓库中存放的只是所打电话的总数,那么就无法确定其中是否有一个电话是打给某人的。 9n数据仓库工作范围和成

5、本常常是巨大的。开发数数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。据仓库是代价很高、时间较长的大项目。n提供更紧密集成的数据集市就应运产生。提供更紧密集成的数据集市就应运产生。n目前,全世界对数据仓库总投资的一半以上均集目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。中在数据集市上。10n数据集市(数据集市(Data MartsData Marts)是一种更小、更集是一种更小、更集中的数据仓库,为公司提供分析商业数据的中的数据仓库,为公司提供分析商业数据的一条廉价途径。一条廉价途径。nData MartsData Marts是指具有特定应用的数据仓库

6、,是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场支持用户获得竞争优势或者找到进入新市场的具体解决方案。的具体解决方案。113.数据集市与数据仓库差别数据集市与数据仓库差别(1)数据仓库是基于整个企业的数据模型建立的,)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。

7、也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。)数据集市的数据组织一般采用星型模型。大型数据仓库的数据组织,如大型数据仓库的数据组织,如NCR公司采用第三范式。公司采用第三范式。12 1 1、规模是小的规模是小的2 2、特定的应用、特定的应用3 3、面向部门面向部门4 4、由业务部门定义,设计和开发、由业务部门定义,设计和开发5 5、由业务部门管理和维护、由业务部门管理和维护6 6、快速实现快速实现7 7、购买较便宜、购买较便宜8 8、投资快速回收投资快速回收9 9、更详细的、预先存在的数据仓库的摘要子集、更详细的、预先存在的数据仓库的摘要子集1010、可升级到完整的数据仓库可升

8、级到完整的数据仓库13独立数据集市独立数据集市(Independent Data Mart)(Independent Data Mart)从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data Mart)14 数据仓库系统由数据仓库(数据仓库系统由数据仓库(DWDW)、)、仓库管理和分析工仓库管理和分析工具三部分组成。具三部分组成。2.1.2 数据仓库系统结构数据仓库系统结构15 (1)数据建模)数据建模数据建模是建立数据仓库的数据模型。数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据模型在于:数据仓库的数据模型不同于数据库的数据

9、模型在于:数据仓库只为决策分析用,不包含事务处理的数据。数据仓库只为决策分析用,不包含事务处理的数据。数据仓库的增加了时间属性数据。数据仓库的增加了时间属性数据。数据仓库增加了一些综合数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的逻辑数据数据仓库的数据建模是适应决策用户使用的逻辑数据模型。模型。 16(2)数据抽取、转换、装载)数据抽取、转换、装载n数据仓库中的数据,是通过在源数据中数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模的要求进行数据转换,再按物理数据模型的要求装载到数据

10、仓库中去。型的要求装载到数据仓库中去。n数据抽取、转换、装载(数据抽取、转换、装载(ETL)是建立)是建立数据仓库的重要步骤,需要花费开发数数据仓库的重要步骤,需要花费开发数据仓库据仓库70%的工作量。的工作量。17(1 1)查询工具)查询工具 数据仓库的查询不是指对记录级数据的查数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。询,而是指对分析要求的查询。 一般包含:一般包含: 可视化工具:可视化工具:以图形化方式展示数据,可以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。以帮助了解数据的结构,关系以及动态性。18 (2 2)多维分析工具()多维分析工具(OLAP

11、OLAP工具)工具) 通过对信息的多种可能的观察形式进行快速、一致和交互性的通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。存取,这样便利用户对数据进行深入的分析和观察。 多维数据的每一维代表对数据的一个特定的观察视角,如时间、多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。地域、业务等。(3 3)数据挖掘工具)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘(从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Data MiningMining)工具。工具。19 数据仓库应用是一个典型的客户数据仓

12、库应用是一个典型的客户/ /服务器(服务器(C/SC/S)结构形结构形式:式: 客户端所做的工作:客户交互、格式化查询、结果显示、客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。报表生成等。 服务器端完成各种辅助决策的服务器端完成各种辅助决策的SQLSQL查询、复杂的计算和各查询、复杂的计算和各类综合功能等。类综合功能等。 客 户 端 数 据 仓 库 服 务 器 20客 户 端OLAP 服 务 器数 据 仓 库服 务 器 OLAPOLAP服务器将加强和规范化决策支持的服务工服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数

13、据仓库服务器的部分工作,降低了系统数据传输量。分工作,降低了系统数据传输量。 这种结构形式工作效率更高。这种结构形式工作效率更高。21 数据仓库存储采用多维数据模型。数据仓库存储采用多维数据模型。 果汁可乐牛奶商品维奶油浴巾香皂北京上海长沙1 2 3 4 5 6 7城市维日期维22数据模型数据模型 数据模型是对现实世界的一种抽象,根据抽象程度的不同,可形成不同抽象层次上的数据模型。与数据库的数据模型相类似,数据仓库的数据模型也分为三个层次: 概念模型 逻辑模型 物理模型 23n概念模型概念模型 客观世界到计算机系统的一个中间层次,它最常用的表示方法是ER法(实体关系)。 目前,数据仓库一般是建

14、立在关系型数据库的基础之上,所以其概念模型与一般关系型数据库采用的概念模型相一致。 数据模型数据模型24n逻辑模型逻辑模型 指数据的逻辑结构,如多维模型、关系模型、层次模型等。数据仓库的逻辑模型描述了数据仓库的主题的逻辑实现,即每个主题对应的模式定义。n物理模型物理模型 是逻辑模型的具体实现,如物理存取方式、数据存储结构、数据存放位置以及存储分配等。在设计数据仓库的物理模型时,需要考虑一些提高性能的技术,如表分区,建立索引等。数据模型数据模型25 目前,对数据仓库模型的讨论大多集中在逻辑模型,其中最常用的是多维模型。维维: :人们观察数据的特定角度,是相同类数据的集合相同类数据的集合。例如,企

15、业常常关心不同销售数据随时间的变化情况,所以时间就是一个维。商店、产品都是维。商店、产品都是维。维的层次维的层次 人们观察数据的某个特定角度还可以存在细节程度不同的多个描述,这就是维的层次。一个维往往有多个层次,比如描述时间维时,可以从年份、季度、月份、天等不同层次来描述,那么年份、季度、月份和天就是时间维的层次; 数据模型数据模型26维成员维成员 维的一个取值称为该维的一个成员。如果一个维是多层次的,那么该维的成员就是在不同层次取值的组合。例如时间维分为年、月和天三个层次则分别在其上各取一个值组合起来即得到日期维的一个成员,即“某年某月某日”;度量度量 描述了要分析的数值,例如话费、用户数量

16、等; 27n数据仓库的数据模型 星型结构 雪花型结构 星型雪花型结构n数据仓库的数据事实数据维度数据 不论是星型、雪花型或者是星型雪花型结构都是以事实表为中心。不同点只是在外围维度表相互之间的关系不同而已。 28 大多数的数据仓库都采用大多数的数据仓库都采用“星型模型星型模型”。星型模型是。星型模型是由由“事实表事实表”(大表)以及多个(大表)以及多个“维表维表”(小表)所组成。(小表)所组成。星型架构的维度表只会与事实表生成关系,维度表与维度表之间并不会生成任何的关系。 “ “事实表事实表”中存放大量关于企业的事实数据(数量数中存放大量关于企业的事实数据(数量数据)。据)。 例如:多个时期的

17、数据可能会出现在同一个例如:多个时期的数据可能会出现在同一个“事实表事实表”中。中。“维表维表”中存放描述性数据,维表是围绕事实表建立中存放描述性数据,维表是围绕事实表建立的较小的表。的较小的表。 星型模型数据如下图:星型模型数据如下图: 2.2.1星型模型星型模型29订货表客户表销售员表事实表产品表日期表地区表星型模型数据存储情况示意图 31 2.2.22.2.2雪花模型雪花模型 雪花模型对星型模型的维表进一步层次化,原来的各维表雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的可能被扩展为小的事实表,形成一些局部的“层次层次”区域。区域。 在上面星型模

18、型的数据中在上面星型模型的数据中 ,对,对“产品表产品表”“”“日期日期表表”“”“地区表地区表”进行扩展形成雪花模型数据见下图。进行扩展形成雪花模型数据见下图。 2.2.32.2.3星网模型星网模型 星网模型是将多个星型模型连接起来形成网状结构。多个星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。星型模型通过相同的维,如时间维,连接多个事实表。32地区键事务键用户键时间键状态键时间键用户键事务键地区键电话费用时间键用户键状态键电话余额电话公司星网模型实例 342.2.4第三范式第三范式n数据仓库可以按第三范式进行逻辑数据数据仓库可以按第三范式

19、进行逻辑数据建模。它不同于星型模型在于,把事实建模。它不同于星型模型在于,把事实表和维表的属性都集中在同一数据库中,表和维表的属性都集中在同一数据库中,按第三范式组织数据。它减少了维表中按第三范式组织数据。它减少了维表中的键和不必要的属性。的键和不必要的属性。n著名的著名的NCR数据仓库公司采用了第三范数据仓库公司采用了第三范式的逻辑数据模型。式的逻辑数据模型。35n星型模型在进行多维数据分析时,速度星型模型在进行多维数据分析时,速度是很快的。但是增加维度将是很困难的是很快的。但是增加维度将是很困难的事情。事情。n第三范式对于海量数据(如第三范式对于海量数据(如TB级),且级),且需要处理大量

20、的动态业务分析时,就显需要处理大量的动态业务分析时,就显示了它的优势。示了它的优势。362.3数据抽取、转换和装载数据抽取、转换和装载n 数据仓库的数据来源于多个数据源,主要是企业内数据仓库的数据来源于多个数据源,主要是企业内部数据;存档的历史数据;企业的外部数据。这些数据源部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬件平台上,使用不同的操作系统。源数可能是在不同的硬件平台上,使用不同的操作系统。源数据是以不同的格式存放在不同的数据库中。据是以不同的格式存放在不同的数据库中。n 数据仓库需要将这些源数据经过抽取、转换和装载的数据仓库需要将这些源数据经过抽取、转换和装载的过

21、程,存储到数据仓库的数据模型中。可以说,数据仓库过程,存储到数据仓库的数据模型中。可以说,数据仓库的数据获取需要经过抽取(的数据获取需要经过抽取(Extraction)、转换)、转换(Transform)、装载()、装载(Load)三个过程即)三个过程即ETL过程。过程。 在打造一个数据仓库的过程中,ETL的实施是一项繁琐、冗长而艰巨的任务,因为它关系到数据仓库中数据的质量问题,如果导入的数据漏洞百出,对决策者来说无疑是个噩耗。 ETL过程是搭建“数据仓库”时最重要的最重要的和最易误解最易误解的的步骤之一。37 ETL过程不仅仅是数据的迁移迁移(Migration)或净化净化(Cleansin

22、g),也应该是企业数据管理策略企业数据管理策略中不可缺少的一部分。 ETL过程的功能是:发现发现数据仓库需要的数据,将其从源系统中抽取抽取出来,并进行一定的处理处理,然后装载装载到数据仓库中去。 38231 数据抽取数据抽取(1)确认数据源)确认数据源(2)数据抽取技术)数据抽取技术391.确认数据源确认数据源n列出对事实表的每一个数据项和事实列出对事实表的每一个数据项和事实n列出每一个维度属性列出每一个维度属性n对于每个目标数据项,找出源数据项对于每个目标数据项,找出源数据项n一个数据元素有多个来源,选择最好的来源一个数据元素有多个来源,选择最好的来源n确认一个目标字段的多个源字段,建立合并

23、规则确认一个目标字段的多个源字段,建立合并规则n确认一个目标字段的多个源字段,建立分离规则确认一个目标字段的多个源字段,建立分离规则n确定默认值确定默认值n检查缺失值的源数据检查缺失值的源数据402.数据抽取技术数据抽取技术n当前值。当前值。 源系统中存储的数据都代表了当前时刻的值。源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。当商业交易时,这些数据是会发生变化的。n周期性的状态。周期性的状态。 这类数据存储的是每次发生变化时的状态。这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、例如,对于每一保险索赔,都经过索赔开始、确认、评估和

24、解决等步骤,都要考虑有时间确认、评估和解决等步骤,都要考虑有时间说明。说明。41232 数据转换数据转换1.数据转换的基本功能数据转换的基本功能2.数据转换类型数据转换类型3.数据整合和合并数据整合和合并4.如何实施转换如何实施转换421.数据转换的基本功能数据转换的基本功能n选择:选择:从源系统中选择整个记录或者部分记录。从源系统中选择整个记录或者部分记录。 n分离分离/合并:合并:对源系统中的数据进行分离操作或者合并操作。对源系统中的数据进行分离操作或者合并操作。n转化:转化:对源系统进行标准化和可理解化。对源系统进行标准化和可理解化。n汇总:汇总:将最低粒度数据进行汇总。将最低粒度数据进

25、行汇总。 n清晰:清晰:对单个字段数据进行重新分配和简化对单个字段数据进行重新分配和简化 。432.数据转换类型数据转换类型(1)格式修正)格式修正(2)字段的解码)字段的解码(3)计算值和导出值)计算值和导出值(4)单个字段的分离)单个字段的分离(5)信息的合并)信息的合并(6)特征集合转化)特征集合转化(7)度量单位的转化)度量单位的转化(8)关键字重新构造)关键字重新构造(9)汇总)汇总(10)日期)日期/时间转化时间转化443.数据整合和合并数据整合和合并数据整合和合并是将相关的源数据组合数据整合和合并是将相关的源数据组合成一致的数据结构,装入数据仓库。成一致的数据结构,装入数据仓库。

26、(1)实体识别问题)实体识别问题 数据来源于多个不同的客户系统,对相同客户可能分别数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。有不同的键码,将它们组合成一条单独的记录。 (2)多数据源相同属性不同值的问题)多数据源相同属性不同值的问题 不同系统中得到的值存在一些差别不同系统中得到的值存在一些差别 ,需要给出合理的值。,需要给出合理的值。454.如何实施转换如何实施转换n自己编写程序实现数据转换自己编写程序实现数据转换n使用转换工具使用转换工具46233 数据装载数据装载(1)数据装载方式)数据装载方式(2)数据装载类型)数据装载类型471.数据装载

27、方式数据装载方式n基本装载基本装载 按照装载的目标表,将转换过的数据输入到目标表中去。按照装载的目标表,将转换过的数据输入到目标表中去。 n追加追加 如果目标表中已经存在数据,追加过程在保存已有数据的基础如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。上增加输入数据。 n破坏性合并破坏性合并 用新输入数据更新目标记录数据。用新输入数据更新目标记录数据。 n建设性合并建设性合并 保留已有的记录,增加输入的记录,并标记为旧记录的替代。保留已有的记录,增加输入的记录,并标记为旧记录的替代。482.数据装载类型数据装载类型n最初装载最初装载 这是第一次对整个数据仓库进行装载。这是

28、第一次对整个数据仓库进行装载。 n增量装载增量装载 由于源系统的变化,数据仓库需要装载变化的数据。由于源系统的变化,数据仓库需要装载变化的数据。n完全刷新完全刷新 这种类型的数据装载用于周期性重写数据仓库。这种类型的数据装载用于周期性重写数据仓库。 492.3.4 ETL工具工具有有 3 类类 ETL工具:工具:1 . 数据转换引擎数据转换引擎2 . 代码生成器代码生成器3 . 通过复制捕获数据通过复制捕获数据5024 元数据元数据241 元数据的重要性元数据的重要性242 关于数据源的元数据关于数据源的元数据243 关于数据模型的元数据关于数据模型的元数据244 关于数据仓库映射的元数据关于

29、数据仓库映射的元数据245 关于数据仓库使用的元数据关于数据仓库使用的元数据51241 元数据的重要性元数据的重要性n最基本的元数据相当于数据库系统中的最基本的元数据相当于数据库系统中的数据字典。数据字典。n元数据定义了数据仓库有什么,指明了元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。个数据仓库的运行都是基于元数据的。52 这类元数据是对不同平台上的数据源的物理结构这类

30、元数据是对不同平台上的数据源的物理结构和含义的描述。具体为:和含义的描述。具体为: (1 1)数据源中所有物理)数据源中所有物理( (存储)数据结构,包括存储)数据结构,包括所有的数据项及数据类型。所有的数据项及数据类型。 (2 2)所有数据项的业务定义。)所有数据项的业务定义。 (3 3)每个数据项更新的频率,以及由谁或那个)每个数据项更新的频率,以及由谁或那个过程更新的说明。过程更新的说明。 (4 4)每个数据项的有效值。)每个数据项的有效值。2.4.22.4.2关于数据源的元数据关于数据源的元数据53 这组元数据描述了数据仓库中有什么数据以及这组元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓数据之间的关系,它们是用户使用管理数据仓库的基础,它是库的基础,它是数据仓库的字典数据仓库的字典。 这种的元数据可以支持用户从数据仓库中获这种的元数据可以支持用户从数据仓库中获取数据。取数据。 2.4.32.4.3关于数据模型的元数据关于数据模型的元数据54例如,雇员与技能之间的关系如图例如,雇员与技能之间的关系如图2.13表示。表示。EmployeeE_NoE_SE_NoS_CodeSkillS_Code121355关系 I/O 对象I/O Object IDEmploye

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论