数据仓库DataWarehouseppt课件_第1页
数据仓库DataWarehouseppt课件_第2页
数据仓库DataWarehouseppt课件_第3页
数据仓库DataWarehouseppt课件_第4页
数据仓库DataWarehouseppt课件_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 数据仓库数据仓库(Data Warehouse)(Data Warehouse)北京科技大学 武 森数据仓库与数据挖掘数据仓库与数据挖掘 2 北京科技大学北京科技大学 武武 森森内容安排内容安排1 1 数据仓库概述数据仓库概述2 2 多维数据模型多维数据模型3 3 数据仓库的体系结构数据仓库的体系结构4 4 数据仓库的数据组织数据仓库的数据组织5 5 数据仓库的数据预处理数据仓库的数据预处理6 6 数据仓库应用举例数据仓库应用举例数据仓库与数据挖掘数据仓库与数据挖掘 3 北京科技大学北京科技大学 武武 森森内容安排内容安排1 1 数据仓库概述数据仓库概述2 2 多维数据模型多维数据模型3 3

2、 数据仓库的体系结构数据仓库的体系结构4 4 数据仓库的数据组织数据仓库的数据组织5 5 数据仓库的数据预处理数据仓库的数据预处理6 6 数据仓库应用举例数据仓库应用举例数据仓库与数据挖掘数据仓库与数据挖掘 4 北京科技大学北京科技大学 武武 森森1 1 数据仓库概述数据仓库概述1.1 1.1 数据仓库的产生与发展数据仓库的产生与发展1.2 1.2 数据仓库的含义与特征数据仓库的含义与特征1.3 1.3 操作型数据库系统与数据仓库操作型数据库系统与数据仓库1.4 1.4 数据仓库的基本结构数据仓库的基本结构1.5 1.5 数据仓库的相关概念数据仓库的相关概念数据仓库与数据挖掘数据仓库与数据挖掘

3、 5 北京科技大学北京科技大学 武武 森森1.1 1.1 数据仓库的产生与发展数据仓库的产生与发展l最早发轫于最早发轫于8080年代初年代初W.H.InmonW.H.Inmon的研究,存在的研究,存在于其于其“记录系统记录系统”、“本原数据本原数据” ” 、“决策决策支持数据库等研究专题中支持数据库等研究专题中11。l数据仓库的具体概念是数据仓库的具体概念是W.H.InmonW.H.Inmon在在19921992年出年出版的版的 一书中提出的,目前它一书中提出的,目前它被认为是解决信息技术在发展中一方面拥有被认为是解决信息技术在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种大量数据,另

4、一方面有用信息却很贫乏这种不正常现象的综合解决方案。不正常现象的综合解决方案。 数据仓库与数据挖掘数据仓库与数据挖掘 6 北京科技大学北京科技大学 武武 森森1.2 1.2 数据仓库的含义与特征数据仓库的含义与特征l数据仓库的含义数据仓库的含义(W.H.Inmon)(W.H.Inmon)l “ “数据仓库是面向主题的、综合的、不同数据仓库是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程管理中的决策制定过程A data warehouse A data warehouse is a subject-oriented, in

5、tegrated, is a subject-oriented, integrated, time-variant, and nonvolatile time-variant, and nonvolatile collection of data in support of collection of data in support of managements decision making managements decision making processprocess)”。 数据仓库与数据挖掘数据仓库与数据挖掘 7 北京科技大学北京科技大学 武武 森森1.2 1.2 数据仓库的含义与

6、特征数据仓库的含义与特征l对数据仓库含义的理解对数据仓库含义的理解l 通俗地讲,数据仓库就是企业内部一种通俗地讲,数据仓库就是企业内部一种专门的数据存储,专门用于支持分析型数据专门的数据存储,专门用于支持分析型数据查询。查询。l(1 1专门的数据存储专门的数据存储l 以多维数据模型进行存储,该模型能够以多维数据模型进行存储,该模型能够反映实际的商业分析需求,并支持预先未知反映实际的商业分析需求,并支持预先未知的具体数据查询操作。的具体数据查询操作。l(2 2分析型数据查询工具分析型数据查询工具l 数据仓库是数据仓库是Lotus1-2-3Lotus1-2-3和和Microsoft Microso

7、ft ExcelExcel等工具的延伸与发展,目的在于使得分等工具的延伸与发展,目的在于使得分析能够更准确、更快速、更灵活、更有效,析能够更准确、更快速、更灵活、更有效,支持的数据量更大。支持的数据量更大。数据仓库与数据挖掘数据仓库与数据挖掘 8 北京科技大学北京科技大学 武武 森森1.2 1.2 数据仓库的含义与特征数据仓库的含义与特征l数据仓库的特征l(1数据仓库是面向主题的:传统数据库应用按照业务处理流程来组织数据,目的在于提高处理的速度。主题是一个在较高层次将数据进行归类的标准,满足该领域分析决策的需要。l(2数据仓库是集成性的:数据仓库中的数据来自于多个应用系统,不仅要统一原始数据中

8、的所有矛盾,如同名异义,异名同义等,而且要将这些数据统一到数据仓库的数据模式上来。l(3数据仓库是随时间而变化的:数据仓库随着时间变化要不断增加新的内容。由于数据仓库常常用作趋势预测分析,所以需要保留足够长时间的历史数据,一般为510年。l(4数据仓库是稳定的:数据仓库的这种稳定性指的是数据仓库中的数据主要供企业决策分析之用,决策人员所涉及的数据操作主要是数据查询,一般情况下并不进行数据修改。数据仓库与数据挖掘数据仓库与数据挖掘 9 北京科技大学北京科技大学 武武 森森1.2 1.2 数据仓库的含义与特征数据仓库的含义与特征l数据仓库还具有以下特点:数据仓库还具有以下特点:l(1 1数据仓库中

9、的数据量非常大。通常的数据仓库数据仓库中的数据量非常大。通常的数据仓库的数据量为的数据量为10GB10GB级,相当于一般数据库级,相当于一般数据库100MB100MB的的100100倍,倍,大型数据仓库的数据量可以达到一个大型数据仓库的数据量可以达到一个TBTB1000GB1000GB)。)。数据中索引和综合数据占数据中索引和综合数据占2/32/3,原始数据占,原始数据占1/331/33。l(2 2数据仓库是数据库技术的一种新的应用,而且数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库一般还是应用数据库管理系统到目前为止,数据仓库一般还是应用数据库管理系统来管理其中的数据。来管理其

10、中的数据。l(3 3数据仓库的使用人员较少。数据仓库的使用人员较少。数据仓库与数据挖掘数据仓库与数据挖掘 10 北京科技大学北京科技大学 武武 森森1.3 1.3 操作型数据库系统与数据仓库操作型数据库系统与数据仓库 操作型数据库系统操作型数据库系统分析型数据仓库分析型数据仓库系统目的系统目的支持日常操作支持日常操作支持管理需求、获取信息支持管理需求、获取信息使用人员使用人员办事员、办事员、DBA、数据库专家、数据库专家经理、管理人员、分析专家经理、管理人员、分析专家数据内容数据内容当前数据当前数据历史数据、派生数据历史数据、派生数据数据特点数据特点细节的细节的综合的,或提炼的综合的,或提炼的

11、数据组织数据组织面向应用面向应用面向主题面向主题存取类型存取类型增加、更改、查询、删除增加、更改、查询、删除查询、聚集查询、聚集数据稳定性数据稳定性动态的动态的相对稳定相对稳定操作需求特点操作需求特点操作需求事先可知道操作需求事先可知道操作需求事先不知道操作需求事先不知道操作特点操作特点一个时刻操作一单元一个时刻操作一单元一个时刻操作一集合一个时刻操作一集合数据库设计数据库设计基于基于ER图图基于星型模式、雪花模式基于星型模式、雪花模式一次操作数据量一次操作数据量一次操作数据量小一次操作数据量小一次操作数据量大一次操作数据量大存取频率存取频率比较高比较高相对较低相对较低响应时间响应时间小于小于

12、1秒秒2、3秒秒几秒几秒几分钟几分钟数据仓库与数据挖掘数据仓库与数据挖掘 11 北京科技大学北京科技大学 武武 森森1.4 1.4 数据仓库的基本结构数据仓库的基本结构可视化可视化应用工具应用工具数据存储数据存储数据源数据源OLAP数据挖掘数据挖掘01020304050607080901. Qrtl.2. Qrtl.3. Qrtl.4. Qrtl.OstWestNord数据仓库数据仓库外部数据外部数据内部数据内部数据l e g a c y systems“2019年与年与2000年相比产品年相比产品P在地区在地区R的销售增长是多少的销售增长是多少?”“我们拥有的客户有怎样的特点?我们拥有的客户

13、有怎样的特点?”抽取抽取清理清理转换转换图图1-1 数据仓库的基本体系结构数据仓库的基本体系结构数据仓库与数据挖掘数据仓库与数据挖掘 12 北京科技大学北京科技大学 武武 森森1.5 1.5 数据仓库的相关概念数据仓库的相关概念l粒度粒度l 粒度粒度GranularityGranularity是指数据仓库中数是指数据仓库中数据单元的详细程度和级别。数据越详细,粒据单元的详细程度和级别。数据越详细,粒度越小级别就越低;数据综合度越高,粒度度越小级别就越低;数据综合度越高,粒度越大级别就越高。越大级别就越高。l 在传统的操作型数据库系统中,对数据在传统的操作型数据库系统中,对数据处理和操作都是在最

14、低级的粒度上进行的。处理和操作都是在最低级的粒度上进行的。但是在数据仓库环境中应用的主要是分析型但是在数据仓库环境中应用的主要是分析型处理,一般需要将数据划分为:详细数据,处理,一般需要将数据划分为:详细数据,轻度总结、高度总结三级或更多级粒度。轻度总结、高度总结三级或更多级粒度。 数据仓库与数据挖掘数据仓库与数据挖掘 13 北京科技大学北京科技大学 武武 森森1.5 1.5 数据仓库的相关概念数据仓库的相关概念l维度维度l 维维DimensionDimension是指人们观察事物的特是指人们观察事物的特定的角度,概念上类似于关系表的属性。定的角度,概念上类似于关系表的属性。l 例如:企业常常

15、关心产品销售数据随着例如:企业常常关心产品销售数据随着时间推移而变化的情况,这是他从时间的角时间推移而变化的情况,这是他从时间的角度来观察产品的销售,即时间维;企业也常度来观察产品的销售,即时间维;企业也常常关心本企业的产品在不同地区的销售分布常关心本企业的产品在不同地区的销售分布情况,这时他是从地理分布的角度来观察产情况,这时他是从地理分布的角度来观察产品的销售,即地区维。品的销售,即地区维。数据仓库与数据挖掘数据仓库与数据挖掘 14 北京科技大学北京科技大学 武武 森森1.5 1.5 数据仓库的相关概念数据仓库的相关概念l数据立方体数据立方体l 数据立方体是指由两个或更多个属性、数据立方体

16、是指由两个或更多个属性、即两个或更多个维来描述或分类的数据。在即两个或更多个维来描述或分类的数据。在三维的情况下以图形来表示,该类数据具有三维的情况下以图形来表示,该类数据具有立方体结构,一般称为数据立方体。立方体结构,一般称为数据立方体。l 虽然我们通常从几何意义的角度将立方虽然我们通常从几何意义的角度将立方体理解为三维的,但是在数据仓库中数据立体理解为三维的,但是在数据仓库中数据立方体是一个方体是一个n-n-维的概念。维的概念。 数据仓库与数据挖掘数据仓库与数据挖掘 15 北京科技大学北京科技大学 武武 森森1.5 1.5 数据仓库的相关概念数据仓库的相关概念UX-11TR-78EC-1X

17、VGJun.May.Apr.Mar.VCR全部地区南部北部1季度2季度上半年产产品品时时间间地地 区区TR-75CAMCVIDEO图图1-2 销售数据多维数据立方体示意图销售数据多维数据立方体示意图531539652683 867Feb.531605Jan.数据仓库与数据挖掘数据仓库与数据挖掘 16 北京科技大学北京科技大学 武武 森森1.5 1.5 数据仓库的相关概念数据仓库的相关概念l联机分析处理联机分析处理OLAPOLAP)l 联机分析处理联机分析处理OLAPOn_Line OLAPOn_Line Analytical ProcessingAnalytical Processing是快速

18、、灵活的多是快速、灵活的多维数据分析工具。维数据分析工具。OLAPOLAP的概念最早是由关系的概念最早是由关系数据库之父数据库之父E.F.CoddE.F.Codd于于19931993年提出的。年提出的。l OLAPOLAP的目的是支持分析决策,满足多维的目的是支持分析决策,满足多维环境的查询和报表需求,其技术核心在于环境的查询和报表需求,其技术核心在于“维的概念,维的概念,OLAPOLAP是多维数据分析的工具。是多维数据分析的工具。 数据仓库与数据挖掘数据仓库与数据挖掘 17 北京科技大学北京科技大学 武武 森森1.5 1.5 数据仓库的相关概念数据仓库的相关概念观察在某一时间点或时间段上各个

19、观察在某一时间点或时间段上各个产品在各个地区的销售情况产品在各个地区的销售情况观察某地区各个产品在各个时期观察某地区各个产品在各个时期的销售情况的销售情况观察某种产品在某时间点或时间观察某种产品在某时间点或时间段上在某地区的销售情况段上在某地区的销售情况图图2-5 OLAP多维数据视图多维数据视图观察某种产品在各个时期和各个观察某种产品在各个时期和各个地区中的销售情况地区中的销售情况产品产品产品产品产品产品产品产品地区地区地区地区地区地区地区地区时间时间时间时间时间时间时间时间数据仓库与数据挖掘数据仓库与数据挖掘 18 北京科技大学北京科技大学 武武 森森1.5 1.5 数据仓库的相关概念数据

20、仓库的相关概念l数据集市数据集市l 数据集市数据集市Data MartData Mart是完整的数据仓是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。数据集市一有的数据集市有机组合而成的。数据集市一般由某一个业务部门投资建设,满足其分析般由某一个业务部门投资建设,满足其分析决策的需要,可以将其理解为决策的需要,可以将其理解为“部门级数据部门级数据仓库仓库”。数据仓库与数据挖掘数据仓库与数据挖掘 19 北京科技大学北京科技大学 武武 森森内容安排内容安排1 1 数据仓库概述数据仓库概述2 2 多维数据模型多维数据模型3 3 数

21、据仓库的体系结构数据仓库的体系结构4 4 数据仓库的数据组织数据仓库的数据组织5 5 数据仓库的数据预处理数据仓库的数据预处理6 6 数据仓库应用举例数据仓库应用举例数据仓库与数据挖掘数据仓库与数据挖掘 20 北京科技大学北京科技大学 武武 森森2 2 多维数据模型多维数据模型2.1 E-R2.1 E-R模型与多维模型模型与多维模型2.2 2.2 星型模式星型模式2.3 2.3 星型模式的种类星型模式的种类2.4 2.4 数据仓库的总线型结构数据仓库的总线型结构数据仓库与数据挖掘数据仓库与数据挖掘 21 北京科技大学北京科技大学 武武 森森2.1 E-R2.1 E-R模型与多维模型模型与多维模

22、型 实体实体- -关系模型关系模型Entity-Entity-Relationship ModelRelationship Model是操作型数据库是操作型数据库系统普遍采用的数据建模方式,该技术系统普遍采用的数据建模方式,该技术的主要特点是可以减少数据的冗余,而的主要特点是可以减少数据的冗余,而且可以保证数据的唯一性。且可以保证数据的唯一性。 数据仓库与数据挖掘数据仓库与数据挖掘 22 北京科技大学北京科技大学 武武 森森2.1 E-R2.1 E-R模型与多维模型模型与多维模型 虽然实体虽然实体- -关系模型能成功地应用于关系模型能成功地应用于操作型数据库系统,但是分析人员、决操作型数据库系

23、统,但是分析人员、决策人员不可能理解、更不可能记住这些策人员不可能理解、更不可能记住这些实体实体- -关系,因此让他们在实体关系,因此让他们在实体- -关系模关系模型中进行主动的数据检索是不可能的。型中进行主动的数据检索是不可能的。 支持分析型应用的解决方案是多维数支持分析型应用的解决方案是多维数据模型。据模型。 数据仓库与数据挖掘数据仓库与数据挖掘 23 北京科技大学北京科技大学 武武 森森2.1 E-R2.1 E-R模型与多维模型模型与多维模型 多维数据模型很难说是由哪一个人创多维数据模型很难说是由哪一个人创建的,它是在人们追求可理解和高性能建的,它是在人们追求可理解和高性能的数据库设计过

24、程中自然形成的。的数据库设计过程中自然形成的。 多维数据模型普遍采用的一种非常重多维数据模型普遍采用的一种非常重要的模式是星形模式要的模式是星形模式Star SchemaStar Schema)。)。 数据仓库与数据挖掘数据仓库与数据挖掘 24 北京科技大学北京科技大学 武武 森森2.2 2.2 星型模式星型模式时间码时间码产品码产品码地区码地区码销售量销售量销售额销售额销售成本销售成本产品码产品码产品大类产品大类产品细类产品细类产品名称产品名称地区码地区码国家国家地区地区城市城市时间码时间码日期日期月份月份季度季度年度年度时间维表时间维表事实表事实表产品维表产品维表地区维表地区维表图图2-1

25、 销售数据多维数据模式图销售数据多维数据模式图数据仓库与数据挖掘数据仓库与数据挖掘 25 北京科技大学北京科技大学 武武 森森2.2 2.2 星型模式星型模式 事实表事实表Fact TableFact Table,也称主表包含的,也称主表包含的是业务数据信息,数据取值通常是可度量的、是业务数据信息,数据取值通常是可度量的、连续型的,且具有可加性,数据量可达到几连续型的,且具有可加性,数据量可达到几百万甚至上亿条记录。百万甚至上亿条记录。 维表(维表( Dimension TableDimension Table,也称辅表包,也称辅表包含的是相应维度的描述型信息,这些信息用含的是相应维度的描述型

26、信息,这些信息用作查询的约束条件,一般是离散的、描述性作查询的约束条件,一般是离散的、描述性的,不具有可加性。的,不具有可加性。数据仓库与数据挖掘数据仓库与数据挖掘 26 北京科技大学北京科技大学 武武 森森2.2 2.2 星型模式星型模式l主码与外码主码与外码时间编码时间编码(FK)产品编码产品编码(FK) (PK)地区编码地区编码(FK)销售量销售量销售额销售额销售成本销售成本产品编码产品编码(PK)产品大类产品大类产品细类产品细类产品名称产品名称地区编码地区编码(PK)国家国家地区地区城市城市时间编码时间编码(PK)日期日期月份月份季度季度年度年度时间维表时间维表事实表事实表产品维表产品

27、维表地区维表地区维表图图2-2 星型模式及主码与外码关系图星型模式及主码与外码关系图数据仓库与数据挖掘数据仓库与数据挖掘 27 北京科技大学北京科技大学 武武 森森2.2 2.2 星型模式星型模式l代理码代理码地区维表地区维表销售事实表销售事实表地区码地区码产品码产品码销售额销售额100133351001001333620010023337300地区码地区码省份省份城市城市1001山东山东青岛青岛1002辽宁辽宁沈阳沈阳数据仓库与数据挖掘数据仓库与数据挖掘 28 北京科技大学北京科技大学 武武 森森2.3 2.3 星型模式的种类星型模式的种类l简单星型模式简单星型模式Simple Star S

28、chemaSimple Star Schema) l星系模式星系模式Star Galaxy SchemaStar Galaxy Schema)l星座模式星座模式Star Constellation Star Constellation SchemaSchema)l雪花模式雪花模式Snowflake SchemaSnowflake Schema)数据仓库与数据挖掘数据仓库与数据挖掘 29 北京科技大学北京科技大学 武武 森森2.3 2.3 星型模式的种类星型模式的种类简单星型模式简单星型模式Simple Star SchemaSimple Star Schema)时间码时间码产品码产品码地区码地

29、区码销售量销售量销售额销售额销售成本销售成本产品码产品码产品大类产品大类产品细类产品细类产品名称产品名称地区码地区码国家国家地区地区城市城市时间码时间码日期日期月份月份季度季度年度年度时间维表时间维表事实表事实表产品维表产品维表地区维表地区维表图图2-1 销售数据多维数据模式图销售数据多维数据模式图数据仓库与数据挖掘数据仓库与数据挖掘 30 北京科技大学北京科技大学 武武 森森2.3 2.3 星型模式的种类星型模式的种类星系模式星系模式Star Galaxy SchemaStar Galaxy Schema) 时间码时间码季度季度年度年度时间维表时间维表产品码产品码品牌品牌规格规格产品维表产品

30、维表地区码地区码国家国家城市城市地区维表地区维表时间码时间码产品码产品码地区码地区码销售量销售量销售额销售额 销售事实表图图3-4 星系模式星系模式时间码时间码产品码产品码供应商码供应商码销售量销售量销售额销售额 采购事实表采购事实表供应商码供应商码供应商名供应商名称称供应商帐供应商帐号号供应商维表供应商维表数据仓库与数据挖掘数据仓库与数据挖掘 31 北京科技大学北京科技大学 武武 森森2.3 2.3 星型模式的种类星型模式的种类星座模式星座模式Star Constellation SchemaStar Constellation Schema) 时间码时间码日期日期月份月份年度年度时间维表时

31、间维表产品码产品码品牌品牌规格规格产品维表产品维表地区码地区码国家国家城市城市地区维表地区维表图图3-6 星座模式星座模式月销售表月销售表日销售表日销售表时间码时间码产品码产品码地区码地区码销售量销售量销售额销售额年销售表年销售表数据仓库与数据挖掘数据仓库与数据挖掘 32 北京科技大学北京科技大学 武武 森森2.3 2.3 星型模式的种类星型模式的种类雪花模式雪花模式Snowflake SchemaSnowflake Schema) 时间码时间码季码季码年码年码时间维表时间维表产品码产品码品牌码品牌码规格码规格码产品维表产品维表地区码地区码国家码国家码城市码城市码地区维表地区维表时间码时间码产

32、品码产品码地区码地区码销售量销售量销售额销售额 销售表销售表图图3-8 雪花模式雪花模式国家码国家码国家名称国家名称国家维表国家维表城市码城市码城市名称城市名称城市维表城市维表季码季码季度季度 季维表季维表年码年码年度年度 年维表年维表规格码规格码规格名称规格名称规格维表规格维表品牌码品牌码品牌名称品牌名称品牌维表品牌维表数据仓库与数据挖掘数据仓库与数据挖掘 33 北京科技大学北京科技大学 武武 森森2.4 2.4 数据仓库的总线型结构数据仓库的总线型结构l数据仓库的总线型结构数据仓库的总线型结构Data Data Warehouse Bus ArchitectureWarehouse Bus

33、 Architecture) l 一个数据仓库内所有的数据集市必一个数据仓库内所有的数据集市必须具有统一一致的维定义和统一一致的须具有统一一致的维定义和统一一致的业务事实。统一的维和统一的事实就是业务事实。统一的维和统一的事实就是数据仓库的数据仓库的“总线总线” ” 数据仓库与数据挖掘数据仓库与数据挖掘 34 北京科技大学北京科技大学 武武 森森2.4 2.4 数据仓库的总线型结构数据仓库的总线型结构销售量事实销售量事实销售额事实销售额事实应收帐款事实应收帐款事实分销渠道维分销渠道维时间维时间维客户维客户维产品维产品维统一的事实统一的事实统一的维统一的维财务数据财务数据集市集市销售数据销售数据

34、集市集市数据仓库与数据挖掘数据仓库与数据挖掘 35 北京科技大学北京科技大学 武武 森森内容安排内容安排1 1 数据仓库概述数据仓库概述2 2 多维数据模型多维数据模型3 3 数据仓库的体系结构数据仓库的体系结构4 4 数据仓库的数据组织数据仓库的数据组织5 5 数据仓库的数据预处理数据仓库的数据预处理6 6 数据仓库应用举例数据仓库应用举例数据仓库与数据挖掘数据仓库与数据挖掘 36 北京科技大学北京科技大学 武武 森森3 3 数据仓库的体系结构数据仓库的体系结构3.1 3.1 体系结构的内容体系结构的内容3.2 3.2 相关的数据存储相关的数据存储3.3 3.3 相关的数据服务相关的数据服务

35、3.4 3.4 相关的数据管理相关的数据管理元数据元数据数据仓库与数据挖掘数据仓库与数据挖掘 37 北京科技大学北京科技大学 武武 森森3.1 3.1 体系结构的内容体系结构的内容 从总体上讲,数据仓库的技术体系结构包从总体上讲,数据仓库的技术体系结构包括前台和后台两大部分内容:括前台和后台两大部分内容:后台负责分析型应用的数据准备工作,完成从后台负责分析型应用的数据准备工作,完成从数据源向数据仓库主题数据的数据变换,一数据源向数据仓库主题数据的数据变换,一般称为数据的预处理。般称为数据的预处理。前台是面向数据仓库的最终用户的。对于最终前台是面向数据仓库的最终用户的。对于最终用户而言,主题数据

36、是直接的数据来源。前用户而言,主题数据是直接的数据来源。前台需要安装一些分析型应用工具,提供分析台需要安装一些分析型应用工具,提供分析报告、报表、图形等可视化的分析结果。报告、报表、图形等可视化的分析结果。数据仓库与数据挖掘数据仓库与数据挖掘 38 北京科技大学北京科技大学 武武 森森3.1 3.1 体系结构体系结构数据仓库主题数据)数据仓库主题数据)后后台台前前台台可视化分析结果可视化分析结果数据集市数据集市数据集市数据集市数据集市数据集市数据预处理工具数据预处理工具抽取、转抽取、转换、装载换、装载预预 处处 理理 数数 据据数数 据据 源源前前 端端 工工 具具查查 询询 服服 务务 数数

37、 据据其它工具其它工具报表生成器报表生成器OLAP数据挖掘数据挖掘元数据元数据数据仓库与数据挖掘数据仓库与数据挖掘 39 北京科技大学北京科技大学 武武 森森3.2 3.2 相关的数据存储相关的数据存储l数据源:数据仓库数据的原始来源数据源:数据仓库数据的原始来源l主题数据:存储在数据仓库中的核心数据主题数据:存储在数据仓库中的核心数据l预处理数据:数据源和主题数据之间的中间预处理数据:数据源和主题数据之间的中间结果结果l查询服务数据:主题数据和用户最终查询结查询服务数据:主题数据和用户最终查询结果之间的中间结果果之间的中间结果 数据仓库与数据挖掘数据仓库与数据挖掘 40 北京科技大学北京科技

38、大学 武武 森森3.3 3.3 相关的数据服务相关的数据服务 在数据仓库的技术体系结构中,主要在数据仓库的技术体系结构中,主要涉及两种数据服务:涉及两种数据服务:后台数据预处理后台数据预处理前台数据查询前台数据查询 数据仓库与数据挖掘数据仓库与数据挖掘 41 北京科技大学北京科技大学 武武 森森3.3 3.3 相关的数据服务相关的数据服务 后台数据预处理包括三种重要的数据操作:后台数据预处理包括三种重要的数据操作:抽取抽取ExtractionExtraction):从数据源抽取所需的数):从数据源抽取所需的数据。据。转换转换TransformationTransformation):对抽取出的

39、数据进):对抽取出的数据进行一系列的转换,以满足数据仓库主题数据行一系列的转换,以满足数据仓库主题数据内容与质量上的要求。内容与质量上的要求。装载装载LoadingLoading):将转换后的数据装载入数据):将转换后的数据装载入数据仓库。仓库。 数据仓库与数据挖掘数据仓库与数据挖掘 42 北京科技大学北京科技大学 武武 森森3.3 3.3 相关的数据服务相关的数据服务 前台数据查询服务的主要工作是提供各种前台数据查询服务的主要工作是提供各种分析应用工具,形成可视化分析结果展现给分析应用工具,形成可视化分析结果展现给最终用户。最终用户。数据查询数据查询各种报表的生成各种报表的生成访问安全保障访

40、问安全保障其它服务,如:同数据挖掘的结合应用其它服务,如:同数据挖掘的结合应用数据仓库与数据挖掘数据仓库与数据挖掘 43 北京科技大学北京科技大学 武武 森森3.4 3.4 相关的数据管理相关的数据管理元数据元数据 “ “元数据是数据仓库世界中令人惊异的一元数据是数据仓库世界中令人惊异的一个话题。想一想,我们不知道它确切地是什个话题。想一想,我们不知道它确切地是什么,确切地放在哪里。但是,与其它话题相么,确切地放在哪里。但是,与其它话题相比,我们谈论它的时间更多,因为它而烦恼比,我们谈论它的时间更多,因为它而烦恼的时间更多,因为对它无所为而感觉愧疚的的时间更多,因为对它无所为而感觉愧疚的时间也

41、更多。几年以前,我们认为元数据是时间也更多。几年以前,我们认为元数据是任何关于数据的数据。这并没有多大的帮助,任何关于数据的数据。这并没有多大的帮助,因为我们还是不清楚这个起到穿针引线作用因为我们还是不清楚这个起到穿针引线作用的东西是什么。这个模糊的概念已逐渐清晰的东西是什么。这个模糊的概念已逐渐清晰起来,我们已经更自信地谈论起来,我们已经更自信地谈论后台元数据后台元数据和和前台元数据前台元数据。”数据仓库与数据挖掘数据仓库与数据挖掘 44 北京科技大学北京科技大学 武武 森森3.4 3.4 相关的数据管理相关的数据管理元数据元数据l“后台元数据能够帮助数据库管理员将数据后台元数据能够帮助数据

42、库管理员将数据放入数据仓库,而且,在商务用户询问数据放入数据仓库,而且,在商务用户询问数据来自哪里时,也可能是他们所关心的。来自哪里时,也可能是他们所关心的。l前台元数据主要出于对终端用户的考虑,其前台元数据主要出于对终端用户的考虑,其定义已经扩展,不仅仅是使我们的工具运转定义已经扩展,不仅仅是使我们的工具运转灵活的机油,而且是以所有的数据元素表述灵活的机油,而且是以所有的数据元素表述的一种业务内容字典。的一种业务内容字典。” ” 数据仓库与数据挖掘数据仓库与数据挖掘 45 北京科技大学北京科技大学 武武 森森3.4 3.4 相关的数据管理相关的数据管理元数据元数据l数据源元数据数据源元数据l

43、预处理数据元数据预处理数据元数据l数据仓库主题数据元数据数据仓库主题数据元数据l前台查询服务元数据前台查询服务元数据数据仓库与数据挖掘数据仓库与数据挖掘 46 北京科技大学北京科技大学 武武 森森3.4 3.4 相关的数据管理相关的数据管理元数据元数据(1 1数据源元数据数据源元数据数据源存储平台数据源存储平台数据源的数据格式数据源的数据格式数据源的业务内容说明数据源的业务内容说明数据源的更新频率数据源的更新频率数据源的所有者数据源的所有者数据源的访问方法及使用限制数据源的访问方法及使用限制实施数据抽取的工具或其它方法,及相应的参数设置实施数据抽取的工具或其它方法,及相应的参数设置数据抽取的进

44、度安排数据抽取的进度安排实际数据抽取的时间、内容及完成情况记录实际数据抽取的时间、内容及完成情况记录数据仓库与数据挖掘数据仓库与数据挖掘 47 北京科技大学北京科技大学 武武 森森3.4 3.4 相关的数据管理相关的数据管理元数据元数据(2 2预处理数据元数据预处理数据元数据数据抽取、转换、装载过程中用到的各种文件定义数据抽取、转换、装载过程中用到的各种文件定义从数据源到各级中间视图及主题数据实视图间的数据对应关系从数据源到各级中间视图及主题数据实视图间的数据对应关系有关数据净化的详细说明有关数据净化的详细说明数据仓库的总线数据仓库的总线统一的事实和统一的维的定义统一的事实和统一的维的定义维表

45、各属性的更新策略选择维表各属性的更新策略选择代理码的分配情况代理码的分配情况数据聚集的定义数据聚集的定义数据聚集的使用统计及更新维护记录数据聚集的使用统计及更新维护记录完成数据转换的工具或其它方法,及相应参数设置完成数据转换的工具或其它方法,及相应参数设置预处理数据的备份方法预处理数据的备份方法实际数据转换与装载记录实际数据转换与装载记录数据仓库与数据挖掘数据仓库与数据挖掘 48 北京科技大学北京科技大学 武武 森森3.4 3.4 相关的数据管理相关的数据管理元数据元数据(3 3数据仓库主题数据元数据数据仓库主题数据元数据各种数据库表或视图的定义各种数据库表或视图的定义数据库分区设置数据库分区

46、设置索引的建立方法索引的建立方法数据库访问权限分配数据库访问权限分配数据库备份方案数据库备份方案数据仓库与数据挖掘数据仓库与数据挖掘 49 北京科技大学北京科技大学 武武 森森3.4 3.4 相关的数据管理相关的数据管理元数据元数据(4 4前台查询服务元数据前台查询服务元数据数据库表及表中数据项的业务含义说明数据库表及表中数据项的业务含义说明可视化查询结果格式的定义可视化查询结果格式的定义用户及其访问权限的定义用户及其访问权限的定义数据仓库使用情况的监控与统计数据仓库使用情况的监控与统计数据仓库与数据挖掘数据仓库与数据挖掘 50 北京科技大学北京科技大学 武武 森森3.4 3.4 相关的数据管

47、理相关的数据管理元数据元数据 从上述数据仓库元数据的内容我们应从上述数据仓库元数据的内容我们应该可以知道:为什么难以给元数据一个该可以知道:为什么难以给元数据一个直观明了的定义。可以说,除了基本数直观明了的定义。可以说,除了基本数据存储以外,元数据无所不在。它对所据存储以外,元数据无所不在。它对所有的数据元素进行定义,并确定这些数有的数据元素进行定义,并确定这些数据元素之间如何协调工作来共同满足分据元素之间如何协调工作来共同满足分析型应用的需要。析型应用的需要。 数据仓库与数据挖掘数据仓库与数据挖掘 51 北京科技大学北京科技大学 武武 森森内容安排内容安排1 1 数据仓库概述数据仓库概述2

48、2 多维数据模型多维数据模型3 3 数据仓库的体系结构数据仓库的体系结构4 4 数据仓库的数据组织数据仓库的数据组织5 5 数据仓库的数据预处理数据仓库的数据预处理6 6 数据仓库应用举例数据仓库应用举例数据仓库与数据挖掘数据仓库与数据挖掘 52 北京科技大学北京科技大学 武武 森森4 4 数据仓库的数据组织数据仓库的数据组织4.1 4.1 事实表和维表的设计事实表和维表的设计4.2 4.2 数据聚集的设计数据聚集的设计4.3 4.3 数据仓库中的索引数据仓库中的索引4.4 4.4 数据库的物理设计数据库的物理设计数据仓库与数据挖掘数据仓库与数据挖掘 53 北京科技大学北京科技大学 武武 森森

49、4.1 4.1 事实表和维表的设计事实表和维表的设计 事实表的设计包括四项工作,依时间事实表的设计包括四项工作,依时间先后顺序分别为:先后顺序分别为:明确数据集市及相应的数据源明确数据集市及相应的数据源确定事实表的粒度确定事实表的粒度确定相应的维度确定相应的维度确定事实表中的度量值确定事实表中的度量值数据仓库与数据挖掘数据仓库与数据挖掘 54 北京科技大学北京科技大学 武武 森森4.1 4.1 事实表和维表的设计事实表和维表的设计图图5-2 维表的设计与分析报表的关系维表的设计与分析报表的关系时间码时间码(FK)产品码产品码(FK) 地区码地区码(FK)销售量销售量销售额销售额销售成本销售成本

50、产品码产品码(PK)产品大类产品大类产品细类产品细类产品名称产品名称地区码地区码(PK)国家国家地区地区城市城市时间码时间码(PK)日期日期月份月份季度季度年度年度时间维表时间维表事实表事实表产品维表产品维表地区维表地区维表月月 份份地地 区区销销 售售 额额2019/12019/1东北地区东北地区14,390,20014,390,2002019/12019/1华北地区华北地区28,489,08928,489,0892019/12019/1西北地区西北地区10,900,76610,900,7662019/22019/2东北地区东北地区19,780,56319,780,563数据仓库与数据挖掘数

51、据仓库与数据挖掘 55 北京科技大学北京科技大学 武武 森森4.1 4.1 事实表和维表的设计事实表和维表的设计在进行维表的设计时,应该注意以下两点:在进行维表的设计时,应该注意以下两点:维表中的维属性应该具体明确,体现出维层次维表中的维属性应该具体明确,体现出维层次的划分,这同操作型应用不同。的划分,这同操作型应用不同。在进行维表的设计时一定要注意维属性的可读在进行维表的设计时一定要注意维属性的可读性,因为维表中的维属性值将最终成为分析性,因为维表中的维属性值将最终成为分析报表中的行标题。例如,对于产品维来讲,报表中的行标题。例如,对于产品维来讲,可以在维表中存放产品代码,但同时一定要可以在

52、维表中存放产品代码,但同时一定要存放完整的产品名称。因为在许多情况下很存放完整的产品名称。因为在许多情况下很难从代码或缩写中判断到底指的是什么。因难从代码或缩写中判断到底指的是什么。因而,维表中的数据冗余是不可避免的。而,维表中的数据冗余是不可避免的。 数据仓库与数据挖掘数据仓库与数据挖掘 56 北京科技大学北京科技大学 武武 森森4.2 4.2 数据聚集的设计数据聚集的设计l所 有 的 数 据 仓 库 都 包 含 数 据 的 聚 集所 有 的 数 据 仓 库 都 包 含 数 据 的 聚 集AggregatesAggregates)。在数据仓库中,进行数据)。在数据仓库中,进行数据的聚集是减少

53、的聚集是减少OLAPOLAP分析需要扫描的数据量、分析需要扫描的数据量、提高查询效率的最重要的方法。提高查询效率的最重要的方法。l在数据聚集设计成功的情况下,系统的查询在数据聚集设计成功的情况下,系统的查询性能可以有成百上千倍的提高。就目前而言,性能可以有成百上千倍的提高。就目前而言,还很难找到比这更有效的方法。还很难找到比这更有效的方法。数据仓库与数据挖掘数据仓库与数据挖掘 57 北京科技大学北京科技大学 武武 森森4.2 4.2 数据聚集的设计数据聚集的设计l数据聚集虽然非常有效,但并不是聚集越多数据聚集虽然非常有效,但并不是聚集越多越好。就一个星型模式而言,假设存在越好。就一个星型模式而

54、言,假设存在6 6个维,个维,每个维有每个维有3 3个属性,那么可能建立的全部聚集个属性,那么可能建立的全部聚集数目为数目为3636,即,即729729个。如果这些聚集全部建立个。如果这些聚集全部建立起来,不仅占据存储空间,使用起来也非常起来,不仅占据存储空间,使用起来也非常的麻烦,而且还可能存在从未被使用过的聚的麻烦,而且还可能存在从未被使用过的聚集。集。l在进行数据聚集的设计时,一定要充分分析在进行数据聚集的设计时,一定要充分分析数据仓库系统的商务需求和查询性能要求,数据仓库系统的商务需求和查询性能要求,尽可能做到尽可能做到“必要的一个不少,不必要的一必要的一个不少,不必要的一个不多个不多

55、”。 数据仓库与数据挖掘数据仓库与数据挖掘 58 北京科技大学北京科技大学 武武 森森4.3 4.3 数据仓库中的索引数据仓库中的索引比较常见的索引方法主要包括:比较常见的索引方法主要包括:B-B-树索引树索引B-Tree IndexeB-Tree Indexe)位图索引位图索引Bit-Map IndexeBit-Map Indexe)哈希索引哈希索引Hash IndexeHash Indexe) B-B-树索引和位图索引在数据仓库中也得到了树索引和位图索引在数据仓库中也得到了广泛的应用。广泛的应用。 数据仓库与数据挖掘数据仓库与数据挖掘 59 北京科技大学北京科技大学 武武 森森4.3 4.

56、3 数据仓库中的索引数据仓库中的索引新的数据仓库索引技术主要包括:新的数据仓库索引技术主要包括:投影索引投影索引Projection IndexesProjection Indexes)位切片索引位切片索引Bit-Sliced IndexesBit-Sliced Indexes)连接索引连接索引Join IndexesJoin Indexes)R-R-树索引树索引R-Tree IndexesR-Tree Indexes)数据仓库与数据挖掘数据仓库与数据挖掘 60 北京科技大学北京科技大学 武武 森森数据仓库中的索引举例数据仓库中的索引举例表表 名名索引名称索引名称索引类型索引类型取值唯一性取值

57、唯一性索引列索引列说说 明明销售事实表销售事实表Sales_PkeyB-树索引树索引唯一唯一时间码,产品码时间码,产品码客户码,渠道码客户码,渠道码主码索引主码索引销售事实表销售事实表Sales_DateB-树索引树索引不唯一不唯一时间码时间码主要用于星型连接查询主要用于星型连接查询销售事实表销售事实表Sales_ProductB-树索引树索引不唯一不唯一产品码产品码主要用于星型连接查询主要用于星型连接查询销售事实表销售事实表Sales_CustomerB-树索引树索引不唯一不唯一客户码客户码主要用于星型连接查询主要用于星型连接查询销售事实表销售事实表Sales_Channel位图索引位图索引

58、不唯一不唯一渠道码渠道码主要用于星型连接查询主要用于星型连接查询时间维表时间维表Date_PkeyB-树索引树索引唯一唯一时间码时间码主码索引主码索引时间维表时间维表Time_Month位图索引位图索引不唯一不唯一月份月份主要用于分组查询主要用于分组查询时间维表时间维表Time_Season位图索引位图索引不唯一不唯一季度季度主要用于分组查询主要用于分组查询时间维表时间维表Time_Year位图索引位图索引不唯一不唯一年度年度主要用于分组查询及过滤主要用于分组查询及过滤产品维表产品维表Product_PkeyB-树索引树索引唯一唯一产品码产品码主码索引主码索引产品维表产品维表Product_D

59、escriptionB-树索引树索引不唯一不唯一产品名称产品名称主要用于分组查询主要用于分组查询产品维表产品维表Product_Sub_Category位图索引位图索引不唯一不唯一产品细类产品细类主要用于分组查询及过滤主要用于分组查询及过滤产品维表产品维表Product_Category位图索引位图索引不唯一不唯一产品大类产品大类主要用于分组查询及过滤主要用于分组查询及过滤客户维表客户维表Customer_PkeyB-树索引树索引唯一唯一客户码客户码主码索引主码索引客户维表客户维表Customer_ Industry位图索引位图索引不唯一不唯一所属行业所属行业主要用于分组查询及过滤主要用于分组

60、查询及过滤客户维表客户维表Customer_City位图索引位图索引不唯一不唯一所在城市所在城市主要用于分组查询及过滤主要用于分组查询及过滤客户维表客户维表Customer_Province位图索引位图索引不唯一不唯一所在省份所在省份主要用于分组查询及过滤主要用于分组查询及过滤客户维表客户维表Customer_Country位图索引位图索引不唯一不唯一所在国家所在国家主要用于分组查询及过滤主要用于分组查询及过滤渠道维表渠道维表Channel_PkeyB-树索引树索引唯一唯一渠道码渠道码主码索引主码索引数据仓库与数据挖掘数据仓库与数据挖掘 61 北京科技大学北京科技大学 武武 森森4.4 4.4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论