版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 2 章 数据仓库,第2章 数据仓库,主要内容,数据仓库基本概念,数据仓库体系结构,数据仓库元数据,数据仓库的数据模式,多维分析,高性能物理数据仓库设计,第2章 数据仓库,主要内容,数据仓库基本概念,数据仓库体系结构,数据仓库元数据,数据仓库的数据模式,多维分析,高性能物理数据仓库设计,第2章 数据仓库,数据仓库基本概念,随着数据库技术的应用普及和发展,人们不再仅仅满足于 一般的业务处理,而对系统提出了更高的要求:提供决策支持 (DSS、OLAP,应用背景及需求,需求 一种面向分析的环境; 一种把相关的各种数据转换成有商业价值的信息的技术,第2章 数据仓库,数据仓库基本概念,从数据库到数据仓
2、库,数据库系统能够很好的用于事务处理,但它对分析处理的支 持一直不能令人满意。特别是当以业务处理为主的联机事务处理 (OLTP) 应用和以分析处理为主的DSS应用共存于一个数据库系 统时,就会产生许多问题。 例如,事务处理应用一般需要的是当前数据,主要考虑较短 的响应时间;而分析处理应用需要是历史的、综合的、集成的数 据,它的分析处理过程可能持续几个小时,从而消耗大量的系统 资源。 人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。 要提高分析和决策的有效性,分析型处理及其数据必须与操作型 处理及其数据分离。必须把分析型数据从事务处理环境中提取出 来,按照DSS处理的需要进行重新组织,建
3、立单独的分析处理环 境。 数据仓库技术正是为了构建这种新的分析处理环境而出现的 一种数据存储和组织技术,第2章 数据仓库,数据仓库基本概念,主要通过以下五点区分开来。 用户和系统的面向性 OLTP是面向顾客的,用于事务和查询处理; OLAP是面向市场的,用于数据分析 数据内容 OLTP系统管理当前数据; OLAP系统管理大量历史数据,提供汇总和聚集机制. 数据库设计 OLTP采用实体-联系ER模型和面向应用的数据库设计; OLAP采用星型或雪花模型和面向主题的数据库设计. 视图 OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的 数据; OLAP则相反. 访问模式 OLT
4、P系统的访问主要由短的原子事务组成.这种系统需要并行和恢复机制; OLAP系统的访问大部分是只读操作,OLTP(on-line transaction processing)与OLAP(On-Line Analytical Processing)区别,第2章 数据仓库,Sdlc :Software Development Life Cycle,第2章 数据仓库,数据仓库基本概念,数据仓库与决策支持系统,用户在进行决策制定时需要得到企业各方面的信息,因此用 户一般首先根据各个业务部门数据库中的数据,创建数据仓库, 存储各种历史信息和汇总信息。 对数据仓库的进一步应用由功能强大的分析工具来实现。现
5、 在主要有三类分析工具可用于决策支持。 第一类能够支持涉及分组和聚集查询,并能够对各种复杂的 布尔条件、统计函数和时间序列分析提供支持的系统。主要由上 述查询组成的应用称为联机分析处理,即OLAP。在支持OLAP查 询的系统中,数据最好看成是一个多维数组,第2章 数据仓库,数据仓库基本概念,数据仓库与决策支持系统,第二类系统仍为支持传统SQL查询的DBMS,但为了有效地 执行OLAP查询而进行了特殊的设计。这些系统可以看作是为决 策支持应用进行了优化的关系数据库系统。许多关系数据库厂商 对他们的产品进行了扩展,并且随着时间的推移,专门的OLAP 系统和支持决策支持的关系数据库系统之间的差别将逐
6、渐取消,第2章 数据仓库,数据仓库基本概念,第三类的分析工具可用于在大量的数据集合中,找到有意义 的数据趋势或者模式,而不是上面提到的复杂数据查询。在数据 分析过程中,尽管分析者能够判定得到的数据模式是否有意义, 但是生成查询来得到有意义的模式还是很困难的。例如,分析者 查看信用卡使用记录,希望从中找出不正常的信用卡使用行为, 以表明是被滥用的丢失的信用卡;商人希望通过查看客户记录找 出潜在的客户来提高收益。许多应用涉及的数据量很大,很难用 人工分析或者传统的统计分析方法进行分析,数据挖掘的目的就 是对这种大量数据的分析提供支持,数据仓库与决策支持系统,第2章 数据仓库,数据仓库基本概念,数据
7、仓库定义及特征,数据仓库理论的创始人W.H.Inmon在其 Building the Data Warehouse一书中,给出了数据仓库的四个 基本特征: 面向主题, 数据是集成的, 数据是不可更新的, 数据是随时间不断变化,第2章 数据仓库,数据仓库基本概念,数据仓库定义及特征,面向主题,主题是在较高层次上对数据抽象; 面向主题的数据组织分为两步骤: -抽取主题;-确定每个主题所包含的数据内容 每个主题在数据仓库中都是由一组关系表实现的,数据仓库基本概念,数据仓库定义及特征,面向主题,第2章 数据仓库,数据库,数据库,面向应用,面向主题,汽车,人寿,健康,意外伤害,主题-顾客,主题-保单,主
8、题-索赔,主题-保费,第2章 数据仓库,数据仓库基本概念,数据仓库定义及特征,集成的,数据仓库的数据是从原有的分散数据库数据中抽取来的 需要消除数据表述的不一致性(数据的清洗) 数据的综合,第2章 数据仓库,数据仓库基本概念,数据仓库定义及特征,集成的,数据库环境,数据仓库环境,应用A 1, 0 应用B 男,女 应用C Y,N,集成,映射 编码,多维数据库 男,女,应用A CM 应用B Inches 应用C CM,映射 转换,多维数据库 CM,第2章 数据仓库,数据仓库基本概念,数据仓库的主要数据操作是查询、分析; 不进行一般意义上的数据更新(过期数据可能被删除) 数据仓库强化查询、淡化并发控
9、制和完整性保护等技术,数据仓库定义及特征,不可更新的,第2章 数据仓库,数据仓库基本概念,数据仓库定义及特征,不可更新的,Insert、Update、Delete Select,数据库环境 数据的逐个记录方式处理,数据仓库环境 数据的批量载加载,存取,ETL,访问Select,第2章 数据仓库,数据仓库基本概念,不断增加新的数据内容; 不断删除旧的数据内容; 定时综合; 数据仓库中数据表的键码都包含时间项,以标明数据的历史时期,数据仓库定义及特征,随时间变化的,第2章 数据仓库,数据仓库基本概念,数据仓库定义及特征,随时间变化的,数据库环境,数据仓库环境,时间期限:当前到30-60天 记录更新
10、 包含或者不包含时间概念,时间期限:年 数据的复杂快照 包含时间概念,第2章 数据仓库,主要内容,数据仓库基本概念,数据仓库体系结构,数据仓库元数据,数据仓库的数据模式,多维分析,高性能物理数据仓库设计,Inmon的企业信息化工厂,数据仓库体系结构,第2章 数据仓库,数据仓库体系结构的争论,Kimball的维度数据仓库,独立型数据集市,Inmon的企业信息化工厂,数据仓库体系结构,第2章 数据仓库,数据仓库体系结构的争论,数据仓库体系结构,第2章 数据仓库,数据仓库体系结构的争论,Kimball的维度数据仓库,数据仓库体系结构,第2章 数据仓库,数据仓库体系结构的争论,独立型数据集市,数据仓库
11、体系结构,第2章 数据仓库,数据仓库体系结构的争论,三种体系结构的特征比较,数据仓库体系结构,第2章 数据仓库,数据仓库体系结构的争论,三种体系结构比较,Inmon的企业信息化工厂和Kimball的维度数据仓库都关注企业级应用。他们的目 的是支持跨企业或组织机构的分析型需求。这种方法允许在一个主题区域内处理需求, 就像跨主题区域处理问题一样。 关注企业级应用需要采用一种工程化的方法来处理来自不同组织的数据需求。数 据仓库不能仅凭倾听几次需求就能设计出来。设计团队必须研究、分析公共数据元素 的不同特征,这些特征由于用户不同而有所差别。比如,用户或产品可能在制造、销 售或审计中彼此关联。对于相同的
12、数据元素,在不同的系统中会采用不同的处理方法, 数据仓库设计必须以一种统一的视图来适应所有不同的观点。 相比之下,独立型数据集市在关注企业级应用方面显示出了不足。其开发只考虑了 来自一个小组或部门的需求。由于这种关注的片面性,其开发不会受制于对跨企业公共 数据元素的探讨;而仅仅关注特定主题区域的特定系统。 由于这两种企业体系结构有相同的范围,因此产生了一个相同的体系结构特点: 它们都有一个独立的原子数据的集成仓库。在企业信息化工厂中,这一仓库被称为企 业数据仓库。在维度数据仓库中,该仓库被称为维度数据仓库。这种集中存储的集成 特性与关注企业级应用是一致的。它汇集了公共实体的多种优势,比如顾客或
13、产品。 同样,关注原子化也满足了企业目标。无须按照特定分组或主题区域的需求来收集细 节数据。取而代之的是,尽可能有效地收集细节数据以满足所有的分析型需求,数据仓库体系结构,第2章 数据仓库,数据仓库体系结构的争论,三种体系结构比较,参考 Star Schema 完全参考手册数据仓库维度设计权威指南 清华大学出版社,对于Inmon体系结构来说,数据集市是为部门使用而建立的一组表格, 并且是物理分离的。可以聚集细节数据以适应部门或小组的特殊需要。在 这方面,它与独立型数据集市有一些相似之处;然而,企业信息化工厂中 的数据集市在企业仓库中获取数据,因此内容与企业信息视图保持一致。 而这是独立型数据集
14、市无法保证的。 对于Kimball体系结构来说,不要求数据集市与物理数据分开存储。相 反,它可以是一种逻辑构件数据仓库表的子集。单独的数据集市报表 可以随时构建。构建完毕后即可从集成仓库中得到报表。数据集市与企业 信息视图保持一致,要么是由于它们将这种视图具体化,要么是由于它们 从数据集市中获取数据,数据仓库体系结构,第2章 数据仓库,数据仓库体系结构的争论,三种体系结构比较,第2章 数据仓库,数据仓库体系结构,用户,可视化工具集,多维分析工具,数据挖掘工具,多维数据,数据仓库,源数据,源数据,源数据,源数据,源数据,数据来源,数据仓库层,数据仓库 工具层,数据仓库层次结构,第2章 数据仓库,
15、RDBMS,数据文件,其他,综合数据,当前数据,历史数据,元数据,抽取、转换、装载,数据仓库,OLAP工具,DM工具,查询工具,分析工具,数据源,数据仓库体系结构,第2章 数据仓库,数据仓库体系结构,数据仓库体系结构实例-税务数据仓库,增量抽取,完全抽取,计 算,映 射,清 洗,业务要求,数据要求,抽 取,转 换,加 载,数据仓库,数据加载,异常情况处理及回退机制,作业控制管理,第2章 数据仓库,数据仓库体系结构,数据仓库体系结构实例-税务数据仓库-ETL,第2章 数据仓库,OLTP系统,RDBMS Sybase,ORACLE,SAP/ERP,5-10 年,过去 详细数据,当前 详细数据,轻度
16、 汇总数据,高度 汇总数据,数据集市,分析型CRM,业务指标分析,数据仓库,数据仓库/决策分析系统,EXCEL,数据仓库数据的组织,数据仓库体系结构,第2章 数据仓库,数据由操作型环境(综合)导入数据仓库 数据具有不同的细节 早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级,数据仓库数据的组织,数据仓库体系结构,第2章 数据仓库,数据仓库体系结构,采购子系统: 订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期, ) 供应商(供应商号,供应商名,地址,电话,) 销售子系统: 客户(客户号,姓名,地址,电话, ) 销售(客户号,商品号,数量,单价,日期,
17、 ) 库存子系统: 进库单(编号,商品号,数量,单价,日期, ) 出库单(编号,商品号,数量,单价,日期, ) 库存(商品号, 库房号,类别,单价,库存数量, 总金额,日期,,数据库系统模式(操作型数据,第2章 数据仓库,数据仓库体系结构,商品固有信息:商品号,类别,单价,颜色, 商品采购信息:商品号,类别,供应商号,供应日期,单价,数量, 商品销售信息:商品号,客户号,数量,单价,销售日期, 商品库存信息:商品号, 库房号,库存数量,日期,,采购子系统,销售子系统,库存子系统,面向主题的数据仓库数据模式,第2章 数据仓库,数据仓库体系结构,1996-2002年 销售明细表,20032009年
18、 销售明细表,20032009年 每月销售表,20032009年 每季度销售表,数据仓库中的数据组织 数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级,第2章 数据仓库,数据仓库体系结构,DW中还有一类重要的数据:元数据(metedata)。 元数据是“关于数据的数据”(RDBMS中的数据字典就是一种元数据)。 数据仓库中的元数据描述了数据的结构、内容、索引、码、数据转换规则、粒度定义等,关于元数据,在数据仓库系统中,元数据可以帮助数据仓库管理员和 数据仓库的开发人员非常方便地找到他们所关心的数据。在 数据仓库系统中,元数据机制主要支持以下五类系统治理功能: 1 描
19、述哪些数据在数据仓库中; 2 定义要进入数据仓库中的数据和从数据仓库中产生的数据; 3 记录根据业务事件发生而随之进行的数据抽取工作时间安排; 4 记录并检测系统数据一致性的要求和执行情况; 5 衡量数据质量,第2章 数据仓库,数据仓库体系结构,元数据作用及功能,第2章 数据仓库,数据仓库体系结构,粒度 是指数据仓库的数据单位中保存数据的细化或综合程度的级别 粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多 粒度影响数据仓库中数据量的大小 粒度问题是设计数据仓库的一个重要方面 双重粒度 在数据仓库的细节级上创建两种粒度 短期储存的低粒度(真实档案),满足细节查询 具有综合的高粒度(轻
20、度综合),做分析,数据仓库的数据组织,第2章 数据仓库,数据仓库体系结构,第2章 数据仓库,分割 是指把数据分散到各自的物理单元中去,以便能分别独立处理,提高数据处理效率。是粒度之后的第二个主要设计问题 两个层次的分割 系统层:DBMS,一种定义 应用层:开发者,多种定义 多种分割的标准 日期:最常用的 地理位置 组织单位,第2章 数据仓库,数据仓库体系结构,数据仓库的数据组织,第2章 数据仓库,数据仓库体系结构,主要内容,数据仓库基本概念,数据仓库体系结构,数据仓库元数据,数据仓库的数据模式,多维分析,高性能物理数据仓库设计,第2章 数据仓库,数据仓库元数据管理,元数据对数据仓库功能的支持:
21、 数据仓库内容的描述; 定义数据抽取和转换; 基于商业事件的抽取调度; 描述数据同步需求; 衡量数据质量指标,元数据对数据仓库功能的支持: (一) 数据仓库内容的描述 描述数据仓库中的各种复杂关系; (1) I/O对象:支持数据仓库I/O操作的各种对象。例如,装入到数据仓库中的源系统文件及可被用户访问表的数据均为I/O对象。元数据要描述该I/O对象的定义、类型、状态、存档(刷新)周期以及引发初始存档的事件。 (2) 关系:两个I/O对象之间的关联。这种关联分为一对一、一对多和多对多三种类型。在实际工作中,一般只考虑两种类型。即一对一和一对多的关系,多对多可以用多个一对多来表示。 (3)关系成员
22、 描述每个关系中I/O对象的具体角色(在一对多中是父亲还是儿子)、关系度(是一对一还是一对多)及约束条件(是必须满足还是可选关系,第2章 数据仓库,数据仓库元数据管理,4)关系关键字 描述两个I/O对象是如何建立关联的。每个关系都是通过I/O对象 的关键字来建立的,元数据要指明建立每个关系相应对象的关键字。 (5)域分配 将实际数据元素与I/O对象的某个域相关联。除了常规的域特征外,还 要说明每个域的所属源系统及访问日期。这两个特征对数据仓库都是非常重要的 (6)数据元素 描述数据仓库中基本单元(字段级)的特征。这些特征包括定义、类 型、长度、值域标识等。数据元素要能支持多媒体的大二进制对象。
23、 元数据描述了数据仓库中有什么数据及数据间的关系,它们是用户使用和系 统管理数据仓库的基础。基于这种组织的元数据可以开发出各种通用的用户接 口,用来支持用户从数据仓库中获取数据。用户可以提出所需的表,系统从中选 择表并得到表之间的关系,重复这个过程直到用户得到他们希望的数据。不仅 如此,系统还有对某一特殊表(I/O对象)及域信息的描述功能。用这种形式组织 的元数据有利于数据仓库的扩充,因此不必修改已存在的软件就可在数据仓库 中增加新表,第2章 数据仓库,数据仓库元数据管理,元数据对数据仓库功能的支持 (一)数据仓库内容的描述:描述数据仓库中的各种复杂关系,二)定义数据抽取和转换,第2章 数据仓
24、库,数据仓库元数据管理,元数据对数据仓库功能的支持,从源系统数据到数据仓库中目标数据的转移是一项复杂工作,其工作量占整个 数据仓库开发的80%。这里主要涉及到以下两个问题: (1) 抽取工作间的复杂关系,一个抽取要经过许多步骤 获取:从外部或内部源数据系统中获取对决策支持系统用户有用的数据。 过滤:过滤掉不需要的内容(如上次抽取后一直没有改变的数据)。 验证:从DSS用户的角度验证数据的质量。 融合:将本次抽取的数据与数据仓库中的数据进行融合; 综合:对数据进行综合,生成概要级数据。 装载:把新数据装入到数据仓库中。 存档:把新装入的数据单独存为一个文件,以便减少更新操作的数据量,2)源数据与
25、目标数据之间的映射是一种复杂的多对多关系。元数据要能够描述这些限制 所带来的一系列问题。这组元数据要定义的内容有以下几点: 抽取工作:描述每个抽取工作,并为其标识源系统。每一抽取都应有一个刷新类型代码, 一般有四种刷新类型,包括全仓库替换、全仓库附加、更新替换、更新追加。另外对每 一抽取都要明确其刷新周期(两次抽取之间的间隔)和初始触发事件(系统环境中激活第一 次抽取的事件)。 抽取工作步:定义抽取工作中的步骤包括说明每一步的类型(如过滤、验证等)及其作业控 制语言(Job Control Languge,TCL),JCL用来初始化抽取工作步。 抽取表映射:为每个抽取工作步建立输入文件/表和输
26、出文件/表之间的关联。它应提供两 种类型的属性以满足抽取工作的特殊处理要求。一类是过程的输入数据集合;另一类是数 据处理过程标识及其参数。这些属性用来自动生成程序代码以完成相应抽取工作步。 抽取域映射:为每个抽取工作步建立输入表(文件)的域与输出表(文件)的域之间的关联。 其定义的内容与抽取表类似,但是处理的粒度是表中的每个域,二)定义数据抽取和转换,第2章 数据仓库,数据仓库元数据管理,元数据对数据仓库功能的支持,记录筛选规则:提供一种过滤机制,以在抽取工作的每一步骤中进行记录的筛选。 如下是一个规则的例子: IF Record.Last_Update_Date1996_11_01 OR R
27、ecord.Create_Date 1996_11_01 THEN Reserve(保留)ELSE Delete(删除) 这组元数据可以用来生成源代码以完成数据的转换工作,即完成由操作型数据转 换生成以特殊形式存放的、面向主题的数据仓库数据。元数据中的抽取表映射 和抽取域映射定义了进行实际抽取转换工作的过程。数据仓库管理核心是:利用 该组元数据所定义的抽取过程生成某种语言的源代码,然后编译成可执行的程序 以完成数据的抽取工作。其核心也可直接以解释的方式从元数据存储中读出每 个抽取步的处理过程,从而进行数据转换,二)定义数据抽取和转换,第2章 数据仓库,数据仓库元数据管理,元数据对数据仓库功能的
28、支持,三)基于商业事件的抽取调度,第2章 数据仓库,数据仓库元数据管理,元数据对数据仓库功能的支持,抽取调度(Extract Schedule)是指数据抽取的时间安排,即什么时间进行从源数据到 数据仓库的抽取工作。抽取调度的合理与否对整个数据仓库的有效正常运行影响 很大。元数据必须对数据的抽取安排加以说明。基于商业事件抽取调度的元数据 要定义的内容有以下几点: 事件:指在公司中能够引发对数据进行处理的各种情况。其中有些是周期性的, 有些是预先安排的,而有些则是突发事件。 事件依赖:事件之间的关系及描述这些关系的时间规律性和特征。一般要指明主 事件和从事件以及两者的时间间隔和最大容忍时间。 事件
29、日志:刻画了事件发生的时间安排,即指明事件的调度周期。系统应允许用户 定义事件及相应的调度。 抽取调度:对一个事件响应后必须完成的对数据抽取工作的安排。抽取调度把事件 和相应的抽取工作联系起来。 抽取日志:对每次抽取工作进行记录,并记下相关的引发抽取事件及抽取调度。抽取 日志可以用来维护系统工作,如输入和输出工作。 时间戳日志:记录下各表被抽取的时间及表中被更新的数据。时间戳日志可以用来 与系统数据进行比较以引发抽取工作,第2章 数据仓库,数据仓库元数据管理,元数据对数据仓库功能的支持,四) 描述数据同步需求,在一个公司各部门间的数据协调中,时间是一个关键因素。上述的抽取调度 是针对熟悉公司各
30、部门之间数据同步关系的用户而言的。对不熟悉的用户,则 需要进一步利用元数据来帮助用户理解数据及数据处理的同步关系,以免误用 数据。尤其当数据仓库中涉及到复杂关系的数据而且抽取调度受多个事件制约 时,这种附加数据就更不可缺少。时间的元数据要定义的内容主要有: 同步视图:为支持不同级别用户而标识同步数据的时间规则。同步视图可 定义为一个特殊功能视图的名称和描述以及该视图中的一系列表,每个表与有 关的事件相关联。 同步实例:当实际事件发生时,记录下不同系统同步数据集合的更新轨迹。 当一个同步视图中的数据都已满足时,元数据管理机制就提醒用户可用的数据 已经准备好,系统在抽取调度后生成同步实例,第2章
31、数据仓库,数据仓库元数据管理,元数据对数据仓库功能的支持,五) 衡量数据质量,数据仓库把数据从源事务系统移到数据仓库中的目的是用于决策支持。这 就对数据质量提出了新的要求。若忽视这个问题,则意味着在坏数据上做决策, 其风险可想而知。保证质量的第一步是建立支持商业目标的数据质量期望标准, 以及达不到该标准所需冒风险的大小。下面是一组衡量数据质量的公共参数,包 括准确性、完整性、一致性、相关性、时间性、唯一性、有效性。在评价体系 确定以后,问题往往变为是否把有质量问题的数据放进数据仓库中。这一般由 应用本身决定。对甲用户有用的数据未必对乙用户也有用。因此元数据必须提 供一个机制,即针对特定应用并根
32、据用户确立的数据容忍程度来提醒用户是否采 用该数据进行决策,数据质量的元数据要定义的内容有以下几点: 目标质量特征:是针对DSS应用的某一数据域质量评价的期望尺 度,其基本属性是目标特征值。 实际质量特征:是针对DSS应用的某一数据域质量评价的实际尺度, 其基本属性是实际特征值。 用户描述的VV便于用户理解。对于非计算机专业的用户而言,星形模式比较 直观,通过分析星形模式,很容易组合出各种查询,数据仓库的数据模式,第2章 数据仓库,星型模式,数据仓库的数据模式,第2章 数据仓库,雪花模式(Snowflake Schema) 维一般是由若干层次组成 把维按其层次结构表示成若干个表 规范化、节省存
33、储空间 但需多做连接操作,定单号 销售员号 客户号 产品号 日期标识 地区名称 数量 总价,定单号 定货日期,客户号 客户名称 客户地址,销售员号 姓名 城市,产品号 产品名称 单价,日期标识 日 月 年,地区名称 省,事实表,雪花模式,产品号 公司代码,公司代码 公司名称 地址,雪花模式(Snowflake Schema,数据仓库的数据模式,第2章 数据仓库,雪花模式是对星形模式维表的进一步层次化,将某些维表扩 展成事实表,这样既可以应付不同级别用户的查询,又可以将源 数据通过层次间的联系向上综合,最大限度地减少数据存储量, 因而提高了查询功能,数据仓库的数据模式,第2章 数据仓库,星模式与
34、雪花模式的区别,数据仓库的数据模式,第2章 数据仓库,维度表与事实表,维度表 维度提供了环境信息,如果没有环境信息,报表将显得毫无意义。成功 的维度设计要点在于适当地使用键,维度列集合包含丰富的细节信息,摒弃 节省存储空间的主张。 星型模式中,每个维度表都分配有一个代理键。这个键并不是从操作型系 统中获得的。代理键仅仅是为数据仓库和数据集市创建的。代理键通常表现为 整数,在星型模式加载时的获取、转换、加载(ETL)过程中产生并被管理。键 值不包含内在的含义,因此对数据仓库使用者来说并无特殊的意义。维度表的 每一行都包含一个唯一的代理键与之对应。 与代理键不同,多数维度表中都包含一个或多个自然键
35、。自然键通常来源 于源系统。它们不能唯一地区分数据仓库中的行,但能够区分来自源系统中对 应的实体,数据仓库的数据模式,第2章 数据仓库,维度表与事实表,Surrogate Key,Natural Key SKU产品统 一编号的简称, 在大型企业中 每种产品均 对应有唯一 的SKU号,维度表,数据仓库的数据模式,第2章 数据仓库,维度表与事实表,Surrogate Key的作用 (1)维度表的每一行都包含一个唯一的代理键与之对应。起 到了类似数据库表中主键的作用。 (2)将代理键作为唯一标识符的使用方法允许数据仓库对源系 统发生的变化做出响应,这种方式适应了分析型系统的需求。 由于维度表不依赖于
36、自然键来区分行的唯一性,因此维度表能 够维护历史信息,即使源系统不能也无所谓,维度表,假设订单输入系统包含一个customer_id为404777的记录,该记录包含客户的地址信息。在客户地址发生改变时,由于源系统重写了客户地址,因此无法跟踪地址变迁的历史信息。如果在维度表中使用同样的customer_id作为区分行的唯一标识符,那么在维度表中仅能存储一条customer_id为404777的记录,因此采用该方式的维度表也不能跟踪客户地址变迁的历史信息。通过使用代理键,我们就可以在系统中为customer_id为404777的客户保存两条甚至多条记录,因此可以维护客户地址变迁的历史信息。这一历史
37、信息可能是有用的,数据仓库的数据模式,第2章 数据仓库,维度表与事实表,Surrogate Key的作用,维度表,数据仓库的数据模式,第2章 数据仓库,维度表与事实表,维度表,维度为事实提供了环境。没有环境,事实就无法理解。例如 类似“订单为40000美元”这样的说明没有什么意义。它表达的 是没有任何实际意义的事实(订单总额)。该订单是有关一个产品 还是多个产品的?是一天的订单情况还是一年的订单情况?为正 确理解“40000美元”的含义,显然需要更多的信息。“2009年1 月有关电子产品的订单为40000美元”,通过增加维度环境 电子产品类、一个月、某年,使得事实具有实际意义,维度以及维度值在
38、多个方面增强了事实的含义: 用于过滤查询或报表。 用于控制聚集事实的范围。 用于确定信息的顺序或排序。 与事实一起构成提供报表的环境。 用于定义主从结构、分组、分类汇总、汇总等。 通过这些应用,维度揭示了事实的价值。在查询中可以使 用维度的不同组合方式回答各种问题。维度涉及的属性越 广,对事实表开展分析工作的方式就越多,数据仓库的数据模式,第2章 数据仓库,维度表与事实表,维度表的作用,在操作型系统中,经常采用的方法是将数据元素尽可能分解 为构成其内容的多个组件。采用这种方法,可以将不同的组件按 照需要加以合并。例如,客户姓名可以分解并以first_name、 middle_initial、l
39、ast_name的方式存储。在需要时可以将这些属性 加以组合形成全名。 这些组件具备分析的价值,当然应该包含在维度设计中。 与操作型模式不同,维度模式还应该包含这些组件的各种组合。 例如,如果在报表中存在大量的按照全名或last_middle_first格式 分类信息的情况,那么应该将这些组合独立地以列的方式体现在 维度表中。如下图,数据仓库的数据模式,第2章 数据仓库,维度表与事实表,维度表的应用,数据仓库的数据模式,第2章 数据仓库,维度表与事实表,维度表的应用,客户维度展示了如何将客户姓名的三个组 成部分,例如 John P. Smith,构建为客户 维度表中的5个属性。由于每一个属性在
40、维 度设计时都可以获取,因此可以很容易地使 用它们来组织数据、排序报表、设置数据顺序等。 另外,由于它们在查询中是不可计算的,因此对 数据库管理员来说,可以为这些列增加索引以改 善查询性能,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 维度表缓慢变化维,缓慢变化维 (slowly Changing dimensions)简述 维度表中的数据来源于操作型系统,在多维数据仓库或者独立型数据集 市中,数据直接来源于操作型系统。在企业信息化工厂中,来源于操作型系 统的数据首先移到企业数据仓库中,然后进入多维数据集市。进入到维度表 中的信息,在操作型系统中仍然可能会发生变化,例如,客户的生日出现
41、错 误可能需要纠正,客户地址发生变化需要更新等。 采用维度设计方案时,确定数据源的变化情况在维度表中如何表示非常 重要,这一现象称为缓慢变化的维度,简称缓慢变化维。 该术语的名称反映了维度积累变化的实际情况,至少与积累数据行较为 快速的事实表比较,维度变化相对缓慢。应对数据元素改变存在不同的响应 方式。某些情况下,保留历史数据没有什么分析价值(变化类型1)。某些 情况下,保留历史数据将会起到至关重要的作用(变化类型2,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 维度表缓慢变化维,如图所示为订单录入系统的客户记录在三 个不同时间点的情况。示例中记录的是 custorner_id为990
42、0011,cust_name为 Sue Johnson的客户。 注意在2007年1月1日,其生日显示为 1961年3月2日,居住在亚利桑那州(AZ)。 后来,到2007年1月31日,其生日变为 1971年3月2日。 再后来,到2009年5月5日,记录显示其居 住地变为加利福尼亚州。此操作型系统对 上述变化情况采用同样的办法, 即重写customer_id为9900011的记录,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 维度表缓慢变化维,假定该操作型系统为星型模式提供维度表用于跟踪订单情况。分析型 需求可能要求对这些变化采用不同的处理方法。针对Sue的生日,从业务角 度考虑变化可能无
43、关紧要。在操作型系统中,采取的方法是简单地将客户 维度表中包含Sue的记录更新。另一方面,针对Sue的地址发生改变的情况, 则需要认真考虑。该客户居住在亚利桑那州时可能提交了一些订单,而居 住在加利福尼亚州时可能提交过更多的订单。若希望按照州研究订单的历 史情况,那么将Sue的订单与其居住的州联系起来非常重要。 上述两种有关9900011客户发生变化的情况可被用于描述星型模式响应 缓慢变化时最常见的类型:缓慢变化类型1和缓慢变化类型2。对两类变化的 响应分别为重写事务历史和保留变化情况。另外还有一种不太常见的类型3。 类型3通常应用于不需要历史环境、但需要使用数据元素变化前和变化后的数 值的环
44、境,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 维度表缓慢变化维-变化类型1,Type 1 Change 当一个维度值的源发生变化,并且不需要在星型模式中保留变化历史时, 通常采用类型1来响应变化情况。仅仅使用变化的值重写维度即可。该技术 通常应用于源数据元素是为了更正错误而发生更改的情况。 通过重写星型模式中对应的维度值,变化类型1删除了数据元素的历史信 息。星型模式不会保留该列曾经包含不同值的线索。一般来说,该方法可以达 到预期的效果,但也可能会导致混乱。如果存在与变化前关联的事实,就说明 历史环境发生了改变,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 维度表缓慢变化维
45、,Type 1 Change,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 维度表缓慢变化维,Type 2 Change 多数操作型系统的变化采用变化类型2处理。变化类型2保存了变化的 历史事实。描述变化前的事件的事实与过去的值关联,描述变化后的事件 的事实将与新值关联。 当源系统发生变化时,可以采用的第2种方法是在维度表中插入新的行。 先前存在的记录不会发生任何改变。变化类型2将保存与以往值关联的事实 环境,并允许新的事实与新值关联,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 维度表缓慢变化维,Type 2 Change 客户Sue Johnson地址改变的问题提 供了应用
46、变化类型2的实例。随着时 间的推移,客户Sue由先前居住在亚 利桑那州,改变为目前居住在加利 福尼亚州。她居住在亚利桑那州时 提交过一些订单,居住在加利福尼 亚州时提交了另外一些订单。若采 用变化类型1处理客户Sue地址变化 的情况,会产生一些负面效果,即 重新声明了Sue地址变化前提交订单 的环境。这些订单将与她目前居住 的加利福尼亚州关联,即使这些订 单是Sue在亚利桑那州提交的,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 维度表缓慢变化维,小结 (1)数据仓库针对数据源发生的变化而进行响应,这样的过程称 为缓慢变化维 (2)缓慢变化类型1在响应数据源变化时,重写维度属性。维度表
47、 不能反映历史情况。已经存在事实的历史环境被改变了。 (3)数据值发生改变时,缓慢变化类型2创建了一个新版本的维度 行。尽管不能与时间关联,但维度表维护了版本历史,历史 事实的环境得到保存,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 事实表,事实表是度量业务过程的引擎。事实表存储用来描述过程的 详细度量。事实采用外键为每个度量提供维度环境。 作为过程度量的核心,事实表应包含与其描述的过程有关的 所有事实,当然也包含从其他方面获得的一些事实。 事实以特定的细节层次存储,但可以通过上卷产生各种级别 的维度。 由于事实具有可加性,因此这样的聚集是可能的。某些度量 不具备可加性,但通常可以分
48、解成具有可加性的组件,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 事实表,该星型模式的事实表包含下列事实: quantity_ordered(订货数量) order_dollars(订单总额) cost_dollars(开销总额) margin_dollars(利润总额,利润总额可以通 过从订单总额减 去开销总额获得 当然放不放在事 实表中与应用和 设计者的风格有 关,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 事实表关于非可加事实,将事实相加以获得对单个事实汇总的能力被称为可加性。 遗憾的是,并不是所有的度量都具有可加性。许多关键业务指标 以比率或百分比形式表示,这样的度
49、量是非可加的。 解决办法将非可加事实分解为可加的组件,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 事实表关于非可加事实,数据仓库的数据模式,第2章 数据仓库,维度表与事实表 事实表关于非可加事实,因为非可加事实存在的的问 题,许多设计人员主张非可 加事实不应该出现在事实表 中,应该通过计算获得。 当然这样做可能需要付出牺 牲系统性能的代价。 这实际上也是个两难的问题 这个问题涉及可计算推导事 实的出现问题。包括前面的 利润总额问题。实际应用中 如果某计算非常复杂,或者 某比率经常使用,则可考虑 作为事实,否则就在需要时 计算获得,主要内容,数据仓库基本概念,数据仓库体系结构,数据仓库
50、元数据,数据仓库的数据模式,多维分析,高性能物理数据仓库设计,1.切片和切块(Slice and Dice) 在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。 2.钻取(Drill) 钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作, 钻取的深度与维所划分的层次相对应。 3.旋转(Rotate)/转轴(Pivot) 通过旋转可以得到不同视角的数据,第2章 数据仓库,多维分析,第2章 数据仓库,多维分析,OLAP的分析方法(一)切片(slic
51、ing)、切块(dicing,按时间维向上钻取,60,按时间维向下钻取,OLAP的分析方法(二)钻取(drill-down,第2章 数据仓库,多维分析,OLAP的分析方法(三)旋转,第2章 数据仓库,多维分析,第2章 数据仓库,多维分析,多维分析方法总结,切片是在一部分维上选定值后,关心数据在剩余维上的数据度量。 钻取是改变维的层次,变换分析的粒度;Roll up是在某一维上将 低层次的细节数据概括到高层次的汇总数据;Drill down则相反, 它从汇总数据深入到细节数据进行观察。 旋转式改变维的方向,即在表格中重新安排维的位置(如行列互 换,主要内容,数据仓库基本概念,数据仓库体系结构,数据仓库元数据,数据仓库的数据模式,多维分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保险科技行业创新模式与市场前景
- 2026年海域使用权分割转让收回续期注销制度建设
- 电力数字孪生解决方案
- 2026年工业领域大规模设备更新实施方案编制指南
- 2026年保障AI教育资源普惠共享让偏远地区享受同等数字阳光
- 母婴护理中的服务流程优化
- 2026年反渗透膜元件国产化进展与性能对比测试
- 电信行业云计算方案
- 高强度螺栓连接施工作业指导书
- 美容护理中的营养学基础
- CQI-17锡焊系统评估第二版(2021年发布-含记录)
- 线上理赔人员管理办法
- 酒店前台培训内容课件
- 2025至2030年中国纸质载带行业市场发展监测及投资潜力预测报告
- 小学学校管理课件教学
- 大学学生管理人员在校生学籍核查制度
- DB42∕T 2175-2024 城市数字公共基础设施统一标准地址编码规范
- GB/T 18501.8100-2025电子和电气设备用连接器产品要求第8-100部分:电源连接器2芯、3芯20 A功率加2芯信号塑料外壳屏蔽密封连接器详细规范
- 《大学生劳动教育》课件-第一章 劳动与劳动教育
- 山东学籍保密管理制度
- T/CACEM 14-2023交通行业质量管理小组活动及评价准则
评论
0/150
提交评论