数据仓库开发模型课件_第1页
数据仓库开发模型课件_第2页
数据仓库开发模型课件_第3页
数据仓库开发模型课件_第4页
数据仓库开发模型课件_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 数据仓库开发模型,在创建数据仓库之时,需要使用各种数据模型对数据仓库进行描述。 数据仓库的开发人员依据这些数据模型,才能开发出一个满足用户需求的数据仓库。 使开发人员能够将注意力集中在数据仓库开发的主要部分。 模型有更好的适应性,更易于修改。 当用户的需求改变时,仅对模型做出相应的变化就能反映这个改变。,2.1数据仓库开发模型 2.2数据仓库概念模型 2.3数据仓库逻辑模型 2.4数据仓库的物理模型 2.5数据仓库的元数据模型 2.6数据仓库的粒度和聚集模型,目 录,3,学习交流PPT,2.1 数据仓库开发模型,4,学习交流PPT,模型是对现实世界进行抽象的工具。 在信息管理中需要将现

2、实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。 这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。,数据仓库的开发过程,5,学习交流PPT,概念模型,逻辑模型,物理模型,现实世界,第一级抽象,第二级抽象,第三级抽象,四个世界三级抽象,6,学习交流PPT,数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。,数据仓库的数

3、据模型,7,学习交流PPT,2.2 数据仓库概念模型,8,学习交流PPT,财务部门 销售收入账 应收账 应付账 成本账,销售部门 销售计划 销售合同 销售统计,人事部门 员工业绩记录 员工技能情况 员工薪酬表,企业数据模型,销售部门,人事部门,财务部门,企业数据模型,2.2.1 概念数据模型,9,学习交流PPT,数据仓库概念模型的设计可以使用业务数据处理系统中的E-R图,但两者有一些差距。 数据仓库的数据模型中不包含操作型的数据,数据仓库的数据模型只包含用户所感兴趣的分析数据、描述数据和细节数据。 数据仓库的数据模型扩充了关键字结构,增加了时间属性作为关键字的一部分。 数据仓库的数据模型中还增

4、加了一些由基本数据所导出的衍生数据,这些导出的衍生数据主要用于对企业的管理决策进行分析 。,2.2.1 概念数据模型,10,学习交流PPT,2.2.1 概念数据模型,数据传统的E-R图不能直接用于数据仓库的概念模型的设计,只能对其中的元素作修改后使用。 将实体分成:指标实体(事实实体)、维度实体和详细类别实体(引用实体)。,11,学习交流PPT,指标实体(事实实体),指标实体名,维度实体名,详细类别实体名,维度实体,详细类别实体(引用实体),指标实体:现实世界中的业务处理或某一事件的逻辑表示。是数据仓库中的实体表。对指标实体数据的管理是数据仓库管理的重点。 维度实体:可以形成一个维度体系,具备

5、访问和过滤指标实体的能力。是数据仓库中的较小的表。 详细类别实体:与现实世界中的某一个实体相对应。它具有终止操作的作用。 用户通过维度实体得到指标实体数据,而在操作到详细类别实体时停止操作。,12,学习交流PPT,2.2.2 规范的数据模型,第一范式、第二范式、第三范式数据仓库的反规范化处理,将小表合并,以减少多表查询时的表的连接操作。,13,学习交流PPT,2.2.2 规范的数据模型,数据仓库中的各个实体不是对等的,在建立实体时,需要根据载入数据实体的数据量来考虑数据仓库中数据的结构设计。,14,学习交流PPT,2.2.3 星型模型,星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形

6、成了一个集成系统,为用户提供分析服务对象。 核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。,15,学习交流PPT,2.2.3 星型模型,事实表:包含主题。维度表:包含事实的非正规化描述。 星型模型可以采用关系型数据库结构。维度表中的对象通过事实表与另一维度表中的对象相关。通过事实表将多个维度表进行关联,就能建立各个维度表对象之间的联系。 每一个维度表通过一个主键与事实表进行连接。维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行。事实表中的外键不得为空。,16,学习交流PPT,2.2.4 雪花模型,星雪花模型是对星型模型的扩展

7、,每一个维度都可以向外连接到多个详细类别表。 雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。,17,学习交流PPT,2.3 数据仓库逻辑模型,18,学习交流PPT,逻辑模型亦称为中间层数据模型,它是对高层概念模型的细分,在高层模型中所标识的每个主题域或指标实体都需要与一个逻辑模型相对应。,高层概念模型与中层逻辑模型的对应关系,19,学习交流PPT,逻辑模型的基本结构,20,学习交流PPT,基本数据组:存有唯一的主要主题域,包含只出现一次属性和键。 二级数据组:存有可以存在多次的属性。 联接数据组:用于本组主要主题域与其他主要主题域之间的联系。它往往是一个主题的公

8、共码主键。 类型数据组:数据的类型。由不同数据组组成。一般可以分为超类型数据组合子类型数据组。 除联接数据组外的三种数据组的划分都基于数据的不同稳定性。基本数据组的稳定性大于二级数据组,而二级数据组的稳定性大于类型数据组。,21,学习交流PPT,某超市企业用户的逻辑模型,22,学习交流PPT,2.3.1 事实表模型设计,事实表:包含数据仓库中的大量的基本业务详细信息。 客户事实表 客户基本情况表(账号Integer9,姓名Character12,出生地Character20,初次交易时间Date,) 客户变动情况表(账号Integer9,省Character20,县Character20,街道

9、Character20,邮政编码Character6, ) 事实表中的事实特性 事实表中一般包含两部分,一是由主键和外键所组成的键部分,另一是用户希望在数据仓库中所了解的数值指标,称为事实或指标。 事实表中的事实有两种:基本事实和派生事实。 派生事实主要有两种,一是可以用同一事实表中其他事实计算得到,一般不保留在事实表中;还有一类派生事实是非加法性事实,一般要将它转移到维度表中。,23,学习交流PPT,2.3.2 维模型设计,事实设计维度表的目的:把参考事实表的数据放置在一个单独的表中。最常用的维度表数据应该直接参考事实表,而不是通过其他维度表间接参考事实表。 客户主题维度表模型: 时间维度表

10、(年Date,月Date,日Date) 地点维度表(省Character20,市Character20,县Character20,街道Character20),24,学习交流PPT,2.4 数据仓库的物理模型,25,学习交流PPT,2.4.1 数据仓库物理模型的存储结构,确定数据的存储结构 并行存储结构RAID ( Redundant Array of Inexpensive Disk,廉价冗余磁盘阵列)。主要采用以下技术: 磁盘镜像 磁盘复制 奇偶校验 磁盘分段 RAID实现原理:将数据写入多张磁盘中,如果一张磁盘发生故障,可以从其他存放冗余数据的磁盘上访问数据。,26,学习交流PPT,1.

11、 位图索引:索引中的每个位对应表中一条记录的布尔测试值。,2.4.2 数据仓库物理模型的索引构建,27,学习交流PPT,1.位图索引:索引中的每个位对应表中一条记录的布尔测试值。,2.4.2 数据仓库物理模型的索引构建,确定某些统计可以通过索引进行,而不需读取数据记录本身。如统计女性客户数。 检索满足某种条件记录时,可以通过索引筛选出满足条件的记录,再读取相应的数据记录,而不需读取不满足条件的记录。 对于值域大于2的列,需要为每个值建索引。若上海市索引及北京市索引。 一般考虑基数较低的列为其建位图索引。有些列是无法建位图索引的。如身份证列。 可以对位图索引使用布尔运算,来实现更为复杂的选择条件

12、。,28,学习交流PPT,2.4.2 数据仓库物理模型的索引构建,29,学习交流PPT,2.4.2 数据仓库物理模型的索引构建,2. 广义索引,广义索引是指在向数据仓库中装载数据时,根据用户的需要建立的索引。 广义索引的内容一般包含用户最关心、最常使用的问题。如有关销售事实的商品总量、销售总金额等。 每次向数据仓库装载数据时,就重新生成广义索引的内容。 广义索引一般以元数据方式存放。,30,学习交流PPT,2.4.2 数据仓库物理模型的索引构建,3. 连接索引,连接索引是将事实表和维表中的索引项进行连接运算后,将结果作为索引保留下来。当需要将事实表和维表进行连接运算时,可以直接利用连接索引进行

13、连接运算。 连接索引可以根据需要设立,不一定对全部外键设立。,31,学习交流PPT,连接索引A,agelevel_id,time_id year_id month_id,geo_id prov_id city_id county_id,produ_id,agelevel_id time_id geo_id produ_id amou_mone,agelevel_id time_id year_id month_id geo_id prov_id city_id county_id produ_id amou_mone,agelevel_id time_id geo_id produ_id,全连

14、接结果,time_id geo_id,连接索引B,连接索引图,32,学习交流PPT,2.4.2 数据仓库物理模型的索引构建,4. 索引的选择,主键必须建立索引。 不要求必须对外键设置连接索引,但如果表很大,数据很多,外键应该设置连接索引。 在对数据仓库使用SQL语句操作时,WHERE字句中所指定的列可以考虑为其建立索引。但要考虑其基数。,33,学习交流PPT,2.4.3 数据仓库物理模型的优化问题,物理模型设计的另一个内容:提高数据仓库的I/O性能。 合并表:当对涉及几个表的某些列的查询具有固定性时,可以将这些表的记录合并起来以减少连接操作的代价。 建立数据序列:当按照某一固定的顺序访问并处理

15、一组数据记录时,可以将数据按照处理顺序存放到连续的物理块中,形成数据序列。 引入冗余:一些表的某些属性可能在许多地方都要用到,将这些属性复制到多个主题中,可以减少处理时存取表的个数。 表的物理分割:每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成两个或多个表,将具有相似访问频率的数据组织在一起。 生成派出数据:在原始数据的基础上进行总结或计算,生成派出数据,可以在应用中直接使用这些派出数据,减少I/O次数,免去计算或汇总步骤,在更高级别上建立了公用数据源,避免了不同用户重复计算可能产生的偏差。,34,学习交流PPT,2.5 数据仓库的元数据模型,35,学习交流PPT,2.

16、5.1 元数据的类型与组成,元数据是数据的数据,是对数据仓库中的各种数据的详细的描述与说明。 根据元数据在数据仓库中所承担的任务,可以将元数据分成静态元数据和动态元数据两类。 静态元数据主要与数据结构有关;动态元数据主要与数据的状态和使用方法有关。,36,学习交流PPT,2.5.1 元数据的类型与组成,37,学习交流PPT,2.5.2 元数据在数据仓库中的作用,元数据描述了数据的结构、内容、键、索引等项内容。在数据仓库中,元数据定义了数据仓库中的许多对象表、列、查询、商业规则或是数据仓库内部的数据转移。它是数据仓库的重要构件,是数据仓库的指示图(roadmap),指出了数据仓库中各种信息的位置

17、和含义。,38,学习交流PPT,2.5.2 元数据在数据仓库中的作用,数据仓库的元数据重要性: 为数据仓库服务与DSS分析员及高层决策人员服务提供有关决策的数据。 解决操作型环境和数据仓库的复杂关系:元数据要将从操作性环境到数据仓库的转换描述出来以便从数据仓库向数据库回溯时找到原始依据。 数据仓库中数据的管理:元数据要描述数据仓库中数据的各种变化,处理。,39,学习交流PPT,元数据在数据仓库开发期间的使用 元数据要描述数据仓库在抽取、求精和重构过程中从资源到数据仓库之间的映射关系,可用于以下目标: 确认数据质量 同步化和刷新 映射:在反映最终用户所关心的商业规则和数据之间建立一种关系。,2.

18、5.2 元数据在数据仓库中的作用,40,学习交流PPT,元数据在数据源抽取中的作用 资源领域的确定 跟踪历史数据结构变化的过程 属性到属性的映射:多个系统数据源的相似字段要映射到一起。 属性转换:将数据字段的不同格式转换为兼容格式。,2.5.2 元数据在数据仓库中的作用,41,学习交流PPT,2.5.2 元数据在数据仓库中的作用,元数据在数据求精与重构工程上的作用: 数据的分割:由于性能需要将单一数据块分成两个或多个数据块。元数据中要制定分割方案。 概括与聚集:向需要概括总数的数据中增加新的数值。 预算与推导:创建附加的数据字段。 转换与再映像:把数据源信息转化为适合于数据仓库事实表行的过程以

19、及将许多表组成事实表行的过程。,42,学习交流PPT,2.5.3 元数据的收集,元数据遍及数据仓库中的任何地方和环境中,因此元数据的收集过程应尽量采用自动收集方式进行。 数据源的元数据:包含业务处理系统的数据库、可以获得的外部数据、手工处理的数据及存储在系统中的数据的物理结构。 数据模型的元数据:数据模型设计后必须将其存入元数据库中,使得数据模型和元数据一一对应,为以后数据仓库的变动奠定基础。一般使用CASE工具收集。 数据源与数据仓库映射的元数据:数据源于数据仓库的映射反映了数据在加载道数据仓库过程中的变化,这种变化要记录在元数据中。 数据仓库应用的元数据:将用户使用数据仓库的频率记录在元数

20、据中,以便为使用频率高的用户建立数据集市或增加概括数据,将使用少的数据释放。,43,学习交流PPT,2.6 数据仓库的粒度和聚集模型,44,学习交流PPT,粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度就越小,数据综合度越高,粒度就越大,级别就越高。,粒度可定义成数据仓库中数据细节的最低层次,如事务层次。这种数据层次是高度细节化的,这样就能使用户按所需的任何层次进行汇总。 根据粒度的划分标准可以将数据划分为:详细数据、轻度总结、高度总结三级或更多级粒度。粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量。,45,学习交流PPT,2.6.1 数据粒度的划分,第一步,是估算数据仓库中将来要使用的数据行数和所需的直接存取存储设备数。 每一个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。,46,学习交流PPT,2.6.2 确定粒度的级别,考虑因素: 要接受的分析类型 可接受的数据最低粒度 能存储的数据量。 粒度的层次定义越高,就越不能在该仓库中进行更细致的分析。 通常在同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论