

下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第2章数据仓库设计2.1数据仓库设计概述数据仓库设计是建立一个面向企业决策者的分析环2.1.1数据仓库设计原则0以业务和需求为中心:是指围绕业务方向性需求、业 务问题等,确定系统范围和总体框架。o o以数据来驱动: 是指其所有数据均建立在已有数据源 基础上,从已存在于操作型环境中的数据出发进行数 据仓库设计。境或系统。用商业智能技术直咖收律掖表和at询在妙析sagnas耐 KP1两则散理统计分靳袖经元网络2.1.2数据仓库构建模式1先整体再局部的构建模式:W.H.Inmon模式优点:数据规范化程度高, 最小化数据冗余与不一致 性;便于全局数据的分析 和挖掘。缺点:建设周期长、见效慢; 风险程度
2、相对大。外部数据源从数据仓库到数藜市分析主题- -数据集市数据集市 !t数据仓库2.2.先局部再整体的构建模式:Ralph Kimball模式外部数据源从数据集市到数据仓咋优点:投资少、见效快;在 设计上相对灵活;易于实 现。缺点:会有一定级别的冗余 和不一致性。数据集市外部数据源数据集市2.1.3数据仓库设计步骤(1)数据仓库的规划和需求分析。(2)数据仓库的建模。(3)数据仓库物理模型设计。(4)数据仓库的部署。(5)数据仓库的维护。2.2数摒仓库规划和卿咏分析2.2.1数据仓库的规划数据仓库的策略规划包括:0明确用户的战略远景、业务目标。0确定建设数据仓库的目的和目标。0定义清楚数据仓库
3、的范围、优先顺序、主题和针对的业务。0定义衡量数据仓库成功的要素。0定义精简的体系结构、使用技术、配置、容量要求等。0定义操作数据和外部数据源。0确定建设所需要的工具。0概要性地定义数据获取和质量控制的策略。0数据仓库管理及安全。2.2.2数据仓库的需求分析o主题分析n数据分析帶环境要求分析2.3数据仓库的延模2.3.1多维数据模型及相关概念多维数据模型将数据看作数据立方体形式,满足用户 从多角度多层次进行数据查询和分析的需要而建立起来的 基于事实和维的数据库模型。其数据组织采用多维结构文件进行数据存储,并有索 引及相应的元数据管理文件与数据相对应。1粒度(Granularity)粒度是指数据
4、仓库中数据单元的详细程度和级别,确定 数据仓库的粒度是设计数据仓库的一个最重要方面。数据越详细,粒度越小级别就越低;数据综合度越高, 粒度越大级别就越高。例如,地址数据中“北京市”比“北 京市海淀区”的粒度小。在传统的操作型数据库系统中,对数据处理和操作都是 在最低级的粒度上进行的。但是在数据仓库环境中应用的主 要是分析型处理,一般需要将数据划分为详细数据、轻度总 结、高度总结三级或更多级粒度。2.维度(Dimension )维度(简称为维)是指人们观察事物的特定的角度,概 念上类似于关系表的属性。例如企业常常关心产品销售数据随着时间推移而变化的 情况,这是从时间的角度来观察产品的销售,即时间
5、维;企业也常常关心本企业的产品在不同地区的销售分布情 况,这时是从地理分布的角度来观察产品的销售,即地区维。3.维属性和维成员一个维是通过一组属性来描述的,如时间维包含年份、 季度、月份和日期等属性,这里的年份、季度等称为时间 维的维属性。维的一个取值称为该维的一个维成员,如果一个维是 多层次的,那么该维的维成员是在不同维层次的取值组合。 例如,一个时间维具有年份、季度、月份、日期四个层次, 分别在四个层次各取一个值,就得到时间维的一个维成员, 即某年某季某月某日。4.维层次同一维度可以存在细节程度不同的各个值,可以将粒度 大的值映射到粒度小的值,这样构成维层次(或维层次结构) 或概念分层,即
6、将低层概念映射到更一般的高层概念,概念 分层允许在各种抽象级审查和处理数据。例如对于地点维,有“杭州 T 浙江 T 中国”的维层次。 又例如时间维,可以从年、季度、月份、日期来描述,那 么“年份 T 季度-月份 T 日期”就是维层次。度量是数据仓库中的信息单元,即多维空间中的一 个单元,用以存放数据,也称为事实(Fact) o通常是数值型数据并具有可加性。例如:(日期,商品,地区,销售量)其中,销售量就是一个度量。2.3.2多维数据模型的实现多维数据模型实现方式:令关系数据库(RDB)$多维数据库(MDDB)$两者相结合(HDB)1关系数据库在基于关系数据库的数据仓库中有两类表,一类是维 表,
7、对每个维至少使用一个表存放维的层次、成员等维的 描述信息;另一类是事实表,用来存放维关键字和度量等 信息。维表和事实表通过主关键字(主键)和外关键字(外 键)联系在一起。多维数据立方体各个坐标轴上的刻度以及立方体各个 交点的取值都被记录下来,因而数据立方体的全部信息就 都被记录了下来。例如,下表是一个关系表的数据组织形式,其中包含 按产品和地区两项分类统计的销售量。产品地区销僖量电视机华北10电视机华东20电视机华中30电视机华南40电冰箱华北40电冰箱华东30电冰箱华中20电冰箱华南10手机华北50手机华东60手机华中70手机华南802.多维数据库多维数据库也是一种数据库,可以将数据加载、存
8、储 到此数据库中,或从中查询数据。但其数据是存放在大量 的多维数组中,而不是关系表中。例如Exce I便是如此。例如,上一个表采用多维数据库的数据组织形式如下表所示。在关系数据库中,“多对多”的关系总是转化成多个 “一对多”的关系,有利于数据的一致性和规范化,这符合 事务处理系统的需求。多维数据库的优势不仅在于多维概念表达清晰,占用存 储少,更重要的是它有着高速的综合速度。在多维数据库中,数据可以直接按行或列累加,并且由 于多维数据库中不像关系表那样出现大量的冗余信息,因此 其统计速度远远超过关系数据库,数据库记录数越多,其效 果越明显。产品地区电視机华北10电視机华东20电视机华中30电視机
9、华曲40电冰箱华北40屯冰箱华东30电冰箱华中20电冰箱华卤10手机华北50手机华东60手机华中70手机华南80华北华东华中华南电视机102030402.3.3数据仓库建模的主要工作1在需求分析上,确定系统所包含的主题域并加以描述主题选取的原则是优先实施管理者目前最迫切需求、 最关心的主题。主题内容的描述包括主题的公共键、主题 之间的联系和各主题的属性。例如,若以顾客为主题,则设计的相关主题内容的描 述如下:基本信息:顾客号、顾客姓名、性别、年龄、文化程度、住址、电话 经济信息:顾客号、年收入、家庭总收入公共键:顾客号2确定事实表的粒度事实表的粒度能够表达数据的详细程度。从用途的不 同来说,事
10、实表可以分为以下三类:0原子事实表:是保存最细粒度数据的事实表,也是数 据仓库中保存原子信息的场所。O O聚集事实表:是原子事实表上的汇总数据,也称为汇 总事实表。0合并事实表:是指将位于不同事实表中处于相同粒度 的事实进行组合建模而成的一种事实表。3确定数据分割策略分割是指把逻辑上是统一整体的数据分割成较小的、 可以独立管理的物理单元进行存储,以便能分别处理,从 而提高数据处理的效率。分割可以按时间、地区、业务类型等多种标准来进行, 也可以按自定义标准,分割之后小单元的数据相对独立, 处理起来更快更容易。但在多数情况下,数据分割采用的 标准不是单一的,而是多个标准的组合。4.构建数据仓库中各
11、主题的多维数据模型及其联系由于数据仓库目前大多是使用关系数据库来实现的, 所以本章主要讨论基于关系数据库的数据仓库建模方法。2.3.4几种常见的基于关系数据库的多维数据模型星形模式(1)星形模式的基本结构星形模式( (Star schema)是由一个事实表和一组维表 组成,每个维表都有一个维主键,所有这些维组合成事实表 的主键,换言之,事实表主键的每个元素都是维表的外键。该模式的核心是事实表, 通过事实表将各种不同的维表 连接起来,各个维表都连接到中央事实表。星形模式的基本结构如下:星形模式的特点如下:维度表只与事实表关联,维度表彼此之间没有任何联系。 每个维度表中的主码都只能是单列的,同时该
12、主码被放置 在事实数据表中,作为事实数据表与维表连接的外码。星型模式是以事实表为核心,其他的维度表围绕这个核心 表呈星型状分布。【例2.1】一个“销售”数据仓库的星形模式如图2. 5所示。 该模式包含一个中心事实表“销售事实表”和4个维表:时间 维表、销售商品维表、销售地点维表和顾客维表。在销售事实 表中存储着四个维表的主键和两个度量“销售量”和“销售金 额”时间维表商品维农(2 )维表设计维表用于存放维信息,包括维的属性(列)和维的层 次结构。一个维用一个维表表示。维表通常具有以下数据 特征:。维通常使用使用解析过的时间、老字或地址元素,这样 可以使查询更灵活.例如时间可分为年份、季度、月份
13、 和时期等,地址可用地理区域来区分,如国家、省、市. 县等。0维表常不使用业务数据库的关键字作为主键,而是对 每个维表另外增加一个额外的字段作为主键来识别维表 中的对象。在维表中新设定的键也称为代理键。维表中可以包含随时间变化的字段,当数据集市或数据 仓库的数据随时间变化而有额外增加或改变时,维表的 数据行应有标识此变化的字段。维表中维的类型:0结构维0信息维0分区维0分类维在数据仓库的逻辑模型设计中,有一 些维表是经常使用的,它们的设计形成了 一定的设计原则,如时间维、地理维、机 构维和客户维等,所以在设计维表时应遵 循这些设计原则。0退化维0致维0父子维又例如,数据仓库存储的是系统的历 史
14、数据,业务分析最基本的维度就是时间 维,所以每个主题通常都有一个时间维。(3 )概念分层维表中维一般包含着层次关系,也称为概念分层,如在 时间维上,按照“年份一季度一月份”形成了一个层次,其 中年份、季度、月份成为这个层次的三个级别。概念分层的作用如下:令 概念分层为不同级别上的数据汇总提供了一个良好的基础。 综合概念分层和多维数据模型的潜力,可以对数据获得更深 入的洞察力。令通过在多维数据模型中,在不同的维上定义概念分层,使得 用户在不同的维上从不同的层次对数据进行观察成为可能。令多维数据模型使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结 合这两
15、者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性。(4)事实表设计事实表是多维模型的核心,是用来记录业务事实并作 相应指标统计的表,同维表相比,事实现具有如下特征:。记录数量很多,因此事实表应当尽量减小一条记录的 长度,避免事实表过大而难于管理。0事实表中除度量外,其他字段都是维表或中间表(对 于雪花模式)的关键字(外键)。0如果事实相关的维很多,则事实表的字段个数也会比 较多。在查询事实表时,通常使用到聚集函数,一个聚集函数从 多个事实表记录中计算出一个结果。度量可以根据其所用的聚 集函数分为三类:$分布的聚集函数:将这类函数用于力个聚集值
16、得到的结果 和将函数用于所有数据得到的结果一样。例如COUNT (求 记录个数)、SUM(求和)、MIN(求最小值)、MAX(求 最大值)等。$代数的聚集函数:函数可以由一个带於参数的代数函数 计算(227为有界整数),而每个参数值都可以由一个分布 的聚集函数求得。例如AVG(求平均值)等。$整体的聚集函数:描述函数的子聚集所需的存储没有一 个常数界,即不存在一个具有於参数的代数函数进行这 一计算。例如MODE(求最常出现的项)。2.2.雪花模式(1 )雪花模式的基本结构雪花模式( (Snowflake schema)是对星形模式的扩展, 每一个维表都可以向外连接多个详细类别表。在这种模式中,
17、维表除了具有星形模式中维表的功能 外,还连接对事实表进行详细描述的详细类别表,详细类 别表通过对事实表在有关维上的详细描述达到了缩小事实 表和提高查询效率的目的,雪花模式的基本结构如下:星形模式虽然是一个关系模型,但是它不是一个规范 化的模型,在星形模式中,维表被故意地非规范化了,雪 花模式对星形模式的维表进一步标准化,对星形模式中的 维表进行了规范化处理。雪花模式的特点如下:某个维表不与事实表直接关联,而是与另一个维表关联。可以进一步细化查看数据的粒度。维表和与其相关联的其他维表也是靠外码关联的。也以事实数据表为核心。【例2.2】在图2.5的星形模式中,每维只用一个维表表示, 而每个维表包含
18、一组属性。例如,销售地点维表包含属性集Locat ion_id,街道,城市,省,国家。时间维表商品维表2.5这种模式可能造成某些冗余,例如,可能存在城市.省. 国家字段的数据冗余:(101, “解放大道 100 号”,“武汉”,“湖北省”,“中国” (201, “解放大道 85 号”,“武汉”,“湖北省”,“中国”) (255, “解放大道 205号”,“武汉”,“湖北省”,“中国” 可以对地点维表进一步规范化, 如图2. 7所示, 这样就 构成了 “销售”数据仓库的雪花模式。图2.7时间维农Ti me_idH期年份季度月份销售邯实表TimejdIlcm_idLocatejdCustomcrj
19、d销售駅销售金额商品维表Item idLocatcidCustomer id街道顾客名城由顾客住址商品名37W顾客维衣地点维农时间维表商品维农(2)雪花模式和星形模式的比较比较项目星形模式雪花模式行数多少可读性容易难表数量少多搜索维的时间快股 SAM?w rSSM-PiflA分r点加 e 烹舌有效 -WB*WRMRiJB.t*3事实星座模式(1)事实星座模式的基本结构通常一个星形模式或雪花模式对应一个问题的解决 (一个主题),它们都有多个维表,但是只能存在一个事 实表。在一个多主题的复杂数据仓库中可能存放多个事实表, 此时就会出现多个事实表共享某一个或多个维表的情况, 这就是事实星座模式(Fact Constel I at ions schema)o【例2.3】在图2.5的星形模式的基础上,增加一个供货 分析主题,包括供货时间( (Time_id)、供货商品(I tem_id)、供货地点(Locate_id)、供应商(Suppl ier_id)、供货量和供货金额等
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025黑龙江黑河市逊克县乡村医生公开招聘19人考前自测高频考点模拟试题及答案详解参考
- 2025内蒙古土地资源收储投资(集团)有限公司常态化招聘50名急需紧缺专业人员的(第十二批)考前自测高频考点模拟试题及一套参考答案详解
- 2025第五师医院招聘劳务派遣人员(2人)考前自测高频考点模拟试题及1套参考答案详解
- 2025年安庆桐城市安徽安桐城乡发展集团有限公司招聘17人模拟试卷及答案详解(考点梳理)
- 2025昆明辅仁技工学校教师招聘(55人)模拟试卷及参考答案详解一套
- 2025河南郑州市中华保险招聘考前自测高频考点模拟试题及答案详解(易错题)
- 2025年六安市中医院公开招聘13人模拟试卷及答案详解(全优)
- 2025广东依顿电子科技股份有限公司招聘HRBP岗人员模拟试卷及答案详解(新)
- 2025湖南长虹聚和源科技有限公司招聘工艺工程师岗位人员考前自测高频考点模拟试题及1套完整答案详解
- 2025年聊城科技职业学院(筹)公开招聘工作人员(60人)模拟试卷及参考答案详解1套
- 道字的演变课件
- GB 46039-2025混凝土外加剂安全技术规范
- 2025至2030年中国卡丁车俱乐部行业市场调研分析及投资战略咨询报告
- 教案2025秋形势与政策纪念抗战胜利坚定民族信念抗战胜利80周年
- 加油站职业健康危害因素分析
- 辽宁省沈阳市2025届高考语文模拟试卷(含答案)
- 公路统计管理办法
- 危重症患者的疼痛管理
- 电力建设安全规程2025新版
- 2024年法考真题及答案解析
- 2025年苏州市中考数学试卷真题(含答案解析)
评论
0/150
提交评论