




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 课程安排课程安排数据仓库:数据仓库: 18学时学时数据挖掘:数据挖掘: 18学时学时考考 试:试: 撰写论文撰写论文第一章第一章 数据仓库的基本概念数据仓库的基本概念案例讨论:案例讨论:下图展示了某电信公司的市场部和计划下图展示了某电信公司的市场部和计划部对业务部对业务A A是否具有市场前景的分析过程和结果。是否具有市场前景的分析过程和结果。 试讨论为什么两部门分析结果不同。试讨论为什么两部门分析结果不同。企业级数据库企业级数据库市场部市场部分析程序分析程序1分析结果分析结果1 1: 前景很好前景很好计划部计划部分析程序分析程序2分析结果分析结果2 2: 前景不好前景不好第一章:数据仓库的基
2、本概念第一章:数据仓库的基本概念1-1 1-1 数据仓库的产生与发展数据仓库的产生与发展 传统的数据库技术作为数据管理手段,主要用传统的数据库技术作为数据管理手段,主要用于联机事务处理于联机事务处理( (OLTP,On-Line Transaction ProcessOLTP,On-Line Transaction Process) ), 数据库中保存的是大量的日常业务数据。数据库中保存的是大量的日常业务数据。 在数据共享、数据与应用程序的独立性、维护在数据共享、数据与应用程序的独立性、维护数据的一致性与完整性、数据的安全保密性等方面数据的一致性与完整性、数据的安全保密性等方面提供了有效的手段
3、。提供了有效的手段。第一章第一章 数据仓库的基本概念数据仓库的基本概念 与分析型应用结合时存在的问题:与分析型应用结合时存在的问题:v 决策支持系统为掌握充分的信息,需要访问大决策支持系统为掌握充分的信息,需要访问大量的企业内部数据和外部数据。量的企业内部数据和外部数据。v 传统数据库中的大量数据是事务型数据,即该传统数据库中的大量数据是事务型数据,即该数据是对每一项工作、管理对象的具体的、细数据是对每一项工作、管理对象的具体的、细节性的描述。节性的描述。v 事务处理型应用与分析决策型应用对数据库系事务处理型应用与分析决策型应用对数据库系统的性能要求不同。统的性能要求不同。v 传统数据库中保存
4、和管理的一般是当前数据,传统数据库中保存和管理的一般是当前数据,而决策支持系统不仅需要当前的数据,而且还而决策支持系统不仅需要当前的数据,而且还要求有大量的历史数据。要求有大量的历史数据。第一章第一章 数据仓库的基本概念数据仓库的基本概念 结论:结论: 在事务处理型应用环境中直接构建分析在事务处理型应用环境中直接构建分析决策型应用是不可行的。决策型应用是不可行的。 于是:于是: 面向分析决策型应用而组织和存储数据面向分析决策型应用而组织和存储数据的数据仓库技术应运而生。的数据仓库技术应运而生。第一章第一章 数据仓库的基本概念数据仓库的基本概念 时间:时间:20世纪世纪80年代初年代初 人物:人
5、物:W.H.Inmon 定义定义: : 数据仓库是面向主题的、集成的、数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。营管理中的决策制定过程。 A data warehouse is a subject-oriented,integrated, time-variant,and nonvolatile collection of data in support of managements decision making process.第一章第一章 数据仓库的基本概念数据仓库的基本概念 数据仓库的四大特
6、征:数据仓库的四大特征: 数据是面向主题的数据是面向主题的 数据是集成的数据是集成的 数据是具有时间特征的数据是具有时间特征的 数据是相对稳定的数据是相对稳定的 数据仓库的其它特点:数据仓库的其它特点: 数据量非常大(数据量非常大(1010GB-1000GBGB-1000GB) 是数据库技术的一种新的应用是数据库技术的一种新的应用 使用人员较少使用人员较少第一章第一章 数据仓库的基本概念数据仓库的基本概念1-2 1-2 数据仓库与数据库数据仓库与数据库 操作型数据库操作型数据库 分析型数据仓库分析型数据仓库系统目的系统目的 支持日常操作支持日常操作 支持管理需求,获取信息支持管理需求,获取信息
7、使用人员使用人员 办事员、办事员、DBADBA、数据库专家数据库专家 经理、管理人员、分析专家经理、管理人员、分析专家数据内容数据内容 当前数据当前数据 历史数据、派生数据历史数据、派生数据数据特点数据特点 细节的细节的 综合的或提炼的综合的或提炼的数据组织数据组织 面向应用面向应用 面向主题面向主题存取类型存取类型 添加、修改、查询、删除添加、修改、查询、删除 查询、聚集查询、聚集数据稳定性数据稳定性 动态的动态的 相对稳定相对稳定 第一章第一章 数据仓库的基本概念数据仓库的基本概念续上表:续上表: 操作型数据库操作型数据库 分析型数据仓库分析型数据仓库需求特点需求特点 需求事先可知道需求事
8、先可知道 需求事先不知道需求事先不知道 操作特点操作特点 一个时刻操作一单元一个时刻操作一单元 一个时刻操作一集合一个时刻操作一集合 数据库设计数据库设计 基于基于E-RE-R图图 基于星型模式、雪花模式基于星型模式、雪花模式一次操作数据量一次操作数据量 一次操作数据量小一次操作数据量小 一次操作数据量大一次操作数据量大存取频率存取频率 较高较高 较低较低响应时间响应时间 小于小于3 3秒秒 几秒几秒几十分钟几十分钟第一章第一章 数据仓库的基本概念数据仓库的基本概念 1-3 1-3 数据仓库技术的术语数据仓库技术的术语 主题主题: : (Subject) 主题是一个在较高层次上将数据归类的标准
9、,主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。每一个主题基本对应一个宏观的分析领域。 例:面向主题:产品订货分析,货物发运分析,例:面向主题:产品订货分析,货物发运分析, 新产品新产品开发分析;开发分析; 面向面向应用:财务,销售,供应,人力资源,生产调度应用:财务,销售,供应,人力资源,生产调度. . 主题域的特征:独立性,完备性主题域的特征:独立性,完备性 第一章第一章 数据仓库的基本概念数据仓库的基本概念粒度:粒度:(Granularity) 粒度是指数据仓库中数据单元的详细程度和粒度是指数据仓库中数据单元的详细程度和级别。级别。 数据越详细,粒度越小,
10、级别越低,回答查数据越详细,粒度越小,级别越低,回答查询的种类就越多。(数据堆积,回答综合问题效询的种类就越多。(数据堆积,回答综合问题效率低)率低) 数据越综合,粒度越大,级别越高,回答查数据越综合,粒度越大,级别越高,回答查询的种类就越少。询的种类就越少。 第一章第一章 数据仓库的基本概念数据仓库的基本概念 维度:维度:(Dimension) 维度是指人们观察事物的角度。维度是指人们观察事物的角度。 例如:当人们关注产品销售情况时,有如下维度:例如:当人们关注产品销售情况时,有如下维度: 时间维:随时间变化的销售数据;时间维:随时间变化的销售数据; 地区维:不同地区的销售数据;地区维:不同
11、地区的销售数据; 客户维:不同客户的销售;客户维:不同客户的销售; 根据观察事物角度的细节程度不同,维又具有根据观察事物角度的细节程度不同,维又具有维层次。维层次。数据;数据; 渠道维:不同销售渠道的销售数据;渠道维:不同销售渠道的销售数据; 产品维:不同产品的销售数据产品维:不同产品的销售数据 例:时间维:日期、周、月份、季度、年等;例:时间维:日期、周、月份、季度、年等; 地区维:城市、地区、国家等。地区维:城市、地区、国家等。第一章第一章 数据仓库的基本概念数据仓库的基本概念 数据立方体:数据立方体: 数据立方体是指由两个或更多个属性即两个数据立方体是指由两个或更多个属性即两个或更多个维
12、来描述或者分类的数据。或更多个维来描述或者分类的数据。 在三维的情况下可以用图形来表示,一般称在三维的情况下可以用图形来表示,一般称为数据立方体。为数据立方体。 实际的数据仓库的应用中,数据是多维的。实际的数据仓库的应用中,数据是多维的。 第一章第一章 数据仓库的基本概念数据仓库的基本概念 联机分析处理:联机分析处理: (OLAP) 联机分析处理是快速、灵活的多维数据分析工联机分析处理是快速、灵活的多维数据分析工具。具。 OLAPOLAP的目的是支持分析决策,满足多维环境的目的是支持分析决策,满足多维环境的查询和报表需求。的查询和报表需求。 数据仓库的多维数据存储结构为数据仓库的多维数据存储结
13、构为OLAPOLAP的实施的实施提供了理想的多维数据环境。提供了理想的多维数据环境。 第一章第一章 数据仓库的基本概念数据仓库的基本概念 数据集市:数据集市: (Data Mart) 数据集市是完整的数据仓库的一个逻辑子集,数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而而数据仓库正是由其所有的数据集市有机组合而成的。成的。 一般在某个业务部门建立数据集市,或称为一般在某个业务部门建立数据集市,或称为部门级数据仓库。部门级数据仓库。 建立数据集市与数据仓库,一般是采用建立数据集市与数据仓库,一般是采用“自自顶向下顶向下”和和“自下而上自下而上”相结合的设计思想
14、。相结合的设计思想。第一章第一章 数据仓库的基本概念数据仓库的基本概念第一章第一章 数据仓库的基本概念数据仓库的基本概念讨论题:讨论题: 1、结合武汉理工大学学生学籍管理系统进行、结合武汉理工大学学生学籍管理系统进行数据仓库的主题划分,列举有哪些主题。数据仓库的主题划分,列举有哪些主题。 1-4 1-4 多维数据模型多维数据模型 多维数据模型是进行决策支持数据建模的最好多维数据模型是进行决策支持数据建模的最好方式,数据仓库采用多维数据模型不仅能使其使用方式,数据仓库采用多维数据模型不仅能使其使用方便,而且能提高系统的性能。方便,而且能提高系统的性能。 1-4-1 实体关系模型与多维模型实体关系
15、模型与多维模型 实体关系模型应用于操作型数据库系统,多实体关系模型应用于操作型数据库系统,多维模型应用于分析型数据仓库系统。维模型应用于分析型数据仓库系统。 实体关系模型不适用于以查询为主的分析型应实体关系模型不适用于以查询为主的分析型应用,具体表现在:使用者、界面、检索手段。用,具体表现在:使用者、界面、检索手段。第一章第一章 数据仓库的基本概念数据仓库的基本概念 多维数据模型以直观的方式组织数据,每一个多维数据模型以直观的方式组织数据,每一个多维数据模型由多个多维数据模式(多维数据模型由多个多维数据模式(Dimensional Data Schema)表示。表示。 每一个多维数据模式都是由
16、一个事实表每一个多维数据模式都是由一个事实表(Fact Table)和一组维表(和一组维表(Dimension Table)组成。组成。 事实表的主码是组合码,维表的主码是简单事实表的主码是组合码,维表的主码是简单码,每一张维表中的简单码与事实表组合码中的一码,每一张维表中的简单码与事实表组合码中的一个组成部分相对应。个组成部分相对应。 第一章第一章 数据仓库的基本概念数据仓库的基本概念 企业销售数据的企业销售数据的多维数据模式图多维数据模式图第一章第一章 数据仓库的基本概念数据仓库的基本概念时间码时间码日期日期月份月份季度季度年度年度时间码时间码产品码产品码地区码地区码销销 售售 量量销销
17、售售 额额销售成本销售成本产品码产品码产品大类产品大类产品细类产品细类产品名称产品名称地区码地区码国国 家家地地 区区城城 市市时间维表时间维表事事 实实 表表产品维表产品维表地区维表地区维表 多维数据模型的优势:多维数据模型的优势: 多维数据模型是已知标准化的结构,即包含多多维数据模型是已知标准化的结构,即包含多个多维数据模式,每一个多维数据模式都对应一张个多维数据模式,每一个多维数据模式都对应一张事实表和多张维表。事实表和多张维表。 这种多维结构能支持最终用户不可预知的操作,这种多维结构能支持最终用户不可预知的操作,原因在于多维数据模型的各个维是逻辑等价的。原因在于多维数据模型的各个维是逻
18、辑等价的。 多维数据模型对决策分析有好的扩展性。多维数据模型对决策分析有好的扩展性。 汇总数据的巨大价值。汇总数据的巨大价值。 第一章第一章 数据仓库的基本概念数据仓库的基本概念 1-4-2 星型模式星型模式 星型模式是事实表与维表通过星型方式连接而星型模式是事实表与维表通过星型方式连接而成,如下图:成,如下图: 第一章第一章 数据仓库的基本概念数据仓库的基本概念产品码(产品码(PK)产品大类产品大类产品细类产品细类产品名称产品名称地区码(地区码(PK)国国 家家地地 区区城城 市市产品维表产品维表地区维表地区维表时间码(时间码(FK)产品码(产品码(FK)()(PK) 地区码(地区码(FK)
19、销销 售售 量量销销 售售 额额销售成本销售成本事事 实实 表表时间码(时间码(PK)日期日期月份月份季度季度年度年度时间维表时间维表第一章第一章 数据仓库的基本概念数据仓库的基本概念 星型模式的优点:星型模式的优点: 星型模式结构简单,表的数目少,建模方便。星型模式结构简单,表的数目少,建模方便。 星型模式支持多维数据建模,支持使用人员星型模式支持多维数据建模,支持使用人员从不同的维度对数据进行分析。从不同的维度对数据进行分析。 星型模式能较好地为数据仓库提供查询支持。星型模式能较好地为数据仓库提供查询支持。 星型模式可以提高查询速度。星型模式可以提高查询速度。第一章第一章 数据仓库的基本概
20、念数据仓库的基本概念 主码、外码和代理码:主码、外码和代理码: 主码(主码(Primary Key):):主码是表中的一个属性主码是表中的一个属性或属性的组合,它能唯一地标识表中的每条记录。或属性的组合,它能唯一地标识表中的每条记录。 外码(外码(Foreign Key):):外码是出现在一个表中,外码是出现在一个表中,同时在另一个表中被定义成主码的属性。同时在另一个表中被定义成主码的属性。 代理码(代理码(Surrogate Key):):所有的主码和外码所有的主码和外码一般都是采用没有具体含义的代理码,例如,从一般都是采用没有具体含义的代理码,例如,从1开始的自然开始的自然数编码。数编码。
21、第一章第一章 数据仓库的基本概念数据仓库的基本概念 事实表:事实表: 事实表是星型模式的核心,它是按维进行分事实表是星型模式的核心,它是按维进行分析形查询的对象,其中存储的是业务事实,例如:析形查询的对象,其中存储的是业务事实,例如:销售量、销售额、销售成本等销售量、销售额、销售成本等。 事实表中的数据一般是数值型,具有可加性。事实表中的数据一般是数值型,具有可加性。 事实表的主码为外码的组合,唯一的标识各事实表的主码为外码的组合,唯一的标识各条事实记录,事实表的外码对应各维表的主码。条事实记录,事实表的外码对应各维表的主码。第一章第一章 数据仓库的基本概念数据仓库的基本概念 维表:维表: 维
22、表用于指导从不同的角度在事实表中选择维表用于指导从不同的角度在事实表中选择数据行。数据行。 维表中有一个主码,其余非主码的列为属性,维表中有一个主码,其余非主码的列为属性,维表中的属性数据通常是字符型数据。维表中的属性数据通常是字符型数据。 维表具有层次性,维表的层次性可用来分割维表具有层次性,维表的层次性可用来分割其他的明细维表,维表层次的级别数量取决于查询其他的明细维表,维表层次的级别数量取决于查询的粒度。的粒度。第一章第一章 数据仓库的基本概念数据仓库的基本概念 1-4-3 数据仓库的总线型结构数据仓库的总线型结构 著名的数据仓库专家著名的数据仓库专家Ralph Kinball认为,数认
23、为,数据仓库的建设应该是一步步完成的,以部门级数据据仓库的建设应该是一步步完成的,以部门级数据集市的建设为出发点,但必须统观全局,使数据集集市的建设为出发点,但必须统观全局,使数据集市成为完整的企业级数据仓库的一个逻辑子集。市成为完整的企业级数据仓库的一个逻辑子集。 这种建设思想的实现是以一种特定的结构为这种建设思想的实现是以一种特定的结构为指导的,称为数据仓库的总线型结构(指导的,称为数据仓库的总线型结构(Data Warehouse Bus Architecture)。)。第一章第一章 数据仓库的基本概念数据仓库的基本概念 统一的维:统一的维: 统一的维是指:一个维,无论其维表与哪一统一的
24、维是指:一个维,无论其维表与哪一个事实表相连接,维的含义是完全相同的个事实表相连接,维的含义是完全相同的。 建立、公布、维护和完善统一的维是全局数建立、公布、维护和完善统一的维是全局数据仓库项目小组一项非常重要的工作。据仓库项目小组一项非常重要的工作。 公布了统一维之后,各数据集市必须严格执公布了统一维之后,各数据集市必须严格执行。行。第一章第一章 数据仓库的基本概念数据仓库的基本概念 统一的事实:统一的事实: 统一的事实的定义工作与统一的维的定义工统一的事实的定义工作与统一的维的定义工作同时进行,由数据仓库项目:小组负责,工作量作同时进行,由数据仓库项目:小组负责,工作量相对较少,但要注意以
25、下几点;相对较少,但要注意以下几点;v 统一的计算口径统一的计算口径v 统一的计量单位统一的计量单位v 统一的含义统一的含义v 事实表中要包含最详细的事实数据,即粒度最小事实表中要包含最详细的事实数据,即粒度最小 的数据的数据第一章第一章 数据仓库的基本概念数据仓库的基本概念 讨论题:讨论题: 1、根据学籍管理系统数据仓库的建设,确定、根据学籍管理系统数据仓库的建设,确定事实表与维表,列举各个维,并划分维层次。事实表与维表,列举各个维,并划分维层次。1-5 1-5 数据仓库的体系结构数据仓库的体系结构1-5-1 体系结构的内容体系结构的内容总体框架总体框架Zachman框架框架:回答问题回答问
26、题数据体系结构数据体系结构-数据仓库的内容是什么数据仓库的内容是什么? ?系统体系结构系统体系结构-存放在什么平台上存放在什么平台上? ?技术体系结构技术体系结构-如何实现如何实现? ?第一章第一章 数据仓库的基本概念数据仓库的基本概念前端工具前端工具数数 据据 预预处理工具处理工具 技术体系结构图如下技术体系结构图如下: : 第一章第一章 数据仓库的基本概念数据仓库的基本概念预预处处理理数数据据数数据据源源数据集市数据集市数据集市数据集市数据集市数据集市总总 线线查询查询服务服务数据数据元数据元数据OLAP数据挖掘数据挖掘其他工具其他工具报表生成器报表生成器抽取、转换、抽取、转换、装载装载可
27、视化可视化分分 析析结结 果果后台后台前台前台第一章第一章 数据仓库的基本概念数据仓库的基本概念 1-5-2 相关的数据存储相关的数据存储 数据源:数据源: 数据源是数据仓库的原始来源,是数据仓库系数据源是数据仓库的原始来源,是数据仓库系统开发与应用的数据基础,分为两部分;统开发与应用的数据基础,分为两部分;v 企业内部数据源企业内部数据源v 企业外部数据源企业外部数据源第一章第一章 数据仓库的基本概念数据仓库的基本概念 主题数据:主题数据: 主题数据是数据仓库的核心数据,一般以多主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中,直接面向分维数据模型的形式存储在数据仓库中
28、,直接面向分析型用户的访问。析型用户的访问。 主题数据的存储称为实视图,它与数据库的视主题数据的存储称为实视图,它与数据库的视图概念不同之处在于:它不是虚拟的,而是已经过图概念不同之处在于:它不是虚拟的,而是已经过计算,含有大量数据,并存储在数据仓库中的实实计算,含有大量数据,并存储在数据仓库中的实实在在的表。在在的表。第一章第一章 数据仓库的基本概念数据仓库的基本概念 实视图的好处:实视图的好处:v通过建立实视图可以提高系统的响应速度;通过建立实视图可以提高系统的响应速度;v由于数据源到主题数据映射关系的复杂性,采用普由于数据源到主题数据映射关系的复杂性,采用普通视图的方式不可行。通视图的方
29、式不可行。实视图的特点:实视图的特点:v时间是数据仓库中几乎所有数据的属性之一;时间是数据仓库中几乎所有数据的属性之一;v数据在装于数据仓库后,基本不发生变化;数据在装于数据仓库后,基本不发生变化;v实视图不是数据源中数据的简单拷贝,而是经历了实视图不是数据源中数据的简单拷贝,而是经历了数据预处理过程;数据预处理过程;v主题数据分为最小粒度数据和聚集数据。主题数据分为最小粒度数据和聚集数据。第一章第一章 数据仓库的基本概念数据仓库的基本概念 预处理数据:预处理数据: 从数据源向主题数据的变换,就如同穿越冰从数据源向主题数据的变换,就如同穿越冰山的过程,工作量大而繁杂,预处理数据正是这一山的过程
30、,工作量大而繁杂,预处理数据正是这一过程的中间结果。对于数据仓库的建设而言,预处过程的中间结果。对于数据仓库的建设而言,预处理数据是一非常重要数据存储环节。理数据是一非常重要数据存储环节。预处理数据的作用:预处理数据的作用:v 保存大量的细节型业务处理数据保存大量的细节型业务处理数据v 保存净化后的数据保存净化后的数据v 存储代理码的分配存储代理码的分配v 创建并存储统一的事实和统一的维创建并存储统一的事实和统一的维v 作为数据仓库的数据备份之一作为数据仓库的数据备份之一第一章第一章 数据仓库的基本概念数据仓库的基本概念 查询服务数据:查询服务数据: 在数据仓库的主题数据中直接得到所需的信在数
31、据仓库的主题数据中直接得到所需的信息仍然存在一定的难度,因此,在很多情况下,需息仍然存在一定的难度,因此,在很多情况下,需要查询服务数据作为主题数据和最终查询结果之间要查询服务数据作为主题数据和最终查询结果之间的过渡数据。的过渡数据。 查询服务分为:查询服务分为:v查询服务数据同前台分析工具紧密联系,临时地查询服务数据同前台分析工具紧密联系,临时地存储在分析工具中,以便进一步分析查询;存储在分析工具中,以便进一步分析查询;v将查询服务数据转存起来,留待以后在进行分析将查询服务数据转存起来,留待以后在进行分析或同其他系统结合起来使用;或同其他系统结合起来使用;v将查询服务数据存储到数据仓库的主题
32、数据中,将查询服务数据存储到数据仓库的主题数据中,典型例子是数据挖掘工具同数据仓库结合应用。典型例子是数据挖掘工具同数据仓库结合应用。第一章第一章 数据仓库的基本概念数据仓库的基本概念 1-5-3 相关的数据服务相关的数据服务 后台数据预处理:后台数据预处理:v 数据抽取数据抽取(Data Extraction)v 数据转换数据转换 (Data Transformation)v 数据装载数据装载 (Data Loading )前台数据查询服务:前台数据查询服务:v 多种展现形式的数据查询多种展现形式的数据查询v 灵活的分析报表生成灵活的分析报表生成v 访问安全保障访问安全保障第一章第一章 数据
33、仓库的基本概念数据仓库的基本概念 1-5-4 相关的数据管理相关的数据管理元数据元数据 元数据的含义:元数据的含义:v后台元数据与过程相关,它指导着抽取、后台元数据与过程相关,它指导着抽取、净化和装载的过程;净化和装载的过程;v前台元数据更具有描述性质,它帮助查询前台元数据更具有描述性质,它帮助查询工具和报表生成器更顺利地工作。工具和报表生成器更顺利地工作。它是所有数据元素表述的一种业务内容字典。它是所有数据元素表述的一种业务内容字典。第一章第一章 数据仓库的基本概念数据仓库的基本概念 元数据的内容元数据的内容:v数据源元数据数据源元数据v预处理数据元数据预处理数据元数据v主题数据元数据主题数
34、据元数据v前台查询服务元数据前台查询服务元数据元数据的工作流程:元数据的工作流程:元数据的工作流程分为元数据的工作流程分为13个步骤。个步骤。1-6 1-6 数据仓库的数据组织数据仓库的数据组织1-6-1 事实表和维表的设计事实表和维表的设计事实数据和维数据的区分:事实数据和维数据的区分:v 数据是否是数值型数据数据是否是数值型数据v 该数据是作为查询的条件还是查询的结果该数据是作为查询的条件还是查询的结果事实表的设计:事实表的设计:v 明确数据集市及相应的数据源明确数据集市及相应的数据源v 确定事实表的粒度确定事实表的粒度v 确定响应的维度确定响应的维度v 完成事实表的设计完成事实表的设计第
35、一章第一章 数据仓库的基本概念数据仓库的基本概念第一章第一章 数据仓库的基本概念数据仓库的基本概念 维表的设计:维表的设计: 维表中的属性值一般是文本型的、离散的及不维表中的属性值一般是文本型的、离散的及不具有可加性的。它们将最终成为分析型查询的约束具有可加性的。它们将最终成为分析型查询的约束条件,是分析型查询的起点,在形成的分析型报表条件,是分析型查询的起点,在形成的分析型报表中,维属性将成为列标题。中,维属性将成为列标题。 维表设计应注意以下两点:维表设计应注意以下两点:v维表中的维属性应该具体明确,体现出维层次的维表中的维属性应该具体明确,体现出维层次的划分,能够成为分析型查询的约束条件
36、。划分,能够成为分析型查询的约束条件。v由于维属性将成为列标题,所以进行维表设计时由于维属性将成为列标题,所以进行维表设计时一定要注意维属性值的可读性。一定要注意维属性值的可读性。1-6-2 数据聚集的设计数据聚集的设计数据聚集的含义:数据聚集的含义:所有的数据仓库都包含数据的聚集所有的数据仓库都包含数据的聚集(Aggregates),在数据仓库中进行数据的聚集在数据仓库中进行数据的聚集是减少是减少OLAP 分析需要扫描的数据量及提高查询效分析需要扫描的数据量及提高查询效率的最重要的方法。率的最重要的方法。为提高查询的效率,减少分析时需要访问的数为提高查询的效率,减少分析时需要访问的数据量,需
37、要对数据按分析型查询的要求预先进行计据量,需要对数据按分析型查询的要求预先进行计算及汇总,并保存计算及汇总的结果,这就是聚集。算及汇总,并保存计算及汇总的结果,这就是聚集。第一章第一章 数据仓库的基本概念数据仓库的基本概念数据聚集的创建方法:数据聚集的创建方法:确定聚集的内容可分两个步骤完成:确定聚集的内容可分两个步骤完成:v各个维的哪些属性上需要进行数据的聚集;各个维的哪些属性上需要进行数据的聚集;v确定不同维的属性如何进行组合。确定不同维的属性如何进行组合。聚集数据也采用星型模式进行多维数据建模,聚集数据也采用星型模式进行多维数据建模,形成聚集事实表及相应的维表。设计应注意:形成聚集事实表
38、及相应的维表。设计应注意:v聚集数据应该存储在自身的聚集事实表中,不能聚集数据应该存储在自身的聚集事实表中,不能同基本事实表存储在一起;同基本事实表存储在一起;v粒度不同的聚集数据不能存储在同一个聚集事实粒度不同的聚集数据不能存储在同一个聚集事实表中;表中;v对于聚集事实表对应的相关各维,一般也要进行对于聚集事实表对应的相关各维,一般也要进行调整。调整。第一章第一章 数据仓库的基本概念数据仓库的基本概念数据聚集的创建方法:数据聚集的创建方法:确定聚集的内容可分两个步骤完成:确定聚集的内容可分两个步骤完成:v各个维的哪些属性上需要进行数据的聚集;各个维的哪些属性上需要进行数据的聚集;v确定不同维
39、的属性如何进行组合。确定不同维的属性如何进行组合。聚集数据也采用星型模式进行多维数据建模,聚集数据也采用星型模式进行多维数据建模,形成聚集事实表及相应的维表。设计应注意:形成聚集事实表及相应的维表。设计应注意:v聚集数据应该存储在自身的聚集事实表中,不能聚集数据应该存储在自身的聚集事实表中,不能同基本事实表存储在一起;同基本事实表存储在一起;v粒度不同的聚集数据不能存储在同一个聚集事实粒度不同的聚集数据不能存储在同一个聚集事实表中;表中;v对于聚集事实表对应的相关各维,一般也要进行对于聚集事实表对应的相关各维,一般也要进行调整。调整。第一章第一章 数据仓库的基本概念数据仓库的基本概念1-6-3
40、 数据仓库中的索引数据仓库中的索引在数据仓库中建立索引提高数据访问速度具有在数据仓库中建立索引提高数据访问速度具有重要意义。重要意义。传统的数据库索引技术传统的数据库索引技术传统的数据库索引技术目前仍然是主流。传统的数据库索引技术目前仍然是主流。vB-B-树索引(树索引(B-Tree IndexB-Tree Index): :指针指向记录的实指针指向记录的实际地址,适合于高基数列值索引。际地址,适合于高基数列值索引。v位图索引位图索引 ( (Bit-Map Index)Bit-Map Index):用用“位位”确定索引确定索引列的值,适合于低基数列值索引。列的值,适合于低基数列值索引。v哈希索
41、引哈希索引 ( (Hash Index)Hash Index):行标识与存储位置之行标识与存储位置之间用哈系函数间用哈系函数f f进行转换。进行转换。第一章第一章 数据仓库的基本概念数据仓库的基本概念事实表的索引事实表的索引事实表中的主码(组合码)索引一般采用事实表中的主码(组合码)索引一般采用B-树树索引的方式。非主码索引可根据具体情况而定。索引的方式。非主码索引可根据具体情况而定。维表的索引维表的索引维表中的主码(简单码)索引一般采用维表中的主码(简单码)索引一般采用B-树索树索引的方式。非主码索引一般采用位图索引。引的方式。非主码索引一般采用位图索引。数据仓库索引新技术数据仓库索引新技术
42、v投影索引投影索引 ( (Projection Index)Projection Index)v位切片索引位切片索引 ( (Bit-Sliced Index)Bit-Sliced Index)v连接索引连接索引 ( (Join Index)Join Index)vR-R-树索引树索引 ( (R-Tree Index)R-Tree Index)第一章第一章 数据仓库的基本概念数据仓库的基本概念1-6-4 数据库的物理设计数据库的物理设计物理设计的任务就是将逻辑模型(前述的多维物理设计的任务就是将逻辑模型(前述的多维数据模型)转变为实际的数据库存储。数据模型)转变为实际的数据库存储。物理设计的内容
43、物理设计的内容物理设计的内容包括如下方面:物理设计的内容包括如下方面:v制定数据库对象的命名规范制定数据库对象的命名规范v建立数据库物理模型建立数据库物理模型v确定数据库索引策略确定数据库索引策略v进行数据仓库数据量的估计进行数据仓库数据量的估计v物理设计的具体实施物理设计的具体实施第一章第一章 数据仓库的基本概念数据仓库的基本概念案例分析:数据仓库的数据量估计案例分析:数据仓库的数据量估计第一章第一章 数据仓库的基本概念数据仓库的基本概念时间维表时间维表Time_idYearQuarterMonthWeek地区维表地区维表Geo_idCountryProvinceCity产品维表产品维表Pr
44、oduct_idPro_classPro_subclass事实表事实表Time_idGeo_idProduct_idSales案例分析:数据仓库的数据量估计案例分析:数据仓库的数据量估计上图假定每个维表具有上图假定每个维表具有5050个条目,则它们的组个条目,则它们的组合将在事实表中产生合将在事实表中产生5050* *5050* *5050个数据条目,并假定个数据条目,并假定所有表中的所有属性为所有表中的所有属性为8 8个字节长度。个字节长度。则所需存储空间计算如下:则所需存储空间计算如下:维表空间为:维表空间为:5050* *5 5* *8+508+50* *4 4* *8+508+50*
45、*3 3* *8=48008=4800事实表空间为:事实表空间为:5050* *5050* *5050* *4 4* *8=40000008=4000000总空间为:总空间为:4000000+4800=4004800=3.84000000+4800=4004800=3.8(MBMB)可以看出,事实表空间比维表空间多得多。可以看出,事实表空间比维表空间多得多。第一章第一章 数据仓库的基本概念数据仓库的基本概念1-7 1-7 数据仓库的数据预处理数据仓库的数据预处理1-7-1 数据的净化数据的净化数据质量与数据净化:数据质量与数据净化:v 高质量的高质量的数据应该是正确的数据应该是正确的v 高质量
46、的高质量的数据应该是清晰的数据应该是清晰的 v 高质量的高质量的数据应该是及时的数据应该是及时的v 高质量的高质量的数据应该是完整的数据应该是完整的v 高质量的高质量的数据应该是一致的数据应该是一致的v 高质量的高质量的数据应该是唯一的数据应该是唯一的第一章第一章 数据仓库的基本概念数据仓库的基本概念数据净化的方法:数据净化的方法:v 不正确不正确数据的净化数据的净化 例例: :SQL判别判别, ,校验校验v 不清晰不清晰数据的净化数据的净化 例例:客户维的拆分客户维的拆分,“备注备注”类数据类数据v 不完整不完整数据的净化数据的净化 例例:缩小范围缩小范围,补充数据补充数据v 不不一致数据的
47、净化一致数据的净化 例例:统一转换统一转换v 不唯一不唯一数据的净化数据的净化 例例:SQL:DISTINCT第一章第一章 数据仓库的基本概念数据仓库的基本概念1-7-2 数据预处理计划数据预处理计划初步计划初步计划 应包括数据抽取应包括数据抽取, ,数据转换数据转换, ,数据装载三部数据装载三部分内容。见下页图分内容。见下页图详细计划详细计划 制定详细计划与实施数据预处理先从主题制定详细计划与实施数据预处理先从主题数据中的维表开始,然后再处理事实表。数据中的维表开始,然后再处理事实表。 就维表而言,先从简单的静态的维表开始,就维表而言,先从简单的静态的维表开始,然后处理复杂的需要动态更新的维
48、表。然后处理复杂的需要动态更新的维表。第一章第一章 数据仓库的基本概念数据仓库的基本概念第一章第一章 数据仓库的基本概念数据仓库的基本概念财务数据库财务数据库(RDBMS)行业产品代码规行业产品代码规范(范(MS Excel)销售管理系统销售管理系统(RDBMS)历史销售数据历史销售数据存档(文本文件)存档(文本文件)收款收款数据数据价格价格数据数据产品产品分类分类客户客户数据数据时间时间数据数据订货订货数据数据数据源:数据源:主题数据:主题数据:每张发票每张发票对应一条对应一条收款记录收款记录据发票金据发票金额、数量额、数量计算价格计算价格客户编客户编码表集码表集成净化成净化客户数客户数据要缓据要缓慢更新慢
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新解读《GB-T 32561.1-2016红外光学硫系玻璃测试方法 第1部分:均匀性》
- 工程三方协议范本5篇
- 新解读《GB-T 31056-2014大米去石筛板》
- 朋友担保借款合同范本
- 弱电项目人工合同范本
- 派对布置合同范本
- 机械租赁分期合同范本
- 在建泵房安装合同范本
- 山西买房合同范本
- 设计合同范本
- 统编版道德与法治四年级上册第二单元大单元整体教学设计
- 蔬菜配送安全管理制度
- 2024年江苏大学辅导员考试真题
- 2025年版高等职业教育专科专业教学标准 560213 融媒体技术与运营
- 康复技术服务规范 (一)
- 养老院护理九防内容课件
- 教育系统意识形态工作
- 土地证补办申请书
- 2025年秋期英语组工作计划
- 面试官培训与面试标准制度
- 调相机工程施工质量验收规程-第4部分-仪表与控制系统
评论
0/150
提交评论