




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,第2章数据仓库的概念与结构,华南理工大学廖开际kaiji,.,教学目标,掌握数据仓库的概念掌握数据仓库系统的构成掌握数据仓库的内部结构。,.,教学要求,.,引例:AllElectronics的数据仓库构造和使用的典型框架。,.,本章内容,2.1数据仓库的概念2.2数据仓库系统的构成2.3数据仓库中的数据组织,.,2.1数据仓库的概念,W.H.Inmon对数据仓库的定义:数据仓库就是面向主题的、集成的、不可更改的、随时间不断变化的数据集合,用于支持经营管理中的决策制定过程。,.,数据仓库的特征,1数据仓库中的数据是面向主题的2.数据仓库中的数据是集成的3数据仓库的数据是不可更改的4数据仓库中的数据是随时间不断变化的,.,特征1:数据仓库中的数据是面向主题的,主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它对应企业中某一宏观分析领域所涉及的分析对象。数据仓库中数据的按主题组织(数据库中的数据怎么组织?)例如:一个保险公司的数据仓库所组织的主题可能为:客户、政策、保险金、索赔等,而按应用来组织则可能为:汽车保险、生命保险、伤亡保险等。,.,主题的划分需要遵守的原则,(1)在划分主题时,必须保证每个主题的独立性,也就是说,每一个主题要具有独立的内涵,明确的界限。(2)在划分主题时,需要保证对主题进行分析时所需的数据都可以在此主题内找到,保证主题的完备性。(3)确定主题以后,需要确定主题应该包含的数据,此时应该注意不能将围绕主题的数据与业务处理系统的数据相混淆。,.,思考,商场经营和决策分析中有哪些应用和那些主题?,.,特征2:数据仓库中的数据是集成的,集成性是指数据仓库中数据必须是一致的。数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的,数据来源可能既有内部数据又有外部数据。数据集成的内容统一不同来源数据的表示综合和计算,.,特征3:数据仓库的数据是不可更改的,从事务处理系统中提取的数据和从外部数据源中提取的数据,在数据仓库中被转换、综合并存储。数据仓库中的数据可以简单地理解为按主题组织的企业历史数据,是对企业运行历史的记载。因此,数据仓库中的已有数据不可以修改,只供查询和分析。这种不可更新性可以支持不同用户在不同的时间查询相同的问题时获得相同的结果。因为对数据仓库中的数据只能进行查询和追加等操作,不可进行修改操作,因此数据仓库的存储管理相对于DBMS来说要简单得多。,.,特征4:数据仓库中的数据是随时间不断变化的,数据仓库中数据随时间变化数据仓库的数据追加(1)时标方法。(2)DELTA文件。(3)前后映像文件的方法。(4)日志文件。,.,数据集市,数据仓库中侧重于某特定部门或特定业务的数据子集数据集市可以分成两种,一种是独立数据集市,另一种是从属数据集市。,.,创建数据仓库与数据集市的模式,1.自顶向下:这种模式首先把OLTP数据通过ETL汇集到数据仓库中,然后再把数据通过复制的方式推进各个数据集市中,其优点在于:(1)数据来源固定,可以确保数据的完整性。(2)数据格式与单位一致,可以确保跨越不同数据集市进行分析的正确性。(3)数据集市可以保证有共享的字段。因为都是从数据仓库中分离出来的。,.,创建数据仓库与数据集市的模式,2.自底向上:这种模式首先将OLTP数据通过ETL汇集到数据集市中,然后通过复制的方式提升到数据仓库中,其优点在于:(1)由于首先构建数据集市的工作相对简单,所以容易成功。(2)这种模式也是实现快速数据传送的原型。,.,2.2数据仓库系统,数据仓库系统:对进入数据仓库的原始数据完成抽取、转换、过滤、清洗等处理,最终进入数据仓库,以及对数据仓库中存储的数据进行更新、管理、使用、表现等的相关软件/工具进行集合,用以支持数据仓库应用或管理决策。,.,数据仓库系统的构成,数据仓库系统通常被分为管理层(ETL管理工具)、存储层(数据仓库和数据集市)和分析工具层(OLAP、数据挖掘等)三个部分。,.,数据源,常见的数据源有:(1)流行的关系数据库系统:Oracle、Sybase、SQLServer、DB2等。(2)面向对象数据库系统:Objectstore等。(3)传统的桌面数据库系统:foxbase、foxpro等。(4)文件系统中的数据文件:UNIX、WINDOWS等。(5)其他数据源:word、excel等。数据源可以是递归的。数据仓库的数据源可以是另外一个数据仓库(或数据集市)或OLAP服务器。,.,数据仓库管理层,数据仓库管理层的功能就是完成数据仓库的定义,数据抽取、转换、装载,数据归档、备份、维护、恢复及元数据管理等。数据仓库的管理部分由数据仓库定义部件、数据获取部件、数据管理部件和元数据管理部件四部分组成。,.,数据仓库管理层,数据仓库定义部件用于定义和建立数据仓库,包括:(1)设计和定义数据仓库的数据库。(2)定义数据源。(3)确定数据源向数据仓库复制数据的转换、清理规则。,.,数据仓库管理层,数据获取部件主要功能包括:(1)装载数据仓库。依据数据定义部件定义的规则从数据源中将数据抽取到数据仓库中,完成清洗、变换和集成工作,将数据装填到数据仓库中。(2)定期清理数据仓库。清除数据仓库与数据源数据库的不一致,清除失效数据。一般用通用工具或特制的工具完成数据获取工作。数据管理部件对数据仓库中数据的维护、安全、备份、恢复、日志等管理工作。这些工作要借助DBMS的功能实现。,.,数据仓库管理层,数据仓库的元数据是数据仓库中所有管理、操作的信息目录,包含了对数据模型、数据结构、转换规则、数据仓库结构和控制信息的描述。有了元数据,才可以最有效的利用数据仓库。数据仓库的元数据包括技术元数据和业务目录两部分。技术元数据由关于数据源、目标、转换规则及数据源与数据仓库之间的映射组成。业务目录由数据仓库管理员生成,由数据来源、当前值、预定义的查询等方面组成,是针对具体应用数据的源数据管理。,.,数据仓库工具集,数据仓库工具集主要由一些分析工具组成,主要包括检索查询工具,多维数据的OLAP分析工具、统计分析及数据挖掘工具等。数据仓库应用是一个典型的C/S结构,其客户端的工作主要包括客户交互、格式化查询、可视化以及数据报表生成等;服务器端完成多种辅助的查询、复杂的计算和各类综合功能等。一般有OLAP服务器和DM服务器两种。,.,数据仓库中的数据组织,.,数据综合级别,早期细节数据存储过去的详细数据,反映真实的历史情况,这类数据随着时间增加,数据量很大,使用频率低,一般存储在转换介质(如磁带)中。当前细节数据存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。轻度综合数据从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多。高度综合级的数据十分精炼,是一种准决策数据。,.,数据粒度的概念,粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。粒度可以分为两种形式:按时问段综合数据的粒度按采样率高低划分的样本数据库。,.,按时间段综合数据的粒度,按照不同的时间段来综合数据。粒度既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。例如:电讯公司数据仓库中,保存一个顾客一个月内每个电话的细节高细节级,低粒度级,假设有200个记录,包含本月内200个电话的任何信息;保存一个顾客一个月内每天电话的汇总轻度综合,较高粒度级,只有30或31条记录,只能回答汇总查询的问题。保存一个顾客一个月内的电话的综合低细节级,高粒度级,只有一条记录。为了适应不同查询的需要,在数据仓库中经常是建立多重粒度,如按周综合的轻度综合级数据和按月综合的高度综合级数据。,.,样本数据库,样本数据库的粒度级别根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别,一般它是以一定的采样率从细节档案数据或轻度综合数据中抽集的一个子集。样本数据库不是一般目的的数据库,它是根据一定需求从源数据中的一个抽样。样本数据库的抽取可以按照数据的重要程度不同来进行,样本数据库是建立在不同时点上的粒度。,.,面向主题的数据组织举例,例如,一家采用“会员制”经营方式的商场,按业务已建立起销售、采购、库存管理以及人事管理子系统。概括各种分析领域的分析对象,可以综合得到主题。上例的主题应包括供应商、商品、顾客等,.,面向主题的数据组织举例,面向应用的数据组织,.,面向主题的数据组织举例,面向主题的数据组织,.,数据分割,分割是指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。数据分割后的数据单元称为分片。分割之后,小单元内的数据相对独立,处理起来更快、更容易。一般在进行实际的分析处理时,对于存在某种相关性的数据集合的分析是最常见的,如对某时间或某时段的数据的分析,对某一地区的数据的分析;对特定业务领域的数据的分析等,将其有这种相关性的数据组织在一起,就会提高效率。,.,数据分割的好处,对当前细节数据进行分割的总体目的就是把数据划分成小的物理单元,为操作者和设计者在管理数据时提供更大的灵活性。小物理单元具有容易重构、自由索引、顺序扫描、容易重组、容易恢复和容易监控等优点。数据仓库的本质之一就是灵活的访问数据,大块数据达不到这个目的。,.,分割的标准,数据分割的标准可以根据实际情况来确定,通常可选择:按日期、地域、业务领域或组织单位等来进行分割,按多个分割标准的组合来进行,一般情况分割标准总应包括日期项。,.,分割的层次,分割的层次一般分为系统层和应用层两层。系统层的分割由数据库管理系统和操作系统完成;应用层的分割有应用系统完成,在应用层上分割更有意义。,.,元数据的管理,元数据的概念元数据作为数据的数据,可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。,.,元数据的类型,1按元数据的类型分类(1)关于基本数据的元数据:基本数据是指数据源、数据仓库、数据集市和应用程序管理的所有数据。基本数据元数据包括定义、结构的所有描述。(2)用于数据处理的元数据:对数据装载、更新处理、分析处理、管理方面的信息,如数据抽取、转换、聚合规则等的描述。(3)关于企业的组织结构的元数据:包括与企业相关的管理方面的数据和信息,如用户访问数据仓库、数据源、数据集市的权限信息等。,.,元数据的类型,2按抽象级别分类(1)概念级:包括业务的全部描述,如定义主要的业务实体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 4.美丽的西湖教学设计初中美术浙教版八年级下册-浙教版
- 消防工程施工专项施工方案
- 人教版八年级下册美术《第2课 弘扬真善美》说课稿
- 2025年低空经济行业性别差异下的产业链协同与产业升级路径报告
- 2018人教部编版九年级上册第2课-古代两河流域说课稿
- 2025年安全知识竞赛题库(附答案)
- 小区物业清扫活动方案
- 考点攻克苏科版九年级物理上册《简单机械和功》综合练习试题(含答案及解析)
- 2025年低空经济航空旅游市场潜力与商业模式报告
- 2025年深圳低空经济立法环境与场景布局研究报告
- 趾骨骨折护理查房
- 2025年四川省白玉县事业单位公开招聘辅警考试题带答案分析
- 2025年广东省动物疫病检测技能竞赛题库
- 远离手机诱惑班会课件
- 如何写幼儿观察记录培训
- 肺结核合并心力衰竭的护理
- 门窗销售培训课件
- 心理学效应课件
- 2025年辽宁省公务员遴选考试公共基础知识试题
- 涉水作业安全课件
- 毕业设计(论文)-薄煤层液压支架结构设计
评论
0/150
提交评论