数据仓库与数据挖掘技术第2章.ppt_第1页
数据仓库与数据挖掘技术第2章.ppt_第2页
数据仓库与数据挖掘技术第2章.ppt_第3页
数据仓库与数据挖掘技术第2章.ppt_第4页
数据仓库与数据挖掘技术第2章.ppt_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/7/11,1,第二章 数据仓库的分析,主要内容 如何建立数据仓库的需求模型? 影响数据仓库成功的因素有哪些? 数据仓库开发各阶段的任务是什么? 数据仓库的基本体系结构是怎样的? 数据仓库的逻辑结构是怎样的?,2019/7/11,2,1、如何建立数据仓库的需求模型?,是数据仓库的分析中首要解决的问题,2019/7/11,3,图2.1 数据仓库的需求分析模型,2019/7/11,4,2、影响数据仓库成功的因素有哪些?,2019/7/11,5,影响因素,数据存储的组织方式,决定了数据的可获取性与有用性,进而决定了数据的价值。 数据仓库的数据库结构有以下要求:(P44表2.1) 反映静态数据 存储历史数据 在时间上是可见的、明确的 数据的粒度是详细的可导出的汇总 定期的、计划的更新 支持的任务是不可预期的 对数据库的灵活性要求高,2019/7/11,6,2019/7/11,7,2019/7/11,8,3、数据仓库开发各阶段的任务是什么?,2019/7/11,9,传统的操作型系统的生命周期,System Development Life Cycle SDLC系统开发生命周期 需求驱动的开发生命周期,2019/7/11,10,数据仓库的生命周期CLDS,CLDS数据驱动的开发生命周期(SDLC的逆序) 实现数据仓库 集成数据 检验偏差 针对数据编程 设计DSS系统 分析结果和 理解需求 参见P45图2.5,2019/7/11,11,2019/7/11,12,1.数据仓库计划与准备阶段,用户需求分析 可行性研究 用户的认可 建设数据仓库的协调与阻力分析 开发项目计划制定 关键资源管理,2019/7/11,13,(1)用户需求分析内容,用户如何处理其事务 如何衡量用户的工作表现 用户需要什么属性(在信息方面) 应用于这些属性的业务层次结构是什么 用户现在使用什么数据,以及需要什么数据 用户需要什么水平的细节或汇总数据,2019/7/11,14,2019/7/11,15,(2)可行性研究,三个重要分析 技术可行性 操作可行性 经济可行性,2019/7/11,16,(3)用户认可(User buy in),重要因素 用户大力支持不可少,其与上层的支持是不同的 不能完全改变决策方式,只能改变决策信息的获取方法,改进用户获取信息的方法 数据仓库必须经常集成其中应用软件的数据,理解用户的看法,2019/7/11,17,(4)建设数据仓库的协调与阻力分析,2019/7/11,18,(5)开发项目计划制定,2019/7/11,19,(6)创建数据仓库所使用的关键资源,人才 业务分析员 确定和定义目的和目标用户群 确定满足组织战略性商业目标 数据体系结构设计师 数据的采集、转换、分配和加载 定义数据模型 信息系统服务人员 最终用户支持人员 领导和管理人员 项目领导 项目经理 硬件 软件,2019/7/11,20,2.数据仓库的其他阶段,2019/7/11,21,数据仓库的系统分析,系统分析的目标是了解当前实际是如何工作的,以使得系统的操作可在将来得到改善。 原型法 注意:不能与其所有可操作数据源相连,数据仍然需要做数据净化、传送等工作 开发方法 数据驱动法 应用驱动法,2019/7/11,22,数据驱动方法,数据源:连续的数据源 次序:自顶向下 优点:每一个阶段在技术上都很简单,只涉及一个文件或数据库类型映射到数据仓库数据库之中,每个附加数据源只有在其前面的附加数据源处理完之后才添加。 缺点:数据资源不能利落地映射到商业查询中。,2019/7/11,23,应用驱动方法,数据源:来自几个操作系统的数据 次序:自顶向下 优点:在第一阶段就提供有用的信息 缺点:到达这一阶段要花费较长的时间、并且需要的活动很多很复杂,2019/7/11,24,数据仓库系统设计,重点:设计数据仓库的元素,即数据库和数据分析 如何选择数据库体系结构 按照哪种系统结构设计 如何安排数据库 定义数据如何使用所有的数据源都被映射传送到数据仓库 描述数据仓库何时及时如何更新并回答程序员遇到的无数多个”我该怎么办”,2019/7/11,25,数据仓库的测试,适用于顺序测试 确保对源文件提取记录及字段的正确性 证明传送和净化工作正常,对比元数据,检查数据仓库内容以确保整个加载过程有效,可能要测试有关已知谁的回答的分析。 增强维护,增强用户支持,2019/7/11,26,思考,查阅赛迪网,阅读和比较不同的数据仓库的解决方案。明确数据驱动法与应用驱动法两种方法在数据仓库实施中的不同表现。,2019/7/11,27,4、数据仓库的基本体系结构是怎样的?,2019/7/11,28,数据仓库基本体系结构,2019/7/11,29,数据仓库体系结构,数据仓库,2019/7/11,30,数据仓库体系结构,2019/7/11,31,数据分级,Data Staging 提取,转化,净化,加载 数据仓库不直接存储事务数据,提取时必须将事务数据进行转换成数据仓库的数据结构和内部格式,为了保证数据的品质,还要对数据进行净化,将净化后的数据加载到数据仓库中。,2019/7/11,32,ETL(提取转换加载),数据的提取转换加载(ETL)是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换、加载与索引等数据调和工作。 ETL是数据仓库系统中最重要的处理工具之一,它的主要任务是建立、维护数据仓库,通过与操作型数据源的映像关系执行数据提取转换加载的任务。其中涉及各种各样的技术和处理,比如,数据清洗及其准备结构的设计和处理、映像技术和方法、粒度的考虑,以及数据的提取、转换、追加、加载作业控制等一系列问题。,操作型系统,数据仓库,提取,集结地,清洗,转换,加载与索引,拒绝数据的信息,有关拒绝数据的信息,2019/7/11,33,元数据,元数据Metadata “有关数据的数据” “数据仓库的元数据是要解决何人在何时何地为了什么原因及怎样使用数据仓库的问题”。 可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。 作用: 通过元数据进行数据仓库的管理; 通过元数据来使用数据仓库。,2019/7/11,34,技术元数据:用于对数据仓库进行管理的元数据 是数据仓库的设计和管理人员用于数据仓库开发和日常管理数据仓库时使用的元数据。它包括数据源信息、数据转换的描述、数据仓库对象和数据结构的定义、数据清理和数据更新时采用的规则、源数据到目的数据的映射、用户访问权限、数据备份历史纪录、数据导入历史纪录、信息发布历史纪录等。 商业元数据:帮助使用数据仓库的元数据 从商业业务的角度描述了数据仓库中的数据。它包括业务主题的描述,以及对所包含的数据、查询、报表的描述,等等。,2019/7/11,35,元数据为访问数据仓库提供了一个信息目录 数据仓库中都有些什么数据 这些数据是怎么得到的 谁在管辖 怎么访问这些数据 其他更多的信息 可通过查询工具得知元数据的有关资料 元数据是数据仓库运行和维护的中心,数据仓库服务器必须利用元数据来存储和更新数据,用户必须通过元数据来了解和访问数据。,2019/7/11,36,数据仓库数据库,是整个数据仓库环境的核心,是数据存放的地方,提供对数据的支持和快速检索的支持 相对于操纵型数据库来说,其突出的特点是对海量数据的支持和快速的检索技术。 包含 明细数据和汇总数据,2019/7/11,37,查询工具,查询工具通常包括一个用于向数据库提出问题的最终用户接口,此接口位于联机分析处理OLAP的程序中。,2019/7/11,38,4、数据仓库的逻辑结构是怎样的?,2019/7/11,39,数据仓库的粒度,粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。,2019/7/11,40,数据仓库的粒度,粒度 粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多反之,粒度的增大将会提高查询效率,但同时也造成回答细节问题能力的下降。 低粒度级(高细节级) 高粒度级(低细节级) 例如:电讯公司数据仓库中,保存一个顾客一个月内每个电话的细节高细节级,低粒度级,假设有200个记录,包含本月内200个电话的任何信息;保存一个顾客一个月内每天电话的汇总轻度综合,较高粒度级,只有30或31条记录,只能回答汇总查询的问题。保存一个顾客一个月内的电话的综合低细节级,高粒度级,只有一条记录。,2019/7/11,41,轻度综合数据,2019/7/11,42,数据仓库的粒度,双重粒度 指轻度综合数据和真实细节数据级(最低粒度级) 大部分的分析数据是针对被压缩的、存取效率高的轻度粒度级数据进行的。 需要分析更低的细节数据时才访问最低粒度级数据。,2019/7/11,43,2019/7/11,44,数据仓库中的数据分割,把数据分散到各自小的物理单元中去 任何给定的单元属于一个分割 数据分割后的数据单元称为分片 分割后的单元具有灵活性,能够实现重构、索引、顺序扫描、重组、恢复、监控等,2019/7/11,45,数据分割,2019/7/11,46,2019/7/11,47,数据仓库中数据组织,简单堆积结构 轮转综合数据存储 简单直接文件 连续组织,2019/7/11,48,简单堆积结构,从操作型环境中取出每天的事务数据 根据主题来综合成数据仓库记录,2019/7/11,49,轮转综合数据存储,只有在轮转综合文件中的数据才能被输入到不同的结构形式中,而操作型数据到数据仓库环境中的数据处理方法简单的堆积结构相同。,方式:每天进行数据综合,每周累加,月底将每周的数据加到一起,并放于第一个每月响应的数据位置处,然后每周数据位置清零。到了年底,将每月数据累加,放入第一个年度响应的数据位置处,然后每月数据位置清零。,2019/7/11,50,简单堆积与轮转综合的比较,2019/7/11,51,简单直接文件组织,把数据从操作型环境拖入数据仓库环境中,无任何累积,以较长时间为单位的 它是间隔一定时间的操作型数据的一个快照,2019/7/11,52,连续数据组织,依据两个或更多的简单

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论