数据仓库与数据挖掘技术第2章.ppt_第1页
数据仓库与数据挖掘技术第2章.ppt_第2页
数据仓库与数据挖掘技术第2章.ppt_第3页
数据仓库与数据挖掘技术第2章.ppt_第4页
数据仓库与数据挖掘技术第2章.ppt_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 3 27 1 第二章数据仓库的分析 主要内容如何建立数据仓库的需求模型 影响数据仓库成功的因素有哪些 数据仓库开发各阶段的任务是什么 数据仓库的基本体系结构是怎样的 数据仓库的逻辑结构是怎样的 2020 3 27 2 1 如何建立数据仓库的需求模型 是数据仓库的分析中首要解决的问题 2020 3 27 3 图2 1数据仓库的需求分析模型 2020 3 27 4 2 影响数据仓库成功的因素有哪些 2020 3 27 5 影响因素 数据存储的组织方式 决定了数据的可获取性与有用性 进而决定了数据的价值 数据仓库的数据库结构有以下要求 P44表2 1 反映静态数据存储历史数据在时间上是可见的 明确的数据的粒度是详细的可导出的汇总定期的 计划的更新支持的任务是不可预期的对数据库的灵活性要求高 2020 3 27 6 2020 3 27 7 2020 3 27 8 3 数据仓库开发各阶段的任务是什么 2020 3 27 9 传统的操作型系统的生命周期 SystemDevelopmentLifeCycleSDLC系统开发生命周期需求驱动的开发生命周期 2020 3 27 10 数据仓库的生命周期CLDS CLDS数据驱动的开发生命周期 SDLC的逆序 实现数据仓库集成数据检验偏差针对数据编程设计DSS系统分析结果和理解需求参见P45图2 5 2020 3 27 11 2020 3 27 12 1 数据仓库计划与准备阶段 用户需求分析可行性研究用户的认可建设数据仓库的协调与阻力分析开发项目计划制定关键资源管理 2020 3 27 13 1 用户需求分析内容 用户如何处理其事务如何衡量用户的工作表现用户需要什么属性 在信息方面 应用于这些属性的业务层次结构是什么用户现在使用什么数据 以及需要什么数据用户需要什么水平的细节或汇总数据 2020 3 27 14 2020 3 27 15 2 可行性研究 三个重要分析技术可行性操作可行性经济可行性 2020 3 27 16 3 用户认可 Userbuyin 重要因素用户大力支持不可少 其与上层的支持是不同的不能完全改变决策方式 只能改变决策信息的获取方法 改进用户获取信息的方法数据仓库必须经常集成其中应用软件的数据 理解用户的看法 2020 3 27 17 4 建设数据仓库的协调与阻力分析 2020 3 27 18 5 开发项目计划制定 2020 3 27 19 6 创建数据仓库所使用的关键资源 人才业务分析员确定和定义目的和目标用户群确定满足组织战略性商业目标数据体系结构设计师数据的采集 转换 分配和加载定义数据模型信息系统服务人员最终用户支持人员领导和管理人员项目领导项目经理硬件软件 2020 3 27 20 2 数据仓库的其他阶段 2020 3 27 21 数据仓库的系统分析 系统分析的目标是了解当前实际是如何工作的 以使得系统的操作可在将来得到改善 原型法注意 不能与其所有可操作数据源相连 数据仍然需要做数据净化 传送等工作开发方法数据驱动法应用驱动法 2020 3 27 22 数据驱动方法 数据源 连续的数据源次序 自顶向下优点 每一个阶段在技术上都很简单 只涉及一个文件或数据库类型映射到数据仓库数据库之中 每个附加数据源只有在其前面的附加数据源处理完之后才添加 缺点 数据资源不能利落地映射到商业查询中 2020 3 27 23 应用驱动方法 数据源 来自几个操作系统的数据次序 自顶向下优点 在第一阶段就提供有用的信息缺点 到达这一阶段要花费较长的时间 并且需要的活动很多很复杂 2020 3 27 24 数据仓库系统设计 重点 设计数据仓库的元素 即数据库和数据分析如何选择数据库体系结构按照哪种系统结构设计如何安排数据库定义数据如何使用所有的数据源都被映射传送到数据仓库描述数据仓库何时及时如何更新并回答程序员遇到的无数多个 我该怎么办 2020 3 27 25 数据仓库的测试 适用于顺序测试确保对源文件提取记录及字段的正确性证明传送和净化工作正常 对比元数据 检查数据仓库内容以确保整个加载过程有效 可能要测试有关已知谁的回答的分析 增强维护 增强用户支持 2020 3 27 26 思考 查阅赛迪网 阅读和比较不同的数据仓库的解决方案 明确数据驱动法与应用驱动法两种方法在数据仓库实施中的不同表现 2020 3 27 27 4 数据仓库的基本体系结构是怎样的 2020 3 27 28 数据仓库基本体系结构 2020 3 27 29 数据仓库体系结构 数据仓库 2020 3 27 30 数据仓库体系结构 2020 3 27 31 数据分级 DataStaging提取 转化 净化 加载数据仓库不直接存储事务数据 提取时必须将事务数据进行转换成数据仓库的数据结构和内部格式 为了保证数据的品质 还要对数据进行净化 将净化后的数据加载到数据仓库中 2020 3 27 32 ETL 提取 转换 加载 数据的提取 转换 加载 ETL 是用来实现异构数据源的数据集成 即完成数据的抓取 抽取 清洗 转换 加载与索引等数据调和工作 ETL是数据仓库系统中最重要的处理工具之一 它的主要任务是建立 维护数据仓库 通过与操作型数据源的映像关系执行数据提取 转换 加载的任务 其中涉及各种各样的技术和处理 比如 数据清洗及其准备结构的设计和处理 映像技术和方法 粒度的考虑 以及数据的提取 转换 追加 加载作业控制等一系列问题 操作型系统 数据仓库 提取 集结地 清洗 转换 加载与索引 拒绝数据的信息 有关拒绝数据的信息 2020 3 27 33 元数据 元数据Metadata 有关数据的数据 数据仓库的元数据是要解决何人在何时何地为了什么原因及怎样使用数据仓库的问题 可对数据仓库中的各种数据进行详细的描述与说明 说明每个数据的上下文关系 使每个数据具有符合现实的真实含义 使最终用户了解这些数据之间的关系 作用 通过元数据进行数据仓库的管理 通过元数据来使用数据仓库 2020 3 27 34 技术元数据 用于对数据仓库进行管理的元数据是数据仓库的设计和管理人员用于数据仓库开发和日常管理数据仓库时使用的元数据 它包括数据源信息 数据转换的描述 数据仓库对象和数据结构的定义 数据清理和数据更新时采用的规则 源数据到目的数据的映射 用户访问权限 数据备份历史纪录 数据导入历史纪录 信息发布历史纪录等 商业元数据 帮助使用数据仓库的元数据从商业业务的角度描述了数据仓库中的数据 它包括业务主题的描述 以及对所包含的数据 查询 报表的描述 等等 2020 3 27 35 元数据为访问数据仓库提供了一个信息目录数据仓库中都有些什么数据这些数据是怎么得到的谁在管辖怎么访问这些数据其他更多的信息可通过查询工具得知元数据的有关资料元数据是数据仓库运行和维护的中心 数据仓库服务器必须利用元数据来存储和更新数据 用户必须通过元数据来了解和访问数据 2020 3 27 36 数据仓库数据库 是整个数据仓库环境的核心 是数据存放的地方 提供对数据的支持和快速检索的支持相对于操纵型数据库来说 其突出的特点是对海量数据的支持和快速的检索技术 包含明细数据和汇总数据 2020 3 27 37 查询工具 查询工具通常包括一个用于向数据库提出问题的最终用户接口 此接口位于联机分析处理OLAP的程序中 2020 3 27 38 4 数据仓库的逻辑结构是怎样的 2020 3 27 39 数据仓库的粒度 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别 2020 3 27 40 数据仓库的粒度 粒度粒度越小 细节程度越高 综合程度越低 回答查询的种类就越多反之 粒度的增大将会提高查询效率 但同时也造成回答细节问题能力的下降 低粒度级 高细节级 高粒度级 低细节级 例如 电讯公司数据仓库中 保存一个顾客一个月内每个电话的细节 高细节级 低粒度级 假设有200个记录 包含本月内200个电话的任何信息 保存一个顾客一个月内每天电话的汇总 轻度综合 较高粒度级 只有30或31条记录 只能回答汇总查询的问题 保存一个顾客一个月内的电话的综合 低细节级 高粒度级 只有一条记录 2020 3 27 41 轻度综合数据 2020 3 27 42 数据仓库的粒度 双重粒度指轻度综合数据和真实细节数据级 最低粒度级 大部分的分析数据是针对被压缩的 存取效率高的轻度粒度级数据进行的 需要分析更低的细节数据时才访问最低粒度级数据 2020 3 27 43 2020 3 27 44 数据仓库中的数据分割 把数据分散到各自小的物理单元中去任何给定的单元属于一个分割数据分割后的数据单元称为分片分割后的单元具有灵活性 能够实现重构 索引 顺序扫描 重组 恢复 监控等 2020 3 27 45 数据分割 2020 3 27 46 2020 3 27 47 数据仓库中数据组织 简单堆积结构轮转综合数据存储简单直接文件连续组织 2020 3 27 48 简单堆积结构 从操作型环境中取出每天的事务数据根据主题来综合成数据仓库记录 2020 3 27 49 轮转综合数据存储 只有在轮转综合文件中的数据才能被输入到不同的结构形式中 而操作型数据到数据仓库环境中的数据处理方法简单的堆积结构相同 方式 每天进行数据综合 每周累加 月底将每周的数据加到一起 并放于第一个每月响应的数据位置处 然后每周数据位置清零 到了年底 将每月数据累加 放入第一个年度响应的数据位置处 然后每月数据位置清零 2020 3 27 50 简单堆积与轮转综合的比较 2020 3 27 51 简单直接文件组织 把数据从操作型环境拖入数据仓库环境中 无任何累积 以较长时间为单位的它是间隔一定时间的操作型数据的一个快照 2020 3 27 52 连续数据组织 依据两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论