《软件项目管理》PPT课件.ppt_第1页
《软件项目管理》PPT课件.ppt_第2页
《软件项目管理》PPT课件.ppt_第3页
《软件项目管理》PPT课件.ppt_第4页
《软件项目管理》PPT课件.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第2章数据仓库原理 2 2 1数据仓库结构体系2 2数据仓库的数据模型2 3数据抽取 转换和装载2 4元数据 3 2 1数据仓库结构体系 2 1 1数据仓库结构2 1 2数据集市及其结构2 1 3数据仓库系统结构2 1 4数据仓库运行结构 4 数据仓库结构包括近期基本数据 历史基本数据 轻度综合数据 高度综合数据层和元数据 近期基本数据 是最近时期的业务数据 是数据仓库用户最感兴趣的部分 数据量大 历史基本数据 近期基本数据随时间的推移 由数据仓库的时间控制机制转为历史基本数据 轻度综合数据 是从近期基本数据中提取出的 这层数据是按时间段选取 或者按数据属性 attributes 和内容 contents 进行综合 高度综合数据层 这一层的数据是在轻度综合数据基础上的再一次综合 是一种准决策数据 2 1 1数据仓库结构 6 数据仓库是企业级的 数据集市是部门级的 1 数据集市的产生数据仓库工作范围和成本常常是巨大的 开发数据仓库是代价很高 时间较长的大项目 提供更紧密集成的数据集市就应运产生 目前 全世界对数据仓库总投资的一半以上均集中在数据集市上 2 1 2数据集市及其结构 7 数据集市 DataMarts 是一种更小 更集中的数据仓库 为公司提供分析商业数据的一条廉价途径 DataMarts是指具有特定应用的数据仓库 主要针对某个应用或者具体部门级的应用 支持用户获得竞争优势或者找到进入新市场的具体解决方案 2 数据集市概念 8 3 数据集市与数据仓库差别 1 数据仓库是基于整个企业的数据模型建立的 它面向企业范围内的主题 而数据集市是按照某一特定部门的数据模型建立的 2 部门的主题与企业的主题之间可能存在关联 也可能不存在关联 3 数据集市的数据组织一般采用星型模型 大型数据仓库的数据组织 如NCR公司采用第三范式 9 1 规模是小的2 特定的应用3 面向部门4 由业务部门定义 设计和开发5 由业务部门管理和维护6 快速实现7 购买较便宜8 投资快速回收9 更详细的 预先存在的数据仓库的摘要子集10 可升级到完整的数据仓库 4 数据集市的特性 10 从属数据集市 DependentDataMart 它的数据直接来源于中央数据仓库 这种结构仍能保持数据的一致性 独立数据集市 IndependentDataMart 数据直接来源于各生产系统 5 两种数据集市结构 11 数据仓库系统由数据仓库 DW 仓库管理和分析工具三部分组成 数据仓库的数据来源于多个数据源 2 1 2数据仓库系统结构 12 1 仓库管理 数据仓库管理包括数据建模 数据抽取 转换 装载 元数据 系统管理4部分 1 数据建模数据建模是建立数据仓库的数据模型 数据仓库的数据模型不同于数据库的数据模型在于 数据仓库只为决策分析用 不包含事务处理的数据 数据仓库的增加了时间属性数据 数据仓库增加了一些综合数据 数据仓库的数据建模是适应决策用户使用的逻辑数据模型 13 2 数据抽取 转换 装载 数据仓库中的数据 是通过在源数据中抽取数据 按数据仓库的逻辑数据模型的要求进行数据转换 再按物理数据模型的要求装载到数据仓库中去 数据抽取 转换 装载 ETL 是建立数据仓库的重要步骤 需要花费开发数据仓库70 的工作量 14 1 查询工具数据仓库的查询不是指对记录级数据的查询 而是指对分析要求的查询 以图形化方式展示数据 可以帮助了解数据的结构 关系以及动态性 2 分析工具 15 2 多维分析工具 OLAP工具 通过对信息的多种可能的观察形式进行快速 一致和交互性的存取 这样便利用户对数据进行深入的分析和观察 多维数据的每一维代表对数据的一个特定的观察视角 如时间 地域 业务等 3 数据挖掘工具从大量数据中挖掘具有规律性知识 需要利用数据挖掘 DataMining 工具 16 2 1 4数据仓库的运行结构 数据仓库应用是一个典型的客户 服务器 C S 结构形式 客户端所做的工作 客户交互 格式化查询 结果显示 报表生成等 服务器端完成各种辅助决策的SQL查询 复杂的计算和各类综合功能等 17 OLAP服务器将加强和规范化决策支持的服务工作 集中和简化了原客户端和数据仓库服务器的部分工作 降低了系统数据传输量 这种结构形式工作效率更高 OLAP的三层C S结构 18 数据仓库存储采用多维数据模型 2 2数据仓库的数据模型 果汁 可乐 牛奶 商品维 奶油 浴巾 香皂 北京 上海 长沙 1234567 城市维 日期维 19 维就是相同类数据的集合 商店 时间和产品都是维 各个商店的集合是一维 时间的集合是一维 商品的集合是一维 每一个商店 每一段时间 每一种商品就是某一维的一个成员 每一个销售事实由一个特定的商店 一个特定的时间 一个特定的商品组成 两维表 如通常的电子表格 三维构成立方体 若再增加一维 则图形很难想象 也不容易在屏幕上画出来 20 大多数的数据仓库都采用 星型模型 星型模型是由 事实表 大表 以及多个 维表 小表 所组成 事实表 中存放大量关于企业的事实数据 数量数据 例如 多个时期的数据可能会出现在同一个 事实表 中 维表 中存放描述性数据 维表是围绕事实表建立的较小的表 星型模型数据如下图 2 2 1星型模型 21 星型模型数据存储情况示意图 23 星型模型优点 非常规范化 以增加存储空间为代价 提高了多维数据的查询速度 而规范化的关系数据库设计是使数据库的冗余保持在最少 并减少了当数据改变时系统必须执行的动作 星型模型缺点 当业务问题发生变化 原来的维不能满足要求时 需要增加新的维 由于事实表的主键由所有的维表的主键组成 这种维的变化带来数据变化将是非常复杂 非常耗时的 星型模型算数据冗余量很大 24 2 2 2雪花模型雪花模型对星型模型的维表进一步层次化 原来的各维表可能被扩展为小的事实表 形成一些局部的 层次 区域 在上面星型模型的数据中 对 产品表 日期表 地区表 进行扩展形成雪花模型数据见下图 2 2 3星网模型星网模型是将多个星型模型连接起来形成网状结构 多个星型模型通过相同的维 如时间维 连接多个事实表 26 2 2 4第三范式 范式实际上是传统的关系数据库的设计理论 数据仓库可以按第三范式进行逻辑数据建模 它不同于星型模型在于 把事实表和维表的属性都集中在同一数据库中 按第三范式组织数据 它减少了维表中的键和不必要的属性 著名的NCR数据仓库公司采用了第三范式的逻辑数据模型 27 星型模型在进行多维数据分析时 速度是很快的 但是增加维度将是很困难的事情 第三范式对于海量数据 如TB级 且需要处理大量的动态业务分析时 就显示了它的优势 28 2 3数据抽取 转换和装载 数据仓库的数据来源于多个数据源 主要是企业内部数据 存档的历史数据 企业的外部数据 这些数据源可能是在不同的硬件平台上 使用不同的操作系统 源数据是以不同的格式存放在不同的数据库中 数据仓库需要将这些源数据经过抽取 转换和装载的过程 存储到数据仓库的数据模型中 可以说 数据仓库的数据获取需要经过抽取 Extraction 转换 Transform 装载 Load 三个过程即ETL过程 29 2 3 1数据抽取 数据抽取工作包括以下两点 1 确认数据源 2 数据抽取技术 30 1 确认数据源 该项工作主要包括 列出对事实表的每一个数据项和事实 列出每一个维度属性 对于每个目标数据项 找出源数据项 一个数据元素有多个来源 选择最好的来源 确认一个目标字段的多个源字段 建立合并规则 确认一个目标字段的多个源字段 建立分离规则 确定默认值 检查缺失值的源数据 31 2 数据抽取技术 数据抽取时考虑两种情况 当前值源系统中存储的数据都代表了当前时刻的值 当商业交易时 这些数据是会发生变化的 周期性的状态 这类数据存储的是每次发生变化时的状态 例如 对于每一保险索赔 都经过索赔开始 确认 评估和解决等步骤 都要考虑有时间说明 32 2 3 2数据转换 1 数据转换的基本功能2 数据转换类型3 数据整合和合并4 如何实施转换 33 1 数据转换的基本功能 选择 从源系统中选择整个记录或者部分记录 分离 合并 对源系统中的数据进行分离操作或者对多源系统中选择的部分数据进行合并操作 转化 对源系统进行标准化和可理解化 汇总 将最低粒度数据进行汇总 清晰 对单个字段数据进行重新分配和简化 34 2 数据转换类型 1 格式修正 包括数据类型和单个字段长度的变化 2 字段的解码 对所有晦涩的编码进行解码 3 计算值和导出值 4 单个字段的分离 5 信息的合并 6 特征集合转化 7 度量单位的转化 8 关键字重新构造 9 汇总 10 日期 时间转化 35 3 数据整合和合并 数据整合和合并是将相关的源数据组合成一致的数据结构 装入数据仓库 1 实体识别问题数据来源于多个不同的客户系统 对相同客户可能分别有不同的键码 将它们组合成一条单独的记录 2 多数据源相同属性不同值的问题不同系统中得到的值存在一些差别 需要给出合理的值 36 4 如何实施转换 完成数据转换工作一般有两种方式 自己编写程序实现数据转换 使用转换工具 37 2 3 3数据装载 数据转换功能结束后 接下来就是数据装载 数据装载工作包括 1 数据装载方式 2 数据装载类型 38 1 数据装载方式 基本装载按照装载的目标表 将转换过的数据输入到目标表中去 若目标表中已有数据 装载时先清除这些数据 再装入新数据 追加如果目标表中已经存在数据 追加过程在保存已有数据的基础上增加输入数据 当一个输入记录与已经存在的记录重复是 输入记录可能作为副本增加进去 或者丢弃新输入数据 破坏性合并用新输入数据更新目标记录数据 当一个输入记录与已经存在的记录重复是 用新输入记录更新旧记录 建设性合并保留已有的记录 增加输入的记录 并标记为旧记录的替代 39 2 数据装载类型 数据装载类型包括3种 最初装载这是第一次对整个数据仓库进行装载 增量装载由于源系统的变化 数据仓库需要装载变化的数据 完全刷新这种类型的数据装载用于周期性重写数据仓库 40 2 3 4ETL工具 目前市场上有3种ETL 数据抽取 转换 装载 工具 数据转换引擎这类工具根据用户定义的时间间隔 从一组指定的源系统中抽取数据 执行复杂的数据转换 将结果导入到目标表中 使用这类工具可以选择最合适的数据转换方法 实施完全更新或者增量更新 代码生成器这类工具根据提供的数据源的参数和目标输出以及商业规则 能自动生成数据抽取和转换程序 完成ETL过程 通过复制捕获数据这类工具中大部分使用数据库管理系统维护的交易日志 在交易日志中捕获源系统的变化 可以近乎实时地在数据准备区域被复制 等待进一步从处理 41 2 4元数据 2 4 1元数据的重要性2 4 2关于数据源的元数据2 4 3关于数据模型的元数据2 4 4关于数据仓库映射的元数据2 4 5关于数据仓库使用的元数据 42 2 4 1元数据的重要性 最基本的元数据相当于数据库系统中的数据字典 元数据定义了数据仓库有什么 指明了数据仓库中数据的内容和位置 刻画了数据的抽取和转换规则 存储了与数据仓库主题有关的各种商业信息 而且整个数据仓库的运行都是基于元数据的 元数据可分为4类 关于数据源的元数据 关于数据模型的元数据 关于数据仓库映射的元数据和关于数据仓库使用的元数据 43 下面是元数据的一个例子 它定义了数据仓库中的一个表 44 这类元数据是对不同平台上的数据源的物理结构和含义的描述 具体为 1 数据源中所有物理数据结构 包括所有的数据项及数据类型 2 所有数据项的业务定义 3 每个数据项更新的频率 以及由谁或那个过程更新的说明 4 每个数据项的有效值 2 4 2关于数据源的元数据 45 这组元数据描述了数据仓库中有什么数据以及数据之间的关系 它们是用户使用管理数据仓库的基础 这种的元数据可以支持用户从数据仓库中获取数据 2 4 3关于数据模型的元数据 46 这类元数据是数据源与数据仓库数据间的映射 当数据源中的一个数据项与数据仓库建立了映射关系 就应该记下这些数据项发生的任何变换或变动 即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的 经过那些转换 变换和加载过程 从源系统的数据到数据仓库中的目标数据的转移是一项复杂的工作 其工作量占整个数据仓库开发的70 这里主要涉及以下两个问题 2 4 4关于数据仓库映射的元数据 47 1 抽取工作之间的复杂关系 一个数据的抽取要经过许多步骤 如图所示 获取 从外部或内部源数据系统获取对决策支持系统用户有用的数据过滤 过滤掉不需要的内容验证 从用户的角度验证数据的质量融合 把本次抽取的数据与数据仓库中的数据进行融合综合 对数据进行综合 生成综合级数据装载 把新数据装入到数据仓库中存档 把新装入的数据单独存为一个文件 以便减少更新操作的数据量 48 2 源数据与目标数据之间的映射 源数据与目标数据之间是一种复杂的多对多关系 元数据要能够描述这些限制所带来的以系列问题 这组元数据要定义的内容有 1 抽取工作描述每一个抽取工作 并为每一个抽取工作标识其源系统 明确其刷新周期 2 抽取工作步骤定义抽取工作中的步骤 包括说明每一步的类型 3 抽取表映射为每一抽取步骤建立输入文件 表与输出文件 表之间的关联 4 抽取属性映射为每一抽取步骤建立输入文件 表与输出文件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论