第三章 数据仓库开发应用过程.ppt_第1页
第三章 数据仓库开发应用过程.ppt_第2页
第三章 数据仓库开发应用过程.ppt_第3页
第三章 数据仓库开发应用过程.ppt_第4页
第三章 数据仓库开发应用过程.ppt_第5页
免费预览已结束,剩余77页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

与传统的DB开发一样 DW的开发也经历需求分析 概念模型设计 逻辑模型设计和物理模型设计 其不同之处 数据量以及数据操作不同 此外 前者在需求分阶段就能确定系统的功能 后者则不能 1DW开发应用的特点 2DW的规划 3DW概念模型设计 4DW逻辑模型设计 5DW物理模型设计 6DW的实施 7DW的应用 支持和增强 第三章数据仓库开发应用过程 1DW开发应用的特点DW的开发也具有其特有的 完整的生命周期 DW规划分析阶段 DW设计实施阶段以及DW使用维护阶段 该三个阶段将循环往复 直至一个完善的DW开发完毕 1 DW开发的阶段性借鉴Nolan阶段模型 可以将DW的开发阶段划分为 创始阶段 成长阶段 控制阶段和成熟阶段等四个阶段 课后阅读 CH3 2 DW的螺旋式开发方法如前所述 DW的一个生命周期包含三个阶段 然而 一个完善的DW需要经历若干个生命周期完成 每个DW生命周期积累的经验 一方面可以用于未来其他主题的开发应用 另一方面 可以用于完善原DW 上述过程便构成了数据仓库的螺旋式开发方法 该方法是目前DW开发的主要方法 CH3 DW的螺旋式开发方法 CH3 3 数据仓库开发的特点 数据驱动的设计方法 用业务系统的数据创建DWDB系统有什么 对DW有何影响 DB数据 主题领域 联系 数据模型 DB与主题数据的共同性 该方法不是面向应用的 即 不是从应用需求出发的 CH3 开发初期使用需求的不确定性DB系统 面向应用 其设计有一组确定的应用需求做为参照 DW无对应的 固定的物流 信息流 数据流等 导致数据的分析处理没有固定的模式 甚至用户自己都不知道其将来的分析处理的过程 所以 难以在初期确定DW的使用需求 CH3 不断循环的启发式过程DW的开发是一个动态反馈的 启发式的循环过程 一方面 DW的数据内容 结构 数据粒度 分割及其他物理模型及其设计需根据用户的反馈信息不断调整和完善 以提高系统的效率和性能 另一方面 通过不断理解用户的决策分析需求 来调整和完善DW 以提供更为准确的决策信息 CH3 2DW的规划规划是DW开发的首要任务 它包括选择DW实现策略 确定DW开发目标和实现范围 选择DW体系结构以及建立DW使用方案和项目规划预算四个方面 上述规划工作完成后 要编制DW规划说明书 内容包括DW与企业战略规划之间的关系 DW重点支持的职能部门 对DW开发工作的建议 实际使用方案与开发预算等 CH3 1 选择DW实现策略主要有自上而下 自下而上以及混合策略三种 自上而下策略 应用于DW较难 需求难以定义 较为死板 需预先确定目标 需开发人员具有丰富的自上而下开发系统的经验 以及管理人员与决策者完全知晓DW的目标及作用 适合采用结构化或OO开发方法 CH3 自下而上策略 较灵活 一般从某个原型开始 常用于开发数据集市 一般用于试点 对DW技术的评价 运行DW的各种费用等 适合采用螺旋式的原型开发方法 混合策略难以操作 需要精通方方面面的专家 CH3 2 确定DW的开发目标和实现范围为此 需要对用户说明DW应用和发展趋势以及对企业经营战略的支持 开发目标 确定信息的范围 主题域 指标域 确定访问和导航数据的方法和工具包括聚集及概括工具 访问检索图表 预定义报表 统计分析器等的工具等等 CH3 确定DW数据的规模 其他目标还有 根据需求确定数据的含义 确定DW的类型 确定DW的功能 确定元数据的数量 确定数据源的使用 可见 DW的目标非常繁多复杂 需开发人员与用户不断交流来确定 CH3 实现范围 基于用户的角度 谁 人员 部门 使用DW DW有哪些查询 它们确定了概括 聚集 集成 重构等的技术要求以及报表的种类等 基于技术的角度 确定DW的元数据库的规模 间接地确定了DW要管理的数据量 CH3 3 选择DW的体系结构一般基于DW的应用结构和DW的技术平台结构两个方面来考虑 DW的应用结构 基于业务处理系统的DW 虚拟DW 单纯DW 所有应用都在DW中进行 单纯数据集市 部门级DW DW与数据集市 最佳体系结构 CH3 DW的技术平台结构 单层结构 数据源与DW共享平台或数据源 DW 数据集市 最终用户工作站使用同一平台 C S结构 三层C S结构 包括基于工作站的客户层 基于服务器的中间层 基于主机的第三层 多层式结构 在三层结构基础上发展起来的 可多达五层 存储层 服务层 查询层 应用层 客户层 CH3 4 建立DW使用方案和项目规划预算使用方案 实际上是DW需求的一个重要的原型 体现了用户参与的原则 规划预算 估算项目投资额 可根据以往软件开发确定 或根据参照结构估算 最后 要撰写规划说明书 CH3 3DW概念模型设计概念模型设计包括概念模型的需求调查 概念模型的定义 概念模型的分析以及概念模型的设计四个阶段 1 概念模型的需求调查概念模型的需求调查 是以DW开发任务书 包括组织现状 业务功能及范围 组织发展的战略 需决策支持的方面等 为基础进行的 CH3 调查对象包括组织中的DW项目负责人 知识用户 信息用户和信息管理人员 项目负责人 通过项目负责人在开发者和用户之间进行沟通 以确定用户的信息需求 定义系统以及界定系统边界 CH3 对项目负责人的调查内容包括 组织的管理人员对信息的需求 比如 与任务说明书中业务需求相关的业务或事务 相关的数据在哪个系统中 所需数据的年限 现行业务处理系统能否提供所需数据等 用户的有关情况 比如 谁是用户 用户如何使用DW 用户是否拥有自己的计算机系统 是否使用了分析工具 用户喜好的报表形式 等等 DW成功因素的建议 希望DW做什么 CH3 知识用户与信息用户 主要调查信息的来源 包括 用户承担的工作及所需信息 信息的来源 信息处理方式 所在部门使用哪些信息系统 这些系统提供哪些分析信息 用户使用什么样的计算机系统 其中有哪些应用程序 对这些程序的熟悉程度 了解DW否 希望DW达到什么目的 如何衡量是否达到此目的 工作中尚未获得哪些信息 如何评价DW 同前 CH3 信息管理人员 主要调查组织所用的系统环境 比如组织有否DSS 其用户是谁 提供什么支持信息 等等 可见 需求调查过程中 开发人员应该关注的是管理决策中关于信息的需求 用户的基本情况 用户使用信息的情况 而非像业务处理系统开发那样 向被调查人员询问系统应该具有哪些功能 CH3 2 概念模型的定义概念模型的定义 就是要确定系统的范围及所涉及的对象 从所选择的主题域出发 确定基本需求的方向以及基本的数据需求 有别于功能驱动的业务处理系统 数据驱动的DW设计之初 不能马上知道用户详细的需求 从而界定DW大致的系统边界 并形式地表示出来 CH3 例 某超市的DW设计日趋激烈的竞争环境 要求决策者能够更准确地了解超市的经营状况 跟踪市场趋势 制定合理的采购与销售策略 之前由于业务需求 已建立了若干业务处理系统 如人事 库存 销售 采购等 由于这些业务处理系统各自为政 缺乏全局性 因此 难以从中进行全局性的分析工作并获取相关报表 所以 决策者决定建立一个DW 明确决策需求 进一步确定所需信息 CH3 DW用户的决策分析基于开发DW的初衷 超市决策者迫切希望掌握超市的库存情况和销售情况 为制定一个营销策略 决策者要进行以下分析 超市促销效果 客户购买趋势 商品供应市场变化趋势以及供应商和客户的信用等级等 支持决策的数据需求分析为完成上述分析 决策者需要促销策略数据 采购数据 库存数据 客户及供应商数据等 CH3 数据需求分析工具常用的工具有 用户信息需求表 CRUD矩阵 业务处理系统数据存储表等 用于描述用户的信息需求状况以及信息的详细程度 CH3 用于描述高层模型中每个实体产生 引用 更新以及删除的情况 CH3 用于描述DW数据源的物理状况 CH3 3 概念模型的分析概念模型主要在设计者与用户之间交流对业务过程的认识 一般用ER图表示 仍以超市为例 考虑决策者的分析需求 确定超市DW的三个基本主题域 销售主题 商品主题和客户主题 则其概念模型如下 CH3 给出每个主题的属性后 便得到完整的概念模型了 CH3 4 概念模型的设计以概念模型的分析结果以及概念模型的定义中收集到的数据为基础 完成星形或雪花模型的设计 前面的ERD只适合于业务处理系统的设计而不能用于DW的设计 实际中 选取星形模型还是雪花模型取决于用户的决策分析需求 CH3 CH3 CH3 5 概念模型文档与评审概念模型设计文档 主要包括DW开发需求分析报告 概念模型分析报告 概念模型以及概念模型评审报告 概念模型的评审 DW开发中经常出现这类的阶段性评审 好处 概念模型的评审主要用于确定概念模型是否准确 完整地描述了用户的决策分析环境 CH3 概念模型的评审人员 DW项目负责人 DW分析人员 DW设计人员 DW用户 一般限制在十人以下 概念模型的评审内容 评审资料有 DW开发任务书 用户信息需求表 DW主题说明书 ERD 概念模型设计成果 星形模型或雪花模型 评审标准 是否真实反映了开发DW的目的 信息需求表准确否 DW的主题全面否 ERD 星形 雪花模型是否如实反映了用户的决策分析环境等 CH3 4DW逻辑模型设计逻辑模型是物理模型和概念模型之间的桥梁 它与DW物理实现时所使用的数据库相关 大多为RDBMS 故此 逻辑模型主要采用的是关系模型 利用关系模型不仅可以设计指标实体 还可以设计维实体以及详细类别实体 CH3 逻辑模型设计的内容主要有 1 分析主题域5 定义DW的实体2 确定粒度层6 定义DW的数据次以及聚集抽取模型3 确定数据7 DW元数据模型分割策略的建立与应用4 定义关系模型8 评审逻辑模型 CH3 1 分析主题域数据仓库的建立是一个循环的过程 一般每次循环建立建立一个 几个主题域 超市DW概念模型中 确立了三个基本主题域 商品 销售 客户 经分析可发现 其中销售是超市的基本业务 也是进行决策分析的主要领域 因此 决定首先建立并实施销售主题域 CH3 一旦定义了主题域 也就确定了DW的逻辑模型 进一步要详细描述该模型中主题的所有属性 以便确定系统相关的行为和存储结构 如下图所示 CH3 2 确定粒度层次以及聚集粒度层次及聚集的确定 要参照第二章 6和 7中介绍的原则和方法 无非是确定单一还是多重粒度 及常用的聚集等 对于超市的销售主题 采用多重粒度较为适宜 考虑到销售记录数量的庞大 以及对销售的分析以销售统计以及销售趋势分析为主 商品销售数据的综合层次可以分为每种商品的周 月 季统计销售数据 每小类商品的周 月 季统计销售数据等 CH3 3 确定数据分割策略数据分割 把逻辑上整体的数据分割成较小的 可独立管理的物理单元进行存储 以便于数据的重构 重组和恢复 并提高建立索引和顺序扫描的效率 数据分割 必需在逻辑模型设计中完成 为什么 它可以采用单一标准 比如季节 或组合标准 如 按季节 业务类型 进行分割 采用什么样的分割标准 一般考虑以下三个因素 CH3 数据量 主要因素 数据量小 可不分割或用单一标准分割 数据量大 则要用组合标准细致地分割 数据处理对象 与主题域相关 比如 商品主题可以用商品种类 商品小类 时间标准分割 而供应商主题则更多地用地址和时间标准进行分割 思考 为什么 CH3 粒度分割的策略 数据分割标准必需要与粒度层次统一起来 比如 假如商品主题关于商品销售数据的粒度是按日期和商品类别进行划分的 那么 在每一粒度层次上的数据 就要按日期和商品类别的组合标准进行分割 以便于将来在日期和类别方面综合为更高层次粒度的数据 CH3 超市DW中 如果决策者经常关心的问题是商品在某个季节的销售情况 则 可以考虑按照季节 日期 进行分割 因为 超市DW是按日期顺序获取数据的 DW中数据的综合常常是在日期维上进行的 当然 也可以考虑用业务类型 地理位置等标准进行分割 CH3 4 定义关系模型由于DW一般都是在RDBMS上实现的 因此不论概念模型是E R模型 星形模型还是雪花模型 都要转换为关系模型 指标实体转换后 可能形成多个关系 事实表 这些关系 通过公共码键联系在一起 当然 还要创建相应的维表 详细类别表 事实表通过外键与它们建立联系 CH3 例 超市客户的逻辑模型 转换后包括以下各表 客户基本情况表 账号int9 客户变动情况表 账号int9 商品交易情况表 账号int9 服务交易情况表 账号int9 客户反馈记录表 账号int9 客户信用状况表 账号int9 等 这些表 通过公共码键 账号关联在一起 CH3 5 定义DW的实体逻辑模型设计中 不仅要确定实体 实体间的关系和实体具有的列 还要进一步确定主键列 候选键列以及外键列等 它们可以由一列或多列组成 此外 还要确定各个实体中的列是否可以为空值 一般 主键 候选键 外键不能为空 最后 还要给出每个实体所有列的具体特性以及实体的容量和数据更新频率 CH3 CH3 CH3 6 定义DW的数据抽取模型数据仓库的数据抽取模型由数据抽取流程图和若干种表构成 设计数据抽取模型的目的是建立DW的数据抽取 Extract 转换 Transform 和加载 Load 系统 即ETL系统 数据抽取模型的建立 主要包括四个方面的工作 数据抽取处理流程图 DW的数据抽取 转换与加载计划 DW的清理数据转换方法 DW的数据抽取 清理与转换模型 CH3 数据抽取处理流程数据仓库的数据抽取是传统的数据处理流程 其输入是各种业务处理系统DB 输出是DW数据 CH3 DW的数据抽取 转换与加载计划该计划 是关于DW从数据源中抽取 转换和加载的工作计划 制定该计划时 要考虑相关的影响因素并确定对应的对策 A 影响因素 数据格式 多数据源 统一格式 坏数据 丢失 失效 改不正确的数据 系统的兼容性 不同业务处理系统间的兼容 CH3 数据源的变化 数据源数据格式与结构的变化 数据抽取的时间 避开业务处理系统的高峰期 B 对策面对上述影响因素 要明确抽取什么数据 抽取方式 何时抽取 何处抽取 抽取方式 全库比较 当前瞬间的状态与上次抽取时的状态比较 找出增量文件 CH3 利用程序日志 在业务系统中 用程序把发生变化的数据记下来 形成增量文件 利用数据库日志 检查DB运行日志以确定增量文件 利用时间戳 在记录中增加时间戳 会增加业务处理系统的开销 CH3 利用位图索引 在数据源的记录中增加一个位图索引字段 其取值为 没变化 修改过 修改中 抽取时间两种方法 基于时间的抽取和基于事件的抽取 抽取地点即抽取过程的运行之处 在数据源还是数据仓库中 CH3 DW的数据清理转换方法数据清理与转换用来解决数据源和DW的数据格式不一致性的问题 其方法有 类型转换 将相同含义不同格式的数据转换成相同格式的数据 串操作 将两个以上列的值裁剪 连接为一个新值 关键字翻译 数据源关键字到DW关键字的映射 CH3 数学函数 用数学函数根据数据源计算出结果作为DW的数据 参照完整性 数据加载到DW时 要确定这些数据是否已经在DW中了 聚集运算 在数据加载到DW过程中 计算之前确定了的大量的概括 聚集数据 以减少数据I O的开销 CH3 DW的数据抽取 清理与转换模型包括以下四个方面的工作 数据源分析 数据仓库主题所需各个数据源的详细情况 包括所在的计算机平台 拥有者 数据结构 使用该数据源的处理过程 DW的更新计划等 分析DW中的每个列及其在数据源 业务处理系统或外部数据源 中的数据来源的情况 CH3 上述分析过程中 要利用数据抽取规则确定从哪些数据源抽取哪些数据 这些数据基于哪些数据平台等 并形成数据源抽取对象表 CH3 数据抽取条件分析分析所抽取的数据应满足哪些条件 可能是来自于不同表的复合条件 并形成数据源抽取规则表 CH3 数据清理分析清理工作包括数据类型转换 数据类型统一或者汇总或聚集处理等 并形成目标表列与数据源表列的对应关系表 CH3 数据的排序 概括和导出处理给出以下两种表 CH3 CH3 7 DW元数据模型的建立与应用元数据模型的作用在于指导数据仓库中数据的抽取 清理和加载过程以及引导用户使用数据仓库 元数据模型的建立贯穿于DW的规划到应用的整个过程 元数据模型的建立需要在多个DW生命周期的循环 即螺旋式开发过程中完成 其建立与应用过程如下图所示 CH3 CH3 其中 各个步骤的内容如下 利用某种建模工具创建DW模型的过程中 需要从业务处理系统中提取元数据 并建立DW的逻辑模型和物理模型 包括DW的逻辑名称 业务名称 列名 物理列名 业务术语和描述 查询的样值及提示等 并把它们存放在元数据目录中 在DW中添加数据加载的元数据 关于DW数据源的描述 完成数据 来源定义 CH3 利用数据加载工具提取DW中各种表的定义 并完成源数据到目标数据的映射的定义 捕捉所有转换信息 把上述源数据到目标数据的映射和转换存储到元数据目录中 把数据加载到DW时 需从元数据目录中找到有关源数据的类型和位置 目标数据的类型和位置以及两者间的映射 CH3 数据加载前 要检查DW中物理状态的最新信息 如磁盘空间等 利用元数据提取数据的同时 根据提取的源数据状况 提取元数据 如数据提取时间 数据源的变化等 将提取的源数据经清理 转换后加载到DW中 加载中 将捕捉到的加载统计信息和审核信息保存到元数据目录中 CH3 DW建模过程中的事实表信息 保存为元数据目录中的业务分组元数据 使用DW的帮助信息 用户可以利用元数据通过前端数据展示工具形成查询请求 DW将查询结果返回给用户 完成用户查询的统计后 结果保存在元数据目录中 分析用户使用DW的依据 CH3 8 评审逻辑模型完成逻辑模型的设计工作后 把设计方案整理成文档 并组织有关人员进行评审 文档内容包括 主题域分析报告 数据粒度划分模型 数据分割策略 数据抽取模型 指标实体 维实体与详细类别实体的关系模型等 CH3 评审内容 主题域 满足决策分析要求 概括数据使用需求 数据粒度及分割策略满足决策分析要求 指标实体 维实体 详细类别实体 对应的关系式满足3NF 为提高DW效率 进行反规范化处理 数据抽取模型 建立正确的对应关系 CH3 5DW物理模型设计物理模型设计 就是逻辑模型在物理系统中的实现过程 实现物理设计的前提 全面了解所选用的DBMS 尤其是该DBMS的存储结构和存取方法 全面了解数据环境 数据使用频率 使用方式 数据规模及响应时间等 全面了解外部存储设备的特性 CH3 物理模型设计的内容包括 确定DW设计的规范 确定数据结构的类型 创建DW的索引 确定数据存放的位置 确定存储分配等 最后 要对物理模型进行评审 内容包括 表空间 分区 数据表 数据量 数据分布 索引等等 CH3 6DW的实施 以物理模型为基础 具体工作包括以下五个方面的内容 1 DW与业务处理系统接口的设计逻辑模型中 已经建立了每个目标列抽取的规则 与业务处理系统或外部数据源间的映射 为使DW中的数据抽取快速 准确需要设计相应的接口程序 以完成数据抽取的工作 CH3 一般 接口程序的功能为 从面向应用和操作的环境生成完整的数据 生成数据的聚集 完成基于时间的数据转换 扫描现有系统以便追加数据等 2 DW的创建显然 DW中包含两类数据 分析数据和元数据 分析数据 大多采用RDBMS管理 少数情况下采用多维数据库方式 CH3 元数据库构成会较为复杂 它不但为过程之间 工具之间和数据库之间提供了管理连接的基础 还要存

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论