




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库设计 胡正耀09105015 一 数据仓库系统结构 RDBMS 数据文件 其他 综合数据 当前数据 历史数据 元数据 抽取 转换 装载 数据仓库 OLAP工具 DM工具 查询工具 分析工具 报表工具 抽取 转换 装载 源数据库 DW管理工具 数据建模工具 数据源 二 建立DW的两种方式 1 自顶向下型 自顶向下 的开发策略是指对原来分散存储在企业各处的OLTP数据库中的有用数据通过提取 清洁 转换 聚集等处理步骤建立一个全局性数据仓库 这个全局的数据仓库将提供给用户一个一致的数据格式 一致的软件环境 从理论上说 决策支持所需的数据都应该包含在这个全局数据仓库中 数据集市中存储的数据是为某个部门的DSS应用而专门从全局数据仓库中提取的 它是全局数据仓库中数据的一个子集 在 自顶向下 的模式中 数据集市和数据仓库的关系是单方向的 即数据从数据仓库流向数据集市 原有数据和应用源 抽取 转换 迁移 数据仓库 数据仓库 数据集市元数据 数据集市 自顶向下的数据仓库结构 二 建立DW的两种方式 2 自下向上型 自底向上 模式是从建立各个部门或特定的商业问题的数据集市开始 全局性数据仓库建立在这些数据集市的基础上 自底向上 模式的特点是初期投资少 见效快 因为它在建立部门数据集市时只需要较少的人做决策 解决的是较小的商业问题 自底向上 的开发模式可以使一个单位在数据仓库发展初期尽可能少地花费资金 也可以在做出有效的投入之前评估技术的收益情况 原有数据和应用源 抽取 转换 迁移 数据仓库 数据仓库 数据集市元数据 数据集市 自下向上的数据仓库结构 平行开发 模式是指在一个全局性数据仓库的数据模型的指导下 数据集市的建立和全局性数据仓库的建立同时进行 在 平行开发 模式中由于数据集市的建立是在一个统一的全局数据模型的指导下进行的 可避免各部门在开发各自的数据集市时的盲目性 减少各数据集市之间的数据冗余和不一致 在 平行开发 模式中数据集市的这种相对独立性有利于全局性数据库的建设 一旦全局性数据仓库建立好后 各部门的数据集市将成为全局数据仓库的一个子集 全局数据仓库将负责为各部门已建成和即将要建的数据集市提供数据 二 建立DW的两种方式 两种方式的比较 自顶向下 的方法是在单个项目阶段中实现数据仓库 需要在项目开始时完成更多计划和设计工作 这就需要涉及参与数据仓库实现的每个工作组 部门或业务线中的人员 要使用的数据源 安全性 数据结构 数据质量 数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成 建设规模往往较大 建设周期长 投资大 二 建立DW的两种方式 两种方式的比较 自下向上 的实现包含数据仓库的计划和设计 无需等待安置好更大业务范围的数据仓库设计 这并不意味着不会开发更大业务范围的数据仓库设计 随着初始数据仓库实现的扩展 将逐渐增加对它的构建 现在 该方法得到了比自顶向下方法更广泛的接受 因为数据仓库的直接结果可以实现 并可以用作扩展更大业务范围实现的证明 二 建立DW的两种方式 两种方式的比较 一种折中方案 每种实现方法都有利弊 在许多情况下 最好的方法可能是某两种的组合 该方法的关键之一就是确定业务范围的架构需要用于支持集成的计划和设计的程度 因为数据仓库是用自底向上的方法进行构建 在使用自底向上或阶段性数据仓库项目模型来构建业务范围架构中的一系列数据集市时 您可以一个接一个地集成不同业务主题领域中的数据集市 从而形成设计良好的业务数据仓库 这样的方法可以极好地适用于业务 在这种方法中 可以把数据集市理解为整个数据仓库系统的逻辑子集 换句话说数据仓库就是一致化了的数据集市的集合 这种方案的实施步骤通常分如下几步 1 从整个企业的角度定义计划和需求 2 构建完整的仓库体系结构 3 使数据内容一致而且标准化 4 将数据仓库作为一种超级数据集市来实施 随着数据仓库技术的发展 数据仓库的实现策略已从原先的 自顶向下 一种模式发展到了六种模式 1 自顶向下 模式2 自底向上 模式3 平行开发 模式为了解决用户需求变化的问题 在业界引入了三种模式 4 有反馈的自顶向下 模式5 有反馈的自底向上 模式6 有反馈的平行开发 模式 三 数据仓库构建步骤 数据建模 概念模型设计 逻辑模型设计 物理模型设计 OLAP应用 完善维护系统 应用与维护 确定系统边界 确定主题域 总体分析设计 技术环境设备 三 数据仓库构建步骤 1 收集和分析业务需求 2 建立数据模型和数据仓库的物理设计 3 定义数据源 4 选择数据仓库技术和平台 5 从操作型数据库中提取 转换和净化数据到数据仓库 6 选择访问和报表工具 7 选择数据库连接软件 8 选择数据分析和数据展示软件 9 更新数据仓库 三 数据仓库建立的基本框架 需求分析 运行维护 模型设计 物理设计 技术选择 数据处理 应用设计 应用开发 产品选择 项目管理 四 数据的获取 数据仓库所需要的数据不像业务处理系统那样直接从业务发生地获取 而是从与业务处理发生直接联系的业务处理系统那里获取 如传统的基于C S结构的在线事物处理系统OLTP 这些业务处理系统中的数据往往与业务处理联系在一起 只为业务的日常处理服务 而不为决策分析服务 所以DW从业务处理系统那里获取数据时 并不能将原数据库中的数据直接加载到DW中 而是要进行一系列的处理 四 数据的获取 数据进入数据仓库的基本过程操作数据向数据仓库的移动包括以下五个过程 五 设计模型的选择 数据仓库是多维数据库 它扩展了关系数据库模型 以星形架构为主要结构方式的 并在它的基础上 扩展出理论雪花形架构和数据星座等方式 但不管是哪一种架构 维度表 事实表和事实表中的量度都是必不可少的组成要素 逻辑模型指数据仓库数据的逻辑表现形式 从最终应用的功能和性能的角度来看 数据仓库的数据逻辑模型也许是整个项目最重要的方面 需要领域专家的参与 从内容上看 涉及的方面有确立主题域 粒度层次的划分 确定数据分割策略 关系模式的确定 数据仓库的逻辑设计模型有 第三范式 星型模式 雪花模式 混合模式 五 设计模型的选择 大多数人在设计中央数据仓库的逻辑模型时 都按照第三范式来设计 而在进行物理实施时 则由于数据库引擎的限制 不得不对逻辑模型进行不规范处理 De Normalize 以提高系统的响应速度 这当然是以增加系统的复杂度 维护工作量 磁盘使用比率 指原始数据与磁盘大小的比率 并降低系统执行动态查询能力为代价的 在数据仓库的应用环境中 主要有两种负载 一种是回答重复性的问题 另一种是回答交互性的问题 动态查询具有较明显的交互性特征 即在一个问题答案的基础上进行进一步的探索 这种交互过程常称为数据挖掘或者知识探索 对于以第一种负载为主的部门数据集市 当数据量不大 报表较固定时可以采用星型模式 对于中央数据仓库 考虑到系统的可扩展能力 投资成本和易于管理等多种因素 最好采用第三范式 标准的关系数据表不能满足数据的分析能力 所以对表进行非标准化处理以形成数据仓库中特有的星形架构方式 但这样一来 如果所有的分析维度都作为事实表的一个直接维度 数据的冗余是相当大的 在星形架构的基础上扩展出雪花形架构 实质上是在分析查询的性能和数据仓库的存储容量两个方面进行权衡的结果 下表比较了两种类型的架构差异 只有明确了这些差异 才能在设计数据仓库时选择最合适的架构方式 五 设计模型的选择 总结 对于部门数据集市 当数据量不大 报表较固定时可以采用星型模式 对于企业级数据仓库 考虑到系统的可扩展能力 投资成本和易于管理等多种因素 最好采用第三范式 五 设计模型的选择 数据仓库系统的建设作为一个渐进 迭代的过程 其发展趋势是从现有的初步应用如报表分析 数据集市 向深度和广度复杂分析和数据挖掘技术应用发展 其依赖的数据存储模型 包括逻辑模型和物理模型 也是一个不断发展 不断丰富完善的过程 六 粒度的设计 在数据仓库中的数据分为4个级别 早期细节级 当前细节级 轻度综合级和高度综合级 源数据经过综合后 首先进入当前细节级 并根据具体需要进行进一步综合 从而进入轻度综合级乃至高度综合级 老化的数据将进入早期细节级 从中可以看出 数据仓库中存在着不同的综合级别 这就是 粒度 的直观表现 粒度模型是数据仓库设计中需要解决的十分重要的问题之一 所谓粒度是指数据仓库中数据单元的详细程度和级别 数据越详细 粒度就越小 级别也就越低 数据综合度越高 粒度就越大 级别也就越高 数据仓库中的数据细节级别 六 粒度的设计 设计步骤粗略估算 确定合适的粒度级的起点 可以粗略估算数据仓库中将来的数据行数和所需的直接存取存储空间 确定双重或单一的粒度 确定粒度的级别 六 粒度的设计 设计原则粒度在数据仓库生命周期中是重要的考虑因素 它由业务问题所驱动 受技术的制约 如果粒度太大 就会丢失个别细节 就要花更多的处理时间来解开聚合 而若粒度太小 就会由于一叶障目而不见森林 许多宝贵的处理时间都浪费在建立聚合上 因此粒度设计主要是权衡粒度级别 对于业务量大 分析要求比较高的情况下 最佳解决办法则是采用多重粒度的形式 而针对具体的某个事实的粒度而言 应当采用 最小粒度原则 即将量度的粒度设置到最小 假设目前的数据最小记录到秒 即数据库中记录了每秒的交易额 那么 如果可以确认 在将来的分析需求中 时间只需要精确到天就可以的话 就可以在ETL处理过程中 按天来汇总数据 此时 数据仓库中量度的粒度就是 天 反过来 如果不能确认将来的分析需求在时间上是否需要精确到秒 那么 就需要遵循 最小粒度原则 精确到 秒 以满足查询的可能需求 七 数据仓库物理模型设计 数据仓库的物理模型就是数据仓库逻辑模型在物理系统中的实现模式 其中包括了逻辑模型中各种实体表的具体化 例如表的数据结构类型 索引策略 数据存放位置和数据存储分配等 在进行物理模型的设计实现时 所考虑的因素有 I O存取时间 空间利用率及维护的代价 设计存储结构设计索引策略设计索引策略 七 数据仓库物理模型设计 DW物理模型的优化在计算机中存储器和计算机间的传输速度比计算机的运算速度慢很多 计算机内部的运算速度以毫微秒为计算级 而数据的传输速度是以毫秒为计算级 因此 物理模型是影响DW性能的主要因素 常见的几种DW物理模型的优化方法 依据DW数据量大但操作单一的特点 可以通过以下几个方面改善物理数据模型的设计 1 合并表2 引入冗余 反范式 3 建立数据序列4 表的物理分割5 生成导出数据6 建立广义索引 八 建立DW需要考虑的因素 DW OLDP DMDSS的可行性方案 DW 一种把相关的各种数据转换成有商业价值的信息的技术数据挖掘和D
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年能源行业清洁能源技术应用前景展望研究报告
- 2025广东潮州市卫生健康局直属医疗机构招聘卫生专业技术人员74人笔试备考题库及答案解析
- 2026中国移动通信集团山西有限公司校园招聘笔试参考题库附答案解析
- 2025年及未来5年中国电热液体蚊香行业发展趋势预测及投资战略研究报告
- 2025年及未来5年中国婴童食品行业投资研究分析及发展前景预测报告
- 2025年及未来5年中国美容化妆品行业市场全景评估及发展战略规划报告
- 2025年国网综合能源服务集团有限公司招聘高校毕业生6人(第二批)笔试题库历年考点版附带答案详解
- 2025年及未来5年中国IPTV商业模式行业深度分析及投资规划研究建议报告
- 2025年及未来5年中国混空轻烃燃气行业投资分析及发展战略咨询报告
- 2025年及未来5年中国重庆摩托车行业发展前景预测及投资策略研究报告
- (正式版)JBT 14449-2024 起重机械焊接工艺评定
- 胚胎移植术后的健康教育
- 《怎样当好班主任》课件
- 大学美育(第二版) 课件 第六单元:乐舞的交融:舞蹈艺术
- 德化县高内坑生活垃圾填埋场陈腐垃圾开挖处置项目环评报告书
- 高考语文图文转换练习题答案+专项练习含答案
- PBT老托福语法全解析【TOEFL语法大全】
- 初中历史-《美国内战》教学课件设计
- 评论碎片化阅读(编辑综合)
- GB/T 24983-2010船用环保阻燃地毯
- GB/T 18029.14-2012轮椅车第14部分:电动轮椅车和电动代步车动力和控制系统要求和测试方法
评论
0/150
提交评论