




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库 概念 设计及应用 提纲 1 为什么要建立数据仓库2 数据仓库的概念及特性3 数据仓库的结构4 数据仓库的设计5 数据仓库的开发过程6 数据仓库的典型应用 事务处理环境不适宜DSS应用的原因 事务处理和分析处理的性能特性不同操作型处理对数据的存取操作频率高而每次操作处理的时间短 在分析处理环境中 某个DSS应用程序可能需要连续几个小时 从而消耗大量的系统资源 数据集成问题数据动态集成问题历史数据问题数据的综合问题 抽取程序 用抽取程序能将数据从高性能联机事务处理方式中转移出来 在需要总体分析数据时就与联机事务处理性能不发生冲突 用抽取程序能将数据从联机事务处理范围内移出时 数据的控制方式就发生了转变 蜘蛛网问题 数据缺乏可信性数据无时基数据算法上的差异抽取的多层次外部数据问题无起始的公共数据源生产率低根据全部数据生成企业报表定位数据需要浏览大量文件抽取程序很多 并且每个都是定制的 不得不克服很多技术上的障碍 数据转化为信息的不可行性数据没有集成化缺乏将数据转化为信息所需的历史数据 体系结构设计环境的层次 数据操作层只保存原始数据并且服务于高性能事务处理领域 数据仓库层存储不更新的原始数据 此外一些导出数据也在此存在 数据的部门层几乎只存放导出数据 在数据个体层中完成大多数启发式分析 操作层 原子 数据仓库层 部门层 个体层 数据仓库的概念 数据仓库是在企业管理和决策中面向主题的 集成的 与时间相关的 不可修改的数据集合 WilliamH Inmon 与其他数据库应用不同的是 数据仓库更像一种过程 对分布在企业内部各处的业务数据的整合 加工和分析的过程 数据仓库的特性 面向主题典型的主题领域 客户 产品 交易 帐目集成的数据提取 净化 转换 装载非易失的数据仓库的数据通常是一起载入和访问的 但并不进行一般意义上的数据更新随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限 5 10年 数据仓库中的数据是一系列某一时刻生成的复杂的快照 数据仓库的键码结构总是包含某时间元素 数据仓库的结构 早期细节级 当前细节级 轻度综合级数据集市 高度综合级 元数据 操作型转换 数据仓库设计中的几个重要概念 ETLETL Extract Transformation Load 用户从数据源抽取出所需的数据 经过数据清洗 转换 最终按照预先定义好的数据仓库模型 将数据加载到数据仓库中去 元数据关于数据的数据 指在数据仓库建设过程中所产生的有关数据源定义 目标定义 转换规则等相关的关键数据 同时元数据还包含关于数据含义的商业信息 粒度数据仓库的数据单位中保存数据的细化或综合程度的级别 细化程度越高 粒度级就越小 相反 细化程度越低 粒度级就越大 分割结构相同的数据被分成多个数据物理单元 任何给定的数据单元属于且仅属于一个分割 典型的元数据包括 数据仓库表的结构数据仓库表的属性数据仓库的源数据 记录系统 从记录系统到数据仓库的映射数据模型的规格说明抽取日志访问数据的公用例行程序 数据仓库设计中的几个重要概念 续 DataMart数据集市 小型的 面向部门或工作组级数据仓库 OperationDataStore操作数据存储 ODS是能支持企业日常的全局应用的数据集合 是不同于DB的一种新的数据环境 是DW扩展后得到的一个混合形式 四个基本特点 面向主题的 Subject Oriented 集成的 可变的 当前或接近当前的 datamodel数据模型 1 逻辑数据结构 包括由DBMS为有效进行数据库处理提供的操作和约束 2 用于表示数据的系统 例如 ERD或关系型模型 artifact人工关系 在DSS环境中用于表示参照完整性的一种设计技术 企业数据模型到数据仓库数据模型的转换 除去纯粹用于操作型环境的数据在企业键码结构中增加时间元素增加导出数据创建人工关系 数据模型的规范化 反规范化 为了减少程序在表中的跳转 节省I O 需将多个相关的表合并 引入冗余数据 当访问概率有很大悬殊时 要对数据做进一步分离 在物理数据库的设计中引入导出数据可以减少I O 建立所谓的 创造的 索引或创造的简要记录 如卷中的前十名顾客是 从操作型的现存系统到数据仓库中数据转换工作的难点 现有系统缺乏数据集成 跨越不同应用的数据集成性很差存取现存系统的效率 扫描已有文件成了数据仓库体系结构设计者主要面对的问题时基的变化数据要浓缩 概念 数据周期 简要记录 数据周期 是指从操作型数据发生改变起 到这个变化反映到数据仓库中所用的时间 从操作型环境知道数据的改变到这个变化反映到数据仓库中至少应该经历24小时 简要记录 或聚集记录 是把不同操作型数据的详细信息聚集在一个记录中而形成的记录 好处 减少数据量 为用户的访问和分析提供了一种紧凑的方便的数据组织形式 缺点 信息的详细程度将会降低 数据仓库的建模 数据模型所有的实体都是平等关系 仅仅从数据模型的角度来着手设计数据仓库会产生一种 平面 效应 星型连接事实表 位于星型连接的中央 它是被大量载入数据的实体 维表 周围的其它实体 在很多情况下 文本数据与数值数据是分离开的 通过数据预连接和建立有选择的数据冗余 设计者为访问和分析过程大大简化了数据 星型连接应用于设计数据仓库中很大的实体 而数据模型则应用于数据仓库中较小的实体 数据建模的十条戒律 必须回答紧迫的问题 必须有正确的事实表 将有正确的维表 描述必须按最终用户的业务术语表达 必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程 对于事实表 应该有正确的 粒度 根据需要存储正确长度的公司历史数据 以一种对于公司有意义的方式来集成所有必要的数据 创建必要的总结表 创建必要的索引 能够加载数据仓库数据库并使它以一种适宜的方式可用 数据集市 外部数据 用自顶向下的方法构建数据仓库 数据集市 建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性 操作数据 问题投资效益的时间 建设中心数据模型的必要性和可能性 初始费用 用自底向上的方法构建数据仓库 数据集市 建立部门数据集市限制在一个主题区域快速投资收益区域自治 设计的可伸缩性强对相关部门的应用容易复制对每个数据集市需要数据重构存在一定的冗余及不一直性逐步扩展到企业数据仓库 EDW 把建造EDW作为一个长期的目标 存在的问题 数据集市的数据都是可用的吗 能生成数据模型吗 如何解决不一致性 操作数据 局部 数据集市 企业数据仓库 数据仓库的开发过程 建立或获得企业的数据模型 定义记录系统 设计数据仓库并按主题领域进行组织 设计和建立操作型环境中的记录系统和数据仓库之间的接口 这些接口能保证数据仓库的载入工作能有序的进行 开始载入第一个主题领域 进入载入和反馈过程 数据仓库中的数据在此过程中也在不断地改变 数据模型的内容 标识主要主题领域 各个主要主题之间的各种关系 清晰地定义模型的边界 把原始数据和导出数据分离 每个主题领域需要标识键码属性属性分组之间的关系多重出现的数据数据的类型 表达数据模型的最好数据 最实时最准确最完备与外部数据源最近最具结构兼容性定义记录系统就是找出现存系统所具有的最好的数据 将数据模型变为数据仓库要做的主要工作 如果原先没有时间元素的话 时间元素必须加入到键码结构中必须清除所有的纯操作型数据需要将参照完整性关系转换成 人工关系 将经常需要用到的到处数据假如到设计中对数据的结构进行调整增加数据阵列增加数据冗余在合适的情况下进一步分离数据在合适的时候合并数据表需要做数据的稳定性分析 在接口中需完成的工作 数据抽取对来自操作型 面向应用型环境的数据的集成数据时基的变更数据压缩对现存系统环境的有效扫描 数据仓库开发成功的关键 关键 是数据体系结构设计者和DSS分析者之间的反馈循环 有几点观察结果对数据仓库环境的成功建立是至关重要的问题 DSS分析人员一定要严格遵循 给我我所要的东西 然后我能告诉你我真正需要的东西 的工作模式 反馈循环的周期越短 越有可能成功 需要调整的数据量越大 反馈循环所需要的周期就越长 数据仓库的应用 在证券业的应用 可处理客户分析 帐户分析 证券交易数据分析 非资金交易分析等多个业界关心的主题 为客户提供针对其个人习惯 投资组合的投资建议 从而真正作到对客户的贴心服务 在银行领域的应用 防范银行的经营风险 实现科学管理以及进行决策 在税务领域的应用 可以解决三个方面的问题 一是查出应税未报者和瞒税漏税者 并对其进行跟踪 二是对不同行业 产品和市场中纳税人的行为特性进行描述 找出普遍规律 谋求因势利导的税务征稽策略 三是对不同行业 产品和市场应收税款进行预测 制
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届浙江省上虞市实验中学英语九上期末学业水平测试模拟试题含解析
- 2026届广东省深圳实验学校化学九年级第一学期期中统考试题含解析
- 奶粉知识测试题及答案
- 滨州地理常识考试题及答案
- 词知识竞赛试题及答案
- 安全风险辨识培训总结课件
- 讲礼貌的小海星课件
- 2025年事业岗试题及答案
- 2026届内蒙古包头市名校化学九上期中学业质量监测模拟试题含解析
- 2025年面包烘焙培训考试题及答案
- 财务决策实训课件
- 现代信号处理课件
- 第三章平面机构的结构分析
- 狂犬病健康宣教课件
- 20道云南白药销售代表岗位常见面试问题含HR常问问题考察点及参考回答
- 一年级《道德与法治》教材分析
- 基于生态旅游的广西兴业鹿峰山景区旅游开发研究
- 公路隧道病害产生机理及防治对策
- TCSAE 273-2022 轮胎瞬态复合滑移特性通用试验方法
- 我的家乡石阡
- 全国安全生产月安全知识竞赛700题及答案
评论
0/150
提交评论