




已阅读5页,还剩52页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第1讲数据仓库概述 2 数据仓库概述 1 1数据仓库产生的原因1 2数据仓库的基本概念1 3数据仓库的体系结构 3 数据仓库概述 1 1数据仓库产生的原因1 1 1操作型数据处理1 1 2分析型数据处理1 1 3两种数据处理模式的差异1 1 4数据库系统的局限性 4 1 1数据仓库产生的原因 两者有何不同 数据库 存放数据的地方 数据仓库 存放数据的地方 5 1 1数据仓库产生的原因 两者有何不同 数据库 存放数据的地方 数据仓库 存放数据的地方 6 1 1数据仓库产生的原因 两者有何不同 数据库 存放数据的地方 数据仓库 存放数据的地方 7 1 1数据仓库产生的原因 8 1 1数据仓库产生的原因 9 1 1数据仓库产生的原因 两者有何不同 数据库 存放数据的地方 数据仓库 存放数据的地方 10 1 1数据仓库产生的原因 数据处理的类型操作型处理 OLTP 数据的收集 整理 存储 查询和增 删 改操作 分析型处理 OLAP 数据的再加工 往往要访问大量的历史数据 进行复杂的统计分析 11 1 1 1操作型数据处理 是数据库系统的主要应用特点 数据存取频率高 响应时间要快 存取数据量小 数据存储正确可靠 系统基本架构 12 1 1 1操作型数据处理 为了有效地对事务进行处理 数据库管理系统在技术和管理上采取了很多措施 提出了事务的概念采用日志 备份等恢复技术和并发控制技术采用索引技术快速定位数据 13 1 1 1操作型数据处理 在数据库设计中广泛采用了规范化理论 消除表中属性间的部分函数依赖和传递函数依赖 消除了数据的冗余 缩短了数据处理时间 14 1 1 2分析型数据处理 典型的分析型应用就是决策支持系统 需要具备的基本功能是 建立各种数学模型 对数据统计分析 得出有用的信息作为决策的依据 15 1 1 2分析型数据处理 常规应用实例 某产品的销售经理希望通过调整该产品在各零售店的分配数量来扩大其销售量 需要查询历史数据库中各类零售店最近若干年 例如5年 内每天的销售记录 统计运算计算出近5年来各店的年度销售量 比较确定销售量增长较快的零售店 16 1 1 2分析型数据处理 决策支持系统 需要花数小时甚至更长时间的处理 需要遍历数据库中的大部分数据 进行复杂的计算 需要消耗大量的系统资源 17 1 1 3两者数据处理模式的差别 18 1 1 4数据库系统的局限 传统的数据库系统在操作型数据处理应用中取得了巨大的成功 将其应用到分析型数据处理方面却无能为力 19 1 1 4数据库系统的局限 信息系统建设的阶段性和分布性的特点 导致 信息孤岛 的存在 20 1 1 4数据库系统的局限 21 1 1 4数据库系统的局限 续 1 数据的分散联机事务处理系统一般只需要与本部门业务相关的当前数据 企业内部各应用之间实际上几乎都是独立的 22 2 蜘蛛网 问题解决数据分散的一种方法就是对数据进行集成抽取程序带来了 蜘蛛网 问题 即需要在抽取的数据中再次抽取 将导致企业数据之间形成错综复杂的网状结构 1 1 4数据库系统的局限 23 3 数据不一致问题由于数据分散 导致多个应用间的数据不一致 同一字段在不同应用中具有不同的数据类型同一字段在不同应用中具有不同的名字字段名字相同 但含义不同 1 1 4数据库系统的局限 24 4 数据动态集成问题数据集成开销很大 一些应用仅在开始时对进行集成 以后一直以这部分集成数据作为分析基础 称为静态集成 导致决策者使用过时数据 如果希望能够用上最新数据 每次分析之前都进行数据集成 称为动态集成 联机事务处理系统不具备动态集成能力 1 1 4数据库系统的局限 25 5 历史数据问题联机事务处理一般只需要当前数据 数据库适于存储高度结构化的日常事务细节数据 决策型数据多为历史性 汇总性或计算性数据 1 1 4数据库系统的局限 26 6 数据的综合问题联机事务处理系统中积累了大量的细节数据 决策支持系统并不对细节数据进行分析 决策分析环境中 细节数据量太大一方面会严重影响分析效率 另一方面这些细节数据会分散决策者的注意力 因此分析前 需要对细节数据进行不同程度的综合 1 1 4数据库系统的局限 27 结论要提高分析和决策的效率和有效性 必须把分析数据从事务处理环境中提取出来 按照决策支持系统处理的需要进行重新组织 建立单独的分析型处理环境 数据仓库正是为了构建这种新的分析型处理环境而出现的一种数据存储和组织技术 1 1 4数据库系统的局限 28 数据仓库概述 1 1数据仓库产生的原因1 2数据仓库的基本概念1 3数据仓库的体系结构 29 数据仓库 一词最早是在1990年 由BillInmon提出的 数据仓库的四个基本特征 数据仓库的数据是面向主题的 SubjectOriented 数据仓库的数据时集成的 Integrate 数据仓库的数据不可更新 Non Volatile 数据仓库的数据时随时间不断变化 TimeVariant 的 1 2数据仓库的基本概念 30 数据仓库就是一个面向主题的 集成的 不可更新的 随时间不断变化的数据集合 通常用于企业的决策支持 1 2数据仓库的基本概念 31 主题 是一个抽象的概念 是在较高层次上将企业信息系统中的数据综合 归类并进行分析利用的抽象 在逻辑上 它对应于企业中某一宏观分析领域所涉及的分析对象 面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整 一致的描述 1 2 1面向主题 32 传统的面向应用的数据组织方式围绕相关的组织 部门进行详细调查 收集数据库的基础数据及其处理过程 掌握企业内数据的动态特征 数据流图 面向主题的数据组织方式抽取主题确定每个主题所应包含的数据内容 1 2 1面向主题 33 采购子系统 订单 订单号 供应商号 总金额 日期 订单细则 订单号 商品号 类别 单价 数量 供应商 供应商号 供应商名 地址 电话 销售子系统 顾客 顾客号 姓名 性别 年龄 文化程度 地址 电话 销售 员工号 顾客号 商品号 数量 单价 日期 1 2 1面向主题 34 人事管理子系统 员工 员工号 姓名 性别 年龄 文化程度 部门号 部门 部门号 部门名称 部门主管 电话 库存管理子系统 领料单 领料单号 领料人 商品号 数量 日期 进料单 进料单号 订单号 进料人 收料人 日期 库存 商品号 库房号 库存量 日期 库房 库房号 仓库管理员 地点 库存商品描述 1 2 1面向主题 35 传统的面向应用进行数据组织方式的特征为 重点在 数据 和 处理 所生成的各项数据库模式与企业实际的业务处理流程中所涉及的单据及文档 有很好的对应关系 并没有真正体现数据与数据处理的分离 1 2 1面向主题 36 面向应用到面向主题的转变 面向主题的数据组织方式应分为两个步骤 抽取主题 确定每个主题所包含的数据内容仍以商场为例 它所应有的主题包括 商品 供应商 顾客 每个主题有各自独立的逻辑内涵 对应一个分析对象 1 2 1面向主题 37 商品 商品固有信息 商品号 商品名 类别 颜色等商品采购信息 商品号 供应商号 供应价 供应日期 供应量等商品销售信息 商品号 顾客号 售价 销售日期 销售量等商品库存信息 商品号 库房号 库存量 日期等 1 2 1面向主题 38 供应商 供应商固有信息 供应商号 供应商名 地址 电话等 供应商品信息 供应商号 供应价 供应日期 供应量等 顾客 顾客固有信息 顾客号 顾客名 性别 年龄 文化程度 住址顾客购物信息 顾客号 商品号 售价 购买日期 购买量等 1 2 1面向主题 39 从面向应用 面向主题 丢弃了原来不必要 不适合分析的信息 将分散在各子系统中的有关主题的信息集成 形成关于商品的一致信息 不同主题之间也有重叠的内容 但只是逻辑上的重叠 细节级上的重叠 另外主题间并不是两两重叠 1 2 1面向主题 40 主题的实现 一个主题可划分成多个表 基于一个主题的所有表都有一个公共码 作为主码的一部分 将各表统一起来 体现它们是属于一个主题 例如实现商品主题 1 2 1面向主题 41 主题 商品公共码键 商品号 商品表 商品号 商品名 类型 颜色 采购表1 商品号 供应商号 供应日期 供应价 采购表2 商品号 时间段 采购总量 采购表n 商品号 时间段 采购总量 描述的是商品的固有信息 描述的是商品的采购细节信息 时间段不等的采购综合表 1 2 1面向主题 42 销售表1 商品号 顾客号 销售日期 售价 销售量 销售表2 商品号 时间段 销售总量 销售表n 商品号 时间段 销售总量 库存表1 商品号 库房号 库存量 日期 库存表2 商品号 库房号 库存量 月份 库存表n 1 2 1面向主题 43 面向主题的数据组织方式 根据分析要求将数据组织成主题域 即要具有 独立性 可交叉 但必须具有独立内涵 完备性 能在主题内找到该分析处理所要求的一切内容 1 2 1面向主题 44 2 数据仓库的数据是集成的通常 构造数据仓库是将多个异种数据源 如关系DB 一般文件和联机事务处理记录 集成在一起 使用数据清理和数据集成技术 确保命名约定 编码结构 属性度量等的一致性 主要做两个工作 1 2 2数据仓库的其它三个特征 45 3 数据仓库的数据是稳定的数据仓库主要供企业决策分析使用 包括大量历史数据 数据经集成进入DW后极少或根本不更新 所以通常它只需要两种数据访问 数据的初始装入 数据访问因此数据仓库不需要事务处理 恢复和并发控制机制 1 2 2数据仓库的其它三个特征 46 4 数据仓库的数据是不同时间的数据集合数据仓库的数据不可更新是针对应用而言 它随时间而发生变化的特征体现在 数据仓库随时间变化不断增加新内容 数据仓库随时间变化不断删除旧内容 数据仓库随时间变化不断重新综合数据 数据仓库的关键结构都隐式或显式地包含时间元素 1 2 2数据仓库的其它三个特征 47 根据数据仓库的四个特征表明 数据仓库实际上是一种数据存储 它将各种异构数据源中的数据集成在一起 并保持其语义一致 从而为企业决策提供支持 1 2 3数据仓库的功能 48 数据仓库概述 1 1数据仓库产生的原因1 2数据仓库的基本概念1 3数据仓库的体系结构 49 1 3 1体系结构从数据仓库的概念结构看 数据仓库系统由 数据源 集成工具 数据仓库与数据仓库服务器 OLAP服务器 元数据与元数据管理工具 数据集市和前台分析工具等组成 1 3数据仓库的体系结构 50 1 3 1体系结构 51 源数据 是数据仓库系统的基础 是整个系统的数据源泉 集成工具 用于数据抽取 Extracting 清洗 Cleaning 转换 Transformation 加载 Load 的工具 简称ETL工具 数据仓库服务器 负责管理数据仓库中的数据 一般由关系数据库管理系统扩展而成 OLAP服务器 对分析所需要的数据按照多维数据模型进行再次组织 以支持用户多角度 多层次的数据分析 1 3 1体系结构 52 数据集市 是一种小型的数据仓库 是面向部门级的应用 因此也称之为部门级数据仓库 前台分析工具 主要包括各种数据分析工具 如报表工具 OLAP工具 数据挖掘工具等 元数据 是整个数据仓库的所有描述性信息 1 3 1体系结构 53 数据集市 DataMarts 为了特定目的 从数据仓库中独立出来的一部分数据 也称为部门级数据仓库 数据集市的产生 参见W H Inmon在其所著的 BuildingtheDataWarehouse 中提到的第1天到第n天现象 1 3 2数据集市 54 从属型数据集市
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 林木采伐工工艺技术规程
- 飞机桨叶桨根型修工物料编码识别考核试卷及答案
- 金属打火机制作工员工关系考核试卷及答案
- 锂盐田工安全生产月专项考核试卷及答案
- 金属材涂层机组操作工客户特殊要求传递考核试卷及答案
- 阀门装配调试工工作优先级判断考核试卷及答案
- 2025国家自然科学基金委员会公开选聘流动编制10人考前自测高频考点模拟试题及答案详解(夺冠系列)
- 井筒掘砌工岗位现场作业技术规程
- 热压延工岗位知识更新考核试卷及答案
- 凿岩台车司机岗位职业健康、安全、环保技术规程
- 临床医学职业生涯规划
- 钢结构大棚承揽合同范本
- 2025至2030年中国液态锂电池行业市场发展现状及投资潜力预测报告
- 机房设备维修服务项目投标方案(技术标)
- (2025年标准)个人薪酬协议书
- 搅拌车司机安全培训课件
- 2025年易制毒试题(含答案)
- 2025年医院药事管理自查报告及整改措施
- 工程地质学 第3版 课件 第3章 地质构造
- 2025标准建设银行贷款合同范本
- 2025年沥青搅拌站试题库(含答案)
评论
0/150
提交评论