




已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库和决策支持系统 主讲 鲁明羽 大连海事大学计算机科学与技术学院研究方向 智能数据分析与数据挖掘电话mail lumingyu 第4章数据仓库的基本原理 本章目标 随着信息技术的不断推广和应用 许多企业都已在使用MIS系统处理管理事务和日常业务 积累了大量信息企业管理者开始考虑如何利用这些海量信息为企业管理提供决策支持 因此 产生了与传统数据库有很大差异的数据环境要求和从这些海量数据中获取特殊知识的深层需求 这种需求加上计算机软硬件能力的飞速发展 导致了数据仓库和数据挖掘技术的出现 本章目标 本章目标是 了解数据仓库的定义和特点了解数据仓库的数据组织方式理解数据仓库的体系结构和参照结构了解数据仓库管理员的作用和常用工具集 目录 1数据仓库的起源2数据仓库的定义和特点3与数据仓库相关的几个概念4数据仓库的数据组织5数据仓库的体系结构6数据仓库的层次结构7数据仓库管理员8数据仓库常用工具集练习 1 数据仓库的起源 1 1数据库技术的发展60年代早期 利用文件系统 生成各种报告60年代中期 大量的文件使得维护和开发的复杂性提高 数据的同步亦成问题70年代早期 E F Codd提出关系数据模型和E R数据建模方法 数据库技术日趋成熟70年代中期 高性能的OLTP应用越来越广泛 1 数据仓库的起源 1 1数据库技术的发展80年代早期 OLTP MIS DSS 以IBM的 InformationWarehouse 为代表 提出了数据仓库的思想80年代中期 由于技术和实现费用的原因 数据仓库思想没有引起太多注意90年代 以W H Inmon为代表 数据仓库 DataWarehouse 迅速兴起 OLAP DM OLAM 1 数据仓库的起源 1 2从传统数据库到数据仓库随着市场竞争的加剧 信息系统的用户已经不满足于仅仅用计算机处理每天所发生的事务数据 而是需要利用信息辅助管理决策过程 这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术 而传统的数据库系统无法承担这一责任 主要表现在决策处理中的系统响应问题 决策数据需求问题和决策数据操作问题 等等 数据仓库与传统数据库的对比 PrismSolutions公司创始人之一的W H Inmon在 BuildingtheDataWarehouse 一书中对 数据仓库 DW 定义如下 数据仓库是一个面向主题的 集成的 随时间变化的 非易失性的数据集合 用于支持管理决策过程 2 数据仓库的定义和特点 这个定义本身就说明了数据仓库中数据的组织方式以及建立数据仓库的目的是什么 数据仓库特点 面向主题性数据集成性数据的时变性数据的非易失性数据的集合性支持决策作用 2 数据仓库的定义和特点 其中前4项是其主要特点 数据仓库中的数据是面向主题的 主题是数据归类的标准 每个主题对应一个客观分析领域 如客户和商店等 因此 数据仓库中的数据是按主题要求而组织的 业务应用主题领域 2 数据仓库的定义和特点 例如 对一个保险公司来说 它的业务应用系统可能有汽车保险 人寿保险 健康医疗保险及家庭财产保险等 而保险公司的主题领域可以是客户 保单 保费及索赔等 一个数据仓库可以包含若干个主题 而每个主题可以分解为若干个子主题 每个子主题又可进一步分解为更细的子主题 形成逐层分解的主题层次结构 2 数据仓库的定义和特点 2 数据仓库的定义和特点 数据仓库中的数据是集成的 为了实现辅助决策的目标和要求 数据仓库需要集成多个部门 不同系统的大量数据 需要集成的数据源既有关系数据库 也有文本数据库 面向对象数据库以及文件系统等 而且同一种数据模型集合体中又有不同的DBMS 因此 数据集成是一个复杂问题 不同数据源中的数据并不是全部转移到数据仓库中 而是运用多种转换规则 通过选择 合并 变换等方法转换为数据仓库中的集成数据 需要ETL模块支持 此外 数据源中可能存在数据重复 不一致和各种错误 因此 需要进行数据清洗 2 数据仓库的定义和特点 数据仓库中的数据是集成的 不同的应用在编码 命名 属性的度量等方面都有很大的差别 数据集成就是要解决这些问题 举例1 编码APPA M FM FAPPB 1 0APPC X YAPPD MALE FEMALE 2 数据仓库的定义和特点 举例2 命名APPA IDUser IDAPPB IdentityAPPC User IDAPPD Custom ID 2 数据仓库的定义和特点 2 数据仓库的定义和特点 数据仓库中的数据是稳定的 数据仓库包含大量的历史数据 经集成进入数据仓库后主要用于决策分析 查询类操作 而极少更新 可以将其理解为只读的 业务应用数据仓库插入更新删除插入访问查询加载以记录为单位的数据操作大量的数据加载和数据访问 2 数据仓库的定义和特点 数据仓库中的数据是随时间变化的 主要体现在数据的时限 数据的内容 数据的码健 业务应用数据仓库数据时限 1个月至1年数据时限 5到10年数据内容 记录更新数据内容 复杂的数据快照关键字结构 可能包含时间元素关键字结构 包含时间标记 2 数据仓库的定义和特点 数据仓库是为管理决策提供服务的 数据仓库主要应用在两个方面 使用浏览分析工具在数据仓库中寻找有用的信息 基于数据仓库 在数据仓库系统上建立应用 形成决策支持系统 事务处理分析处理从数据数据从数据信息 知识 OLTPOLAP DM OLAM DB DW 3 与数据仓库相关的几个概念 OLTP 联机事务处理 完成对数据的增 删 改等操作OLAP 联机分析处理 完成对数据的向上综合 向下细化 旋转 切片和分割 又称局部分析 等操作 OLAP以多维分析为基础 刻画了管理和决策过程中对数据进行多层面 多角度的分析处理 又分为MOLAP ROLAP 3 与数据仓库相关的几个概念 DM 数据挖掘 从大量数据中发现数据模式 预测趋势和行为 致力于知识的自动发现OLAM 联机分析挖掘 将OLAP与DM技术结合起来的一种技术DSS 决策支持系统 利用OLAP DM OLAM等技术为企业或政府的管理决策提供服务的系统 4 数据仓库的数据组织 数据仓库中的数据依据下面4个原则进行组织 面向主题采用关系表结构形式的数据模式在数据源和数据仓库之间建立转换规则数据按粒度分为若干个层次 4 数据仓库的数据组织 1 面向主题组织数据构建数据仓库的前提首先是确定数据仓库的主题 然后才能以主题为单位 组织满足主题目标与需求的数据 一个数据仓库一般有若干个主题 而每个主题又有一个数据集合体作为支撑 称为主题域 subjectfield 因此 一个数据仓库可以按主题划分为若干个主题域 主题域应具有 独立性 主题域有明确的边界和独立内涵 可以有交叉 但不影响其独立性 完备性 每个主题的分析要求所需要的数据均能在其主题域中获得 4 数据仓库的数据组织 2 按关系模式组织主题域数据仓库中的主题域按照传统的关系表形式进行组织 一个主题域往往由若干个关系表构成 而这些关系表中的数据来自于数据源 其中的属性按统计 汇总需求 可分为三种形式 静态的 即不可统计的 动态的 即可统计的 以及半动态的 即有时可统计的 在同一个主题域内的各个关系表之间 一般存在一定的联系 为此 需要建议一个主题域的公共码键 称为主题码 subjectkey 以关联主题域内各个关系表 4 数据仓库的数据组织 3 在数据源和数据仓库之间建立转换规则由于不同数据源中的数据并不是全部转移到数据仓库中 而是通过选择 合并 变换等方法 转换为数据仓库中的集成数据 因此 需要在数据源和数据仓库之间建立数据转换规则 这些数据转换规则形成了数据仓库管理系统中元数据 而ETL模块负责运用所建立的转换规则进行数据加载 4 数据仓库的数据组织 数据转换规则规定 数据源中的哪些数据进入数据仓库哪个数据域的哪些关系表中 在进入数据仓库之前 数据源中哪些数据需要合并为主题域中的哪项数据 在进入数据仓库之前 数据源中哪些数据需要进行何种变换 其它转换规定 4 数据仓库的数据组织 4 数据按粒度分为若干个层次综合与细化是数据仓库中的两种主要操作 为此 数据仓库中的数据需要划分为不同层次 而每个数据层次反映了数据综合的程度 称为粒度 一般地 数据仓库包含4个级别的数据 当前数据轻度综合数据高度综合数据历史数据 数据仓库从传统数据库或其它数据源获得原始数据 先按辅助决策的主题要求形成当前基本数据层 再按综合决策的要求形成综合数据层 又分为轻度综合层和高度综合层 随着时间的推移 由时间控制机制将当前基本数据层转为历史数据层 高度综合01 02年所有产品月销售数据轻度综合01 02年某产品周销售数据当前数据01 02年销售数据历史数据1980 2000销售数据数据仓库的逻辑结构 元数据 4 数据仓库的数据组织 4 数据按粒度分为若干个层次数据粒度越大 其综合度越高 细化程度越低 反之 数据粒度越小 其细节程度越大 综合度越低 上页的数据仓库数据层次划分是一种常见方式 在实际应用中 还可以进一步提升或降低 数据仓库的数据组织实例 业务背景 某个采用会员制的连锁超市的数据仓库现有系统现状 采购管理系统 销售管理系统 库存管理系统 人事管理系统现有系统的数据库结构 采购管理系统订单 订单号 供应商号 日期 总金额 订单明细 订单号 商品名 商品号 类别 单价 数量 供应商 供应商号 供应商名 地址 电话 数据仓库的数据组织实例 2 销售管理系统顾客 顾客号 姓名 性别 年龄 文化程度 地址 电话 销售 员工号 顾客号 商品号 数量 单价 金额 3 库存管理系统领料单 领料单号 领料人 商品号 数量 日期 进料单 进料单号 订单号 进料人 收料人 日期 库存 商品号 库房号 库存量 日期 库房 库房号 保管员 地点 库存商品描述 数据仓库的数据组织实例 4 人事管理系统员工 员工号 姓名 性别 年龄 文化程度 部门号 部门 部门号 部门名称 部门主管 电话 主题选择 商品 供应商 顾客主题域 分别对应三个主题 1 商品主题域P数据源 采购 销售和库存管理系统 数据仓库的数据组织实例 数据关系表 P1 商品固有信息 商品号 商品名 类别P2 商品采购信息 商品号 供应商号 供应价供货日期 供应量P3 商品销售信息 商品号 顾客号 售价销售日期 销售量P4 商品库存信息 商品号 库存号 库存量 日期主题码 商品号数据属性 P1 静态或半动态P2 P3 P4 动态 数据仓库的数据组织实例 2 供应商主题域S数据源 采购管理系统数据关系表 S1 供应商固有信息 供应商号 供应商名地址 电话S2 供应商品信息 供应商号 商品号 供应价供货日期 供应量主题码 供应商号数据属性 S1 静态或半动态S2 动态 数据仓库的数据组织实例 3 顾客主题域C数据源 销售管理系统数据关系表 C1 顾客固有信息 顾客号 顾客姓名 性别 年龄文化程度 地址 电话C2 顾客购物信息 顾客号 商品号 售价购买日期 购买量主题码 顾客号数据属性 C1 静态或半动态C2 动态 数据仓库的数据组织实例 按不同粒度组织数据 1 商品主题域1 商品采购信息单笔记录 存储与数据源中按日记录P2 1 商品号 年 月 日 采购总额按月记录P2 2 商品号 年 月 采购总额按年记录P2 3 商品号 年 采购总额 数据仓库的数据组织实例 按不同粒度组织数据 1 商品主题域2 商品销售信息单笔记录 存储与数据源中按日记录P3 1 商品号 年 月 日 销售总额按月记录P3 2 商品号 年 月 销售总额按年记录P3 3 商品号 年 销售总额 数据仓库的数据组织实例 按不同粒度组织数据 1 商品主题域3 商品库存信息单笔记录 存储与数据源中按日记录P4 1 商品号 年 月 日 库存总额按月记录P4 2 商品号 年 月 库存总额按年记录P4 3 商品号 年 库存总额 数据仓库的数据组织实例 按不同粒度组织数据 2 供应商主题域单笔记录 存储于数据源中按日记录S2 1 供应商号 年 月 日 供应总额按月记录S2 2 供应商号 年 月 供应总额按年记录S2 3 供应商号 年 供应总额 数据仓库的数据组织实例 按不同粒度组织数据 3 顾客主题域单笔记录 存储与数据源中按日记录C2 1 顾客号 年 月 日 购买总额按月记录C2 2 顾客号 年 月 购买总额按年记录C2 3 顾客号 年 购买总额 数据仓库的数据组织实例 数据仓库中的数据组织概况共有18个关系表 29个属性 其数据来自于4个管理系统 1 商品主题域P主题码 商品号关系表 P1P2 1 P2 2 P2 3P3 1 P3 2 P3 3P4 1 P4 2 P4 3 数据仓库的数据组织实例 2 供应商主题域S主题码 供应商号关系表 S1S2 1 S2 2 S2 3 3 顾客主题域C主题码 顾客号关系表 C1C2 1 C2 2 C2 3数据转换规则 见参考书 表3 3 5 数据仓库的体系结构 5 1数据仓库的概念结构从数据仓库的概念结构看 应该包含 数据源 数据准备区 数据仓库数据库 数据集市 知识挖掘库以及各种管理工具和应用工具 结果展现 结果展现 5 2数据仓库的虚拟结构虚拟数据仓库利用描述业务系统中数据位置和抽取数据算法的元数据 直接从业务系统中抽取查询的数据 进行概括 聚合操作后 将最终结果提供给用户 5 数据仓库的体系结构 5 3数据集市在为企业建立数据仓库时 开发人员必须针对所有的用户 从企业的全局出发 来对待企业需要的任何决策分析 这样建立数据仓库就成了一个代价高 时间长 风险大的项目 因此 更加紧凑集成 拥有完整应用工具 投资少 规模小的数据集市 DataMarket 就应运而生 5 数据仓库的体系结构 数据集市也称为面向应用的数据仓库 是一种更小 更集中的数据仓库 可以为企业提供分析商业数据的一条廉价途径 5 数据仓库的体系结构 数据集市是具有特定应用的数据仓库 主要针对某个具有战略意义的应用或具体部门级的应用 它支持客户利用已有的数据获得重要的竞争优势 或找到进入新市场的整体解决方案 5 数据仓库的体系结构 数据集市可通过两种方式构建 1 独立型数据集市 直接建立数据集市 2 依赖型数据集市 通过数据仓库的发布而形成 5 数据仓库的体系结构 数据集市的特点 规模小 面向部门 而不是整个企业面向特定的应用 不是满足企业所有的决策分析需求 主要由业务部门定义 设计和实现 可以由业务部门管理和维护 成本低 开发时间短 投资风险较小可以升级到企业完整的数据仓库 5 4单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构 数据源中数据被按照同一标准抽取到独立的数据仓库中 用户在使用时再根据主题将数据仓库中的数据发布到数据集市中 数据仓库查询管理服务器 业务系统数据库 数据仓库 数据集市1 数据集市2 5 数据仓库的体系结构 站点A站点B站点C站点D 全局数据仓库 局部数据仓库 局部数据仓库 局部数据仓库 局部数据仓库 总部 5 5分布式数据仓库结构在企业各个分公司具有相当大的独立性时 企业总部设置一个全局数据仓库 各个分公司设置各自的局部数据仓库 局部数据仓库主要存储各自的未经转换的细节数据 全局数据仓库中主要存储经过转换的综合数据 5 数据仓库的体系结构 6 数据仓库的层次结构 数据仓库的基本功能层包含 数据抽取 数据筛选 清洗 清洗后的数据加载 设立数据集市 完成数据仓库的查询 决策分析和知识的挖掘等操作 数据仓库的管理层 分为数据管理与元数据管理两部分 主要负责对数据仓库中的数据抽取 清理 加载 更新与刷新等操作进行管理 环境支持层 包含数据传输和数据仓库基础两部分 6 1数据仓库基本功能层 6 数据仓库的层次结构 数据源 主要包含业务数据 历史数据 办公数据 Web数据 外部数据以及数据源元数据 数据准备区 主要完成数据标准化处理 数据的过滤与匹配 数据的净化处理 标明数据的时间戳 确认数据质量与元数据抽取和创建等操作 6 数据仓库的层次结构 数据仓库 其功能结构部分由数据重整 数据仓库创建以及元数据管理等组成 数据集市 知识挖掘库 其功能结构与数据仓库的功能结构极为相似 数据仓库的数据存取与使用 主要为数据仓库的最终用户提供决策分析和挖掘知识功能 包含数据仓库的存取与检索 元数据管理以及数据仓库分析与报告 6 2数据仓库的管理层 数据抽取 新数据需求与查询管理主要负责完成从数据源中抽取数据的管理 6 数据仓库的层次结构 6 2 1数据仓库的数据管理层 数据加载 存储 刷新和更新负责对从数据源中所抽取的数据在完成筛选 净化处理以后 将这些数据加载 存储到数据仓库中 捕获数据源中的数据变化 用最新数据刷新数据仓库 根据用户的需求和数据仓库管理的要求 对数据仓库进行更新等工作 6 数据仓库的层次结构 安全性与用户授权管理主要负责数据仓库的安全管理工作 数据归档 恢复及净化主要负责定期对数据仓库中的数据进行归档 备份 净化系统则负责对从数据源所抽取的数据进行数据的筛选 数据标准的统一 数据内容的统一等各种求精 重整净化工作的管理 6 数据仓库的层次结构 6 2 2数据仓库的元数据管理层负责管理数据仓库所使用的元数据 其中包括 数据仓库 数据集市 知识挖掘库和词汇表管理元数据抽取 创建 存储和更新管理预定义的查询和报表以及索引管理刷新与复制管理 登录 归档 恢复与净化管理 6 数据仓库的层次结构 6 3数据仓库的环境支持层 数据传输和传送网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贵州金沙能源投资集团有限公司考前自测高频考点模拟试题及答案详解(名校卷)
- 2025年芜湖经开区招聘35人考前自测高频考点模拟试题及答案详解(网校专用)
- 2025年井冈山市人力资源服务有限公司面向社会公开招聘办证员笔试历年参考题库附带答案详解
- 浙江国企招聘2025嘉兴海宁市实业产业投资集团有限公司公开招聘综合及对象笔试历年参考题库附带答案详解
- 内江高新园区管理有限责任公司面向社会公开招聘工作人员笔试历年参考题库附带答案详解
- 2025年安徽建工医院第一批招聘95人模拟试卷及答案详解参考
- 2025贵州务川新型工业投资开发有限公司招聘笔试历年参考题库附带答案详解
- 2025西安瑞联新材料股份有限公司招聘笔试历年参考题库附带答案详解
- 2025第二季度辽宁盘锦客运公交集团社会招聘35名工作人员笔试历年参考题库附带答案详解
- 2025福建福州国有资本投资运营集团有限公司社会招聘6人笔试历年参考题库附带答案详解
- 多格列艾汀片-药品临床应用解读
- 图书馆外文图书分编工作细则
- 干漆膜(涂层)厚度检测报告
- 过氧化氢异丙苯安全技术说明书MSDS
- GB/T 3098.4-2000紧固件机械性能螺母细牙螺纹
- 【演练方案】特种设备事故(压力容器)应急预案
- 全新档案法专题学习讲座课件
- 六年级上册道德与法治课件第四单元第8课
- 量具使用知识培训课件
- 感动中国人物-于敏
- Q-RJ 557-2017 航天型号产品禁(限)用工艺目录(公开)
评论
0/150
提交评论