




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第2章数据仓库原理 2 2 1数据仓库结构体系2 2数据仓库的数据模型2 3数据抽取 转换和装载2 4元数据 3 2 1数据仓库结构体系 2 1 1数据仓库结构2 1 2数据集市及其结构2 1 3数据仓库系统结构2 1 4数据仓库运行结构 4 近期基本数据 是最近时期的业务数据 是数据仓库用户最感兴趣的部分 数据量大 历史基本数据 近期基本数据随时间的推移 由数据仓库的时间控制机制转为历史基本数据 轻度综合数据 是从近期基本数据中提取出的 这层数据是按时间段选取 或者按数据属性 attributes 和内容 contents 进行综合 高度综合数据层 这一层的数据是在轻度综合数据基础上的再一次综合 是一种准决策数据 2 1 1数据仓库结构 6 数据粒度 定义粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别 细化程度越高 粒度级就越小 相反 细化程度越低 粒度级就越大 粒度深深地影响存放在数据仓库中数据量的大小 同时影响数据仓库所能回答的查询类型 在数据仓库中的数据粒度与查询的详细程度之间要做出权衡 当提高粒度级别时 数据所能回答查询的能力会随之降低 换言之 在一个很低的粒度级别上 几乎可以回答任何问题 但在高粒度级别上 数据所能处理的问题的数量是有限的 7 左图是一个低粒度级 每个活动 在这里是一次电话 被详细记录下来 数据的格式如图所示 到月底每个顾客平均有200条记录 全月中每个电话都记录一次 因而总共需要40000个字节 右图的边是一个高粒度级 数据代表一位顾客一个月的综合信息 每位顾客一个月只有一个记录 这样的记录大约只需200个字节 8 问题 上星期某某顾客是否给某某人打了电话 在低粒度级别上 完全可以回答这一问题 虽然这种回答将花费大量资源去查询大量的记录 但是问题结果是可以确定的 在高粒度级别上 则无法明确地回答这个问题 假如在数据仓库中存放的只是所打电话的总数 那么就无法确定其中是否有一个电话是打给某人的 9 1 数据集市的产生数据仓库工作范围和成本常常是巨大的 开发数据仓库是代价很高 时间较长的大项目 提供更紧密集成的数据集市就应运产生 目前 全世界对数据仓库总投资的一半以上均集中在数据集市上 2 1 2数据集市及其结构 10 数据集市 DataMarts 是一种更小 更集中的数据仓库 为公司提供分析商业数据的一条廉价途径 DataMarts是指具有特定应用的数据仓库 主要针对某个应用或者具体部门级的应用 支持用户获得竞争优势或者找到进入新市场的具体解决方案 2 数据集市概念 11 3 数据集市与数据仓库差别 1 数据仓库是基于整个企业的数据模型建立的 它面向企业范围内的主题 而数据集市是按照某一特定部门的数据模型建立的 2 部门的主题与企业的主题之间可能存在关联 也可能不存在关联 3 数据集市的数据组织一般采用星型模型 大型数据仓库的数据组织 如NCR公司采用第三范式 12 1 规模是小的2 特定的应用3 面向部门4 由业务部门定义 设计和开发5 由业务部门管理和维护6 快速实现7 购买较便宜8 投资快速回收9 更详细的 预先存在的数据仓库的摘要子集10 可升级到完整的数据仓库 4 数据集市的特性 13 独立数据集市 IndependentDataMart 从属数据集市 DependentDataMart 14 数据仓库系统由数据仓库 DW 仓库管理和分析工具三部分组成 2 1 2数据仓库系统结构 15 1 仓库管理 1 数据建模数据建模是建立数据仓库的数据模型 数据仓库的数据模型不同于数据库的数据模型在于 数据仓库只为决策分析用 不包含事务处理的数据 数据仓库的增加了时间属性数据 数据仓库增加了一些综合数据 数据仓库的数据建模是适应决策用户使用的逻辑数据模型 16 2 数据抽取 转换 装载 数据仓库中的数据 是通过在源数据中抽取数据 按数据仓库的逻辑数据模型的要求进行数据转换 再按物理数据模型的要求装载到数据仓库中去 数据抽取 转换 装载 ETL 是建立数据仓库的重要步骤 需要花费开发数据仓库70 的工作量 17 1 查询工具数据仓库的查询不是指对记录级数据的查询 而是指对分析要求的查询 一般包含 可视化工具 以图形化方式展示数据 可以帮助了解数据的结构 关系以及动态性 2 分析工具 18 2 多维分析工具 OLAP工具 通过对信息的多种可能的观察形式进行快速 一致和交互性的存取 这样便利用户对数据进行深入的分析和观察 多维数据的每一维代表对数据的一个特定的观察视角 如时间 地域 业务等 3 数据挖掘工具从大量数据中挖掘具有规律性知识 需要利用数据挖掘 DataMining 工具 19 2 1 4数据仓库的运行结构 数据仓库应用是一个典型的客户 服务器 C S 结构形式 客户端所做的工作 客户交互 格式化查询 结果显示 报表生成等 服务器端完成各种辅助决策的SQL查询 复杂的计算和各类综合功能等 20 OLAP服务器将加强和规范化决策支持的服务工作 集中和简化了原客户端和数据仓库服务器的部分工作 降低了系统数据传输量 这种结构形式工作效率更高 OLAP的三层C S结构 21 数据仓库存储采用多维数据模型 2 2数据仓库的数据模型 果汁 可乐 牛奶 商品维 奶油 浴巾 香皂 北京 上海 长沙 1234567 城市维 日期维 22 数据模型 数据模型是对现实世界的一种抽象 根据抽象程度的不同 可形成不同抽象层次上的数据模型 与数据库的数据模型相类似 数据仓库的数据模型也分为三个层次 概念模型逻辑模型物理模型 23 概念模型客观世界到计算机系统的一个中间层次 它最常用的表示方法是E R法 实体 关系 目前 数据仓库一般是建立在关系型数据库的基础之上 所以其概念模型与一般关系型数据库采用的概念模型相一致 数据模型 24 逻辑模型指数据的逻辑结构 如多维模型 关系模型 层次模型等 数据仓库的逻辑模型描述了数据仓库的主题的逻辑实现 即每个主题对应的模式定义 物理模型是逻辑模型的具体实现 如物理存取方式 数据存储结构 数据存放位置以及存储分配等 在设计数据仓库的物理模型时 需要考虑一些提高性能的技术 如表分区 建立索引等 数据模型 25 目前 对数据仓库模型的讨论大多集中在逻辑模型 其中最常用的是多维模型 维 人们观察数据的特定角度 是相同类数据的集合 例如 企业常常关心不同销售数据随时间的变化情况 所以时间就是一个维 商店 产品都是维 维的层次人们观察数据的某个特定角度还可以存在细节程度不同的多个描述 这就是维的层次 一个维往往有多个层次 比如描述时间维时 可以从年份 季度 月份 天等不同层次来描述 那么年份 季度 月份和天就是时间维的层次 数据模型 26 维成员维的一个取值称为该维的一个成员 如果一个维是多层次的 那么该维的成员就是在不同层次取值的组合 例如时间维分为年 月和天三个层次则分别在其上各取一个值组合起来即得到日期维的一个成员 即 某年某月某日 度量描述了要分析的数值 例如话费 用户数量等 27 数据仓库的数据模型星型结构雪花型结构星型雪花型结构数据仓库的数据 事实数据 维度数据不论是星型 雪花型或者是星型雪花型结构都是以事实表为中心 不同点只是在外围维度表相互之间的关系不同而已 28 大多数的数据仓库都采用 星型模型 星型模型是由 事实表 大表 以及多个 维表 小表 所组成 星型架构的维度表只会与事实表生成关系 维度表与维度表之间并不会生成任何的关系 事实表 中存放大量关于企业的事实数据 数量数据 例如 多个时期的数据可能会出现在同一个 事实表 中 维表 中存放描述性数据 维表是围绕事实表建立的较小的表 星型模型数据如下图 2 2 1星型模型 29 星型模型数据存储情况示意图 31 2 2 2雪花模型雪花模型对星型模型的维表进一步层次化 原来的各维表可能被扩展为小的事实表 形成一些局部的 层次 区域 在上面星型模型的数据中 对 产品表 日期表 地区表 进行扩展形成雪花模型数据见下图 2 2 3星网模型星网模型是将多个星型模型连接起来形成网状结构 多个星型模型通过相同的维 如时间维 连接多个事实表 32 地区键 事务键 用户键 时间键 状态键 时间键用户键事务键地区键电话费用 时间键用户键状态键电话余额 电话公司星网模型实例 34 2 2 4第三范式 数据仓库可以按第三范式进行逻辑数据建模 它不同于星型模型在于 把事实表和维表的属性都集中在同一数据库中 按第三范式组织数据 它减少了维表中的键和不必要的属性 著名的NCR数据仓库公司采用了第三范式的逻辑数据模型 35 星型模型在进行多维数据分析时 速度是很快的 但是增加维度将是很困难的事情 第三范式对于海量数据 如TB级 且需要处理大量的动态业务分析时 就显示了它的优势 36 2 3数据抽取 转换和装载 数据仓库的数据来源于多个数据源 主要是企业内部数据 存档的历史数据 企业的外部数据 这些数据源可能是在不同的硬件平台上 使用不同的操作系统 源数据是以不同的格式存放在不同的数据库中 数据仓库需要将这些源数据经过抽取 转换和装载的过程 存储到数据仓库的数据模型中 可以说 数据仓库的数据获取需要经过抽取 Extraction 转换 Transform 装载 Load 三个过程即ETL过程 在打造一个数据仓库的过程中 ETL的实施是一项繁琐 冗长而艰巨的任务 因为它关系到数据仓库中数据的质量问题 如果导入的数据漏洞百出 对决策者来说无疑是个噩耗 ETL过程是搭建 数据仓库 时最重要的和最易误解的步骤之一 37 ETL过程不仅仅是数据的迁移 Migration 或净化 Cleansing 也应该是企业数据管理策略中不可缺少的一部分 ETL过程的功能是 发现数据仓库需要的数据 将其从源系统中抽取出来 并进行一定的处理 然后装载到数据仓库中去 38 2 3 1数据抽取 1 确认数据源 2 数据抽取技术 39 1 确认数据源 列出对事实表的每一个数据项和事实列出每一个维度属性对于每个目标数据项 找出源数据项一个数据元素有多个来源 选择最好的来源确认一个目标字段的多个源字段 建立合并规则确认一个目标字段的多个源字段 建立分离规则确定默认值检查缺失值的源数据 40 2 数据抽取技术 当前值 源系统中存储的数据都代表了当前时刻的值 当商业交易时 这些数据是会发生变化的 周期性的状态 这类数据存储的是每次发生变化时的状态 例如 对于每一保险索赔 都经过索赔开始 确认 评估和解决等步骤 都要考虑有时间说明 41 2 3 2数据转换 1 数据转换的基本功能2 数据转换类型3 数据整合和合并4 如何实施转换 42 1 数据转换的基本功能 选择 从源系统中选择整个记录或者部分记录 分离 合并 对源系统中的数据进行分离操作或者合并操作 转化 对源系统进行标准化和可理解化 汇总 将最低粒度数据进行汇总 清晰 对单个字段数据进行重新分配和简化 43 2 数据转换类型 1 格式修正 2 字段的解码 3 计算值和导出值 4 单个字段的分离 5 信息的合并 6 特征集合转化 7 度量单位的转化 8 关键字重新构造 9 汇总 10 日期 时间转化 44 3 数据整合和合并 数据整合和合并是将相关的源数据组合成一致的数据结构 装入数据仓库 1 实体识别问题数据来源于多个不同的客户系统 对相同客户可能分别有不同的键码 将它们组合成一条单独的记录 2 多数据源相同属性不同值的问题不同系统中得到的值存在一些差别 需要给出合理的值 45 4 如何实施转换 自己编写程序实现数据转换使用转换工具 46 2 3 3数据装载 1 数据装载方式 2 数据装载类型 47 1 数据装载方式 基本装载按照装载的目标表 将转换过的数据输入到目标表中去 追加如果目标表中已经存在数据 追加过程在保存已有数据的基础上增加输入数据 破坏性合并用新输入数据更新目标记录数据 建设性合并保留已有的记录 增加输入的记录 并标记为旧记录的替代 48 2 数据装载类型 最初装载这是第一次对整个数据仓库进行装载 增量装载由于源系统的变化 数据仓库需要装载变化的数据 完全刷新这种类型的数据装载用于周期性重写数据仓库 49 2 3 4ETL工具 有3类ETL工具 1 数据转换引擎2 代码生成器3 通过复制捕获数据 50 2 4元数据 2 4 1元数据的重要性2 4 2关于数据源的元数据2 4 3关于数据模型的元数据2 4 4关于数据仓库映射的元数据2 4 5关于数据仓库使用的元数据 51 2 4 1元数据的重要性 最基本的元数据相当于数据库系统中的数据字典 元数据定义了数据仓库有什么 指明了数据仓库中数据的内容和位置 刻画了数据的抽取和转换规则 存储了与数据仓库主题有关的各种商业信息 而且整个数据仓库的运行都是基于元数据的 52 这类元数据是对不同平台上的数据源的物理结构和含义的描述 具体为 1 数据源中所有物理 存储 数据结构 包括所有的数据项及数据类型 2 所有数据项的业务定义 3 每个数据项更新的频率 以及由谁或那个过程更新的说明 4 每个数据项的有效值 2 4 2关于数据源的元数据 53 这组元数据描述了数据仓库中有什么数据以及数据之间的关系 它们是用户使用管理数据仓库的基础
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 入职心态培训课件
- 倪莉莉公务礼仪课件
- 伸缩缝施工培训课件
- 智慧树知道网课《宠物手术(黑龙江生物科技职业学院)》课后章节测试答案
- 2025土管所公务员面试题目及答案
- 企业班前安全培训记录课件
- 企业春运安全培训课件
- 罪犯记分考核管理办法
- 兰西辅警考试题库2025(有答案)
- 衡水金卷四省(四川云南)高三联考9月联考英语(含答案)
- 口腔设备学发展史
- 2025年广西专业技术人员继续教育公需科目(二)答案
- 外墙防水渗漏红外检测技术
- 监控系统维护方案
- 二手电车买卖合同范本
- 中介拍卖合同协议书范本
- 2025年云南红河州开发区投资建设集团有限公司招聘笔试参考题库含答案解析
- 法医物证课件法医植物学
- 第37届中国化学奥林匹克(初赛)试题及答案
- JJF 2223-2025氡子体测量仪校准规范
- 吧员礼仪礼节培训
评论
0/150
提交评论