




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataWarehouseoverview 2 数据仓库管理的历史时期 人工管理方式 这一时期是在20世纪50年代中期以前 这一阶段的计算机应用主要用于科学计算 外存只有纸带 磁带 卡片等 数据处理的方式基本上是批处理 这一时期数据管理的特点是 数据不保存 没有专用的数据管理软件 每个应用都必须自己完成存储结构 存取方法 输入输入输出等数据管理功能 一组数据对应一个应用 这使得程序之间可能有重复的数据 文件系统管理这一阶段在20世纪50年代后期至60年代中后期 计算机应用开始用于信息管理 由于数据存储 检索和维护等需求 使得相应的研究开展起来了 在硬件和软件方面都得到了发展 磁盘磁鼓出现 操作系统也产生 这一时期数据管理的特点主要是 数据保存 数据可以长期保存在磁盘上 有操作系统的文件管理系统 文件结构化 数据的物理结构和逻辑结构有了区别 有了存储文件后 数据可以不再仅仅属于某一个应用 而能进行一定程度的复用 但文件系统在数据管理方面存在缺陷 表现在数据冗余度大 数据和程序之间缺乏独立性 容易造成数据的不一致性 数据库系统 60年代末开始 3 数据仓库的发展的动力 业务需求驱动主要是详细的分析科学的经营市场活动的细化和实施等数据驱动数据量不断扩大没有数据仓库等相关技术很难全面了解企业项目驱动 4 数据仓库定义 Inmon的定义 DataWarehouseisasubject oriented integrated time variant andnonvolatilecollectionofdatainsupportofmanagement sdecisionmakingprocess数据仓库的特点数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是与时间相关的数据仓库的数据是稳定的 5 简单的数据仓库架构 6 数据仓库实际应用例子 7 数据集成 企业全面的经营数据OLTP分散在各个不同系统中 事件独立 银行 卡 储蓄 信贷 会计 中间业务等等系统BOSS 增值业务 财务集成数据建立关联事件关联 业务之间是相互关联 客户数据统一历史数据大量历史数据的保存问题中国建设银行一个中等规模的省产生每天的交易详细记录大约200M通常在业务系统中只保存当日数据历史数据查询困难 8 数据仓库数据处理流程 DW数据抽取 转换 装载数据到ODS 9 ETL简述 10 ETL定义 ETL Extract Transform Load数据抽取 Extract 转换 Transform 装载 Load 的过程 ETL是BI DW的核心和灵魂 按照统一的规则集成并提高数据的价值 是负责完成数据从数据源向目标数据仓库转化的过程 是实施数据仓库的重要步骤 11 ETL应用过程 数据抽取抽取主要是针对各个业务系统及不同网点的分散数据 充分理解数据定义后 规划需要的数据源及数据定义 制定可操作的数据源 制定增量抽取的定义 数据源和文件等多种形式 数据传输数据传输是通过网络负责把远程的数据到本地目录下 12 ETL应用过程 数据的清洗和转换转换主要是针对数据仓库建立的模型 通过一系列的转换来实现将数据从业务模型到分析模型 通过内建的库函数 自定义脚本或其他的扩展方式 实现了各种复杂的转换 并且支持调试环境 清楚的监控数据转换的状态 数据转换是真正将源数据变为目标数据的关键环节 它包括数据格式转 换数据类型转换 数据汇总计算 数据拼接等等 清洗主要是针对系统的各个环节可能出现的数据二义性 重复 不完整 违反业务规则等问题 允许通过试抽取 将有问题的纪录先剔除出来 根据实际情况调整相应的清洗操作 13 ETL应用过程 数据加载入库数据加载主要是将经过转换和清洗的数据加载到数据仓库里面 即入库 可以通过数据文件直接装载或直连数据库的方式来进行数据装载 可以充分体现高效性ETL调度ETL的调度控制方式有两种 自动方式由系统每天定时或准实时启动后台程序 自动完成数据仓库ETL处理流程 手动方式用户可以通过前台监控平台 对单个目标或批量目标进行手工调度 14 ETL应用过程 监控主要是监控ETL的整个过程 通过扫描ETL各模块的日志中的关键值 如记录时间等信息与当前的状态作比较 如果超过某一个值 则认为该模块运行可能出现问提 应告警 15 ETL工具框架 16 OLAP简述 17 OLAP OLTP on linetransactionprocessing 18 什么是OLAP 定义1 OLAP 联机分析处理 是针对特定问题的联机数据访问和分析 通过对信息 维数据 的多种可能的观察形式进行快速 稳定一致和交互性的存取 允许管理决策人员对数据进行深入观察 定义2 OLAP 联机分析处理 是使分析人员 管理人员或执行人员能够从多种角度对从原始数据中转化出来的 能够真正为用户所理解的 并真实反映企业维特性的信息进行快速 一致 交互地存取 从而获得对数据的更深入了解的一类软件技术 OLAP委员会的定义 OLAP的目标是满足决策支持或多维环境特定的查询和报表需求 它的技术核心是 维 这个概念 因此OLAP也可以说是多维数据分析工具的集合 19 相关基本概念 1 维 是人们观察数据的特定角度 是考虑问题时的一类属性 属性集合构成一个维 时间维 地理维等 2 维的层次 人们观察数据的某个特定角度 即某个维 还可以存在细节程度不同的各个描述方面 时间维 日期 月份 季度 年 3 维的成员 维的一个取值 是数据项在某维中位置的描述 某年某月某日 是在时间维上位置的描述 4 多维数组 维和变量的组合表示 一个多维数组可以表示为 维1 维2 维n 变量 时间 地区 产品 销售额 5 数据单元 单元格 多维数组的取值 2000年1月 上海 笔记本电脑 100000 20 OLAP特性 1 快速性 用户对OLAP的快速反应能力有很高的要求 系统应能在5秒内对用户的大部分分析要求做出反应 2 可分析性 OLAP系统应能处理与应用有关的任何逻辑分析和统计分析 3 多维性 多维性是OLAP的关键属性 系统必须提供对数据的多维视图和分析 包括对层次维和多重层次维的完全支持 4 信息性 不论数据量有多大 也不管数据存储在何处 OLAP系统应能及时获得信息 并且管理大容量信息 21 OLAP表现方式 钻取改变维的层次 变换分析的粒度向上钻取 rollup 和向下钻取 drilldown 切片和切块在一部分维上选定值后 关心度量数据在剩余维上的分布如果剩余的维只有两个 则是切片 如果有三个 则是切块旋转 pivot 旋转是变换维的方向 即在表格中重新安排维的放置 例如行列互换 22 OLAP的分析方法 一 切片 切块 23 OLAP的分析方法 二 钻取 按时间维向下钻取 按时间维向上钻取 60 24 OLAP的分析方法 三 旋转 25 OLAP分类 26 OLAP实现方法 ROLAP数据存储 基于关系数据库结构分类事实表 用来存储数据和维关键字维度表 每个维至少使用一个表来存放维的层次 成员类别等维的描述信息数据模型星型模式雪花模式MOLAP MultidimensionalOLAP 数据存储 使用多维数组存储数据基于多维数据组织的OLAP实现以多维数据组织方式为核心结构分类 立方块 Cube HOLAP HybridOLAP 数据存储 基于混合数据组织的OLAP实现其他实现方法 27 OLTP ROLAP与MOLAP模式 28 ROLAP的星型模式 StarSchema 事实表 用来存储事实的度量值和各个维的码值 维表 用来存放维的元数据 维的层次 成员类别等描述信息 29 MOLAP的多维立方体 Multicube 30 ROLAP与MOLAP比较 ROLAP优势没有大小限制现有的关系数据库的技术可以沿用 可以通过SQL实现详细数据与概要数据的存储现有关系型数据库已经对OLAP做了很多优化 包括并行存储 并行查询 并行数据管理 基于成本的查询优化 位图索引 SQL的OLAP扩展 cube rollup 等大大提高ROALP的速度 MOLAP优势性能好 响应速度快专为OLAP所设计支持高性能的决策支持计算复杂的跨维计算多用户的读写操作行级的计算 31 ROLAP与MOLAP比较 续 ROLAP缺点一般比MDD响应速度慢不支持有关预计算的读写操作SQL无法完成部分计算无法完成多行的计算无法完成维之间的计算 MOLAP缺点增加系统复杂度 增加系统培训与维护费用受操作系统平台中文件大小的限制 难以达到TB级 只能10 20G 需要进行预计算 可能导致数据爆炸无法支持维的动态变化缺乏数据模型和数据访问的标准 32 OLAP体系结构 ROLAPArchitectureMOLAPArchitecture 33 OLAP体系结构 续 HOLAPArchitecture 34 流行的OLAP工具介绍 OLAP产品HyperionEssbaseOracleExpressIBMDB2OLAPServerSybasePowerdimensionInformixMetacubeCAOLAPSERVERMicrosoftanalysisservicesBrioCognosBusinessObjectMicroStrategy OLAP产品涉及的业务操作由外部或内部数据源批量装入数据由业务系统增量装入数据沿数据层次汇总数据对基于业务模型的新数据进行计算时间序列分析高复杂的查询沿数据层次细化分析随机查询多个联机会话 多用户同时访问 35 OLAP展望 面向对象的联机分析处理O3LAP Object OrientedOLAP 对象关系的联机分析处理OROLAP ObjectRelationalOLAP 分布式联机分析处理DOLAP DistributedOLAP 时态联机分析处理TOLAP Tempo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网网络交易管理办法
- 谷歌科技创新管理办法
- 羊肺炎防治管理办法
- 个人外汇管理办法分类
- 中国志愿活动管理办法
- 贵重原材料管理办法
- 个人信贷发放管理办法
- 专业调整优化管理办法
- 街办网格巡查管理办法
- 营销系统运营管理办法
- GB/T 34487-2017结构件用铝合金产品剪切试验方法
- GB/T 31703-2015陶瓷球轴承氮化硅球
- 绿色黑板卡通风初中数学开学第一课PPT模板
- 水泥熟料生产工艺及设备课件
- 代运营协议合同范本
- 浙美版美术三年级上册全册教案
- 座位表模板(空白)
- 部编版高一语文必修上册教学计划
- 青岛版六三制四年级上册数学1万以上数的认识和读法教学课件
- DB37T 3591-2019 畜禽粪便堆肥技术规范
- 私企接待应酬管理制度(3篇)
评论
0/150
提交评论