BI_数据仓库基础_第1页
BI_数据仓库基础_第2页
BI_数据仓库基础_第3页
BI_数据仓库基础_第4页
BI_数据仓库基础_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品文档 1欢迎下载 1 1 BIBI Business Intelligence 即商业智能 商务智能综合企业所有沉淀下来的信息 用科 学的分析方法 为企业领导提供科学决策信息的过程 BOSSBOSS业务运营支撑系 BPMBPM企业绩效管理 BPRBPR业务流程重整 CRMCRM客户关系管理 CUBECUBE立方体 DMDM DatamartDatamart 数据集市 数据仓库的子集 它含有较少的主题域且历史时间更短数据量更 少 一般只能为某个局部范围内的管理人员服务 因此也称之为部门级数据仓库 DMDM DataMineDataMine 数据挖掘 DSSDSS决策支持系统 EDMEDM企业数据模型 3 3 ERPERP Enterprise Resourse Planning企业资源规划 它是一个以管理会计为核心的信息系统 识别和规划企业资源 从而获取客户订单 完成加工和交付 最后得到客户付款 换言 之 ERP将企业内部所有资源整合在一起 对八个采购 生产 成本 库存 分销 运输 财务 人力资源进行规划 从而达到最佳资源组合 取得最佳效益 4 ETLETL 数据抽取 Extract 转换 Transform 清洗 Cleansing 装载 Load 的过 程 构建数据仓库的重要一环 用户从数据源抽取出所需的数据 经过数据清洗 最终 按照预先定义好的数据仓库模型 将数据加载到数据仓库中去 KDDKDD数据库中知识发现 5 5 KPIKPI 企业关键业绩指标 KPI KeyProcessIndication 是通过对组织内部流程的输入端 输出 端的关键参数进行设置 取样 计算 分析 衡量流程绩效的一种目标式量化管理指标 是把企业的战略目标分解为可操作的工作目标的工具 是企业绩效管理的基础 LDMLDM逻辑数据模型 6 MDDMDD 多维数据库 Multi Dimesional Database MDD 可以简单地理解为 将数据存放在一 个n维数组中 而不是像关系数据库那样以记录的形式存放 因此它存在大量稀疏矩阵 人们可以通过多维视图来观察数据 多维数据库增加了一个时间维 与关系数据库相比 它的优势在于可以提高数据处理速度 加快反应时间 提高查询效率 MetadataMetadata 元数据 它是 关于数据的数据 其内容主要包括数据仓库的数据字典 数据 的定义 数据的抽取规则 数据的转换规则 数据加载频率等信息 MOLAPMOLAP自行建立了多维数据库 来存放联机分析系统数据 7 ODSODS 四个特点 四个特点 Oprational Data Store 操作型数据存储 是建立在数据准备区和数据仓库之间的一个部 件 用来满足企业集成的 综合的操作型处理需要 操作数据存储是个可选的部件 对于 一些准实时的业务数据库当中的数据的暂时存储 支持一些同时关连到历史数据与实时数 精品文档 2欢迎下载 据分析的数据暂时存储区域 8 什么是数据集市DM 数据集市可以看作是数据仓库的一个子集 它含有较少的主题域且历史时间更短数据量更 少 一般只能为某个局部范围内的管理人员服务 因此也称之为部门级数据仓库 二二 数据仓库数据仓库 DWDW Datawarehouse 数据仓库是一个集合或过程 4要素面向主题 集成 时间相关 反映历 史变化 稳定 不可修改的数据集合 数据仓库是在企业管理和决策中面向主题的 集成的 与时间相关的 不可修改的数据集 合 与其他数据库应用不同的是 数据仓库更像一种过程 对分布在企业内部各处的业务 数据的整合 加工和分析的过程 特点传统操作型数据库数据仓库 面向主题菜市场 按功能来分类 每一个模块就如一个小摊位 萝卜 青菜都有 超市 按类型分类 如都为利润的分为一个事实表 事实表和维表的分类 集成的与特定的应用相关 数据库之间独 立的 有联系 ETL的过程已经是将多个数据 库联系统一 去除之间的不一致性 相对稳定通常实时更新 数据根据需要及时 发生变化 供企业决策分析之用 数据操作主要 是数据查询 一旦某个数据进入数据 仓库以后 一般情况下将被长期保留 也就是数据仓库中一般有大量的查询 操作 但修改和删除操作很少 通常 定期的加载 刷新 反映历史变 化 主要关心当前某一个时间段内的数 据 包含历史信息 系统记录了企业从过 去某一时点 精品文档 3欢迎下载 下图是一个典型的企业数据仓库系统 通常包含数据源 数据存储与管理 数据的访问三 个部分 最为重要的一张图最为重要的一张图 这张图可以看出四个特点中 面向对象 集成 数据源 是指企业操作型数据库中的各种生产运营数据 即OLIP 数据的存储与管理 数据仓库的存储主要由元数据的存储及数据的存储两部分组 成 元数据是关于数据的数据 其内容主要包括数据仓库的数据字典 数据的定义 数 据的抽取规则 数据的转换规则 数据加载频率等信息 各操作数据库中的数据按照元 数据库中定义的规则 经过抽取 清理 转换 集成 按照主题重新组织 依照相应的 存储结构进行存储 数据的访问 由OLAPOLAP 联机分析处理 数据挖掘 统计报表 即席查询等几部分组 成 例如OLAP 针对特定的分析主题 设计多种可能的观察形式 设计相应的分析主题 结构 即进行事实表和维表的设计 使管理决策人员在多维数据模型的基础上进行快 速 稳定和交互性的访问 并进行各种复杂的分析和预测工作 按照存储方式来分 OLAP可以分成MOLAP以及ROLAP等方式 MOLAPMOLAP Multi Dimension OLAP 将OLAP分析所需的数据存放在多维数据库中 分析主题的 数据可以形成一个或多个多维立方体 ROLAPROLAP Relational OLAP 将OLAP分析所需的数据存放在关系型数据库中 分析主题的数据 以 事实表 维表 的星型模式组织 精品文档 4欢迎下载 三 企业信息工厂企业信息工厂 企业信息工厂企业信息工厂 Corporate Information Factory 简称EIFEIF 是一种构建数据仓库的架构 企业信息工厂企业信息工厂主要包括五个集成转换层集成转换层 I T 操作数据存储 ODSODS 企业级数据仓 库 EDWEDW 数据集市 DMDM 探索仓库 EWEW 等部件 这些部件有机的结合在一起 为企业提供信息服务 企业级数据仓库是企业信息工厂的核心部件 用来保存整个企业的数据 一般 也 称数据仓库 是用来满足企业战略决策的需要 数据仓库的数据来自数据准备区和操作 数据存储 数据集市 的数据来源是数据仓库 企业信息工厂中的数据集市一般来说是非规范化的 定制的和 汇总的 而多维体系架构中的数据集市分为两种 分别是原子数据集市和聚集数据集市 一般来说 企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市 企业信息工厂中的数据流向一般是从源系统到数据准备区到操作数据存储到数据 仓库到数据集市 精品文档 5欢迎下载 维维DimensionDimension 维 是人们观察数据的特定角度 是考虑问题时的一类属性 属性集合构成一个维 商店 时间和产品都是维 各个商店的集合是一个维 时间的集合是一个维 商品的集合也是一 个维 代理关键字 维代理关键字 维IDID 代理关键字一般是指维度表中使用顺序 序列 分配的整数值作为主键 也称为 代理键 代理关键字用于维度表和事实表的连接 使用代理关键字可以用来处理缓慢变化维缓慢变化维 维度表数据的历史变化信息的保存是 数据仓库设计的实施中非常重要的一部分 Kimball的缓慢变化维处理策略的核心就是 使用代理关键字 优点 1缓冲 2性能 3建不存在的维度记录 4缓慢变化维处理 缓慢变化维缓慢变化维 能力的体现 能力的体现 随着时间的流失发生缓慢的变化 处理缓慢变化维的方法通常有三种方式 第一种方式是直接覆盖原值 这样处理 最容易实现 但是没有保留历史数据 无 法分析历史变化信息 第一种方式通常简称为 TYPE 1 第二种方式是添加维度行 这样处理 需要代理键的支持 实现方式是当有维度属 性发生变化时 生成一条新的维度记录 主键是新分配的代理键 通过自然键可以和原 维度记录保持关联 第二种方式通常简称为 TYPE 2 第三种方式是添加属性列 这种处理的实现方式是对于需要分析历史信息的属性添 加一列 来记录该属性变化前的值 而本属性字段使用TYPE 1来直接覆盖 这种方式 的优点是可以同时分析当前及前一次变化的属性值 缺点是只保留了最后一次变化信 息 第三种方式通常简称为 TYPE 3 退化维度退化维度 事实表中的部分ID如订单号 但他没有对应的维度表 这编号称为退化维 微型维度微型维度 为了解决快变超大维度 解决的方法是 将分析频率比较高或者变化 频率比较大的字段提取出来 建立一个单独的维度表 这个单独的维度表就是微型维度 表 多维体系结构多维体系结构 MD 中的三个关键性概念 一致性维度一致性维度 总线架构总线架构 Bus Architecture 和一致性事实一致性事实 Conformed Fact 一致性维度一致性维度 解决数据仓库的集成问题 在多维体系结构中 没有物理上的数据仓库 由物理上的数据集市组合成逻辑上的 数据仓库 而且数据集市的建立是可以逐步完成的 最终组合在一起 成为一个数据仓 库 如果分步建立数据集市的过程出现了问题 数据集市就会变成孤立的集市 不能组 合成数据仓库 而一致性维度的提出正式为了解决这个问题 精品文档 6欢迎下载 一致性维度的范围是总线架构中的维 一致性维度建立的地点是多维体系结构的后台 Back Room 即数据准备区数据准备区 在同一个集市内 一致性维度的意思是两个维度如果有关系在同一个集市内 一致性维度的意思是两个维度如果有关系 事实表事实表 主要有三种事实表 分别是事务粒度事实表 Transaction Grain Fact Table 周期快照粒度事实表 Periodic Snapshot Grain Fact Table 和累积快照粒度事实表 Accumulating Snapshot Grain Fact Table 从用途 的不同来说 事实表可以分为三类 分别是原子事实表 聚集事实表和合并事实表 粒度分类 事务事实表事务事实表 Transaction fact table 记录的事务层面的事实 保存的是最原子的数 据 也称 原子事实表 周期快照事实表周期快照事实表 Periodic snapshot fact table 以具有规律性的 可预见的时间间 隔来记录事实 时间间隔如每天 每月 每年等等 用途分类 聚集事实表聚集事实表 Aggregated Fact Table 是原子事实表上的汇总数据 也称为汇总事 实表如只有月度维 求和 平均值等 合并事实表合并事实表 建立一个事实表 它的维度是两个或多个事实表的相同维度的集合 聚集事实表和合并事实表的主要差别是合并事实表一般是从多个事实表合并而来 但是它们的差别不是绝对的 一个事实表既是聚集事实表又是合并事实表是很有可能 的 因为一般合并事实表需要按相同的维度合并 所以很可能在做合并的同时需要进行 聚集 即粒度变粗 非重点非重点 预连接聚集表 pre joined aggregagte table 是通过对事实表和维度表的联合查询 而生成的一类汇总表 在预连接聚集表中 保存有维度表中的描述信息和事实表的事实 值 切片事实表 切片事实表的结构与相对应的基础表相同 数据来源于相对应的基础表 切片事实 表由于缩小了表中数据的记录数 所以查询的效率得到了很大的提高 蜈蚣事实表 是指那些一张事实表中有太多维度的事实表 事实表相关的维度在15个以下为正常 如果 维度个数超过25个 就出现 了维度过多的蜈蚣事实表 一致性事实一致性事实 一致性事实和一致性维度有些不同 一致性维度是由专人维护在后台 Back Room 发生修改时同步复制到每个数据集市 而事实表一般不会在多个数据集市间复制 需要 查询多个数据集市中的事实时 一般通过交叉探查 drill across 来实现 精品文档 7欢迎下载 1 51 5 数据集市 即席查询即席查询 即席查询的位置通常是在关系型的数据仓库中 操作数据存储 ODS 是面向主题的 集成的 可变的 反映当前数据值的和详细的数据的集合 用来满足企 业综合的 集成的以及操作型的处理需求 个人不建议ODS保存相当长周期的数据 同样 ODS中的数据也尽量不做转换 而是原封不动地与业务数据库保持一致 即ODS只是 业务数据库的一个备份或者映像 目的是为了使数据仓库的处理和决策支持要求与 OLTP系统相隔离 减少决策支持要求对OLTP系统的影响 ODSODS的的四个四个作用作用 在业务系统和数据仓库之间形成一个隔离层 分担转移一部分业务系统细节查询的功能 完成数据仓库中不能完成的一些功能 ODS是细节 数据仓库是汇总 元数据元数据 随着数据仓库 DW 技术的不断成熟 企业的数据逐渐变成了决策的主要依据 数据仓库中的数据是从许多业务处理系统中抽取 转换而来 对于这样一个复杂的企业 数据环境 如何以安全 高效的方式来对它们进行管理和访问就变得尤为重要 解决这 一问题的关键就是建立数据仓库元数据 精品文档 8欢迎下载 ETLETL 重点 重点 ETL BI 1 3 ETL BI 1 3 BI BI的成败的成败 T ETL 2 3T ETL 2 3 soso T Bi 2 9 1 4T Bi 2 9 1 4 ETL是BI项目重要的一个环节 通常情况下 在BI项目中ETL会花掉整个项目的1 3的时间 ETL设计的好坏直接关接到BI项目的成败 ETL三个部分中 花费时间最长的是 T Transform 清洗 转换 的部分 一般情况 下这部分工作量是整个ETL的2 3 就是整个项目的 差不多四分之一 ETL的实现有多种方法 常用的有三种 一种是借助ETL工具实现 一种是SQL方 式实现 另外一种是ETL工具和SQL相结合 数据抽取数据抽取 三种情况 1在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写select语句直接访问 2不同的数据源解决方法 ODBC的方式建立数据库链接或方法三 3 txt xml利用数据库工具将这些数据导入到指定的数据库 然后从指定的数据库中抽取 4增量更新的问题 数据清洗数据清洗 1不完整的数据 2错误的数据 3重复的数据 数据转换数据转换 1不一致数据转换 抽取过来之后统一转换成一个编码 2数据粒度的转换 业务系统数据按照数据仓库粒度进行聚合 3商务规则的计算 ETL中将这些数据指标计算好了之后存储在数据仓库中 以供分析使用 数据加载数据加载策略 1时间戳方式 2日志表方式 3全表比对方式upset 4全表删除插入方式 精品文档 9欢迎下载 OLAPOLAP On Line Transaction Processing 联联机机事事务务处处理理 系系统统 O OL LT TP P 也称为面向交易的处理系统 其基本特征是顾客的原始数据可以立即传送到计算中 心进行处理 并在很短的时间内给出处理结果 这样做的最大优点是可以即时地处理输 入的数据 及时地回答 也称为 实实时时系系统统 Real time System OLAPOLAP 联机分析处理系统 联机分析处理系统 多维数据分析工具的集合 联机分析处理是使分析人员 管理人员或执行人员能够从多种角度对从原始数据中转化出 来的 能够真正为用户所理解的 并真实反映企业维特性的信息进行快速 一致 交互地 存取 从而获得对数据的更深入 了解的一类软件技术 钻取钻取 Drill 它是改变维的层次 变换分析的粒度 钻取包含向下钻取 Drill down 和向上钻取 Drill up 上卷 Roll up 操作 roll up是在某一维上将低层次的细节数据概 括到高层次的汇总数据 或者减少维数 而drill down则相反 它从汇总数据深入到细 节数据进行观察或增加新维 OLAPOLAP的实现方法的实现方法 根据存储数据的方式不同可以分为ROLAPROLAP MOLAPMOLAP HOLAPHOLAP 表示基于关系数据库的OLAP实现 ROLAPROLAP 事实表维度表的设计 事实表维度表的设计 将多维数据库的多维结构划分为两类表 一类是事实表 用来存储数据和维关键字 另一 类是维表 即对每个维至少使用一个表来存放维的层次 成员类别等维的描述信息 维表 精品文档 10欢迎下载 和事实表通过主关键字和外关键字联系在一起 形成了 星型模型 对于层次复杂的维 为避免冗余数据占用过大的存储空间 可以使用多个表来描述 这种星型模型的扩展称为 雪花模型 MOLAPMOLAP 表示基于多维数据组织的OLAP实现 Multidimensional OLAP 以多维数据组织方式为核 心 也就是说 MOLAP使用多维数组存储数据 多维数据在存储中将形成 立方块立方块 Cube 的结构 在MOLAP中对立方块的 旋转旋转 切块切块 切片切片 是产生多维数据报表的主要 技术 旋转旋转 行列转换行列转换一条记录中的多个事实字段转化为多条记录 切块切块 切片切片的字段结构和相应的基础表完全相同 差别在于存储的记录的范围 切片事实表中保 存记录的是相应基础表中记录的子集 记录数通常与某个维度记录数相同 OLAP 存储方式优缺点 一 多维存储方式 MOLAP MOLAP 在服务器上对数据立方体数组及其管理技术的实现 可以所有的信息查询 都从 MOLAP 服务器上获得 优势 性能好 响应速度快 支持高性能的决策支持计算 复杂的跨维计算 多用户的读写操作 缺点 占用的存储空间较大 难以达到 TB 级数据量 需要进行预计算 可能导致数据爆炸 无法支持维的动态变化 缺乏数据模型和数据访问的标准 二 关系数据库存储方式 ROLAP ROLAP 充分利用关系数据库技术将明细数据和聚合数据存储在一个关系型结构中 的存储方式 优势 没有大小限制 现有的关系数据库的技术可以沿用 可以通过 SQL 实现详细数据与概要数据的储存 现有关系型数据库已经对 OLAP 做了很多优化 包括并行存储 并行 查询 位图索引 SQl 的 OLAP 扩展等大大提高了 ROALP 的速度 查询性能较不如 MOLAP 方式 占用的存储空间较少 缺点 一般比 MDD 响应速度慢 SQL 无法完成部分计算 主要是无法完成多行的计算 无法完成维之 间的计算 精品文档 11欢迎下载 三 混合存储方式 HOLAP 将聚合存储到分析服务器计算机上的多维结构中 并将分区的源数据保留在它现 有的关系型结构中的存储方式 特点 查询性能介于以上两种方式之间 占用的存储空间介于以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论