数据仓库-数据集市-BI-数据分析-介绍ppt课件.ppt_第1页
数据仓库-数据集市-BI-数据分析-介绍ppt课件.ppt_第2页
数据仓库-数据集市-BI-数据分析-介绍ppt课件.ppt_第3页
数据仓库-数据集市-BI-数据分析-介绍ppt课件.ppt_第4页
数据仓库-数据集市-BI-数据分析-介绍ppt课件.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

广州市品高软件开发有限公司 1 数据仓库介绍 议程 数据仓库概念及由来基本概念产生背景数据仓库搭建数据整合数据建模数据管控3 Oracle数据仓库产品介绍 广州市品高软件开发有限公司 3 什么是数据仓库 一个面向主题的 集成的 非易失性的 随时间变化的数据的集合 以用于支持管理层决策过程 广州市品高软件开发有限公司 4 数据仓库的特点 面向主题 操作型数据库的数据组织面向事务处理任务 各个业务系统之间各自分离 而数据仓库中的数据是按照一定的主题域进行组织 主题是一个抽象的概念 是指用户使用数据仓库进行决策时所关心的重点方面 一个主题通常与多个操作型信息系统相关 集成的 面向事务处理的操作型数据库通常与某些特定的应用相关 数据库之间相互独立 并且往往是异构的 而数据仓库中的数据是在对原有分散的数据库数据抽取 清理的基础上经过系统加工 汇总和整理得到的 必须消除源数据中的不一致性 以保证数据仓库内的信息是关于整个企业的一致的全局信息 相对稳定的 操作型数据库中的数据通常实时更新 数据根据需要及时发生变化 数据仓库的数据主要供企业决策分析之用 所涉及的数据操作主要是数据查询 一旦某个数据进入数据仓库以后 一般情况下将被长期保留 也就是数据仓库中一般有大量的查询操作 但修改和删除操作很少 通常只需要定期的加载 刷新 反映历史变化 操作型数据库主要关心当前某一个时间段内的数据 而数据仓库中的数据通常包含历史信息 系统记录了企业从过去某一时点 如开始应用数据仓库的时点 到目前的各个阶段的信息 通过这些信息 可以对企业的发展历程和未来趋势做出定量分析和预测 广州市品高软件开发有限公司 5 几个相关的概念 BIBusinessIntelligence 即商业智能 一类由数据仓库 或数据集市 查询报表 数据分析 数据挖掘 数据备份和恢复等部分组成的 以帮助企业决策为目的技术及其应用 数据集市 面向特定主题和部门级的数据仓库 是数据仓库的子集 数据仓库是提供跨部门的 统一数据视图 OLAPOn LineAnalyticalProcessing是数据仓库系统的主要应用 支持复杂的分析操作 侧重决策支持 并且提供直观易懂的查询结果 数据挖掘从数据库的大量数据中揭示出隐含的 先前未知的并有潜在价值的信息的非平凡过程 数据挖掘是一种决策支持过程 它主要基于人工智能 机器学习 模式识别 统计学 数据库 可视化技术等 OLTPon linetransactionprocessing 传统的关系型数据库的主要应用 主要是基本的 日常的事务处理 例如银行交易 广州市品高软件开发有限公司 6 数据仓库与OLTP系统的差别 广州市品高软件开发有限公司 7 数据仓库是怎么产生的 在数据库技术的支持下 一大批成熟的业务信息系统投入运行 为企业发展做出了巨大贡献 各类信息系统大多属于面向事务处理的OLTP系统 经过多年的运行 积累了大量的数据 而管理决策层对数据分析基础平台的需求却日益强烈 数据可信性 两个部门提供的数据是不一样的 让管理者无所适从报表的生产率问题 由于OLTP的单项系统导致数据的分散性和相同元素定义不一致所致不可能把数据转换成信息数据动态集成问题 不同的需求 要求将操作型环境和分析型环境相分离历史数据问题 单项系统之间保留的历史数据时间范围不一致 无法满足DSS分析的需要数据的综合问题 非细节数据 多种程度的综合提升现有的信息 数据仓库解决的问题 1 企业范围内的信息共享2 准确 一致的集成数据3 面向整个企业和最终用户 针对分析需要 进行数据重组 形成一套全新的 相对完整的数据视图 能够进行快速访问 精确 灵活分析 广州市品高软件开发有限公司 9 数据仓库之父 数据仓库之父比尔 恩门 BillInmon 在1991年出版的 BuildingtheDataWarehouse 建立数据仓库 一书中所提出的定义被广泛接受 主张使用第三范式进行数据仓库建模 广州市品高软件开发有限公司 10 数据仓库领域另外一名重要的人物 比尔 恩门的对头随着拉尔夫 金博尔 RalphKimball 博士出版了他的第一本书 TheDataWarehouseToolkit 数据仓库工具箱 数据仓库行业就开始喧哗起来 恩门的 BuildingtheDataWarehouse 主张建立数据仓库时采用自上而下 DWDM 方式 以第3范式进行数据仓库模型设计 而他生活上的好朋友RalphKimball在 TheDataWarehouseToolkit 则是主张自下而上 DMDW 的方式 力推数据集市建设 以致他们的FANS吵闹得差点打了起来 直至恩门推出新的BI架构CIF Corporationinformationfactory 把Kimball的数据集市包括了进来才算平息 议程 数据仓库概念及由来基本概念产生背景数据仓库搭建数据整合数据建模数据管控3 Oracle数据仓库产品介绍 自上而下进行全企业的数据建模和数据整合 并建立原子级数据仓库 对于各部门的应用再建立相应的数据集市 两种数据仓库构建方式 自下而上根据特定的业务过程建立数据集市 在各部门数据集市之上递增构建整个企业的数据仓库 广州市品高软件开发有限公司 13 两种数据仓库构建方式对比 结论 一般结合两种方式的优点混合使用 广州市品高软件开发有限公司 14 数据仓库体系架构 15 数据整合 ETL 元数据管理模块 数据质量管理模块 转换 文件 数据抽取插件 ETL监控 数据抽取监控 数据清洗监控 数据转换监控 磁盘IO监控 网络IO监控 CPU监控 数据库监控 告警处理 装载 DB2 Oralce 数据加载插件 数据中心 数据转换 数据清洗 任务管理 作业调度 ETL框架 采集 广州市品高软件开发有限公司 16 数据整合 ETL特点 多种数据源支持 支持DB2 ORACLE MySql SQLSERVER 文件多种不同数据源的抽取 作业调度可视化配置 使用图形化界面配置调度作业 3 ETL过程监控 对采集 转换 装载过程进行监控 在发生异常时自动记录相关信息 ETL工具特点 广州市品高软件开发有限公司 17 数据仓库数据建模步骤 一般按照主题进行建模 一般步骤 梳理组织架构关系梳理系统用户 角色梳理业务流程 实际工作流程 提出业务流程改进方法及措施 抽象业务概念分组业务概念 按照业务主线聚合类似的分组理解分组概念之间的关联及关系 具化抽象概念的属性细化业务流程 针对特定物理平台作出相应的技术调整针对模型的性能考虑对特定平台作出相应调整 18 数据建模方法 范式建模法 BillInmon主张使用 使用关系型数据库第三范式进行ER建模 同业务系统的数据库建模类似 维度建模法 Kimball最先提出这一概念 按照事实表 维表来构建数据仓库 数据集市 并针对各个维作了大量的预处理 这种方法的最被人广泛知晓的名字就是星型模式 Star schema 另外还有雪花模型 星座模型 雪暴模型 星型 雪花 两种建模方法比较 结论 一般在数据仓库底层使用范式建模 在数据集市层或多维数据库使用维度建模 数据应用 多维分析之切片 切块 数据应用 多维分析之钻取 按时间维向下钻取 按时间维向上钻取 60 数据应用 多维分析之旋转 广州市品高软件开发有限公司 23 数据应用之即席查询 基本信息字段 工班日期 即席查询 导出列编辑 输出结果 所属路段 构建宽表模型 反向分析 所属区域 OD路径字段 异常行驶信息 收费站 车道 收费方式 车辆信息信息 收费信息字段 绿色通道字段 分账信息字段 结算费用字段 通行卡字段 计重信息字段 标识路径字段 自由组合条件 定义条件关系及值 可任意选择宽表字段 条件和值之间可以用 in等连接 条件和条件之间可用orand之间连接 可编辑结果的显示列 用户根据自身需求 灵活的选择查询条件 系统根据用户的选择生成相应的统计报表 广州市品高软件开发有限公司 24 数据应用之数据挖掘 数据挖掘 从大量的数据中自动搜索隐藏于其中的有着特殊关系性 属于Associationrulelearning 的信息的过程 常见数据挖掘方法 关联分析 发现一个事务中不同操作相关性的概率 例如一条开户记录为一个事务 用户号为其标示 申请短信为一个操作 申请呼叫转移为另外一个操作 通过挖掘 发现申请短信的人80 必定申请呼叫转移 申请呼叫转移的人不一定申请短信 在这种情况下 可以推出将呼叫转移打包在短信服务中 可以提高用户的服务质量2 回归分析 了解两个或多个变量间是否相关 相关方向与强度 并建立数学模型以便观察特定变量来预测研究者感兴趣的变量 如话务预测3 人工统计学分群分析 根据记录中最频繁出现的特征 将相关记录进行分类 如客户分群4 决策树分析 根据用户的性质和其它消费行为 分析产生某项结果的原因 如可以根据用户的性质 消费状况和缴费情况 分析用户流失的原因 比如 发现消费额度小于30元的用现金缴费的女性 80 可能会流失 广州市品高软件开发有限公司 25 数据管控 数据管控主要包括元数据管理 数据质量管理 数据安全管理 全面提升数据管控能力 元数据管理工具 Webservice接口 JMI接口 XMI接口 元数据获取 元数据存储 元数据管理工具 数据源 ETL 数据中心 数据服务 展示视图 技术元数据 业务元数据 管理元数据 自动获取 手工导入 Webservice接口 JMI接口 XMI接口 实体差异分析 元数据使用情况 指标库 实体关联度分析 主机拓扑图分析 元数据统计 血缘分析 过程查询 元数据工具功能 元数据管理工具可加强数据的管控力度 增强系统自身管理能力 提升系统易用性 数据质量关系到系统建设的成败 技术类 数据创建延迟 数据校验规则不当 文件传输出错 信息类 元数据描述错误 变化频度不恰当 计算口径错误 管理类 责任心 责任人 反馈渠道 培训计划 流程类 错误的数据维护流程 人为调整数据流程 数据稽核流程 决策是否正确 系统建设成败 系统保障 管理措施 28 数据质量管理工具 监控 检查 报告 处理 总结 数据源 数据源 ETL工具 轻度汇总层 高度汇总层 外部应用 外部应用 数据服务总线 抽取 转换 装载 汇总 汇总 抽取 抽取 监控点 监控数据 质量规则元数据 规则匹配计算 质量报告 质量报告主要包括报告时间 报告标题 报告类型 告警类型 严重级别 报告内容等 质量问题工单 质量维护流程 质量维护流程 质量总结功能 质量月报表 质量日报表 接口质量评估 数据质量管理措施 职责 文档 数据质量管理小组 流程 制定数据质量检测规则标准制定数据质量管理 保障 控制和维护流程监控数据质量问题处理的整个流程并进行结果评估 源系统数据质量状况月报 数据中心数据质量状况月报 数据质量影响报告 数据质量评估报告 数据需求变更控制流程数据质量事件处理流程数据质量报告管理流程数据源接口评估流程 数据质量管理工具 质量异常监控 30 质量异常处理 质量情况月度报表 议程 数据仓库概念及由来基本概念产生背景数据仓库搭建数据整合数据建模数据管控3 Oracle数据仓库产品介绍 广州市品高软件开发有限公司 32 Oracle商务智能架构 其它 OracleDataIntegrator OracleDB10gOracleEssbase OracleBIEE 广州市品高软件开发有限公司 33 OracleBIEEArchitecture 广州市品高软件开发有限公司 34 BIEE的缓存机制 BIEE的表示服务 表示层 物理层 语义对象层 用户角色

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论