




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京华正公司数据仓库决策支持系统技术简介 1 目目录录 1前言前言 2 2需求分析需求分析 3 3对对数据数据仓库仓库的理解的理解 3 3 1什么是数据仓库 4 3 1 1数据仓库架构 4 3 1 2数据仓库的产品构成 5 3 2实现数据仓库的关键技术 5 3 3数据仓库的特点 5 3 4数据仓库的用途 6 3 5数据仓库结构 6 3 6元数据的定义 7 3 7元数据的作用 7 3 8数据源分类 7 3 9数据仓库的重构过程 7 3 10数据管理 8 3 11多维星型模型 STAR SCHEMA 8 4多多维维分析技分析技术术 OLAP 9 4 1多维分析的数据存储 9 4 2OLAP 服务器和工具的功能 9 5数据数据发发掘技掘技术术 10 5 1统计分析 11 5 2知识发现 11 5 3知识发现的应用 11 5 3 1分组使用 Clustering 11 5 3 2分类使用 Classification 13 5 3 3数值预测 Value Pridiction 13 5 3 4关联的使用 13 5 3 5顺序模式和顺序序列的使用 14 6怎怎样实现样实现数据数据仓库仓库 15 6 1系统的体系结构 15 6 1 1两层体系结构 15 6 1 2三层体系结构 15 6 2系统性能 16 6 3系统的环境 16 6 4安全性和访问控制 16 6 5报表和图表的传输 16 6 6支持代理技术 16 6 7选择数据仓库产品 17 6 7 1IBM 数据仓库方案 17 6 7 2Oracle 数据仓库方案 17 6 7 3Informix 数据仓库方案 18 6 7 4SAS 数据仓库方案 19 北京华正公司数据仓库决策支持系统技术简介 2 1 前言前言 数据仓库 Data WareHouse 是目前国内外 IT 行业和计算机行业中经常 出现的 新名词 它是计算机科学高度发展而产生的一门技术 它为现代化企 业管理提供了一套建立科学决策支持系统的解决方案 代表了未来信息处理技 术发展的主流 在数据仓库 Data WareHouse 中溶入了大量的当今先进尖端 的计算机技术 例如先进的数据库技术 数据存储技术 并行处理技术 数据 发掘技术 知识发现技术等技术 随着信息时代的到来 当今许多企业认识到只有靠充分利用 发掘其现有 数据才能实现更大的商业效益 对电信行业 企业的决策者面对复杂和不断变化的业务 市场和客户需求 需要多角度 多层次 多区域观察问题 需要及时 准确的数据 要求对企业 的历史数据进行分析和发掘 以达到科学决策的目标 以解决困扰电信企业的 诸多难题 如何对它们进行科学地计费和帐务管理 怎样实现大量数据的动 态多维分析 怎样防止客户欺诈消费 怎样制定科学的市场策略和市场促销计 划 怎样科学地制定电信各种资费政策 怎样科学分配企业有限的资源并使资 源利用率最优 怎样科学地建立企业的全面质量管理体系 根据国内外的成功 经验来看 利用先进的计算机技术和工具 先建立计算机计费帐务决策支持系 统 DSS 然后逐步建立全局的决策支持系统 DSS 被公认为是最好的解决 办法 而建立决策支持系统 DSS 的最好办法是采用数据仓库解决方案 Data Warehouse Solution 在电信企业的计费帐务中心往往存有多年和大量的客户原始数据和记录 在建立计费帐务决策支持系统之前 无法被转换成可靠的 商用的信息 这些 数据价值被忽略了 如果建立计费帐务决策支持系统 从这些数据中可以找出 有价值的信息 如效益增长分析 客户消费模式 市场潜力等等 再加上市场 分析报告 独立的市场调查 质量评测结果和顾问评估等外来数据时 辅助决 策者制定科学的市场策略和市场促销计划 必然产生战略性的价值 然后在此 基础上建立全局的决策支持系统 扩大到全面的策略管理 质量管理 企业财 产管理和企业全面的效益管理等 从而全面地实现信息管理的科学决策 建立局部或者全局的决策支持系统有别有普通的生产处理系统 EDP 或信 息管理系统 MIS 是一个复杂的动态的过程 成功的关键在于对决策支持的 理解和所采用的技术和工具 决策支持处理的对象是数据模型 而不是普通的 生产信息管理系统 MIS 所处理的普通数据和对数据的控制 北京华正公司数据仓库决策支持系统技术简介 3 2 需求分析需求分析 北京长途电话局帐务中心不仅承担着北京地区长途电话业务计费及各项有 关的服务工作 承担全国长途通信计费结算的多项工作 代行电信总局帐务中 心的职能 同时还担负着需要向信息产业部 中国电信 北京电信管理局等不 同需求的决策者提供不同层次 不同主题的决策信息 如可能是当年或去年甚 至多年来历史的 某一时期的 某一项的或多项的长途电话指标的分析 的重 任 以辅助他们根据不断变化的各种情况 如市场情况 经济情况等 做出科 学的决策 目前 北京长途电话局帐务中心拥有大量的历史数据 并且业务和数据都 在不断的快速增加 希望以这些数据为基础 再加上市场分析报告 独立的市 场调查 质量评测结果和顾问评估等外来数据构成北京长途电话局数据信息中 心 一方面能够实现实时多维数据分析 一方面能够及时发掘出一些潜在的规 律和信息来 为企业的科学决策提供辅助和支持 从而建立企业的智能化的管 理模式 根据以上分析 我们发现目前北京长话局的迫切需要解决的问题 需要一 个整体的数据仓库解决方案 使北京长话局能够快速建立一个开放式的具有可 动态伸缩结构的决策支持系统 在解决方案中应该包括先进的信息分析和发掘 技术 如 联机事物分析 OLAP 数据发掘技术 Data Mining 等 能够使 企业决策者和 IT 管理人员快捷方便地访问企业的所有资源和信息 3 对对数据数据仓库仓库的理解的理解 我们的目标是建立企业决策支持系统 数据仓库是我们建立企业决策支持 系统的解决方案 数据仓库是科学决策的基础 数据仓库从应用来看 它属于数据库管理系统的应用 经过 90 年代早期 数据仓库的发展 到了目前 数据仓库的发展主流是可视化的分布式的客户 服 务器体系结构的数据仓库 建立数据仓库是一项复杂的工程 建立数据仓库必 须考虑 选用什么样的结构 开放的系统环境 元数据的存储 数据仓库的规模扩展 数据装入的效率 处理多维分析 数据发掘技术 北京华正公司数据仓库决策支持系统技术简介 4 高端可升级性 商业视图建模效率 3 1 什么是数据仓库什么是数据仓库 数据仓库其目的是建立一个企业的智能信息系统 而使企业的决策达到科 学决策的目标 保证企业的战略决策的有效性 是企业必须拥有的市场武器 是当今信息管理系统的主流趋势 是一个企业决策支持解决系统的必不可少的 部分 它不同于通常的关系数据库 也不同于通常的 MIS 系统 它把一个单位 的历史数据收集到一个中央仓库中以便于处理 是支持决策支持过程的 面向 主题的 集成的 随时间变化的 持久的数据集合 对于一个较完整的数据仓库方案 它应有较合理的结构和较完善的产品线 3 1 1 数据数据仓库仓库架构架构 作为一个开放式结构 它方便了用户的产品选择 实施和今后的扩展 图 中 数据抽取阶段完成对各种数据源的访问 数据转换阶段完成对数据的清洗 汇总和整合等 数据分布阶段完成对结果数据存储的分配 这三个阶段通常紧 密结合在一起 集成在一个产品中实现 北京华正公司数据仓库决策支持系统技术简介 5 3 1 2 数据数据仓库仓库的的产产品构成品构成 数据仓库可以进行数据映射的定义 以定期地抽取 转换和分布数据 用 于数据复制 采用数据复制的方式可避免对日常业务系统事物处理性能的影响 当用户有特殊需求时 可以通过编程接口编程实现或选择第三方厂商的产品 3 2 实现数据仓库的关键技术 实现数据仓库的关键技术 从不同的数据源的中集成数据和元数据 数据的清除和提炼 数据的概括和聚集 数据源的更新与保持数据仓库的同步 数据仓库与生产系统如何分配资源 元数据的管理 3 3 数据仓库的特点数据仓库的特点 可以根据用户的观点组织和提供数据 北京华正公司数据仓库决策支持系统技术简介 6 它存储当前数据和历史数据 存储容量远远大于普通的生产数据库 由概括和聚集机制来对大数据进行分类 在不同粒度 不同层次上管理数 据 数据的存储介质多样化 包容各种各样的数据 如 关系数据库 电子表 格 Xbase 数据库 甚至是平板文件 数据仓库中的历史数据信息采用时间戳印记的办法 保持信息的不同的版 本 对信息进行概括和聚集 在数据仓库管理中管理信息时 将涉及到多个应用程序和多个数据库 多 个系统平台 数据仓库是存储技术 数据库技术和数据语义技术的集成 数据仓库是一个动态的的过程 没有现成可用的数据仓库 3 4 数据仓库的用途数据仓库的用途 数据仓库的目的为了管理一个企业所有数据 通过管理数据来帮助一个企 业制订发展战略和发展计划 达到稳定增加企业收益的目的 通过它可以构建 企业的决策支持系统以实现企业的科学决策的目的 从而使得企业处于良好的 运转状态 通过它可以了解市场需求 顾客的需求以及潜在的问题 体现在 效益增长分析 策略管理 顾客关系管理 公司财产管理 全面效益管理 全面质量管理 3 5 数据仓库结构数据仓库结构 数据仓库通过高层抽象和简化 可以描述为 数据管理 元数据管理 传 输和基础结构 仓库数据由数据源 数据仓库 数据站场 存取和使用 如图 所示 基础结构 传输 元数据管理 数据源数据仓库数据站场存取使用 数据管理 北京华正公司数据仓库决策支持系统技术简介 7 3 6 元数据的定义元数据的定义 通常元数据定义为关于数据的数据 数据库中 是对数据库中各个对象的 描述 在关系数据库中 就是对表 列 数据库和其他对象的定义 在数据仓 库中 是指数据仓库中所有有意义的对象的 包括表 列 视图 查询 规则 数据转移 数据转换 过滤 求精 业务模型建立及重构等等 是数据仓库的 数据索引图 3 7 元数据的作用元数据的作用 了解数据仓库或数据站场的名称 描述 正文 价值 版本和来源 了解数据的内容以及从数据抽取直到放入数据仓库中的过程 确定数据的位置 验证数据的可靠性 数据存取和使用 3 8 数据源分类数据源分类 生产数据 存在于各种生产应用系统数据库中的在线数据 可能是关系型 的 非关系型的 或数据文件型的 遗留数据 脱机或归档的数据 对趋势分析和数据发掘具有极大的历史价 值 须由适当的工具放入数据仓库中 内部办公数据 是数据的重要来源之一 它可能是非电子数据或是电子数 据 如电子表格 图表 报表 文字文档 年度报表 外部数据 企业以外的数据 如行业数据 国家经济指标 物价指标 财 经数据等等 数据源元数据 描述数据源的数据 3 9 数据仓库的重构过程数据仓库的重构过程 检验数据是否满足业务分析和数据发觉的需要 然后根据结果进行必要的 调整 对多个系统中不同类型的数据进行集成 按时间顺序分割数据 对所需数据的推测 对不同来源数据的转化和标准化 数据转换的刷新 北京华正公司数据仓库决策支持系统技术简介 8 重够工程中元数据的范围 集成的数据 概括数据 预测的和衍生的数据 数据的粒度和分割 数据的转换和规则 数据源与数据仓库间的映射 3 10 数据管理数据管理 数据的抽取 过滤 求精 重构和存储 数据的复制 更新和同步 数据的安全性管理 数据存取权限 数据归档与恢复 数据和索引的物理存放 3 11 多维星型模型 多维星型模型 Star Schema 多维星型模型 Start Schema 是目前数据仓库建模技术中最流行的一种 技术 与之相对应的有 多维雪花模型 Snow Schema 混合型模型 多维星 型模型的特点是 事实表与维表之间的关系是星型结构 北京华正公司数据仓库决策支持系统技术简介 9 4 多多维维分析技分析技术术 OLAP 在数据仓库中 存储数据的目的是为了查询 分析和传送 而 OLTP 在线 事物处理中 数据存储的目的是为了修改和控制 在线多维分析 OLAP 是一 种分析处理技术 它从现有的数据中生成新的商业信息 由大量的商业转换和 数据计算来实现的 它具有的功能 数据的多维逻辑视图 交互式查询和分析 提供分析的建模功能 生成概括数据和聚集 层次 支持功能模型 用于预测 趋势分析和统计分析 多维表格 图形和图形中的数据 快速的查询响应 多维数据存储引擎 4 1 多维分析的数据存储多维分析的数据存储 多维数据存储与关系数据存储 MOLAP 与 ROLAP 关系数据库多维数据库 数据存储 存取和查看关系型的 行和列的表 扩充的 SQL 语言 使用 API 第三方工具 维的 数组 超立方体 多立方体 稀疏矩阵技术 私有的电子表格 使用和包装OLTP RDBMS 引擎 细剖至详细级别 查询性能 广域 OLAP 多维引擎 细剖至概括 聚集级别 查询性能 快 数据库大小和修改没有限制 存储索引并增加尺寸 并行查询和装载 在使用时修改 受限制 稀疏数据压缩和聚集 使用过程中很难修改 小 的修改就可能需要重新计 算 4 2 OLAP 服务器和工具的功能服务器和工具的功能 特征和功能 北京华正公司数据仓库决策支持系统技术简介 10 支持多维和层次 按单个维和多个维来聚集 概括 预计算和派生数据 相对一个维或多个维提供计算逻辑 公式和分析 支持分析模型概念 提高丰富的库函数 如 财经的 市场的 代数的和统计的等 强大的计算和比较分析能力 如 分级 比较 归类百分比 最大最小 值 平均值等 进行交叉维计算 提供时间相关的智能 如 当前日期 各种日历 平均转手率和转手总 数等 访问工具 电子表格 私有客户工具 第三方工具 4GL 环境 与 非事实标准 的接口 如 Visual Basic 和 PowerBuilder 的应用环 境和 OLE DDE CORBA 等的接口 支持客户的导航器功能接口 接口应包括 访问并抽取基于层次 模型 时间和其他维的数据子集 用单个抽取请求访问多个级别层次 了解 聚集和概括数据 划分方式和索引 访问关系数据库时 优化特定的关系数据库 OLAP 服务引擎 读写功能 用于交互式的预测和预算 多用户写功能 多数据库访问 定义维分析模型 生成并维护元数据 访问控制和权限控制 从数据仓库和数据站场中的分析模型加载 协调数据仓库中操作 各个部件的管理 5 数据数据发发掘技掘技术术 数据发掘技术就是帮助决策处理大量的数据 找到战略性的信息 它通常 北京华正公司数据仓库决策支持系统技术简介 11 划分为三类 统计分析类 知识发现类 可视化分析 5 1 统计分析统计分析 用于检查异常的数据 然后利用统计模型和数学模型来解释这些数据 通 常使用的模型有线性分析和非线性分析 连续回归分析和逻辑回归分析 单变 量分析和多变量分析 以及时间序列分析 是目前最成熟的数据发掘工具 5 2 知识发现知识发现 源于人工智能和机器学习 它是用一种简洁的方式从数据中寻找隐含的 未知的 有价值的信息 不必假设或提供条件 由一组构件联合组成 主要是 确定数据元素的关系和模式 如产品与顾客的关系和模式 产品与顾客购买模 式 通常包括分类 侧面生成或 BestN 分类 神经网络 规则发现和决策数 关联 顺序模式和聚簇 使用它须考虑到数据的质量 可视化数据的能力 极 大数据库的规模 适当的响应时间以及信息分析人员的技能 知识发现的一般结构图 5 3 知识发现的应用知识发现的应用 5 3 1 分分组组使用 使用 Clustering 在数据库中把具有相同或相似特征的记录分成不同的组 目前常用的分组算法 北京华正公司数据仓库决策支持系统技术简介 12 有二种 人口统计分组 人口统计分组 demographicdemographic clusteringclustering 神经网络分组 神经网络分组 neuralneural clusteringclustering 在分组算法中采用了神经网络技术 北京华正公司数据仓库决策支持系统技术简介 13 5 3 2 分分类类使用 使用 Classification 用于在数据库中寻找隐含的模式 用一些显著的特性预测其他的属性 主 要算法 神经网络分类 规则发现和决策树分类 用于客户信用度评估 市场 目标 邮件调查及相应处理的决策 例如 对电信客户进行分类 可以找出将 继续使用电信业务的客户和可能终止使用电信业务的客户 在确定企业的市场 目标前 在借鉴先前的经验 可通过诸如采用邮寄调查表的方式 调查表列出 了预期客户的属性以及他们的反应 调查预期的客户市场 从而得出诸如最大 收入或最高利润的预期的客户 得出符合期望的侧面客户信息 5 3 3 数数值预测值预测 Value Pridiction 市场营销 检查客户的行为以构建微观的细分市场 客户调查表 同时寻 找理想的客户群 财经分析 现金分流分析和欺诈预测 商业运作 传送计划 后勤分析 5 3 4 关关联联的使用的使用 关联描述了一组数据项目的密切度或关系 用置信度来度量关联规则的强 度 主要是通过发掘事务数据派生出关联规则 事务分析不一定处理所有的定 货数据 只需确定时间段的数据 如营业厅一个月的 200 卡销售的数据 并且 通常不是关心单个规则或关联 而是这一组的关联情况 它广泛地使用于大量 客户购买模式分析 如 对电话卡的分析 可能找到 200 号卡的客户 他们 300 号卡可能性比 较大 同时还可能找到其他的电话卡客户 他们购买 300 号卡可能性比较大 通过这一些购买模式的关联情况 电信局可以制定相应的销售策略 北京华正公司数据仓库决策支持系统技术简介 14 5 3 5 顺顺序模式和序模式和顺顺序序列的使用序序列的使用 它可以看成是一种特定的关联规则 用于查找一组符合特定购买频率的客 户 发现客户某段时间内客户的购买模式 从而确定定货模式 IT 人员分析客 户在消费之前的许多与消费有关的事情 如各种促销手段 售后服务 售前服 务 维修服务 客户服务请求 邮寄资料 后继购买等等 如 使用普通长话 业务的客户 在以后可能使用 200 号业务 发现客户使用普通长话业务时需要 售后服务 维修服务 从而找到到 200 号业务推广模式 北京华正公司数据仓库决策支持系统技术简介 15 6 怎怎样实现样实现数据数据仓库仓库 6 1 系统的体系结构系统的体系结构 6 1 1 两两层层体系体系结结构构 两层结构具有强大的处理能力 其往往是一个部门或某一方面更能的应用 数据规模的范围是有限的 由于其客户端是 胖 客户 可能导致网络瓶颈 6 1 2 三三层层体系体系结结构构 三层结构具有更大的处理能力 其范围是多个部门或多个功能的应用 数 据规模可以很大 由一个或多个数据站场构成 有多个服务器 多个数据库 多个中间件甚至多种网络构成 数据库服务器 数据库 瘦客户 三层C S结构示意图 应用服务器 北京华正公司数据仓库决策支持系统技术简介 16 6 2 系统性能系统性能 控制并管理处理的场所 客户的工作站 应用程序服务器或数据库服务器 数据索引技术 大规模的查询支持 批处理或后台处理 请求的调度 查询控制 可访问的数据库范围 时间长短 检索的记录及查询的终止 6 3 系统的环境系统的环境 支持的操作系统平台类型 Unix Windows NT OS 2 等等 支持数据库平台 DB2 Oracle Informix Sybase 等 支持数据存储的接口类型 DBMS Native ODBC 或其它开放式接口 支持多种 API 编程接口 OLE COM 支持 SQL 及扩充的 SQL 支持多个异质数据库和平台的访问 6 4 安全性和访问控制安全性和访问控制 为了简化用户的数据访问和保护企业的内部数据应该 支持按天 日期 位置 报表类型或特定查询划分用户和用户组 支持对商业计划 工资信息等敏感信息的控制 6 5 报表和图表的传输报表和图表的传输 支持电子邮件 支持局域网 广域网 支持 WEB 方式的发布 6 6 支持代理技术支持代理技术 处理报表和图表的发送 检查数据变化和特定事件的发生 系统伸缩性 用户的数目 数据仓库的大小 网络的能力 检索数据 分析和报表的性能 北京华正公司数据仓库决策支持系统技术简介 17 6 7 选择数据仓库产品选择数据仓库产品 数据仓库是多项复杂的计算机技术的集合 在选择产品时应该考虑 厂家 的声誉 产品策略 核心技术 竞争力 技术支持和服务 合作伙伴和性能价 格等等因素 目前 数据仓库产品的厂商有数十家 如 IBM Oracle SAS Informix Red Brick Bussiness Object Abor Soft 等 彼此的规模和实力差别很大 它们大致上分为集成数据仓库提供商 IBM racle SAS Informix 和数据仓库构件提供商 Red Brick Bussiness Object Abor Soft 两类 就此 可以把数据仓库解决方案 分为两类 集成数据仓库方案和构件互联数据仓库解决方案 它们的差别很明 显 集成数据仓库方案具有优势 集成方案在设计 开发 测试和发布都是 统一的结构方案中进行的 有较佳的性能 不存在集成问题 而构件互联方案 存在的问题是构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年西北农林科技大学幼教中心教师招聘(3人)考前自测高频考点模拟试题附答案详解(黄金题型)
- 2025广西桂林市第十九中学招聘初中语文代课教师1人模拟试卷有完整答案详解
- 2025年哈尔滨道里区工程社区卫生服务中心招聘若干名考前自测高频考点模拟试题及完整答案详解一套
- 2025湖北襄阳市市直部分事业单位选聘9名模拟试卷附答案详解(考试直接用)
- 2025中核集团中核光电招聘笔试题库历年考点版附带答案详解
- 2025中国旅游集团所属企业岗位公开招聘8人笔试题库历年考点版附带答案详解
- 崇左保安安全巡查培训课件
- 2025电影制作赞助协议书参考
- 2025标准合同范本出口协议
- 2025年下学期初中数学基本增强现实意识试卷
- 考务资格审核培训
- 2025四川成都蒲江县国有资产监督管理局县属国有企业招聘管理人员7人考试参考题库及答案解析
- 下载标准版门市房屋租赁合同3篇
- 井下安全用电培训课件
- 校企合作教材开发协议书
- 2025年医院麻醉科服务优化计划
- 校车安全管理操作规范
- Unit2WheredoanimalslivePeriod4课件-四年级上册《英语》(沪教版)
- 2025年秋期人教版3年级上册数学核心素养教案(第4单元)(教学反思有内容+二次备课版)
- 2025年江苏保安员考试题库及答案
- 掼蛋教学课件
评论
0/150
提交评论