电信数据仓库设计的六个关键环节_第1页
电信数据仓库设计的六个关键环节_第2页
电信数据仓库设计的六个关键环节_第3页
电信数据仓库设计的六个关键环节_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电信数据仓库设计的六个关键环节电信数据仓库设计的六个关键环节 编者按 数据仓库技术经过了十几年的发展 在理论与工程实践上都取得了显著的成果 国际上许多重要的学术会 议 如超大型数据库国际会议 VLDB 数据工程国际会议 Data Engineering 等 都有大量专门研 究数据仓库 Data Warehousing 联机分析处理 On Line Analytical Processing 数据挖掘 Data Mining 的论文 各大数据库厂商纷纷推出相应产品支持数据仓库 比如 NCR SAS Oracle IBM Informix Sybase 等都提出了相应的数据仓库解决方案 随着信息技术的飞速发展 企业内部产生了越来越多的数据 但这些数据并没有产生应有的信息 困此 我们常常可以看到企业 数据爆炸 知识贫乏 的窘迫局面 如何有效地整合与充分利用信息资源 成为企 业提高核心竞争力的关键 此外 数据仓库的设计与实现 在不同的行业存在着极大的差别 企业在设计 过程中应该注意哪些细节问题 本期 方案评析 专题中所选的几篇文章 以电信 银行 医疗行业为实例 在实际操作的基础上 分析了 企业经营分析与决策支持系统的建设应用 分析了建设数据仓库及基于数据仓库的商业智能系统应具备的 基本条件 从确定主题 数据准备 建立模型 评估和解释模型 运用和巩固模型等方面 对数据仓库的 设计方法 以及解决关键环节问题的技巧进行了深入剖析 具有较高的实用价值 大型企业数据仓库系统的建设是一项复杂的系统工程 在设计中会遇到各种各样的技术问题 本文以电信 行业数据创库设计为例 提供数据仓库设计过程中的六个关键环节 从技术上给读者提供参考 环节一 异种数据源集成 企业在经营分析与决策支持系统的建设时 必须将遗留系统 Legacy System 进行高效全面的集成 由 于遗留系统是在企业发展的不同时期建设的 往往缺乏全局规划 所以拥有不同的操作系统 不同的数据 库 不同的网络通信机制等 形成了所谓的 信息孤岛 系统中采用异种数据源企业应用集成接口 来实现对异种数据源的透明访问 包括数据源元数据访问及业 务操作数据访问 数据源分为在线数据源和离线数据源 在线数据源是指允许在线抽取的业务数据源 如 营业数据 离线数据源是指不允许直接在线抽取的数据源 如计费样单数据就是采用以脱机文件数据格式 及 FTP 方式集成进系统 对数据源实现元数据级的管理 数据源的连接类型 ODBC OLEDB JDBC Native 连接字符串 以及数据结构信息都以元数据的形式存储于元数据库中 通过控制台对其进行业务语义定义 使用户对整 个企业的信息系统有了全面的掌握 环节二 ODS 层的设计 操作数据存储 ODS Operation Data Storage 是一个集成了来自不同数据库数据的环境 其目的是为终 端用户提供一致的企业数据集成视图 它可以帮助用户轻松应对跨多个商业功能的操作挑战 是面向主题 的 集成的 近实时的数据存储 设计 ODS 层的目的在于改善了对关键操作数据库的存取 用户能获得收益 客户等主题的企业级完整视 图 有利于更好地通观全局 近实时的数据存储提供了查询与服务能力 并以更高的性能生成操作报告 设计 ODS 的核心是实现焦点主题全局试图应用 如企业的客户管理系统 可以建立以客户为中心的 ODS 客户主题视图 向上层提供高效的服务 而对于话费结算则采取了从综合结算系统中直接抽取到数据仓库 的方式 抽取周期为结算周期 能完全满足决策分析的时间窗要求 环节三 ETL 过程的设计 数据抽取 转换和加载 是数据仓库实现过程中 数据由数据源系统向数据仓库加载的主要方法 整个数 据处理过程如下 数据抽取 从数据源系统抽取数据仓库系统所需的数据 数据抽取采用统一的接口 可以从数据库抽取数 据 也可以从文件抽取 对于不同数据平台 源数据形式 性能要求的业务系统 以及不同数据量的源数 据 可能采用的接口方式不同 为保证抽取效率 减少对生产运营的影响 对于大数据量的抽取 采取 数据分割 缩短抽取周期 的原则 对于直接的数据库抽取 采取协商接口表的方式 保障生产系统数据 库的安全 数据转换 数据转换是指对抽取的源数据根据数据仓库系统模型的要求 进行数据的转换 清洗 拆分 汇总等 保证来自不同系统 不同格式的数据和信息模型具有一致性和完整性 并按要求装入数据仓库 数据加载 数据加载是将转换后的数据加载到数据仓库中 可以采用数据加载工具 也可以采用 API 编程 进行数据加载 数据加载策略包括加载周期和数据追加策略 对于电信企业级应用 采用对 ETL 工具 DataStage 进行功能封装 向上提供监控与调度接口的方式 数据加载周期要综合考虑经营分析需求和系 统加载的代价 对不同业务系统的数据采用不同的加载周期 但必须保持同一时间业务数据的完整性和一 致性 环节四 仓库模型设计 由于经营分析需求的不断变化 数据仓库中数据的存储必须采用主题分域的方式 及尽可能小的业务单元 进行数据的组织和存储 以满足数据仓库的灵活性 此外 任何一个信息系统都具有整体性 结构性 层 次性 相对性 可变性 数据仓库的目标逻辑结构的设计要体现这些特征 例如 某电信运营商的业务可以按照不同的主题域分为八类 客户 账务 资源 服务 客服 营销 服 务使用 结算 客户主题包含与客户相关的基本信息 如客户的自然属性 姓名 年龄 职业等 分类 信息 现有客户 潜在客户 大客户等 重要属性信息 信用度 忠诚度 消费层次等 账务主题中 包含了与客户相关的费用信息 如明细账单 综合账单 账本 账户 付费记录 销账流水等 资源主题 中包含网络资源和服务资源信息及占用情况 服务主题包含产品 套餐 资费与优惠规则等的信息 客服 主题包含与客户服务相关的部门信息 流程信息 分类信息等 营销主题包含销售机会 营销渠道 促销 活动等相关信息 服务使用主题描述客户购买和使用电信服务产品的信息 包括用户 服务使用记录 清 单等 结算主题包含结算清单 结算明细账单 合作服务方等信息 对于主题的建模采用星型结构 允率 当砘蚋乓 砑酉喙匚 砉钩伞 环节五 元数据管理 元数据 Metadata 是关于数据 操纵数据的进程 以及应用程序的结构 意义的描述信息 其主要目 标是提供数据资源的全面指南 元数据是描述数据仓库内数据结构和建立方法的数据 可将其按用途分为 两类 技术元数据 Technical Metadata 业务元数据 Business Metadata 和内联映射元数据 Inter Mapping Metadata 技术元数据是存储关于数据仓库系统技术细节的数据 是用于开发和管理数据仓库的数据 主要包括数据 仓库结构的描述 各个主题的定义 星型模式或雪花型模式的描述定义等 ODS 层的企业数据模型描 述 以描述关系表及其关联关系为形式 对数据稽核规则的定义 数据集市定义描述与装载描述 包括 Cube 的维度 层次 度量以及相应事实表 概要表的抽取规则 另外 安全认证数据也作为元数据的 一个重要部分进行管理 业务元数据从业务角度描述了数据仓库中的数据 它提供了介于使用者和实际系统之间的语义层 使得不 懂计算机技术的业务人员也能够理解数据仓库中的数据 业务元数据包括以下信息 使用者的业务术语所 表达的数据模型 对象名和属性名 访问数据的原则和数据来源 系统所提供的分析方法及公式 报表信 息 内联映射元数据 Inter Mapping Metadata 实现技术元数据与业务元数据的层间映射 使得信息系统的 概念模型与物理模型相互独立 使企业的概念 业务模型重组 以及物理模型的变化相互透明 内联映射元数据从技术上为业务需求驱动 企业数据驱动的双驱动建设模型提供了重要保证 使信息系统 的建设具有更高的灵活性与适应性 基于元模型数据仓库建模的过程如图 1 所示 环节六 专题数据挖掘 电信企业在长期信息化建设过程中积累了大量业务运营数据和业务管理数据 一般的企业数据量已超过 TB 级 市场的激烈竞争和管理的复杂性 决定了企业需要对客户关系 市场营销 产品工程 投资分析 等方面的历史数据进行提取与分析 将数据转化为有用的信息 数据挖掘一般用于在海量数据集中发现间 接 隐藏 新颖的规律 数据挖掘技术的优势在于 通过对数据集进行有限步骤的采集 整理 分析 推 理 比较等分析手段 来揭露埋藏数据内部的有用信息 数据挖掘常用的算法包括 关联规则 聚类检测 决策树 神经网络 遗传算法 支持向量机等 在 SAS IM8 等数据挖掘工具中支持的算法包括决策树 聚类分析 神经网络 回归分析等 以电信经营数据分类与预测分析数据挖掘专题为例 分类包括客户分类 网元分类等 预测包括客户发展 分析与预测 业务量发展分析与预测 客户流失分析与预测 营销管理与销售机会分析与预测 市场竞争 分析与预测 大客户分析与预测等 采用回归分析业务量进行预测 如图 2 所示 以 2003 年 7 月 1 日到 29 日的通话次数历史数据 预测 2003 年 7 月 30 日的通话次数 结果为 2003 年 7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论