数据集市应用电信IT支撑体系.doc_第1页
数据集市应用电信IT支撑体系.doc_第2页
数据集市应用电信IT支撑体系.doc_第3页
数据集市应用电信IT支撑体系.doc_第4页
数据集市应用电信IT支撑体系.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论数据集市在电信IT支撑体系建设中作用的研究Research on the Role of the Data Mart in the Construction of the Telecommunication IT Support System温州电信分公司IT支撑部 陈驰 325000Department of IT support system, China Telecom Inc. Wenzhou Branch, Chen Chi 32500摘要:本文针对电信企业IT系统建设中出现的新问题,以中国电信温州分公司数据集市建设为例,重点分析了数据集市在数据支撑体系中的作用、实施步骤以及应注意的几个问题。Abstract: In dealing with the new issues in the IT system construction of telecommunications enterprise, this paper gives the analysis of the roles of data mart in the data support system and its implementation steps and precautions to several problems. The analysis is based on the data mart construction of the China Telecom Inc. Wenzhou Branch.关键字:数据集市 数据支撑体系 智能取数Keywords: datamart, data support system, intelligent data access作者介绍:陈驰 男 1975年出生,男,工程师,主要从事企业信息化建设和Oracle数据库研究的工作。联系电话: 057781880693 EMail:Author: Chen Chi, M, Engineer. Date of Birth: 1975. Majoring in Enterprise Information Construction and researching on Oracle database product.随着电信市场竞争的日益激烈,迫切需要电信企业尽快实现从旧有的粗放式管理模式向精确化管理模式的转变,要求企业有更加快速、有效的数据支撑体系来响应前端业务分析、业绩考核、营销评估等工作需求,因此数据支撑体系的建设被提高到一个新的高度。一、 电信数据支撑现状中国电信为降低运营成本,提高利润,以及为3G等漫游业务的实施铺平道路,改变了传统的以地市为单位的业务支撑体系,建设以省为单位的集中式业务支撑系统(以下简称“省集中”)。但是IT系统的整合往往需要23年的建设时间,数据支撑在过渡期内遭遇到如下问题:1.数据源断流问题:老系统已经退出历史舞台,但是新系统对应的功能还没有完善,原有的经营分析活动、绩效考核、日常报表的数据来源出现青黄不接的现象。2.数据孤岛问题:大量分散的系统即将被省集中的系统所代替,但是在过渡期内,这些系统仍在继续发挥着重要的作用,大量有用的数据分散在不同的系统中,无法形成一致的数据视图,给数据支撑造成严重的障碍。3.适应问题:业务人员和IT人员都需要时间来适应新的业务体系。长期积累的习惯在短期内无法纠正,产品系列的变化,维护重点的转变,都造成暂时的数据支撑空白点。4.IT人力资源问题: 原本每个地市分公司都拥有一套完整的IT维护组织架构,具有较好的人才储备优势,但随着系统的省集中,如何发挥地市IT人员的作用成为一个难题。虽然说在系统建设的过程里出现各种问题是难免的,但是怎样避免对业务运作造成过大的波动成了亟待解决的问题。我们主要考虑的是建设一套在确保核心统一的基础上又能够灵活方便支撑市场营销活动的数据支撑体系,这也是让支撑系统在建成以后具有生命力的关键所在。二、 数据集市的特点和作用1数据集市的特点数据仓库之父Bill Inmon说:数据仓库是“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”。数据仓库所有的数据应该围绕“主题”来组织,每个主题域仅仅包含该主题相关的信息,数据仓库应该一次增加一个主题,如果需要更容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。由此可见,数据集市是“小型的数据仓库”。如果说数据仓库是建立在企业级的数据模型之上的话,那么数据集市就是企业级数据仓库的一个子集,它主要面向部门级业务,并且只面向某些特定的主题。理论上数据集市有两种建设模式:第一种是先创建集中的、面向企业级的中央数据仓库,再根据实际业务需求,针对特定部门和用户,选择部分主题,建设数据集市。这种先集中后分散的建设模式可以大大减少对数据源的二次访问,可以提供更强的一致性和灵活性,并且从长远来看将节省项目资源并降低开发工作量。第二种是先创建一系列拥有相同维度的数据集市,每个数据集市将联合多个数据源来满足特定的业务需求。通过使用“共同”的维度,就能够看到不同数据集市中的信息。而“数据仓库是数据集市的联合”。这种先分散后集中的建设模式可以快速响应个别组织迫切需要解决的业务问题,大大缩短项目成效的体现时间。遗憾的是,这种建设模式经常被滥用,并将之作为脱离集中控制而构建他们自己数据集市的借口。而先集中后分散的建设模式将避免这一问题的发生。因此,第一种建设方式虽然初期投入较大,建设周期也稍长于第二种方式,但是具有更强的可控性,降低项目建设风险。数据集市和数据仓库的差异。数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是一种小型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的人员服务,因此也称之为部门级数据仓库。数据仓库和数据集市之间的区别如下:数据仓库数据集市数据来源遗留系统、OLTP、外部数据数据仓库范围企业级别部门级别或工作组级别主题企业主题部门或特殊的分析主题数据颗粒度最细的颗粒度较粗的颗粒度数据结构规范化结构(3NF)星型、雪花型、或两者的混合历史数据大量的历史数据适度的历史数据优化处理海量的数据、数据探索便于访问和分析、快速查询索引适度索引高度索引由上可见,数据集市和数据仓库不存在优劣之分,而是针对不同层面、不同应用场合的不同应用体系。2数据集市在电信IT支撑体系建设中的作用如何建立一套能够避免产生新的数据孤岛,而又具有很强的扩充性、可访问性的数据支撑系统,是电信在省集中建设过渡期间迫切需要解决的问题。充分利用数据集市的优势,以省集中的数据仓库为数据核心,建设以地市为单位,分散式的数据集市为应用核心的支撑体系,是有效解决这些问题的办法。架构示例如下:省数据仓库地市A数据集市地市B数据集市地市C数据集市数据复制数据复制数据复制地市A个性化应用地市B个性化应用地市C个性化应用这种架构具有以下几个特点:a.规整的数据结构缩短了支撑人员的适应时间,易于解决数据源断流问题。数据集市和数据仓库均按照主题域来组织数据,因此屏蔽了生产数据库繁杂的逻辑关系,具有更好的可理解性,逻辑结构更贴近前端业务,有利于业务人员和地市数据支撑人员快速掌握。数据集市整合了各类生产数据,并采用统一的编码,很容易建立到其他系统的接口,为其提供生产数据,很好地解决数据源断流问题;b. 适度抽取本地遗留系统的数据,弥补IT系统整合过渡期内发生数据孤岛问题。数据集市的主体数据来源是省数据仓库,因此不会产生新的数据孤岛,更不会影响省数据仓库的数据核心地位。随着省集中项目的持续推进,大量过渡系统即将退出历史舞台,省数据仓库不必再去抽取这类数据,但是在过渡期间,此类数据对生产活动又是必须的,因此,适度在地市级别的数据集市内加载此类数据,可以实现有效支撑,并节约资源,用最小的代价解决数据孤岛问题;c. 发挥各地市分公司数据支撑人员的主观能动性,缩减IT支撑环节各地市分公司的数据支撑人员直接面对一线的业务人员,因为直接由他们在数据集市上实现当地的数据支撑是最便捷的,可以大大缩短数据支撑的流程链;d. 和省数据仓库形成分布式的数据支撑架构,大大缓解省数据仓库的压力用户不需要直接访问省公司数据仓库,只要访问当地的数据集市即可满足数据需求。当然,在必要的时候也可以访问省数据仓库以便获取全省统一的数据视图。这种灵活的方式,不仅可以满足地市大量数据支撑人员的访问要求,更降低了省数据仓库支撑系统的压力,省数据仓库支撑人员可以将更多的精力投入数据准确度的维护和全省统一报表、数据分析系统的开发上去。三、 温州电信分公司数据集市实施办法浙江电信公司温州分公司针对企业实际运行情况,在电信省集中的数据仓库基础上,开发了温州数据集市系统以解决数据支撑问题,取得了很好的实际效果。现将建设思路和方法介绍如下:1数据集市定位数据集市项目的定位是数据集市建设的风向标,通常容易犯的错误是将数据集市仅仅作为数据高级分析的平台看待,而忽视了数据集市在数据支撑体系中的核心地位。很多数据仓库厂家为避免卷入繁杂的日常报表开发而把数据仓库或数据集市简单定义成分析型平台而不从事日常报表提供,我们认为这种做法是片面的。数据集市汇集了大量的生产数据,并且以统一的视图呈现,日常报表应该成为数据集市最基础的功能之一。因此,温州电信数据集市建设充分考虑企业的实际情况,建立了以数据集市为基础平台,全面支撑智能取数、基础报表、多维分析、数据挖掘的综合支撑平台。2 数据集市建模数据模型是数据集市建设的核心内容。能够完整表达企业业务,而又能保持高度简洁的模型是数据模型建设所终极追求的。数据集市的建模过程也是捕获用户业务需求的最有效工具之一。因此如何有效建立准确的数据模型,决定着项目的成败。其中涉及到三个最重要因素:a. 数据集市的建模是用户驱动的。最终用户必须参与数据集市的建模过程中来,因为他们才是真正要使用该数据集市的人。我们不应期望他们熟悉复杂的数据模型,所以要将建模技术和建模过程作为整体进行组织,以使过程的复杂性对他们来说是透明的;b. 数据集市的建模是由业务需求驱动的。数据集市模型对于捕获业务需求十分有用,因为它们通常由用户直接使用,要易于理解。建模的过程会导致业务部门对自己业务体系的重新审视,甚至需要重新梳理业务架构,比如:产品、优惠、套餐等;c. 数据集市的建模应充分考虑后续的数据分析方法。数据分析技术可以影响所选择的数据模型的类型及其内容。除了支撑普通报表,还要执行多维数据分析的话,则必须要选择基于维度的数据模型。如果要实现数据挖掘,就应该在模型中包含最细颗粒度的数据。温州数据集市根据实际业务需求情况,从数据仓库中挑选六大关键主题域组成数据集市:订单域、资产域、话单域、费用域、标准编码域、地理维度域(局向)。每个域均有一张核心事实表和若干维度表组成。关系示例如下:订单产品预付费和后付费话单资产产品产品维度营业厅维度账目类型维度局向维度订单优惠营业收入计费收入优惠维度其他维度资产优惠订单域(EVT)资产域(OFR)话单域(NET)费用域(FIN)3 温州数据集市的物理架构省数据仓库其他本地网遗留IT系统数据抽取服务器数据集市服务器温州数据集市PDM温州数据集市应用数据库Web服务器微软Analysis Service服务器BI客户端通过PowerPlay多维分析智能取数、报表客户通过浏览器访问4 数据抽取设计数据集市和数据仓库一样,自身是一个不产生生产数据的系统,所有基础数据均来自其他系统。因此,从其他系统抽取数据,是数据集市实施过程中一个重要的工作。数据抽取中需要解决的问题有:抽取捕获方式、数据抽取链路、数据抽取工具。1)抽取捕获方式:常见的捕获方式是静态数据的捕获、通过日志文件捕获、通过数据库触发器捕获、基于日期和时间标记的捕获、在源应用程序中捕获、通过文件的比较等方法。数据集市的主要数据源为省数据仓库,鉴于省数据仓库的数据是历史性的,通过日期和时间标记捕获最为合适。先举例说明省数据仓库的历史数据组织方式:假设,有订单数据于2007年8月1日生成,状态为“申请中”,于是数据仓库订单表新增如下记录:Start_dt(记录启效期)End_dt(记录实效期)状态其他订单数据8月1日的镜像2007-8-13000-12-31(表示失效期无穷远)申请中2007年8月3日,该订单竣工,于是数据仓库中该订单表数据变化如下:Start_dt(记录启效期)End_dt(记录实效期)状态其他订单数据8月1日的镜像2007-8-12007-8-3申请中其他订单数据8月3日的镜像2007-8-33000-12-31(表示失效期无穷远)竣工采用基于记录的启效期和实效期的抽取方式,以抽取2007年8月3日的变化数据为例,用SQL表达如下:Select * from order_hist where start_dt = date 2007-8-3 or end_dt = date 2007-8-3;2)数据抽取链路:常见的数据抽取链路有文本方式和异构数据库连接等方法。a.以文本为源数据库和目的数据库之间的传递介质,源数据库根据数据抽取规则,将数据导出普通文本格式存放,目标数据库再通过导入工具,将文本数据导入目标库。这种异步数据传递方式对源数据库影响小,中间文本文件可以实现重复导入,具有高性能、高灵活性等优点,但是不具有事务一致性,数据类型检查等致命弱点。b.异构数据库连接是利用某些数据库产品具有的和其他数据库产品互联的功能,实现的不同数据库产品间的数据传输,如Oracle的Transparent Gateway;也可以利用开放的数据库互联协议,如微软的ODBC等进行互联。异构数据库连接性能会稍差于文本方式,但是却拥有事务一致性、和强类型检查等优势。5 应用体系的建设应用体系建设是数据集市是否能发挥实际效用的关键。我们把数据集市的应用根据业务需求的演进规律,划分为四大类型:智能取数、普通报表、多维分析、数据挖掘。a.智能取数是我们在项目实施过程中创建的一个崭新的数据集市应用概念,它不同于普通多维分析的钻透(drillthrough)。智能取数是以提取数据清单为目,自动联合多个事实表,为前端提供用户自助式数据查询的一项功能。它通常应用于业绩考核数据的校对清单,营销清单数据的核查等应用场景。实现智能取数的前提是:1)数据模型要和前端业务人员的业务逻辑一一对应,只有这样,前端人员才能快速理解系统所提供的选择。2)建立并维护事实表间的关联,因为智能取数的特点是要跨越不同的事实表,只有建立了事实表之间的关联(包括关联字段、关联关系1对n还是n对n),才能通过前台软件自动生成取数脚本,实现系统智能取数。b.普通报表是数据集市需要支撑的基本功

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论