(计算机软件与理论专业论文)数据仓库技术在电信经营决策中的应用.pdf_第1页
(计算机软件与理论专业论文)数据仓库技术在电信经营决策中的应用.pdf_第2页
(计算机软件与理论专业论文)数据仓库技术在电信经营决策中的应用.pdf_第3页
(计算机软件与理论专业论文)数据仓库技术在电信经营决策中的应用.pdf_第4页
(计算机软件与理论专业论文)数据仓库技术在电信经营决策中的应用.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据仓库不同于传统数据库。传统数据库在联机事物处理( o l t p ) 中获得了较大的成功,但对于管理人员的决策分析却无法很好地满足,而 数据仓库可以很好地做到这一点。目前,国内关于电信企业经营决策支持 的数据仓库系统还没有十分成熟的产品,更没有一个完全的标准。 近年来,电信行业信息化进程得到快速发展,运营网络系统、综合业 务系统、计费系统、办公自动化等计算机应用系统的相继使用,积累了大 量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中是无 法提炼并升华为有用的管理决策信息的。一方面,联机作业系统因为需要 保留足够的详细数据以备查询而变得笨重不堪,系统资源的投资跟不上业 务扩展的需求;另一方面,管理者和决策者只能根据固定的、定时的报表 系统获得有限的经营与业务信息,无法适应激烈的市场竞争。数据仓库成 为其进一步信息化的必然需求。 本文对数据仓库的发展和应用、数据组织及关键技术进行了分析,并 结合s a s 数据仓库系统特点,给出了数据仓库开发的一般方法,然后结 合为驻马店市移动通讯公司开发的“电信经营决策系统”这一实例,具体 讨论了系统的需求分析、设计与实现。特别地,本文对电信行业的需求做 出了较为详尽的分析。 “电信经营决策系统”系统的实现,解决了驻马店移动通讯公司因缺 乏数据仓库系统而产生的经营决策数据支持问题,可以比较方便地完成对 多维数据模型的转轴、上卷、下钻、切片及切块操作,进行多种分析与预 测,还具有许多符合电信行业特色的新功能,包括:直接利用切片数据进 行基本的统计运算,如时间序列、品牌分析等,并将结果直接反映在界面 上或生成位图输出;将o l a p 结果直接生成文本、h t m l 等格式文件,方便 决策领导者书写报告。 【关键词】数据仓库:元数据;星型模式;r o l a p a b s t r a c t t h e r ei sv e r yd i f f e r e n c eb e t w e e nt h et r a d i t i o n a ld ba n dd a t a w a r e h o u s e t h et r a d i t i o n a d bs u c c e e d si no l t pb u tc a n ts a t i s f y t h e m a n a g e r s d e c i s i o n m a k i n g a n da n a l y s i s b y c o n t r a s t ,d a t a w a r e h o u s ec a nd oi t q u i t e w e l l _ a tp r e s e n t ,d o m e s t i ct e l e c o m i n d u s t r yh a sn op e r f e c ts y s t e mo fd a t aw a r e h o u s e ,l e ta l o n ei t s e n t i r es t a n d a r d i nr e c e n t y e a r ,i n f o r m a t i o nt e c h n o l o g y h a sb e e n a p p l i e d d i f f u s e l y i nt e l e c o m i n d u s t r y l o t s o f h i s t o r y d a t ah a sb e e n a c c u m u l a t e da c c o r d i n gt ot h eu s eo fc o m p u t e ra p p l i c a t i o ns y s t e m s , s u c ha s o p e r a t i n g n e t w o r k s y s t e m ,i n t e g r a t e d s e r v i c e s y s t e m , s t a t i s t i cf e es y s t e m ,o as y s t e m ,e t c i nt r a d i t i o n a lc o n d i t i o n s , h o w e v e r ,l a r g e a m o u n to fd a t ac a n tb et u r n e di n t ou s e f u l i n f o r m a t i o nf o r d e c i s i o n m a k i n g o l t ps y s t e mb e c o m e si n f l e x i b l e b e c a u s eo ft h el a c ko fd e t a i l e dd a t aa n ds y s t e m a t i cr e s o u r c ec a n t m e e tt h en e e do fb u s i n e s s o n t h eo t h e r h a n d ,m a n a g e r s a n d d e c i s i o n m a k e r sc a n t a d a p tt ov i o l e n tc o m p e t i t i o nb e c a u s et h e y o n l yg e t1 i m i ti n f o r m a t i o na c c o r d i n gt ot h eo l t ps y s t e m t h e r e f o r e , d a t aw a r e h o u s em e e t st h et r e n d f i r s to fa 1 1 ,t h i sa r t i c l ea n a l y z e dd e v e l o p m e n ta n d a p p l i c a t i o n o fd a t aw a r e h o u s e ,o r g a n i z a t i o no fd a t a ,a n dp i v o t a l t e c h n i q u e s , m o r e o v e r ,o f f e r e dt h eg e n e r a lc o n s t r u c t i o nm e t h o do fd a t aw a r e h o u s e a p p l i c a t i o ns y s t e mi nr e l a t i o nt os a sd a t aw a r e h o u s e a tl a s t ,i t s u p p l i e da ne x a m p l eo fa p p l i c a t i o nt od a t aw a r e h o u s et h a tn a m e da s y s t e mo f d e c i s i o ns u s t a i n o ra n d m m l k e ta n a l y z e r , a n dd i s c u s s e dt h e r e q u i r e m e n t s ,d e s i g n ,a n di m p l e m e n to ft h es y s t e m e s p e c i a l l y ,i t a n a l y z e dd e t a i l e d l yt h en e e d so ft e l e o o mi n d u s t r y ,t o o 劢e s y s t e m o fd e c i s i o ns u s t a i n e ra n dm a r k e t a n a l y z e r c o n s t r u c t e daf i n ed a t aw a r e h o u s ea p p l i c a t i o n i tc a na c c o m p l i s h r o t a t e ,s 1 i c e ,d r i l lu p d o w no p e r a t i o ni nd a t ac u b e ,a n da l lk i n d s o fa n a l y s i so rp r e d i c t a tt h es a m et i m e ,t h es y s t e ma l s oh a ss o m e n e w f u n c t i o n s ,i n c l u d i n g t od os o m eb a s i cs t a t i s t i e s b yu s i n g 1 i s 1 i e e d a t as t r a i g h t l y ,t oc r e a t et h er e s u l t st ot x to rh t m ld o c u m e n t e x p e d i e n t l yw h i c hi sc o n v e n i e n tf o rm a n a g e r s r e p o r t s ,a n ds oo n k e yw o r d sl d a t aw a r e h o u s e ,m e t a d a t a ,s t a rs c h e m a ,r o l a p 一i 数据仓库技术在电信经营决策中的应用 第一章引言 1 1 电信行业及数据仓库 数据仓库的概念一经出现,就首先被用于金融、电信、保险等数据处理 密集型行业。国外许多大型的数据仓库在1 9 9 6 1 9 9 7 年建立。那么,什么样 的行业最需要和可能建立数据仓库呢? 研究者普遍认为有两个基本条件:第 一,该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件; 第二,该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力。 我国的电信企业恰恰也满足这两个条件。 近些年,国内电信市场的竞争日趋剧烈。电信运营企业有电信、网通、 移动、联通、铁通、卫通等,在各个业务领域内已形成多元化的竞争局面。 同时,随着中国加入w t0 ,国外的电信公司也会进入中国市场,将更加加 剧这种竞争的局面。具体的问题包括如客户对电信服务质量要求的提高,来 自有线电视宽带网的威胁,卫星传输的便利性,无线寻呼和i s p 业务经营的 放开,口电话技术的日益成熟,各企业服务内容重叠造成的相互竞争,盗用 电话的增加,运营成本的加大等等。在这样的形势下,如何在满足客户需求 的前提下,充分利用现有投资设备,降低成本、增加创收是电信企业领导们 最关心的问题,正确及时的决策成为电信企业生存与发展最重要的环节。 电信行业属于当今发展最快,吸收新技术最快的企业,他们早在1 0 年前 就开始了各项业务的计算机管理工作,像“电信业务计算机综合管理系统”、 “计费帐务系统”、“财务管理系统”、“本地网管系统”、“1 1 2 障碍管理系统”、 “收费销帐系统”等,通过这些系统产生了大量的业务处理数据,并且不断 快速地积累和膨胀。许多的数据都被存储在磁带、光盘中,或是分布在不同 的硬件、数据库内,加上数据类型不匹配、数据定义不同、数据不一致、数 据冗余等问题,要查询一次历史数据时,费时费力,更不用说把不同业务部 门的数据关联起来比较分析了。 随着现代社会商业模式变革的进步普及和深入,数据仓库将成为企业获 数据仓库技术在电信经营决策中的应用 得竞争优势的关键武器。数据仓库技术应用于电信企业,进行深层次、多角 度地挖掘,分析当前和历史的业务数据、客户信息、竞争对手的信息等相关 环境的多种数据,发现其内在的规律,得到宝贵的决策支持信息,可以快速、 准确地做出决策,极大地改善企业决策支持模式,取得最大的投资回报。 1 2 电信经营决策系统概述 受河南省驻马店市移动通信公司的委托,我们应用数据仓库技术为其开 发了“决策支持与市场分析系统”。该系统借助s a s 数据仓库的体系结构 及管理上的功能设计开发,包括总体概况( 总收益分析) 、客户成分、欠费分 析、呼叫行为模式、客户与收益、大客户、客户变更分析、服务质量、亲情 电话分析、预测与分析等模块,下图为系统的主界面。 图1 1 系统主菜单界面 以上几项可以概述为下面四个方面: 1 总收益分析 对企业的总体收益及分项收益情况进行分析,一方面从总体收益的趋势 进行分析,另一方面从增长率和影响收益的因素进行分析。 2 客户关系管理 主要包括客户成分、客户与收益、大客户、客户变更分析、服务质量等 方面的分析。客户管理模块是整个系统中最重要的部分之一,主要功能是: 分析电信客户的发展情况、分布情况及机构情况;对客户信用度的分析,借 以对信用度高的客户进行奖励,对信用度低的客户进行罚款或劝说;对客户 数据仓库技术在电信经营决策中的应用 消费水平进行分析,详细了解那些客户对那些消费水平最多、最合适;分析 特殊客户与其他客户的不同之处,找出这些特殊客户发展的特殊原因;统计 零次客户的户数,分析哪些应该拆机,哪些还有发展潜力,不该拆机。 3 话务分析 包括呼叫行为模式、亲情电话等,主要是对通话时长、通话次数、通话 张数等进行统计分析。 4 预测与分析 包括对每月各项费用的分析报告、优惠计划与收益、费用与装机量、通 话类别及各种维度下的分项分析、欺诈发现、w h a t i f 分析等。 1 3 本人承担的工作 本人在此系统开发中主要承担的是总体收益分析模块、欠费分析模块和 预测分析模块的开发工作。总体收益分析模块包括优惠费用分析、应收费用 分析、部数分析、时长分析、次数分析、计费费用分析等方面。系统菜单如 图1 2 所示。 图1 2 总体收益分析菜单界面 欠费分析模块包括应收部数分析、 费用分析、预存款分析、滞纳金分析、 菜单如图1 3 所示。 收回部数分析、应收费用分析、收回 滞纳金优惠分析等方面。本部分系统 数据仓库技术在电信经营决策中的应用 图1 3 欠费分析菜单界面 预测与分析模块包括总体预测、收回( 费用、部数) 预测、w h a t 一盼析、 拉动率与增长率预测等方面。系统菜单如图1 4 所示。 m 1 4 预测与分析菜单界面 茎塑鱼塞茎查垄皇堡丝墅堡壅塑堕里一一 第二章数据仓库技术概述 数据仓库是近年来兴起的一种新的数据库应用。在各大数据库厂商纷纷 宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品时,业 界掀起了数据仓库热。比如i n f o r m i x g o n g s i d e 公司的数据仓库解决方案, o r a c l e 公司的数据仓库解决方案,s y b a s e 公司的交互式数据仓库解决方案等 等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超 大型数据库国际会议( v l d b ) ,数据工程国际会议( d a t a e n g i n e e r i n g ) 等, 都出现了专门研究数据仓库( d a t aw a r e h o u s i n g ,筒记为d w ) 、联机分析处 理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简记为o l a p ) 、数据挖掘( d a t am i n i n g , 简记为d m ) 的论文。对我国许多企业而言,建立或发展自己的信息系统常常 困扰着这样的问题:为什么要在原有的数据库上建立数据仓库? 数据仓库能 否代替传统的数据库? 怎样建立数据仓库? 等等。本章将先简要介绍一下用 到的数据仓库技术背景,下一章结合s a s 介绍数据仓库系统开发方法,最后 一章结合系统设计实例,阐述数据仓库技术如何有效地应用于电信经营决策。 2 1 数据仓库的发展和应用 2 1 1 从数据库到数据仓库 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处 理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作 型处理和分析型处理( 或信息型处理) 。操作型处理也叫事务处理,是指对 数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为 企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型 处理则用于管理人员的决策分析,经常要访问大量的历史数据。传统数据 库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求, 数据仓库技术在电信经营决策中的应用 已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成 为必然。 近年来,随着数据库技术的应用和发展,人们尝试对d b 中的数据进行 再加工,形成一个综合的、面向分析的环境,以更好支持决策分析,从而 形成了数据仓库技术( d a t aw a r e h o u s i n g ,简称d w ) 。作为决策支持系统 ( d e c i s i o n m a k i n gs u p p o r ts y s t e m ,简称d s s ) ,数据仓库系统包括: 数据仓库技术; 联机分析处理技术( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) : 数据挖掘技术( d a t am i n i n g ,简称d m ) 。 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心 的数据环境发展为一种新环境:体系化环境。如图2 1 所示: 运行系统 图2 1 数据仓库体系化环境 决策支持 2 1 2 什么是数据仓库 业界公认的数据仓库概念创始人w h - i n m o n 在建立数据仓库一书中 对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的( 稳定 性) 、随时间不断变化( 不同时间) 的数据集合,用以支持经营管理中的决策 制定过程。 数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一 个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域; 数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集 成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还 塑塑垒壁垫查堡皇堕丝重达箜生塑壁旦。 要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性 是指数据仓库反映的是历史数据的内容,而不是日常事务处理产生的数据, 数据经加工和集成进入数据仓库后是极少或根本不修改的:数据仓库是不同 时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的 需要,而且数据仓库中的数据都要标明该数据的历史时期。 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、 专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库, 它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析, 而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓 库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数 据库管理系统来管理其中的数据。 2 1 3 数据仓库的产生 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最 初的数据管理形式主要是文件系统,少量的以数据片段之间增加些关联和 语义而构成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数 据的存取方式是固定的、死板的。到了1 9 6 9 年,e f c o d d 博士发表了他著 名的关系数据模型的论文。此后,关系数据库的出现开创了数据管理的一个 新时代。 近几十年来,大量新技术、新思路的涌现出来并被用于关系型数据库系 统的开发和实现:客户服务器系统结构、存储过程、多线索并发内核、异步 r o 、代价优化等等,这一切使关系数据库系统的处理能力毫不逊色于传统封 闭的数据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不 止这些,s q l 的使用已成为一个不可阻挡的潮流,加上近些年来计算机硬件 的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。 整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。 然而,应用在不断地进步。当联机事务处理系统应用到一定阶段后,用户便 发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们需要对其 自身业务的运作以及整个市场相关行业的情况进行分析,而做出有利的决策。 这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在如 今这样激烈的市场竞争环境下,这种基于业务数据的决策分析,我们把它称 为联机分析处理,比以往任何时候都显得更为重要。如果说传统联机事务处 理强调的是更新数据库一向数据库中添加信息,那么联机分析处理就是从数 据库中获取信息、利用信息。因此,著名的数据仓库专家r a l p hk i m b a l l 写 数据仓库技术在电信经营决策中的应用 道:“我们花t - 十多年的时间将数据放入数据库,如今是该将它们拿出来 的时候了。,事实上,将大量的业务数据应用于分析和统计原本是一个非常 简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非 如想象的那么容易,这主要表现在以下几点: 所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠 性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不 同,同一个数据库在理论上都难以做到两全。 业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还 有大量的历史数据处于脱机状态,形同虚设。 业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并 不适合非计算机专业人员进行业务上的分析和查询。 因此有人感叹:2 0 年前查询不到数据是因为数据太少了,而今天查询不 到数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析 建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数 据源来、从脱机的历史业务数据中来这个数据中心是一个联机的系统。 它是专门为分析统计和决策支持应用服务的,通过它可以满足决策支持和联 机分析应用所要求的一切。这个数据中心就叫做数据仓库。这个概念在9 0 年 代初被提出来。如果需要给数据仓库一个定义的话,那么数据仓库就是一个 作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要 研究和解决的问题就是从数据库中获取信息的问题。 那么数据仓库与数据库( 主要指关系数据库) 又是什么关系呢? 回想当初, 人们固守封闭式系统是出于对事务处理的偏爱,人们选择关系数据库是为了 方便地获得信息。我们只要翻开c j d a t e 博士的经典之作( a ni n t r o d u e t i o n t od a t a b a s es y s t e m s ) ) 便会发现:今天数据仓库所要提供的正是当年关系数 据库所要倡导的。然而,由于关系数据库系统在联机事务处理应用中获得的 巨大成功,使得人们已不知不觉将它划归为事务处理的范畴。过多地关注于 事务处理能力的提高,使得关系数据库在面对联机分析应用时又遇到了新的 问题今天的数据仓库对关系数据库的联机分析能力提出了更高的要求, 采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须 有专门的改进。因此,数据仓库与数据库的区别不仅仅表现在应用的方法和 目的方面,同时也涉及到产品和配置上的不同。 以辨证的眼光看,数据仓库的兴起实际是数据管理的一种回归,是螺旋 式的上升。今天的数据库就好比当年的层次数据库和网状数据库,它们面向 事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。 塑塑鱼壁垫查垄堕生丝蔓堡苎堕窒旦 所不同的是,今天的数据仓库不必再为联机事务处理的特性而无谓奔忙,由 于技术的专业化,它可更专心于联机分析领域的发展和探索。 2 2 数据仓库中的数据组织 数据仓库中数据的四个基本特征在本章l1 中已经介绍过了,接下来 的问题是:数据仓库存储哪些数据呢? 数据如何组织、存储? 组织形式有哪 些? 等等。本节将通过对数据仓库中存放的数据内容及其组织形式的介绍, 对这些问题做出回答。 2 2 1 数据仓库的数据组织结构 图2 2d w 数据组织结构 一个典型的数据仓库的数据组织结构如图2 2 所示。数据仓库中的数据 分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数 据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合, 从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。由此 可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。粒度越大, 表示细节程度越低,综合程度越高。数据仓库中还有一种重要的数据元 数据( m e t a d a t a ) 。元数据是“关于数据的数据”,如在传统数据库中的数 据字典就是一种元数据。在数据仓库环境下,主要有两种元数据:第一种是 为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、 数据仓库技术在电信经营决策中的应用 属性及其在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用 户的多维商业模型前端工具之间建立映射,此种元数据称之为d s s 元数据, 常用来开发更先进的决策支持工具。关于元数据,下面的章节还会做进一步 的阐述。 2 ,2 ,2 粒度与分割 1 粒度 粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒度是对 数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据 量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度 是必不可少的。由于数据仓库的主要作用是d s s 分析,因而绝大多数查询都 基于一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将 大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。 还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库 中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来 划分的,而是由采样率的高低来划分,采样粒度不同的样本数据库可以具有 相同的数据综合程度。 2 。分割 分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是 将数据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的 标准可供参考:如日期、地域、业务领域等等,也可以是其组合。一般而言, 分割标准总应包括日期项,它十分自然而且分割均匀。 2 。2 ,3 数据仓库的数据组织形式 这里简单介绍数据仓库中常见的数据组织形式: 1 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并 存储起来。 2 轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在 一个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综 合并记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录 新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以 此类推。轮转综合结构十分简捷,数据量较简单堆积结构大大减少。当然, 它是以损失数据细节为代价的,越久远的数据,细节损失越多。 3 简化直接文件:它类似于简单堆积文件,但它是间隔一定时间的数据 库快照,比如每隔一星期或一个月作一次。 4 连续文件:通过两个连续的简化直接文件,可以生成另一种连续文 件,它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新 的简单直接文件也可生成新的连续文件。 数据仓库技术在电信经营决策中的应用 对于各种文件结构的最终实现,在关系数据库中仍然要依靠“表”这种 最基本的结构。 2 2 4 数据仓库的数据追加 如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道,数据 仓库的数据是来自o l t p 的数据库中,问题是我们如何知道究竟哪些数据是在 上一次追加过程之后新生成的。常用的技术和方法有: 时标方法:如果数据含有时标,对新插入或更新的数据记录,在记录 中加更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的 数据都含有时标。 d e l t a 文件:它是由应用生成的,记录了应用所改变的所有内容。利用 d e l t a 文件效率很高,它避免了扫描整个数据库,但同样的问题是生成d e l t a 文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新 数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这 种方法很难实现。 前后映象文件的方法:在抽取数据前后对数据库各作一次快照,然后 比较两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大, 因此并无多大实际意义。 日志文件:最可取的技术大概是利用日志文件了,因为它是d b 的固有 机制,不会影响o l t p 的性能。同时,它还具有d e l t a 文件的优越性质,提取 数据只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格 式是依据d b 系统的要求而确定的,它包含的数据对于数据仓库而言可能有许 多冗余。比如,对一个记录的多次更新,日志文件将全部变化过程都记录下 来;而对于数据仓库,只需要最终结果。但比较而言,日志文件仍然是最可 行的一种选择。 2 3 数据仓库的关键技术 数据仓库都有哪些组成部分和关键技术呢? 与关系数据库不同,数据仓 库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程 性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、 塑塑鱼壁垫查垄皇焦丝蔓盗整主堕壁旦一一 数据的表现以及数据仓库的设计的技术咨询四个方面。为此,我们将分别讨 论每一个环节。 2 3 1 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环 境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的 数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、 增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务 处理系统保持实时的同步,因此数据抽取可以定时进行。但多个抽取操作执 行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有 一些是躲不开编程的,但整体的集成度还很不够。目前市场上所提供的大多 是数据抽取工具。这些工具通过用户选定源数据和目标数据的对应关系,会 自动生成数据抽取的代码。但数据抽取工具支持的数据种类是有限的。同时 数据抽取过程涉及数据的转换,它是一个与实际应用密切相关的部分,其复 杂性使得不可嵌入用户编程的抽取工具往往不能满足要求。因此,实际的数 据仓库实施过程中往往不一定使用抽取工具。整个抽取过程能否因工具的使 用而纳入有效的管理、调度和维护则更为重要。从市场发展来看,以数据抽 取、异构互连产品为主项的数据仓库厂商一般都很有可能被其它拥有数据库 产品的公司吞并。在数据仓库的世界里,它们只能成为辅助的角色。 2 3 2 数据的存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决 定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要 决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特 点着手分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的 数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品 来看,只有关系数据库系统能够担当此任。关系数据库经过近3 0 年的发展, 在数据存储和管理方面已经非常成熟,非其它数据管理系统可比。目前不少 关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个 物理存储设备中,进一步增强了系统管理大数据量的扩展能力。采用关系数 据库管理数百个g b 甚至到t b 的数据已是一件平常的事情。些厂商还专门 考虑大数据量的系统备份问题,好在数据仓库对联机备份的要求并不高。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中, 用户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用 户的请求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用 户访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频 率并不是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂 数据仓库技术在电信经营决策中的应用 的查询请求服务,将该请求并行处理。因此,并行处理技术在数据仓库中比 以往更加重要。 大家可以注意一下,在针对数据仓库的t p c d 基准测试中,比以往增加 了一个单用户环境的测试,称为“系统功力”( q p p d ) 。系统的并行处理能 力对q p p d 的值有重要影响。目前,关系数据库系统在并行处理方面已能做到 对查询语句的分解并行、基于数据分割的并行、以及支持跨平台多处理机的 群集环境和m p p 环境,能够支持多达上百个处理机的硬件系统并保持性能的 扩展能力。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对 关系数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。 在技术上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、 连接策略、数据排序和采样等诸多部分。普通关系数据库采用b 树类的索引, 对于性别、年龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关 系数据库则引入了位图索引的机制,以二进制位表示字段的状态,将查询过 程变为筛选过程,单个计算机的基本操作便可筛选多条记录。由于数据仓库 中各数据表的数据量往往极不均匀,普通查询优化器所得出得最佳查询路径 可能不是最优的。因此,面向决策支持的关系数据库在查询优化器上也作了 改进,同时根据索引的使用特性增加了多重索引扫描的能力。 以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作,而 连接操作对于关系数据库来说是一件耗时的操作。扩充的关系数据库中对连 接操作可以做预先的定义,我们称之为连接索引,使得数据库在执行查询时 可直接获取数据而不必实施具体的连接操作。数据仓库的查询常常只需要数 据库中的部分记录,如最大的前5 0 家客户,等等。普通关系数据库没有提供 这样的查询能力,只好将整个表的记录进行排序,从而耗费了大量的时间。 决策支持的关系数据库在此做了改进,提供了这一功能。此外,数据仓库的 查询并不需要像事务处理系统那样精确,但在大容量数据环境中需要有足够 短的系统响应时问。因此,一些数据库系统增加了采样数据的查询能力,在 精确度允许的范围内,大幅度提高系统查询效率。 总之,将普通关系数据库改造成适合担当数据仓库的服务器有许多工作 可以做,它己成为关系数据库技术的一个重要研究课题和发展方向。可见, 对于决策支持的扩充是传统关系数据库进入数据仓库市场的重要技术措施。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库 在数据仓库领域遇到的最严峻的挑战之一。用户在使用数据仓库时的访问方 式与传统的关系数据库有很大的不同。对于数据仓库的访问往往不是简单的 表和记录的查询,而是基于用户业务的分析模式,即联机分析。如图2 3 所 示,它的特点是将数据想象成多维的立方体,用户的查询便相当于在其中的 部分维( 棱) 上施加条件,对立方体进行切片、分割,得到的结果则是数值的 矩阵或向量,并将其制成图表或输入数理统计的算法。 数据仓库技术在电信经营决策中的应用 图2 3 联机分析数据处理示意图 关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发 展的早期,人们发现采用关系数据库去实现这种多维查询模式非常低效,查 询处理的过程也难以自动化。为此,人们提出了多维数据库的概念。多维数 据库是一种以多维数据存储形式来组织数据的数据管理系统,它不是关系型 数据库,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。 采用多维数据库实现的联机分析应用我们称之为m o l a p 。多维数据库在针对 小型的多维分析应用有较好的效果,但它缺少关系数据库所拥有的并行处理 及大规模数据管理扩展性,因此难以承担大型数据仓库应用。这样的状态直 到星型模式在关系数据库设计中得到广泛的应用才彻底改变。几年前,数据 仓库专家们发现,关系数据库若采用“星型模式”来组织数据就能很好地解 决多维分析的问题。“星型模式”只不过是数据库设计中数据表之间的一种 关联形式,它的巧妙之处在于能够找到一个固定的算法,将用户的多维查询 请求转换成针对该数据模式的标准s q l 语句,而且该语句是最优化的。“星 型模式”的应用为关系数据库在数据仓库领域打开绿灯。采用关系数据库实 现的联机分析应用称为r o l a p 。目前,大多数厂商提供的数据仓库解决方案 都采用r o l a p 。 在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支 持扩充的并行关系数据库将是数据仓库的核心。在市场上,数据库厂商将成 为数据仓库的中坚力量。 2 3 3 数据的表现 数据表现是数据仓库的门面。这是一个工具厂商的天下。它们主要集中 在多维分析、数理统计和数据挖掘方面。 多维分析是数据仓库的重要表现形式,由于m o l a p 系统是专用的,因此, 关于多维分析领域的工具和产品大多是r o l a p 工具。这些产品近两年来更加 注重提供基于w e b 的前端联机分析界面,而不仅仅是网上数据的发布。 数理统计原本与数据仓库没有直接的联系,但在实际的应用中,客户需 要通过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统 计相似,数据挖掘与数据仓库也没有直接的联系,而且这个概念在现实中有 些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要 主动地寻找并发现蕴藏在数据之中的规律。这听起来虽然很吸引人,但在实 现上却有很大的出入。市场上许多数据挖掘工具其实不过是数理统计的应用。 鏊塑垒壁垫查垄皇堕丝堡盗茎! 堕里星一 它们并不是真正寻找出数据的规律,而是验证尽可能多的假设,其中包括许 多毫无意义的组合,最后由人来判断其合理性。因此,在当前的数据仓库应 用中,有效地利用数理统计就已经能够获得可观的效益。 2 3 4 数据仓库设计的技术咨询 在数据仓库的实施过程中,有一些更为基本的问题需要解答。它们包括: 数据仓库提供哪些部门使用? 不同的部门怎样发挥数据仓库的决策效益? 数 据仓库需要存放哪些数据? 这些数据以什么样的结构存放? 数据从哪里装 载? 装载的频率多少为合适? 需要购置哪些数据管理的产品和工具来建立数 据仓库? 等等。这些问题依赖于特定的数据仓库系统,属于技术咨询的范畴。 事实上,数据仓库决不是简单的产品堆砌,它是综合性的解决方案和系 统工程。在数据仓库的实旌过程中,技术咨询服务至关重要,是一个不可缺 少的部分,它甚至于比购买产品更为重要。目前,数据仓库的技术咨询主要 来自数据仓库软件产品的供应商和独立的针对数据仓库技术的咨询公司。 2 3 5 数据仓库技术9 0 年代来的进展 9 0 年代以来,计算机技术,尤其是数据库技术的发展为d s s 提供了技术支 持。激烈的市场竞争促进了高层次决策人员对d s s 的实际需求。两方面的共 同作用,促成了以d w 为核心、以o l a p 和d m 工具为手段建设d s s 的可行方案。 d w 需要以下数据库技术的支持。 ( 1 ) 高性能数据库服务器。d w 的应用不同于传统d b 的o l t p 应用。传统 d b 的应用是操作型的,而d w 的应用是分析型的,它需要高性能的d b b l s 核心的 支持,以使较快地获得分析结果,这通常需数秒至数分钟。虽然比o l t p 的响应 时间长一些,但由于分析型应用涉及的数据量大,查询要求复杂,因此,对d b m s 核心的性能要求更高,同d b m s 必须具有良好的查询优化机制。 ( 2 ) 并行数据库技术。d w 中的数据量大,而且随着时间的延长,新的数据 还会不断进入。d w 中的数据库通常是g b 甚至t b 级的,可谓是超大规模数据 库( v l d b ) 。而并行数据库技术是存储和管理v l d b ,并提供对v l d b 复杂查询处 理的有效技术。 ( 3 ) 数据库互操作技术。d w 中的数据大多来自企业或行业中业已运行的 o l t p 数据库或外部的数据源。这些数据库常常是异构的,甚至是文件系统中 的数据。d w 必须从这些异构数据源中定期抽取、转换和集成所需要的数据, 并把它们存入d w 中。因此,异构数据源之间的互访和互操作技术是必需的。 塑塑垒壁丝查童鱼堕丝堕盗箜主堕窒旦 第三章s a s 数据仓库方法论 s a s 系统是用于数据分析和决策支持的大型集成式模块化软件包。六十 年代末到八十年代初以统计分析及线性数学模型为主,并以此闻名于世。故 其早期名为“s t a t i s t i c a l a n a l y s i ss y s t e m ”,s a s 即成为s a s 软件研究所( s a s i n s t i t u t ei n c ) 产品的总商标。由于使用s a s 系统成功地建立了许多卓有成效 的数据仓库,s a s 系统的数据仓库产品连续数年被美国著名的d a t a m a t i o n 评 为“年度最佳产品”。 3 1s a s 数据仓库的开发 利用s a s 技术建立数据仓库,在全世界已有数以千计的成功先例,从而 也积累了开发的经验和理论。根据s a s 的理论,建立一个数据仓库会有以下 五方面的工作:任务和环境的评估,需求的收集和分析,构造数据仓库,数 据仓库技术的培训,回顾、总结再发展,如图3 1 所示。 :y “继续 图3 1s a s 数据仓库开发过程 一1 6 一 数据仓库技术在电信经营决策中的应用 3 1 1 任务和环境的评估 数据仓库是建立在原有的运行系统之上的。因此要结合单位的现状来明 确数据仓库的目标任务。除了业务现状外,特别要搞清任务所面对的数据源 所在系统和其中的数据的状况。通过对这些情况的评估,看建立数据仓库的 这个任务是否是可行的,所能建立的数据仓库是不是用户所期望的,在此有 没有不可逾越的障碍。最好能确定评定将来数据仓库系统成功与否的基本原 则。 开展评估工作一定要有高层负责人参加,最好他就是将来使用数据仓库 部门的负责人。这样从他这里就可以了解到全部的业务工作状况。他也最清 楚今后的工作目标及对任务的期望以及和竞争对手比较有什么差距。在评估 工作开展过程中,他应当及时的提出问题,并检查、回顾工作的进展。在他 的领导下要组成一个项目组,并有以下人员参加:项目总负责人、与数据仓 库相关的所有业务单位的负责

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论