(计算机应用技术专业论文)电信统计分析平台etl工具的设计与实现.pdf_第1页
(计算机应用技术专业论文)电信统计分析平台etl工具的设计与实现.pdf_第2页
(计算机应用技术专业论文)电信统计分析平台etl工具的设计与实现.pdf_第3页
(计算机应用技术专业论文)电信统计分析平台etl工具的设计与实现.pdf_第4页
(计算机应用技术专业论文)电信统计分析平台etl工具的设计与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)电信统计分析平台etl工具的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电信统计分析平台e t l 工具的设计与实现 摘要 增值电信服务已经成为电信运营商的重要收入来源。在当前一切 以用户需求为驱动的市场环境下,分析用户需求,把握用户特点是开 发新业务的重点,电信统计分析平台应此需求而生。 彩铃统计平台( c s p ,c o l o r f l l lr i n g b a c kt o n es t a t i s t i cp 1 a t f o r m ) 是独立于彩铃业务的统计平台。它采集彩铃业务的运行数据,对用户 特征进行深度挖掘,为运营商提供运营策略依据。 业务分析平台( s a _ p ,s e i c e a m a l v s i sp l a 怕r m ) 采集智能网( i n , i n t e l l i g e n tn e 咐o r k ) 业务运行数据,对业务运行状况进行全面的分析 和评价,为智能网运维人员提供自动化辅助工具。 s a p 和c s p 都是典型的电信统计分析平台,其核心是格式多样, 数量巨大的数据。为了将这些数据集成到统计分析系统中,需要专用 的工具来完成这一任务,这就是e t l ( d a t ae x t r a c t ,d a t at r a l l s f 0 加, d a t al o a d 数据抽取,数据转换,数据加载) 工具。e l 工具从不同 环境和应用中抽取数据,对数据进行清洗和转化,形成清洁和统一的 数据,最终加载到目标数据库中。在此基础上,上层业务才能进行有 效的统计分析工作。 电信统计分析平台对于e 1 1 l 过程具有若干特殊要求数据类型 繁多、数据量巨大、需要控制采集端的性能、e t l 应该对频繁变化的 元数据进行自适应、应当具备采集实时数据的能力。这些特性在c s p 和s a p 系统中有突出表现。为了满足这些特殊需求,需要进行深入 的需求分析,才能给出相应的解决思路。 在需求分析和系统的设计实现过程中,可以积累大量实践经验, 进而总结出电信统计分析平台e t l 工具的若干特点,及其设计指导 原则。将这些经验和设计原则总结起来,就形成了一个适用于电信统 计分析平台e t l 工具的通用框架。这个框架结构灵活,效率理想。 不但可以满足已有需求,同时也具有良好的扩展性,可以与电信统计 分析平台一起演进,形成新一代e r r l 工具。 本文围绕电信统计分析平台e 1 几工具的设计展开论述:首先描述 了c s p 和s a t 这两个应用了e 1 阻技术的系统,然后对相关背景知识 数据仓库和联机分析处理( 0 l a p ,0 n l i i l e a 皿a l v s i sp f o c e s s ) ,进 行了简单介绍。第二章分析了e 1 1 l 建设过程中需要应对的关键需求, 并针对各个需求提出了相应解决思路。在此基础上,总结出了电信统 计分析平台e 1 l 工具的若干特点,指出了电信统计分析平台通用e 1 1 l 框架应当具备的基本特征。第三章,根据第二章的结论,设计并实现 了电信统计分析平台通用e t l 框架:首先简要介绍了e 1 l 框架的各 个组成模块,说明了各模块之间的关系;然后对每个模块的设计实现 进行了详细的描述。电信统计分析平台通用e 1 阻框架,是本文的核 心创新点。最后一章,分析了电信统计分析平台的发展方向,以及通 用e 1 几框架在电信统计分析平台中的应用前景。 关键词:e t l 电信统计分析平台数据仓库联机分析处理 d e s i g na n di m p l e m e n t a 0 n0 f e t lt 0 0 li n t 眦c o m m u n i c a t i o ns 1 a t i s t 【c sa n da n a l y s i sp l a i t o r m a b s t r a c t v 砒u e a d d e ds e i c e sh a v eb e c o n l et h em a i o ri n c o m es o u r c eo f t e l e c o m m u n i c a t i o no p e r a t o r s i nt h em a r k e td r i v e nb yu s e r s r e q u i r e m e n t s , a n a l y z i n gt l l eu s e rr e q u i r e m e n t sa n dd i g 酉n g o u tu s e rf e a t u r e sb e c o m et h e f o c a l p o i n t o fn e ws e r v i c e d e v e l o p m e n t a n dt b l e c o m m u n i c a t i o n s t a t i s t i c sa n da n a l v s i sp l a t f o r mi sd e s i g n e dt om e e ts u c hd e m a n d s c s pf c 0 1 0 r f u lr i i l g b a c kt b n es t a t i s t i c sp l a t f 0 姗) i sas t a t i s t i c p l a t f 0 珊i n d e p e n d e n tf r o mc r b t ( c o l o r f u lr i n 曲a c kt o n e ) p l a t f o r m c s pc o l l e c t so p e r a t i o nd a t af r o mc r b tp l a t f o r ma n dp e r f o r md a t a a n a l y s i sw o r k t op r o d u c es t a t i s t i c st oa s s i s tm a r k c t i i 培s t r a t e g y & 气pf s e r v i c ea n a l y s i sp 1 a t f o r 1 ) c o l l e c t ss e r v i c eo p e r a t i o nd a t ao f i n ( i n t e l l i g e n tn e t w o r l 【) ,柚a l y z e sa 1 1 de v a l u a t e st h es t a t u so fs e i c e ,a n d p r o v i d e sa u t o m a t i o na s s i s t a n c ef o rt h ei nm a i n t e n a n c ep e r s o n n e l b o t hc s pa n ds a - pa r et y p i c a lt e l e c o m n m n i c a t i o ns t a t i s t i c sa n d a n a l y s i sp l a t f o r i n s ,w h o s ec o r ea r ed a t ao fh u g ea m o u n ta n dd i v e r s et y p e s t bi n t e 铲a t et h e s ed a t ai n t ot h ea n a l y s i ss y s t e m ,s p e d f i ct o o l sa r en e e d e d , w h i c hi si 强lf d a t ae x c f a c t ,d a t a1 阡a n s f o f m ,d a t al o a d ) e t le x t r a c t s d a t af r o mv a r i o u se n v i r o n m e n t s ,c l e a na n dt r a n s f 0 瑚t h eo r i g i n a ld a t aa n d l o a dt h ec l e a nd a t ai n t od e s t i n a t i o nd a t a b a s e ,o nt h eb a s i so fw h i c h , s e r v i c e so f h i 曲e r l e v e l sc o u l dp e d b r mc h e i rw o r ke f :f i c i e n t l y 7 i e l e c o m m u n i c a t i o ns t a t i s t i c sa n da n a l v s i sp l a 廿b n nh a san u m b e ro f s p e c i f i cr e q u i r e m e n t sf b rm ee t lp r o c e s s :t h ee t ls h o u l dh a v et h e a b i l i t yt od e a lw i t h1 a r g ev a r i e t yo fd a c at y p e sa n dh u g ea m o u n to fd a t a ; t h ee t ls h o u l da d a p ti t s e l ft ot h ec h a n # r eo fm e t a d a t a ,a n ds h o u l d s u p p o nt h e r e a l t i m ed a t ac o l l e c t i o n t h e s ef e q u i r e m e n t sc o u l db e r e f l e c t e dc l e a r l vi nt h ec s pa n ds a ps v s t e m t bm e e tt h e s er e q u i r e m e n t s , d e t a i j e da n a l y s i si sn e e d e d ,o nt h eb a s i so fw h i c hs p e d f i cs o l u f i o nf o r e a c hr e q u i r e m e n tc o u l db ed e s i g n e d i nt h e p r o c e s s o fm es y s t e md e s i g na n di m p l e m e n t a t i o n ,l a 唱e a m o u n to fe x p e r i e n c e sa r ea c c u i 肌1 a t e d ,a n df e a t u r e so ft h ee t lt o o li n t e l e c o m m u n i c a c i o ns t a t i s t i c sa n da n a l y s i sp l a t f o r ma r es u m m a r i z e d ,a 1 1 d s o m eg u i d i n gp r i n c i p l e sc o u l da l s ob ed e d u c e d b yc o m b i n i n gt l l e s e e x p e f i e n c e s a n dp r i n c i p l e s ,ag e n e r a le t la r c h i t e c t u r et h a tc o u l db e a p p l i e di nt h et e l e c o m m u n i c a t i o ns t a t i s t i c sa n da n a l v s i sp l a t f o mc o u l db e 旦e n e r a t e d w i t haf l e x i b l es t m c t u r ea n di d e a lp e r f o 册a n c e ,m i s a r c h i t e c t i l r cc o u l dn o to n l yi n e e tt h ee x i s t i n gr e q u i r e m e n t s ,b u ta l s oc o u l d e v o l v et o g e t h e rw i mt h et e l e c o m m u n i c a t i o ns t a t i s t i c sa n da n a l y s i s p l a t f o r mt ob e c o m et h en e wg e n e r a t i o ne t lt 0 0 1 n i st h e s i sf o c u s e s 0 nt h ed e s i 窟no ft h ee t li nt h e 1 1 e l e c o m m u n i c a t i o ns t a t i s t i c sa n da n a l v s i sp 1 a t f o r m :f i r s to fa l l a n o u t l i n eo fc s pa n ds a pi sg i v e n ,i nw h i c he 肌t e c h n o l o g yw a sa p p l i e d ; t h e nt h er e l e v a n tb a c k g r o u n dk n o w l e d g ei s i n t r o d u c e d ,i n c l u d i n gd a t a w | a r e h o u s ea n do l 蛆( 0 n l i n e a n a l y s i sp f o c e s s ) i nc h a p t e r2 ,k e yi s s u e s e n c o u n t e r e dd u r i n gt h ed e v e l o p m e n ta f ea n a l y z e d ,a n dm e t h o d sf b re a c h i s s u ea r ed e s c r i b e d b a s e do nt h i s f e a t u f e so ft h ee t lt o o li n 1 e l e c o m m u n i c a t i o n ss t a t i s t i c sa n da n a l v s i ss v s t e ma r es u m m a r i z e d i n c h a p t e f3 ,t h ed e s i g na n dj m p l i 洳e n t a t i o nf o rg e n e r a l 勘阻a f c h i l e c t u f e a r e p r o p o s e d t h el a s tc h 印t e ra n a l y z e d t h ef u t u r e d e v e l 叩m e n to f t e l e c o m m n i c a t i o ns t a t i s t i c sa n da n a l v s i s p l a t f o r ma n dt h ef u t u r e a p p l i c a t i o nf o rg e n e r a le t l a r c h i t e c t u r e w o r d s :e t l ,t e l e c o m m u n i c a t i o nm a r k e t i n ga m a l y s i s p l a t f o r m ,d a t aw j r e h o u s e ,o l a j p 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 庄羁 日期: 迎z 幺幺 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 豳虱 导师签名 日期:筮受2 :生垒 f 1 期:力日车名 北京邮电大学硕士学位论文 电信统计分析平台e t l 工具的设计与实现 引言 电信市场逐步开放,新兴的运营商不断产生,电信市场的竞争同趋激烈。电 信业务形成了以用户需求为驱动的市场环境,电信增值业务已经成为运营商的重 要收入来源。接踵而来的问题是,用户群日益庞大,简单的统计数字已经不能准 确反映用户的需求状况;另外,业务运行网络结构日益复杂,业务的运行维护成 为棘手的问题。电信统计分析平台便应这种需求而生。 彩铃是一种应用十分广泛的增值业务,为运营商带来了丰厚的利润。运营商 希望能够对彩铃用户特征进行深度挖掘。彩铃统计分析平台( c s p ,c o l o r f i i l m n 曲a c k t 0 n es t a t i s t i cp l a t f 0 肌,) 就是为了满足这种需求而产生的。它采集彩铃 业务的运行数据,根据用户需求进行各种统计,为运营商的市场营销策略提供统 计数据的支持。 智能网( 玳,i n t e l l i g c n tn e 铆o r k ) 是用于产生和提供电信业务的体系概念, 它是叠加在程控交换网络上一层软件网络。目前智能网已经得到了广泛的应用, 其规模也在不停地膨胀,其维护难度也跟随其规模与闩俱增。业务分析平台 ( s a p ,s e r v i c e a m a i v s i sp 1 a t f o m ,) 的主要功能是,采集智能网业务运行数据, 对业务运行状况进行全面的分析和评价,为运维人员提供自动化辅助工具。 s a p 和c s p 两个系统的核心都是格式多样,数量巨大的电信业务运行数据。 为了将这些格式、来源不一的数据集成到统计分析系统中,需要专用的工具来完 成这一任务,这就是即凡( d a t ae x t r a d ,d a t at r 锄s f 0 珊,d a t al o a d ,数据抽取, 数据转换,数据加载) 工具。勘凡是统计分析平台的核心和灵魂,它按照统一的 规则集成并提高数据的价值,负责将源数据转化为符合需求的目标数据。在此基 础上,上层业务才能进行有效的统计分析工作。 c s p 和s a p 体现了电信统计分析平台的许多共同特性。在对这两个系统的 e 1 m 部分进行需求分析和设计实现的过程中,我们积累了很多经验,得到了电信 统计分析平台e t l 工具的若干设计原则。将这些经验和设计原则总结起来,就 形成了一个适用于电信统计分析平台翻几工具的通用框架。 本文将围绕电信统计分析平台e 1 l 工具的设计实现展开论述: 第一章,首先描述了c s p 和s a p 这两个应用了e r l 技术的系统,介绍了它 们的应用背景,概括描述了这两个系统的总体框架;然后对相关背景知识数 北京邮电大学网络与交换技术国家重点实验室 3 北京邮电大学顾l 学位论文电信统计分析平台e 1 l 工具的设计与实现 据仓库和联机分析处理( 0 l 蛆,o n l i n e a n a l v s i sp r o c e s s ) ,进行了简单介绍,并 指出了c s p 和s a _ p 项目与数据仓库及o u 廿应用的关系。 第二章分析了电信e t l 工具需要应对的关键需求,针对各个需求提出了相应 解决思路。在此基础上,总结出了电信统计分析平台e 1 r l 工具的若干特点,指 出了电信统计分析平台通用e 1 儿框架应当具备的基本特征。 第三章,根据第二章的结论,首先简要介绍了电信统计分析平台通用e 1 凡 框架的各个组成模块,说明了各模块之间的关系;然后对每个模块的设计实现进 行了详细的描述,着重讲解了各模块如何满足第二章中总结出的各个特征。 最后一章,分析了电信统计分析平台的演化方向,指出电信统计分析平台将 会演变成综合的b i 系统,e t l 是b l 系统的主要支撑技术之一;在此基础上,对 本文提出的通用e 1 几架构未来的应用前景进行了阐述。 本文提出的电信统计分析平台通用e t l 框架结构灵活,效率理想,实现代价 合理。不但可以满足已有需求,同时也具有良好的扩展性,可以与电信统计分析 平台一起演进,形成新一代e t l 工具。因此对于今后电信统计分析平台e t l 工 具的设计实现具有十分重要的借鉴意义。 北京邮电大学网络与交换技术国家重点实验室 4 北京邮电大学硕七学位论文 电信统计分析平台e i l 工具的设计与实现 第一章背景介绍 1 1 电信统计分析平台介绍 本文的目标是提出一种适用于电信统计分析平台的,通用的明几框架。这个 框架的特征是基于对c s p 和s a _ p 系统中e t l 部分建设经验的总结。因此,我们 将从c s p 和s a p 系统入手,首先介绍这两个电信统计分析系统的应用背景,基 本架构。在此基础上,展开对电信统计分析平台特征的总结和分析。 1 1 1c s p 系统简介 彩铃是一种典型的增值电信业务。随着彩铃业务的迅猛发展,彩铃系统的统 计需求越来越多。这些统计的实现一般都需要加载到彩铃的业务主机,这在一定 程度上,消耗了彩铃系统的主机资源,影响了彩铃系统的正常运行,而且统计结 果不够灵活,及时性不强,统计操作一般都只能在夜间执行。彩铃统计平台( 以 下简称c s p ) 系统,是专为彩铃系统提出的统计解决方案。c s p 将统计任务从现 网主机上抽离到独立的统计主机,充分利用统计主机的计算能力和存储资源,高 效完成各种统计任务。由于c s p 系统建设在独立的统计主机上,因此使得深度 数据挖掘成为可能,将海量信息转化为可以使用的知识,提供彩铃业务的深度运 营和分析,为彩铃业务的营销和推广提供更有力的支撑。 将用户相关数据信息化、系统化,并利用统计分析软件建立分析模型, 以 展现、挖掘或分析原始信息之问的关系以及更深层次的内容,是电信市场经营分 析系统的立足之本。在进行需求分析时,考虑到增值业务运行平台具有广泛的市 场前景,鉴于电信增值业务的相通之处,我们认为,c s p 系统最先应用于彩铃业 务,但并不局限于彩铃业务。c s p 提供的分析平台框架应当具有良好的扩展性, 可以快速高效地扩展为通用增值业务分析平台i l j 。 要建设通用的业务分析平台,就必须考虑到,系统需要接纳来源于其他增值 业务的数据记录。彩铃系统原本有专用的数据同步工具引擎( d s e n ,d a t a s y l l c h r o n i z a t i o ne n 画n e ) ,它完全依赖于彩铃业务逻辑,对其他业务完全没有兼 容性。因此,通用数据采集模块,是c s p 中不可缺少的部分。 北京邮电大学网络与交换技术国家重点实验室 5 北京邮电大学硕上学位论文电信统计分析平台e t l 工具的世计与实现 c s p 系统按照功能划分为三个层次,如图1 1 所示1 3 爹 数 ;錾 ; 现 i 数 | 錾 理 一 w e b 数据呈现层 e x c e lt x td b 。j 。二。 数据处理层 , ”r 一一 数据采集层 dse no d b cf t p 图卜lc s p 系统结构图 _ 数据采集层:负责不同数据源的适配与数据的采集。数据来源于现网业务的 运行数据库,采集加载到为c s p 系统专门设置的统计服务器上。有o d b c , f 1 限等多种采集方式; _ 数据加工层:将加载到数据库中的原始数据按照预置条件进行加工,加工结 果作为统计结果表存储在数据库中; _ 数据呈现层:为用户提供图形化接入界面,对处理后的数据通过不同的方式 予以表现。 1 1 2s p 系统简介 近年来,移动智能网系统在移动通信中得到了广泛的应用,移动智能网已经 成为了移动通信中的处理智能业务的核心网络。以四川移动智能网为例,整个智 能网系统分布在几个机房中,包括几十台主机。随着智能网系统的逐渐增大,运 行环境日益复杂,这增加了工程维护的难度,对一些故障进行定位和处理需要花 费大量时间。为了快速定位和处理故障,提高维护人员工作效率,并且从全局把 握系统、业务运行状况,需要一套完整的业务分析系统。通过对系统同志、数据 库、话单文件和相关系统数据的采集,综合分析,完成对故障的处理以及业务的 统计分析,进而实现对智能网的全局运行评价。 结合业务开发人员、维护人员、以及运营商各方面的意见,我们将业务分析 系统需求归纳为如下四类: 北京邮电大学网络与交换技术国家重点实验室6 群。 ;,一lll一 数据采集 北京邮屯大学硕士学位论文 电信统计分析平台e t l 工具的设计与实现 1 业务故障分析 四川二卡合一、v p m n 、彩铃用户较多,出现的故障也较多。对这些业务的 故障处理一般需要查询大量的日志文件和数据库记录。业务分析系统向系统维护 人员需要了解智能网组网方案,对每个业务的实现原理有比较深入的理解。在故 障排查时,需要手动连接到多台主机,多个业务数据库,手动输入s o l 语句进 行数据库记录查询,或者u n d ( 几矾u x 系统提供简单检索工具对日志进行检索。 维护人员普遍反映,迫切需要一种归一化图形操作维护界面,通过输入简单信息, 就能够自动查询相关的日志、话单文件、数据库,并将查询结果显示出来或者提 供故障的解决方案。实现故障处理的自动化和智能化。 2 业务统计分析 四川智能网系统提供多种业务。业务分析系统需要提供二卡合一、m n 、 彩铃业务的统计分析。统计分析系统应当提供多主题、多角度、多维度统计查询 手段。可以对各个业务或按照业务的各个属性进行查询统计:对智能网相关接口 进行查询统计;对业务使用情况、开展情况进行查询统计;对业务的系统运行情 况进行查询统计。这些数据,有些可以从网管采集,有些需要分析日志,数据库 记录,然后进行统计综合后得出。 通过业务的各种统计指标及丰富的报表数据,业务维护人员能够全面掌握全 网、全业务的运行情况。 3 业务运行分析 通过对业务运行情况的统计查询,获取各种系统运行关键指标,在此基础上 对系统运行质量进行建模,形成全网全业务的运行质量评估报告,从而对系统维 护和业务开展进行指导。业务运行分析的主要对象有系统日志、业务数据状态、 关键业务指标。 4 数据备份和统一管理 智能网每天会产生大量的业务运行数据,包括业务系统同志文件、话单文件、 网管系统数据,业务运行数据记录等格式不一,来源广泛的数据。这些数据对于 评估系统运行状况,处理用户投诉,分析用户特征并对业务进行深度挖掘具有十 分重要的意义。因此需要对这些数据统一备份和管理。并且为了应对日后的查询 和检索需求,需要针对每一类数据提供一致的检索接口,形成完整的数据统一化 处理手段1 2 j 。 s a p 按照功能层次,也划分为三层,如图1 2 所示幢j : 北京邮电大学网络与交换技术国家重点实验室 7 北京邮电大学硕士学位论文 电信统计分析半台e 孔工具的驶汁勺实现 i 译面蘑一一一。一+ 一一+ 一一+ 一。一一一i :围困圈囡: f 强务基一一一一一一一一一一一一i ;圈圈圈圈图i r 薮据层 :圈困 ;目圄国亩 l l 目 ! 国 i i 占 图卜2s p 系统结构图 - 数据层:从业务主机上采集业务层需要的多种类型的源数据,对源数据进行 清洗和整理,加载到数据库以及文件系统中,并向业务层提供统一的访问接 口。 业务层:从数据层提取数据,根据预置的处理规则,对数据进行计算和逻辑 判断,得出用户需要的结果数据。 一界面层:为用户提供图形化接入界面,以直观的方式向用户呈现分析结果和 统计数据。 c s p 系统是为了满足运营商对业务发展的需求而设立的,主要产生运营分析 数据。而s a p 系统主要用提供业务运行维护的辅助手段,涉及的数据类型也比 c s p 系统要广泛。虽然二者满足的需求完全不同,但是它们对数据的需求具有相 同之处:它们都需要一个通用的数据采集模块,将分布在各个主机上的数据集中 到统计主机;采集来的数据都应当以统一、标准的形式呈现给业务层。因此,对 于电信统计分析平台来说,数据层是系统的基础设施,是不可或缺的组成部分。 1 2 背景知识介绍 1 2 1 数据仓库 数据仓库概念始于2 0 世纪8 0 年代,首次在数据仓库之父w i l l j 枷h i n m o n 北京邮电大学网络与交换技术国家重点实验室 8 北京邮电大学硕士学位论文电信统计分析平台e i l 工具的设计与实现 的建立数据仓库一书中出现。数据仓库是企业管理和决策中面向主题的、集 成的、与时间相关的、不可修改的集合,用于支持经营管理中的决策过程。与传 统的联机事务处理系统相比,数据仓库中的数据具有如下特点: 一面向主题 面向主题是数据仓库最重要的特征之一。传统的数据是面向应用的,数据与 应用紧密相连,而数据仓库则是面向主题的,主题是在一个较高层次上的将数据 归类的标准。基于主题的数据相互逻辑上是不交叉的。 一集成性 当前很多企业内的数据是分散的而非集成的。造成这种分散性的主要原因是 事务处理的分散性、数据的不一致性、外部数据和非结构化数据。数据仓库中的 数据来源于这些现行的业务系统或管理信息系统,而这些系统是相互独立的,在 数据字典、编码规则、命名方式和关键字之间等各个方面各不相同,甚至相互矛 盾。在进入数据仓库之前必须对这些数据进行合理的重组、转换、清洗和集成, 使原始数据结构从面向应用到面向主题转变,以适应数据仓库面向主题的要求。 _ 稳定性 数据仓库中的数据主要是为信息分析和管理决策服务的,需要长期的积累, 通常是通过对大量原始数据经过清洗、加工和集成后进入数据仓库的,因此根本 或很少修改,具有稳定性。 _ 强调时间序列 一般应用的应用中的数据可以不包含时间因素,而只表示当l ; 情况,是企业 当前情况的瞬间映像。数据仓库中的数据是企业在以前各个时间点的瞬间映像, 是以时间为变量的动态过程,这样才能发现和挖掘出事务在动态变化过程中的内 在规律,为决策提供支持c 4 ,5 】。 1 2 2 联机分析处理 目前建立在数据仓库基础之上的一种非常广泛的应用是联机分析处理 ( o “”) 。1 9 9 3 年,e f c o d d 提出了多维数据库和多维分析的概念,即0 “廿 技术概念。o u 冲是使分析人员、管理人员或执行人员能够从多种角度对从原始 数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进 行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。它 的技术核心是“维”这个概念。维,是人们观察数据的特定角度,是考虑问题时 北京邮电大学网络与交换技术国家重点实验室 9 北京邮电大学硕士学位论文电信统计分析,p 台e t l 工具的设计0 实现 的一类属性,属性集合构成一个维( 时间维、地理维等) 。 e f :c o d d 同时提出了关于o k 圩的1 2 条准则,0 l a p 作为一类产品同联机 事务处理( o l l l p ) 明显区分开来。这1 2 条准则包括: - 准则1 :o l 谨模型必须提供多维概念视图 - 准则2 :透明性准则 _ 准则3 :存取能力推测 _ 准则4 :稳定的报表能力 准则5 ;客户朋艮务器体系结构 准则6 :维的等同性准则 - 准则7 :动态的稀疏矩阵处理准则 - 准则8 :多用户支持能力准则 准则9 :非受限的跨维操作 准则l o :直观的数据操纵 准则1 1 :灵活的报表生成 - 准则1 2 :不受限的维与聚集层次 o l l p 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理, 例如银行交易。o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重 决策支持,并且提供直观易懂的查询结果。表1 1 列出了0 珊与0 l 垤之间的 比较【6 】。 表卜10 l t p 与0 l a p 特征对比 o l t p0 l a p 用户操作人员,低层管理人员 决策人员,高级管理人员 功能 f 1 常操作处理分析决策 d b 设计面向应用面向主题 当f j i 的,最新的细节的。二历史的,聚集的,多维的集成 数据 维的、分立的的、统一的 存取读写数十条记录读上百力条记录 工作单位简单的事务复杂的查询 用户数上千个上百个 北京邮电人学网络与交换技术国家重点实验室1 0 北京邮电大学硕上学位论文 电信统计分析平台e t l _ 丁具的设计与实现 联机分析处理的用户是企业中的专业分析人员及管理决策人员,直接仿照用 户的多角度思考模式,预先为用户组建多维的数据模型。维是o i a p 模型中最 核心的概念,指的是用户的分析角度。例如对销售数据的分析,时间周期是一个 维度,产品类别、分销渠道、地理分布、客户群类也分别是一个维度。一旦多维 数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在各 个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。这也是联机 分析处理在近年来被广泛关注的根本原因,它从设计理念和真正实现上都与旧 有的管理信息系统有着本质的区别【7 】。 1 2 3e t l e 1 1 l 即d 咖e x t r a c t i 伽、d a t a1 r 彻s f o 姗a t i 、d a t al d a d i n g ( 数据抽取、转 换和加载) ,此名称准确揭示了它的用途和工作流程,其主要功能包括: 数据的抽取:从不同的网络、不同的操作平台、不同的数据库及数据格式、 不同的应用中抽取数据;在数据抽取之前,首先要考虑源数据环境和e 1 m 开发 环境,根据e 1 m 实际,考虑抽取的效率和可靠性,选择合适的源数据接口。另 外,电信业务每天生成大量运行数据,为了减小业务主机的数据抽取负荷,节约 有限的带宽,也为了节省统计主机的存储空间,需要制定相应的抽取规则,抽取 与主题相关的数据内容。 数据的转化:由数据的转化( 数据的合并、汇总、过滤、转换等) 、数据的重 新格式化和计算、关键数据的重新构建和数据总结、数据定位等子任务组成。每 个子任务并不是必要的,可以根据实际情况进行取舍。 数据的加载:跨网络、跨操作平台,将数据按照物理数据模型定义的表结构 装入目标数据库中。加载方式通常有如下几种:刷新、镜像增量、事件增量、镜 像比较。数据加载的接口也有o d b c ,数据库a p i 等多种。在进行选择的时候, 需要根据实现代价,效率,扩展性综合考虑,选择合适的解决方案。 建设数据仓库需要集成来自多种业务数据源中的数据,这些数据源可能处在 不同的硬件和操作系统之上,在编码、命名、数据类型、语义等方面都存在较大 的冲突,因此如何向数据仓库中加载这些数量大、种类多的数据,成为建立数据 仓库所面临的一个关键问题。如果最终加载的信息不准确,那么这个数据仓库 便会形同虚设,所以将操作数据导人数据仓库的过程,必须经过精心的规划和设 计,并建立一个相对独立的系统来完成数据转换工作,这就是肌的意义所在。 劭 l 的本质是数据转换器,它提供一种从源到目标系统的数据转换的方法。 北京邮电大学网络与交换技术国家重点实验室 1 1 北京邮电大学硕l 学位论文电信统计分析,卜台e t l 工具的设计与实现 e 1 几是商业智能系统和数据仓库的核心和灵魂,它按照统一的规则集成并提高数 据的价值,负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库 的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的 话,那么e 1 r l 就是建设大厦的过程。在整个数据仓库项目中最难部分是用户需 求分析和模型设计,而e t l 规则设计和实施则是工作量最大的,其工作量要占 整个项目的6 0 - 8 0 ,这是国内外从众多实践中得到的普遍共识 8 】。 1 2 4s p 、c s p 与数据仓库、联机分析处理以及e t l 概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数 据进行快速和准确分析,辅助做出更好的商业决策的系统。它本身包括三部分内 容: - 数据层。实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据, 并存储在企业级的中心信息数据库中。 - 应用层。通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据 的分析。 - 表现层。通过前台分析工具,将查询报表、统计分析、多维联机分析和数据 发掘的结论展现在用户面前。 数据仓库的三层结构,与s a p 和c s p 系统的架构设计完全一致。 可以说s a p 和c s p 系统具有数据仓库的基本特征:都是面向主题的,稳定 的,一经写入从不或者很少修改的。& 和c s p 与典型数据仓库唯一的区别在 于,二者与动辄耗资百万美元的企业级数据仓库在规模上有所差别。 首先来分析c s p 系统的需求。根据运营商提出的需求,确定的彩铃分析统计 需求名称及简要说明如表1 2 所示 7 】: 表卜2c s p 需求列表 统计需求名称需求简要说明 使用偏好分析一分铃音统计使用每一类铃音的用户数量 使用偏好分析一分用户统计全球通,神州行,动感地带等类型用户的使用 偏好 使用偏好分析一分密度根据铃音下载的密度,统计分属每一密度的铃音数 量 无线音乐排行榜一分用户统计不同类型用户的彩铃使用情况 无线音乐排行榜一分费用根据费用,统计每种费用的铃音下载数量 北京邮电大学网络与交换技术国家重点实验室 北京邮电大学硕+ 学位论文电信统计分析平台e t l 工具的设计与实现 受理渠道分析一用户统计通过每一种渠道进行铃音下载的用户数量 梦网彩铃分铃音逐条统计现网所有的铃音,得出铃音下载量排行榜 梦网彩铃分s p统计各s p 提供铃音的下载数量 彩铃业务主机性能统计彩铃业务主机性能 可以看出,为了得到彩铃用户的使用偏好特征,运营商希望针对铃音下载这 一事实,分别在用户类别,铃音价格,下载密度,时间,铃音所属s p 等多个维 度进行统计,具有明显的o “奸多维度统计特征。 c s p 是一个小规模的数据仓库加o l 址应用。它是一个数据来源相对比较单 纯的统计平台,其主要目的是满足用户的统计需求。源数据来源于彩铃业务运行 数据库,目的数据需要加载到统计主机上的关系型数据库里。业务运行数据库是 传统关系型o l l - p 数据库,表结构不能满足o l 廿应用的需求。要在h f o 肋奴 这样的关系型数据库上实现o l 廿统计,需要对数据进行结构转化,建立星形 表结构。在此基础上,数据处理层才得以快速地得出统计结果并呈现给最终用户。 提供0 l 廿服务并非c s p 系统的最终目的。系统在投入使用之后,所有与 用户行为特征相关的数据表都被保留下来,为日后数据挖掘应用积累原始数据。 某些事务型操作数据表,比如用户表,原先并不存在时自j 维度,彩铃业务逻辑直 接在用户表上修改状态。如何使用最少的资源存储扩展了时间维度的用户表,是 一个非常重要和有趣的问题。 而在s a p 系统中,为了满足故障处理需求,需要采集分布在数十台主机上的 非结构化运行日志,多种接口的结构化接口文件。这正是数据仓库集成性的突出 体现。如何重构这些非结构化数据,设计合理的数据组织管理方案,以便分析层 可以使用合理的时间和空间开销来取得所需数据,是s a p 的e t l 层需要着重考 虑的因素。 s a p 系统中的即亿,着重考虑对多种格式数据的清洗和处理问题。s a p 作为 综合性分析平台,将来可能接纳更多类型的数据。e 1 几应当为更多数据类型留出 扩展空间。 在c s p 和& 心的设计过程中,我们一直按照轻量级数据仓库的思路来建设 后台数据系统,借鉴了许多数据仓库建设的思想,同时也保证了建成后的数据仓 库可以作为今后其他应用的基础设施继续发挥作用。设计合理的e 1 几设施,不 但可以减轻e ,r l 规则设计的工作量,更可以向上层应用提供方便的接口,减少 数据处理层的开发代价,从而缩减整个项目的工作量。 两个系统的e t l 模块功能并非完全一致。c s p 侧重于数据的深度挖掘,s a p 则侧重于数据广度应用。这两个各有特色的平台,可以覆盖电信统计分析平台的 北京邮电大学网络与交换技术国家重点实验室1 3 北京邮电大学硕士学位论文电信统计分析,p 台e t l 工具的设计勺实现 主要特色。通过对这两个系统中e t l 模块进行分析,我们可以得到通用吼工 具框架应当具有的各种特征。 1 3 本章小结 c s p 和s a p 是两个侧重点有所不同的轻量级数据仓库系统,它们分别代表 了一类典型的电信统计分析平台: c s p 是为了提供专业的统计和数据挖掘服务而建立的独立统计平台,专 注于业务运行数据的统计和分析,为电信运营商营销策略提供依据;c s p 所处理的数据类型单一,全部来源于增值业务运行数据库。向用户呈现 的是体现用户特征的统计数据。 一s a _ p 侧重于智能网运行状况的评价和分析。s a _ p 的数据种类非常丰富, 并且今后会接纳更多的数据类型。通过分析和总结各类数据,向用户呈 现智能网运行情况的综合评价结果。辅助业务维护人员及早发现故障隐 患,快速处理用户投诉,高效确定故障原因,提高智能网运行质量: 二者也有相同之处:两个系统的基础与核心部分都是数据来源于智能网 系统的典型的电信运行数据,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论