(电路与系统专业论文)电信行业收入保障系统关键技术研究.pdf_第1页
(电路与系统专业论文)电信行业收入保障系统关键技术研究.pdf_第2页
(电路与系统专业论文)电信行业收入保障系统关键技术研究.pdf_第3页
(电路与系统专业论文)电信行业收入保障系统关键技术研究.pdf_第4页
(电路与系统专业论文)电信行业收入保障系统关键技术研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(电路与系统专业论文)电信行业收入保障系统关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 l i l i l li i i ii ii t l1 1 1 11111l y 19116 4 8 电信行业的竞争日益激烈,使得电信行业收入保障系统正成为全球各 大电信运营商近年来极为关心的话题。电信行业的收入保障系统就是通过 对电信运营商现有的运营流程与业务支持系统的调查研究,从而确定收入 泄漏点,来最终阻止收入流失,并起到预防收入流失发生的系统。收入保 障不仅能够帮助电信企业降低收入流失,而且能够帮助电信企业建立起规 范的收入保障流程,最终提高运营效率和企业的利润。 本文通过研究国内外收入保障的现状,并分析了收入保障系统在电信 行业的实施情况。对电信行业收入保障系统中异构数据集成技术、海量数 据稽核技术、数据可视化和数据挖掘应用技术三个关键技术进行详细阐述, 并给出相应的解决方案。在异构数据集成技术部分,从异构数据集成的基 本概念入手,介绍了异构数据集成技术的模式与传统的异构数据集成方法, 最后在两种经典的数据集成体系结构的基础上,采用了一种适合电信行业 收入保障系统建设需求的新型异构数据集成体系结构。在海量数据稽核技 术部分,首先介绍了收入保障系统中数据稽核的目的和意义,然后研究了 基于数据平衡关系的数据稽核方法,最后,给出了海量数据比对的新方法, 并针对电信业海量话单数据稽核的特殊性,给出了准实时的海量话单数据 比对方法,此方法分为话单数据分割、排序和比对三个步骤,大大降低了 数据比对时间。最后一部分是数据可视化和数据挖掘在收入保障中的应用。 在这部分里,首先对数据可视化方法和数据挖掘技术进行了简要介绍,然 后研究了平行坐标和t r e e m a p s 这两种高维可视化技术在收入保障中的应 i 用,并结合数据挖掘技术,给出了一种新的数据挖掘方法,在数据差异产 a b s t r a c t w i t hi n c r e a s i n g l y f i e r c e c o m p e t i t i o n i nt e l e c o m m u n i c a t i o n si n d u s t r y , r e v e n u ea s s u m c ei st u r n i n gi n t oah o tt o p i cf o rt h ew o r l d sm a j o rt e l e c o m o p e r a t o r sr e c e n t l y t h es o c a l l e d r e v e n u ea s s u r a n c ei st od e t e ra n dp r e v e n t r e v e n u el o s s e st h r o u g hi n v e s t i g a t i o na n dd i a g n o s i so f e x i s t e db u s i n e s sf l o wa n d i n f o r m a t i o ns y s t e m st od e t e r m i n et h e a s s u r a n c ec a nn o to n l yh e l pt e l e c o m s p o i n t s o f r e v e n u el o s s e s r e v e n u e r e d u c er e v e n u el o s s e sa n di m p r o v e c o r p o r a t i o ne f f i c i e n c y , b u ta l s oe s t a b l i s hs t a n d a r dr e v e n u ea s s u r a n c ef l o w a n d i m p r o v eo p e r a t i o ne f f i c i e n c y i nt h i sp a p e r , t h es t a t u so f r e v e n u ea s s u r a n c ea th o m ea n da b r o a dh a sb e e n 咖d i e d a n dt h ei m p l e m e n t a t i o no f r e v e n u ea s s u r a n c es y s t e mh a sb e e n a n a l y z e di n t h et e l e c o m m u n i c a t i o n si n d u s t r y t h r e ek e yt e c h n o l o g i e s o f r e v e n u e s u p p o r ts y s t e m s f o rt h et e l e c o m m u n i c a t i o n si n d u s t r y , i n c l u d e h e t e r o g e n e o u sd a t ai n t e g r a t i o nt e c h n o l o g y , m a s sd a t aa u d i t ,d a t av i s u a l i z a t i o n a n dd a t am i n i n gt e c h n i q u e s ,h a v eb e e ne x p o u n d e d o ni nd e t a i la n dt h es o l u t i o n s w a sp r o p o s e d i nt h ep a r to fh e t e r o g e n e o u sd a t ai n t e g r a t i o nt e c h n o l o g y , t h em o d e l a n d t r a d i t i o n a lm e t h o df o rh e t e r o g e n e o u sd a t ai n t e g r a t i o nw a si n t r o d u c e df r o m t h e b a s i cc o n c e p to fh e t e r o g e n e o u sd a t ai n t e g r a t i o n ,a n dan e wh e t e r o g e n e o u s d a t a i n t e g r a t i o n a r c h i t e c t u r ew h i c h m e e t st h ed e m a n d so ft e l e c o m m u n i c a t i o n s i n d u s t r yw a sp r o p o s e d b a s e do nt w oc l a s s i cd a t ai n t e g r a t i o na r c h i t e c t u r e i nt h ep a r to ft h em a s s i v ed a t a a u d i tt e c h n i q u e s ,t h ep u r p o s ea n d s i g n i f i c a n c eo ft h ed a t aa u d i to fr e v e n u ea s s u r a n c es y s t e mw a si n t r o d u c e d f i r s t l y ,a n dt h e nt h eb a l a n c er e l a t i o n s h i pf o rd a t aa u d i tm e t h o dw a s s t u d i e d f i n a l l y , an e w m a s s i v ed a t ac o m p a r i s o nm e t h o dw a sp r o p o s e d a i m i n ga tt h e p a r t i c u l a r i t yo fm a s s i v eb i l l i n gd a t aa u d i t i nt e l e c o m m u n i c a t i o n si n d u s t r y , a n e a rr e a l t i m em a s sb i l l i n gd a t ac o m p a r i s o nm e t h o d ,w h i c hh a st h r e es t e p s o f t e l e p h o n eb i l l i n gd a t as e g m e n t a t i o n ,s o r t i n ga n dm a t c h i n g ,w a sp r e s e n t e d t o g r e a t l yr e d u c et h et i m ef o r d a t ac o m p a r i s o n 1 1 i t h el a s tp a r te l a b o r a t e st h ea p p l i c a t i o no fd a t av i s u a l i z a t i o na n dd a t a m i n i n g i nt h er e v e n u ea s s u r a n c e i nt h i s s e c t i o n ,t h e m e t h o do fd a t a v i s u a l i z a t i o na n dd a t am i n i n gt e c h n i q u e sa r eb r i e f l yi n t r o d u c e d ,a n dt h e nt h e a p p l i c a t i o no ft w oh i g h d i m e n s i o n a lv i s u a l i z a t i o nt e c h n o l o g i e si nt h er e v e n u e a s s u r a n c e ,p a r a l l e lc o o r d i n a t e sa n dt r e e m a p s ,w a ss t u d i e d b yc o m b i n i n gw i t h d a t am i n i n gt e c h n o l o g y , an e wm i n i n gm e t h o df o rd a t av i s u a l i z a t i o nw a s p r o p o s e da n dp l a y sag o o dr o l ei nh o w t of i n dt h er e a s o no fd i f f e r e n t i a ld a t a k e y w o r d s :r e v e n u ea s s u r a n c e ;h e t e r o g e n e o u sd a t ai n t e g r a t i o n ;d a t aa u d i t i n g ; d a t ac o m p a r e i v 目录 摘要i a b s t r a c t i i i 1 绪论1 1 1 研究背景及意义1 1 2 电信收入保障概述2 1 3 国内外研究现状4 1 4 研究内容6 1 5 论文的结构“7 2 异构数据集成研究8 2 1 异构数据集成简述8 2 1 1 异构数据分类8 2 1 2 异构数据集成方案1o 2 2 数据集成的体系结构1 3 2 2 1 m e d i a t o r w r a p p e r 体系结构1 3 2 2 2 数据仓库l5 2 3 针对收入保障系统的解决方案1 6 2 4 小结。19 3 数据稽核研究2 0 3 1 数据稽核相关概念2 0 3 1 1 稽核点2 0 3 1 2 稽核分析2 0 3 1 3 稽核规则2 2 3 2 数据稽核需求2 3 3 2 1 收入管理链。2 3 3 2 1 各环节的稽核需求2 4 3 3 海量数据比对算法2 8 3 3 1 并行比对算法2 8 3 3 2 针对海量话单的数据比对算法3 5 3 4 小结3 7 4 数据可视化与数据挖掘应用2 3 9 4 1t r e e m a p s 在收入保障中的应用3 9 4 1 1 t r e e m a p s 的概述4 0 4 1 2 t r e e m a p s 的实现4 2 4 1 - 3 t r e e m a p s 在收入保障中的应用4 3 4 2 聚类在收入保障中的应用一一4 8 4 2 1 聚类算法分类5 0 4 2 2 平行坐标可视化5 2 4 2 3 抽样方法5 3 4 2 4p c pm e a n s 步骤5 4 4 2 5 实例描述5 7 4 3 小结5 9 5 总结与展望6 0 5 1 总结:6 0 5 2 展望6 1 参考文献2 6 2 附录6 6 致谢。6 7 电信行业收入保障系统关键技术研究 1 绪论 1 1 研究背景及意义 在过去相当长的一段时间里,营业收入流失的现象在电信行业看来, 尽管是不利的,却也无法避免。有研究报告在综合考虑不同业务类别、地 域、运营商类别以及其他因素之后,评估各运营商的营业收入流失程序在 3 一- - 1 5 之间【1 1 。实际上,几十年来电信运营商一直对运营和服务进行监 控和计费,那为什么近年来电信运营商突然加大了对收入保障的关注程度, 为什么电信运营商会对这个问题投入这么大的精力呢? 主要有如下几个原 斟1 1 。 ( 1 ) 来自利润的压力。电信业经过近十年的高速发展,高利润时代已 经过去。对运营商来讲,一方面要努力寻找新的利润增加点来提高盈利, 另一方面就是减少收入流失,削减运营成本。而收入保障正好可以有效减 少收入流失,降低运营成本,成为增加收入的新途径。 ( 2 ) 来自监管的压力。新的电信管制政策,如萨班斯奥克斯利法案 ( s o x ,s a r b a n e so x l e ya c t ) 和欧盟的“八号指令 ,要求电信运营商加强 对其自身收入状况的监控和报告,这样,管理层只能采用更全面、更透明 的收入保障体系,才能获取完整的数据。另外,电信运营商管理层迫于法 规审查和监管的压力,也必须能够清楚、明确地向股东和公众提供相关运 营数据。 ( 3 ) 来自创新的压力。随着电信技术和市场的快速发展,充满了竞争 和活力并且难以预测的市场要求运营商更快速地响应变化、更短时间投放 硕士学位论文 市场,而现有的收入管理和支撑系统难以满足需求。收入保障系统的错误 率毫无疑问也会增加。 上面列举的三个主要原因,不管从哪个角度来看,电信运营商都需要 改进收入保障管理体系,持续提升收入保障管理水平,以确保公司能够在 未来的市场竞争中立于不败之地。 现阶段来看,营业收入流失的原因有很多,如网络开通出错、数据采 集和c d r ( c a l ld e t a i lr e c o r d ) 错误、结算方法、结算错误、计费和其他系 统互联方面的差错、数据丢失、话单文件的损坏、支撑系统不配套以及人 工出错等【2 】。当一个产品的重要性和普及性扩大的时候,其收入流失也会 随之放大。要想完全解决营业中收入流失的问题不可能的。因此,运营商 不仅必须认识到营业收入流失是不可避免的,更重要的问题是要确定能够 接受的流失程度以及怎样改进运营支撑系统,把流失的影响降到最小。有 效的收入保障措施必须保证各种运营支持系统乃至整个运营流程和数据的 完整。有效的收入保障措施必须对网络资源、业务、客户和收入之间的关 系以及各运营流程之间的关系进行分析,从而使运营商能够发现产生营业 收入流失和低效率的运营的原因。 1 2电信收入保障概述 2 0 0 4 年前,很多组织对收入保障都有自己的定义,这些定义之间可能 互相矛盾,造成了收入保障所涉及的范围存在一定程序的混淆。针对此, 电信管理论坛( t m f ,t e l e m a n a g e m e n tf o r u m ) 收入保障组给出了如下 的收入保障定义:“收入保障是在不影响需求的情况下,通过提升数据质量 和改进业务处理流程的方法,以达到提高企业的利润、营业收入和现金流 2 电信行业收入保障系统关键技术研究 的目的。( t m ft r l 3 l ( r e v e n u a s s u r a n c eo v e r v i e w ) :“d a t aq u a l i t ya n d p r o c e s si m p r o v e m e n t m e t h o d st h a ti m p r o v e p r o f i t s ,r e v e n u e sa n dc a s hf l o w s w i t h o u ti n f l u e n c i n gd e m a n d ) 1 2 1 , 根据增强型电信运营模型( e t o m ,e n h a n c e d t e l e c o m m u n i c a t i o n o p e r a t i o n sm o d e l ) ,收入保障属于“企业管理 域中的 “企业风险管理 范畴,也涉及到“运营 域中的业务受理与服务开通、 网络系统服务、计费帐务、营收管理、收入确认等过程,如图1 1 。 图l - i 收入保障在e t o m 中的定位 通过对e t o m 进行深入研究使我们能够清楚地描绘收入保障领域。收入 保障工作是通过对收入流程的梳理,在流程中的关键环节设置稽核点,并 开展稽核点的数据分析,从而发现收入流失,在此基础上开展流失分析与 评估,同时进行流失监控,并采取措施挽回收入流失,如图1 2 所示。 硕士学位论文 图l - 2 收入保障工作流程 收入保障工作以生产系统的完善为基础,也与企业内部控制密切相关。 生产系统中原有稽核功能的健全也是做好收入保障工作的基础;收入保障 工作中产生的监控和处理记录,有助于确保生产数据的完整、准确,为企 业内部控制和审计评估提供证据;收入保障工作需要采集各生产系统的收 入数据进行全过程的监控稽核,从而发现生产系统内和生产系统之间的收 入流失漏洞,弥补生产系统内原有稽核功能的不足。为提高收入保障工作 效率的数据分析的准确性,有必要引入收入保障数据稽核平台,实现对收 入流程的持续监控、稽核与分析【3 1 。 1 3 国内外研究现状 国内的第一个收入保障项目于2 0 0 3 底i 扫m o t o r o l a 公司完成。在为期一 个半月项目中,项目组共收集了4 9 个问题,并筛选了十个重点风险问题。 4 电信行业收入保障系统关键技术研究 m o t o r o l a 对在五个环节上的十个重点风险问题进行跟踪,依次阐述了这些 风险问题产生的原因,描述了风险问题可能造成的影响,并给出了解决方 案,制定并实施了一系列的管理办法,如改善、规范业务流程,提供技术 支持,加强人员管理培训等【4 1 。 2 0 0 5 年,h p 公司为某省级运营商完成了收入保障咨询项目,该项目耗 时三个月,完成了近二十个数据点的采集验证工作,帮助企业实现整个收 入管理链的管理和监控,并且对运营商在信令、计费欠费、信用度、和智 能网等方面都提出了全新的分析和解决思路【5 1 。 国内企业汉铭信通针对国内电信运营商的运营环境和特点,提出了话 单正确性核查子系统、计费账务核查子系统、结算核查子系统、订单正确 性检查子系统和欺诈管理子系统的“4 + 1 ”收入保障解决方案,已经在多个 电信运营商得到实施和应用。 中国电信对收入保障也提出“五步稽核法1 6 1 ,这五步稽核包括:采 集环节审核校验、计费环节审核校验、帐务环节审核校验、销账环节审核 校验和报表环节审核校验,并详细指出各步的审核校验要求。 2 0 1 0 年1 2 月,北京道隆华尔公司在中关村“新三板 上市,成为国内 第一家专门从事电信行业收入保障咨询服务和实施应用的公司,这也标志 着电信行业收入保障已成为电信行业软件的一个新市场。 虽然各厂商都声称能成功的完成收入保障项目,但经研究后发现,这 些厂商对收入保障的理解还是建立在行业专家自身的经验上,他们在熟悉 的领域列举出一些离散的收入流失点,提出一些预防手段和解决方案,并 没有提出完整的收入保障理论,业界也尚未提出大家一致认可的收入保障 硕士学位论文 方法论,因此怎样在企业中建立起完整的收入保障体系,并提出一套全面 的保障企业收入的方法论,是值得研究的内容。 1 4 研究内容 通过对国内外收入保障实施的现状进行研究分析,以及参与某电信公 司的收入保障系统的实施发现,在实施收入保障系统的过程中,系统首先 必须解决的问题是各异构业务支撑系统数据的集成。电信行业的信息化建 设程度比较高,一个运营商的业务支撑系统多则达百个,少则也有几十个。 由于各业务支撑系统通常是不同的软件开发公司研发,提高了数据稽核处 理的复杂性。本文在这方面将进行研究,给出针以电信行业收入保障系统 的异构数据集成方案。 在收入流失管理方面,大多采用的手段是进行数据稽核,而目前并没 有完善的收入保障数据稽核的理论,仅仅收入保障专家主观认为或熟悉的 领域内进行一些离散的收入流失点的监控。本文将研究整个电信业的收入 管理流程,提出收入管理链,并总结出收入管理链中各收入环节的数据稽 核需求,完善数据稽核理论。针对海量数据的数据稽核,研究出高性能的 算法以满足运营商的需求。 另外,本文还将研究数据可视化技术和数据挖掘技术在收入保障系统 中的应用。数据稽核后产生的大量稽核结果数据和分析指标数据,而从这 些数据中找到收入流失的原因才是收入保障系统实施的重点。数据可视化 技术可以将稽核结果数据映射为图形,可以大大提高收入保障专家对数据 的理解。另外通过数据挖掘技术可以进一步发现隐藏在海量数据中的潜在 信息和规律,这些潜在信息和规律,为收入保障专家寻找收入流失漏洞和 6 电信行业收入保障系统关键技术研究 加强收入管理链的管理提供了帮助。 1 5 论文的结构 本文结构如下: 第一章介绍论文选题背景和意义,对收入保障进行了概述,并国内外对 、 收入保障系统研究现状做了简要介绍。 第二章介绍异构数据集成的分类、解决方案和体系结构,并给出了一种 针对电信行业收入保障系统的异构数据集成解决方案。 第三章介绍了数据稽核的相关概念,提出了收入管理链,依据收入管理 链总结了各收入环节的稽核需求,并在此基础上,给出海量数据 比对算法。 第四章介绍了数据可视化技术和数据挖掘技术在电信行业收入保障系统 中的应用。 第五章总结与展望。对论文所做的研究工作进行了总结,并展望了今后 研究的方向。 7 硕士学位论文 2 异构数据集成研究 电信行业收入保障系统实际是通过对电信运营商全业务的所有运营支 撑系统进行监控,找出收入泄漏漏洞,有限地去减少收入的流失,从而达 到提高运营商利润的目的。要对电信运营商全业务的所有运营支撑系统进 行监控,实际就是对各类系统中数据进行监控。由于电信运营商的业务很 庞大,通常一个运营商的业务支撑系统和生产备份系统有几十个,而且这 些系统大多是由不同的公司开发和维护。各公司开发的业务支撑系统,无 论是运行的硬件平台、操作系统和数据库系统,还是数据模式都存在很大 的差异。面对这种情况,以前各运营商大多是通过各公司自己的监控平台 来做单个系统的监控,很难通过一个统一的视图来监控全业务的运营情况。 在收入保障系统里,我们需要给运营商提供一个统一的监控视图,来帮助 运营商快速地找到收入泄漏。为了提供这样一个统一的监控视图,我们首 先要解决就是如何把运营商全业务的各支撑系统里的异构数据进行集成。 2 1 异构数据集成简述 异构数据集成技术是为各种类型的异构数据提供统一的表示模式和管 理的技术 7 1 。异构数据集成可以把各种异构数据源进行整合,为用户提供 统一的管理和操作接口,有效屏蔽掉各种类型的异构数据之间的差异。 2 1 1 异构数据分类 异构数据不仅仅指不同类型的数据库之间的数据是异构的,如d b 2 和 o r a c l e 数据库,而且还包括不同类型结构的数据之间是异构的,如结构 化的关系型数据库中的数据和半结构化的x m l 数据及非结构化的w e b 数 电信行业收入保障系统关键技术研究 据,另外还有语义上的异构【8 1 。具体来讲,异构数据大体上可以划分为下 面四类: ( 1 ) 数据结构上异构。这是指各个系统使用的数据模型相异。从这个 角度来看,异构数据又可以细分为三类:结构化数据、半结构化数据和非 结构化数据。结构化的数据拥有统一的数据模式。最典型的结构化数据就 是存储在各种关系型数据库系统中的数据,通常用统一标准的关系模型来 进行描述,数据则以属性的方式来描述,带有具体的数据类型。非结构化 数据则没有统一的数据表示模式,不能用结构化的数据模型来进行描述, 也不具有统一的操作方式。最典型的非结构化数据就是文件系统中的各种 类型的文件数据,如图像文件、w o r d 文档文件、e m a i l 文件和e x c e l 文件等。半结构化数据就是介于结构化数据与非结构化数据之间的数据, 它可以方便地表示没有规则、不完整,而且不断变化的数据,x m l 数据便 是其最典型代表之一。x m l 数据本身具有自描述性,数据的结构和内容集 成在一起,并不做具体的区分。 ( 2 ) 数据语义上异构。语义即语言所表达的概念、信息。不同系统的 设计者观察真实世界事物的角度和方式可能会产生差异,这样就会导致产 生的数据在语义上的异构1 9 。造成语义异构的原因有如下几种情况,不同 的数据源使用多种术语或词汇描述相同概念,如有的数据源用d a t a b a s e 来 表示数据库,而另一系统却用d b 来表示;相同概念在不同的数据源中描 述相异的含义;各数据源使用相异的结构来描述相同或相似的数据;各数 据源中的概念之间存在着各种类型的联系,但由于各数据源分布的自治性 特点,这种隐含的关系不能得以充分地体现出来。 9 硕士学位论文 ( 3 ) 数据模式上异构。即使是同结构的数据也有可能具有不同的数据 表示语法,这些差异主要是指语言表示和数据表示的差异1 0 】。如关系模式、 对象模式、对象关系模式和文档嵌套模式等。 ( 4 ) 系统上异构。系统上异构主要包括硬件平台、操作系统、操作的 并发控制、数据的访问方式以及通信机制等的差异】。具体来看可分为如 下几类,硬件平台的异构,数据存储于大型机、工作站、p c 机或嵌入式系 统。操作系统平台的异构,数据所在的操作系统可以是w i n d o w s 、l i n u x 或u n i x 等。网络平台的异构,如以太网、令牌环网等。 2 1 2 异构数据集成方案 从国内外异构数据集成的研究来看,集成方法主要有基于模式集成的 异构数据集成方法、基于数据复制的异构数据集成方法和将两者进行结合 的综合型异构数据集成方法。 2 1 2 1 基于模式集成的异构数据集成方法 基于模式集成的异构数据集成方法是最早被采用的异构数据集成方法 1 2 1 。其原则是在维持企业原有各应用系统数据模式不变的基础上,通过对 数据层的数据进行共享,来最终实现企业各应用异构数据的集成。其思路 是将各业务系统数据源的数据视图统一集成为全局模式,使用户能够按照 这种全局模式去访问原各数据源中的数据。这种全局模式需要描述数据源 中共享数据的结构、映射关系、语义以及操作等。而用户可直接在全局模 式的基础上进行请求提交,然后由异构数据集成系统来统一处理这些请求, 最后转换成各异构数据源在本地数据视图基础上能够执行的请求。基于模 式集成的异构数据集成方法特点是用户对各异构数据进行访问是完全透 1 0 电信行业收入保障系统关键技术研究 明,而各应用系统仍然保持独立,在保证当前整个数据映像的前提下,可 以根据业务发展的需要增加或减少结点,对系统的重新配置灵活,可用性 好,各应用系统没有直接的业务往来,当系统部分无效后,完好的应用系 统仍可以继续运行。 由于用户使用的全局模式是虚拟的数据视图,国内外一些学者也把此 模式集成方法称为虚拟视图集成方法。这种模式集成方法要解决的两个最 关键的问题是,如何来构建虚拟数据视图与异构数据视图之间的映射关系; 如何将集成用户在全局模式基础上的查询请求转换成各异构数据源上能执 行的请求13 1 。 异构数据进行模式集成过程需要将原来异构的数据模式做转换,消除 异构数据源间的异构性,映射为全局模式。构建全局模式与异构数据源数 据视图之间映射关系的方法有两种:全局视图法( g l o b a lv i e w ) 和局部视 图法( l o c a lv i e w ) 1 1 4 1 。全局视图法中的全局模式是基于异构数据源的数 据视图,它由一系列元素组成,而这些元素与异构数据源是一一对应关系, 用来描述对应异构数据源的数据结构和操作;局部视图法正好相反,先构 建出全局模式,各异构数据源基于全局模式来构建各自的数据视图。用户 在全局模式基础上提交的查询请求,最终会被映射成各个异构数据源的查 询请求。 2 1 2 2 基于数据复制的异构数据集成方法 基于数据复制的异构数据集成方法是将各异构数据源中的数据复制到 与其相关的其它数据源上,并且从整体上维护数据一致性、提高信息共享 利用的效率。数据复制根据不同的需求,可以分为对整个数据源的复制, 硕士学位论文 和只对产生变化的数据进行复制两类【1 5 】。数据复制方法能大大减少用户与 对异构数据源的直接访问,从而提高异构数据集成系统的性能。 数据仓库方法便是最常见的数据复制方法,数据仓库中存储了各个异 构数据源的数据,而用户则可以像操作普通数据库一样直接来操作数据仓 库。数据复制方法又可以分为数据复制触发方式和数据传输方式两类。 ( 1 ) 数据复制触发方式 在这种方式中,异构数据集成系统需要预先定义了一些触发事件,如 对数据发布端引起的数据变化的操作、数据发布端数据的累积量、用户对 某个数据源的访问请求、间隔的时间点等事件。只要这些事件被触发时, 数据复制就会被执行【1 6 1 。因此,数据复制触发方式按事件定义的不同分为: 定时触发、数据变化触发、客户调用触发、批量触发等。数据复制触发方 式通常是采用直接端到端的复制方式,当然也有一些数据集成系统会使用 专门的数据周转服务的数据平台。在这种平台中,当有数据复制触发时, 数据发布者首先将数据传送到这个数据平台上,由数据平台处理完后转发 给数据订阅者。专门的数据平台设计的关键是如何处理好并发控制和网络 负载问题,使用数据平台的优势是仅单点控制而且便于管理,但同时数据 平台也增加了整个集成系统的复杂性。 ( 2 ) 数据传输方式 数据传输方式是指数据在发布数据的源数据源和订阅数据的目的数据 源间的传输形式,可分为数据拉取和数据推送两类【1 刀。数据拉取中,目的 数据源主动向源数据源发出数据请求,从源数据源获取数据。而数据推送 则是指源数据源主动将数据推送到目的数据源上。在有些情况下,数据发 1 2 电信行业收入保障系统关键技术研究 布端传送到数据订阅端的数据需要经过数据订阅端的本地化处理,并不直 接存储到目的数据源中,这时就需要采用缓存技术来协调数据发布端和数 据订阅端的异步操作。在数据拉取的方式下,数据缓存则要构建在数据发 布端;而在数据推送的方式下,数据缓存要构建在数据订阅端。 2 2 数据集成的体系结构 针对上面描述的两种异构数据集成方案,下面着重分析一下在异构数 据集成的两种常用的数据集成体系结构。 2 2 1 m e d i a t o r w r a p p e r 体系结构 m e d i a t o r w r a p p e r 体系结构也称为中间件体系结构【1 8 1 ,这是最典型和 最常用的基于数据模式的异构数据集成方案。它主要用于对处理的异构数 据要求比较高的实时性的数据集成情况,和难以或不可能从异构数据源加 载所有数据这两类情况。在m e d i a t o r w r a p p e r 体系结构中,m e d i a t o r 中间 层并不存放数据,数据仍然存放在各异构数据源中,只有当用户向m e d i a t o r 发出数据请求时,m e d i a t o r 才会进行解析,然后将解析结果发送到各异构 数据源,由各异构数据源将真实数据返回给用户。由于,异构数据源种类 千差万别,如这些数据源可能是一个真实的关系型数据,也有可能只是一 个em a i l 或一张w e b 页面。w r a p p e r 功能层正好是设计来解决这些问题, w r a p p e r 层将对异构数据源的服务接i s l 进行统一的封装,形成一致化的上 层接口。 在这种数据集成的体系结构中,m e d i a t o r 层是最核心的部分。m e d i a t o r 层负责集成异构数据源,但是真正的数据却存储在各异构数据源中,通过 w r a p p e r 层将各异构数据源进行封装,并将数据转换成符合的模式,而上 硕士学位论文 层的接口并不需要了解每个异构数据源的接口,m e d i a t o r 层会将上层的查 询统一转换为各异构数据源的查询,然后再由统一的引擎通过各数据源的 w r a p p e r 层对结果数据进行抽取,再将数据交给m e d i a t o r 层,最终提交给 用户。另外,这种体系结构对于无法接触的数据集成尤其具有吸引力,例 如在基于w e b 数据的异构数据集成系统中,用户也许只允许下载部分的数 据,而且当异构数据发生更新后,也不可能及时来通知用户。 这种体系结构与传统意义上的数据服务有较大的区别。首先,m e d i a t o r 层的处理逻辑比较复杂,因为当用户提交一个查询时,它需要知道到底是 从哪些异构数据源来取结果,当对接的异构数据源很多时,解决这个问题 将会比较麻烦。其次,当m e d i a t o r 层确定是哪些数据源后,m e d i a t o r 层还 要对查询进行转换;当需要处理的异构数据源很多时,m e d i a t o r 层必须有 一个全局执行方案。m e d i a t o r w r a p p e r 体系结构,如图2 1 所示。 数据库数据库数据库 图2 - 1m e d i a t o r w r a p p e r 体系结构 1 4 电信行业收入保障系统关键技术研究 m e d i a t o r w r a p p e r 体系结构的优点是可以集成非数据库的异构数据源; 能有效地控制各异构数据源的查询能力,并且支持n o s q l 的数据源;对 用户来讲,异构数据源是透明,因此异构数据源具有很好的自治性。 2 2 2 数据仓库 数据仓库是一种采用数据复制来进行异构数据集成的方法,该方法需 要建立一个用来存储异构数据的数据仓库,然后由e t l ( e x t r a c t i o n t r a n s f o r m a t i o n - l o a d i n g ) 工具定时从各种异构数据源中加载 数据到数据仓库中,然后供用户查询和处理【1 9 】。在这种体系结构中,用户 与异构数据源间多了一个数据仓库层,用来存储来自各种异构数据源的数 据,如图2 2 所示。基于数据仓库结构的系统为用户提供数据集成服务和 决策支持查询服务。这种异构数据集成系统结构的优点是数据高度集中, 用户访问比较方便,能很好地支持决策等应用所需要的大量集成数据的高 效处理【2 0 1 。 由于异构数据源包含海量的数据,而且这些数据是不断变化的,数据 仓库的集成系统面临的问题就是,初始数据装加载,以及不断变化后的数 据更新问题。如果用户对数据的实时性需求要求很高时,那么数据的实时 更新效率会对系统的可用性产生很大的影响,这些也会大大影响了数据仓 库的应用场景。与上面介绍的m e d i a t o r w r a p p e r 体系结构相似的是,基于 数据仓库的数据集成体系结构,也必须建立统一的全局数据视图,但这与 普通的数据库还是有很大的区别,这种区别在于数据仓库存储的数据是汇 总数据与历史数据,用来支持分析或管理人员的决策。另外,为避免出现 硕士学位论文 数据仓库中的数据与异构数据源中数据不一致的情况,数据仓库通常是不 会允许用户进行数据更新。 应用1应用2应用n 彳彳卜彳p 数据集市数据集市数据集市 彳彳 么 数据仓库 介 盯l 俞 99 刁 c r m计费结算资源管理 图2 - 2 数据仑厍体系结构 2 3 针对收入保障系统的解决方案 通过分析和研究目前异构数据集成方法的优缺点,并考虑到电信行业 收信保障系统的特点,我们结合上述两种异构数据集成的体系结构,给出 针对电信行业收入保障中异构数据集成的解决方案。在此方案中,我们既 考虑到访问异构数据集成数据的实时性,又考虑到处理海量异构数据的高 效性。 目前的电信收入保障管理主要通过对业务系统中的数据和各相关业务 系统之间的数据进行稽核来达到查找收入漏洞的目的,从而有效地减少收 入流失。在进行数据稽核之前要做的事情就是要对各业务系统中的数据进 1 6 电信行业收入保障系统关键技术研究 行采集,根据不同的数据稽核要求,数据采集有多种分类方法。按采集数 据的时间来分,采集数据的方式目前通常有两种,一种是实时的数据采集, 这种数据采集方式,要求对接的业务系统有较强的数据处理能力;另一种 是周期性的数据采集,这种数据采集往往处理的数据量较大。按采集方的 发起来分,又可以分为主动数据采集和被动数据采集。在收入保障系统中, 这些采集方式都是必需支持的。根据这种采集现状,本文设计了一种专门 针对电信行业收入保障系统的数据集成架构,如图2 3 所示。 图2 - 3 电信行业收入保障数据集成架构 在这种数据集成架构中,主要集成了m e d i a t o r w r a p p e r 和数据仓库两 种模式,并充分考虑到电信行业收入保障系统的需求。在架构的 m e d i a t o r w r a p p e r 部分,如图2 4 所示,其中w r a p p e r 部分又分为接口协议 层和适配控制器两部分,接口协议层将包含对接的电信运营支撑系统的各 接口,然后通过适配控制器来进行管理。而m e d i a t o r 部分为上层的收入保 障系统统一数据接口,通过一系列的数据输入和输出进程完成。 1 7 硕士学位论文 图2 - 4 架构中m e d i a t o r w r a p p e r 部分 而在架构的数据仓库部分,本文将这部分又分为四层,如图2 5 所示, 包括数据接口层、数据细节层、数据汇总层和数据分析层。 ( 1 ) 数据接口层主要保存从各外围支撑系统通过e t l 抽取来的数据, 这些数据仅做简单清洗,而且保存的时限设计为三个月到半年。 ( 2 ) 数据细节层保存的数据充分考虑到各上层数据模型的需求,保存 时限会比较长,这层的数据被设计为3 n f 。 ( 3 ) 数据汇总层保存的数据主要以宽表的形式存在,为各分析主题提 供数据。 ( 4 ) 数据分析层主要为收入保障系统生成报表,或进行可视化展示使 电信行业收入保障系统关键技术研究 用。 ( 5 ) 另外,本架构根据收入管理链的收入环节,在数据细节层和数据 汇总层针对各收入环节进行了分模块处理。 分析层 彳 汇总层 彳 详细层 彳 接口层 彳 e t l 彳 外围系统 图2 5 架构中数据仓厍部分分层 2 4 小结 本章首先对异构数据集成进行了分类,并概述了当前异构数据集成的 解决方案和两类数据集成的体系结构,最后,考虑到收入保障系统的需

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论