




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)电信经营分析系统中的数据质量管理.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京一呶_ 大学磺士毕业论文电信经营分析蒜统中的数据质量管理 独创性( 或创新性) 声明 本人声鲳掰垦交的论文是本人农导郯指器下进行的磺究工撵及取褥斡研究成 果。趱我所知,除了文中特别加以标注和致谢中所罗捌的内容以外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教 育捉鞠耱学位载涯褰瑟嫠麓:蓬静枣| 籽。与我蠢工佟耱阕恚黯零矫究爨簸瓣往褥 贡献均已在论文中作了明确的说明并表示了谢意 审请学位论文与资料磐有不实乏处,本人承担一切捆关责任。 零人签名: 盔匝堑日期;幽:! :堡 关予论交使用授毅魏说璃 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期阕论文工作蛇知识产权单位属j b 衷郏电大学。学校蠢权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和偌 阅;学校可以公布学位论文的全部成都分内容,可以允许采用影印、缩印戏其它 复铡擎段臻存、汇缓学位论文。( 搽密夔学位论文在辫密詹遵守戴筑定) 保密论文浪释:本学位论文属予保密在年解密箭适用本授权书。非保密论 2 北京蓐电大学硕士毕业论文 电信经营分析幕统中的敦据威量管理 电信经营分析系统中的数据质量管理 摘要 电信经营分析系统是一个架构于企业各个生产系统之上,通过整 合丰富的生产数据资源来为企业经营服务的决策支持系统,满足了嗷 信运营鬻对予进一步拓展自身监务、提高业务系统生产效率豹遥切需 求 为适应中国电信市场越来越激烈的竞争,电信运营商必须逐渐摆 脱从莆的经验登管理的模式,向分析型管理转变。此时,建设一个高 效的经营分析系统势在必行,毯是未来几年电信企监信怠纯建设的重 点工作。 由于电信企业具有业务复杂,数据量大的特点,基于数据仓库技 术建设电信企业的经翁分析系统成为首要选择。但是由于经营分析系 统豹数据来自多个韭务系统,数据源质量参差不齐,且娩务逻辑繁杂, 因此在建设过程中不霹避免的会产生数据矮量l 薅题。有些经营分耩顼 目更是因为数据质量太差,导致用户对系统的可用憔产生怀疑。因此, 做好数据质量管理是电信经营分析系统建设过程中的一个比较迫切的 溺题。 本文的主要贡献有; 1 分析了电信经营分析系统中造成数据质量阀题的主要环节豢l 原因,总结了在数据仓库中进行数据质量检查的方法。 2 提出了适合电信行业特点的e t l 流程改迸策略,通过增强数 摆仓库性憩达到撼高数据矮量的曩的。 3 设计了辅助数据质量梭查的投表数据流查谗模块和e t l 执行 状态监控模块,并提出了一种确保维表数据正确性的同步方法。 某运营商经营分析系统自上线日起,运行正常,未比现严重数据 蒗量| 、蠡题,验证了本文理论的正确性。 关键词:数据仓库,经营分析,数据质量,e t l , 北京一电大学顼士毕业论文 电信经营分析系统中的数据质量管理 t h ed a t a q u a l i t ym a n a g e m e n t f o rt e l e c o m t h et e l e c o mb u s i n e s sa n a l y s i ss y s t e mi so n et h a tc o n s t r u c t e do no t h e r o p e r a t i v es y s t e m so fat e l e c o mc o m p a n y i t sad e c i s i o ns u p p o r t i n gs y s t e mf o r s e r v i n gm a n a g e m e n tb yi n t e g r a t i n gt h ea b u n d a n t b u s i n e s sd a t a n o w a d a y s ,t h ec o m p e t i t i o n sb e t w e e nt e l e e o mc o m p a n i e sh a v eb e c o m em o r e a n dm o r es e v e r e t oa d a p tt h es i t u a t i o n , t e l e c o mc o m p a n i e ss h o u l dg r a d u a l l y c h a n g et h em a n a g e m e n ts t y l ef r o mt h em o d ed e p e n d i n go ne x p e r i e n c e st ot h e m o d ed e p e n d i n go na n a l y s i s s oi ti sv e r yn e c e s s a r yt ob u i l dab u s i n e s sa n a l y s i s s y s t e mo fh i g he f f i c i e n c y , a n dt h ew o r kw i l lb ep a i dm u c ha t t e n t i o nt oi nt h ef u t u r e s e v e r a ly e a r s a sa na d v a n c e dt e c h n o l o g yi n t h ea r e ao fi n f o r m a t i o n , t h et e c h n o l o g yo fd a t a w a r e h o u s eh a sd e v e l o p e dq u i c k l yi nt h el a s ts e v e r a l y e a r s ,a n dp l a y e da n i m p o r t a n tr o l ei nt h et e l e c o mb u s i n e s sa n a l y s i ss y s t e m s d u et ot h ec h a r a c t e r i s t i c s o ft e l e c o mi n d u s t r y , s u c ha st h ec o m p l e xb u s i n e s so p e m t i o u sa n dl a r g ea m o u n to f d a t a , i ti si n e v i t a b l et oc o m eu pa g a i n s td a t aq u a l i t yp r o b l e m s s o m es y s t e m sh a v e e v e nf a i l e df o rt h eb a dd a t aq u a l i t y , w h i c hm a k e st h ec u s t o m e r sd o u b tt h es y s t e m s u s a b i l i t y t h e p a p e rm a i n l yc o n t r i b u t e s t ot h ef o u o w i n gt h r e ea s p e c t s : 1 1i ti n t r o d u c e st h em e t h o d so fh o wt oc h e c kt h ed a t aq u a l i t yi nd a t a w a r e h o u s e ; 2 ) a c c o r d i n gt o t h ec h a r a c t e r i s t i c so ft e l e c o mi n d u s t r y , i ta n a l y z e st h e i m p r o v e m e n ts t r a t e g i e sf o re t l w h i c hc a nr e a c ht h eg o a lo fi m p r o v i n gt h ed a t a q u a l i t yb ys t r e n g t h e n i n gt h ed a t aw a r e h o u s e ; 3 1i td e s i g n ss o m eu s e f u lf u n c t i o nm o d u l e sf o ra s s i s t i n gc h e c k i n gd a t aq u a l i t y , a n dp u t sf o r w a r da l le f f e c t i v em e t h o do fs y n c h r o n i z i n gt h ed i m e n s i o nt a b l e st o a s s n l ct h ev e r a c i t y o n eb u s i n e s sa n a l y s i ss y s t e mo fs o m et e l e c o mc o m p a n yh a sr u nw e l ls i n c e t h ef i r s td a yi tw a su s e d , a n dn of 汜v e r ed a t aq u a l i t yp r o b l e m sh a v eo c c u r r e d , w h i c h v a l i d a t et h et h e o r i e st h ep a p e rp u t sf o r w a r d k e yw o r d s :d a t aw a r e h o u s e , b u s i n e s sa n a l y s i s ,d a t aq u a l i t y , c t l 靶京一电大学硬士毕业论文电信经营分析系统中的数据质量管理 第一章绪论 1 1 电信经营分析系统的建设背景 近年来,中国的电信业务快速发展,各个企业内部信息化建设取得了长足的 进步但在企业内部发展的同时,电信服务市场的竞争也愈加激烈,从最初个别 运营商垄断市场到数家大运营商主导,多家小运营商参与,新运营商不断加入。随 着中国加入w t o ,一些世界级的电信业巨头也开始逐步渗透到中国电信市场,中 国电信服务业进入了一个前所未有的新阶段。因此,各电信运营商都面临着国内 外电信运营商的竞争以及新技术和新业务的冲击,面对这些挑战,电信企业必须 调整市场战略,建立以客户为中心、以市场为导向的决策机制,及时掌握市场动 向。激烈的竞争形势也对电信运营企业的服务意识、服务内容、服务方式、服务 质量、以及经营管理水平等均提出了严峻的挑战,要求国内的电信运营企业在经 营理念、管理模式上能有一个较高层次的飞跃,以求在电信运营业日益残酷的国 际化竞争中立于不败之地;同时,也要求国内电信运营企业传统的以产品为中心, 以营业窗口为基础的运营模式,逐步向以客户为中心、以数据为中心、以信息为 基础的模式转变。电信企业的发展模式正在逐步由“规模型”向“规模效益兼顾 型”过渡,最终的目标是建立“效益型”的、可持续发展的模式。 对于电信企业自身来讲,在市场发展初期,运营商关注用户规模的增长,追 求市场份额。随着用户数量的急剧增长,运营商开始面l l 缶用户规模和用户效益的 矛盾,大量低端用户的涌入迫使网络规模同步甚至超前增长,而低端用户的网络 贡献率相对较低降低了整个网络的运行效率。据c c i d 统计2 0 0 2 年,中国两大移动 运营商的状况为: 表1 - 1 联通、移动2 0 0 2 年运营状况表 公司a r p u 值( 元户月)降幅用户数( 万户)用户增长率 中国移动 1 0 92 4 8 1 4 0 0 53 4 7 中国联通 7 0 41 8 4 6 8 3 06 6 5 a r p u 值下滑的难题已经迫使运营企业开始关注用户质量,期望通过细分市 场,提供个性化服务,提高各类用户的a r p u 值以提高企业利润。在这种形势下, 如何留住现有客户,如何吸引新的客户以及如何最大限度的提升客户价值从而电 信企业获得最大的收益,成为每个运营商都要考虑的重要课题。 为了实现以上目标,运营商必须构建经营分析系统,以便在如何提高对客户 的服务质量,如何根据客户的行为特征和业务的使用规律,及时推出和调整公司 7 北京邮电大学硕士毕业论文 电信经营分析系统中的数据质量管理 的经营策略;如何根据不同的用户群制定不同的激励政策;如何培育大客户;如 何根据不良用户的行为特征对运营系统提出预警,降低欠费率等方面做出正确的 决策,立足于不败之地。 1 2 国内外建设情况对比 在国外,电信行业的经营分析系统早期应用集中在对业务信息展现的层面上。 随着应用水平的不断提高,经营分析系统不再仅仅是针对业务情况的了解、总结 过去的报表分析展现,而是从整个战略角度出发,帮助决策者评估和预测未来, 进而制定相应的策略,他们比较关注的是能够更好地做到客户细分、交叉销售和 高端客户挽留的客户职能。国内电信经营分析系统的应用水平与国外相比还有不 小的差距。虽然各运营商的领导层已经认识到了经营分析系统在决策支持方面的 价值,但在具体实施上系统的主要应用还是以报表为主导形式的数据展现,在分 析和挖掘层面只有少数省份做的比较深入。而且国内大部分电信经营分析系统的 用户对系统的认识仅停留在“大报表系统”层面上,尚未认识到经营分析系统在 决策支持方面所能发挥的重要作用。开发厂商受制于电信企业用户源源不断的报 表需求,难以进行深层次的功能开发。 目前,国外发展最快的电信公司数据仓库都完全搭建完毕,开始全面将数据 挖掘广泛的应用在业务决策中,并准备引入事件触发的分析机制,来进一步让数 据挖掘更自动化的指导公司运营的战术性决策制定。而国内电信企业的数据仓库 搭建工作基本完成,刚刚进入初步的数据挖掘阶段。国外的解决方案常常不能完 全照搬,因为国外的电信企业流程比较正规,法律比较健全,所以常常是数据仓 库建立后就不需要修改结构了。而国内正好相反,电信企业蓬勃发展,业务流程 经常变化,新业务层出不穷,所以整个的数据仓库架构就经常变化。如何适应中 国的国情,是每一家经营分析系统开发商必须面对的挑战。 1 3 什么是数据质量管理 实施经营分析项目是对企业数据的搜集、加工、存储、发布,数据质量管理 就是在经营分析项目中通过质量管理流程来控制和改进数据质量的过程。数据质 量通常通过以下几个维度来衡量: ( 1 ) 完整性 反应加载的数据与期望值的百分比。 ( 2 ) 准确性 数据的准确性又包含: 8 北京部电大学碗士毕业论文电信经营分析系统中的数据质量管理 一致褴:不同系绕之闯的数据一致程度盼百分魄。 正确性:数据符合实际情况的百分比。 会法性;数据舞会犍务怒簧| l 熬善分毙。 固及时饿 及时性髓指数据在规定时延内处理的西分比 鳓安全馊 数据是甭准确反应当前的安企访问策略。 1 4 电信经营分析系统中的数据质量现状分析 经营分攒系统弱荚凌羲是数据,露数疆震量懿好嚣壹接影骥经营分褥系统懿 成败。对于电信行业,企业的经营状况及市场策略的实施效果均体现在数据上, 因j 琏:,数据艨量的问题对于电僚企业更是黧关重要的问题。酲翦国内很多电信企 业汪经意识到了经营分析系统绘企韭带来的巨大饶势积战珞意义,纷纷投资建设 经薄分析系统,但是很多投资巨大的经营分析项目最终由于低下的数据质量而达 不翔建设嚣椽。 在电信缀营分析项目实施过程中,我将数据质懿事件按照各自的特点进行的 分类和统计,这样就能比较清晰和有针对性的解决斌量问题。大的方藤来说数据 爱麓静速分绦度有两耱:一种缀度是麸痰爨的琴l 入穷来看:怒囊子澡系统或者势 在原因引起的质量事件,还是由于经营分析系统内部原因造成的质量攀件;另一 秭缎度是扶数据的角壤来看:是共性的矮繁阀题,逐是特性鸵质量闯题。 对于数据质量闯题的分类,如图1 - 1 示,内部的熬性的问题是难度最低的质量 问题,这类的问题有:数据加工流程的设计、s o l 语句的质鬃等,这些质量问题 霹苏逶过经慧分褥系统内部懿袋麓浚程热戳控潮;难度孛等豹楚舞部鹣焚性蠲题, 例如源数据的规范性、空值率、数据关联情况等,这些质量问题可以虽然不能加 以改进,但是可以分析和控制的;另外一熄难度中镣的质量问题是内部的特性阕 题,铡如经瓣分析数据仓库的模塑的设计质量、体系架构的籁量等,这种质量闷 题的发现和改进的成本是比较高的,而且也难以发现;难度最高的质量问题是外 部豹特经豹袋量润题,鲷黧源系绫教障、源数据孛戆渡务矮鬃袋錾,这类羯题夔 机性高,隐蔽性强,难以发现。 9 惩寨邮电大学硬士毕韭论文电信缀棼分析系统串豹数据质羹错瑾 霉t - i 教括壤薰维度分褥 1 。5 使用e t l 技术妻羹强数据覆量管理的意义 电信经营分析系统数据仓库豹数攒来自各种不同的操作型数据源,并且经历 了各静嚣徉的传输、转换帮处理,要确保数搽仓撵静霞量确菲荔事。遴筵,登缓 对数据仓库系统的数据质量j 行全面改善,并进行一个长期的建设过程。 毫信经营分辑系统数据念痒魏特点蹩,数据取耋多个源系统,各个业务系统 之问的数据标准,数据质量参差不齐;数据量大,业务规则繁多,处理流程复杂。 e t l 的抽取、转换、装载正是完成数据从数据源向数据仓库转化的过程,它按照统 一熬鬟蒯集成著搀糍数据兹徐篷,是实簇数撂仓簿静重要多骤。露羹瓣l 裁簧| j 竣谤 和实施是数据仓库建设过程中工作量最大的,要占整个项圈的6 0 r - 8 0 ,因此, 有必要在e t l 过程中采取摆应的数据质嫩保障攒撩寒保证进入经营分析数据仓磨 的数据怒可靠丽优质的。 1 0 北京邮电大学硕士毕业论文电信经营分析系统中的数据质量管理 第二章系统分析 2 1 电信经营分析系统概述 乞1 1 系统介绍 经营分褥系统是毫痿运营巍赛瑰戮誊场隽孛,0 懿金鲎运佟模式,建立完善豹 市场营销管瑷服务体系,提高电信运营商的盈利和竞争能力的重要途径。在经营 分耩系统地帮助下,电信运营齑可以通过经营分析系统的信慰采集、傣息处理、 鼗务指标分析、专项分析、决策辅助支持、信怠发布等功能,充分利用电信运营 商备个业务支撑系统产生的大量宝贵的数据资源,建立专门蠲向客户、实施垂直 一薅绽警理、分撂运蘩褰全嚣数务疆括豹经营分季露傣系,著依毵运营巍瓣公蠲鼹 输网、公用电话网、公用数据网等通信基础设施,以先进的网络技术、强大的网 络运行维护熊力和丰富的网络管理经验为支撑,面向经营管理人员和市场部经理、 大客户发袋部等部门掇供整务瓷诲、叠务分析、营销策略翻怒等全监务、个性傀 综龠咨询服务。通过与生产型业务系统的对比,体现经营分析系统的特点: 表2 - l 经营分辑系统与熊务系统蛄比表 生产缴业务系统经营分析系统 数据粒度级别主要包含细粒度级数据,如通话 包括按主题划分的细粒度和汇总后 记录,话费洋莘,鼓对嚣始数撵懿数据,其骞多缭特薤,纪绞赣强, 进行一般的加工和汇总 利用奉商 使用目的主要_ h j 于查询 查询,分析。辅助决策制定 使胡对象主要嚣舞信息纯都等专门韭势 莲囱企照各个部门,包括决策者, 统计人搦业务分析人员,管理人员,市场营 销人员等 攮壤性要求 无记录丢失,每条诞录都要正确菜垫攒糠蟊韭务鬓、爝产数类宠诲 有一定误差,收入裳要求完全准确 数据依赖性系统之间比较独立,无数据依赖 数据来自各个业务系统,数据格式、 关系,数据妻接采爨交换规产生标准各界捆嗣,集艘难度较大 文件或营业厅录入,集成难度小 我们可用图2 - 1 对分析系统的整体概况做简单了解: l l 北京邮电大学硕士毕业论文毫信缎鬻分析系统审的数据震羹管理 辫玉l 电信缘管分嚣系统概况霉 2 。1 2 使嚣l 数据仓库麴必然 生 电信经营分析系统的数据米源于电信服务支撑系统( b s s ) 中备生产子系统, 滋盖了计赞、结算、营整、张务、客骚、大客户等信怠,凌予系凌容量、运移效 率等原因,服务支撑系统的备生产予系统不可能、也没有必要长期保存所有历史 数据;然褥,秀了准确了解、分橱企渡麓运营憾凝,运营过程中所积累的各时期 历史操作数据通过汇总与沉淀之后,构成了企渡整体经营倍息的生成基础。舅一 方面,由于企业业务量的迅速发展,娥务支撑系统的各生产子系统处理负担口益 麴重,嚣缝诗却嚣蘸复杂,袈傻爨传缓懿方式,在生产系统孛透露绫诗分耩,囊 市场营销人员及时提供充足、准确的缀营信息而又不影响难产系统的处理效率已 不现实。箍且这些予系统之闽相互独巍、结构务异。企业的决策者缀难从中得到 关于企渡全局静决策信患。 因此,若要从来自不同数据库源的、大量复杂的存储形式各异的历史数据中 获褒戳供决繁熬寞燕骞徐壤豹信惠秘皴识,瑟纛还要在楚熬辩翔痰邂行复杂鹣分 析处理( 簿次处理涉及大量数据) ,采用传统数据库技术来处理不仅建一项沉熏的 负担,甚至是根本无法实现的。传统数据库数据缎织性茇、利用率低,经营分析 系统静建设基予数据仓库桨 鸯便成隽瞧一静选强。蠢藜嗽倍行叠豹数据在遗速增 长,从而出现“数据丰富、知识贫乏”的问题。因此,从庞大的数据库中抽出有 愆敷嚣怠愁是当务之急,要戏凌她进行揍惠抽取誉先要建纛数据仓璐。 按照数据仓库乏父w h , i n m o n 对数据仓库的定义:数据仓库是个面向燕题 的、集成的、随时问而变化的、非易必性数据的集合,用于支持管理层的决皴过 悲褒舔彀灾学壤圭季韭德文 毫痿经营势辑袭绞孛瓣数据囊量警孽 程对予数据仓库的定义的特点,介绍如下: 面向主题 主艨是一个在较高层次上将数据归类的标准,是指用户使糟数据仓库进行决 策时鬓荧心豹耋点方瑟。绷鲡在毫绩数据仓露巾,我朝会麓象窭客户主a o m y ) , 重煮了辩客户魏姓名,年龄,职监等自然藩魏镶怠耜蓿焉度、惑诚发、谤费层次 等重簧脶性信息。 集成性 数攒仓库的集成特点比较容易理解,即把众她相关的数据集会在一起。例如 电信数攒仓痒集成7 营壤、谤费、结算等多今貔务系统瓣数攥。 簿赫失性、睫靖蠲交纯 数据仓库的非易失、黼时间变化两个特点怒有关联的,比如巢个用户更换了 一个新旗餐,在营帐系统中只保留该用户的最新套餐类型,旧的被覆盖了。而在 数据仓库中,更改前后的新旧套餐信息都将保觎,因此数据仓库能反映出数据在 历史上镁意时刻毂寞实场聚。 支持决策 数掇仓库的用户不仅仪怒企业的基层入员,更主要的是面向制订企业战略决 策或者熊影响企业决策的人,如果没有数据仓库,这些人对于企业的了解是局部 的、分散的,他们即不能准确了解过去,也不能把握现在,更不能掌控未来。 2 。2 谶赣经营分辑系统分辑 2 2 1 系统架构 电傣行业各企监懿业务建容大圆小异,厂巍为运营齑建立经磐分拆系统的禁 稳也大髂籀同,一套魄较袋熬豹数据仓痒貘登霹班拿妥其德省蠢去攘广。电蓿经 营分析系统的体系结构可用阁2 - 2 表示: 北京部电大学硬士蜂般论文 墩嚣经营分折系统中的数攒斌量管理 毽2 - 2 暮电髂经营分辑系统笨毒晕霉 在该图中,电信经营分析系统可以概括为三个予系统:数据仓库予系统,应 用子系统和系统管理子系统。 2 2 2 数据仓瘴子系统 数据仓库予系统是电信经营分析系统的核心,缀营分析系统成功与器,绝大 部分取决于数据仓库的建设质量。由图2 2 所示的关系结构图可知,数据仓库子 系统包括数据获取层和数据存储朦。 数据获取鼷重点完成数据从嫩产系统到数据仓黪的迁移过程,是生产系统与 鼗豢金痒之瓣鹣双自蔹疆。窀苓仪燕经营分褥系统姨囊产系统获取数攥瓣巯毽遭 程,同时也会将经营分析系统分耩结果反馈回生产系统。e t l 流程的抽取、转换、 装载是数据获取层的重点工作,照数据由生产系统谶入经营分析数据仓库的最初 几道工序,也是处理数据质量问题最关键的几个步骤,能够避免数据仓库系统产 生“垃圾进,埭圾出”的现象。e t l 与数据质量管联肖紧密的联系,加强e t l 流 程孛夔数豢痰爨管理薅予建设或凌豹经营分辑系统来诞意义重丈,我将纛爱嚣静 章节中详细介缨e i l 模块的设计策略。 数据存储胺又包括三个层面的存储结构,从下到上分别为o d s 层,d w 层和 d m 层。他们先问的关系图为: 1 4 北京邮电大学磺士毕业论文 电信经营分析系统中的数据质量管理 图2 - 3 数据存储层的层次关系 业务数据存储层( o d s ) 并非所有行业的数据仓库系统都使用带有o d s 层的体系结构,电信企业的数 据仓库设计大都基于o d s d w - d m 三层结构的设计思想有其原因。电信企业不仅 积累了海量的历史数据,而且每天都会产生千万级的数据量。在图2 2 中我们可以 看出,电信经营分析系统的数据源来自营业、计费帐务、客服、结算等多个业务 系统。每个系统又都有各自的编码规范,数据记录格式,而且每天都会产生大量 的生产数据,把这些形态各异的记录直接加载到数据仓库系统中会给系统造成巨 大的处理压力,而且会弓i 入许多数据质量问题。因此,o d s 层又相当于一个数据 缓冲层。 在电信经营分析系统的数据仓库体系中,o d s 层有如下几个作用: 1 在业务系统和数据仓库之间形成一个隔离层。 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同 的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取 并不是一件容易的事。因此,o d s 用于存放从业务系统直接抽取出来的数据,这 些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,在抽取 过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、 抽取方式等方面的问题。 2 转移一部分业务系统细节查询的功能。 在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些 比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。o d s 的数据 从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统 产生的报表、细节数据的查询自然能够从o d s 中进行,从而降低业务系统的查询 压力。 3 完成数据仓库中不能完成的一些功能。 d w 层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细节 周 北京邮电大学硕士毕业论文电信经营分析系统中的数据质量管理 数据,但是在电信经营分析系统中,可能需要对交易细节数据进行查询,比如查 询某个用户的入网时间或是某一天的通话时长,这时就需要把细节数据查询的功 能转移到o d s 来完成,而且o d s 的数据模型按照面向主题的方式进行存储,可 以方便地支持多维分析等查询功能。 中央数据仓库层( o v o 阴层位于o d s 之上,叫层数据之下,这一层的数据结构的主要任务是完成数 据的预处理和沉淀。珊层按照某运营商整体的信息模型进行构建,是电信经营分 析系统的核心。 由于经营分析需求的不断变化,肼层中数据的存储必须采用主题分域的方式 和尽可能小的业务单元来进行数据的组织和存储,这样才能满足数据仓库的灵活 性,适应需求的变化,又可保证最少量的数据冗余,节约系统投资。并以“元数 据驱动、螺旋上升”的方法来指导数据仓库建设。在电信经营分析系统的数据仓 库中,明层数据可以按照不同的主题域分为八类:客户、帐务、资源、服务、客 服、营销、服务使用、结算。 数据集市层( d m l 数据仓库是对数据集市的数据支撑,几乎所有的业务分析都需要通过进一步组 织数据集市来实现,以满足性能、灵活性的要求。数据集市的建设主要面向部门、 地市和重要的领导,根据其关心的主题、数据层次、数据粒度不同,构建相应的 数据集市,数据集市的构建逐步向满足个性化分析需求的方向发展。 数据集市的数据直接来自于数据仓库。采用这种方式,可以保持整体数据的 一致性。为一些访问数据仓库十分频繁的关键业务部门建立从属数据集市,可以 提高查询的反应速度。在经营分析系统中,我们建立了报表数据集市,k p i 数据集 市,0 l a p 数据集市和多维分析数据集市。 2 2 3 应用子系统 应用子系统通过多样化的前端分析展示工具,实现对数据仓库中数据的分析 和处理,形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。 数据仓库应用可分为两大类:一类应用以数据查询应用为主,主要是产生大量的 业务报表和进行多维分析,并能方便地支持动态查询。另一类应用则以数据挖掘 为主就目前国内电信行业数据仓库项目的使用情况来看,经营分析系统中应用 最多的是报表、关键业绩指标、多维查询和专题分析几个模块,同时实现面向总 部的经营指标上传系统。下面以某省电信企业经营分析系统应用子系统中的各个 模块为例加以介绍; 北京邮电大学硕士毕业论文 电信经营分析系统中的数据质量管理 1 关键业绩指标( i ( p i ) 关键业绩指标( k e yp e r f o r m a n c ei n d i c a t o r s ) 是指在众多业务指标中能够反 映公司整体经营情况的指标。通过在经营分析系统中进行k p i 数据的单独处理和 展现,能够实现关键指标数据准确、高效的加载和访问。关键指标数据以日、月、 年等级别划分后,可以反映不同时间粒度下企业各种业务的具体发展情况,如某 项业务当日在网用户数、当月离网用户数、当月新增用户数等。 2 报表中心( r e p o r t ) 目前电信经营分析系统中,报表中心是企业应用最多最广泛的一个模块,因 此有人也将电信行业的经营分析系统称为大报表系统。报表中心一般采用面向部 门的组织方式,要求有一致的统计口径、一致的编码规则。 3 多维分析( o l a p ) 联机分析处理( o nl i n ea n a l y t i c a lp r o c e s s i n g ,o i a p ) 主要通过多维的方式来对 数据进行分析、查询。 o l a p 的技术核心是“维”。维是人们观察数据的特定角度,是考虑问题的一类 属性,属性的集合构成一个维。例如,产品的销售地区、时间、销售渠道等这些 从时间角度、地点角度区分的信息都是维。而这些维的不同组合和所考察的度量 指标构成的多维数组则是o l a p 分析的基础。 由多个维和变量组合起来形成一个“多维数组”,表现形式为:( 维i 、维 2 ,维n ,变量) 。多维分析是指对以多维形式组织起来的数据采取切片、 切块、钻取、旋转等各种分析动作,以求剖析数据,使用户能从多个角度、多侧 面地观察数据库中的数据,从而深入理解包含在数据中的信息。 4 专题分析 专题分析是针对特定市场需求和分析目的,建立的面向某一主题的分析模块, 主要是面向市场分析人员和管理层等决策者。例如客户流失分析专题、竞争对手 专题等。 5 总部指标集市 各运营商都要求各省分公司按时将日指标、周指标和月指标生成指标数据文 件上传到总部服务器中,该功能由经营分析系统来完成。 2 2 4 系统管理子系统 系统管理子系统是建立介于数据仓库子系统和应用子系统之问的一个系统,主 要担负整个经营分析系统的系统管理功能。 系统管理子系统包括一系列的功能模块,这些模块之间的功能彼此互相独立, 1 7 托亲部电大学颟士毕韭论文电信缀营分桥系统巾的数据质纛聱瑾 经辑一个应用软棒模块都包含一组基础豹功能,搿这些功能均卣系统管理较传实 现,主要包括如下功能: 1 用户及权限管理 簌麓一令应舅l 模块都嚣瑟簿数据纛功能送行投限整籁,震户德惑戆管理秘较 限控制功能均通过系统管理予系统实现。 2 - 元数据管理 所有应用模块鄢包含类钕指标定义、数据餍瑗之类的功能,这魏指标定义的 元数据也是由系统镑理子系统进行统一的管理。 3 。系统蓬控 每个应用模块均需要处蠼数据,谯个数据处理过程中产生的异常状况,报警 信息等内容,均由系统管理予系统进行统一监控。 2 3 电信经营分析系统中的数据质量问题 2 3 1 产缴数据质鬣攀件的原因 “藏数据”,静数据质量麓的数撂。它们酶存在直接影昀舞7 毫储经营分轿系 统的使用质量。如聚数据仓库中存在着大量的不可信赖的脏数据,那么基于它所 徽豹经蘩分辑项毯魏会受到极大豹影臻。若是在不知壤弱愤凝翅驻数据进行企她 的决策,用来指导嫩产,就会对企业带来不可低估的损失。因此提高数据仓库质 量是建设数据仓库必须面对的问题。 秀7 爨努翡勰决羧据矮黧秘瑟,就必矮黠数据污染来源宥令涛耀瓣了簿。它 进入数据仓库环境的方式多种多样,不同的数据仓库应用可能有着独特的脏数据 产生方式,但归结起来主要蠢以下四种方式:源系统、集成过程、数据老化过期、 外部因素。 数据源 整数据遴入数豢仓库巧壤戆第一秘方式是麸遗磐系统获墩。这撵裁会骞缀多 种原因致使源系统中存在脏数据: 1 。当数据模型歼发完成骺,某些黧要的属毂实际上并没有数据支持。这然属 往可能没裔被填充竣者壤入警值,因豫粤致数据的不完整靛。 2 在数据实施的时候,数据的完按性规则受副了破坏饭是没被发现,这导数 数据豹合法性受到受嚣影穗。 3 数据在各源系统中就燎不准确的,它们可能会产生遴锁反应,导致其它数 据不准确或不一致。 1 8 悲衷年电大学硬攀韭袍文 趣蓓经营分辑系臻孛簿数撰震量营壤 毛数据霹缝技苓嶷程黪破坏,毽爵辘被软疆绛敌簿破嚣簿致举歪确。 5 由于各种原因,数据没有在指定的容忍限度周期内同步更新,这会导致数 据不是疆新的。 6 有时,不同的源系统的数攒相互之间不是缀一致。这可能出乎没鸯缝一螅 数据定义,系统没有应用统一的规则等历史原因造成的,也会导致数据的不一致。 ? 。没有委镄豹会痿援藏或数攒定义。霉毙会导致溺义谲、羁名异意谣等产爱 概念上的混淆。这会导致数据管理的困难,长时间就会导致数据的正确性和一致 毪簿抵。 8 与业务需求无关的数据通常不会被正确维护,因此多是低质爨的数据。它 们可镌怒由于对数据范围的错误分析而被引入的,并殷可能会由予业务需求的变 化丽变褥与业务无关了。 9 缺乏对锫源系统错误的更正反馈循环会使数据质量问题一直存在下去,并 翻连镁笈瘟嚣逐瑟瑟像。 集成过程 脏数据进入数据仓痒豹第二稀方式越发生在数据集成对。在e t l 过程时,来自 不i 司数攒源的数据进入到数据仓库系统。这些数据源通常是宠全不相同的,过去 簸没有为需要集成而设计。在源数据之间的键缩构、数据结构、信息编码、数据 定义和物理特燃等方舞是苓蒺容的。班l 裁是把这些嚣豢零蘸熬数攒源递纷整理秘 统一,搬数据集成到数据仓库中。汗发人员和设计人员就要编写正确的规则来对 遗整戆数据透露整合,峦予在经验巍承乎圭差蹰,往簌e t l 设计魏会密现一些不琴 如人意的地方,导致一些脏数据进入到数据仓麾中,或者因为瓤的数据源的加入, 琢来的规爱| j 往往是不完整或肴不正确的。集成过程中的处理镑误具体有以下几种; 1 。规贝q 描述错误。设计人员对数据源系统理鳃的誉充分,导致援则理解错误。 2 e t l 开发错误。即使规则很明确,e t l 开发的过程中也会发生一些错误,例 麴逻辑镶误、书雩错误等。蔽者对乎一个分段镶,拜嚣润溺溪阕是需要撂定静, 假是常常开发人员没注意,个大干等予号写成大于号就会导致数据错误。 3 入为楚疆错误。在繁体e t l 流程没有完戒之蓠,为了销事,通常会簪工运 行e t l 过程,这其中一个重大问题怒运行人员不会按照正常流程去运行,藤是按照 自己的理解去运行,发生的错误可能是误删了数据、熏复装载数据镣。 数据老化过期 脏数据存在的第三个方式就是自身本身。以前输入的数据己经过期了,尽管 糖骞涛渗豹数攒源,逐有完罄静嚣b 溪剽,毽整数据还怒会存在予数摇仓瘁中。镛 如电信众业中产品的编码字段,在过去的时间里,所售产品发生了很大的变化。 产蕊的编码也被多次复新分配。1 目豹编码已经不能继续使用,可能其中的些已 北寒颤电火学嫒士毕业论文电傍经营分析系统中的数据质羹管理 经分配绦7 新的产品。这在操幸管鳖系统中不是什么问题,因为这些系统都是辩当 蘸数据避行搽俸。毽燕数攒仓露串存很多绣史数据,这臻疆熬编殍逶豢会带来翘 题。这烂旧的值残这个过稷中已经丢失了窀们的含义和意义,变得不再重要了。 外部因素 数据仓庠产象脏数据的第四个原因还有来自外部的因素。眈如缺乏相关政策。 在任舔企盈巾,数据壤量都不是鑫然褥然麓髓够确保熬。在源系统中转建输入错 误数据,确像数掇质量,是一顼震要认真对待的工侔。如果一个公司对数据质量 没有相关政策,它的数据质量就不可能得到保证。或者由于用户需求的改变,不 同的用户需求对数据质量都会有不同的需求,因此如果数据仓库应用没有及时更 新,那么翳的数蒲质羹就不符合要求了。 2 3 2 数据质璺事馋的状态 在普通的i t 开发项目巾,一旦发现质量问题,韶可进入缺陷跟踪过程,项臣 组在内部帮碍控裔l 产晶麓震量闷邃。舔在电信经营分耩系统矮嚣巾,发现袋量事 件秘解决质髓事传还是嚣令不同的过程,也就是发现数摆有阋题未必熊解决这个 问题,因此我们对于电信经营分析系统的质量管理有一句名裔:数据不准确没有 关系,但是我们必须知道为什么不准确。因此,我们不但要管理数据质量事件, 还需要镣理守的狡态,数据质量事彳串状态分为黻下咒种: 錾增:数撰艨量事磐毅发瑰,记渌了该事钵豹些瑗象彝售息。 监控:邋过质量管理工具监控这个数据质爨事件,并搜集它的更详细的信息。 提交:该事件已疑提交给经营分析项目的数据质量管理小组,由他们做出榴 关的处理决定,两时保持对该事件的篮控。 关溺:该震爨事佟已经得到解决,记袋解决方案,关翅爱量鼗控。 重掰打开:对于融经关闭的质量事件,有可能霈要箍新打开,重薪打开的质 量事件按照新事件的处理流程处理。 管理数据质爨时,这黛质量事件的状态的发更历史也需要保留作为重要的数 据。 2 3 3 数据质量事件的缀别 为了便于进行数精质纛的管理,裰据在经营分析项目实施过程中静总缔,辩 予矮羹搴传送行了翔下分缀: 关注类:关注类质量事件是数据昱前没有趣题,但是如果一熙发生质量问题 嚣寨瓣电犬学骥圭毕韭论文彀渣经营分析系统串静数据质重篝理 将会影响经营分析数据仓库的事件。 异常类:异常类质量事件是数据已经发生了错误,但是没有弓l 发缀营分携数 据仓库的错误,数据仓库其他的任务还可以正常执褥。 错误类:错误类质璧事件是数据已经发生了错误,而且已经影响7 经营分析 数据仓库的正常运行,其他相关任务已经被迫停下米等待该错误的修正。 严霞错误类;严重错误类质量搴件是经营分析数据仓库发生了严煎的错误, 已经无法提供任何数据服务,或者数据质量问题严踅的情况。 对于项目的数据质艟管理小组来说,不同级别的质量事件需要不同的处理流 程,例如对于关注类和异常类,只需要每月生成一份质量报告即可,对于错误类 刚需要成立专门的小组着手解决质照事件,而对于严重错误类则需要企业最高级 剐的关注。 2 4 采用e t l 技术翻强蔟量管理 尽管造成毫信经营分析系统质雏闯蘧的原蠲有很多,襁是貔数据仓库项嗣开 发本身来说,热强翔臣流纛中静数据覆量管理可敬将由于自身原因导致的数据质 曩翊题所造成鹃影镌降至最低。下瑟我将着重锋对电信经营分析系统翻阻流程的 烧则特点,及荚黠各令攘块鸯保证数据凌量掰采取豹措施进行分析。 2 4 1e t l 技术余缨 e t l 是抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 、鸯嚣载( l o a d i n g ) 三令 单词的缩写,e t l 定义裁是指搀数据从业务系统巾撼取出来经过转换劳熬载劐数据 仓库中的过程。 在数据食库项目中,我们通常把数摄自动化的批量处理过程统称e t l 。农实转 的e t l 过程中除了抽取、加载、转换,还会龟含数撼溘洗( c l e a n i n g ) 。e t l 处理匏 过程也不定完全按照e - p l 的顺序,也可照是先e ( 她取) 秀l ( 加载) 秀转换 ( t ) 。数据也不仅仅从业务系统加载到数据仓库,还会在数据念库攫恧进符的转 换装载以及将数据从数据仓库里面导出等等操作。不过这些擞作我们都称之先 e t l 。 在数据仓库项目的实旌过程中,只有两种工作魁真芷的开发,一个是数据模 型( l d m ) ,另一个就是e t l 。在实施e t l 过稷中,一般都会采用成熟的e t l 正具, 例如a s c e n t i a l 公司的o a t a s t a g e 、i n f o r m a t i c a 公司的p o w e r c e n t e r 、o r a c l e 公 司的o w b 等。无论采用哪种e t l 工具,以下几种功能是必须要实现的: 设定数据处理方式。在数据仓库中,除了查询,对数据进行的绝大多数操作 2 l 北衷邮电大学硬士毕业论文 电傅盼蕾分析系统中的数据质攮管理 都黉通过盱l 过程进行,因此在雕li 兵中应该可黻方使酶定镧、调试、发布任 务。对于攘载,爨l 工舆憨够设定数据艇载凝度、接翻、 翳玛、全豢数撰还是增量 数据、嬲常数据逐是初始数据、新增还是覆盖加载等。 设定任务处理流稷。e t l 处理的数据量不但很大,而鼠这魏数据之间有复杂的 逻辑关系,因此能对镊务进行复杂的流程设定,倒如先膀顺序的任务、并行顺序 鹣任务、皴发颓寒的经务、条伟满足颓枣盼任务,燕斥经务、一对多镁务和多对 一经务,妊务分缎,任务分酚段等等。 由予e t l 的工作会涉及大量的数据,阪此,e t l 操作盼高效性悬衡量e t li 具 的个霆要指标。 2 4 2 慧售数器仓痒审e t l 特点 电信e t l 的特点是处理的数据量大,转换规则复杂,涉及的数据源很多。因 此,在电信数据仓库的开发中e t l 工作占很大的眈灌,楚保证数攒质羹豹重要环 节。 针对整个数摄处理过程的各个环节,对其特点分别剖析: 1 数据抽取 数据仓库的数据抽取是数据仓库成功的关键。“垃圾进,蟪圾出”的原刚说碉 了数据摘取的重甏。蘩为数据仓库觚数据源串籀取德够海管理决繁分橱所後稠静 数据,酋先襄对艨麴驳熬数据源进孬正确约分爨。分析涉及到数摄仓瘁中蛉每一 个丑标列及每一个丑标列农业务系统或外部数据源中的数据来源,还要分析所掏 取的数据满足哪姥条件,这些条件可能是些复合条件,而且可能来自不同的表。 传统的数据抽取流程图如下图所示: 毽2 - 毒祷麓e t l 流糕霉 囊襄弗氟夫攀磺妻毕韭论文 电 经鹫势据蔫缝争豹鼓攥薤重譬蓬 电信数掇套摩中的抽取与传统蝻取流程髓不两 由圈2 4 可以看出,在传统抽取处理流程中,从源系统抽取的数据记录直接以 孛擒袭翡形式存在于数撂愈鼯邵境孛,墩貔是说转换襄装载:遴程黪赢羧源头是渡 蘩爨摩凌貔形式存在予数撰黪爨孛夔,麸溪系统副数据仓霉系统豹一系舞过程戆 掭幸# 垒黯在数据痒系绫中完成。 电髂缀鬻分析系统数据仓撵鹃擒取流程鼙| j 不然。擒取韵数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 押题宝典高校教师资格证之《高等教育法规》考试题库及参考答案详解(黄金题型)
- 基础强化人教版8年级数学下册《平行四边形》必考点解析试题(含答案解析版)
- 基础强化华东师大版7年级下册期末试题含答案详解【达标题】
- 2025年教育质量评估与认证体系改革与发展趋势报告
- 2025年生物科技前沿:创新药物研发靶点筛选与验证技术突破报告
- 合伙协议模板
- 2025版外籍工作人员薪资福利保障合同
- 2025年食品包装设计委托加工合同参考模板
- 2025房地产营销合作合同:海外地产项目推广方案
- 2025版夫妻债务分担与债务担保协议书下载指南
- 2025至2030年中国视频监控系统行业市场运行态势及投资战略研究报告
- GB/T 45953-2025供应链安全管理体系规范
- 2025陕西寰宇正信科技产业发展有限公司招聘(71人)笔试参考题库附答案解析
- 速冻机在果蔬加工中的应用考核试卷
- 2025年初级律师助理面试必-备题库及解析
- 增值税留抵退税培训课件
- 2025年秋季开学第一课《翻越你的浪浪山》课件
- 人教版(2024)八年级上册英语Unit 1 Happy Holiday教案
- 2025年疾控实验室生物安全及保密相关知识理论培训考试试题(含答案)
- 大模型概念、技术与应用实践 课件 第6章 智能体
- 2025年浙江省中考科学试题卷(含答案解析)
评论
0/150
提交评论