(计算机软件与理论专业论文)电信业务bi系统中的数据质量控制.pdf_第1页
(计算机软件与理论专业论文)电信业务bi系统中的数据质量控制.pdf_第2页
(计算机软件与理论专业论文)电信业务bi系统中的数据质量控制.pdf_第3页
(计算机软件与理论专业论文)电信业务bi系统中的数据质量控制.pdf_第4页
(计算机软件与理论专业论文)电信业务bi系统中的数据质量控制.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机软件与理论专业论文)电信业务bi系统中的数据质量控制.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕十研究生学位论文中文摘要 中文摘要 随着电信业的竞争日益激烈,建设电信业务b i 系统也就显得越来越重要。 而数据质量成为了b i 系统建设成败的关键因素之一。全面地对数据质量进行管 理是提高数据质量的有效方法。本文的重点是研究有效的电信经营数据质量的管 理、过程控制和评估方法。 本文首先介绍了数据质量的理论和电信业务b i 系统,并阐述了数据仓库产 生脏数据的原因。研究了高质量数据仓库设计的方法和在数据仓库设计和实施过 程,在各个层面数据质量检查的方法以及错误追踪流程。 在以上的研究和理论的基础上,研究了数据质量模型,在此基础上提出了电 信企业b i 系统数据质量保证框架。并详细的介绍了框架的主要组成部分:组织, 过程,验证。 最后,作者对本文的研究成果做了总结,并对该论文的局限性做出下一步工 作的几点建议。 关键词:数据质量:商业智能;数据仓库,数据质量控制 南京邮电大学硕士研究生学位论文 a b s t r a c t a b s t r a c t t h ec o n s t r u c t i o no fb is y s t e mf o rt h et e l e c o m m u n i c a t i o nb u s i n e s ss e e m st ob e m o r ea n dm o r ei m p o r t a n ta st h ec o m p e t i t i o no ft h et e l e c o m m u n i c a t i o ni n d u s t r y b e c o m e si n c r e a s i n g l yv i g o r o u s a n dd a t aq u a l i t yb e c o m e so n eo f t h ec r u c i a lf a c t o r st h a tl e a dt h ec o n s t r u c t i o no f t h eb is y s t e mt os u c c e s so rf a i l u r e m a n a g i n gt h ed a t aq u a l i t yr o u n d l yi se f f e c t i v e m e t h o do f e n h a n c i n gd a t aq u a l i t y t h ek e yp o i n to f t h i sp a p e ri st os t u d yt h ee f f e c t i v e m e t h o d so f t h em a n a g e m e n t ,t h ep r o c e s sc o n t r o la n dt h ee v a l u a t i o nf o r t e l e c o m m u n i c a t i o ne n t e r p r i s eo p e r a t i n gd a t a , t h i sp a p e ri n t r o d u c e st h et h e o r i e so f d a t aq u a l i t ya n dt h et e l e c o m m u n i c a t i o n i n d u s t r yb u s i n e s sb if i r s t ,a n de l a b o r a t e st h er e a s o n sw h yt h ed i r t yd a t ae x i s t si n w a r e h o u s e t h e ni ts t u d i e st h em e t h o d so f d e s i g n i n gh i 曲一q u a l i t yd a t aw a r e h o u s ea s w e l la st h em e a s u r e m e n to f d a t aq u a l i t ya ta l ll e v e l si nt h ep r o c e s so f d e s i g n i n ga n d i m p l e m e n t i n gd a t aw a r e h o u s ea n d t h ep r o c e s so f t r a c k i n ge r r o r t h ep a p e rs t u d i e sd a t aq u a l i t ym a t u r em o d e lo nt h eb a s eo f t h et h e o r i e sa n d r e s e a r c ha b o v e ,t h e np u t sf o r w a r dt h ec o n t r o lf r a m ef o rd a t aq u a l i t yo ft h e t e l e c o n m a u n i c a t i o nb u s i n e s se n t e r p r i s eb is y s t e mo nt h i sf o u n d a t i o n t h eo r g a n i z a t i o n a n dp r o c e s s ,a sw e l la sv e r i f i c a t i o n ,w h i c hc o n s t i t u t et h ef r a m ea r ee l a b o r a t e d t h ea u t h o rs u m m a r i z et h ef r u i to f t h er e s e a r c ha n dg i v e ss o m e s u g g e s t i o n sa b o u t w h a tt od on e x tb yc o n s i d e r i n gt h el i m i t a t i o no f t h er e s e a r c hd o n ei nt h i sp a p e r f i n a l l y k e yw o r d s :d a t aq u a l i t y , b i ,d a t aw a r e h o u s e ,d a t aq u a l i t ym a n a g e m e n t s i i 南京邮电大学 硕士学位论文摘要 学科、专业:工学计算机软件与理论 研究方向:数据仓库和决策支持系统 作 者:塑兰级研究生谢于亮指导教师塑鏖 题目:电信业务b i 系统中的数据质量控制 英文题目:d a t aq u a l i t ym a n a g e m e n t si nb is y s t e mt e l e c o m 主题词:数据质量商业智能数据仓库数据质量控制 k e y w o r d s :d a t aq u a l i t yb u s i n e s si n t e l l i g e n c e d a t aw a r e h o u s ed a t aq u a l i t ym a n a g e m e n t s 南京邮电大学学位论文独创性声明 过8 s 1 0 0 6 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名 恤h 期:坦墟 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复r o l l 二和电子文档,可以采用影印、缩印或其 他复制手段保存沦文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密沦文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名:造娅导师签名磁釜 笋 南京邮电大学硕士学位研究生学位论文 第一章绪论 1 1 论文研究的背景 第一章绪论 在当前电信业激烈的竞争中,电信企业为了更好的为客户服务,纷纷建设自 己的业务b i 系统。由于对生产管理系统的不断整合和关注,导致对数据本身的整 理。如果忽略了数据质量,那么在数据仓库系统里,即输入的是垃圾数据,输出 的还是垃圾数据( g i g o ,g a r b a g ei ng a r b a g eo u t ) 1 ,这样就会对电信企业的决 策分析产生误导。 数据质量主要是数据准确性,而准确不是精确,数据准确是指数据统计结果 在预期可接受的误差范围内,在数据仓库应用系统内,不同应用对于数据准确性 有不同的要求: 夺报表数据 报表数据一般对于数据的准确性要求比较高,特别是财务方面的指标,是严 格限定在误差范围内的。对于报表的指标,即使是允许的误差范围,也要求给出 误差产生的原因,例如是小数点四舍五入或是由于秒转换到分钟算法不同等。 夺0 l a p 数据分析 0 l a p 分析一般是总体数据的宏观比例、趋势等分析,对于数据总量的误差 有一定的限制,但要求数据在不同维度上的分布比例正确,能够正确反映宏观比 例和趋势。 夺数据挖掘 数据挖掘一般使用比较复杂的数学算法对于数据进行处理,因算法比较复 杂,对于硬件环境要求比较高,同时也限定了使用的数据集合不能太大,一般要 求对于全体数据进行采样,因此在这个过程中,仅关心样本的代表性。 1 2 本文工作内容以及研究成果 作者在参加湖北省电信业务b i 系统的建设中,主要参与了数据仓库建设以及 数据质量改善工作。在项目的过程中遇到了各种各样的数据质量问题,作者深深 南京邮电大学硕士研究生学位论文第一章绪论 体会到了数据质量对于电信b i 系统的重要性。作者正是根据在实际项目中积累的 丰富经验,总结了数据质量方面的诸多问题和解决方法,完成本文。 本文研究的主要内容和目标是根据国内电信企业的现状,参照规范的电信企 业信息化建设标准,结合湖北省电信b i 系统建设的工程经验,主要是研究了数据 仓库体系结构理论、数据仓库数据质量管理、数据仓库生命周期理论、元数据管 理理论和软件工程方法的研究,并提出高质量的数据仓库设计原则,提出了高质 量的数据仓库建设方法。在此基础上研究有效的电信经营数据质量的管理、过程 控制和评估方法,提出了行之有效的数据质量保障框架。 1 3 本文结构 本文中其他各章节展开如下: 第二章介绍了数据质量的相关理论。指出了数据质量对电信企、【k 的重要性, 对数据仓库的数据质量问题进行了分类,给出了数据质量的定义以及数据质量纬 度。 第三章系统的研究了当前电信业务b i 系统的结构。指出了数据仓库系统是 b i 系统的核心部分,提出了高数据质量的数据仓库建设原则。 第四章主要介绍了数据仓库的数据质量检查。 第五章主要研究有效的电信b i 系统数据质量控制的一系列措施。 南京邮电大学硕士研究生学位论文第一章数据质量丰目关理论 2 1 引言 第二章数据质量相关理论 数据质量是与用户所定义的数据项的用途相关的,有人认为是数据从数据源 被采集时所蕴含在数据与过程之内的期望值。但多数文献认为较好的定义应是数 据仓库对用户的最佳使用度( f i t n e s sf o ru s e ) 。数据缺陷可以被认为是信息 系统状态和现实世界状态产生了不匹配,不能正确的反应现实。本章首先提出数 据仓库数据质量的定义,接着描述数据仓库数据质量的重要性,介绍数据仓库中 产生脏数据的原因以及数据源质量问题分类,在此基础上提出了数据质量方法 论。 2 2 数据质量的定义 在数据质量的定义上,有过许多种不同的见解。但这不仅仅一个学术上的问 题,因为数据质量的定义会紧紧地跟特定的纬度和衡量紧密相关,与此来支撑数 据质量改善方法。传统的信息处理学认为数据质量跟准确,精确和及时性有关。 l e v i t i n 和r e d m a n 2 认为跟数据质量有着相当重要关系的两方面是清晰数据 模型定义和数据值是准确的。 现在越来越多的观点被扩展。例如s t r o n g ,e t a l , 3 就从消费者的观点出 发,认为数据质量是适合使用的。因此数据质量这个概念是具有相对性的,一个 用户认为是高质量的数据未必就能够被其他用户所接受 4 。 分析系统以数据仓库的理念和方法设计、建设和维护。从数据仓库的技术范 畴和概念范畴来讲以及从对电信企业b i 系统建设的角度出发,我们认为数据质 量应该具有以下纬度: 夺完整性( c o m p l e t e n e s s ) 数据仓库的数据完整性应从业务完备、设计完备和数据是否破缺三方面考 虑。 南京邮电大学硕士研究生学位论文第二章数据质量相关理论 1 ) 业务完备性 主要检查重点包括:是否涵盖了所有需要的业务系统数据源。 2 ) 设计完备性 主要检查重点包括:模型完备性、数据字典完备性、映射关系完备性、业务 规则完备性、元数据完备性。 3 ) 数据是否破缺 对一个业务,一个客户,一个产品,一个客户的性质等进行缺失考察。例如, 客户名称是否有姓无名,客户档案是否齐全等。 数据破缺主要发生在实体或对象的属性上和整个数据缺失两种情况。 主要检查重点包括:数据完整性:例如,属性数据是否残缺,数值类型数据 是否有空数据;加工层次完整性:加工过程中重要的中间数据是否保存,例如, 有月份统计数据,考察日数据是否存在? 粒度完整性:重要经营指标各个粒度数 据应该完善。 夺有效性( v a l i d i t y ) 指数据是否包含了一个有效的数据格式或值。 夺一致性( c o n s i s t e n c y ) 一致性定义为数据仓库系统内数据定义的统一。应该对主要数据对象和实体 进行一致性检查规则,主要表现在定义和口径的一致性。 由于经营分析系统是庞大的信息系统,完全检查不是一个经济的方法,应该 针对主要问题罗列检查项目和规则。 数据的一致性和数据冗余是成反比的 5 。数据具有少量的冗余时,才具有 较高的一致性。如图2 1 数姑冗余 图2 一l数据一致性与数据冗余成反比 另一方面,数据一致性和数据真实性是成正比的 5 。因为不一致的数据缺 南京邮电大学硕士研究生学位论文第二章数据质量相关理论 乏真实性和可靠性,如图22 瓤话其买性 图2 - 2数据一致性与数据真实性成正比 夺唯一性( u n i q u e n e s s ) 唯一性定义为经营分析系统数据定义的唯一性。由于数据仓库技术不一定受 第三范式约束,可能具有相当的冗余,但数据冗余不能违反定义的唯一性原则。 对于那些既存在于关系数据库又在多维数据库中表现的数据和指标要特别注意, 因为极容易由于生成的时间差造成不一致。 夺正确性“c c u r a c y ) 数据正确是决策的关键,数据不正确,数据仓库项目就等于失败。但数据的 正确性难以通过自身检查。应该对重要数据和重要统计设立止确性检查。主要方 法是: 1 ) 数据自身统计检验; 2 ) 横向对比检验; 3 ) 纵向对比检验; 4 ) 数据间按逻辑交叉检验: 夺准确性( p r e c i s i o n ) 只有在数据的正确性基础上讨论准确性才有意义。准确性包括精度和近似规 则。 夺可用性( a c c e s s i b i l i t y ) 数据的可用性不是一个简单的数据质量问题,而是系统质量问题,所有质量 因素都可能影响到可用性。数据的可用性主要体现在使用的效率上。 夺时效性( t i m e l i n e s s ) 数据在正确的同时还应该确保e t l 过程的及时性。 夺清晰性( c l a r i t y ) 南京邮电大学硕士研究生学位论文 第一章数据质量相关理论 数据的清晰性考验系统元数据的精度。元数据必须清晰定义每一个数据的来 龙去脉。必须没有歧义。 夺充足性( s u f f i c i e n c y ) 数据的充足性定义在保证数据正确性和准确性基础上是否能对主要业务专 题提供足够的数据进行足够精度的分析。 2 3 提高数据质量的好处 随着电信企业对数据分析需求的增长,在电信企业转型期间,数据仓库信息 质量越来越变得重要。许多管理方面的决策依赖于数据仓库的支持,质量差的数 据使电信企业用户觉得所产生的报表不可信赖,错误的数据容易误导企业用户, 从而造成管理决策的失误。所以说数据质量是数据仓库的生命。 2 3 1 更好的客户服务 客户服务中准确和完整的信息所带来的好处,再怎么强调电不过分。假设 客户的地址发生了变动,如果没有及时修改过来,在数据在系统中依然是旧的地 址,这样就会影响电信企业对该用户的服务。比如说上门维护和同访等等,客户 没有及时得到服务,就会降低对电信企业的满意程度。 2 3 2 提高生产率 电信企业用户可以从整个企业的角度来看待数据仓库的信息。这是数据仓库 的一个主要目标。从全面信息促使流程和操作更顺畅,从这一点看,可以看出来 生产率的明显提高。例如从整个企业的角度来看待问题,可以制定更好的受理流 程和营销策略。 2 3 3 更多的机会 数据仓库中的高质量的数据是一个巨大的市机会。它给产品和部门之间的 交叉销售打开了机会的大门。电信企业可以判断其产品的客户,判断他可能感兴 趣或者可能购买其他的电信产品。市场部门可以进行更有针对性地营销活动。这 6 南京邮电大学硕上研究生学位论文第二章数据质量相关理论 是质量数据所能带来的众多机会的一个。另一方面,如果数据质量很差,那么该 营销活动就不会取得预期的效果。 2 3 4 减少成本和风险 低劣的数据质量会带来哪些风险? 明显的风险就是战略决策可能会导致灾 难性的后果。其他的风险还包括浪费时间、生产和系统的故障,有的甚至会引起 客户和商业伙伴采取法律手段。例如,在我们前面的例子里面,如果在客户资料 中,地址不完整、不正确或者有重复,会浪费很多邮件。 2 3 5 可靠的战略决策制定 这一点值得一再重复强调。如果数据仓库中的数据是可靠而高质量的,那 么基于这些信息进行的决策就是好的决策。除非数据是“清洁”而具有高质量的, 否则数据仓库不能为商业增加价值。 2 4 数据仓库产生脏数据的原因 数据质量差的问题是在构建数据仓库时需要解决的最困难的问题之一,大多 数失败的数据仓库项目都是过分低估了数据质量而导致的。即使在数据仓库方法 学和最初的项目规划中考虑了数据仓库的数据质量问题,但是解决数据质量问题 并非易事,并且往往消耗的时间比预期的要长。一般来说,大多数数据仓库项无 法如期完成的很重要的原因是因为数据质量问题。因此必须对数据仓库系统的数 据质量进行全面改善和一个长期的建设过程。 “脏数据”,即数据质量差的数据。它们的存在直接影响到了电信b i 系统得 使用质量。如果数据仓库中存在着大量的不可信赖的脏数据,那么基于它所做的 电信b i 项目就会受到极大的影响,包括决策分析,数据挖掘,即席查询还有k p i 等项目。若是在不知情的情况用脏数据进行企业的决策,用来指导生产,就会对 企业带来不可低估的损失。因此提高数据仓库质量是建设数据仓库必须面对的问 题。 为了更好的解决数据质量问题,就必须对数据污染来源有个清晰的了解。它 南京邮电大学硕士研究生学位论文第= 章数据质量相关理论 进入数据仓库环境的方式多种多样,不同的数据仓库应用可能有着独特的脏数产 生方式,但归结起来主要有以下四种方式:源系统、集成过程、数据老化过期、 外部因素。 数据源 脏数据进入数据仓库环境的第一种方式是从遗留系统( 9 7 系统,计费等) 获取。这样就会有很多种原因致使源系统中存在脏数据: 1 当数据模型开发完成后,某些重要的属性世纪上并没有数据支持。 性可能没有被填充或者填入空值,因此导致数据的不完整性。 2 在数据实施的时候,数据的完整性规则受到了破坏但是没被发现, 据的合法性受到负面影响。 这些私属 这导致数 3 数据在各源系统中就是不准确的,它们可能会产生连锁反应,导致其它数据 不准确或不一致。 4 数据可能被不良程序破坏,也可能被软硬件故障破坏,导致不正确。 5 由于各种原因,数据没有在指定的容忍限度周期内同步更新,这会导致数据 不是最新的。 6 有时,不同的源系统得数据相互之间不是很一致。这可能由于没有统一的数 据定义,系统或也许功能没有应用统一的规则等历史原因造成的。这也会导 致数据的不一致。 7 没有正确的命名规范或数据定义可能会导致同义词、同名异意词等产生概念 上的混淆。这会导致数据管理的困难,长时间就会导致数据的正确性和一致 性降低。 8 与业务需求无关的数据通常不会被正确维护,因此多是低质量的数据。它们 可能是由于对数据范围的错误分析而被引入的。它们可能会由于业务需求的 变化而变得与业务无关了。 9 缺乏对各源系统错误的更正反馈循环会使数据质量问题一直存在下去,并因 连锁反应而逐渐恶化。 集成过程 南京邮电大学硕士研究生学位论文第二章数据质量相关理论 脏数据进入数据仓库的第_ _ :二种方式是发生在数据集成( e t l ) 时。在e t l 过 程时,来自不同数据源的数据进入到数据仓库系统。这些数据源通常是完全不相 同的,例如9 7 ,计费,1 0 0 0 0 号等系统,过去就没有为需要集成而设计。在源数 据之间的键结构、数据结构、信息编码、数据定义和物理特性等方面是不兼容的。 e t l 就是把这些非常零乱的数据源进行整理和统一,把数据集成到数据仓库中。 开发人员和设计人员就要编写正确的规则来对遗留的数据进行正和,由于在经验 和水平上差别,往往e t l 设计就会出现一些不尽如人意的地方,导致一些脏数据 进入到数据仓库中,或者因为新的数据源的加入,原来的规则往往是不完整或者 不正确的。 数据老化过期 脏数据存在的第三个方式就是自身本身。以前输入的数据已经过期了,尽管 拥有清洁的数据源,还有完善的e t l 规则,但脏数据还是会存在于数据仓库中。 例如电信企业中产品的编码字段,在过去的时间里,所售产品发生了很大的变化。 产品的编码也一定被多次复新分配。旧的编码已经不能继续使用,可能其中的一 些已经分配给了新的产品。这在操作型系统中不是什么问题,因为这些系统都是 对当前数据进行操作。但是数据仓库中有很多历史数据,这些旧的编码通常会带 来问题。这些旧的值在这个过程中已经丢失了它们的含义和意义,变得不再重要 了。 外部因素 数据仓库产生脏数据的第四个原因还有来自外部的因素。比如缺乏相关政 策。在任何企业中,数据质量都不是自然而然就能够确保的。在源系统中防止输 入错误数据,确保数据质量,是一项需要认真对待的工作。如果一个公司对数据 质量没有相关政策,它的数据质量就不可能得到保证。或者由于用户需求的改变, 不同的用户需求对数据质量都会有不同的需求,因此如果数据仓库应用没有及时 更新,那么旧的数据质量就不符合要求了。 2 5 数据仓库数据源数据质量问题分类 数据仓库数据源的质量问题可以分成物理层面、数据层面和业务层面。物理 南京邮电大学硕士研究生学位论文第二章数据质量相关理论 层面的错误指的是和接口文件内具体数据无关的错误,如接口文件没有保存到指 定的路径下,或者,接口文件的大小明显异于正常值,或者被软硬件破坏等;数 据层是指的是数据本身与业务逻辑无关的错误,如数据格式是否符合定义、数据 值是否符合范围等;业务层面指的是加入业务逻辑后数据是否满足要求。 物理级错误可以按照文件是否正常到大分成两类:文件没有正常到达和文件 正常到达后的其他问题; 数据层面的错误可以分成违反实体完整性约束、违反参照完整性约束、违反 域完整性约束三类; 业务级错误可以分为数据不准确和数据不一致。数据仓库数据源错误分为如 图2 - 3 : 图2 - 3 数据源错误分类 2 5 1 物理层面的错误 2 511 文件没有正常到达 文件上传的路径不正确: 对于数据仓库对数据的处理很大程度上是自动化的,因此,接口文件没有到 达指定的路径会影响以后的数据处理的工作。 文件没有按时到达: 数据文件没有在规定的时间内到达很有可能是数据采集时间设置错误,或者 南京邮电大学硕士研究生学位论文第二章数据质量相关理论 由于网络,硬件等方面的原因造成。 2 5 1 2 文件到达后的问题 1 文件大小明显异于正常值 文件大小在某种程度上反映数据的完整性,通常数据采集回来的数据都会在 某个范围内浮动,若突然有一天突然不再这个范围内,就可以初步认为这次采集 有问题,数据采集过程中出现了异常。 2 数据文件的大小符合一定的规律,如用户欠费的数据一般都是出账日达 到当月的最大值,其余时间数据都成下降的趋势,直到下个月出账日达到最大, 若数据不符合这种规律,就可以初步认为数据质量出现异常。 2 5 2 数据层面的错误 2 521 不满足实体完整性 实体完整性就是要求接口模型中定义主键的完整性。当接口数据来源于不同 数据源出现违反实体完整性约束的错误数据。 2 5 2 2 不满足参照完整- 眭 参照完整性确保健值在所有表中一致。要求被主键约束的接口中的数据要满 足参照完整性的约束。 2523 不满足域完整性 域完整性是指给定的列的有效性。要求数据文件中指定列的数据具有正确的 数据类型、格式和有效的数据范围。 2 5 3 业务层面的错误 数据源的业务层面的错误不容易检测出来,因为和业务属性关系紧密,判断 南京邮电大学硕士研究生学伉论文第二章数据质量相关理论 逻辑也比较复杂,有时甚至借用数据挖掘工具来判断。主要表现数据之间不一致。 根据一些业务逻辑可以发现不同数据字段之间的约束关系,从而得到检测的 判断逻辑。 2531 准确性错误 数据层面的错误跟数据的正确性有关,但无法确保数据的准确性。数据准确 性比数据层面数据正确性的问题更加难以检测。这类错误通常需要结合别的字段 值检测,才能发现。 数据字段不正确 在某些无法保证字段准确性的数据源中字段的取值虽然没有超出编码范围, 但是却不符合世纪的业务含义。例如业务类型字段的取值应统一为“0 1 ”,相 反出现了编码值不等于“o l ”的,则为错误数据。 数据范围不准确 例如由于数据因为某种原因需要推迟几天进入数据仓库系统,为了保证数据 接口数据内容的一致性,也为了编余数据仓库系统的汇总,数据仓库与业务系统 治建的接口对这类数据通常会有特殊的约定。因此可以根据这个要求进行检查。 2532 一致性错误 一致性错误是业务层面最常见的错误,通常表现为数据字段和字段之间的矛 盾,或者不同的数据源数据之间的矛盾。 数据内部字段之间的矛盾 数据内部字段之间的矛盾是指在同一个数据源的数据字段之间具有矛盾。比 如用户证件类型字段为身份证,但客户证件号码字段却不符合身份证字段的数据 出现。 不满足数据之间的计算关系 有时,数据接口的不同字段之间是具有一定的计算关系,如话费详单中通话 时长应等于通话结束时间和同化其实时间的差,用户的出生日期通常等于1 8 位身 份证号码的第七位至第1 4 位,不符合这样的关系的数据可以初步判断为错误数 据; 南京邮电大学硕士研究生学位论文第二章数据质量相关理论 另一种具有关系计算关系的数据的错误情况是高粒度汇总级数据和低粒度 数据汇总后的结构不一致。 不同数据源之间的错误 通常数据源都不止一个,这些数据源往往都是存在一定的关联的,反映的都 是实体的不同属性。例如营业纪录的是用户实体的基本信息,账户信息记录通常 是用户实体的账单、缴费情况、欠费情况等信息,而计费信息则记录用户通话时 间、时长等信息。这些数据显然是有关联的,用户实体把他们联系起来,因此他 们在时间顺序、参照完整性等方面都有约束,只有符合这些约束,刁能保证数据 的准确性。 对于不符合业务逻辑的数据要确定哪些是可以信赖的而哪些又是错误的是 一件非常困难的事情,通常需要多方的努力协调。 2 6 数据质量方法论 从上面的讨论中我们可以提出数据质量方法论,用来指导我们在改善电信业 务b i 系统的数据质量的工作,具体内容如下: 数据质量属于信息技术( i t ) 范畴,有了这样一个范畴,我们就可以很 好的对数据质量控制做出一个很好规划和建设。明确相应的部门来负责 这个问题: 首要的也是最重要的,数据质量的好坏是由用户( c u s t o m e r ) 以及数据 的使用价值所决定的。数据被使用得越多,其价值也就越大: 数据质量的好坏代表着数据在数据知识应用中、数据所存在的系统中以 及数据使用的过程中被应用或者有价值的程度; 只有当数据被下游过程所接收并使用时讨论数据质量问题才有意义; 数据是持续变更的,尤其是电信的业务数据庞大,变更频繁,给数据质 量控制提山了更严格的要求: 由于在数据仓库中数据质量问题的复杂性,数据质量的改进也是一个持 续的过程,数据质量控制管理工作需要相应技术、过程以及人员方面的 有效支持。 南京邮电大学硕士研究生学位论文第三章电信业务b i 系统的研究 3 1 引言 第三章电信业务b i 系统的研究 本章结合湖北电信b i 系统的建设经验,就电信业务bi 系统作一个初步的 探讨和研究,旨在通过对整个系统的了解,在此基础上提出了高数据质量的数据 仓库体系结构和设计原则,对整个电信业务bi 系统的数据质量控制作深入的探 讨和研究。 3 2 电信b i 系统架构 商业智能( b u s i n e s si n t e l l i g e n c e 简称b i ) 早在1 9 9 6 年便由g a r t n e r 提出,其本 质便是通过数据仓库、联机分析处理( o l a p ) 、数据挖掘等技术来完成从数据到信 息的提炼,最终获得对企业经营和决策有用的知识。毫无疑问,只有通过商业智 能的相关系统,才能真正把数据从企业的成本转化为价值。 数据仓库是面向主题的、集成的、历史的、稳定的支持决策支持制定过程的 数据过程 6 ,是电信b i 业务系统的核心内容。用来支持电信企业在各领域的决 策分析,通过一系列汇总计算将数据组织成易于分析的形式,从而为电信企业提 供了一个信息集成平台,它是电信企业信息资产的核心,是管理信息系统的“上 层建筑”。 电信企业的b i 系统总体结构 7 ,分为数据获取层、数据存储层和数据访问 层三层,其中数据获取层又分为数据来源、抽取、清洗转换) j n 载三个子层;数 据访问层又分为展示方式和分析人员两个子层如图3 一l : 3 2 1 数据获取层: 数据获取层将9 7 、计费帐务、客服、0 a 、网管和其它外部数据源中的数据进 行抽取、清洗、转换,并加载到数据仓库。 其中数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业 内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各 南京邮电大学颂士研究生学位论文第三章电信业务b i 系统的研究 类文档数据。外部信息包括各类市场信息、竞争对手信息和各种手工收集的信 息等等。 查询人员分析人员e i s 人员 即席查询 【损焉撒l 0 l ” | | 数据挖掘i 圄回圄泼 数据访问层 数据存储层 数据获取层 图3 1 电信b i 系统结构图 数据源的数据质量对于数据仓库数据质量具有非常重要的影响,因为它是数 据仓库数据质量的基础。遗憾的是根据作者的项目经验,来自操作型数据环境的 数据通常都很难满足数据仓库对数据要求。这些数据可以很好的满足操作型的需 求但是由于录入或者其他的原因,这些数据很难保证一致性和完整性,数据之间 经常会出现矛盾。如所属地区的名称和该地区编码不统一等等。为了给数据仓库 提供高质量的数据,在操作型系统中对数据进行清理,在某些情况下确实也可以 实现,但就大多数情形而言,使用操作型数据的用户并不需要更加清洁的数据, 他们拒绝对其处理过程作任何修改:另一方面,技术人员也拒绝清理操作型系统, 因为它过于复杂,通常会花费大量劳动,从而降低效率,并且成功率极低。因此 数据清理的重担就落在了数据仓库的内部了。 一 元数据 一 南京邮电大学硕士研究生学位论文 第三章电信业务b i 系统的研究 3 2 2 数据存储层 实现对数据仓库中数据和元数据的集中存储与管理,并可根据需求建立面向 部门和主题的数据集市。 元数据是说明数据的数据 8 。如在数据库中的数据字典,或者数据表和数 据表之间的关系。实际上元数据是在大多数数据库应用和信息处理中用于定义、 关联和管理数据的环境。元数据对于数据仓库的设计、开发和运作是至关重要的, 尤其在数据获取、转换和存取方面。描述数据源、数据更新、总计数据的算法和 数据提取的频率。 主要有两种类型的模型,数据模型和应用模型 9 。 数据模型用来描述和设计如何组织和存储数据,如数据表和数据表之间的关 系、功能等。应用模型用来描述和设计如何访问和处理数据,包括查询、计算、 汇总、递交结果等。 数据集市式数据仓库的一个输出部门,为企业的某个部门提供有关的数据和 报告。为一些访问数据仓库十分频繁的关键业务部门建立数据集市,可以较好的 提高查询的反应速度。所以在数据仓库的基础之上可根据分析需求创建相应的数 据集市。数据集市的数据直接来自于数据仓库。采用这种方式,可以保持整体数 据的一致性。 3 2 3 数据访问层 通过多样化的前端分析展示工具,实现对数据仓库中数据的分析和处理,形 成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。 o l a p 是指联机分析处理,是数据仓库的一个表现最突出的部分。它能为管理 系统提供一个针对大量数据进行综合分析并能够很开做出迅速回答的机制,并使 管理人员能够针对当前的和历史的情况,进行趋势和类型的研究分析,其系统结 构如图3 2 : o l a p 分析的3 个步骤: 1 确定分析的目标和维度 南京邮电大学硕士研究生学位论文 第三章电信业务b i 系统的研究 对业务进行o l a p 分析,首先应确定分析的目标,然后提出分析的维度和指 标。在确定分析的目标之后,分析的指标以及分析的维度基本确定。分析的维度 需要根据实际需求进行细分。 图3 2o l a p 系统结构图 2 构造分析模型 o l a p 的分析模型可以分为逻辑模型和物理模型。逻辑模型主要采用星型模 式。星型模式由事实表和维表构成。事实表存放了需要分析的细节数据,维表存 放了分析维度的属性。物理模型指的是o l a p 的存储方式,以星型模式存放在关系 型数据库中或构建多维立方体等。 3 前端分析与展现 针对o l a p 分析应用,在完成分析模型的构造之后,支持配置前端展现工具。 南京邮电大学硕士研究生学位论文第三章电信业务b i 系统的研究 对于w e b 访问方式,根据需要将有关内容加入o l a p 服务器中,并对w e b 服务器作 相应的配置;对于传统客户端访问方式,还可能需要对客户端软件作相应的配置。 数据发掘是指应用统计分析、模型和数据库技术,从数据中发现未知的隐含 关系,建立预测模型,并预测未来的结果 1 0 。典型的有市场分析、客户特征分 析、信用风险分析以及自然科学分析。它包括可视化,相关性。变化分析,差异 分析,预测,群集,分类,购物篮分析等一系列技术。 表示工具提供了人际交互界面;通过定义而生成目标,节省了许多耗时费 力的人工编程,在多变性的往复式开发环境中尤为重要;自动实现总计数据的刷 新;提供多维方阵的生成及分析处理、总计处理、插入操作、更加醒目的图形处 理;分析结果的提交,包括格式转换,如) ( m l 格式转换。 3 3 高数据质量的数据仓库体系结构 在电信企业操作性数据环境的生产系统,由于种种原因,常常不能保证数据 的质量,而且在数据采集的过程中也难免会因为人为的原因而引入数据质量的问 题。因此不仅应在数据仓库的内部需要提供相应的检测和清洁机制来保证数据的 质量,在数据进入数据仓库的入口一数据采集部分就应该加强对数据质量检测。 根据我们的项目经验和实践,为了提高数据仓库的质量,我们的数据仓库的 体系结构如图3 - 3 : 国 ; 闩f : i 膨 | 一。:、n 广 禽蓠;嗲露禹p 舌;越臣姆 图3 3 高质量数据仓库体系结构图 南京邮电大学硕士研究生学位论义第三章电信业务b i 系统的研究 生产系统的数据经过数据采集层、数据仓库生成环境提供给最终用户。在数 据仓库生成环境中,数据采集过程采集来的数据源,首先保存在临时存储区,与 图3 1 所示的数据仓库基本结构不同的是,为了提高数据仓库的数据质量在数据 仓库的中间层中加入了操作数据存储( o p e r a t i o n a ld a t as t o r e o d s ) ,使得数据 在从操作性环境进入到数据仓库的过程中经过了两次e t l ,第一次是从临时存储 区进入至u o d s ,第二次是从o d s 进入到数据仓库。 3 3 1 数据采集层 数据采集层主要是负责把各个生产系统得数据采集到数据仓库系统中来。 数据采集层分为数据源文件预处理层,接口文件质量检查层,数据文件临时 存储层。 数据源文件预处理层: 数据源文件预处理层主要处理监控数据源文件时候按时传到,同时还根据系 统的需要对上传的文件进行一些必要的处理,包括分解大小等。其中数据清理 ( d a t ac l e a n i n g ) 是数据预处理中的重要步骤。数据清理例程通过填写空缺的值, 平滑噪声数据,识别、删除孤立点,并解决不一致来“清理”数据。我们进行数据 清理分为以下五个步骤: 1 数据分析 为了检测错误数据以及不一致数据的类别,需要进行详细的数据分析。除了 使用手工检查数据或数据样本外,应该使用分析程序来获取关于数据特性的元数 据以及检测数据质量问题。 2 定义变换和映射规则 根据数据源的数目、数据源之间的相异程度以及数据“脏”的情况,需要进 行相应的数据变换和清理。有时,模式变换常常用来映射源与目标数据模型的之 间的对应关系。前一阶段的数据清理步骤能够纠正单数据源的实例问题并且为数 据集成做准备,后一阶段的数据清理涉及模式数据集成以及清理多数据源实例 问题。模式相关的数据变换的清理步骤应尽可能地使用查询陈述和映射语言来自 动生成变换代码。另外,在进行数据变换工作时应该有能够执行用户书写的清理 代码的特殊的工具。 南京邮电大学硕士研究生学位论文第三章电信q k 务b l 系统的研究 3 检验 数据变换的准确性和有效性应该进行测试和评估。有时需进行多次反复的分 析、设计和检验的过程。 4 变换 根据变换和映射的规则进行数据的变换工作。 5 回溯 在错误被消除以后,数据源中脏的数据应该用干净的数据进行替换,以便为源应 用程序提供改进了的数据,以及在将来的数据抽取工作中避免重做数据清理工 作。 接口文件质量检查层: 在这个层主要对数据源文件进行质量检测,主要对数据文件的格式和数据文 件的内容两方面进行检查,对不符合质量要求的数据可以要求重新传送接口文 件,在一定程度上保证进入o d s 的数据格式良好,类型正确,数据之间没有矛盾。 数据文件临时存储层: 将符合条件的数据源文件分类存储在临时存储区,等待系统的抽取。 3 3 2 数据仓库生成层 数据仓库生成层包括:第一次e t l 过程层、o d s 数据层、第二次e t l 过程层、d w 数据层和数据仓库接口层。 第一次e t l 过程层: 从数据源文件临时存储区中抽取数据,经过清洁、集成和轻度的综合后装载 n o d s 数据存储区中。 o d s 数据层: 存储清洁、集成和轻度综合的数据,屏蔽掉数据源对于数据仓库建立的复 杂性,为数据仓库的建立做准备。 第二次e t l 过程层; 从o d s 数据存储区抽取数据,以面向主题方式将数据重新组织、转换、综合 后装载至i j d w 数据存储区中。 d w 数据层: 南京邮电大学硕士研究生学位论文第三章电信业务b i 系统的研究 根据电信企业数据仓库建设业务需求为指导,以面向主题的方式存储着清 洁、集成和转换后的数据,为面向分析的应用准备好数据。 3 3 3 数据仓库接口层 数据仓库接口层为建立在数据仓库数据基础上的各种应用提供标一致的接 口,保证方便、安全地使用数据仓库中的数据。 3 4 高数据质量的数据仓库设计原则 由于各个电信生产系统不能保证提供数据的准确性,那么在数据仓库的内部 就应该加强对数据质量的检测和数据清洗的功能。在总结了数据仓库建设过程中 的所遇到的问题,提高数据仓库的数据质最,我们总结了若干数据仓库设计原则, 包括: 1 在从数据源中提取数据的时候,数据的范围要尽量宽,但是对于数据的 转换和数据的聚集应尽量减少。在设计数据源系统和数据仓库直接的接口时,应 包括所有在可预见的未来可能会使用到的数据。这样会避免将来修改接口时,从 而保持接口的稳定,降低维护的费用。 2 在数据采集层加强对数据质量的检测,保证数据仓库数据源的正确性。 数据源的检测,应该包括数据格式和完整性检查,还有数据之间的一致性、是否 满足数据的检查。加强对数据采集层的质量管理,就可以坚强数据仓库环境中e t l 的清洁压力,往往e t l 都是依靠工具来实现的,所以数据的清洁就依靠e t l i 具的 性能和清洁范围。在数据采集层对数据质量的管理要容易得多。 3 在数据的抽取、转换、加载( e t l ) 过程中加强对数据的清洁。通常的e t l 工具很难预见数据中隐藏的错误,但是对于数据中已经发现的错误一般都可以通 过预订的逻辑进行修l e 。目前关于数据清洗,业界已经有了许多成熟的算法研究, 并已经广泛的运用于商业中。 4 从数据结构设计考虑,要有好的元数据模型和元数据管理,在元数据定 义中建立健全关于数据质量的说明。有了好的元数据,并且将它置于共享,改善 数据模型的透明度,使得每个有关的人都能看到并理解,这是数据质量管理起码 南京邮电大学硕士研究生学位论文第三章电信、l k 务b i 系统的研究 的保障。 5 软件设计的功能与质量也直接关系到数据质量问题,要提高数据仓库数 据质量,就必须考虑到软件工程的应用、软件标准化和重复使用、软件的检测等。 6 从数据仓库的典型结构星型结构设计上考虑,事实表和维表的设 计是一个重要的环节。如果事实表和维表的设计干净利落,关系结构严谨,则对 于数据仓库中的数据的维护和质量是一个很大的帮助 1 1 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论