(计算机软件与理论专业论文)面向银行数据仓库的数据质量管理研究与实现.pdf_第1页
(计算机软件与理论专业论文)面向银行数据仓库的数据质量管理研究与实现.pdf_第2页
(计算机软件与理论专业论文)面向银行数据仓库的数据质量管理研究与实现.pdf_第3页
(计算机软件与理论专业论文)面向银行数据仓库的数据质量管理研究与实现.pdf_第4页
(计算机软件与理论专业论文)面向银行数据仓库的数据质量管理研究与实现.pdf_第5页
已阅读5页,还剩89页未读 继续免费阅读

(计算机软件与理论专业论文)面向银行数据仓库的数据质量管理研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 建设企业级中央数据仓库是目前各大商业银行的发展趋势。通过建立数据仓 库可以有效提高商业银行风险管理、客户关系管理、市场营销的水平。数据仓库 项目的整体质量密切依赖于各源系统数据质量和数据仓库内部的处理加工,数据 质量问题与客户对数据仓库的信任度密切相关。 本研究围绕商业银行金融数据的综合利用问题,运用t e r a d a t a 数据库、 c o n t r o l - m 工作流平台、a o p 思想和数据挖掘方法对商业银行的数据质量管理进 行了相关性研究。主要内容如下: 1 ) 分析了国内外数据质量研究领域的现状,数据仓库和数据质量的概念以 及e t l 方法在保证数据仓库数据质量中的运用,阐述了体系结构、元数 据与数据质量之间的关系。 2 ) 通过在元数据模型加入了行业知识和质量因素,实现数据仓库的质量驱 动。 3 ) 结合r b a c 和a o p 思想控制数据仓库数据质量管理人员权限实现数据仓 库数据质量的合理管控,解决了数据仓库管理中的复杂角色问题,并为 数据仓库e t l 过程引入了工作流调度方法。 4 ) 结合某商业银行的具体情况,分析了数据质量问题产生的原因,设计了 其数据仓库的元数据管理系统,提出了数据质量检查过程,并对其进行 了实践与验证,结果表明该方法的施行促进了数据仓库数据质量的提 升,提高了客户的满意度。 关键词:数据仓库;数据质量:a o p a b s t r a c t a b s tr a c t c u r r e n t l yb u i l d i n gc e n t r a l i z e dd a t aw a r e h o u s ef o re n t e r p r i s es c a l es y s t e m si so n e o ft h em a j o rd i r e c t i o n sf o re v e r yl a r g ec o m m e r c i a lb a n k t h r o u g hd a t aw a r e h o u s ew e c a ne f f e c t i v e l y i m p r o v e f i n a n c i a l e n t e r p r i s em a n a g e m e n to v g tr i s k ,c u s t o m e r r e l a t i o n s h i p ,s a l e sa n dm a r k e t i n g t h eo v e r a l lq u a l i t yo fd a t aw a r e h o u s ep r o j e c t s d e p e n d sn e a r l yo i lt h eq u a l i t yo fd a t af r o md i f f e r e n td a t as o u r c e sa n dt h ep r o c e s s i n g t o w a r dt h ed a t a t h a ti st os a y , d a t aq u a l i t yp r o b l e mi s c l o s e l yr e l a t e dt ot h e c u s t o m e r st r u s ta n dc o n f i d e n c ei nd a t aw a t c h o u s e f o c u s i n g o nt h ec o m p r e h e n s i v eu t i l i z a t i o no ff i n a n c i a ld a t ai nc e r t a i n c o m m e r c i a lb a n k , t h i sd i s s e r t a t i o nd i ds o m ec o r r e l a t i v es t u d i e so fd a t aq u a l i t y m a n a g e m e n tb a s e do nt h ed a t a b a s eo ft e r a d 峨c o n t r o l - mw o r k f l o wp l a t f o r ma n d a p p l i e dt h em e t h o do f a o p a n dd a t am i n i n g t h em a i nc o n t e n ti sa sf o l l o w : 1 ) sd i s s e r t a t i o nr e v i e w e dt h er e c e n td e v e l o p m e n t so fd a t aq u a l i t ya th o m e a n da b r o a d t h e n ,i td e s c r i b e dt h ec o n c e p to fd a t aw a r e h o u s e ,d a t aq u a l i t y a n dt h ea p p l i c a t i o no fe t lm e t h o di nd a t aq u a l i t ya s s b f a n c e f i n a l l y , i t e l u c i d a t e dt h er e l a t i o n s h i pb e t w e e ns o r w a r ea r c h i t e c t u r e ,m e t a d a t aa n dd a t a q u a l i t y 2 ) t h i sd i s s e r t a t i o na d d e dt h ed o m a i nk n o w l e d g ea n dq u a l i t yf a c t o r st or e a l i z e t h eq u a l i t y - d r i v e nd a t aw a r e h o u s e 3 ) t h i sd i s s e r t a t i o np r o p o s e dam e t h o dt h a tc o m b i n i n gt h ei d e ao fr b a ca n d a o pt oc o n t r o lt h ep r i v i l e g eo fd a t aq u a l i t ym a n a g e r , s o l v e dt h ec o m p l e x r o l ed i s t r i b u t i o ni i lt h ed a t aw a r e h o u s em a n a g e m e n t ,a p p l i e dw o r k f l o w s c h e d u l et oe t li nd a t aw a r e h o u s e 4 ) 1 1 1 i sd i s s e r t a t i o nc o m b i n e dw i t hc o n c r e t es i t u a t i o ni nac e r t a i l lc o m m e r c i a l b a n k , a n a l y z e dt h er e a s o n sr e s u l t i n gi nd a t aq u a l i t yp r o b l e ma n dd e s i g n e da m e t a d a t am a n a g e m e n ts y s t e mf o rt h ed a t aw a r e h o u s e ,f b r t h e r m o r ep r o p o s e d t h em a n a g e m e n tp r o c e s so fd a t aq u a l i t ya n dt h ep r o c e s so fq u a l i t yi n s p e c t i o n w h i c hi sp r a c t i c e da n dv e r i f i e d t h er e s u l ti l l u s t r a t e dt h a tt h ei m p l e m e n to f a b s t r a c t t h i sm e t h o di m p r o v e dt h ed a t aq u a l i t yo fd a t aw a r e h o u s ea n dt h ec u s t o m e r s a t i s f a c t i o n k e y w o r d s :d a t aw a r e h o u s e ;d a t aq u a f i t y ;a s p e c to r i e n t e dp r o g r a m m i n g 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) : 际复 2 d d g 年石月j 日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电 子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学 校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索, 有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适 用本规定。 本学位论文属于 1 保密() ,在年解密后适用本授权书。 2 不保密( ) ( 请在以上相应括号内打“) 作者签名:1 5 ;墓 日期:z 0 0 8 年 月j日 导师签名:主名穗v 日期:2 d 口8 年 ; 月j日 第一章绪论 1 1 前言 第一章绪论 数据仓库的产生使数据不仅仅用于检索,还可以用来分析整个企业的运行状 态以及未来的发展趋势,并为管理提供决策支持。 在数据仓库的建设过程中,一个被广泛认识但又常常被忽略的问题是数据仓 库中数据质量的控制。高质量的决策必然依赖于高质量的数据。为了避免得出错 误的结论,数据的正确性是至关重要的,否则就会出现所谓的垃圾进,垃圾出的 现象。随着商业银行对数据仓库的依赖程度越来越高,错误的数据不仅会带来数 据仓库自身维护的高昂费用,而且更重要的是会导致制定错误的决策。错误的决 策通常会导致组织的不信任和分散管理的注意力。如果仓库中的数据不符合支持 决策的质量特征要求,那么建设数据仓库所付出的努力就会因此而受到指责,如 何尽量避免发生数据质量问题是数据仓库建设中必须认真对待的事情。一致、清 晰、准确、可访问性、可用性、高性能的高质量数据是数据仓库系统必需的。优 质的数据质量是建立在良好的数据仓库体系结构基础上,也就是说,良好的数据 仓库体系结构需要优质数据质量的支持,反之优质的数据质量需要良好的数据仓 库体系结构来实现。 数据质量是风险管理工作的基础,是成功实施新巴塞尔协议的必要条件。因 此,为了做好数据集中工作,数据质量提升就成为各商业银行工作中的重中之重, 只有这样商业银行数据仓库数据质量管理的体系才能逐步形成。 1 2 相关领域研究现状 近年来,数据仓库建设面临的问题及对策以及数据仓库质量管理技术已经引 起了学术界极大的兴趣n 1 。d w q 是迄今为止比较系统地对数据仓库质量问题进 行研究的项目嘲。它是由法国等四个国家研究机构联合立项嗍,由欧洲e s p r i t 资助的长远目标研究项目。该项目指出了从语义层次上进行企业模型及质量管理 的概念和方法,并在元数据层次中嵌入质量管理模型方面进行了有益的尝试晦。 面向银行数据仓库的数据质量管理研究与实现 关于数据仓库中的质量管理问题的研究,目前有几个主要的切入点: 1 ) 从数据仓库的设计入手,建立适合全方位质量控制的体系结构,如 m j a r k e 提出的基于概念、逻辑和物理三层模式的数据仓库构架m : 2 ) 从软件生命周期观点,全过程控制数据仓库质量,如j a r o d e r o 提出的 按软件生命周期分阶段进行数据仓库审计方法呻1 : 3 ) 按照数据仓库系统的工作机制和部件构成来制订质量控制标准,如 j a r o d e o 对数据仓库的数据抽取、装载、存储等关键步骤和功能部件 的质量标准和控制问题的研究阻1 。 此外,业内公认的技术是: 1 ) 量化控制信息,使数据仓库中的质量管理形式化,如m j a r k e 应用的目 标问题矩阵( g q mg o a l - q u e s t i o n - m e t r i c ) 方法来探讨数据仓库的质量控 制标准n 训; 2 ) 把质量控制信息和模型嵌入到数据仓库的元数据中,实现自动控制和审 计功能】。 在数据仓库的发展过程中,关于数据质量的工具主要可分为以下几类 【1 2 】c 1 3 】n 钉【1 5 】: 1 ) 协调不一致的数据并确定数据的完整性; 2 ) 识别与数据域不对应的数据; 3 ) 协调引用完整性的问题。大多数d b m s ( d a t a b a s em a n a g es y s t e m ,数据 库管理系统) 都能检查引用完整性,即根据关键字和外部关键字的定义检 查各表间的关系; 4 ) 评价现有数据的质量。这类工具能确认允许值并进行值域检查; 5 ) 数据重组。可以重新组件数据,以改进性能,提高数据的完整性,更好 的支持生产应用程序,并为决策支持做准备; 6 ) 提供度量数据质量的结构; 7 ) 数据字典模式库。一个数据字典模式库可以提供质量的重要组成部分, 充分理解数据涵义、数据来源、数据完整定义及数据质量的象征意义。 综上所述,现有的数据仓库系统一般对于数据质量做出了某种程度的表达, 但并没有在其具体应用中将动态企业模型作为其核心。致使数据仓库系统缺乏概 2 第一章绪论 念化查询的能力和自适应性n 引。即使是作为业务公认的以g q m 方法为基础创建的 数据质量测量评价体系,也具有一定程度的局限性。 作为决策支持系统的基础,数据仓库必须提供高质量的数据和服务。在数据 仓库的设计和运行过程中,必须时刻注意保持数据的一致性、完整性、准确性、 可用性、及时刷新以及良好的系统性能等一系列跟质量相关的问题n 铂。然而,许 多与数据仓库相关的质量问题,并不能在现有的数据仓库模型中充分表达出来。 因此,许多资深的数据仓库应用开发专家指出,在数据仓库领域中,对于质量因 素和数据仓库设计之间的相互影响,还远没有一种系统化的理解和应用。 1 3 课题的研究背景和主要内容 1 3 1 研究背景 从西方发达国家的商业银行的信息化建设的实践来看,商业银行的信息化大 致经历了“账务电子化一、“数据大集中 、“管理和决策信息化”这样三个阶 段。近年来,国内金融行业的决策者们已经强烈地意识到商业银行的竞争力取决 于利用数据进行分析和决策的能力。所以各大银行为了提高管理水平,增强风险 的控制能力,纷纷开始建立数据仓库管理信息系统,但是这个投入巨资完成的项 目却往往由于不能达到预期的回报而不断的遭受谴责,原因是多方面的,其中数 据质量问题是不能忽视的问题之一。 随着2 0 0 5 年9 月某商业银行数据集中工程( d c cd a t ac e n t e rc o n s o l i d a t i o n ) 工程的全面实施以及为满足银监会1 1 0 4 监管报表报送要求,某商业银行数据仓库 管理系统对d c c 、总账、企业客户信息系统( e c i fe n t e r p r i s ec u s t o m e ri n f o r m a t i o n f i l e ) 、国际卡等多个数据源进行了整合。但是由于每个源系统都存在着不同程度 的数据质量问题,影响了分析和决策的正确性。数据质量问题可以归纳为两类: 数据定义的缺陷和数据内容的缺陷。 数据定义的缺陷包括:不同的数据源系统的数据定义没有标准化;数据 规格问题,如数据的存储粒度无法满足业务部门分析统计的要求;数据结构存 在缺陷,如对数据的惟一性、完整性、有效性没有控制或者数据的参照完整性没 有控制等。其中数据定义的非标准化问题往往是非常严重的,在所有的数据仓库 面向银行数据仓库的数据质量管理研究与实现 项目中,开发人员将付出大量的精力去完成数据的标准化转换工作;数据结构的 缺陷是造成数据内容缺陷的主要原因之一,在数据仓库项目中,开发人员不得不 完成数据重复性、数据有效性和完整性检查。 数据内容缺陷包括数据不在要求的范围内、数据不完整、缺失数据值、数据 不准确、数据不符合商业规则等。该类问题多是由于前台人员的错误录入和系统 的升级改造后数据的迁移造成的。 为了解决上述问题,本课题对商业银行的数据仓库数据质量作了一个总体评 价,以此来确定问题数据影响的严重程度。本课题研究受某商业银行d w a f ( 数据 仓库应用支持) 项目组的支持,重点对该银行的数据质量进行分析处理,从管理 和技术的角度及时制定改进方案。 1 3 2 主要内容 众所周知,在一个有着几十年历史的商业银行中,提升数据质量是一项非常 困难的工作,需要多个部门和多种技能人员共同工作和一套比较科学的工作方 法。本课题根据某商业银行数据仓库项目的实施经验以及通过对数据仓库的源系 统的分析,认为下面的建议是改进数据质量的关键: 1 ) 源系统中数据质量的改进应该以面向业务目标为原则,在有限的时白j 和 资源的前提下,优先解决有较大影响的重点问题。数据仓库要想从银行 内部的所有应用系统中得到绝对高质量的数据是不现实的,所以要采用 “面向业务目标 的原则,先确定要使用哪些数据,明确数据的质量要 求,然后对所使用的数据进行检查,找出存在的数据问题并评估问题的 影响,最后确定数据问题解决的优先级,安排人员解决优先级高的重点 问题; 2 ) 评估源系统中的数据质量和发现有重大问题的工作,应该尽早进行。对 源系统中数据的检查和质量的评估是制定数据质量改进方案的基础,也 是制定数据仓库数据清洗规则的基础。数据质量评估的结果可以使数据 仓库的设计者更早的考虑如何更有效的解决数据问题。通过数据质量评 估,可以发现哪些数据是缺失的,哪些数据是不准确的,哪些数据是不 符合标准的,从而制定更有效的解决方案。如通过限定时间,可以请相 4 第一章绪论 关数据拥有者在源系统中修改或者补录数据,或者在数据仓库内部设计 补录和修改模块,或者制订应急方案以及进行标准化转换等: 3 ) 成立专门的数据质量领导小组和数据质量工作小组,所有关键人员必须 参与其中,只有这样才能更有效的推动解决数据质量问题。要想解决多 个部门负责的多个源系统中的数据质量问题,必须要有企业领导的大力 支持,要有作为源系统所有者的业务部门领导的支持,也必须有理解源 系统的业务专家、技术专家的共同参与: 4 ) 制定完整清晰的实施方案和工作计划是保证数据质量改进的前提。在实 际工作中,很多人都知道数据质量问题的存在和提升数据质量的必要 性,但是往往由于没有一个统一的科学方法而延误了查找问题、解决问 题的时机。实践经验表明,制定科学的实施方案和明确的工作计划能够 极大地提高解决问题的效率。 针对数据仓库建设中源系统的数据质量问题,下面的提升数据质量的工作流 程是非常值得借鉴的: 1 ) 明确数据质量管理的领导责任,成立数据质量管理小组; 2 ) 制定和颁布问题等级划分标准和改进策略; 3 ) 明确业务目标,制定需要评估的数据范围、检查要求和接受标准; 4 ) 依据接受标准以及业务规则符合程度对数据质量进行检查和评估,及时 发现存在的数据质量问题: 5 ) 根据评估报告和问题影响分析,确定问题的优先级; 6 ) 根据数据质量管理策略,制定并评估解决方案; 7 ) 实施数据质量解决方案; 8 ) 评估改进成果和持续改进; 9 ) 质量改进过程存档,内部检查程序形成日常数据质量检查和监控模块交 付。 总之,银行的数据质量管理是一项艰巨的工作,只有制定一套合理科学的提 升数据质量的管理流程,明确各部门的职责,加强业务部门和技术部门之间的合 作,才能支撑起建立在数据仓库之上的功能强大的各类应用。 基于以上关键因素,某商业银行对数据仓库中数据质量做出了一系列改进, 面向银行数据仓库的数据质量管理研究与实现 本课题组的主要工作是改进关键因素中的第一、二部分,并在技术上加以实现, 通过改进流程的实现提高商业银行数据仓库的数据质量,为决策支持提供合格的 数据。本文通过扩展元数据模型的方式将数据质量因素加入到数据仓库中,考虑 到不同角色涉及的权限问题,使用了a o p 方法来设定用户权限。对于数据质量清 理任务的调度结合工作流的方式加以实行,保证了企业能够在合适的时间使用适 当的资源,最后本项目采取基于j a v a 的软件统一平台( s u p 4 j 平台s o f t w a r e u n i f i e dp l a t f o r mf o rj a v a ) 作为项目开发工具实现了提高数据仓库数据质量 的目标。 论文组织结构如下: 第一章主要介绍了数据质量问题的研究现状、本课题的研究内容和背景: 第二章主要介绍了数据仓库和数据质量的概念、e t l 方法在保证数据仓库数 据质量中的运用; 第三章主要介绍了扩展元数据模型以及它在构建质量驱动的数据仓库中的 作用: 第四章主要介绍了a o p 方法,以及如何运用a o p 方法控制数据仓库访问角色 的权限; 第五章主要介绍了工作流的概念,提出将工作流调度方法用于数据仓库e t l 中; 第六章主要分析了数据质量问题产生的原因,设计了商业银行数据仓库的元 数据管理系统,提出了数据质量管理流程和质量检查过程; 第七章主要介绍了系统的侧重点,给出了数据质量模块的详细设计,对数据 维护系统的数据质量管理模块进行了实践; 第八章总结了论文的研究工作,提出了未来的设想。 6 第二章数据仓库的数据质量 第二章数据仓库的数据质量 数据仓库的建立是为决策支持系统服务的,想要做出高质量的决策,就必然 要依赖于高质量的数据。如果作为基础的数据质量得不到保证,随之而来的决策 可信程度也会大大降低。随着数据仓库的深入应用,数据质量问题成为关系到数 据仓库建设成败和数据能否有效应用的关键问题。 2 1 数据仓库简介 2 1 1 数据仓库的特征 数据仓库通常是一个面向主题的、集成的、相对稳定的、反映时间变化的数 据集合,它是建立决策支持系统的数据基础。 数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源和决 策需要而产生的。它决不是所谓的“大型数据库 ,数据仓库与传统数据库比较 的不同之处在于: 1 ) 面向主题的:传统数据库主要是面向应用程序进行数据处理的,往往没 有按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题 存储的。所谓主题,是指用户使用数据仓库进行决策时所重点关心的方 面,如销售情况、人事情况、整个企业的利润状况等;而面向主题,是 指数据仓库内的数据是按主题进行组织的,为决策过程提供支持信息; 2 ) 集成的:传统数据库的信息往往来自单个业务系统;数据仓库中的信息 不是从各个业务处理系统中简单抽取出来的,而是经过系统加工、汇总 和整理得到的,以保证其是关于整个企业一致的全局信息; 3 ) 相对稳定的:数据仓库中的数据一般并不是最新的,而是来源于其它数 据源。数据仓库反映的是历史信息,而并不是很多数据库处理的那种日 常事务数据。因此,一旦某个数据进入数据仓库以后,一般情况下将长 期保留。也就是说,数据仓库中般有大量的插入和查询操作,但修改 和删除操作很少: 4 ) 反映时间变化的:数据库保存信息的时候,并不强调一定有时间信息。 7 面向银行数据仓库的数据质量管理研究与实现 数据仓库则不同,数据仓库内的信息并不只是关于企业当静或某一时刻 的信息,而是系统所记录的企业从过去某一时刻到目前的各个阶段的信 息。因此出于决策的需要,数据仓库中的数据都要标明时间属性。由于 这个特征的存在,使得从数据仓库中提取的信息可以用来对企业的发展 历程和未来趋势做出定量分析和预测。 数据仓库建设的目的,是为前端查询和分析提供支持。为了更好地为商业智 能( b ib u s i n e s si n t e l l i g e n c e ) 服务,成功的数据仓库必须有如下优点: 1 ) 效率足够高:客户要求的分析数据一般分为日、周、月、季、年等,可 以看出,以日为周期的数据要求的效率最高,要求2 4 小时甚至1 2 小时 内,客户能看到昨天的数据分析n 射。由于有的企业每日的数据量很大, 设计不好的数据仓库经常会出问题,延迟1 - 3 日才能给出数据; 2 ) 扩展性:有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3 - 5 年的扩展性,这样的话,客户不用太快花钱去重建数据仓库系统,就能 很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些 中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不 起来。 2 1 2 数据仓库体系结构 数据仓库是从多个信息源中获取原始数据,经整理加工后,存储在数据仓库 的内部数据库中,通过数据仓库访问工具,向数据仓库的用户提供统一、协调和 集成的信息环境,支持企业全局的决策过程以及对企业经营管理的深入综合分 析。为了达到这样的目标,数据仓库一般来说包含以下八个主要组成部分n 町: 1 ) 数据源:为数据仓库提供源数据,如各种生产系统数据库、联机事务处 理( o l t po n 1 i n et r a n s a c t i o np r o c e s s i n g ) 的操作型数据、外部数据源等 都可以作为数据仓库的数据源; 2 ) 抽取、转换、装载( e t le x t r a c t 、t r a n s f o r m 、l o a d ) 和刷新工具:其 功能是从数据源中抽取数据,对数据进行检验和整理,并根据数据仓库 的设计要求,对数据进行重新组织和加工,装载到数据仓库的目标数据 库中,并且可以周期性地刷新数据仓库; 8 第二章数据仓库的数据质量 3 ) 数据建模工具:用于为数据仓库的源数据库和目标数据库建立信息模 型,以描述数据检验、整理、加工的需求和相应过程及步骤; 4 ) 元数据仓储:用于存储数据模型和元数据。其中,元数据描述了数据仓 库中源数据和目标数据本身的信息,定义了从源数据到目标数据的转换 过程: 5 ) 数据仓库监控和管理工具:对数据仓库的运行提供监控和管理手段,包 括系统资源的使用情况、用户操作的合法性、安全管理、存储管理等多 方面的内容: 6 ) 数据仓库及数据集市的目标数据库:存储经检验、整理、加工和重新组 织后的数据。它可以是关系数据库、多维数据库或混合数据库; 7 ) 联机分析处理( o l a po n l i n ea n a l y t i c a lp r o c e s s i n g ) 服务器:功能强大的 多用户的数据操纵引擎,特别用来支持和操作多维数据结构,为前端工 具提供多维数据视图及服务; 8 ) 前端数据访问和分析工具:供业务分析决策人员访问目标数据库中的数 据,并作进一步的深入分析。数据访问和分析工具不但要提供一般的数 据访问功能,如查询、汇总、统计等,还要提供对数据的深入分析功能, 即数据挖掘的功能,如数据的比较、趋势分析、模式识别等。 图2 1 数据仓库系统体系结构 9 面向银行数据仓库的数据质量管理研究与实现 2 2 数据仓库的数据质量 2 2 1 数据质量的定义 数据质量评价指标和方法研究的难点在于数据质量的含义、内容、分类、分 级、质量的评价指标等啪3 。不同类型可持续发展数据( 即矢量数据、栅格数据等) 评价方法不同,不同专业数据质量要求也有很大差异,很难用统一的指标和方法 进行评价,需要进行比较多的探索和试验研究乜。 由于数据质量的主观性,要使之发挥作用就必须要量化质量,使其具有多个 指标和决定因素,以便于综合评判。 数据质量存在于数据仓库其它模块对数据的操作当中,是反映数据仓库物理 层数据的固有属性。数据质量可分为数据的完整度、源数据的可信度、数据的正 确度、数据的一致性和唯一性等。从量化角度而言,完整性在数据仓库中定义为 是非法空值记录的条数;可信度被定义为按照数据仓库中携带缺省值的记录条数 来衡量。 数据质量是一种通过测量和改善数据综合特征来优化数据价值的过程。数据 质量是通过数据收集、数据识别匹配、数据标准化、数据清理和数据聚集来实 现的啪1 。数据质量创新涉及到技术、设计、业务流程、员工和基础设施等。 2 2 2 优质数据质量的特征 影响企业数据质量的因素主要有: 1 ) 分布式的运营环境产生无用的冗余数据;缺乏共同的标准;采用不同的 技术和架构,不同的业务规范和数据模式; 2 ) 技术水平限制造成元数据不准确、数据不一致、数据重复、数据二义性 问题;转换过程中的错误通常带来数据质量问题; 3 ) 终端用户没有按照程序输入和维护数据,旧的遗留系统进一步加剧了这 一问题; 4 ) 企业中缺乏数据质量监督管理措施,企业信息系统建设中往往在业务流 程上倾注过多的精力,对于提高数据的质量不够重视: 5 ) 数据产品作为一种特殊的资源存在于企业中,它不可消耗,可在系统和 1 0 第二章数据仓库的数据质量 用户间共享,可以复制和更新:但它极易遭到破坏,企业环境的动态变 换也造成了数据的不稳定性。 为了给决策支持提供合格的数据3 ,我们结合文献昭叼和实践经验总结了如下 优质数据的质量特征: 1 ) 数据的正确性:数据正确体现在可证实的数据源上; 2 ) 数据的完整性:数据仓库中数据之间存在参照完整性; 3 ) 数据的一致性:数据仓库中的数据被一致的定义或理解; 4 ) 数据的完备性:所需要的数据都存在; 5 ) 数据的有效性:数据在企业定义的可接受范围之内; 6 ) 数据的时效性:数据在需要的时间有效; 7 ) 数据的可获取性:数据易于获取、易于理解和易于使用; 8 ) 数据的冗余性;数据仓库中存在必要的数据冗余: 9 ) 数据逻辑合理性:从业务逻辑的角度证明数据正确。 2 2 3 数据质量是数据仓库的核心 数据仓库中数据的错误与数据的收集来源、处理和使用都有关系。数据仓库 所装载数据的典型流程图如图2 所示汹3 : 图2 2 数据仓库装载流程 数据错误发生的主要位置有三个: 1 ) 数据源:由于数据仓库集成多个数据源的数据,有来自关系数据库的, 有来自文件的,即使都是关系数据库,其数据库厂家和版本号可能也是 多种多样的,数据源本身的正确性和质量会影响数据仓库数据的质量: 面向银行数据仓库的数据质量管理研究与实现 2 ) e t l 过程:将这些不同时期、不同地点和不同格式的数据提取出来,经 过清洗和转换,最后放置到数据仓库中是非常繁琐和复杂的。在一般的 数据仓库应用中,所涉及的e t l 过程即数据的抽取、转换和装载中涉及 的转换至少有8 0 个以上,如何保证e t l 过程的正确性是e t l 最富挑战 性的工作; 3 ) 仓库数据的使用和管理:由于数据仓库持久的使用和操作,系统管理员 对数据仓库的维护可能会出现矛盾的情形。如由于e t l 工具功能的局限 性,对于不同的数据源可能需要采用不同厂家的e t l 工具或自己设计和 专门定制的工具。在使用这些工具的过程中,不能保证所处理数据的一 致性。在如此多的数据源、数据清洗和转换步骤以及对仓库数据管理可 能导致问题的前提下,要保证数据的质量显得非常艰巨,也非常必要1 。 随着用户对数据分析需求的增长,数据仓库信息质量变得越来越重要。质量 差的数据不仅可能对企业经营带来负面影响,而且会使用户觉得所产生的报表不 可信赖,更重要的是错误的数据容易误导用户,从而造成管理决策的失误,此外 低质量的数据会使雇员失去对企业的信心、会造成客户流失。所以说数据质量是 数据仓库的核心汹1 。 2 3 保证数据质量的一般方法- e t l 2 3 1 数据质量问题 目前数据清理解决的是数据源中的数据质量问题汹1 。数据的质量问题主要有 两个方面:单个数据源内部;多个数据源间的数据交互集成。 单数据源数据质量问题主要有数据本身错误、数据冗余不一致、数据间关联 错误。前者是由用户使用时的人为错误引起的,后两者是由于应用系统设计不合 理,特别是数据模式设计不合理产生的。 多个数据源由于各个系统设计时是完全独立的而且是针对不同的应用需求 的,存在比单数据源中更多的数据质量问题。除了各个数据源中本身的数据存在 错误和不一致外,不同数据源之间还存在模式的冲突和数据语义的不一致、数据 的冗余和冲突。 综上所述,我们将数据质量问题归纳如表2 1 : 1 2 第二章数据仓库的数据质量 表2 1 数据质量问题分类 数据源质量层次 原因 典型的表现形式 单数据源模式层次 缺少完整性约束、 唯一性约束 糟糕的模式设计引用约束 实例层次 数据记录错误数据本身错误 相似重复记录 互相矛盾的字段 多数据源 模式层次异质的数据模型和模式设命名冲突 计属性类型冲突 属性定义冲突 结构冲突 实例层次冗余、互相矛盾或不一致的不一致的汇总 数据 2 3 2 数据清理方法 数据质量问题贯穿于项目的整个生命周期,而且不能避免,我们必须面对这 一问题并且给出相应的解决办法,尽量把影响减小到最少。 从数据仓库装载数据的流程分析,我们可以根据不同阶段采取相应的策略。 在数据集成阶段,由于数据源的各种格式及其在不同的平台上分布的广泛 性,经常出现有些数据源存在缺失,甚至是错误值的现象。 面对这种情况,我们从数据清理方法要满足的需求出发:首先发现和清除单 个数据源中的错误和不一致的数据,其次在集成中,基于元数据和数据模式转换 一起执行,将多个数据源中的数据集成到统一的模式中。前一个需求主要是针对 单数据源的数据质量问题,后一个需求主要是针对多数据源集成中的数据质量问 题。 通过修改产生问题数据的应用程序和源系统中的错误数据等修正性维护的 方法,可以在数据源端避免数据质量问题。这种方法比较彻底,但修改应用程序 需要较大的工作量,周期长,同时还需要管理层的允许,而且在多数情况下,在 源系统中改动大量应用程序不具可行性。 因此我们在商业银行的数据仓库的构建中主要是在数据的抽取、转化与清洗 阶段对数据质量加以解决。通过建立集中管理和控制的e t l 平台,在转换过程中 执行统一的问题清理策略。使有问题的数据在转换时得到修正,这种方法不需要 改动数据源系统,简单易行,周期短,缺点是无法彻底消除问题数据的持续产生, 1 3 面向银行数据仓库的数据质量管理研究与实现 而且e t l 附加的转换逻辑会比较复杂。为了克服这一缺点,我们采用工作流调度 方式结合c o n t r o l - m 平台加以解决。 通常在e t l 过程中存在以下几种常用的解决办法: 1 ) 数据不作任何处理,直接通过。这样做明显不能保证数据质量,并将最 终影响报表质量; 2 ) 拒绝数据进入下一步处理。这样做不能保证数据完整性,因为数据将发 生遗弃,也将会影响报表质量; 3 ) 直接停止e t l 任务,去处理问题数据。这样做会影响e t l 处理,导致数 据仓库不能正常运行下去; 4 ) 给数据打上错误标记,然后通过。这种方式首先保证这些记录顺利通过, 然后记录一些错误标志,并通过报表反映出来,然后再通过我们的数据 仓库平台将错误数据反馈给一线工作人员。这样做有以下好处:通过特 殊处理确保了数据的完整性;反映了数据仓库的数据源数据质量;对数 据质量可以有一个比较准确的度量;确保了数据仓库的顺利实施和任务 的正常调度。 表2 2 数据仓库形成阶段对应的质量目标 对象控制要点质量目标 源数据完整性、安全 源数据本身质量:完整性、噪音数据量等; 性、管理源数据软件:安全性、兼容性、成熟性等 兼容性等 数据仓抽取、过滤、抽取与过滤能力、时间、是否增量、易于理解等: 库形成清洗、同步、噪音数据的清除、空值处理、数据格式转换能力 过程 聚类、装载 等: 具有插入数据的时态参考值( 历史数据) : 存储以前汇总数据,支持聚类模型、算法或工具 的能力; 装载工具、临时的装载区等资源使用、安全计划、 时间等 数据仓容错性、可恢复数据仓库数据质量:完整性、覆盖能力、数据类 库性、元数据、安型、稳定等; 全性、可用性等管理数据仓库软件:容错、安全、备份恢复、优 化技术等: 元数据:可扩展性等; 1 4 第二章数据仓库的数据质量 数据清洗是e t l 系统的一个最重要的步骤,数据的抽取和加载也是很必要 的,但是它们只负责数据的迁移和重组格式。只有数据清洗才能真正改变数据, 为目标提供高质量的数据。 在数据仓库设计阶段我们按照表2 2 的质量目标对数据仓库进行规划,尽量 避免数据仓库模型设计不完善导致的数据质量问题啪3 。 考虑到实际操作中存在的困难,因此数据质量问题应该尽量确保在e t l 环节 中加以解决。由于每一点的错误都会导致后续处理的无限放大,所以我们尽量把 数据质量问题消除放在靠前的位置。 2 3 3 数据孤立点的检测 单数据源中存在的数据质量问题的检测和消除有些比较简单。如属性依赖冲 突,可以简单地通过给出一张属性之间( 如部门号与部门编码) 的对照检查表来解 决;再如数值越界问题,可以通过给定数值的范围即上下界,通过比较就可以检 测出来。然而,有些数据质量问题的检测和消除是相当复杂的,应对这些类型的 错误进行深入的检查和分析,即便如此也并不能完全检测并消除数据中所包含的 错误。由于每种方法所能检测的错误类型及范围是不同的,为了能尽可能多地检 查出存在的错误,应该同时采用多种方法来进行错误检测。 在数据集中经常存在一些数据对象,具有与常规数据模式显著不同的数据模 式。这样的数据对象被称为孤立点。孤立点可能是度量或执行错误所导致,也可 能性是固有的数据变异的结果。如:贷记卡管理信息系统( c c m i sc r e d i tc a r d m a n a g e m e n ti n f o r m a t i o ns y s t e m ) 中一个人的年龄为负值可能是程序未对年龄进 行缺省设置所产生的:e c i f 系统中一个经营业绩良好的集团公司的存款,自然 远远高于私营小企业存款,成为一个孤立点。由于数据错误往往表现为孤立点, 所以在数据仓库中对数据质量的控制往往通过检测孤立点的方法来进行。但是, 并非所有的孤立点都是错误的数据,所以在检测出孤立点后还需要通过数据仓库 平台提供给业务人员结合领域知识找出相应的错误数据。 目前,已研究开发出众多的算法进行孤立点检测。其中有三种方法经实践证 明是行之有效的。它们是:统计的方法、偏离的方法以及聚类的方法。 聚类就是将数据对象分组成为多个类或簇。在同一簇中的对象之间具有较高 1 5 面向银行数据仓库的数据质量管理研究与实现 的相似度,而不同簇中的对象差别较大。在许多应用中,可以将一个簇中的数据 对象作为一个整体来考虑。通过聚类,人能够识别密集和稀疏的区域,因而发现 全局的分布模式,以及数据属性之间有趣的相互关系口。 基于相似度和的孤立点挖掘问题可以描述如下臼幻: 设论域x = x l , 屯,毛 为要检测的对象,每个对象有所指标,即: x = 五i ,而2 ,oo f - ( 1 ,2 ,1 ) 用数据矩阵形式表示为: r 五i 1 萨l : l l l 现在要求出r 1 个对象中的孤立点集。 为了判断x 中各对象的离散程度,先计算各对象两两之间的相似系数白,并 构成相似系数矩阵: 2 ,:1 2 ( 2 ) 机小厢 令易= 白 - l ( 4 ) a 是相似系数矩阵第i 行的和,该值越小,就说明对象i 与其他对象的距离 越远,即就是孤立点集的候选项。名= p 嗍- y t 1 0 0 ( 5 ) - p 蛳 五为阈值,名五的对象则被认为是孤立点集。 其算法流程如图2 3 所示: 1 6 嘞 第二章数据仓库的数据质量 | 数据样本 了 预处理 i 一 输出孤立点 图2 3 基于相似度和的孤立点挖掘算法流程 2 3 4 数据质量检查关键技术点 对于不同的数据库进行数据质量检查的关键技术点有一定的差异。使用 t e r a d a t a 数据库进行数据质量检查系统的关键技术点主要有三个方面嘲渊; 1 ) 文件级检查 文件级检查是通过配置在t e r a d a t af a s t l o a d 工具的i 砌o d e 函数 调用的动态链接库( d l l ) 完成的,检查配置参数通过调用f a s t l o a d 的脚 本读出后传给i 舳o d e 库,并返回结果。文件级检查的配置将直接影响 f a s t l o a d 的工作流程,因此添加文件级检查需要数据质量管理员和e 1 l 管理员协调行动。 2 ) 数据库检查 数据库检查的主要内容是s q l 语句,通常由一条或者多条s q l 语句 以及一个或多个存储过程组成,该检查语句的执行效率直接影响数据库 的性能和知识库的空问,因此每一个数据库级的检查均需要手工调整到 最佳性能并注意可能的错误结果,防止造成数据库服务器不必要的开 销 3 ) 常用的数据分析公式 1 7 面向银行数据仓库的数据质量管理研究与实现 在数据质量检查过程中,对于标准的数据质量分析,有一些通用的 检查算法,t e r a d a t a 数据仓库m 1 为此也提供了很多相应的函数,如: a 1 抽样检查法: 对于大量的数据,无法逐一跟踪质量情况,可以采用1 抽样, 或者指定抽样比率进行抽查。 b 移动平均法: 移动平均法是基本的、也是最普遍使用的时间序列方法,用前 t 期的数据计算第t + i 期数据的预测值,以及该预测值的上下限范 围。 c 指标平衡法: 指标平衡法是用报表中的指标之间的关系进行平衡检查,查看 这些指标是否满足最基本的平衡关系。 d 比例测试法: 测试数据在关键性指标上的分布比例是否合理。例如,地区收 入和用户比例的关系等。 2 3 5 模式的重构和冗余数据的清除 多数据源数据清理的一个主要问题是识别重复数据,尤其是对现实世界中同 一实体的匹配问题。另外,还包括对象识别问题、合并问题。处理多数据源中的 问题要求重构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论