(计算机系统结构专业论文)可扩展的数据质量分析系统及其软件实现研究.pdf_第1页
(计算机系统结构专业论文)可扩展的数据质量分析系统及其软件实现研究.pdf_第2页
(计算机系统结构专业论文)可扩展的数据质量分析系统及其软件实现研究.pdf_第3页
(计算机系统结构专业论文)可扩展的数据质量分析系统及其软件实现研究.pdf_第4页
(计算机系统结构专业论文)可扩展的数据质量分析系统及其软件实现研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机系统结构专业论文)可扩展的数据质量分析系统及其软件实现研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着时代的不断发展,信息技术在各行各业都得到了越来越深入的应 用,在信息社会的今天,信息作为一种战略资源和生产要素已成为社会 运转的基础,成为当今企业生存发展的重要依赖之一。然而,信息质量 以及数据质量的现状并不乐观,全球每年花费大量的人力和物力来检查 和解决数据质量问题以及数据质量所引起的相关问题。正因为由于数据 质量所带来的问题越来越显著,它已经引起包括政府,研究机构,特别 是企业的重视。 本文先后讨论了数据质量的产生过程及其影响要素、数据质量问题的 表现和分类,以及数据集质量分析的一般方法,研究了当前有关数据质 量分析理论并且引入规则库这一概念,在此基础上提出了一套基于规则 库的数据质量分析模型,这一模型能清晰的为分析人员从规则建立到指 标的计算等分析阶段提供指导。 在前面介绍的理论基础上,我们设计和实现了一个基于这一评价模型 的评价系统d a t aq u a l i t ya n a l y s er ( d q a ) 。考虑到当前网络、多操作系统 应用普及的大环境,因此本系统采用了x m l 、w e bs e r v i c e 等技术并使用 c s 模式,为用户提供了一个跨平台、多用户分布式质量分析平台。 本文所提出的质量评估模型是对数据质量研究有益的探讨,具有一定 的理论意义,在我们设计的数据质量分析平台上对该模型进行了实现, 在日后的研究过程中也有其启发意义。数据质量分析系统d q a ,向用户 提供了一个容易使用,界面友好的分析流程,增加了系统的实用性,这 些都是对数据质量技术的应用很有意义的研究。 关键词数据质量( d a t aq u a l i t yd q ) ;规则:规则库;评估模型 华南理工大学硕士学位论文 a b s tr a c t w earet 3 0 wi i lag r e a tnewerao fir l f o r m a t i o n t h ea p p l i c a t i 0 r l o ft h ei i 1 f o r m e t t i o r lt e c h n o l o g yb e c o m e s1 1 1 0 r ep o p u l a ri nm a n y i 1 3 d us t r ie st h a r tt h ep a s t ,t h eir l f o r m a t i o n ,ak in d0 f s t r a t e g ic r esourcesa n dc f e a t iv ee le m e n t : l a y t h ef o u n d a t i0r lf o rt h ew h o l e s o c ie t y , 1 l r i t h o u tt h a t ,oufl i f e w i l lb e c o n eu r l b e a r a b lea n da l l e n t e r p r isesc 1 9 , n r l o to p e i a t et h e irb u s i n e ssh e a l t h i ly b u t t h e 1 3 , c tl t a tc o n d i t i o n0 ft h ed a t aq u a l i t yiss e r i o u sa n dw o i f y i l l g ,e v e r y y e a rl o ts0 fm o n e yw e r eu se dt 0 a c c o u i q tf o rd if f e r ef i t p r o b l e m s r e s u l tf r o m d a t aq u a l i t y ,a n dt h es ep r o b l e m sl o o k sm o r ea n dm o f e s e r i o u s s 0 t h eg o v e r n m e n ts 、r e s e a r c hir l s t i t u t i o n s 、 e s p e c i a l l y e n t e r p r i s esb e g i na t t a c hi m p o r t a n c et 0d a te 1 一q u a l i t yp r o b l e m s , t h er e f o r ei nt h et h e s is w ew i l la r g u ef o rac o n c e l 3 t u a l i z a t i o n 0 fd a t aq u a l i t yt h a ti n c l u d e sth isc o n t e x t ,a 1s 0t h e r ew i l l s h o w h o wt h 0 s ed qp r o b l e m sc o m e a , f s e , w h a tt h ed q c a t e g o t ie sa n d d i i l l er t s i 0 1 3 sis ,a n dh o wt 0c l a ss i f yt h ed qp r o b le m s y h e f tp u tf o l w o , r d ai t l o d e l0 fd oe v a ll l a t i o nt h a tisb a s eo l lr u l e sw a r e h o u s e ,t h is 【f i o d e l c o , r td ir e c tt h eo , n a 1ys e rt 0e v a l l t a t et h ed a t a q u a l i t ym e a s u f a b ly , e a s i lya n dc l e 1 1 - 1y a d d i t i0 n a l l y ,w eh a v ed es ig n e das y s t e mr l a m e dd q a ( d a t aq u a l i t y a n a l y s e f ) t 0i m p le :m e n t t h a tl i l o d e l t h ed q aa d o p te d l0 ts0 f t e c h n 0 10 9 ie ss u c ha sw e bs e r v ice ,x m l , j a v a , e t c ie lt h isc o n t e x t w em a d ea ne f f o r tt 0a d v ar l c et h ee v a l u a t in g 1 3 1 0 d e la n dd e s i g nt h ed q a :t h e see f f o r tsm a keare i a t iv ed e e p r es e a r c h ir ld oe v a l l l o , t in gm o d e l s y s te i l l s t r u c t u r ea n dc 0 d in g i m p l e m e n t k e yw o r ds :d a t aq u o - 1 i t y ; r u l e :r u l ew a r e h o i i s e ;e v a l u o , t i n gt o d e 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进 行研究所取得的研究成果。除了文中特别加以标注引用的内容 外,本论文不包含任何其他个人或集体已经发表或撰写的成果作 品。对本文的研究做出重要贡献的个人和集体,均已在文中以明 确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:久莨璋日期:幽睥石月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅。本人授权华南理工大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密囱。 ( 请在以上相应方框内打“”) 日期:以矿【年6 月日 日期:阳僻6 月i 1 日 赢1 0佳、纺 改r 够,豺丫f 名 名 签 签 者 师 怍 导 第一章绪论 第一章绪论 1 1 国内外研究概况 1 1 1 概述 随着信息技术的高速发展,数据质量问题变的越来越突出,特别在 政府以及大企业的数据分析、数据处理中尤显严重。然而,在这些企业 或者政府中,数据仓库往往是数据分析系统的基础,并且数据仓库中的 数据是经过对多个数据源进行采集、变换、集成、清洗等步骤后,存储 到数据仓库中,这些数据为政府或企业进行决策和指定战略提供更具准 确性的参考信息。无论是数据采集,还是数据分析,在这些的任何环节 都可能产生数据质量问题,本章将就国内外对数据质量的研究工作进行 介绍。 1 1 2 国外研究概况 尽管作为一个独立领域,数据质量在国外的研究历史还不是很长,但 是对于数据质量相关方面技术的研究在很久以前就已经展开。在研究过 程中,人们制定了很多相关的规则、成立了一些相关机构和组织。近年 来,数据质量技术的应用越来越广泛,涉及到医疗、工业、经济、电子、 生物、银行、化工、行政管理等各个行业。 一、数据质量的相关部分机构 l 、i a i d q ( i n t e r n a t i o n a la s s o c i a t i o nf ori n f or m a t i o na n dd a t aq u a l i t y ) , 成立与2 0 0 4 年一月,其奠基人是l a r r yp e n g l i s h 和t o mr e d m a , 目前这个团队的成员主要来自澳大利亚、荷兰、美国、德国、墨 西哥等国。是世界上首次出现的关于如何对数据和信息质量进行 管理和操作的专家机构。i a i d q 机构的目的是是创建一个具有包 括全世界在内的社团组织,使得这个组织能够为那些希望减低数 据质量所引起的损失的人们或企业提供数据质量管理技术和原 理,从而发展成为从创建、维护到传递这些数据和信息。 华南理工大学硕士学位论文 2 、t d q m ( m i t st o t a ld a t aq u a l i t ym a n a g e m e n t ) 在越来越多的工业 对高数据质量的需求中孕育而生,这个由美国麻省理工大学的中 坚分子组成的机构有着明确的目标:为数据质量这一胚胎领域技 术建立一个可靠的理论基础,通过这个机构的工作,为工业和商 业设计出实用的技术来提高他们的数据质量。在他们的努力下, 一个关于信息质量的会议将于每年的十月召开,积极的推动数据 质量技术领域的向前发展。 二、研究领域 l 、保健医疗业:在英国,在人口健康服务管理信息( p h s m i ) 领域, 由英国国民健康保险制度( n h s ) 支持,在多个方面对数据质量 进行了研究。首先,他在审计检查会以及卫生机构的共同努力下, 组建了一只数据信赖团队f d a ) 来发展和维护一套完整的信息审 计策略,确保信息的一致性,以及重要卫生数据的质量,从而增 加人民对n h s 的信任。 2 、工业及商业:在各国,数据质量问题已经越来越引起工业和商业 的注意,她已经成为关系到企业生存和发展的要素之一。在法国, q u e s t 论坛自19 9 8 年成立,旨在电信和工业领域,使服务质量 和企业发展都达到一个在世界领先地位,通过实现一套完整的质 量管理体系,已经全球合作伙伴的共同实践来实现这一目标。 三、研究成果 关于数据质量的研究起步于九十年代初期,发展的历史并不是很 长,对于数据质量的研究,可以说还处于起步阶段,但是对于数据质 量的产生原因、数据质量问题的分类、数据质量的定义已经如何对数 据质量进行管理都有了一定的研究。 比如:从h t t p :w w w d a t a q u a l i t y c o r n 上可以看到关于数据质量研 究的一些发展历程。 1 9 9 5 年三月发现了第一本“数据质量”年刊,刊载了关于数据质 量研究的目的、提高数据质量的策略、如何在工业,医疗行业进行数 据质量管理等方面进行了一定的探讨,随后,在1 9 9 6 年九月,发行了 第二刊,论述了数据质量如何导致美国大学的分级,以及在开发的环 境中如何测量和提高生产力和质量等等。之后的几年,这本年刊都在 对数据质量研究进行着努力,国外对这个领域的研究也如雨后春笋般 的出现,使得这一技术得到越来越多的重视和研究成果。 而对数据质量的研究重点如今也在发生改变,在第一代的数据质 量系统中往往是“后知型”,人们研究点是放在如何检查出数据错误、 第一章绪论 数据的不完整性然后如何进行修补,如今人们已经开始向“先知型”, 也就是研究如何在发生数据质量问题之前去避免她,如何防止数据质 量问题的产生。 1 1 3 国内研究概况 数据质量技术,作为独立的研究对象,在我国还是处于初期阶段。 随着我国对于数据质量的逐渐重视,研究也正在逐步升温。 一:我国现有的历史数据曲j 数据、信息质量在我国的现状并不十分乐观,在我国大范围的计算 机应用是从p c 起步的,p c 机在数据管理上的优点是:应用简单、人机 界面好、灵活。p c 机用于数据管理带来的问题是:数据分散、不规范。 特别是在p c 机上广泛应用的报表处理,个人的随意性( 指标定义、报表 格式定义、报表软件选择等) 影响了数据规范。不同部门之间、不同年份 之间、甚至同类业务不同处理环节之间,数据口径不一致,可比性差, 造成数据上的“历史问题”。因此,尽管我国改革丌放2 0 多年来,积累 了大量的数据,但利用率普遍很低。 另外,原有计划经济体制,从表面上看是高度统一的,但在执行中 又是条条分割、各自为政。因此在数据统计上是各自定义指标体系,各 自下发统计要求,各按自成体系收集,各自分析上报。不光是国务院各 部、委、局之间,甚至同一个部各司( 局) 之间也是如此。这种数据资源的 条条分割,不仅给基层部门带来了沉重的负担,浪费人力物力,而且损 失了数据之间的相关性。 二:我国数据质量的现状 1 数据库的设计:数据库与文件管理系统的重要区别之一在于不仅存 放数据,而且存放数据之问的相关性。相关性不仅表现在数据依存的时 间、地点( 部门) 、类型、名称等原始属性上,还会在数据的转移过程中, 产生再生的相关性。某些人为因素( 例如:选取的口径、精度、采样时间 点、时间片划分不同) 会使数值发生变化,这些因素也是不可丢失的相关 性。希望从数据中发现的东西越多,相关性的要求就越高。 2 开发方式:原始数据都是由业务干部掌握的,相关性也是他们最 清楚,但他们不懂计算机程序。而编程人员大多数不熟悉业务,对相关 性也难于理解,很难编写出业务人员使用方便、适应面宽、又很灵活的 门径调整工具。长期以来两类人员不易沟通,数据口径调整就成了老大 华南理工大学硕士学位论文 难问题。 目前,大多数单位的开发方法往往把主要精力和资金投在编程上,而 数据如何准备较少考虑。系统开发完后才发现所需要的数据拿不到或不 能用,影响数据可移植性和可继承性。数据库应用软件开发必须与数据 的组织、整理同步,并应着重考虑继承原有的信息资源。 3 对数据准备认识不足:一些单位对档案数据的重要性缺乏认识,以为 计算机是万能的机器,数据质量差些不要紧:也有的单位仅仅是“赶时 髦”才盲目购买机器,对数据工作的难度、工作量等缺乏思想准备;还 有的单位是为了应付评比检查,并没有真正把自动化检索提到议事日程。 4 :缺乏质量控制监督措施:由于多数检索系统没有进入实际应用阶段, 数据质量的控制和监督往往被人们忽视。绝大多数单位在数据准备、录 入阶段缺乏审核等质量控制、监督措施。著录标引的检查,一般采取自 己审核或互相审核的方法,少数单位也设专人负责质量检查,但实际上 由于种种原因,不能将著录卡片与文件一一对应起来审核,有些问题也 难发现。还有一些单位,由录入人员看着档案或仅仅看着目录往计算机 中输入数据,质量就更无法控制和监督了。 上述诸因素影响了数据质量的提高,而没有与应用需求相适应的数据 质量,数据库利用率也很难提高。数据质量在我国的应用还未普及,可 数据质量问题的突出,对这项技术的研究正在全国、甚至全世界范围内 深入,我国关于这项新技术的研究也正在得到越来越多的个人、团体、 社会已经企业的重视”1 。 如果需要有关我国的数据质量研究方面的信息,可以从文献【3 4 k 6 中 获得。 1 2 研究的意义 随着数据仓库技术在各行各业越来越多的深入应用,数据质量好坏成 为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。由数 据质量引起的问题越来越受到政府机构、企业、个人的关注 2 4 - 2 6 , 2 9 】 由数据质量引发的损失和严重后果在当今社会上已经不为鲜见。 1 、在美国,5 0 到8 0 的犯罪电脑记录是不正确,不完整或不明确 的由此导致社会和经济的损失不记其数【2 4 】【2 6 1 【29 1 2 、2 0 0 5 年一月2 4 号,纽约时报报道,e z i b a c o m 在去年九月底十 月初邮递出去的上千份目录册,经历了一段市场反应冷淡后, 4 第一章绪论 开始对此进行调查,本来以为问题在于邮递的延迟,可发现的 结果是由于数据仓库中信息错误,使得这上千份目录发送地址 错误,目录发送到了最不可能有回复的客户手中。结果造成了 公司收入大量削减,e z i b a t o m 被迫暂时停止一切商业活动。 像这样的由数据信息质量引起社会损失、企业损失、个人损失不是少 数,这些都追切的需要对数据质量进行控制,而如何对数据质量进行分 析则是对其控制的第一步。 对于企业,数据仓库的建立主要是为决策支持系统和联机分析应用系 统服务,目的是优化企业资源调配、提升企业的协同和资源共享,从而 提高企业的核心竞争力和创新力。质量好的数据能够促进和提高企业决 策的正确性,而质量差的数据则起到反面的作用。在数据仓库建设过程 中,数据质量建设的成功与否直接决定着数据仓库的应用。 1 3 研究内容 目前,在我国,一个企业,一个部门由于历史的积累,都留下了数量 巨大数据,由于数据产生于不同时期、不同人手或者不同的系统。从而 使得数据之间有着无效性、重复性、关联性、完整性等数据质量问题。 如何发现这些存在的问题,不仅需要相关业务人员的努力,也需要一套 完整的理论和软件硬件实现来帮助评估和寻查这些问题并将结果提过给 用户。 本文的研究内容主要包括: 一、研究分析数据质量的产生、分类、分析等问题,并提出一套的数 据质量评估模型,这一模型具有下列特点: 对关系型数据仓库进行数据质量分析,从而得到相关报表。使数 据质量的评估具有普遍性、通用性以及量化性。 能够多维度的进行分析,提出了零级到二级多级别的对数据进行 分析统计方法,已经对数据质量分析的时态问题进行了研究。 提出规则库的概念,使得数据质量分析具有可扩容性,把数据质 量分析技术建立在规则库的建立和使用基础上。 二、在这一模型上,研究实现了一种可扩展式的系统架构,并实现了 一个系统( d a t aq u a l i t ya n a l y s e f ) 。这一系统具有以下特点: 采用c s 客户服务器模式,为多个用户提供一个对数据质量进行 分析评估的平台,并为多个用户可以共享资源提供服务。 华南理工大学硕士学位论文 实现服务器端分析器的跨平台性能,以及客户端友好的交互界面, 为用户提供了一个树状的可视化设计流程,并且整个系统可以方 便的进行功能添加和移植。 研究和设计多个使用x m l 可扩展模式语言对多个对象进行描述以 及存储,并使用w e bs e r v i c e 来实现客户端与服务器端的交互, 从而使得该系统紧密结合现代科技产品及i t 技术的特点。 1 4 本文的组织架构 本文对可扩展数据质量分析系统及其软件实现研究进行了介绍。 第一章为绪论部分,主要介绍了国内外的研究概况、研究的意义及内 容: 第二章为数据质量及其分析技术,首先介绍了数据质量的定义,然后 分别从数据质量问题的产生、数据质量问题的分类、数据质量分析方法 论及数据质量的控制等几个方面对数据质量及其分析技术进行了介绍; 第三章为基于规则库的数据质量分析与统计,在这章中首先介绍了数 据质量元素的概念,然后提出了数据质量评价模型并引入了规则库的概 念,在对基于规则库的数据质量分析评价中进行了三级分析,最后对数 据质量分析中的时态问题进行了阐述; 第四章为可扩展的数据质量分析系统框架,首先介绍了系统的整体框 架,然后分别从客户端、服务端和管理数据库及开发环境四个方面进行 了介绍; 第五章为数据质量分析软件的任务模块,从用户界面、用户自定义 s q l 模块、过滤器模块、过滤器集模块及尺度模块五个部分进行了分别 介绍。 本文最后对全文进行了总结并提出了进一步研究的方向。 第一二章数据质量及其分析技术 2 1 引言 第二章:数据质量及其分析技术 随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设 成败和数据能否有效应用的重要关键问题。数据仓库的建立主要是为决 策支持系统d s s 和联机分析应用服务,目的是优化企业资源调配、提升 企业的协同和资源共享,从而提高企业的核心竞争力和创新力。质量高 的数据能够促进和提高企业决策的正确性,而质量差的数据则可能误导 企业的决策。在数据仓库建设过程中,数据建设的成功与否直接决定着 数据仓库的应用质量。 业界目前对数据仓库比较公认的定义是1 9 9 6 年0 3 月美国著名信息工 程学家w h i n m o n 博士在其经典著作b u i l d i n gt h ed a t aw a r e h o u s e 一 书第二版中所阐述的“数据仓库”的概念:“一个数据仓库通常是一个 面向主题的( s u b j e e t 一0 r ie n t e d ) 、集成的( i n t e g r a t e d ) 、相对稳定的 ( n o n v o l a t i l e ) 、反映时间变化的( t i m e v a r i a n t ) 数据集合,它是建立 决策支持系统和联机分析系统的数据基础。 数据仓库有如下4 个特征: l 、面向主题的。所谓主题,是指用户使用数据仓库进行决策时所 关心的重点方面,如销售情况、人事情况、整个企业的利润状 况等:而面向主题,是指数据仓库内的数据是按主题进行组织 的,为按主题进行的决策过程提供信息和支持。 2 、集成的。数据仓库中的信息不是从各个业务处理系统中简单抽 取出来的,而是经过系统加工、汇总和整理得到的,以保证数 据仓库内的信息是关于整个企业的一致的全局信息。 3 、稳定的。一旦某个数据进入数据仓库以后,一般情况下将长期 保留。也就是说,数据仓库中一般有大量的插入和查询操作, 但修改和删除操作很少。 4 、反映时间变化的。数据仓库内的信息并不只是关于企业当前或 某一时刻的信息,而是系统所记录的企业从过去某一时刻( 如 开始应用数据仓库的时刻) 到目前的各个阶段的信息。这些信 息可以用来对企业的发展历程和未来趋势作出定量分析和预 华南理工大学硕上学位论文 测。 数据质量差是构建数据仓库时需要解决的最困难的问题之一,数据质 量的控制成为数据仓库建设发展过程中越来越引起重视的突出问题。本 章首先讨论数据仓库环境下数据质量问题的产生已经数据质量问题的分 类,然后对数据质量分析技术以及控制技术简单的介绍。最后给出了本 章的小结。 2 2 数据质量问题的产生 在当今时代,企业信息化化程度越来越高,利用企业的数据进行决策也 越来越多。根据“进去的是垃圾,出来的也是垃圾( g a r b a g ei n ,g a r b a g eo u t ) ” 这条原理口2 1 ,为了支持正确决策,就要求所管理的数据可靠、没有错误、 确实地反映企业的实际情况。因此,企业数据质量的管理正在获得越来 越多的关注。 一、数据质量的定义1 2 0 2 l 】 2 2 1 2 3 l 数据生产和存储的过程一般都被看成一种数据制造系统 2 2 1 12 引,在这 个系统中最重要的的一步就是将有用的数据信息提供给数据消费者( d a t a c o n s u m e r s ) 。在这里我们要明确几个基本概念: 在数据制造过程中,我们定义了三各角色: 数据生产者( d a t ap r o d u c e r s ) :包括产生这些数据的个人,组织,或其 他数据来源,比如另一个数据库等等。 数据管理者( d a t ac us t o d i a n s ) :对产生的数据充当统计,以及如何存储 和使用等管理者角色。比如数据仓库的管理者。 数据消费者( d a t ac o n s u m e r s ) :包括对数据仓库中的数据进行业务分 析和使用的人员或组织。 每一个角色都在数据制造过程中与一定的步骤和任务相关联:数据生 产者与数据产生步骤相联系;数据管理者与数据存储、维护和安全相联 系;数据消费者与数据分析和使用相关联,有时也包括附加的数据集成。 因此作为一个被广泛认可的原则,一个高质量的数据被定义为:对于数 据消费者来说,数据是符合的要求的被称为高质量的数据。这也就是说, 对于数据消费者来说的可用性,有效性是数据质量的重要方面。 二、影响数据质量的因素 按照上面对高质量数据的定义,我们可以把影响数据质量的因素分为 四各范畴:基本数据质量( i d q ) ,访问方面数据质量( a d q ) ,上f 文数据 第= 章数据质量及其分析技术 质量( c d q ) ,描述方面数据质量( r d q 广1 。见表2 一l 。 熏羹鬟溱跫赙黑里7 u 冀浚蘸黧缀鬃缀糕灞瀚懿鬟燃黼瀚菱蠢鬟 基本数据质量范畴准确性、客观性、可信度、 有效性 访问方面数据质量范畴可访问性、访问安全性 上下文数据质量范畴关联性、完整性、增值性、 合时性、数据的数量 描述性数据质量可判别程度、容易理解程度、 简明描述、一致性 表2 1 数据质量的范畴和尺度 上表内容可以这样理解:数据质量i i j 以从四各范畴去理解或者定义,且 每个范畴都有一定元素去定义,去判断他们的优与劣。这些范畴和元素 解释如下: 基本数据质量范畴:她由数据的准确性、客观性、可信度、有效 性来组成。 访问方面数据质量范畴:她由数据的可访问性、访问安全性来组 成。 上下文数据质量范畴:她由关联性、完整性、增值性、合时性、 数据的数量来组成。 描述性数据质量:她由可判别程度、容易理解程度、简明描述、 一致性组成。 以下简单介绍一下四个范畴如何影响整个数据的质量: i 、本数据质量范畴( i d q ) :主要由两个方面的原因导致这方面的数据 问题。这两个因素如图2 1 所示为”1 : a 一数据对象来源于多个数据源,但在多个数据源种描述不同, 导致可信度的疑问,那一个数据源更有效。 b 在数据生长过程中,难免有主观意识的对数据的描述,从而导 致数据客观性的问题。 由此两种问题影响的数据导致差的应用,也就是数据不可用。町由卜 图2 1 看出在基本数据质量范畴中,其元素如何使得数据成为无用数据。 9 华南理工大学预十学位论文 图2 1 基本数据质量问题模型 2 、访问方面数据质量范畴( a d q ) :这方面主要示数据仓库的管理及安 全问题,不在我们主要讨论的范围内。有兴趣可参照文献。 3 、上下文数据质量( c d q ) 和描述方面数据质量( r d o ) :这方面的问题, 主要由三种情况引起。 a 、 生产过程的问题,即由于在数据生产过程中没有提供完整的数 据,或生产了错误的数据,从而导致不完整的数据。 b 、 数据消费者对数据仓库的数据需求变化,使得在数据仓库中的 数据变的相对不完整,不能完全满足数据消费者的需求,导致 数据的不完整。 c 、当数据由多个数据源集成而成的时候,难免遇到数据表达的不 一致的问题,例如在一个系统中那男女的表示为0 一男,1 一女, 而另一个为g 一女,b 一男,使得数据表达出现不一致。 以上的问题,使得数据在使用的时候遇到困难。图2 2 、“详细的描述了三 个方面如何一步一步导致了数据的价值降低。 第二章数据质量及其分析技术 图2 2 上下文数据质量问题模型 2 3 数据质量问题的分类 数据质量问题可以出现在单个数据集合中,例如出现在一个文件或数 据库中,这可能是由于在数据输入时的拼写错误、信息的错误以及其它 无效的数据等引起。在多数据源的系统中,数据的质量问题显得尤为突 出。数据仓库中的数据就是来自于多个数据源,是对多个数据集的集成。 由于要集成的数据经常具有如下一些特点: 数据存储在不同的模式中。 数据存储在不同的文件和数据库中。 数据存储在物理上独立的多个数据中心中。 数据存储在不同的硬件平台之上,并且这些平台运行不同的操 作系统。 所以在将不同数据源中的数据进行合成时往往存在着结构冲突、数据 剩余等一系歹0 质量问题。数据仓库中的数据质量是由进入数据仓库中数 据源的质量决定的。我们可以将数据源中数据质量粗略地划分为单数据 源和多数据源问题两大类,每一类又可以细分为模式相关和实例相关两个 华南理 _ = 大学硕十学位论文 方面的问题。 单数据 数据质量问题 模式垂飞模式墓八层 唯一性约柬 外键约柬 拼写错误 重复记录 互相矛盾 命名冲突 结构冲突 不一致的时间选择 不一致的汇总 图2 3 数据质量问题分类 根据处理的是单数据源还是多数据源以及问题出在模式层还是实例 层,可将数据质量问题分为四类( 如图2 3 所示) :单数据源模式层问题、单 数据源实例层问题、多数据源模式层问题和多数据源实例层问题。图2 3 表示了这种分类,并且分别列出了每一类中典型的数据质量问题 一、单数据源质量问题 长期以来,对于源数据中的质量人们往往只关注源中具体的数据即实 例相关的问题,而忽视模式相关的问题。事实上一个数据源的数据质量 在很大程度上是由数据模式以及相应的完整性约束决定的。数据模式和 完整性约束控制了所允许进入源中数据的范围。如果在一个源中没有数 据模式,就会对进入和存储的数据缺乏相应的限制,出现数据错误和不一 致的概率将大大提高。模式相关的数据质量问题会由于缺乏合适的数据 模型或特定应用的完整性约束而引起。模式相关的问题可以进一步细分 为属性( 字段) 、记录、记录类型以及源这四种不同范围的错误。表2 2 给 出了单数据源中模式相关问题的一些例予。 范围问题问题数据 原因 属性数据错误月份= 13数值越界 出生年= 19 7 7 记录属性依赖冲突年龄= 2 5两者有依赖关系 记录类型唯一性名字= 张三身份唯一 i d = 2 3 2 4 2 3 4 2 3 4 2 名字= 张二 第二章数据质量及其分析技术 i d = 2 3 4 5 4 5 6 5 4 2 源参考完整性冲名字= 张三在部门表中未定义 突部门号码一2 32 3 的部门信息 表2 2 实例相关的问题是在模式一级无法避免的问题( 如:拼写错误等) 。典 型的实例相关的问题包括: 空缺值:在一些记录的属性上没有记录值。这往往由于在数据输入 时没有合适的数据或者采用缺省值等而引起。 拼写错误: 缩写:如将d a t aw a r e h o us e 缩写为d w 。 内嵌数据:一个字段包括多个数据,这经常出现在一些具有自由格 式的字段中。 属性依赖冲突:如城市名与邮政编码应该相对应。 数据重复:如由于数据输入的错误导致有多条记录表示现实世界 中的同一个实体 二、多数据源质量问题 每一个数据源都是为了满足特定的需要而进行设计、部署和维护的, 也就是说它们在设计开发时往往是相互独立的。其结果是在数据库管理 系统、数据模型、模式设计以及数据格式等都存在很大的不同。在将多 数据源进行集成时数据质量问题表现得尤为突出。 在多数据源中存在的模式相关的问题主要是名字冲突和结构冲突。名 字冲突表现在同一个名字表示不同的对象或不同的名字表示同一个对象; 结构冲突的典型表现是:在不同的源中同一对象用不同的表示方式。例如 在不同数据源的属性与表中,同一对象可以表现为不同的成分结构、不同 的数据类型以及不同的完整性约束等。 除了模式级的冲突外,许多冲突只出现在实例级( 数据冲突) 。在单 数据源中所出现的各种问题都将以不同方式出现在不同的数据源中f 如: 重复的记录、矛盾的记录等) 。即使在具有相同属性名称和数据类型的情 况下也可能有不同的数据表示“1 如: 在某一个数据源中用m 、f 分别表示男、女,而在另一个数据源中用g 、 b 来表示) 或者不同的解释( 如:计量单位一个是公斤,另一个是吨) 。还 有在不同的数据源中信息的聚集程度( 如:每件商品的销售额对每组商品 的销售额) 以及代表的时问点都有可能不同。 华南理工大学硕士学位论文 2 4 数据质量分析方法论 建立正确和有效的数据质量分析需要在分析前就确定分析的步骤和 使用的方法 2 0 , 2 1 , 3 0 j 。下列步骤使的整个分析系统有计划,分阶段的得以 实现。 范围和策略:确定分析的源数据范围,分析规则,确定分析步骤 和使用工具。 分析需求:深入理解业务需求和业务分析模型,圈定需要进行数 据品质分析的数据元。 定义数据品质基准:与业务专家、项目主管一道确定每个数据元 要达到的数据品质基准。 数据品质测试:测试数据品质,对不符合品质基准的数据列出转 换规则。 反馈:对当前数据品质分析的状态、进展情况与项目主管进行沟 通。 下面以银行数据质量分析为例子来介绍数据质量分析技术如何应用 到银行的数据仓库。 2 4 1 确定范围和策略 首先,在分析之前要明确分析的数据范围,银行数据仓库中的数据大 致可分成图2 4 表示的几大类,比如客户信息的数据主要由c i n f c u s t o m e r i n f o r m a t i o n ) 表示,以c i n 为表名开头的表的都表示客户的相关信息。 当确定分析的范围之后,就需要确定数据的分析策略。数据分析的基 本策略可以从图2 5 表示得出: 从图中,我们可以看到,其策略基本可分为三部分。 数据质量检测条件定义:根据专家和相关业务人员对数据源的分析, 对数据源提出相应的数据质量需求,通过转换,将这些需求变成相应的 s q l 语句,存储在q ap a r a m e t e r 表之中,方便以后应用。 分析数据源:使用工具对数据源进行分析,比如使用b r i o ,q m 等软件 进行分析,并且将得到的结果输入到q ar e s u l t 表中保存。 第二章数据质量及其分析技术 图2 - 4 银行数据仓库 结果表示:通过文字或图表对结果进行表述,方便用户使用。可使用 b r i o 等工具实现。 2 4 2 需求分析 图2 5 数据分析的基本策略 银行的业务比较复杂,而日随时间的变化而变化,因此要建立 华南理工大学硕士学位论文 个行之有效的数据质量分析,对银行业务的了解已经数据的结构是十分 必要的,必须在与相关的专家和业务人员的共同努力下,才能对银行数 据的需求进行充分的分析。 对银行的数据质量分析主要分成4 类,包括: 对m t c 、l c c 进行数据质量评估:以b l t c 、l c c 的q a 为范例,结合现 有的分析方法和程序模板最终确定一个可行的q a 方案。 对f r 、c r s 、e p m 、c r m 业务模型、业务需求进行分析,并进行数据质 量评估:针对f r 、c r s 、e p m 、c r m 不同阶段的业务需求来界定提交数据 质量评估报告的先后顺序。 对f r 、c r s 、e p m 、c r m 的历史数据进行数据质量评估:由于数据随着 时间的变化而变化,这种变化有可能是数据属性的变化,也有可能是数 据业务定义的变化,因此,历史数据的质量评估考虑的因素会更多。 对潜在的数据进行数据质量评估:对当前暂时用不到,但下一阶段有 可能会用到的数据进行数据质量评估。2 4 3 数据质量基准 与业务专家、用户一道确定每个数据元素要达到的数据质量基准,也 即是清洁度。数据质量基准对数据质量分析工作有指导性意义,数据质 量分析结果与拟定的数据质量基准进行比较,数据质量分析结果表明清 洁度低的,则说明数据质量达不到业务要求,必须要定义清理规则,对 数据进行清理;另一方面,就算当前数据暂时达到业务要求的清洁度, 但还有脏数据的存在,是否也要考虑进行清理,以达到更高的清洁度, 因为脏数据随着时间的日积月累,数据的总体质量会下降。 2 4 4 数据质量测试 数据分析流程图2 - 6 及说明 1 )根据数据仓库的阶段需求,结合元数据( 包括i f f ) ,由o l t p 系 统丌发人员在o l t p 平台上编写程序生成s e q u e n t i a lf i l e 。 s e q u e r l t i a l f i l e 的文件类型取决于o l t p 系统平台,对于 m a i n f r a m e ,一般生成q s a mf i l e ;对于u n i x 、w i n d o w s ,一般 生成f l a tf i l e 。 2 ) s e q h e n t i a lf i i e 通过f t p 传送到e t l 平台服务器上,由d a t a s t a g e 工具将数据装载到d q ao d s 中。 3 1d q a 工具或程序模板读耿数据质量检测条件对目标数据表中的 第二章数据质量及其分析技术 数据进行数据质量分析,这些检测条件是在“第一步:确定范围 和策略”中进行设定的,并保存在d q ao d s 的p a r a m e t e rt a b l e 之中。 4 )对两种不同的分析结果采取不同的处理方法:对符合数据质量要 求的直接将结果写入d q ar e s u l tt a b l e 中;对不符合数据质量要 求的将结果写入d q ar e s u l tt a b l e ,同时根据需要将异常数据写 d q ae x c e p t i o nt a b l e ,异常数据将进步进行分析和处理。 5 ) 通过b r i od e s i g n e r 对d q ar e s u l tt a b l e 进行查询,或输出e x c e l 报表。数据质量分析员和业务专家、用户一道对d q ar e s u l t 呈 现的数据质量问题进行深入探讨,并提出为确保拟定的每个数据 元的质量基准( 即清洁度) 而进行的数据清理规则,以及数据清 理规则的实施建议。 图2 - 6 为数据质量分析流程图。 6 )提交数据质量状况分析报告给b 1 人员,作为元数据提供给 数据管理员、开发人员( 包括e t l 设计开发人员、前端数据展现 丌发人员) 、数据仓库建模人员。 华南理工大学硕士学位论文 2 4 5 反馈 数据质量分析员提交数据质量状况分析报告,并同e t l 设计人员、 数据管理员、业务专家、用户一道确定数据元应该达到的清洁度,以及 脏数据的清理规则。 2 5 数据质量的控制 在数据仓库中,为了提高数据的质量,一般需要进行数据的预处理, 其中数据清理( d a t ac l e a n in g ) 是数据预处理中的重要步骤。数据清理例 程通过填写空缺的值,平滑噪声数据,识别、删除孤立点,并解决不一致来 “清理”数据。另外,除数据清理之外,必须采取措施,消除数据集成时数 据的冗余。由于不是本文重点,只简单的介绍数据清洗的一般过程。 一般来说,数据清理过程包括如下几个步骤: 数据分析:为了检测错误数据以及不一致数据的类别,需要进行详细 的数据分析。除了使用手工检查数据或数据样本外,应该使用分析程序来 获取关于数据特性的元数据以及检测数据质量问题。 定义变换和映射规则:根据数据源的数目、数据源之间的相异程度以 及数据“脏”的情况,需要进行相应的数据变换和清理。有时,模式变换 常常用来映射源与目标数据模型的之i b j 的对应关系。前一阶段的数据清 理步骤能够纠正单数据源的实例问题并且为数据集成做准备,后一阶段 的数据清理涉及模式数据集成以及清理多数据源实例问题。模式相关的 数据变换的清理步骤应尽可能地使用查询陈述和映射语言来自动生成变 换代码。另外,在进行数据变换工作时应该有能够执行用户书写的清理代 码的特殊的工具。 检验:数据变换的准确性和有效性应该进行测试和评估。有时需进行 多次反复的分析、设计和检验的过程。 变换:根据变换和映射的规则进行数据的变换工作。 回溯:在错误被消除以后,数据源中的脏数据应该用干净的数据进行 替换,以便为源应用程序提供改进了的数据,以及在将来的数据抽取工作 中避免重做数据清理工作。 第二章数据质量及其分析技术 2 6 本章小结 本章主要介绍了数据质量及其分析技术。 首先对数据质量问题的产生进行介绍,从数据生产和存储的过程方面 入手,对数据质量定义、数据质量范畴、数据质量影响因素等进行介绍。 其次对数据质量问题的分类进行描述,将数据质量问题分为单数据源 问题和多数据源问题,并给出了相应的样例进行说明。 然后介绍了数据质量分析方法论,结合了本人在银行数据质量管理项 目过程中的实践经验,从确定范围和策略、需求分析、数据质量基准、 数据质量测试及反馈等五个方面进行了描述。 最后对数据质量的控制问题进行了介绍,并且就数据清洗过程中的几 个步骤如何实施数据质量控制进行了说明。 9 华南理工大学硕士学位论文 第三章:基于规则库的数据质量分析与统计 3 1 引言 对于数据质量的评估方面,研究人员进行了许多研究探索,文献 【2 ,1 4 , 15 ,16 1 从不同的方面提出了数据质量的评估方法,文献1 7 】介绍了数据 质量的评估过程,文献l l8 l 设计了一个数据质量的分析和浏览工具,文献i i 副 给出了一种基于属性的数据质量评估模型。但是这些模型都没有以定量 的方式进行评估,本章在总结前人研究成果的基础上提出了一套完整的、 可以实际应用的数据质量评价模式,她是一种基于规则库、能够全方面 对商业数据进行质量分析的模式。下面就详细介绍这套评价模式。 3 2 数据质量评价模式的基本概念 3 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论