




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)web信息集成中数据清洗的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 数据清洗的需求由来己久,对数据清洗技术的研究一直是数据管理领域及 其相关领域中一个非常热门的课题。本文主要研究的是在w e b 信息集成过程中 “脏数据”问题的解决方法,重点研究了重复记录检测及其相关算法,为消除 脏数据、保证集成数据的质量提供了一套解决方案。 本文首先论述了数据质量的定义及其相关概念,总结了数据清洗技术的原 理,数据清洗的方法,并给出数据清洗的评价标准。针对数据清洗的一般步骤, 提出数据清洗的框架一种是与领域无关的基于元数据的数据清洗框架,一种是 基于领域知识的数据清洗框架。此外还分别对不完整数据,异常数据和重复记 录的数据清洗技术进行了研究,给出了它们的定义,实例,清洗的一般步骤, 基本流程,可采用的清洗方法。 本文就重复记录清洗中各个步骤所涉及的关键算法进行了研究,主要包括 基于编辑距离的字段匹配算法,记录匹配的p a i r w i s e 比较算法,重复记录检 测的s n m 算法,给出了算法的基本思想,算法复杂度分析。并针对s n m 算法进 行了改进。本文还给出了重复记录合并删除的规则。 根据w e b 信息集成中w e b 数据的特点,给出了基于w e b 的数据清洗框架, 该框架主要是利用x m l 特点,在x m l 对数据库映射的同时进行数据清洗的预处 理,即对数据进行元素化,标准化,提高数据清洗的效率。利用前面研究的重 复记录清洗的算法,对w e b 信息抽取后的数据进行了重复记录的检测,并根据 实验结果进行了相关分析。 本文最后提出了一种基于中文的重复记录检测方法,主要是根据汉语的特 点,在匹配前进行中文分词和语义匹配,以提高记录的匹配度。 目前数据清洗在数据仓库领域已经取得了相当的发展,但是国内外的研究 人员始终没有提出一个基于w e b 的通用数据清洗框架,由于w e b 数据的特点, w e b 数据清洗与基于关系数据库的清洗不同,国外提出了】( m l 键,x m l 相似度 的概念。随着w e b 信息集成的发展,针对w e b 数据的清洗越来越受到人们的重 视。 关键词:信息集成,w e b 数据,数据清洗,相似重复记录 a b s t r a c t t h ed e m a n df o rd a t ac l e a n i n gh a sal o n gh i s t o r y t h es t u d yo fc l e a n i n g t e c h n o l o g yh a sb e e nav e r yh o tt o p i ci nd a t am a n a g e m e n tf i e l da n do t h e rc o r r e l a t i v e f i e l d s i nt h i st h e s i s ,t h em a i nr e s e a r c hi sh o wt os o l u t e ”t h ed i r t yd a t a ”i nt h ew e b i n f o r m a t i o ni n t e g r a t i o n , a n df o c u so nt h ed e t e c t i o nt ot h ed u p l i c a t er e c o r d sa n dt h e c o r r e l a t i v ea l g o r i t h m s t h u sas o l u t i o nt h a tc a ne l i m i n a t et h ed i r t yd a t aa n dc n s u l et h e q u a l i t yo fi n t e g r a t i o nd a t ai sg i v e n i nt h i sd i s s e r t a t i o n , t h ed e f i n i t i o n so fd a t aq u a l i t ya n do t h e rc o r r e l a t i v ec o n c e p t s a r ed i s c u s s e df i r s t l y f u r t h e r m o r e ,t h e o r i e sa n dm e t h o d so fd a t ac l e a n i n gt e c h n o l o g y a r es u m m a r i z e d ,a n dt h ee v a l u a t i o nc r i t e r i aa r ep u tf o r w a r d c o m p a r e dw i t ht h e g e n e r a ls t e p so fd a t ac l e a n i n g , t w of r a m e w o r k so fd a t ac l e a n i n ga r eg i v e n o n ei s u n r e l a t e dt of i e l d sa n db a s e do nm e t a d a t a , a n dt h eo t h e ri sr e l a t e da n dh a s e do nf i e l d k n o w l e d g e w h a t i s m o r e ,t h i s d i s s e r t a t i o na l s oi n t r o d u c e st h ed a t a c l e a n i n g t e c h n o l o g yt ot h ei n c o m p l e t ed a t a , a b n o r m a ld a t aa n dd u p l i c a t e sr e c o r d s a tl a s t , d e f i n i t i o n sa n di n s t a n c e so fd a t ac l e a n i n g , t h eg e n e r a ls t e p so fc l e a n i n gd a t a , b a s i c p r o c e s s e sa n dt h ea d o p t a b l em e t h o da r ea l lg i v e n t h i sd i s s e r t a t i o ns t u d i e st h ek e ya l g o r i t h m sr e l a t i n gt oa ns t e p si nt h ep r o c e s s i n g o fd u p l i c a t er e c o r d sc l e a n i n g ,m a i n l yi n c l u d i n gf i e l dm a t c h i n ga l g o r i t h mb a s e do n e d i td i s t a n c e ,p a i r - w i s ea l g o r i t h mt oc o m p a r et h er e c o r d sm a t c h i n g , s n ma l g o r i t h m t od e t e c tt h ed u p l i c a t er e c o r d s t h eb a s i ct h e o r i e sa n dc o m p l e x i t i e so fa l l 。t h e a l g o r i t h m sa r e i n t r o d u c e d t h e na ni m p r o v e ds n ma l g o r i t h mi s g i v e n t h i s d i s s e r t a t i o na l s oi n t r o d u c e st h er u l e so fm e r g e r d e l e t i o nd u p l i c a t er e c o r d s a c c o r d i n gt ot h ec h a r a c t e r i s t i co fw e b d a t ai nw e bi n f o r m a t i o ni n t e g r a t i o n , a d a t a c l e a n i n gf r a m e w o r kb a s e do nw e bi sp r e s e n t e d t h i sf r a m e w o r km a i n l yu s e st h e c h a r a c t e r i s t i co fx m lt oc o m p l e t et h ep r e t r e a t m e n tt od a t ac l e a n i n ga sl o n ga sx m l m a p p i n gt od a t a b a s e ,w h i c hm a k e st h ed a t ab e c o m ee l e m e n t sa n ds t a n d a r d i z a t i o n , a n di m p r o v e st h ee f f i c i e n c yo fd a t ac l e a n i n g t h i sf r a m e w o r ka l s od e a l sw i t ht h ed a t a f i l t r a t e df r o mw e bi n f o r m a t i o ne x t r a c t i o nt od e t e c tt h ed u p l i c a t er e c o r d sw i t ht h e a l g o r i t h mo fc l e a n i n gt h ed u p l i c a t er e c o r d sw h i c hi ss t u d i e da b o v e ,a n dp r e s e n t so u t t h er e s u l t sa n da n a l y s i so ft h ee x p e r i m e n t a tl a s t ,t h i sd i s s e r t a t i o np r e s e n t sad u p l i c a t er e c o r dd e t e c t i o nm e t h o db a s e do n c h i n e s e w i t ht h i sm e t h o d ,w ec a nd i v i d ec h i n e s ew o r d sa n dm a t c hw o r d sb a s e do n s e m a n t i c sm a i n l ya c c o r d i n gt ot h ec h a r a c t e r i s t i c so fc h i n e s e ,a n di m p r o v et h e e f f i c i e n c yo fm a t c h i n gr e c o r d s n o w a d a y s ,d a t ac l e a n i n gh a sh a dav e r yg r e a td e v e l o p m e n ti nt h ef i e l do fd a t a w a r e h o u s e b u tt h er e s e a r c h e rh o m ea n da b r o a ds t i l ld on o tp r e s e n tag e n e r a l d a t a - c l e a n i n gf r a m e w o r kb a s e do nw e b d u et ot h ec h a r a c t e r i s t i co fw e bd a t a , t h e w e b - b a s e dd a t ac l e a n i n gi sd i f f e r e n tt ot h ec l e a n i n gb a s e do nr e l a t i o nd a t a b a s e a n d t h e r ea r ec o n c e p t so fx m lk e ya n dx m lc o m p a r a b i l i t ya b r o a d w i t ht h e d e v e l o p m e n to f 髓6i n f o r m a t i o ni n t e g r a t i o n t h e 讳e 6b a s e dd a t ac l e a n i n gw i l lb e p a i dm o r ea t t e n t i o nt o k e yw o r d s :i n f o r m a t i o ni n t e g r a t i o n , w e bd a t a , d a t ac l e a n i n g , d u p l i c a t er e c o r d s 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:型l 簦日期:幽:1 5 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留、送交论文的复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段 保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:斗导师签名:掣日期:丝俎 ( 注:此页内容装订在论文目录前) 武汉理工大学硕士学位论文 1 1 选题背景 第1 章绪论 随着网络和信息技术发展,w e b 的迅速普及,网站的数量越来越多,越来越 多的机构和个人在网络上发布信息、查找信息,网络成为人们获得信息的必要 途径和重要手段。与此同时,出现了“信息爆炸”的问题,即数据极大丰富而 所需知识相对匮乏。人们所需求的数据分散在多家网站的w e b 网页上,人们为 了得到自己所需的信息,不得不在浩如烟海的网页中搜索,浏览,寻找符合自 己所需的知识,不仅浪费了大量的时间和精力,而且有时不一定能得到自己所 需的知识,所以说在数据极大丰富的同时,也带来了数据泛滥的问题,w e b 数据 转换集成技术正是用来从巨量的信息中获取有效信息的方法。如何快速、准确 地从海量数据里面提取有用的信息己经成为当前计算机科学的关注热点。 w e b 数据集成技术可以自动从w e b 上获取数据,然后集成为用户所关心的有 效信息,并在此基础上实现高效的查询、检索和比较,乃至数据挖掘、知识发 现等应用。但是由于w e b 数据的特点,从w e b 上得到的数据中有可能存在着大 量的脏数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记 录、丢失值、拼写变化、不同的计量单位等。如果其中存在着大量的脏数据, 那么这些数据也是没有任何意义的,根本就不可能为以后数据挖掘决策分析系 统提供任何支持。没有数据清洗,很可能就会导致错误的决策,因此数据清洗 是构建数据仓库和知识发现的必要因素。 如何有效地保证数据质量是关系到信息抽取和数据挖掘是否成功的问题, 对此问题解决方案的探讨己经成为当今软件技术的一个新的研究热点。本文的 研究课题就是在上述背景下提出的,采取的手段是在实施w e b 数据源集成的过 程中,利用数据清洗技术来消除各种脏数据,从而实现保证数据质量的目标。 1 2 国内外研究的现状 数据清洗作为数据仓库、k d d ( 数据挖掘) 、客户关系管理中重要的、必不可 少的组成部分,直接针对这方面的研究并不多,下面将国内外有关数据清洗技 武汉理工大学硕士学位论文 术的研究现状概述如下: 1 2 1 国外研究现状 数据清洗的相关研究起源于美国,是从对全美的社会保险号错误的纠正开 始的,是医疗、商业、税务领域中的研究重点之一。近年来,随着信息化的进 展,国外开始系统地研究数据清洗问题。目前,在数据清洗算法、方法和商用 系统上都取得了一些成果。主要成果可分类如下: 1 对“脏数据”检测f 2 l o 主要有:( 1 ) 采用基于距离的聚类的方法来识别 异常的记录。( 2 ) 采用统计学的方法来检测数值型属性,计算属性值的 均值和标准差,考虑每一个属性的置信区间来识别异常属性和记录。( 3 ) 采用关联规则的方法来发现数据集中不符合具有高置信度和支持度的 规则的异常数据。 2 识别并消除数据集中的近似重复对象,也就是重复记录的清洗0 1 。因为 在集成不同的系统时会产生大量的重复记录。消除数据集中的近似重复 记录问题是目前数据清洗领域研究的最多的内容。 3 在数据仓库应用中,e t l 是数据仓库系统中数据处理的关键操作。e t l 操作的实质就是根据数据处理的需要,将源数据对象经过e t l 处理后 加载到目标数据对象中。很多商业工具在很多方面支持数据仓库的e t l 过程,如d a t as t a g e ( a r d e n t ) 、w a r e h o u s ea d m i n i s t r a t o r ( s a s ) 等。 4 近几年,国外的数据清洗技术发展的很快,也已经有成形的各种数据清 洗工具,其中包括商业上的数据清洗软件,也有各大学和研究机构开发 的数据清洗软件。目前开发的数据清理工具大致可分为三类。 数据迁移( d a t am i g r a t i o n ) 工具允许指定简单的转换规则,如:将字符 串g e n d e r 替换成s e x 。p r i m e r 公司的( w a r e h o u s em a n a g e r ) 是一个流行的工具, 就属于这类。 数据清洗( d a t as c r u b b i n g ) 工具使用领域特有的知识( 如,邮政地址) 对数 据作清洗。它们通常采用语法分析和模糊匹配技术完成对多数据源数据的清理。 工具i n t e g r i t y 和t r i l l u m 属于这一类。 数据审计( d a t ad u d i t i n g ) 工具可以通过扫描数据发现规律和联系。因此, 这类工具可以看作是数据挖掘工具的变形。 2 武汉理工大学硕士学位论文 1 2 2 国内研究现状 目前国内对于数据清洗技术的研究,还处初级阶段。复旦大学较早地认识 到数据清洗研究的重要价值,并已开始了数据清洗的研究工作,北京大学对数 据清洗也做了一些相关研究,他们主要解决了针对于客户关系管理中客户数据 集成时重复记录的数据清洗问题。东南大学的研究小组也对数据清洗做了一些 研究“1 ,他们主要是针对数据仓库化过程中的数据清洗问题进行研究。 数据清洗问题的重要性是不言而喻的,然而,目前在学术界,它并没有得到 足够的关注。有些人认为数据清洗是一个需要大量劳动力的过程,而且往往过于 依赖特定应用领域,其实不然,在数据清洗系统的灵活框架上仍然有很多东西值 得研究,在异构数据集成中,如何准确地识别相似重复记录,也有很多工作可以 做。当前w e b 数据量迅速增长。对w e b 搜索引擎返回的结果进行清洗也是一个 有价值的问题。随着x m l 数据处理标准的日见成熟,如何定义】( m l 文档的质量 标准以及如何针对x m l 文档的数据清洗,都是值得研究的。 1 2 3 存在的问题 目前,从国内外关于数据清洗的研究现状来看,主要体现在以下几个方面 的不足: 1 i目前数据清洗较多的是针对特定的领域。如银行、保险和证券等对客户 数据的准确性要求很高的行业,都在做自己的客户数据的清洗工作,针 对自己的具体应用开发软件,通用的数据清洗框架并不多见。 2 国产的数据清洗工具较少,对于不完整数据、异常数据的清洗研究较少。 3 检测重复记录的算法受到很大的关注。但是在数据量比较大时,检测效 率和精度不高,耗时多,有待于更好的检测算法。 4 数据清洗的研究主要集中在数据仓库上,许多公司推出了比较成熟e t l 工具,但是针对w e b 数据的清洗工具很少,特别是由于w e b 数据的特点 和x m l 自身所具有的特性,如通用性、自描述性。 5 由于中文与西文不同特点,数据清洗方法有所不同,针对中文数据清洗 没有引起重视。 3 武汉理工大学硕士学位论文 1 3 研究内容及论文的组织机构 本文主要做了以下的研究: 1 提出了两种数据清洗框架,一种是与领域有关的,一种是与领域无关的。 2 研究了不完整数据,异常数据的数据清洗流程和方法。 3 对检测相似重复记录作了研究,包括字段与记录的匹配。 4 针对w e b 数据的特点,提出了相应的数据清洗框架。 本文分为六章,其中第一章是绪论,第二章是数据清洗的相关概念,描述了 数据质量的定义及分类,数据清洗的原理,两种数据清洗的框架。第二章是数 据清洗的相关技术,描述了不完整数据,异常数据和重复记录的清洗方法和流 程。第四章主要介绍了检测重复记录的相关算法,第五章是数据清洗在w e b 信 息集成中的作用,第六章是总结与展望。 4 武汉理工大学硕士学位论文 第2 章数据清洗的相关知识 2 1 数据质量的相关概念 2 1 1 “脏数据”的产生 “脏数据”是指数据不在给定的范围内或对于实际业务毫无意义,或是数 据格式非法,以及错误操作产生等。主要表现为:数据格式错误,数据不一致, 数据重复、错误,业务逻辑的不合理,违反业务规则等。例如,未经验证的身 份证号码、未经验证的日期字段等,年龄超过取值范围,滥用缩写词、数据输 入错误、重复记录、丢失值、拼写变化、不同的计量单位和过时的编码等等。 随着计算机科学技术的发展与普及,数据库的应用范围不断扩大。当前,人 们对信息的需求越来越广泛,这种需求已不仅局限于一个部门内数据库的相互 访问,还涉及到部门之间的数据共享。因此,当今用户所面对的是一个多厂商异 种数据库、异种操作系统和异种网络的环境,异种数据库间互联成为人们越来越 迫切的需求。然而,异种数据库的互联并不容易。对于实际运行的系统来说,有 许多因素都可能产生数据库系统之间的差异性,因在异构数据集成中存在大量 “脏数据”。 2 1 2 数据质量的定义 什么样的数据才是符合标准的,什么样的数据是“脏数据”,有何判断依 据,因此提出了数据质量的概念。目前学术界对数据质量还没有一个固定的一 成不变的定义。 文献 6 以形式化的方法定义了数据的一致性( c o n s i s t e n c y ) 、正确性 ( c o r r e c t n e s s ) 、完整性( c o m p l e t e n e s s ) 和最小性( m i n i m a l i t y ) ,而数据质量被 定义为这4 个指标在信息系统中得到满足的程度。文献 7 提出了数据工程中数 据质量的需求分析和模型,认为存在很多候选的数据质量衡量指标,用户应根据 应用的需求选择其中一部分。指标分为两类:数据质量指示器和数据质量参数, 前者是客观的信息,比如数据的收集时间,来源等,而后者是主观性的,比如数据 5 武汉理工大学硕士学位论文 来源的可信度( c r e d i b i l i t y ) 、数据的及时性( t i m e l i n e s s ) 等。文献 8 提出了 一些数据质量的评估指标。在进行数据质量评估时,要根据具体的数据质量评 估需求对数据质量评估指标进行相应的取舍。但是数据质量评估至少应该包含 以下两方面的基本评估指标。: 1 数据对用户必须是可信的。 可信性包括精确性,完整性,一致性,有效性,唯一性等指标,这些指标 的具体含义如下: 精确性:描述数据是否与其对应的客观实体的特征相一致。 完整性:描述数据是否存在缺失记录或缺失字段。 一致性:描述同一实体的同一属性的值在不同的系统是否一致。 有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。 唯一性:描述数据是否存在重复记录。 2 数据对用户必须是可用的。 其中包括时间性、稳定性等指标。这些指标的具体含义: 时间性:描述数据是当前数据还是历史数据。 稳定性:描述数据是否是稳定的,是否在其有效期内。 2 1 3 数据质量的分类 我们可以将数据源中数据质量问题划分为单数据源和多数据源问题两大 类,每一类又根据模式相关和实例相关两个方面的进一步划分为单数据源模式 层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题“, 如表卜1 所示,并列出了各类中有代表性的数据质量问题。 表1 - 1 数据质量分类表 数据源单数据源多数据源 层次模式层次实例层次模式层次实例层次 产生的原因 缺少完整性约 数据记录错误异构的数据模冗余,矛盾及不一 束式和模式设计致的数据 差的模式设计 数据质量问题违反唯一性和 拼写错误等命名冲突不一致的数据汇总 表现形式 引用约束相似重复记录模式冲突 6 武汉理工大学硕士学位论文 在单数据源中出现的问题在多数据源需要集成时表现得严重得多。每一个 单数据源可能包含脏数据,而且这些单数据源中的脏数据表现形式也可能不同, 交叉或者抵触。这是因为这些单数据源是为了不同的需求开发、配置、维护, 这导致大量的关于数据模式,模式设计和实际数据的异构。在模式级别,数据 模式和模式设计的不同处可以通过模式转换和集成来得到解决。和模式设计相 关的主要问题是命名和结构冲突。命名冲突是当相同的名字被用在不同的对象 ( 同名异物) 或者不同的名字用在相同的对象上( 同物异名) 时产生的。结构 冲突发生在很多变量和对不同来源的同一对象的不同陈述的引用中,例如,属 性与表的表达方式,不同组件结构,不同数据类型,不同集成约束等等。实例 层次上的问题在模式层次上不可见,一些可能的情况如数据拼写错误、无效的数 据值、重复记录等。在本文中,我们主要考虑实例层次上的问题,表2 2 列出 了实例层上数据质量问题的典型例予“”。 表2 - 2 实例层数据质量表 数据质量问题 脏数据表现形式产生的原因 缺少值 s t u n o - - ”录入数据时丢失 拼写错误 c i t y2 w u h a n g ” 录入数据时引起错误,应 “w u h a n ” 不同的缩写 w h u t ”, w h l g d x 都是指武汉理工大学 字段名与值不匹配c i t y = h u b e i ”h u b e i 不是c i t y 相似重复记录 e m p l :n a m e = j o h ns m i t h ” 两个记录对应同一实体 e m p 2 :f l a m e _ - s m i t h 互相矛盾的记录 e m p l :n a m e = ”z h a n g s a n ,n o = 0 1 ” 。 同一实体某属性有不同的值 e m p 2 :n a m e = ”z h a n g s a n ,n o = 0 2 n o 的值相互矛盾 错误的引用 e m p l :n a m c = z h a n g s a n ,c l a s s = 0 3 ”z h a n g s a n 不在0 3 所对应的 班级 7 武汉理工大学硕士学位论文 2 2 数据清洗相关概念 2 2 1 数据清洗的定义 数据清洗( d a t ac l e a n i n g ) ,同时也被称为数据净化d a t as c r u b b i n g ,是为 了改进数据质量而执行从数据中探测并驱除错误和矛盾的过程“”。数据质量问 题出现在单个数据集合中,比如由于在数据输入少拼写,丢失信息或有非法数 据。当多个数据源需要被集合起来,数据清洗的需求就显著增加了。比如,在 数据仓库中,联合数据系统( f e d e r a t e dd a t a b a s es y s t e m s ) 或者基于网络的 全球信息系统。为了提供精确稳定的数据访问,不同数据形式的合并与消除重 复信息很需要。 包含数据清洗过程有三个主要领域:数据仓库,数据库中的知识发现( k d d , 又称为数据挖掘) 和数据信息质量管理( 如,全面数据质量管理t d q m ) “”。下面 分别介绍在这三个应用领域中对数据清洗技术的运用。 在数据仓库环境下,数据清洗是抽取转换装载过程的一个重要部分,要考 虑数据仓库的集成性与面向主题的需要( 包括数据的清洗及结构转换) 。在 k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 中数据清洗主要是提高数据的可利用 性( 去除噪声、无关数据、空白数据域,考虑时间顺序和数据的变化等) ,全面 数据质量管理t d o m 中数据清洗是一个减少错误和不一致性、解决对象识别的过 程“。 数据清洗按照实现方式与范围,可分为4 种“”: 1 手工实现 这是数据清洗的最简单、最基本的方法,即将数据的值与其真实值相比较。 例如,要查清客户数据是否正确,可以每年做一次客户调查,确认其正确的姓 名,地址与工作单位等。当然,这样比较的成本最昂贵,并且比较与真实的差 别对避免将来的错误没有任何帮助。 2 应用程序实现 该方法是通过编写程序检测改正错误,从而避免花时间与实际数据进行比 较。这个方法可推广到多数据库的情形,比较一致的数据就认为是正确的,否 则就是不正确的,需要进一步考查与更正。数据清洗是一个反复进行的过程, 清理程序复杂、系统工作量大。 8 武汉理工大学硕士学位论文 3 解决特定应用域的问题 如根据概率统计学原理查找数值异常的记录,对姓名、地址、邮政编码等 进行清洗,这是目前研究得较多的领域,也是应用最成功的一类。这种方法要 利用专家知识和人工智能的有关知识。 4 与应用领域无关的数据清洗 这一部分的研究主要集中在缺失值处理和重复值处理。 2 2 2 数据清洗的方法 1 “脏数据”检测方法 “脏数据”检测用来发现各种脏数据,它是数据源预清洗中最有挑战的工 作,要求正确、全面和高效地找出各种脏数据。脏数据检测可以使用以下方法: ( 1 ) 基于数理统计的方法:利用契比雪夫定理、极大似然原理等来检测脏数据, 检测速度快,但是准确性较差 ( 2 ) 模式识别的方法:基于数据挖掘和机器学习算法来查找异常数据,主要牵涉 关联规则算法。 ( 3 ) 基于距离的聚类方法:也是基于数据挖掘中的算法,聚类的评测标准为欧几 里德距离或者e d i t 距离,常用于发现相似重复纪录 ( 4 ) 基于元数据的检测方法:利用预定义的检测规则来查找脏数据,它是异构数 据源集成中常常采用的脏数据检测方法。 2 解决不完整数据的方法 大多数情况下,缺失的值必须手工填入( 即手工清理) 。当然,某些缺失值 可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值 或更为复杂的概率估计代替缺失的值,从而达到清理的目的。 3 错误值的检测及解决方法 用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守 分布或回归方程的值,也可以用简单规则库( 常识性规则、业务特定规则等) 检 查数据值,或使用不同属性问的约束、外部的数据来检测和清理数据。 4 重复记录的检测及消除方法 数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值 是否相等来检测记录是否相等,相等的记录合并为一条记录( 即合并清除) 。合 并清除是消除重复记录的基本方法。 9 武汉理工大学硕士学位论文 5 不一致性( 数据源内部及数据源之间) 的检测及解决方法 从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一 致性,也可通过分析数据发现联系,从而使得数据保持一致。 若将数据清洗的方法模型与任务实例组合起来,则可以清晰地构建出一个 多维度的过程方法链接,即对于每一个阶段任务,都有相应的一种或多种方法实 例为之服务,从而得到数据清洗过程方法模型,如表2 - 3 所示“”。 表2 3 数据清洗过程的方法模型 数据清洗的任务实例 方法采用的技术对应的算法 数据标准化 正则表达式日期规范化等正则表达式 缺值处理 s q l 方法 s o l具体s q l 语句 噪声数据处理 统计方法契比雪夫定理等契比雪夫定理算法 数据删除 模式方法 k - m e a n 模式算法 归并与切割 专家系统 关联规则推理算法 聚集 遗传神经网络适当度函数遗传算法 数据冲突检测预处理 聚类方法欧几里德距离聚类算法 c a n o p y 技术 c a n o p y 算法 粗糙集理论 重要性量度粗糙集算法 表2 3 中的一个任务实例可采用多个方法,如噪声数据处理就可采用s q l 方法,统计方法,专家系统,聚类方法,粗糙集理论。 2 3 数据清洗的基本流程 基于上面我们对数据清洗的讨论,我们可以将数据清洗的过程分成以下几 个阶段。数据清洗过程主要包括数据预处理,确定清洗方法,校验清洗方法, 执行清洗工具和数据归档5 个阶段。每个阶段还可以再细分若干任务。这5 个 阶段可以描述为: 1 数据预处理。在数据清洗的最初阶段,往往是对数据进行预处理,以检查 数据源的记录是否存在各种问题,并得出有关特征。这个阶段包括数据 元素化( e l e m e n t i z i n g ) ,标准化( s t a n d a r d i n g ) 等。 2 确定清洗方法。根据数据源的特点,确定相应清洗方法。 1 0 武汉理工大学硕士学位论文 3 校验清洗方法。在正式执行清洗之前,先要验证所用的方法是否合适。 往往是从数据源中抽取小样本进行验证,判断其召回率和准确率,如果 没有达到要求,还需要对清洗方法进行改进。 4 执行清洗工具或程序。经过校验的清洗方法,其算法经编程后,得到可执 行的清洗程序然后对数据源执行清洗操作。 5 数据归档。数据清洗的执行中和执行后往往还需要人工操作,将新旧数 据源分别做归档处理,这样可以更好地进行后续的清洗过程。 2 4 数据清洗的框架 2 4 1 与领域无关的数据清洗框架 元数据是指“关于数据的数据”,指在数据清洗过程中所产生的有关数据 源定义,目标定义,转换规则等相关的关键数据。图2 1 给出的数据清洗框架 就是以元数据为基础的,元数据在数据清洗的过程中包括以下几个组件“。 1 基本组件 该功能主要是对源数据的特征进行描述,它包括:可以提供源数据的数据 库名,数据库编号,这些数据库的表及表的编号,表中的属性及属性的编号。 2 清洗规则组件 数据质量规则定义了源数据中的质量问题和数据清洗规则。它包括了错误 数据表,含有错误类型编号,错误表现形式,可能的修改规则编号等。转化公 式表,含数据格式之间的转换公式。同时,这个组件还包括一张数据清洗规则 表,含有可能清洗规则的定义等。 3 数据加载组件 数据加载组件是用于确定异构的源数据什么时候将什么数据加载到目的数 据库中。它包括输出模型表,反映了清洗后的数据到目的数据库之间的映射等。 武汉理工大学硕士学位论文 图2 - 1 与领域无关的数据清洗框架 与领域无关的数据清洗框架由3 个工作流构成“”。具体清洗过程说明如下: 1 数据分析工作流 分析所要清洗的数据源,定义出数据清洗的规则,并选择合适的清洗算法, 使其能更好地适应所要清洗的数据源。 2 数据清洗工作流 把数据源中需要清洗的数据通过接口调入到中间数据库中来。调用算法库 中的相应算法对数据源进行预处理,如数据标准化,并根据预定义的规则,把 数据记录中的相应字段转化成同一格式。然后,分步执行数据清洗,其清洗过 程一般为:首先清洗错误数据、然后清洗不完整数据清洗,最后相似重复记录。 武汉理工大学硕士学位论文 3 清理结果检验工作流 数据清洗运行结束后,在系统窗口中显示出数据清洗结果,根据清洗结果 和警告信息,手工清洗不符合系统预定义规则的数据、处理未清洗的数据,从 而完成系统的数据清洗。此外,通过查看数据清洗日志,可以检验数据清洗的 正确性,对清洗错误进行修正。 2 4 2 基于领域知识的数据清洗框架 与领域知识相关数据清洗的一定要结合应用领域的知识。例如:在数据清洗 中利用何种形式来表示领域知识,怎样抽取,验证,优化知识,什么类型的知识 适合于数据清洗,如何管理知识,等等“”。 教据加载阶段 图2 - 2 与领域有关的数据清洗框架 武汉理工大学硕士学位论文 本文提出了如图2 2 所示的一个基于知识的数据清洗框架,它在领域知识的 指导下从样本数据中抽取,验证知识,然后通过专家系统引擎对整体数据进行清 洗,对于系统不能处理的数据,通过用户参与进一步处理。同时,系统可以通过机 器学习的方法不断修改和优化规则库,以后碰到类似情况时,它就知道怎样做出 相应的处理了。这个框架包含四个阶段“7 1 : 1 规则生成阶段 在这个阶段,首先要生成一个样本数据集,样本数据集是从整个数据库中抽 取出的- - d , 部分样本数据,在此基础上通过专家的参与产生规则库。在得到初步 的规则之后,把它们应用到样本数据集上,通过观察中间结果,可以进一步修改 已有规则,或者添加新的领域知识,如此反复,直到对所得结果满意为止。在这个 过程中,可以用机器学习或者统计学技术来帮助建立规则,降低所需的人工分析 工作量。 z 预处理阶段 在这一阶段,根据生成的预处理规则纠正我们能检测到的所有异常。基本的 预处理包含: 1 ) 数据类型检测; 2 ) 数据格式标准化; 例如,对日期格式“0 1 1 2 0 0 4 ”,“1j a n u a r y2 0 0 4 ”要转化成一个标准 化格式,性别中的“o 1 ”和“男女”也要标准化。可以通过外部函数完成这 样的转换。 3 ) 解决数据中不一致的缩写 可以用查找表完成这样的转换,转换通常与领域知识有很密切的联系。例如 在“公司地址”属性中的“鄂”或“耶”转换为统一“湖北省”格式,一个两 列的查找表通常包含数据的缩写形式和它的标准化等价形式。 这一阶段将输出一个满足一定条件的记录集合,而它将作为下一步处理的 输入。这个阶段所做的预处理是可扩展的,针对不同的数据清洗种类会有不同的 内容。 3 处理阶段 满足一定条件的预处理后的数据接着流入带有一个规则库的专家系统引擎, 典型的规则包括“7 1 : 脏数据检测规则:这些规则指确认脏数据的条件。 1 4 武汉理工大学硕士学位论文 重复数据检测合并规则:这些规则指定如何检测合并重复数据,一个简单 的合并规则是在一组重复的记录里面,保留最近使用记录而把其余的记录删除 掉。 错误数据更正规则:这些规则指定在特定的情况下改正脏数据的方法。例如: 在一个学生表中,如果一个学生的入学时间属性由于错误的输入由2 0 0 0 变成了 2 0 0 0 0 ,更正规则应根据该学生的其它属性判定其学生群体,根据其所在群体的 特征更正为其最可能的正确值。 当预处理过的数据流入专家系统引擎后,便激发这些规则。规则库是可扩展 的,针对不同的业务需求将会包含不同的规则。 规则库中含有系统日志,用来跟踪记录处理阶段所有的操作及其原因,通过 检查日志进行一致性和准确性检查,一旦发现错误还可以撤销错误的数据清洗, 还可应用它来检查规则库的有效性,如果一个规则经常错误的归类重复记录,或 者错误的修改值,那么就应该删除或修改此规则。 4 数据加载阶段 通过数据加载规则,把清洗后的数据加载到目的数据库中。 2 4 3 清洗规则的描述和执行 在整个数据清洗的体系框架中,无论是元数据库中定义规则还是规则库中 的规则,规则的定义与执行是数据清洗的主线。在清洗框架中,对于清洗规则的 执行,既可采用批量执行,也可采用即时执行。批量执行对整体来说执行速度较 快,但是即时执行交互性更好,清洗质量一般也较高。 这里的数据清洗规则由用户定义,一个比较完整的规则用户需要完整表述 清洗范围,检查条件和处理方法。例如相似重复记录规则,规则应有初始形式 如下“”: 清洗规则的类型:相似重复记录; 判断条件; 需要清洗的记录集名( 初始为空) ; 需要清洗的字段名( 初始为空) ; 清洗策略; 重复记录处理策略; 武汉理工大学硕士学位论文 相似重复记录可以采用自动匹配检测。在程序自动匹配发现相似重复记录 时,自动产生规则,填写规则中的部分项。例如在进行相似重复记录的合并时,对 于可以自动处理的,规则中可以预先定义处理策略,如两条记录之间没有信息互 补关系,表示的信息内容完全一样,这样就可以直接删除其中一条即可,否则,应 该交由用户手工处理。 2 5 数据清洗的评价标准 数据清洗过程应能检测出并解决单数据源中或者多数据源集成过程中存在 的主要的数据质量问题,若仍然不能满足数据质量要求,可进行多次清洗。 能否高效地处理大批量的数据,提高数据质量,满足用户对数据的要求, 这是评价数据清洗效果的主要标准。数据质量评价按表2 4 所示的数据质量评 估准则进行。 表2 - 4 数据质量评价准则表 评价目的评价准则 正确性是否反映了真实可靠的数据 完整性数据的属性是否完整,有无空值 一致性 数据的模式或定义是否一致 唯一性数据是否具有唯一性,数据的重复率较小 有效性数据值误差是否在可接受的范围内,错误的 概率小。 2 6e t l 与数据清洗 2 6 1e t l 简介 e t l 即数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、装载( l o a d ) 的过程。它 是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时 间不断变化的数据集合,用以支持经营管理中的决策制定过程。 1 6 武汉理工大学硕士学位论文 1 数据抽取: 数据抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据 定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取 的定义。确定如何抽取或者查询源数据并非易事,因为它往往存储在多个地方。 比如关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民族教育课件
- 网点改革中的新质生产力
- 2025年整形美容科手术术前术后护理评估答案及解析
- 2025年风湿免疫学综合诊疗专项试题答案及解析
- 2025年口腔医学实践技能与理论知识检测答案及解析
- 2025年疼痛管理规范用药操作技能考核答案及解析
- 静定与静不定的概念
- 2025年整形美容科学原理试卷答案及解析
- 2025年呼吸科医生执业能力评估模拟试卷答案及解析
- 2025年儿科常见疾病诊断与治疗实践考核答案及解析
- 湖南省衡阳市2022-2023学年六年级下册数学期末测试试卷(含答案)
- 高中定语从句100题(含答案)
- 计量器具设备管理制度
- 事业单位工作人员调动申报表
- 农村干部任期经济责任审计所需资料
- 商场超市火灾防范措施
- PVC地板卷材施工方案
- 能源电力行业团队建设工作方案
- 三腔导尿管的护理
- 专题5.初中英语仁爱版单词表(按单元顺序)(七年级至九年级)中考英语词汇过关(默写版)
- 小学体育教案一年级上册教案全册
评论
0/150
提交评论