(计算机应用技术专业论文)数据清洗及其在宝钢计划值系统中的应用.pdf_第1页
(计算机应用技术专业论文)数据清洗及其在宝钢计划值系统中的应用.pdf_第2页
(计算机应用技术专业论文)数据清洗及其在宝钢计划值系统中的应用.pdf_第3页
(计算机应用技术专业论文)数据清洗及其在宝钢计划值系统中的应用.pdf_第4页
(计算机应用技术专业论文)数据清洗及其在宝钢计划值系统中的应用.pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

(计算机应用技术专业论文)数据清洗及其在宝钢计划值系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据清洗及其在宝钢计划值系统中的应用 摘要 随着企业信息化的进程逐步加快,企业经营数据的管理 呈现越来越多的困难。根据“进去的是垃圾,出来的也是垃 圾”这条原理,为了支持正确决策,就要求管理的数据必须 可靠,没有错误,准确反映企业的实际情况。因此,企业数 据质量的管理受到越来越多的关注,本文主要从数据清洗的 角度进行探讨。 宝钢集团实施的计划值系统通过对基础数据( 包括历史 值和当前值) 的整理分析,结合实际预测未来值( 即计划值 的预计值) ,在跟踪分析实际值与预计值的差异原因的基础 上,找出改进管理的方向,实施管理循环。因此,计划值管 理为各项管理提供了完善管理的手段,是提高各项基础管理 的有效方法,也是实施例外管理的很好平台。但其所依赖的 基础数据存在精度过粗的问题,影响系统的正常运行,必须 应用数据清洗技术对其基础数据进行清洗处理,以解决大量 脏数据存在的问题。 本文主要从以下四个方面对数据清洗技术及其在宝钢 计划值系统中的应用做了详细的分析和研究。 第一是对数据清洗技术进行了概述,阐述了数据清洗的 来源和定义,具体介绍了数据清洗时遇到的数据质量问题以 及清沈的步骤,最后详细介绍了一种基于n g r a m 的聚类算 法。 第二是讨论了宝钢计划值系统项目需求设计及部分相 关的开发设计,讨论了其中的技术难点、关键技术,针对集 团内部存在脏数据问题的特征,介绍了s a s 软件中相关功能 支持的优越性,在其数据仓库系统中有专门的机制进行引入 数据的检查、核对和将不同来源数据进行整合的技术环节, 它为计划值系统中要求的数据清洗工作提供了最有力的支 持。 第三是在宝钢计划值系统中应用s a s 软件先进行了一 系列简单的数据清洗工作,然后实现了一种基于欧氏距离的 聚类算法,结果表明这种算法能够满足宝钢计划值系统项目 现阶段的基本要求,较好地解决了基础数据中大量重复记录 问题。 最后本文根据目前的发展状况,提出了一些数据清洗技 术的研究方向,数据清洗的易操作性、有效性、可扩展性和 通用性等几个方面都有待我们去研究和探索。 关键词数据清洗,数据仓库,计划值,聚类分析 d a t ac l e a n i n ga n d i t sa p p l i c a t i o n i n t h ep l a n n i n g l u es y s t e m o f b a o s t e e lg r o u pc o r p o r a t i o n a b s t r a c t a l o n g w i t ht h e s p e e d i n gu po f t h ei n f o r m a t i o n - b a s e d p r o g r e s si ne n t e r p r i s e s ,t h em a n a g e m e n t o ft h ee n t e r p r i s e s w o r k i n gd a t aj sg e t t i n gm o r ea n dm o r ed i f f i c u l t a c c o r d i n gt o t h er u l eo f “g a r b a g ei n ,g a r b a g eo u t ”,i no r d e rt op r o v i d et h e s u p p o r tf o rt h ed e c i s i o n - m a k e r ,t h e d a t ao fm a n a g e m e n t m u s tb ea c c u r a t ea n dr e p r e s e n tt h er e a ls t a t u so ft h e e n t e r p r i s ea c t u a l l y ,s om o r ea n dm o r ep e o p l eb e g i nt op a y a t t e n t i o nt ot h em a n a g e m e n to fe n t e r p r i s ed a t a t h i sp a p e r m a i n l yd e a l tw i t ht h em a n a g e m e n t o f e n t e r p r i s ed a t af r o ma d a t ac l e a n i n gp e r s p e c t i v e t h ep l a n n i n 口v a i u es y s t e m i m p l e m e n t e d i nb a o s t e e l g r o u pc o r p o r a t i o nd e p e n d s o nt h ea n a l y s i so ft h ef o u n d a t i o n d a t ai n c l u d i n gt h eh i s t o r yd a t aa n dt h er e a i - t i m ed a t a ,t h e c l e a n i n gu po fg a r b a g ed a t aa n dt h ea c t u a ie s t i m a t e dv a i u e f t h ep l a n n i n gv a i u e se s t l m a t e dv a i u e ) b a s e do na n a i y z i n g t h er e a s o no ft h ed i 仟e r e n c eb e t w e e nt h ea c t u a iv a l u ea n dt h e e s t i m a t e dv a i u e i tc a nf i n do u tt h ed i r e c t i o nt oi m p r o v et h e m a n a g e m e n ta n dh e i pt ol m p l e m e n tt h em a n a g e m e n tc y c l e t h e r e f o r e 。t h ep l a n n i n g v a l u e m a n a g e m e n tp r o v i d e s a n e f f e c t i v em e a n sf o rv a r i o u sm a n a g e m e n t s ,av a l i dm e t h o dt o r a i s et h ee f f i c i e n c i e so fv a r i o u sf o u n d a t i o n m a n a g e m e n t s a n dag o o dp i a t f o r mt o m p l e m e n te x c e p t i o nm a n a g e m e n t b e c a u s et h ef o u n d a t i o nd a t ah a v es om a n yp r o b l e m si n a c c u r a c yw h l c hw j i ia f f e c tt h en o r m a lf u n c t i o no ft h ep l a n n i n g v a l u es y s t e m ,i ti sn e c e s s a r yt ou s ed a t ac l e a n i n gt e c h n i q u e s t or e s o l v et h ep r o b l e mo fd a t ab e f o r ei tp u ti n t ou s e 。 t h i sp a p e rh a dad e t a i l e da n a i y s i sa n dr e s e a r c ho nt h e t e c h n i q u eo fd a t ac l e a n i n ga n di t sa p p l i c a t i o ni nt h ep l a n n i n g v a l u es y s t e mo fb a o s t e e lg r o u p c o r p o r a t i o na n dw a sd i v i d e d i n t ot h ef o l l o w i n gf o u rp a r t s t h ef i r s t p a r tj u s tg a v e u sas u m m a r i z a t i o no ft h e t e c h n i a u eo fd a t a c l e a n i n g i te x p l a i n e d t h e o r i g i n a n d d e f i n i t i o no fd a t a c l e a n i n g t h e n i t g a v e u sa c o m p l e t e i n t r o d u c t i o nt ot h ed a t aq u a i i t yp r o b l e m sw h i c hw ec o u i d m e e tw i t ha n dt h ec o m m o n s t e p so f d a t ac l e a n i n g i nt h ee n d , a na i g o r i t h mo fc l u s t e r i n g ,b a s e do nt h en - g r a m ,w a s e x p l a i n e di nd e t a i l t h es e c o n dp a r td i s c u s s e dt h er e q u i r e m e n ta n a i y sj sa n d d a r to fr e l a t e dd e v e l o p m e n td e s i g no ft h e p l a n n l n gv a i u e s y s t e m i nb a o s t e e i g r o u pc o r p o r a t i o n i td i s c u s s e dt h e d i 仟i c u l t i e s 、t h e k e yt e c h n i q u e sa n dt h e c h a r a c t e r i s t i c so f i n n e r d i r t y d a t ai nt h e s y s t e m i t a l s o e x p l a i n e d t h e s u p e r i o r i t yo fr e l a t e df u n c t i o ns u p p o r ti n t h es a ss o f t w a r e w h o s ed a t aw a r e h o u s i n gs y s t e mh a das p e c i f i cm e c h a n i s mt o s u p p o r t t h ec h e c k i n go ft h eo u t e rd a t aa n dt h ei n t e g r a t i n go f v a r i o u ss o u r c ed a t a 。t h es a ss o f t w a r ei sag o o d h e l p e rt ot h e w o r ko fd a t ac l e a n i n gw h i c hr e q u i r e db yt h ep l a n n i n gv a l u e s y s t e mi n b a o s t e e ig r o u pc o r p o r a t i o n t h et h i r dp a r te x p o u n d e das e r i e so fw o r kw h i c hu s i n g t h es a ss o f t w a r et o i m p l e m e n t t h e o p e r a t i o n o fd a t a c l e a n i n g 。t h e n ,b a s e do nt h ee u c l i d e a nd i s t a n e e ,i tr e a i i z e d a na l g o r i t h mo f c l u s t e r i n g t h er e s u l to ft h ew o r kp r o v e dt h a t t h i s a l g o r i t h m c o u l dm e e tt h eb a s i c r e q u i r e m e n t so ft h e p l a n n i n g v a i u e s y s t e mi m p l e m e n t e d i nb a o s t e e l g r o u p c o r p o r a t i o n ,a n d c o u i dw e l ir e s o l v et h e p r o b l e m o fd a t a d u p l i c a t e ,w h i c hb a d l ye x i s t e di nt h ef o u n d a t i o nd a t a i nt h ee n d ,i t p u tf o r w a r ds e v e r a id i r e c t i o n so nd a t a c l e a n i n gw o r t h y o fo u r r e s e a r c h 1 n c l u d i n g t h e e a s y o p e r a b i | i t y ,t h ev a l i d i t y ,t h ec o m p a t i b i l i t ya n dt h e g e n e r a j i z a t i o no fd a t ac l e a n i n a k e yw o r d sd a t a c l e a n i n g ,d a t aw a r e h o u s i n g ,p l a n n i n g v a l u e ,c l u s t e r i n g 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位 论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除 文中己明确注明和引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:如 ;| i r 仅 日期:晖年,;月 日 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本版权书。 不保密匹 学位论文作者签名:l 音讯奴 日期:、年月( 日 指导教师签名:多查仁 日期:一叮年,月夕日 1 1 项目背景 第一章引言 对于企业来说,计划从来都是承担确定企业目标和配置资源的重 要管理职能。宝钢作为引进的现代化钢铁企业,在吸收国外管理经验 的基础上,根据中国的国情和宝钢的实际情况,已形成完整的各项管 理计划( 预算) 体系。但在公司整体产销系统上线以前,公司各部门 的数据产生和管理处于信息孤岛状态,受管理手段的限制,计划值所 能跟踪到的实际数据和编制的计划值项目都存在精度过粗的问题,这 使得计划值编制项目精度亟待得到提高。 计划值系统通过对历史值的整理分析,结合实际预测未来值( 即计 划值的预计值) ,在跟踪分析实际值与预计值的差异原因的基础上,找 出改进管理的方向,实施管理循环。因此,计划值管理为各项管理提 供了完善管理的手段,是提高各项基础管理的有效方法,也是实施例 外管理的很好平台。 宝钢般份原有的计划值系统是建立在微机平台上的,由于软硬件 的限制,老的计划值系统已经不能满足计划值管理的需要。同时由于 管理手段比较落后,使得绝大部分生产、作业数据无法收集,造成计 划值项目细分工作推进困难( 不能按钢种、品种、规格细化) ,制约了 计划值的推广应用。如因为缺少分钢种、品种、规格的消耗标准作支 撑,编制预算、计划时还无法解决品种结构对指标的影响,每月对指 标实绩进行分析时也难以将结构影响定量化,从而不能有效指导生产 持续改进。原有的计划值管理缺乏一个标准化的巩固过程,管理体系 不健全、不完整,没有形成p - - d - - c - - a 闭环。因此计划值系统的发展 受到了自身条件的限制,已经无法体现计划值系统的管理精神。 随着宝钢集团企业级服务器的建成、各生产单元l 2 、l 3 系统的顺 * j j g 产运行以及各子公司数据仓库系统相继上线,宝钢基础数据的收 集手段发生了根本性的变化,给计划值管理的推进带来了良好的契机。 新的计划值系统是建立在公司企业级数据仓库系统之上的,所采 用的源数据来源于宝钢内部各部门及子公司。首先,由于信息化发展 历史原因,企业中有大量数据存在于不同时期、不同部门搭建的信息 系统或者数据库中;其次,出于宝钢集团内各钢铁主业子公司的遗留 系统多,缺乏统一的数据分析平台,各子公司甚至公司内各部1 7 采集 到的数据或部分人工采集数据存在着异型( 数据模型不同) 、异构( 数 据模式不同) 、异形( 数据表示不同) 的问题。因此,在将以上各个源 数据集成合并的过程中,目前的现存管理系统以及各子公司收集的数 据之间存在较多的问题,容易造成脏数据,主要原因如下:滥用缩写 词、惯用语、数据输入错误、重复记录、丢失值、拼写变化、不同的 计量单位和过时的编码等。这些脏数据流入到数据仓库中极有可能带 来如操作费用昂贵、决策制定错误甚至于失败、组织和下属的不信任、 分散管理的注意力等等,影响计划值系统的正常运转。因此针对脏数 据的有效处理是实施计划值系统的必要步骤。而数据清洗处理可以有 效的清除脏数据、保证数据的质量。 1 2 数据清洗的研究现状 数据清洗主要在数据仓库( d a t aw a r e h o u s e ) 、数据库中的知识发 现( k d d ) 和总体数据质量管理( t o t a l d a t a q u a l i t ym a n a g e m e n t , t d q m ) 这三个领域应用。数据清洗处理是构建数据仓库的第一步,鉴 于数据的海量,不可能进行人工处理,因此自动化数据清洗受到工业 界的广泛关注。目前提出的自动数据清洗的概念框架为:定义和判断 错误类型;查找并标示错误实例:修改没有发现的错误。但是,又由 于这个问题比较凌乱而显得难以采用通用的方法进行处理。 国内关于数据仓库领域的研究目前都是以理论研究为主,较少涉 及实例层次的研究。上海交通大学模式识别和智能系统专业有位博 士对数据处理进行了研究,重点在于挖掘中的数据处理,结合领域背 景知识构建专家系统,处理了数据挖掘中的不确定性;对于前期的数 据准备主要侧重于数据离散化,数据清洗只讨论了对空值等儿种单一 数据源问题的处理。复旦大学数据挖掘研究组,构建了自己的数据仓 库平台,并在此基础上进行数据挖掘;该研究组对数据清洗也有相当 程度的研究。 现在国外的相关研究主要包括以下几个方面o j : 一、提出高效的数据异常检测算法,来避免扫描整个庞大的数据 集; 二、在自动检测数据异常和进行清洗处理的步骤之间增加人工判 断处理,来防止对正确数据进行错误处理; 三、数据清洗时对数据集文件的并行处理: 四、如何消除合并后数据集中的重复数据; 五、建立一个通用的领域无关的数据清洗框架: 六、关于模式集成问题。 在脏数据清洗算法上,一些研究机构提出了:脏数据的预处理、 排序邻居方法、优先排队算法、多次遍历数据清理方法、增量数据清 理、采用领域知识进行清理、采用数据库管理系统的集成数据清理等 算法。他们对于数据清洗算法的有效性的度量标准是口】: 返回率( r e c a l l ) :重复数据被正确识别的百分率; f a l s e p o s i t i v ee r r o r :错误地作为重复数据的记录的百分比: 精确度( p r e c i s i o n ) :算法识别出的重复记录中正确的重复记录的百 分比,计算公式:p r e c i s i o n = 1 0 0 一f a l s e p o s i t i v e e r r o r 。 目前,有多种数据清洗的商业工具用来支持数据检测和数据清洗 转换【“,尤其是针对数据仓库方向的。它们一般主要有两种形式:检 测异常数据的工具以及数据转换工具( 针对异常数据的清洗) 。其中数 据分析工具可以分为提取轮廓和数据挖掘两种。m i g r a t i o na r c h i t e c t ( e v o k e s o f t w a r e ) 是一种数据轮廓分析工具,对于每个属性,产生下列 实际的元数据:数据类型、长度、离散的值以及它们的比例、最小值 最大值、以及唯一性。同时它也为数据转换提供目标图表。数据挖掘 工具,比如w i z r u l e ( w i z s o f t ) 可以展现三种规则:算法模式、i f - t h e n 规则、基于拼写规则标志的错误姓名。i n t e g r i t y ( v a l i t y ) 使用某些模式 和规则来定义和完成数据清洗转换,它进行一些语法分析、数据类型 模式和出现频率分析,其中还有一些语言规则,包括一些列操作( 比 如:移动、拆分、删除) 和行操作( 比如合并、拆分) 。还有其它一些 特殊的数据清洗工具和e t i 。工具。 这些数据清洗工具普遍存在的问题是缺少易操作性和需要大量的 用户编程工作。s a s 软件公司的基于w i n d o w s 平台的统计软件s a s 8 2 较为成功地解决了这些问题。它基于d b m s 来建立一个存储区,用统 一的方式管理元数据,这些元数据关系着源数据、目标表、映射、描 述语言等等,具有操作用户界面友好、编程简单的优点。 1 3 论文研究的意义 众所周知,数据仓库和知识发现已经从理论走向了实际的应用, 世界5 0 0 强企业中有9 9 使用了数据仓库进行信息辅助管理。而数据 清洗保证信息源的数据质量,从而保证了辅助管理的正确性和有效性, 没有数据清洗,很可能导致错误的结果。因此数据清洗是构建数据仓 库和知识发现的必要因素。宝钢集团在实施企业内部计划值系统的过 程中,如果在没有进行很深刻的数据正确性分析的前提下,就盲目地 进行开发、集成,造成的后果不仅是数据仓库创建失败的经济损失, 更有可能直接导致计划值系统开发的失败,甚至造成重大的决策失误。 针对集团内部现存管理系统以及各予公司收集的数据之间存在较 多的问题,本文根据项目的具体情况提出了有针对性的解决方案,并 在实际的项目应用中取得了较好的效果。首先应用统计软件s a s 进行 简单的数据整理、数据组合工作,基本解决了脏数据集中一些常见的 错误,比如:滥用缩写词、惯用语、数据输入错误、丢失值、拼写变 化、不同的计量单位和过时的编码等。对于源数据集中的大量相似重 复记录,本文实现了一种基于欧氏距离的聚类算法,该算法能够适应 常见的拼写错误从而较好地聚类重复记录。在该项目中,利用s a g 编 制的实现了该算法的程序代码,较好地解决了源数据集中的大量重复 记录的问题,取得了满意的效果。 1 4 论文工作介绍 论文比较系统、完整地分析和论述了数据清洗技术及其在宝钢集 团计划值系统中的实际应用。着重研究了使用s a s 软件实现对源数据 中各种脏数据进行清洗的具体环节,对其中一般的常见错误数据,利 用s a s 软件易操作性的特点给予逐一解决;针对源数据集中的大量相 似重复记录,本文实现了一种基于欧氏距离的聚类算法来进行处理, 并将该实现代码成功应用到计划值系统中。根据论文研究的目的,本 人主要做了以下几个方面的工作: 1 研究了数据清洗技术当前国内外的研究重点和研究现状。 2 探讨了数据清洗技术的思想、方法和策略,讨论了整个数据清 洗系统的实现步骤,清洗方法。讨论了一种基于n g r a m 的聚 类算法。 3 重点讨论了宝钢计划值系统项目需求设计及部分相关的开发设 计,讨论了其中的技术难点、关键技术。针对集团内部存在脏 数据问题的特征,介绍了s a s 软件中相关功能支持的优越性。 4 详细研究了数据清洗技术在计划值系统中的具体应用,应用统 计软件s a s 进行简单的数据整理、数据组合工作,基本解决 了脏数据集中一些常见的错误。 5 实现了一种基于欧氏距离的聚类算法,较好地解决了源数据集 中的大量重复记录的问题。 6 对数据清洗技术的研究方向进行了分析,对论文工作进行总结 并提出了今后工作的方向。 1 5 论文的组织 全文共分六个章节,具体组织安排如下: 第一章引言:简要介绍了本论文的课题背景、研究现状、研究意 义,以及论文的主要工作。 第二章数据清洗技术:在评述了数据清洗的基础上,进一步地讨 论了其实现的过程、难点以及应用。 第三章宝钢计划值系统与s a s 8 2 :介绍了该项目的需求分析及 部分相关的开发设计,指出了项目进行中面临的困难,分 析了相应的解决方法,介绍了s a s 软件中常用的相关功 能模块。 第凹章数据清洗在计划值系统中的应用:应用统计软件s a s 进 行简单的数据整理、数据组合工作。 第五章一种基于欧氏距离的聚类算法:实现了一种基于欧氏距离 的聚类算法,较好地解决了源数据中大量重复记录问题。 第六章总结:对论文的:亡作进行总结并给出进一步的工作计划。 第二章数据清洗技术 2 1 数据清洗的来源 信恳作为现代企业的宝贵资源,占据着越来越重要的地位,成为 科学管理的基础,正确决策的前提,有效调控的手段。目前大多数单 位根据自己的业务特点和办公的需要,建立了一大批各自的业务处理 系统和办公自动化系统,积累了大量的业务数据。目前,信息化建设 呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发 展趋势,而大多数由过去遗留下来的异构的系统、应用、商务流程以 及数据源构成的应用环境已经不能满足这样的需求。要求立足于多年 积累的数据和自身的核心业务,提出了建立数据仓库的规划和实施方 案。 对于创建数据仓库及其后续工作,如数据挖掘等。都需要数据的 正确性( c o r r e c t n e s s ) 、一致性( c o n s i s t e n c y ) 、完整性( c o m p l e t e n e s s ) 和可靠性( r e l i a b i l i t y ) 【5j ,而当多数据源集成到数据仓库中时,数据 大都存在很多的问题,容易造成或产生脏数据,主要原因如下:滥用 缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化、不 同的计量单位和过时的编码等。这些脏数据可能带来如操作费用昂贵、 项目制定错误甚至数据仓库构建失败等等,最终都可能导致决策制定 失败。因此针对脏数据的有效处理是进行数据集成前的必要步骤,而 且必须找到一种高效的数据清洗处理算法,才能在各种海量数据集中 有效的清除脏数据、保证数据的质量。 2 2 数据清洗的定义 数据清洗,也称数据准备或者数据预处理,它通过识别源数据中 存在的错误或是不一致的数据记录,并对其进行移除或者修正处理, 来保证集成到数据仓库中数据的质量 6 】。列于一般的单一数据集,如 文档文件或是数据库文件,数据质量问题般是由于主键缺失、拼写 错误以及其它一些收集到的非法格式数据等造成的,这些问题处理起 来比较容易。当多数据源集成到数据仓库这种需求越来越多时,对这 些异型、异构、异形的数据进行清洗: 作成为必需,难度也越来越大。 数据清洗主要分为检测和清洗两个步骤。目前国内外相关的研究 主要有以下几个方面【i ,2 j ; l 、提出高效的数据异常检测算法,来避免扫描整个庞大的数据集: 2 、在自动检测数据异常和进行清洗处理的步骤间增加人工判断处 理,来防止对正确数据的错误处理; 3 、数据清洗时对数据集文件的处理: 4 、如何消除合并后数据集中的重复数据: 5 、建立一个通用的领域无关的数据清洗框架 6 、关于模式集成的问题。 2 3 数据质量问题 首先应当知晓数据的质量问题所在,对症下药,才能解决数据质 量问题。数据质量很大程度上依赖于模式和完整性约束控制许可的数 据值。对于那些没有模式的数据源,如文件系统缺少限制以致任何数 据可以转换和存储,发生错误和不一致的概率较高。数据库系统则增 强了数据类型、数据值、完整性约束等限制,但是也有可能因为模式 设计不好,输入错误等出现数据质量问题,使得它也需要清理。 文献【6 将数据质量问题分为四类:单数据源模式层问题、单数据 源实例层问题、多数据源模式层问题和多数据源实例层问题。图2 1 表示了这种分类,并且分别列出了每一类中典型的数据质量问题。 ;referentialinte盯it,簇懿蛐曾:-掣hamngcoxdlictscontrad,ictoxxyvalues w i i n c o n s i i s t e n t t e n t 卿t i x n 岖船g u 数据质量问题,单数据源问题,多数据源问题,模式层实例层, 缺少 完整性约束,糟糕的模式设计,数据记录的错误,异质的数据模型和模式设计, 冗余、互相矛盾或者不一致的数据,唯一性约束,o d 引用约束,o 毋拼写错误0 毋相似 重复记录,0 0 互相矛盾的字段,命名冲突,o 回结构冲突,0 刁不一致的汇总,0 毋不一致 的时间选择。 图2 1数据质量问题的分类 2 3 1 单数据源阃题 表2 1 显示了单数据源的模式级的主要质量问题【6 】o 经分析,可以 发现,这些问题产生的主要原因是缺乏足够的约束。 表2 1单数据源模式级问题示例 范围问题脏数据( d i 哪d a t a ) 注释 属性值 b d a t e = 3 0 1 3 1 7 0超出范围( 月份:1 3 ) 不合法 记录的属性 a g e 2 2 2 ,d a t e = 1 0 0 2 8 0 年龄可计算出来 依赖冲突 记录类型唯 e 1 2 ( n a m e 2 j o h n ,s n = 1 2 3 4 5 6 ) 这里s n 应该唯一 一性冲突 e 2 = ( n a m e 2 p e t e r ,s n 2 1 2 3 4 5 6 1 数据源引用 e m p = ( n a m e = j o h n ,d e p t n o = 9 、部门号9 不存在 完整性冲突 在关系模式的实例级,除了因缺少足够的模式约束而出现的数据 质量问题外,还有拼写错误、信息来源本身问题等导致的质量问题。 9 芦 花黼删釜羲罗= 竺 m 霉出薹搿 耋 髓黑| 薹董咖意 竺。娩 篆 具体来说主要有如下几种情况,如表2 2 所示。 表2 2 单数据源实例级数据质量问题示例 范围问题 脏数据( d i r t yd a t a ) 注释 属性值缺乏 p h o n e 2 9 9 9 9 - 9 9 9 9 9 9 非法数据 拼写错误 c i t y = “b e i g i n 打印,语音导致错误 包含过多 n a m e = “js m i t h n e w y o r k ” 包含太多的内容 矛盾的记录 b o o k l = ( “商务入门”,1 9 9 5 )同一实体被描述成 b o o k 2 = ( “商务入门”,1 9 9 6 )不同值 记录类型单词换位 n 1 = “js m i t h ” 自由格式的文本 n 2 = “p e t e rm ” 重复记录 e m p l = ( “j o h ns m i t h ”,)输入错误导致 e m p 2 = ( “j s m i t h ”,) 2 3 2 多数据源问题 多数据源的数据质量问题比单数据源复杂。首先,所有单数据源 存在的问题在多数据源都存在。其次,除了这些以外,多数据源还存 在许多问题:( 1 ) 在模式级,主要问题在于命名冲突和结构冲突m ,”。 命名冲突是因为常常用相同的名字表示不同的对象或者用不同的名字 表示相同的对象;结构冲突发生在同个对象在不同的数据源中表现 形式不同,如性别,有的数据源用0 、l 表示,有的用“男”、“女,表 示等。( 2 ) 在实例级,还有可能出现相同的属性名和相同的数据类型 但是表现形式不同或者解释不同,比如属性销售额的单位是美元还是 人民币的问题。 可见,在具有较好的集成模式前提下,数据质量问题可分为两种: 一是数据格式问题,二是数据重复、错误等问题。格式问题可用数据 转换解决,而相似重复数据错误问题则需进行进一步的数据清理。相 似熏复记录的匹配和合并,是数据清洗过程中一个很重要的问题川。 首先,选择一个好的距离函数很重要:另外,记录的匹配过程非常耗 时。如果采用最简单的方法,所有记录之间两两进行比较,以此来决 定是否匹配,其计算复杂度为o ( n 2 ) ,这里n 为数据库中的记录数, 对很大的数据库来说,这样的时间开销是无法忍受的。 在检测相似重复记录之前,需要先对数据进行一些处理。典型的 处理操作包括【1 2 j 3 : 1 字段分裂从自由格式的文本字段中抽取结构,分离各个部分。 2 验证和改正根据查找表来验证字段值的正确性,若发现错误, 则加以改正。如果提供合适的领域知识,该过程也可以验证字 段之间的依赖关系。 3 数据标准化将同一类型的数据用统一的格式来表示,比如日 期、电话号码、性别等。 在完成大部分的数据转化和其他清洗步骤以后,就可以执行相似 重复记录的匹配和合并了。 2 3 3 检测错误数据的方法 给定一个遵循关系模型的数据集,数据的完整性分析可以被认为 是一个简单的数据清洗操作。许多数据库系统( 如o r a c l e ,m ss q ls e r v e r ) 在某种程度上支持这种类型的数据清洗。尽管数据的完整性分析能发 现数据集中的大量可能的错误,但它不能处理更复杂的错误。如一个 或多个字段之间的关系的错误通常很难被发现。这些类型的错误需要 更深层次的检查和分析。可以把它当作异常检测的问题。数据通常是 变化多样的,对捕获大多数异常而言,不止需要一种检测方法。检测 数据集中错误的方法主要有以下几种: f 1 ) 统计学的方法 根据契比雪夫定理,使用字段值的平均值、标准差,考虑每一个 字段的置信区间来识别异常的字段和记录。一个字段f i 可以看作是一 个随机变量,该变量的取值个数与在该字段有值的记录的数目是相同 的。考虑字段的置信区间,如果f 的值大于“。+ e6 。或f i 的值小于 一6 。,则记录r 中的字段f 被认为是一个孤立点,其中是字段 f 的均值,6 。足标准差,e 是由用户定义的因子。e 的值可以基于某 些领域知识或数据知识来由用户定义或应用契比雪夫定理从理论上定 义。 ( 2 ) 聚类的方法 利用基于欧氏距离或其他距离的聚类方法来识别异常的记录。把 整个记录空间聚类,能发现在字段级检查未被发现的孤立点。聚类就 是将数据集分组成为多个类或簇,在同个簇中的数据对象( 记录) 之间 具有较高的相似度,而不同簇中的对象的差别就比较大。采用距离来 代表对象之间的相似程度( 相异度) ,常用的距离有欧氏距离、绝对距 离( 曼哈坦距离) 、明考斯基距离等。用来度量簇间距离的方法有:最 小距离和最大距离等等。实验采用一种改进的基于n g r a m 的算法, 应用欧氏距离来度量对象之间的相似程度,用最大距离来度量簇间距 离。在测试集上多次运行该算法,表明当用户指定的两个簇之间的相 似度聚类阈值越大,孤立点的检测就越好,能够识别出前面用统计的 方法识别出的异常的记录。选择子集来指导聚类算法以便减少数据的 数量。聚类算法计算很复杂。 f 3 ) 基于模式的方法 在数据集中发现不符合现存模式的异常的字段和记录。把划分、 分类和聚类等技术组合起来发现能应用于大多数记录的模式 14 1 。一个 模式被定义为数据集中的一组记录有p 的字段具有相似的特点。p 是 个用户指定的值,通常在9 0 以上。在实验数据集上应用k m e a n 算法,得到的结果是有很少的记录在超过9 0 的字段上遵循模式。如 果把该算法应用在根据领域知识生成的记录的子集,而不是整个数据 集上,发现一个模式的机会将会增加。但由于现实世界的数据集是高 度不相关的,很难应用于大多数记录的模式。 ( 4 ) 关联规则的方法 具有高的置信度和支持度的关联规则定义了另外一种意义上的模 式,那么不符合这些模式或规则的记录就被认为是异常记录 1 5 , 1 6 】。由 于经典布尔关联规则不能提供足够的定量的和定性的信息,必须进行 扩展。文献 1 7 1 中定义了序数型关联规则,用来发现给出更多信息的规 则( 如数据元素之间的序数的关系) 。使用序数关联规则识别数据集中 潜在的错误的过程可分为:( 1 ) 应用a p r i o r i 算法的变形算法来生成有 最小置信度c 的序数关联规则。( 2 ) 发现不符合这个规则的数据项,它 们可以被认为是孤立点( 潜在的错误) 。数据的分布会极大的影响数据 错误的识别过程,但序数关联规则的方法并不容易受到数据分布的影 响,被证明更具有强壮性。 2 4 数据清洗的过程 数据清洗是构建数据仓库和知识发现的必要前提,它被认为是建 设数据仓库中最为关键的一个步骤。在所谓e t l ( e x t r a c t i o n , t r a n s f o r m a t i o n ,l o a d i n g ) 过程中,数据集成工具从各个异构的数据源 中抽取数据并进行清理和转换,然后装载到数据仓库中 1 s , 1 9 。所有的 数据清理和转换工作都在那些已被转换的数据装载到数据仓库之前完 成,且处于一个独立的阶段,现在已有许多工具可用来支持e t l 任务, 但是一个重要部分数据清理和转换,不得不用人工或者低级程序 来处理,难以维护和书写。这使得数据集成成为创建数据仓库中最为 费时费力的操作 2 0 , 2 1 1 。 对多样的异常数据,清洗过程主要统分为六个步骤: 1 元素化( e l e m e n t i z i n g ) :将非标准的数据,统一格式化成结 构数据。 2 标准化( s t a n d a r d i z i n g ) :将元素标准化,根据字典消除不一 致的缩写等等。 3 校验( v e r i f y i n g ) :对标准化的元素进行一致性校验,即在内 容上修改错误。 4 匹配( m a t c h i n g ) :在其它记录中寻找相似记录,发现重复异 5 6 常。 消除重复记录:根据匹配结果进行处理,可以删除部分记录 或者多个记录合并为一个更完整信息的记录。 档案化( d o c u m e n t i n g ) :将前5 个步骤的结果写入元数据存 储中心。这样可以更好地进行后续的清理过程,使得用户容 易理解数据库以及更好地进行切片、切块等操作。 2 5 一种基于n g r a m 的聚类算法 重复记录的匹配和合并也被称为对象标识问题和重复记录清除问 题。通常情况下,指向同一个现实实体的两条记录的信息是部分冗余 的,它们的数据互为补充。因此,通过将其合并,能够更准确地反映 该实体。相似重复记录清除可以针对两个数据集或者一个合并后的数 据集。首先,需要识别出标识同一个现实实体的相似重复记录,即记 录匹配过程 8 , 2 2 , 2 3 , 2 4 】。随后,将相似重复记录合并成一个包含该实体的 更多属性,而且无冗余信息的记录,同时从数据集中删除多余的记录。 在相似重复记录的检测方面已经有了一些成果,传统的“排序& 合并”算法解决了如何检测数据库中完全重复记录的问题。它先将数 据库中的记录排序,然后通过比较邻近记录是否相等来检测完全重复 记录。我们利用这样的思想,在记录已排序的基础上,作邻近范围内 记录间的p a i r - w i s e 比较,就能计算出记录间的距离d ,从而确定是否 为相似重复记录。 文献【1 1 在清除重复记录上作了很多研究,提出了较好的算法。该 文献提出的方法是采用n g r a m 聚类算法将相似记录聚到一个c l u s t e r 中,并对每个c l u s t e r 中的记录作p a i r w i s e 比较。基于n g r a m 的聚类 算法的基本思想是:给每个记录赋一个n g r a m 值,以该值为键来对 记录聚类,在n g r a m 赋值时必须尽可能地使相似程度越高的记录的 n g r a m 值越接近,以保证它们将被聚到邻近的区域。n g r a m 聚类算 法可以分为标记和聚类两个步骤来实现。 ( 1 ) 标记 为了给记录标记上一个n g r a m 值,需要顺序地遍历整个记录文 件两次,第一次遍历产生有关单词的统计信息( n g r a m 信息) 并统计到 重复矩阵m 中,第二次遍历根据单词中出现的所有n g r a m ,参照重 复矩阵m 的信息为每个单词分派一个w n g n 值。一条记录中所有单 词的w n g n 之和构成了记录的r n g n ,即该记录的n g r a m 值,该值 是聚类记录时的键值。 ( 2 ) 聚类 采用了一定大小的优先队列来把相似重复记录聚到同一个c l u s t e r 中。优先对列中的每个记录均为某个c l u s t e r 的代表记录,因此优先队 列中的所有记录均不互为相似重复记录。现假定优先队列中已存放

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论