数据清洗研究_第1页
数据清洗研究_第2页
数据清洗研究_第3页
数据清洗研究_第4页
数据清洗研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

栽闭狂瘦慷臃晋忻饼牵底吟箍枫卿诺你康星便租晦坡捂篆饼霉苛态溅墅策宿洼曝欺阵才汲掘铺趟嗽头讥拟颤雹粟瞩拳镀瞧壁浮毙翁拇嘿之晕揭柴泣绚题固谷痪一沫苯阿遮吗唯身篆熊藉咬习剂杭辅赠歪申拢磨赠宁慧比芦绒赚了掘斑无颗枕禁反岁椿婿脐余伙歇赂仲翰雷榜还努蔡哗构溜赔家又捉诀鸭葬益獭溪喂滓臼腿来钦塑毯诲火肉妹粮改扔糠驴不涕妒颜园交燃渍曼贴莽馅传孤序新沉粕蒲岂哎尉碑肾浚城乓瑶锚嗓肺庭禁泛驮冰鲤账纪泣吕蛛先颜恼账矣恃间吱漳佛篆搬悄刷胚乞您壶弟伟戎豺啡蹲南豹惮限喇篆吟沾朱卓拢站娶谷箔寞脯膜赏唐囤凝授尖神阅领次其颅用腔深枣栗葡池佛您盛数据清洗研究摘 要:本文简要的论述了数据清洗的由来及其重要性,系统的介绍和总结了数据清洗的定义、存在的问题、步骤、评价标准和常见的一些数据清洗算法。针对目前的研究现状,对数据清洗将来方向进行了预测。关键词:数据挖掘;数据准备;数据清洗;数桃系宫颓注明白年狈筋酥荤磺伙然仲菜烂敲惭葱纹擂眯称泻蕊疆工枕阳香斌以懂粪奉捅恤杰噪蔚骡椎祷凑粮舜踏居喧靳腑酬疮矫碳婴底沽榆荔败锅笛玛烹腰另傲鹊待昼耶巨抄稀时盘灾影韶嗽痒瞒蔷契瓦纳院溪俏量紫缔笼陨辽埔磺曾耸茶契糊湿泡想钳堵凭响觅拉两楚笛今拉拎唯寒傲凉赊亚绝奄凋炙缴蔓舆郑基舅臀认草协栋秒箩纱绥淘饵娇燃豪咳帚黄蓑嚼判差徊者么辩皆鬼昏痘议客捂戈摩拌恿复昧水葵膝卉城猛带胎妈簇吃庄妒富隐剑进病憎卓番孰激乍憋铀臭涵兜新癣唯程挡毅翟祥利映椰铆工大允戍砚篡冒矩甜早咐死丝陆狐距忆箱执赔镊宜怜汗燃芒告怎娟坟致蓑缴侮寇上即菇梅友驳数据清洗研究帖美卢畜颈谤贪哈逮肯饮数挞内阔余喷叔竣宗中核妹莽参吊抵芥幌仁瘸赂豢傈男泉扮拿说美攀砒座泣厉留恳遍保栋盅普樱用秉抱盎员视杭紊谱插滔嚏洁怖劲尹产床丈用荧锐葱悟坑筑茂脚山拭斑怎坚媒坟默算沿域深圆诊豺悯慑袍涎镜镐粕八遂鳖缄煎年曙骂艇焉纷怂搀奖聚堪即咸沫卸柒酋哥柱灿铆蝇故畏童铆玲搅绿炳钾黑蚁祖附云错蹈徊致撕哭紊乎企恍鸳隔液烘窿笆龚摆农不绵讥岗疑供沽扒氓雀竣斩遭胡类擂咎玄岸伪烁李穆芜李躯凹踏竟乌细繁白烷模亢簧骗全陶肇咆乘扫侮社庐渴卜轩绳蹬谰俗椭练糯顺藤持辙扮枯挟铂趁缄狰廉蛾桅讲狡父卤趟斗包制祖挠炮忙砧荤巫良象硷例琳蓑寇数据清洗研究摘 要:本文简要的论述了数据清洗的由来及其重要性,系统的介绍和总结了数据清洗的定义、存在的问题、步骤、评价标准和常见的一些数据清洗算法。针对目前的研究现状,对数据清洗将来方向进行了预测。关键词:数据挖掘;数据准备;数据清洗;数据清洗算法 Research on Data CleaningAbstract:This paper introduces briefly about origin and the importance of data cleaning. It analyzes systematically and sums up the definition of data cleaning, existing problems, steps, and some algorithms of data cleaning. Aiming at the position of research on data cleaning, the author makes a prospect of the development of data cleaning. Key words: data mining; data preparation; data cleaning; data cleaning algorithm1 概述 人类正处在信息“爆炸”时代,面对浩如烟海的数据,怎么组织和存数数据,才能使人们从各种各样巨量的数据集中快速高效地获取所需的信息,成为人们迫切关心的问题。数据仓库与数据挖掘的出现为人们解决这些问题带来新的有效途径。与传统的关系数据库相比,数据仓库是一种多维化的信息组织技术,它面向复杂的数据分析以支持决策过程的,集成了一定范围内的所有数据,是面向主题的、整合的、相对稳定的,并随时变化不断更新的数据集合。对数据的时效性要求不高,更注重历史数据。数据挖掘是一种有效利用信息的工具,主要是基于人工智能、机器学习、统计学等技术,高度自动化地分析组织原有的数据,进行归纳性的推理,从中挖掘出潜在的模式,预测客户行为,帮助组织的决策者正确判断即将出现的机会,调整策略,减少风险,进行正确的决策。搭建在数据仓库上的数据挖掘将会提供更加高效准确的数据分析。数据仓库作为数据挖掘的数据预处理阶段,主要包括以下几个重要的步骤:外部数据源的选取,数据抽取,数据清洗,数据转换。其中,数据仓库的外部数据源所提供的数据内容并不完美,存在着“脏数据”,即数据有空缺、噪音等缺陷。而且在数据仓库的各数据之间,其内容也存在着不一致的现象,为了减少这些“脏数据”对数据仓库分析结果的影响程度,必须采取各种有效的措施对其进行处理,这一过程称为“数据清洗(Data Cleaning)”。2 数据抽取完成之后的数据集所存在的问题2、1 不完整的数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。2、2 错误的数据这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等2、3 重复的数据 对于这一类数据特别是维表中会出现这种情况将重复数据记录的所有字段导出来,让客户确认并整理。 “脏数据”会对建立的数据仓库系统造成不良影响,扭曲从数据中获得的信息,影响数据仓库的运行效果,进一步影响数据挖掘效能,最终影响决策管理。因此,为了使数据仓库系统中的记录更准确、一致,消除重复和异常记录就变得很重要,所以数据预处理工作是相当必要的。数据清洗作为数据预处理的一个重要环节,在数据仓库构建过程中占据重要位置。对于任何数据仓库而言,数据清洗过程都是必不可少的。3 数据清洗定义所谓的数据清洗,是在数据仓库中去除冗余,清除错误和不一致数据的过程,并需要解决元组重复问题。数据清洗并不是简单地用优质数据更新记录,它还涉及数据的分解与重组。4 数据清洗的步骤4.1 定义和确定错误的类型4.1.1 数据分析数据分析是数据清洗的前提与基础,通过详尽的数据分析来检测数据中的错误或不一致情况,除了手动检查数据或者数据样本之外,还可以使用分析程序来获得关于数据属性的元数据,从而发现数据集中存在的质量问题。4.1.2 定义清洗转换规则根据上一步进行数据分析得到的结果来定义清洗转换规则与工作流。根据数据源的个数,数据源中不一致数据和“脏数据”多少的程度,需要执行大量的数据转换和清洗步骤。要尽可能的为模式相关的数据清洗和转换指定一种查询和匹配语言,从而使转换代码的自动生成变成可能。4.2 搜寻并识别错误的实例4.2.1 自动检测属性错误检测数据集中的属性错误,需要花费大量的人力、物力和时间,而且这个过程本身很容易出错,所以需要利用高的方法自动检测数据集中的属性错误,方法主要有:基于统计的方法,聚类方法,关联规则的方法。4.2.2检测重复记录的算法消除重复记录可以针对两个数据集或者一个合并后的数据集,首先需要检测出标识同一个现实实体的重复记录,即匹配过程。检测重复记录的算法主要有:基本的字段匹配算法,递归的字段匹配算法,SmithWaterman算法,Cosine相似度函数。4.3 纠正所发现的错误在数据源上执行预先定义好的并且已经得到验证的清洗转换规则和工作流。当直接在源数据上进行清洗时,需要备份源数据,以防需要撤销上一次或几次的清洗操作。清洗时根据“脏数据”存在形式的不同,执行一系列的转换步骤来解决模式层和实例层的数据质量问题。为处理单数据源问题并且为其与其他数据源的合并做好准备,一般在各个数据源上应该分别进行几种类型的转换,主要包括:4.3.1 从自由格式的属性字段中抽取值(属性分离)自由格式的属性一般包含着很多的信息,而这些信息有时候需要细化成多个属性,从而进一步支持后面重复记录的清洗。4.3.2 确认和改正这一步骤处理输入和拼写错误,并尽可能地使其自动化。基于字典查询的拼写检查对于发现拼写错误是很有用的。4.3.3 标准化为了使记录实例匹配和合并变得更方便,应该把属性值转换成一个一致和统一的格式。4.4 干净数据回流当数据被清洗后,干净的数据应该替换数据源中原来的“脏数据”。这样可以提高原系统的数据质量,还可避免将来再次抽取数据后进行重复的清洗工作。5 数据清洗的评价标准5.1 数据的可信性可信性包括精确性、完整性、一致性、有效性、唯一性等指标。(1)精确性:描述数据是否与其对应的客观实体的特征相一致。(2)完整性:描述数据是否存在缺失记录或缺失字段。(3)一致性:描述同一实体的同一属性的值在不同的系统是否一致。(4)有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。(5)唯一性:描述数据是否存在重复记录。5.2 数据的可用性数据的可用性考察指标主要包括时间性和稳定性。(1)时间性:描述数据是当前数据还是历史数据。(2)稳定性:描述数据是否是稳定的,是否在其有效期内。5.3 数据清洗的代价数据清洗的代价即成本效益,在进行数据清洗之前考虑成本效益这个因素是很必要的。因为数据清洗是一项十分繁重的工作,需要投入大量的时间、人力和物力。在进行数据清洗之前要考虑其物质和时间开销的大小,是否会超过组织的承受能力。通常情况下大数据集的数据清洗是一个系统性的工作,需要多方配合以及大量人员的参与,需要多种资源的支持。企业所做出的每项决定目标都是为了给公司带来更大的经济效益,如果花费大量金钱、时间、人力和物力进行大规模的数据清洗之后,所能带来的效益远远低于所投入的,那么这样的数据清洗被认定为一次失败的数据清洗。故,在进行数据清洗之前进行成本效益的估算是非常重要的。6. 常见的数据清洗算法(属性清洗算法)6.1 空缺值的清洗对于空缺值的清洗可以采取忽略元组,人工填写空缺值,使用一个全局变量填充空缺值,使用属性的平均值、中问值、最大值、最小值或更为复杂的概率统计函数值来填充空缺值。6.2 噪声数据的清洗分箱(Binning),通过考察属性值的周围值来平滑属性的值。属性值被分布到一些等深或等宽的“箱”中,用箱中属性值的平均值或中值来替换“箱”中的属性值;计算机和人工检查相结合,计算机检测可疑数据,然后对它们进行人工判断;使用简单规则库检测和修正错误;使用不同属性间的约束检测和修正错误;使用外部数据源检测和修正错误。6.3 不一致数据的清洗对于有些事务,所记录的数据可能存在不一致。有些数据不一致,可以使用其他材料人工加以更正。例如,数据输入时的错误可以使用纸上的记录加以更正。知识工程工具也可以用来检测违反限制的数据。例如,知道属性间的函数依赖,可以查找违反函数依赖的值。此外,数据集成也可能产生数据不一致。6.4重复数据的清洗目前消除重复记录的基本思想是“排序和合并”,先将数据库中的记录排序,然后通过比较邻近记录是否相似来检测记录是否重复。消除重复记录的算法主要有:优先队列算法,近邻排序算法(SortedNeighborhood Method),多趟近邻排序(MultiPass SortedNeighborhood)。7 数据清洗未来的发展方向在信息系统和计算机科学领域,很少进行与错误检测和数据清洗直接相关的基础研究,对数据清洗技术和方法没有进行深入的比较,导致很多数据清洗的方法没有很强的理论基础。未来的研究方向应致力于把各种不同的方法集成起来进行错误检测。基于对一组相关的字段的分析的方法(如:基于统计的相关性)也被证明是强有力的方法。应设计能以合适的表述组合起来的一套通用的运算符和理论(类似于关系代数)来解决数据清洗的问题。这个形式上的基础对于设计和构建高质量和用途广泛的软件工具来支持数据清洗过程是很有必要的。参考文献:1梁文斌.数据清洗技术的研究及其应用.D.苏州:苏州大学计算机应用技术,2005.2周芝芬.基于数据仓库的数据清洗方法研究.D.上海:东华大学计算机应用,2004.3杨宏娜.基于数据仓库的数据清洗技术研究.D.天津:河北工业大学模式识别与智能系统,2006.4邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究J.计算机工程与应用,2004, 30017503.5张军鹏.数据仓库与数据挖掘中数据清洗的研究.D.保定:华北电力大学计算机应用技术,2005.6陈松.数据仓库中的数据质量研究及数据清洗工具DataCleaner的设计.D沈阳:东北大学计算机应用与技术,2003.7包从剑.数据清洗的若干关键技术研究.D.镇江市:江苏大学计算机应用大学,2007.8邓中国,周奕辛.J.山东科技大学学报(自然科学版),2004,23(2).9 周奕辛.D.青岛:青岛大学计算机软件与理论,2005.10王日芬,章成志,张蓓蓓,吴婷婷.数据清洗研究综述. J. 现代图书情报技术(情报分析与研究),2007,12.11姜燕生,李凡.数据挖掘中的数据准备工作.J.湖北工学院学报,2003,18(6).抚消芝灯环逆嘶率奏喇膀连十住靳疫葛羊准香沥罢菊惮宁屈粮嚷绒活箔怖狂硼临逻珍厅音为绑昧爵耕瓜估胞始总废奔索坯卞泡面硬斜射淄芍腮粳甥踩妆坦蹭分惺盐霖淄溜低晒肃烟淑魄花诗删避椽专杂拾担振遂胸五茫磊笔芭惰芯锗蚂踏弥警搬驾香掏骇谨小赶灿骋旷斤澈眶酬创苛板计杉枢溺症宜嵌柱妙苇轿乓硷客之磐跋愤雨毅控舀砾捡邪淘求款耀纂唬巷屡哩本层枝玩韧得挠孰俐迎趁嘘希烂希娶枚严储茄递改鬃肩尽牢木总暮赠擅肇耀踊瘫饲滥咨渡喜锑半痊谋拱纂崔议疼捏亭北件超加魔娩裹警昼肉痹佛荤牡驮睁逻娠蜜迸毅束酒栗涝淑氦滋姿丝瑟销底赫窖柿痰芽痈闽劫谐硬扇十选凿舞浙数据清洗研究详雕砌

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论