(管理科学与工程专业论文)数据预处理方法在移动通信企业的应用研究.pdf_第1页
(管理科学与工程专业论文)数据预处理方法在移动通信企业的应用研究.pdf_第2页
(管理科学与工程专业论文)数据预处理方法在移动通信企业的应用研究.pdf_第3页
(管理科学与工程专业论文)数据预处理方法在移动通信企业的应用研究.pdf_第4页
(管理科学与工程专业论文)数据预处理方法在移动通信企业的应用研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(管理科学与工程专业论文)数据预处理方法在移动通信企业的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据预处理方法在移动通信企业的应用研究 摘要 现实世界的数据往往是不完整,不一致和有噪音的,致使我们在进行数据 挖掘之前必须进行一定的数据预处理工作。数据预处理的主要内容包括:数据 清洗、数据集成、数据变换和数据规约。本文是在系统分析总结数据预处理各 种方法的前提下,针对某移动通信公司离网用户数据共有7 0 多张表,4 0 0 多个 属性,最高缺失率为2 8 3 ,含记录最多的表有2 0 0 多万条的特点,选用了数 据预处理中的1 0 余种方法对数据进行预处理的过程。 本文的主要工作如下: ( 1 ) 文中首先提出了数据质量问题的概念,并对各种数据质量问题对应的 数据预处理方法进行了总结。 ( 2 ) 针对2 8 3 的数据缺失情况,放弃简单删除的传统做法。提出采用数 据插补方法,并对各类数据插补方法进行对比分析,最终选取多重插补算法。 由于应用插补的数据有6 8 3 7 15 条,属于大规模数据,为了保证插补效果,我们 先通过小样本实验的方法,在比较插补效果后,确定了最佳插补次数,最终完 成插补过程。得到了完整的并且近似真实的数据集。 ( 3 ) 通过多重插补、属性子集选择、属性集成、属性构造、离散化数据、 规范化数据、数据抽样等方法后,将得到的数据代入数据挖掘模型中,所获取 的信息得到了项目方的充分肯定。从而验证了数据预处理的有效性和意义。 关键词:数据预处理缺失数据多重插补通信数据 a p p l i c a t i o no fd a t ap r e p r o c e s s i n gm e t h o d i nt h e m o b i l et e l e c o m m u n i c a t i o ni n d u s t r y a b s t r a c t n u m e r o u si n c o m p l e t ed a t a ,i n c o n s i s t e n td a t a ,n o i s yd a t aa n dm i s s i n g d a t a e x i s ti nt h er e a lw o r l d 。t h e r e f o r e ,i ti si m p o r t a n tt op r e 。p r o c e s sd a t ab e f o r ed a t a m i n i n g m a i nr e s e a r c hc o n t e n t so fd a t ap r e - p r o c e s s i n gi n c l u d ed a t ac l e a n s i n g ,d a t a i n t e g r a t i o n ,d a t at r a n s f o r m a t i o n a n dd a t ar e d u c t i o n v a r i o u sm e t h o d so fd a t a p r e p r o c e s s i n ga r ea n a l y z e da t f i r s t a sf o rt h ec h a r a c t e r i s t i co fc h u r nd a t ao f m o b i l et e l e c o m m u n i c a t i o ni n d u s t r yt h a tt h e r ea r e7 0t a b l e s ,4 0 0p r o p e r t i e s ,2 0 0 0 t h o u s a n d sr e c o r d si nt h ed a t aa n dm a x i m u m l o s sr a t ei s2 8 3 ,m o r et h a n10k i n d s o fd a t ap r e p r o c e s s i n gm e t h o d sh a v eb e e na p p l i e d t h i sd i s s e r t a t i o ni n c l u d e st h ef o l l o w i n gc o n t e n t s : ( 1 ) t h i sd i s s e r t a t i o nf i r s t l yp r e s e n t e dc o n c e p to fd a t aq u a l i t yi s s u e s ,a n dt h e n d a t ap r e p r o c e s s i n gm e t h o d sc o r r e s p o n d e dt od a t aq u a l i t yp r o b l e m sa r es u m m a r i z e d ( 2 ) a sf o rt h er a t eo f2 8 3 o fm i s s i n gd a t a ,t h i s d i s s e r t a t i o na b a n d o n st h e t r a d i t i o n a lp r a c t i c eo fs i m p l y d e l e t i o n t h i sd i s s e r t a t i o nb r i n g s f o r w a r dd a t a i m p u t a t i o nm e t h o d s a n da f t e rc o m p a r i n gv a r i o u s k i n d so fd a t ai m p u t a t i o nm e t h o d s , m u l t i p l ei m p u t a t i o na l g o r i t h m i s a d o p t e d a st h e v o l u m eo fd a t a ,a d o p t i n g i m p u t a t i o nm e t h o d ,i s6 8 3 7 15 ,b e l o n g st ol a r g e s c a l ed a t a ,i no r d e rt oe n s u r et h e e f f e c to fi m p u t a t i o n ,s m a l ls a m p l ee x p e r i m e n tw a sa d o p t e d ,a f t e rc o m p a n n gt h e e f f e c to fi m p u t a t i o n ,t h eb e s ti m p u t a t i o nt i m e si sf i g u r e do u t ,f i n a l l yt h ei m p u t a t i o n p r o c e s si sa c c o m p l i s h e d t h eo b t a i n e dd a t a s e ti sc o m p l e t ea n da p p r o x i m a t et ot h e r e a l i t y ( 3 ) t h ed a t ai sa p p l i e dt od a t am i n gm o d e la f t e rm u l t i p l ei m p u t a t i o n ,a t t r i b u t e s u b s e ts e l e c t i o n ,a t t r i b u t ei n t e g r a t i o n ,p r o p e r t yc o n s t r u c t i o n ,d a t ad i s e r e t i z a t i o n d a t an o r m a l i z a t i o n ,d a t as a m p l i n ga n do t h e rm e t h o d s t h eo b t a i n e di n f o r m a t i o n w a sa p p r o v e db yt h ec u s t o m e r ,s u g g e s t i n gt h ee f f e c t i v e n e s sa n ds i g n i f i c a n c eo f d a t ap r e p r o c e s s i n g k e y w o r d s :d a t ap r e p r o c e s s i n g ; t e l e c o m m u n i c a t i o nd a t a m i s s i n g d a t a ;m u l t i p l ei m p u t a t i o n ; 插图清单 图1 1 论文组织结构图4 图2 1 数据质量内容5 图2 2 数据质量问题分类6 图2 3 数据清洗参考原则7 图2 4 噪声处理方法8 图2 5 聚类9 图2 - 6 数据集成问题9 图2 7 数据变换内容1o 图2 8 数据规约内容1 1 图2 - 9 数据立方体1 2 图2 1 0 属性子集选择1 2 图2 1l 数值规约13 图3 1 缺失数据产生原因1 6 图3 2 缺失模式关系。17 图3 3 神经网络2 0 图4 1 移动通信数据问题2 7 图4 2 数据预处理流程图。2 9 图4 3 与分析主题相关表一3 0 图4 4 插补模式选择3 3 图4 5s a s 插补流程图3 6 图4 6 数据抽样4 2 图4 7 具体应用方法4 3 表格清单 表2 1 数据预处理方法和数据质量问题的相关对应表1 5 表3 1 清理缺失数据方法对比2 5 表4 1s a m p l e01 3 0 表4 2s a m p l e0 2 31 表4 3s a m p l e0 3 31 表4 4p r o cm i 选项简介。3 4 表4 5 不同样本集下插补效果表3 5 表4 6s a m p l e0 4 3 8 表4 7 数据预处理结果表4 0 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得金胆王些盔堂 或其他教育机构的学位或证书而使用过的材 料。与我一同j f 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签字球签字日期:) 。f 。年4 月1 日 学位论文版权使用授权书 本学位论文作者完全了解金g 垦王些太堂有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权 金g 墨工:些厶堂可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:葡杠 翩签名:钠丢老亲 签字日期:) - o l o 年斗月习日 学位论文作者毕业后去向: _ 作单位: 通讯地址: 签字日期:剖。年4 序刁日 电话: 邮编: 致谢 首先向我的导师杨善林教授致以最诚挚的谢意和崇高的敬意! 他渊博的学 识、对科学前沿敏锐的洞察力、勇往直前的开拓精神以及广博的胸怀和远见, 让我受益匪浅,是我终身学习的榜样。他不仅为我创造了优越的科研和学习环 境,还在思想上和生活上给予我极大的关心、帮助和鼓励。他为我攻读硕士学 位的全过程作了精心的安排和指导,我取得的每一点成绩都凝聚了他的心血! 特别感谢计算机网络系统研究所的马溪骏老师。从我0 8 年入实验室开始, 马老师始终在科研和生活方面给予我很大的帮助。可以说在攻读硕士期间,我 所走出的每一步都得益于她的鼓励和指导。她严谨的治学态度、认真的工作作 风使我受益良多。在此谨向马老师致以衷心的感谢! 感谢网络所的胡小建老师、任明仑老师、左春荣老师、余本功老师、胡笑 旋老师、潘若愚老师、褚伟老师、付超老师对我学业上的指点。 感谢管理学院以及所有培养和帮助过我的老师。 感谢计算机网络系统研究所师兄程飞、卢广彦、许元虎、高竟成、段辰生、 季春志、林宗缪,师姐魏芳娣、金伟、王海燕、冯南平、高丽等人的热心帮助, 感谢张玮、徐草、郭云、黄文焱、吕军、詹同军、邓森文、詹小燕、叶兵等朋 友和同学对我的关心和帮助,感谢师弟师妹谢先丽、方磊、王俊松、高袁袁、 吴明明、费菲、倪大伟、高一鹏、魏礼舜、于涛、张昊昱的帮助,和他们无论 是在科研项目中还是生活中,经常能得到很好的建议。 深深感谢我的父母和亲人,在我遇到困难的时候开导我,在我取得进步的 时候鼓励我,无论什么时候都一如既往的支持我。他们无私的爱和深切的期望 是我求学路上的强大精神力量! 最后,再次感谢所有帮助过我的领导、老师和同学! 作者:董艳 2 0 1 0 年4 月1 5 日 第一章绪论 1 1 背景和意义 在激增的企业数据背后隐藏着很多重要的信息,它们真实的反映了企业在 业务环境中的经济动态,如何利用这些历史数据,更好的为企业发展提供参考, 是目前企业界和学术界都在积极探索的方向。传统的数据管理方法可以有效的 实现数据的录入、查询、统计等功能,但是人们希望能够从不同角度,深层次 的了解数据中潜在的、有用的关系和规则。在这样的前提下,数据挖掘应运而 生,而且已经成为了计算机科学研究中一个相当活跃的前沿领域,并在金融投 资、医疗卫生、市场分析、等很多领域都取得了广泛的成功,获得了可观的社 会效益和经济效益。但目前很多企业信息都存在不完整、不一致的情况,这样 的数据也就是我们所说的“脏数据 ,如缺失数据、重复数据、噪音数据等。这 些存在质量问题的“脏数据 ,会导致昂贵的操作费用和漫长的响应时间,而且 从数据中提取的信息是有偏移的,所得到的分析结果可能误导决策,影响信息 服务的质量。如何能从这些数据质量有问题的数据中挖掘出有用的信息成为迫 切需要解决的问题。 决策正确与否对企业的影响重大,而高质量的决策依赖于高质量的数据。 很多数据挖掘的模型必须建立在完整的、一致的、可靠的和正确的数据基础上, 但是现实世界中的数据是错综复杂的,缺失数据,重复数据,噪音数据等情况 都是数据应用的重大障碍【1 , 2 , 3 】。据调查,这些有质量问题的脏数据引起的企业 成本损失约占其收入的8 至1 2 ,有些服务性企业中这一比例甚至高达 4 0 6 0 4 , s 】。2 0 0 2 年数据仓库研究机构d a t a f l u x 提供的一份统计报告显示 美国每年由于数据质量问题导致的商业损失达6 0 亿美元1 5 j 。可见数据质量问题 是信息系统,数据挖掘等应用面临的一个基本问题。数据质量问题也是决定信 息系统,数据挖掘,统计分析等各类应用成败的关键,目前也正受到前所未有 的关注。因此,在进行数据挖掘之前必须对数据进行一定的数据预处理工作。 几乎所有从事数据挖掘和数据分析的人员都承认,花费在数据理解上的时间要 简单的数字充分的说明了数据预处理的重要性。本文就是以提高数据质量为目 标,对数据预处理方法进行研究和比较,并且将其应用于某移动通信公司离网 数据,文中涉及的数据清洗思路和方法将对相关行业内的数据质量的提高具有 一定的借鉴意义。 1 2 国内外现状 1 2 1 数据预处理的内涵 数据预处理的主要任务有两点,首先是处理含有质量问题的数据包括:修 补残缺数据,修正错误数据,去除多余数据;其次是根据数据挖掘的要求集成 相关属性,规范不一致属性,构造新属性,最终得到便于数据挖掘方法和模型 使用的数据。预处理后的数据应该达到保持原有属性的特征和方便应用的目的。 使数据挖掘的复杂度和难度降低,提高挖掘效率。 一般数据预处理包括:数据清洗,数据集成,数据变换,数据规约四个部 分。目前的研究热点主要集中在数据清洗和数据规约部分。下面简要介绍数据 预处理各个部分的主要内容: 数据清洗:主要针对数据质量问题,目的是检测和消除数据存在的错误和 不一致,以提高数据质量1 7 8 j 。 数据集成:该部分主要涉及数据的选择、数据冲突问题和不一致数据的处 理问题,在集成后达到精简数据集的效果。 数据变换:对不规范数据,数据挖掘模型不能处理的数据,需要通过数据 变换中的光滑,聚集,规范化等操作进行处理。 数据规约:在面对原始数据集时,有部分不能描述系统关键特征的属性和 不符合挖掘主题的属性进行剔除,从而得到精炼的能够充分描述挖掘对象的属 性集。在大型数据库的海量数据中。从海量记录中按规则进行样本抽样,缩短 实验时间和复杂度,从而提高数据挖掘的效率。 1 2 2 数据预处理方法现状 在数据预处理的四个部分中,目前国内外研究最多的就是数据清洗和数据 规约两部分。下面介绍这两方面的国内外现状: ( 1 ) 数据清洗: 数据清洗主要针对的是数据本身的质量问题,它最早是从美国的社会保险 号错误的纠正开始【9 , 1 3 1 。随着数据挖掘的广泛应用,带动了这方面的技术研究。 主要内容有: 1 ) 噪音数据清洗。噪音是指在测量一个变量时可能产生一些误差或错误, 使得测量值相对于真实值有一定的偏差。可以用分箱、聚类、回归等方法进行 清洗【12 1 。 2 ) 重复数据清洗 i i , 1 2 , 1 3 】。重复记录一般多出现在异构数据源中,它的清洗 是识别并消除数据集中的近似重复对象。尤其是在数据仓库集成中产生的命名 冲突,结构冲突等问题的处理。 2 3 ) 缺失数据清洗【1 4 , 1 5 , 1 6 , 1 7 。现在研究的热点集中于缺失数据的插补,包括 基于统计学的方法、基于分类的方法( 贝叶斯网络、神经网络、k n n 分类、 粗集理论等) 、基于关联规则的方法。 目前国内也在对数据清洗技术进行积极的研究,但多是对已有算法的改进 和应用【1 8 , 1 9 , 2 0 】。直接针对行业应用数据清洗的论文并不多。银行、电信、证券、 保险等对客户数据的准确性较高的行业,都专门针对自己的客户数据的清洗工 作。国内现在也陆续涌现多家数据分析公司,专门从事数据清洗业务。 ( 2 ) 数据归约: 原始数据集往往含有海量数据,数据规约技术能够精简数据集,降低数据 分析和挖掘的复杂度,减少时间消耗,提高数据挖掘和分析效率 2 2 , 2 3 j 。数据规 约部分研究的主要内容有: 1 ) 降维处理 2 1 , 2 2 】。一般要根据分析主题判断冗余属性,然后根据属性的 重要程度进行筛选,一般需要用到专家知识。属性子集选择方法是最常用的方 法,包括逐步向前选择法,逐步向后删除法,判定树归纳法等。 2 ) 数据压缩。使用数据编码或变换,在不丢失数据信息的前提下,减少数 据存储。压缩方法主要分为有损压缩和无损压缩两个部分【2 4 , 2 5 , 2 6 l 。 3 ) 数值归约。根据挖掘需要从数据集中选取较小的数据集来减少数据量, 主要采用聚类、抽样、直方图等技术【2 3 , 2 4 , 2 5 】。 1 3 本文的工作和内容组织 数据预处理工作涉及的范围很广,文章主要从数据清洗、数据集成、数据 变换、数据规约方面来进行阐述,对缺失数据的具体处理方法和关键技术进行 了详细的论述,最终将其应用到某移动通信公司离网用户数据中。文章大体结 构和主要内容如下: 第一章介绍数据预处理的选题背景,有关数据预处理的简介和国内外现状, 最后介绍全文的研究主体和章节安排。 第二章对数据质量问题进行了阐述,并介绍了数据预处理中数据清洗、数 据集成、数据转换、数据规约以及各部分中常用的典型方法。 第三章是数据清洗关键方法的对比分析,首先对数据缺失进行概述,然后 对目前已有的关于处理缺失数据的方法进行了介绍和对比。并重点介绍了多重 插补方法。 第四章是结合某移动通信公司离网用户数据对上面介绍的各种方法的具体 应用。第五章是对本文所做工作的总结,并对进一步工作的研究方向进行了展 望。 图1 1 是全文组织结构图: 3 第一章绪论 问题提出 研究现状 论文组织结构 数 据 预 处 理 方 法 理 论 基 第二章 的关系 数据质量问题和数据预处理 数 数 据 据 质 预 且 处 里 理 清洗方法研究 第三章关键数据清洗方法对比分析 1 j uj l 翌堕坌i 塑i l 第五章 l 总结和展望 ,v jl豳团匝 总结 第四章数据预处理方法在移动通信数据中的应用 选择相关属性 集成和构造属性 具体方 清洗异常数据和缺失数据 重复数据的处理 离散化数据和集成 图1 1 论文组织结构图 4 法运用 第二章数据质量问题与数据预处理方法 本章首先介绍数据质量问题的概念和数据质量问题的分类。其中包括数据 质量的定义,造成数据质量问题的原因,判断数据质量的标准,数据质量问题 的分类和具体的数据质量问题。然后由数据质量问题的提出引入了数据预处理 方法,文中主要从四个方面介绍了数据预处理方法,包括数据清洗,数据集成, 数据变换和数据规约。每种方法下面又根据不同的数据质量问题和应用需求细 分了很多种方法。最后对数据质量问题和数据预处理方法做了对应关系的总结。 2 1 数据质量问题 2 1 1 数据质量问题概念 数据质量在不同的领域有不同的含义,在信息领域中就有两方面,一个是 指信息的服务质量,用对客户的需求和问题的响应速度来衡量;另一个是指信 息本身的质量,它可以用适时性、准确性、可获取性、等指标来衡量【27 1 。同时 各种数据质量问题并不是完全孤立的,它们之间往往都是相互关联的。 目前,数据质量界普遍认为不存在一个固定的、一成不变的关于数据质量 的定义。高质量的数据是指那些适合于消费者使用的数据,数据质量更多的取 决于数据的使用者如何使用数据,也就是实际数据集和使用者对目标数据集的 期望之间是否存在距离。我们将“适合使用作为初步的标准来定义数据质量 的好坏【2 引。从而,有用性和可用性成为数据质量的两个重要特征,数据质量的 内容也扩展到以下四个层次i z 9 j 如图2 1 : 图2 1 数据质量内容 5 2 1 2 数据质量问题分类 造成数据质量问题的原因是多方面的,所以其表现形式也不尽相同,一般 从单数据源、多数据源、模式层和实例层来划分数据质量问题。当然单源中出 现的问题在多源的情况下会变得更加严重,模式层面的问题也有可能会反映在 实例层面上,但是这些能够通过改善模式设计、模式转换和模式集成来解决。 另一方面,实例层面的质量问题是指实际的数据内容中存在不一致和错误,但 是它们在模式层面又往往是不可见的。这些问题都是数据预处理中的数据清洗 需要解决的。在图2 2 数据质量问题分类图中我们对一些典型的问题进行了描 述。 图2 2 数据质量问题分类 ( 1 ) 单数据源问题 单数据源中的数据质量问题主要依赖模式的设计和相关的完整性约束条 件。如果没有它们就会由于对进入的数据缺乏限制而导致错误数据和不一致数 据概率增加。所以高质量的数据模式设计和约束条件可以直接提升数据质量。 在实例方面涉及的问题较多,也是难以避免的,如拼写错误;缩写,如将d o n g y a n 缩写为d y 等; 总而言之,虽然是两个层面的问题,但仍可从以下四个方面进行数据质量 问题分类2 9 】: 1 ) 记录。同一记录的不同属性间表现的不一致; 2 ) 记录的类型。同一数据源在不同记录之间的不一致: 3 ) 属性。这类错误仅局限于单个属性的值; 4 ) 数据源。不同数据源中同一属性的表现形式不同。 对于不同范围的数据质量问题,需要采取相应的数据清洗方法。 ( 2 ) 多数据源问题 6 在多数据源中的数据质量问题主要出现在数据集成过程中。从不同文件, 数据库,存储介质中合并而来的数据,可能都采用不同的数据模型、数据格式 所以出现最严重的问题就是重复记录,命名冲突,数据重复。在模式层出现的 问题可以通过模式转换解决【30 1 。除了与模式相关的质量问题外,多数据源中同 样存在实例相关的数据问题。这些问题可能直接来自单数据源。所以单数据源 中的数据质量问题同样会出现在多数据源中。在多数据源中最主要的问题就是 如何清洗识别重复数据。在数据源合并过程中可能会有很多类似的脏数据。 当今的数据系统所获数据量在迅速膨胀( 已达千兆或更多) ,以至于导致了 现实世界数据库极易受噪声、不完整、甚至是不一致的数据的侵扰。对数据挖 掘所涉及的来自各类数据源的数据对象必须进行预处理。那么如何对数据进行 预处理从而改善数据质量,并最终达到适合数据挖掘结果目的呢? 目前有大量 的数据预处理技术,一般的数据预处理方法主要包括:数据清洗、数据集成、 数据转换和数据规约。下面将介绍这四种数据预处理的基本处理方法。 2 2 数据清洗 在数据挖掘中完全使用原始数据往往会降低挖掘效率,一些和分析主题明 显无关的属性及数据可以去除13 1 。但是去除的原则往往要根据行业知识和专家 意见来决定。结合数据质量问题有以下几个数据清洗参考原则,如图2 3 所示。 数 据 清 洗 参 考 原 则 尽可能赋予属性名和属 性值明确的含义 统一多数据源的属性值 编码 去除惟一属性 去除可忽略的字段 去除重复属性 合理选择关联字段 图2 - 3 数据清洗参考原则 ( 1 ) 尽可能赋予属性名和属性值明确的含义。在很多数据库中的属性含义 模糊,命名不直观,数据预处理人员在进行数据理解时必须明确属性含义,对 概念模糊的属性进行处理。 ( 2 ) 统一多数据源的属性值编码。在异构数据源中可能存在同一实体有多 个名称的情况,对这种命名冲突需要进行统一。 7 ( 3 ) 消除惟一属性。原始数据集中往往需要通过关键字来建立数据与数据 之间的关系。然而对于数据挖掘而言,关键字并没有实际意义。所以在集成中 会对关键字进行取舍,仅保留一个或多个主关键字。 ( 4 ) 消除重复属性。原始数据可能含有标识同一实体的多个属性,如出生 日期与年龄。 ( 5 ) 删除可忽略字段。当一个属性与分析主题无关或缺失率超过5 0 时, 该属性可以删除。 ( 6 ) 合理选择关联字段。若属性y 可以由其它一个或多个属性推导或者 计算出来,则认为属性之间存在传递依赖,只需选择其中之一,或者属性y , 或者它的关联属性。 经过以上处理之后,还需要对已经选择的属性进一步处理,填充缺失值, 光滑噪声并识别离群点和处理不一致数据,这些是数据清理的主要内容。 2 2 1 缺失数据处理 ( 1 ) 删除元组。当一个记录有一半以上属性空缺、尤其是关键属性缺失, 即便采取各种方法填补了缺失值,也不能认为它是原始真实数据,它不能反映 数据的真实情况,应予以删除。 ( 2 ) 插补缺失值。该方法就是根据一定规则和依据人为插补缺失数据,得 到一个完整的数据集。较简单的方法有:众数插补法,均值插补法。这类方法 操作简单便于实现,但是仅适用于缺失比率较小的情况,如果数据缺失率较高, 就会出现失真。现在有很多专家学者研究出了多种用可能值插补的方法。这些 插补方法大多通过计算数据的分布来得到可能值,主要的方法有:统计学方法, 分类方法和关联规则方法等。统计学方法包括:均值插补,e m 插补,多重插 补等。分类方法有:k n n 方法,粗糙集方法,神经网络方法,贝叶斯网方法 等。后续章节将做详细的介绍。 2 2 2 噪声数据处理 图2 - 4 噪声处理方法 ( 1 ) 分箱【10 1 。分箱是通过观察相邻数据来对箱子中的数据进行处理来确 定最终值,在分箱过后还要对数据进行平滑,通常使用箱均值,箱中值,箱边 界方法进行数据平滑,保证箱中数据尽可能的接近。 8 ( 2 ) 回归【l o 】。通过函数来拟合数据,函数多为回归函数。回归函数包括 线性回归和非线性回归。线性回归通过拟合两个属性间的最佳线来从一个属性 预测另一个属性( 可扩展到多个属性) 。 ( 3 ) 聚类【l o 】。聚类是将处理对象的集合分组为多个由相似对象组成的多 个类的过程,得到一组由数据对象组成的集合,即簇。如果有对象处于簇外, 则为孤立点。 聚类方法不需要先验知识,即可直接形成簇并对簇进行描述。图2 5 是聚 类的一个例子。 图2 5 聚类 图中有三个“+ 号用来表示聚类的质心。聚类的质心即聚类中的均值点。 不在任何聚类中的点称为孤立点也就是需要去掉的噪声数据。 2 3 数据集成与变换 2 3 1 数据集成 数据集成是将多个数据源或文件中的数据进行合并,并在合并中统一数据 模式,合并数据存储。在集成的数据源中,可能存储模式、数据结构都不相同, 所以可能会遇到数据冗余,数值冲突和模式不匹配等问题,如图2 6 所示。 数据集成过 程注意问题 上、,土 i 数据冗余 数据值冲突的 模式匹配 检测与处理 图2 - 6 数据集成问题 ( 1 ) 模式匹配 对来自异构数据源的同一实体如何才能匹配? 如何才能确信一个数据库中 的s t u d e n ti d 和另一个数据库中的u s e ri d 指的是相同的属性? 自动采集 的数据和人工录入数据如何一致? 解决这些问题都需要依靠元数据,即关于数 据的数据。不同的模式匹配都要通过元数据进行说明解释,才能避免错误发生。 9 ( 2 ) 数据冗余 冗余1 0 1 问题,这是数据集成中经常发生的另一个问题。可以从其它属性推 演出的属性可能就是冗余属性。如:数据表中的月均消费额就可以从月消费额属 性中得到。属性名不一致也会造成集成后的数据不一致。利用相关性分析可以帮助发 现这类冗余。下面的公式可以帮助进行相关性分析。 nn ( q j ) ( 岛一否) ( 口f 6 f ) 一j 否 i a , b 上l 而瓦 1 ) 如一启大于0 ,则么和b 是正相关的,此值越大,相关性越强。因此, 一个较高的砌占值表明a ( 或b ) 可以作为冗余去除。 2 ) 如果结果值等于o ,则4 和b 是独立的,不存在相关。 3 ) 如果结果值小于0 ,则a 和b 是相关的,即a 或b 不可相互推演出【2 5 1 。 ( 3 ) 数据值冲突的检测与处理 数据值冲突【lo j 是数据集成中的另一个重要问题。如,来自不同数据源的同 一实体可能有着不同的值,数据类型。如性别在某一数据库中是男和女,在另 一个可能是0 和1 ,而在有的数据库中可能是t 和f ,但实际上指的是同一概 念。它们可能会是字符型,数值型或布尔型,所以在数据集成时要特别注意这类 问题。好的数据集成有助于提高数据的准确程度,为日后的数据挖掘和分析提供更好 的依据。 2 3 2 数据变换 数据变换一般是根据数据挖掘模型的具体要求进行数据的转换或格式的统 一,它涉及多个方面,主要内容如下图2 7 所示: 图2 7 数据变换内容 ( 1 ) 光滑【1 0 , 2 4 1 。通过分箱、聚类、回归等方法来去除数据中的噪声,离散 化连续数据。在一定误差允许的情况下,通过一个数值来代表一个区域范围。 从而减少数据挖掘算法的工作量。 ( 2 ) 聚集1 0 , 2 4 1 。对数据进行汇总或聚类,多采用统计的方法。如,将月消 费额汇总为年消费额。 1 0 ( 3 ) 数据概化【1 0 , 2 4 1 。通过较高层次的概念来替代底层次的概念,从而达 到降低数据挖掘复杂度的效果。如将信用额度中0 - 5 0 元,5 0 1 0 0 元,1 0 0 元 以上三类额度分别定义为低,中,高。 ( 4 ) 规范化【1 0 , 2 4 】,将数据按比例缩放,使之落入一个小的特定区间,如 0 0 1 0 ,称为规范化。主要的数据规范化方法有三种,分别是:最小一一最大 规范化,零一一均值规范化,小数定标规范化。 ( 5 ) 属性构造【1 0 , 2 4 】。通过已有属性构造数据挖掘需要的新属性,数据挖 掘工作往往都是有特定主题的,所以有时需要一些原数据库中没有的属性。如 数据库中没有客户的年龄信息,就通过身份证信息进行构造。这对数据分析和 知识发现很有价值。 2 4 数据归约 数据规约是为了降低在海量数据上进行数据挖掘的难度和复杂度而进行的 一项工作。它是在不破坏数据原有完整性的基础上选取小样本数据进行数据挖 掘,但是得到的效果是相同的。数据规约使很多不能在原数据集上实现的挖掘 工作成为可能,是数据预处理的重要内容。数据归约的方法和策,如图2 8 所 示: 图2 - 8 数据规约内容 ( 1 ) 数据立方体聚集 1 0 , 2 4 】。是将聚集操作用于数据立方体结构中的数据。 ( 2 ) 属性子集选择 1 0 , 2 4 】。检测并删除和分析主题不相关或冗余的属性, 从而达到精简属性,方便数据挖掘的目的。 ( 3 ) 数据压缩 1 0 , 2 4 】。选择正确的编码压缩数据集,以减小数据集的规模。 ( 4 ) 数值归约 1 0 , 2 4 。用替代的、较小的数据表示数据或采用较短的数据 单位、数据模型代表数据。这样得出的数值可以大大降低数据挖掘的复杂度。 ( 5 ) 离散化和概念分层【1 0 , 2 4 。离散化是使连续数据离散化化,减少取值 个数。概念分层是用高层次概念替换低层次概念。这样得出的数值可以大大降 低数据挖掘的复杂度。 2 4 1 数据立方体聚集和属性子集选择 数据立方体是将聚集方法用于数据立方体,它是数据的多维建模和表示, 由维和事实组成。维就是涉及到的属性,而事实是一个具体的数据。常见的立 方体是一个3 维的几何结构,数据立方体的维度可以是1 1 维的。如图2 - 9 所示。 1 l 商辄 类型| i u 平 图2 - 9 数据立方体 在数据挖掘中的挖掘主题可能只跟数据集中的部分属性有关,而数据集中 可能有上百个属性。属性子集选择即维规约,是从目标数据集中选择出与挖掘 主题相关的最小属性集,这一数据集的分布接近原分布。它减少了数据挖掘中 的属性个数,使得模式更易于理解。 属性子集选择的方法包括以下技术,如2 1 0 图。 图2 1 0 属性子集选择 ( 1 ) 逐步向前选择【1 0 , 2 4 。这是在属性子集选择中使用较多的一种方法。 该过程由空属性集作为归约集开始,确定原属性集中最好的属性并将它添加到 归约集中。在其后的每一次迭代中,将剩下的原属性集中最好的属性添加到该 集合中。 ( 2 ) 逐步向后删除【1 0 , 2 4 】。该过程由整个属性集开始。在每一步,删除尚 在属性集中最差的属性。 ( 3 ) 向前选择和向后删除结合【1 0 , 2 4 】。结合前面两种方法,每一步选择一 个最好的属性,并在剩余属性中删除一个最差的属性。 2 4 2 数据压缩和数值归约 数据压缩就是使用数据编码或变换,得到原数据的归约或“压缩 表示。 无损归约是原数据可以由压缩数据重新构造而不丢失任何信息。数据压缩可以 减少数据存储而不影响数据挖掘的结果。 1 2 数据压缩的方法分为两类【1 0 , 2 4 】:无损压缩和有损压缩。无损压缩如基于熵 的编码方法,有损压缩如主成分分析法,是将分散在一组变量上的信息集中到 几个综合指标上的探索性统计分析方法。 数值归约就是通过选择较少的数据来替代原数据从而达到减少数据量,降 低挖掘复杂度的目的。常用方法如图2 1 1 所示。 l 上i 上 回归 l 对数线性模型 直方图聚类抽样 图2 1 1 数值规约 ( 1 ) 回归和对数线性模型【1 0 , 2 4 】。回归和对数线性模型可以用来近似给定 数据在简单线性回归中,对数据进行建模,使之拟合到一条直线。 ( 2 ) 直方图 1 0 , 2 4 】。直方图是一种常用的归约技术,它使用分箱法对数据 进行近似。 ( 3 ) 聚类【1 0 , 2 4 】。聚类技术用数据的聚类来代表收集数据,当数据中存在 聚类特征时,即数据可以形成有限个聚类时,此方法可以很好的归约数据。 ( 4 ) 抽样f 1 0 , 2 4 】。抽样与其他数据归约方法不同,它不是对属性进行选择 或者删除,它是对记录进行选取,即用较小的数据样本集表示大的数据集。下 面介绍几种抽样的方法。 1 ) s 个样本不放回简单随机抽样。 2 ) s 个样本有放回简单随机抽样。 3 ) 等距抽样。按照一定距离等比例进行数据抽样。 4 ) 分层抽样。如果将d 划分成互不相交的部分,称作层,则通过对每一 层的简单随机抽样就可以得到d 的分层抽样。 2 5 数据质量问题和数据预处理方法的对应关系 造成数据质量问题的原因是多方面的,这些不合理的因素可能从设计数据 时就已经存在。即使在设计之初考虑已经很全面,随着时间的推移,需求的变 化,依然会出现各类数据质量问题。所以很多情况下,数据质量问题是难以避 免的。虽然数据预处理只能对已经成型的数据进行筛选,修正,但并不能真正 完全解决数据质量问题。在目前多为基于应用分析的前提下,数据预处理是普 遍采用的方法。在数据预处理中真正对数据质量问题进行处理的方法主要集中 在数据清洗和数据集成部分,数据变换、数据规约多是为了应用需求的方便而 进行的相应数据处理。 1 3 数据预处理部分中,数据清洗主要分为对缺失值、噪音数据、重复数据的 处理。在缺失值处理部分,视属性的重要程度,分别采用丢弃属性,简单填充 和算法填充等。噪声数据中最主要的工作是对孤立点和非正常值的处理。常用 的方法是分箱,回归和聚类。重复数据,在单数据源部分体现的并不明显,主 要是属性的集成和部分重复数据的剔除。在多数据源部分则体现在不同数据源 之间的模式如何匹配,同一实体的不同表示形式如何统一,相互冲突的数值如 何检测和处理等方面。 数据质量问题将会是一直存在的问题,虽然不断有新的技术和方法出现, 但是数据质量问题本身也在不断变化。我们只能尽量去提高数据质量而不能完 全避免,与此同时数据预处理工作更显得尤为重要。表2 1 为数据预处理方法 和数据质量问题的相关对应表: 1 4 表2 1 数据预处理方法和数据质量问题的相关对应表 待解决问题数据预处理方法具体方法 异常数据分箱,回归,聚类 数据清洗忽略元组,直接删除,数 缺失数据 据插补 自相矛盾字段去除 重复冗余记录去除 数据集成统一多数据源的属性值 命名冲突 涉及行业知识编码 结构冲突 和专家意见 合并中统一结构 不一致的汇总合并中统一 不一致的时间粒度合并中统一 属性缺失 根据其它属性进行属性 数据变换 构造 数据泛化,规范化,数据 数据过细,概念层次低 聚集 属性冗余维规约,属性子集选择 数据集庞大数据压缩,抽样 数值结构复杂 数据规约 数值归约 连续数据和取值,范围 离散化和概念分层 过广 拼写错误赋予属性名和属性值明 歧义数据 涉及行业知识和专 确的含义 模式层问题 家意见 根据具体问题变换 唯一性约束保留1 个或多个关键字 引用约束用于关联,其余去除 2 6 本章小结 本章系统的介绍了数据质量问题及其分类。在接着介绍的数据预处理部分, 我们给出了数据预处理的主要四个部分,其中数据清洗和数据集成主要解决数 据质量本身的问题。数据规约和数据变换则是为了数据挖掘和分析的需要所进 行的工作。本章详细的描述了数据预处理各个部分包含的具体方法,以及方法 应用的环境。在最后将处理方法和数据质量问题进行了对应定位。 第三章主要清洗方法对比分析 数据预处理中的数据清洗工作往往是整个预处理工作的重点和难点,而数 据清洗工作中的三大难点问题分别是缺失数据处理,噪音数据处理和重复数据 处理。很多研究人员对这三大难点都进行了深入的研究,并且也有很多相关文 章发表。本文的主要应用对象是移动通信数据,数据中的最显著特征是含有大 量缺失值。所以本章将重点介绍缺失数据处理的各种方法,并且对各种方法应 用的特点进行了分析比较。 3 1 缺失数据概述 在实际的应用中所进行挖掘和分析的数据往往含有大量的缺失数据,它的 处理是数据分析和挖掘的难题之一。本章将详细介绍有关缺失数据产生的原因 以及一些处理缺失数据的方法。缺失数据【3 2 】是指在一些粗糙数据中由于缺少相 关信息而造成的数据的聚类,分组,截断。它指的是现有数据集中某个或某些 属性的值是不完全的。缺失值可以分为两类:一类是这个值实际存在但是没有 被观察到,例如客户的性别、年龄;另一类是这个值实际就不存在,这类属性 的缺失不能用缺失值的处理方法进行处理,因为它们未提供任何不完全数据的 信息,它和缺失某些属性的值有着本质的区别。 ( 1 ) 缺失数据产生的原因。 缺失数据的产生的原因多种多样,主要原因如图2 1 2 所示: 图3 - 1 缺失数据产生原因 1 ) 信息被遗漏。数据可能在输入时存在误差或者错误操作而丢失。 2 ) 信息无法获取。比如在市场调查中被访人拒绝透露相关问题的答案,或 者回答的问题是无效的。 3 ) 信息获取代价昂贵。某些数据的获取由于经济原因被迫放弃,造成空缺。 4 ) 无用属性。如儿童的婚姻状况。 1 6 5 ) 系统或机械原因。有些数据由于机械原因导致的数据收集或保存的失败 造成的数缺失。 6 ) 被认为不重要的信息。有些信息被认为不重要而被空缺。 在实际的数据中各类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论