(高等教育学专业论文)数据挖掘中数据预处理的方法研究.pdf_第1页
(高等教育学专业论文)数据挖掘中数据预处理的方法研究.pdf_第2页
(高等教育学专业论文)数据挖掘中数据预处理的方法研究.pdf_第3页
(高等教育学专业论文)数据挖掘中数据预处理的方法研究.pdf_第4页
(高等教育学专业论文)数据挖掘中数据预处理的方法研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

两南人学硕十学位论文 摘要 数据挖掘中数据预处理的方法研究 高等教育学( 数学) 专业硕士学位申请人方洪鹰 指导教师张俊容副教授 摘要 在现代的科研和实际工作中,各行各业都需要对采集剑的各种各样的数据进行处理。如 何从这些海量的数据之中发现更深层次、更重要的信息,使之能够描述数据的整体特征,可 以预测发展趋势,从而生成决策。这就需要进行数据挖掘。 数据挖掘与知识发现过程中的第一个步骤就是数据预处理。统计发现,在数据挖掘与知 识发现的过程中,数据预处理 到了整个工作量的6 0 。因为现实世界的数据往往是不完整的、 含噪声的和不一致的,数据预处理能有效提高数据质量,为数据挖掘内核提供更有针对性的 可用数据,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测 作用。 目前数据预处理的常用步骤包括:数据清理、数据集成、数据变换以及数据归约。 本文总结了目前数据预处理的常用方法,并对其分析和思考。发现有些方法可以在数据 预处理的不同阶段使用,分别达到相应阶段的预处理效果。在预处理中用到了许多的统计方 法,但需要与实际的数据特征和专业知识相结合才能有效地虑用。强调了在预处理的每一个 步骤都要与专业知识和实际应用相结合。考虑到若在数据获得初期就有一定的指导,可以减 少数据获取的盲目性以及不必要的噪声引入,且为后期的工作节约大量的时间和空间,因此 认为应该把数据源的获取作为预处理的一个步骤。在预处理的实际应用过程中,上述步骤并 不是相互独立的,而是相关联的,冈而提倡对数据预处理采取循环的模式。最后针对银行房 贷信用风险评估课题中所遇到的数据预处理问题,结合数据特征,考虑到与之相关的各个冈 素的内在相关性,使用一种基于全局的非线性相关分析技术,这是一种统计方法,来对该问 题进行讨论,并且实证研究。 关键词:数据挖掘数据预处理统计方法 非线。l 生相关分析 两南大学硕十学何论文摘要 a b s t r a c t i nm o d e ms c i e n t i f i cr e s e a r c ha n dp r a c t i c a lw o r k , b u s i n e s s e sn e e daw i d ev a r i e t yo fd a t a c o l l e c t e df o rp r o c e s s i n g h o wt of i n dt h e s em a s s i v ed a t ai n t oad e e p e r ,m o r ei m p o r t a n ti n f o r m a t i o n , s ot h a ti tc a nd e s c r i b et h eo v e r a l lf e a t u r e so ft h ed a t a , t r e n d sc a nb ep r e d i c t e dt o g e n e r a t e d e c i s i o n m a k i n g t h i sn e e d sf o rd a t am i n i n g d a t am i n i n ga n dk n o w l e d g ed i s c o v e r yp r o c e s si nt h ef i r s ts t e pi sd a t ap r e - p r o c e s s i n g s t a t i s t i c s f o u n dt h a ti nd a t am i n i n ga n dk n o w l e d g ed i s c o v e r yp r o c e s s ,t h ed a t ap r e p r o c e s s i n ga c c o u n t sf o r 6 0 o ft h ee n t i r ew o r k l o a d b e c a u s et h er e a l w o r l dd a t aa r eo f t e ni n c o m p l e t ea n di n c o n s i s t e n tw i t h t h en o i s e ,t h ed a t ap r e p r o c e s s i n gc a ne f f e c t i v e l yi m p r o v et h eq u a l i t yo ft h ed a t af o rd a t am i n i n g k e r n e lt op r o v i d eam o r et a r g e t e dd a t aa v a i l a b l e ,n o to n l yc a ns a v eal o to f t i m ea n d s p a c e ,b u ta l s o t h em i n i n gr e s u l t sa r eb e t t e ra b l et op l a yar o l ei nd e c i s i o n m a k i n ga n df o r e c a s t i n g c o m m o nc u r r e n td a t a p r e - p r o c e s s i n gs t e p si n c l u d e :d a t ac l e a n i n g , d a t ai n t e g r a t i o n ,d a t a t r a n s f o r m a t i o na n dd a t ar e d u c t i o n t h i sa r t i c l es u m m a r i z e st h ec u r r e n tc o m m o nd a t ap r e p r o c e s s i n gm e t h o d sa n dt h e i ra n a l y s i sa n d r e f l e c t i o n f o u n dt h a ts o m em e t h o d sc a nb e u s e da td i f f e r e n ts t a g e so fd a t ap r e p r o c e s s i n g , r e s p e c t i v e l y , t h ec o r r e s p o n d i n gp h a s eo ft h ep r e t r e a t m e n te f f e c t i nt h ep r e t r e a t m e n tu s e di n a n u m b e ro fs t a t i s t i c a lm e t h o d s ,b u tt h en e e d sa n dc h a r a c t e r i s t i c so ft h ea c t u a ld a t aa n d e x p e r t i s ec a n b ee f f e c t i v e l ya p p l i e dac o m b i n a t i o n e m p h a s i z e dt h ep r e t r e a t m e n to fe a c hs t e ps h o u l db ew i t ht h e p r o f e s s i o n a lk n o w l e d g ea n dp r a c t i c a la p p l i c a t i o no fac o m b i n a t i o n t a k i n gi n t oa c c o u n tt h ed a t a o b t a i n e di nt h ei n i t i a ls t a g e ,i ft h e r ei ss o m eg u i d a n c e ,c a l lr e d u c et h ed a t aa c q u i s i t i o no fb l i n d n e s s , a sw e l la st h ei n t r o d u c t i o no fu n n e c e s s a r yn o i s e ,a n df o rt h ew o r ko ft h el a t es a v eal o to ft i m ea n d s p a c e ,s ot h a ts h o u l db ea c c e s st ot h ed a t as o u r c ea sap r e t r e a t m e n ts t e p i np r a c t i c a la p p l i c a t i o n so f p r e t r e a t m e n tp r o c e s s ,t h ea b o v es t e p sa r en o ti n d e p e n d e n to f e a c ho t h e r , b u ta s s o c i a t e d ,a n dt h u st o p r o m o t et h ed a t ap r e - p r o c e s s i n gt ol o o pm o d e 。f i n a l l yf o rt h eb a n km o r t g a g ec r e d i tr i s ka s s e s s m e n t o fi s s u e se n c o u n t e r e di nt h ed a t ap r e p r o c e s s i n gp r o b l e m s ,c o m b i n e dw i t ht h ed a t ac h a r a c t e r i s t i c s , t a k i n gi n t oa c c o u n tt h ev a r i o u sf a c t o r sa s s o c i a t e dw i t ht h ei n h e r e n tr e l e v a n c e ,t h eu s eo fan o n l i n e a r c o r r e l a t i o na n a l y s i sb a s e do ng l o b a lt e c h n o l o g y , w h i c hi sas t a t i s t i c a lm e t h o dt od i s c u s st h ei s s u e , a n de m p i r i c a lr e s e a r c h k e yw o r d s :d a t am i n i n g ,d a t ap r e p r o c e s s i n g ,s t a t i s t i c a lm e t h o d s ,n l c a i l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得西南大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文作者:签字日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文i 口不保密, 口保密期限至年月止) 。 学位论文作者签名t导师签名: 签字日期:年月 日 签字日期:年 月 日 学位论文作者毕业后去向: 工作单位:重鏖塞通太堂理堂睫 通讯地址:重鏖塞通太堂理堂瞳 电话:( q 2 ! 2 2 1 垒2 邮编:! ! ! ! ! 垒 两南大学硕十学何论文第1 章绪论 曼曼ii i lilli 一一i n 一_ 曼一一一鼍鼍曼孽鼍皇曼曼曼寰舅 第1 章绪论 1 1 论文的选题意义 在网络技术发达,知识和信息爆炸的现代,各行各业有着各种各样的数据需要处理。数 据挖掘把人们对数据的应用从低层次的简单查询,提升剑从数据中挖掘知识,提供决策支持 服务。 在数据挖掘过程中,人们对数据预处理的投入远远不如对挖掘算法的研究,然而数据预 处理工作却能起到事半功倍的效果。因为现实世界的数据往往是不完整的、含噪声的和不一 致的,数据预处理能帮助改善数据质量,进而帮助提高数据挖掘进程的有效性和准确性。高 质量的决策米白高质餐的数据,冈而数据预处理是整个数据挖掘与知识发现过程中的一个重 要步骤。 本文的目的是通过分析和研究现有的数据预处理方法,寻找更准确、更有效、更合理的 预处理方法,根据实际情况进一步改善数据预处理方法的总体性能。本文总结了目前数据预 处理的常用方法,并对其分析和思考。发现有些方法可以在数据预处理的不同阶段使用,分 别达到相应阶段的预处理效果。在预处理中用到了许多的统计方法,但需要与实际的数据特 征和专业知识相结合才能有效地应用。强调了在预处理的每一个步骤都要与专业知识和实际 应用相结合。同时认为应该把数据源的获取作为预处理的一个步骤,提倡数据的循环预处理 模式。最后针对银行房贷信用风险评估课题中所遇到的数据预处理问题,使用一种基于全局 的1 f 线性相关分析技术,对该问题进行讨论,且实证研究。 1 2 论文的选题基础 近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱 增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。 数据挖掘的处理对象是大量的日常业务数据及科学研究和测量数据,而目前所进行的关 于数据挖掘的研究工作,大多着眼于数据挖掘算法的探讨而忽略了对数据预处理的研究。一 些比较成熟的算法对其处理的数据集合一般都有一定的要求,比如数据完整性好、数据的冗 余性少、属性之间的相关性小。然而,实际系统中的数据一般都具有不完整性、冗余性和模 糊性,很少能直接满足数据挖掘算法的要求。另外,海量的实际数据中无意义的成分很多, 严重影响了数据挖掘算法的执行效率,而且由于其中的噪声干扰还会造成无效的归纳。预处 理已经成为数据挖掘系统实现过程中的关键问题。 数据预处理是数据挖掘的重要一环,而且必不可少。要使挖掘内核更有效地挖掘出知识, 就必须为它提供干净、准确、简洁的数据。数据预处理就是以发现任务作为目标,以领域知 识作为指导,摒弃一些与挖掘目标不相关的属性,为数据挖掘内核提供干净、准确、更有针 对性的数据,从而减少挖掘内核的数据处理量,提高挖掘效率,提高知识发现的起点和知识 两南人学硕十学侍论文第1 章绪论 得准确度。 数据预处理的常规方法: 数据清理( d a t ac l e a n i n g ) 处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识 别或除去异常值,以及解决不一致问题。 数据集成( d a t ai n t e g r a t i o n ) 就是将来至多个数据源的数据合并到一起,形成一致的数据 存储,如将不同数据库中的数据集成入一个数据仓库中存储。之后,有时还需要进行数据清 理以便消除可能存在的数据冗余。 数据变换( d a t at r a n s f o r m a t i o n ) 主要是将数据转换成适合于挖掘的形式,如将属性数据按 比例缩放,使之落入一个比较小的特定区间。这一点对那些基于距离的挖掘算法尤为重要。 包括平滑处理、聚集处理、数据泛化处理、规格化、属性构造。 数据归约( d a t ar e d u c t i o n ) 在不影响挖掘结果的前提下,通过数值聚集、删除冗余特性的 办法压缩数据,提高挖掘模式的质量,降低时间复杂度。 1 3 研究背景 自2 0 世纪6 0 年代以来,我们产生和收集数据的能力正在迅速提高。起作用的因素包括 商务、科学技术和政府部门在内的事务处理的计算机化:数码相机、出版工具和用于大部分 商用产品的条码的广泛使用;由文本和图像扫描平台到卫星遥感系统的数据收集工具的进步。 此外,作为全球信息系统的万维网的流行,已经将我们淹没在数据和信息的汪洋大海中。 数据库中存储的数据量急剧增火,但当时数据库系统所能做剑的只是对数据库中已有的 数据进行存取,通过这些数据获得的信息量仅占整个数据库信息量的一小部分,冈为用来对 这些数据进行分析处理的工具很少,而且有局限性,形成了“丰富的数据,贫乏的知识”的局 面。人们意识到隐藏在这些数据之后的更深层次、更重要的信息能够描述数据的整体特征, 可以预测发展趋势,这些信息在决策生成的过程中具有重要的参考价值。 数据与信息知识之间的巨大差距迫切需要系统地开发数据挖掘工具,来帮助实现将“数 据坟墓”中的数据转化为知识财富。我们说数据挖掘技术是顺势而生的并得到了迅猛发展。 数据挖掘的对象是在现实世界产生的各种各样的海量数据。这些数据可能来自不同的领 域,而且大都是即有噪声又不完整还存在不一致的现象,这些冈素都会影响我们对数据信息 的知识发现和使用。而数据预处理就是以发现任务作为目标,以领域知识作为指导,摒弃一 些与挖掘不相关的属性,为数据挖掘内核提供干净、准确、规范、更有针对性的数据,从而 减少挖掘内核的数据处理量,提高了挖掘效率,提高了知识发现的起点和知识的准确度。 2 0 0 5 年8 月,在第l l 届a c ms i g k d d 国际会议上新西兰怀卡托火学的w e k a 系统荣获了数 据挖掘与知识探索领域的最高服务奖,被誉为数据挖掘和机器学习史上的里程碑。统计发现 在整个数据挖掘过程中,数据预处理花费6 0 左右的时间,而后的挖掘工作只占整个工作量的 1 0 左右。经过预处理,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到 决策和预测作用。 2 两南人学硕十学侮论文 第1 章绪论 1 4 本文研究的主要内容 本文的主要内容如下: 由丁数据预处理是数据挖掘中的一个重要和必要的组成部分,对数据挖掘技术进行了简 述。 接下来介绍数据挖掘中的数据预处理,并总结了数据预处理的常用方法。 本文的重点是对数据预处理方法进行分析和思考。发现有些方法可以在数据预处理的不同 阶段使用,分别达到相应阶段的预处理效果。在预处理中用到了许多的统计方法,但需要与 实际的数据特征和专业知识相结合才能有效地应用。强调了在预处理的每一个步骤都要与专 业知识和实际应用相结合。同时认为应该把数据源的获取作为预处理的一个步骤,提倡数据 的循环预处理模式。最后针对银行房贷信用风险评估课题中所遇到的数据预处理问题,使用 一种基于全局的非线性相关分析技术,对该问题进行讨论,且实证研究。 1 5 论文结构 本文共分五章,各章的内容安排如下: 第l 章绪论。介绍本课题的选题意义、研究基础和背景;确立课题的研究内容和目标。 第2 章数据挖掘简介。因为数据预处理是数据挖掘中的一个重要和必要的组成部分,为 了知识的完整性,对数据挖掘及其基本方法进行了简述。 第3 章数据预处理。介绍数据挖掘中必须进行数据预处理的原冈,并总结了目前数据预 处理的常用方法。 第4 章对数据预处理方法的研究与改进。首先对预处理的方法进行分析和思考,讨论对 数据预处理的整体改进意见,强调应当在预处理的每一个步骤结合专业知识与实际用途,最 后实例研究。 第5 章总结了本文所做上作,并探讨了进一步的研究方向。 3 两南人学硕十学位论文第2 章数据挖掘简介 第2 章数据挖掘简介 近年来,数据挖掘引起了信息产业界和整个社会的极火关注,其主要原冈是存在可以广 泛使用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识 可以广泛用于各种领域,包括市场分析、欺诈检测、顾客保有、产品控制和科学探索等。 数据挖掘( d m ,d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。 这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感 兴趣的知识:发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识, 仅支持特定的发现问题。 还有很多近似的术语,如从数据库中发现知识、数据分析、知识抽取、模式分析、数据 考古、数据采集、信息收割、商业智能、数据融合以及决策支持等。国内的学者也把d a t am i n g 译为数据采掘或数据开采。而术语“挖掘”生动地抓住了从火量的、未加工的材料中发现少 量宝贵金块这一过程的特点,使得“数据挖掘”成为了流行术语。 2 1 知识发现与数据挖掘概述 知识这个词似乎人人都懂,但却往往又谁都说不很清楚是什么。通常,“知识”这个概念 被定义为:“知识是以各种方式把一个或多个信息关联在一起的信息结构”。简言之,知识是 一个或多个信息之间的关联( 关系或联系) 。 人们对于基于数据库的知识发现( k d d ) 下过很多定义,内涵也各不相同,目前公认的这 个定义是由f a y y a d 等人提出的:基于数据库的知识发现( k d d ) 是指从大量数据中提取有效 的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 数据:指一个有关事实f 的集合,用以描述事物的基本信息。 模式:语言l 中的表达式e ,e 所描述的数据是集合p 的一个子集f 霄。f t 表明数据集f 中的数 据具有特性e 。作为一个模式,e 比枚举数据子集f e 简单。 非平凡过程:k d d 是由多个步骤构成的处理过程,包括数据预处理、模式提取、知识评估 及过程优化。所谓非平凡是指具有一定程度的智能性和自动性,而绝不仅仅是简单的数值统 计和计算。 k d d 是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需 要由用户提供。从宏观上看,k d d 过程主要由三个部分组成,即数据整理、数据挖掘和结果 的解释评估。 知识发现( k d d ) 过程由以下步骤的迭代序列组成: 1 数据清理( 消除噪声和不一致数据) 4 两南人学硕+ 学何论文第2 章数据挖掘简介 2 数据集成( 多种数据源可以组合在起) 3 数据变换( 数据转换或统一成适合挖掘的形式) 4 数据归约( 缩小数据规模,但保持原数据的完整性) 5 数据挖掘( 基本步骤,使用智能方法提取数据模式) 6 模式评估( 根据某种兴趣度度量,识别表示知识的真正有趣的模式) 7 知识表示( 使用可视化和知识表示技术,向用户提供挖掘的知识) 步骤1 4 是数据预处理的不同形式,为挖掘准备数据。从中我们可以看出数据预处理在 整个过程中占用了大部分的工作量,是k d d 的一个重要组成部分。 有些文献中将数据挖掘等同于k d d ,许多人把数据挖掘当做术语“基于数据库的知识发 现( k d d ) ”的同义词,而另一些人只是把数据挖掘视为k d d 过程的一个基本步骤,如在j i a w e i h a n 和m i c h e l i n ek a m b e r 合作的专著 d a t am i n i n g :c o n c e p ta n dt e c h n i q u e s ( s e c o n de d i t i o n ) ) ) 中就把数据挖掘视为知识发现过程的一个基本步骤。 数据挖掘步骤可能与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放 在知识库中。在产业界、媒体和数据库研究界,术语数据挖掘比长术语从数据中发现知识更 流。因此,j i a w e ih a n 更提倡广义的数据挖掘观点:数据挖掘是从存放在数据库、数据仓库或 其他信息库中的大量数据中发现有趣知识的过程。 基于这种观点,典型的数据挖掘系统具有如图2 1 所示的主要成分: : 数据清理+ 集成+ 变换+ 归约 : 密颡虿逾 同同同阳 幽幽d 剡 图2 1 典型数据挖掘系统的结构 我们从图中可以看出,数据挖掘系统的基础部分就是其中的数据清理、数据集成、数据 5 两南大学硕+ 学何论文第2 章数据挖掘简介 变换和数据归约,我们将其统称为数据预处理。它是数据挖捌系统中的一个重要组成部分, 冈为现实世界的数据由于其多样性和复杂性,往往是不完整的、含噪声的和不一致的。要使 数据挖掘内核更有效地挖掘出知识,就必须为它提供干净、准确、简沽的数据。冈此,我们 需要在挖掘算法执行之前对数据进行必要的预处理,为数据挖掘提供出高质量的数据,才能 挖掘出有效的知识,在最后的决策过程中得到高回报。 所以我们说数据预处理是数据挖掘的一个重要的、并且是必要的步骤。 2 2 数据挖掘的任务 数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。 ( 1 ) 关联分析( a s s o c i a t i o na n a l y s i s ) 关联规则挖掘是由r a k e s ha p w a l 等人首先提出的。两个或两个以上变量的取值之间存在 某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联 分为简单关联、时序关联和闪果关联。关联分析的目的是找出数据库中隐藏的关联网。一般 用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数, 使得所挖掘的规则更符合需求。 ( 2 ) 聚类分析( c l u s t e r i n g ) 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据 相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相 互关系 ( 3 ) 分类( c l a s s i f i c a t i o n ) 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述, 并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定 的算法而求得分类规则。分类可被用于规则描述和预测 ( 4 ) 预澳l j ( p r e d i c a t i o n l 预测是利用历史数据找山变化规律,建立模型,并由此模型对未来数据的种类及特征进 行预测。预测关心的是精度和不确定性,通常用预测方差来度量。 ( 5 ) 时序模式( t i m e s e r i e sp a t t e r n ) 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与同归一样,它也是用 己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。 ( 6 ) 偏差分析( d e v i a t i o n ) 在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据 存在的异常情况是1 f 常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。 2 3 数据挖掘的方法 6 两南人学硕十学位论文第2 章数据挖掘简介 ( 1 ) 神经网络方法 神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等 特性非常适合解决数据挖掘的问题,因此近年米越米越受到人们的关注。典型的神经网络模 型主要分3 大类:以感知机、b p 反向传播模型、函数型网络为代表的,用于分类、预测和模 式识别的前馈式神经网络模型;以h o p f i e l d 的离散模型和连续模型为代表的,分别用于联想记 忆和优化计算的反馈式神经网络模型:以a r t 模型、k o h o l o n 模型为代表的,用于聚类的自组 织映射方法。神经网络方法的缺点是”黑箱”性,人们难以理解网络的学习和决策过程。 ( 2 ) 遗传算法 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方 法。因具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。 s u n i l 已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的 真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之- - 4 。遗 传算法的应用还体现在与神经网络、粗集等技术的结合上。如利t h j 遗传算法优化神经网络结 构,在不增加错误率的前提下,删除多余的连接和隐层单元:用遗传算法和b p 算法结合训练 神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较甲收敛 问题尚未解决。 ( 3 ) 决策树方法 决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有 价值的,i f 在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。 最有影响和最早的决策树方法是由q u i n l a n 提出的著名的基于信息熵的i d 3 算法。它是非递增 学习算法,其决策树是单变量决策树,表达复杂的概念困难,同性间的相互关系强调不够, 抗噪性差。现在已出现了许多较好的改进算法,如i d 4 递增式学习算法、i b l e 算法等。 ( 4 ) 粗集方法 粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给 出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关 系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集 的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而 现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。 现在国际上已经研制出来了一些基于粗集的工具应用软件。 ( 5 ) 覆盖正例排斥反例方法 它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个 种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思 想循环所有正例种子,将得到正例的规则( 选择子的合取式) 。比较典型的算法有、a q l1 方法、 a q l 5 方法以及a e 5 方法。 7 两南大学硕十学位论文第2 章数据挖掘简介 ( 6 ) 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性关系) 和相关关 系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的分析可采用统计学方法,即利用 统计学原理对数据库中的信息进行分析。可进行常用统计( 求大量数据中的最人值、最小值、 总和、平均值等) 、同归分析( j h j 回归方程米表示变量间的数量关系) 、相关分析( 用相关系数来 度量变量间的相关程度) 、差异分析( 从样本统计量的值得出差异米确定总体参数之间是否存在 差异) 等。 ( 7 ) 模糊集方法 即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分 析。系统的复杂性越高,模糊性越强,一般模糊集合理论是j j 隶属度米刻画模糊事物的亦此 亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换 、模型一云模型,并形成了云理论。 2 4 数据挖掘的发展与前景 自2 0 世纪6 0 年代以来,数据库和信息技术已经系统地从原始的文件处理演变到复杂的和 功能强人的数据库系统。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以t b 计。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运 而生发展起来的数据处理技术,是知识发现的关键步骤。 有需求就有发展,1 9 8 9 年8 月在美国底特律召开的第1 1 届国际人工智能联合会议( a a a i ) 上,首次提出基于数据库的知识发现( k d d ) 一词。数据挖掘出现于2 0 世纪8 0 年代后期, 9 0 年代有了突飞猛进的发展。 数据挖掘是一门应用性很强的学科,它的应用的领域非常广阔,几乎涉及到各个行业,包 括天文学、生物学、经济管理、金融、保险、电力、石油化工、地理地质等领域。只要数据 积累充分,就需要数据挖掘技术。这些应用的需求就更进一步地推动了理论研究的发展。 数据挖掘技术是一个年轻且充满希望的研究领域,汇集了来自机器学习、模式识别、数 据库、统计学以及管理信息系统等学科的成果。多学科的相互交融和相互促进,使得数据挖 掘这一新学科得以蓬勃发展。同时,商业利益的强大驱动力将会不停地促进它的发展每年都 有新的数据挖掘方法和模型问世,人们对它的研究正臼益广泛和深入。 尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高, 尤其是超大规模数据集中数据挖掘的效率:开发适应多数据类型、容噪的挖掘方法,以解决 异质数据集的数据挖掘问题;动态数据和知识的数据挖掘:网络与分布式环境下的数据挖掘 等;另外,近年来多媒体数据库发展很快,面向多媒体数据库的挖掘技术和软件今后将成为 研究开发的热点。 8 两南人学硕十学传论文第3 章数据预处理 第3 章数据预处理 数据预处理( d a t ap r e p r o c e s s i n g ) 是指在对数据进行数据挖掘主要的处理以前, 先对原始数据进行必要的清洗、集成、转换、离散和归约等等系列的处理t 作,以达 到挖掘算法进行知识获取研究所要求的最低规范和标准。 现实世界的数据库往往易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大( 常 常多达数千兆字节,甚至更多) ,并且多半来自多个异构数据源。低质量的数据将导致低质量 的挖掘结果。这就需要进行数据预处理,从而提高数据质量,进而提高挖掘结果的质量。 现在人们已经积累了大量的数据预处理技术。恰当选择和应用这些技术得到更有效的数 据,是一个值得探讨的问题。 3 1 数据预处理的必要性 数据挖掘的对象是从现实世界采集到的大量的各种各样的数据。由于现实生产和实际生 活以及科学研究的多样性、不确定性、复杂性等等,导致我们采集到的原始数据比较散乱, 它们是不符合挖掘算法进行知识获取研究所要求的规范和标准的。主要具有以下特征: 1 、不完整性:指的是数据记录中可能会出现有些数据属性的值丢火或不确定的情况,还 有可能缺火必需的数据。这是由于系统设计时存在的缺陷或者使用过程中一些人为因素所造 成的,如有些数据缺失只是因为输入时认为是不重要的;相关数据没有记录可能是由于理解 错误,或者因为设备故障:与其他记录不一致的数据可能已经删除;历史记录或修改的数据 可能被忽略等等。 2 、含噪声:指的是数据具有不正确的属性值,包含错误或存在偏离期望的离群值。产生 的原冈很多。比如收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现: 数据传输中也可能出现错误。不正确的数据也可能是由命名约定或所用的数据代码不一致, 或输入字段( 如时间) 的格式不一致而导致的。实际使用的系统中,还可能存在大量的模糊 信息,有些数据其至还具有一定的随机性。 3 、杂乱性( 不一致性) 。原始数据是从各个实际应用系统中获取的,由于各应用系统的 数据缺乏统一标准的定义,数据结构也有较大的差异,因此各系统间的数据存在较人的不一 致性,往往不能直接拿来使用。同时来自不同的应用系统中的数据由于合并还普遍存在数据 的重复和信息的冗余现象。 冈此,我们说存在不完整的、含噪声的和不一致的数据是现实世界人型的数据库或数据 仓库的共同特点。一些比较成熟的算法对其处理的数据集合一般都有一定的要求,比如数据 完整性好、数据的冗余性少、属性之间的相关性小。然而,实际系统中的数据一般都不能直 接满足数据挖掘算法的要求。因此我们有进行数据预处理的必要。 同时,我们从k d d 过程和数据挖掘的步骤也可以看出,数据预处理是其中一个重要的而 9 两南人学硕十学位论文第3 章数据预处理 寰皇i i i i i ii i i i = 曼曼曼曼曼曼曼曼曼曼曼皇皇蔓舅曼篡 且是必需的过程。 简言之,实际采集剑的原始数据一般是含噪卢的、不完整的和不一致的,我们需要在数据 挖掘之前先对数据进行预处理,提高数据质量,使之符合挖掘算法的规范和要求。 统计发现:在整个数据挖掘过程中,数据预处理花费6 0 左右的时间,而后的挖掘一r 作只 占整个工作量的1 0 左右。经过数据预处理,不仅可以1 了约大量的时间和空间,而且得到的 挖掘结果能更好地起到决策和预测作用。 3 2 数据预处理的主要方法 数据预处理的主要方法有基于粗糙集理论的约简方法;基于概念树的数据浓缩方法;信 息论思想和知识发现;基于统计分析的属性选取方法:遗传算法。 而常见的数据预处理方法有:数据清洗、数据集成、数据交换和数据归约。下图3 - 1 给 出了数据预处理的典型形式: 簸撵清理 数攘壤成 数据变换一z 3 2 ,1 0 0 , 5 9 , 鸽- 一o 0 2 0 3 2 。1 。0 5 9 。蝣 糍性 l a 3 1 1 5 图3 - 1 数据预处理的典型形式 现在对这儿种方法作简介: 数据清理( d a t ac l e a n i n g ) 处理例程通常包括:填补遗漏的数据值、平滑有噪卢数据、识 别或除去异常值,以及解决不一致问题。将在3 3 节详细讨论。 数据集成( d a t ai n t e g r a t i o n ) 就是将来至多个数据源的数据合并到一起,形成一致的数据 存储,如将不同数据库中的数据集成入一个数据仓库中存储。之后,有时还需要进行数据清 理以便消除可能存在的数据冗余。将在3 4 节详细讨论。 1 0 日 两南人学硕十学何论文第3 章数据预处理 数据变换( d a t at r a n s f o r m a t i o n ) 主要是将数据转换成适合于挖掘的形式,如将属性数据按 比例缩放,使之落入一个比较小的特定区间。这一点对那些基于距离的挖掘算法尤为重要。 包括平滑处理、聚集处理、数据泛化处理、规格化、属性构造。将在3 5 节详细讨论。 数据归约( d a t ar e d u c t i o n ) 在不影响挖掘结果的前提下,通过数值聚集、删除冗余特性的 办法压缩数据,提高挖掘模式的质量,降低时间复杂度。将在3 6 节详细讨论。 需要强调的是,以上所提及的方法并不是相互独立的,而是相关联的。例如,冗余数据 的删除既是一种数据清理形式,也是一种数据归约。而我们做完数据集成之后往往还需要再 次进行数据清理j = 作。冈而本文提出数据的循环预处理模式。 下面的对这些方法进行详细讨论。 3 3 数据清理 数据清理例程的目的是要填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一 致。 3 3 1 填充缺失值 很多的数据都有缺失值。比如,银行房屋贷款信用风险评估中的客户数据,其中的一些 属性可能没有记录值,如客户的家庭月总收入。填充丢失的值,可以用下面的方法: l 、忽略元组:当缺少类标号时通常这样做( 假定挖掘任务涉及分类) 。除非元组有多个 属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比变化很人时,它的性能特 别差。 2 、人工填写缺失值:此方法很费时,特别是当数据集很大、缺少很多值时,该方法可能 不具有实际的可操作性。 3 、使用一个全局常量填充缺失值:将缺失的属性值用同一个常数( 如“u n k n o w n ”或- o o ) 替换。但这种方法冈为大量的采用同一个属性值可能会误导挖掘程序得出有偏差甚至错误的 结论,因此要小心使用。 4 、用属性的均值填充缺失值:例如,已知重庆市某银行的贷款客户的平均家庭月总收入 为9 0 0 0 元,则使用该值替换客户收入中的缺火值。 5 、用同类样本的属性均值填充缺失值:例如,将银行客户客按信用度分类,就可以用具 信用度相同的贷款客户的家庭月总收入替换家庭月总收入中的缺失值。 6 、使用最可能的值填充缺失值:可以用回归、使用9 2 什t - 斯形式化的基于推理的工具或决 策树归纳确定。例如,利用数据集中其他客户顾客的属性,可以构造一棵决策树来预测家庭 月总收入的缺火值。 7 、用最邻近方法填充缺失值: 方法3 6 使数据偏置。填入的值可能不正确。然而,方法6 是流行的策略,与其他方法 相比,它使用已有数据的大部分信息来预测缺失值。在估计家庭月总收入的缺欠值时,通过 1 l 两南人学硕十学位论文第3 章数据预处理 考虑其他属性的值,有更人的机会保持家庭月总收入利其他属性之问的联系。 重要的是,在某些情况下,缺失值并不意味数据有错误! 例如,在申请信用卡时,可能 要求申请人提供驾驶执照号。没有驾驶执照的申请者自然使该字段为空。表格应当允许填表 人使用诸如“无效”等值。软件例程也可以用米发现其他空值,如“不知道”、“? ”或“无”。理想 地,每个属性都应当有一个或多个关于空值条件的规则。这些规则可以说明是否允许空值, 并且或者说明这样的空值应当如何处理或转换。字段也可能故意留下空白,如果它们在商务 处理的最后一步未提供值的话。因此,尽管在得到数据后,尽我们所能米清理数据,但数据 库和数据输入的好的设计将有助于在第一现场最小化缺失值或错误的数量。 3 3 2 光滑噪声数据 噪声( n o i s e ) 是被测量的变量的随机误差或方差。给定一个数值属性,如p r i c e ,我们怎 样才能“光滑”数据,去掉噪声? 我们看看下面的数据光滑技术。 ( 1 ) 分箱( b i n n i n g ) :分箱方法通过考察数据的“近邻”( 即周同的值) 来光滑有序数据的 值。有序值分布到一些“桶”或箱中。由于分箱方法考察近邻的值,冈此进行局部光滑。一般来 说,宽度越大光滑效果越大。箱也可以是等宽的,每个箱值的区间范闱是个常量。分箱也可 以作为一种离散化技术使用,将在3 6 节进一步讨论。 ( 2 ) 回归:可以用一个函数( 如回归函数) 拟合数据来光滑数据。线性同归涉及找出拟 合两个属性( 或变量) 的“最佳”线,使得一个属性可以用来预测另一个。多元线性同归是线性 同归的扩展,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。同归将在3 5 4 节进 一步讨论 ( 3 ) 聚类:可以通过聚类检测离群点,将类似的值组织成群或“簇”。直观地,落在簇集 合之外的值视为离群点。许多数据光滑的方法也是涉及离散化的数据归约方法。例如,上面 介绍的分箱技术减少了每个属性的不同值数量。对于基于逻辑的数据挖掘方法( 如决策树归 纳) ,反复地对排序后的数据进行比较,这充当了一种形式的数据归约。概念分层是一种数据 离散化形式,也可以用于数据光滑。数据离散化将在3 6 节讨论。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论