(计算机软件与理论专业论文)中医小儿肺炎辩证标准数据挖掘系统中的数据预处理技术.pdf_第1页
(计算机软件与理论专业论文)中医小儿肺炎辩证标准数据挖掘系统中的数据预处理技术.pdf_第2页
(计算机软件与理论专业论文)中医小儿肺炎辩证标准数据挖掘系统中的数据预处理技术.pdf_第3页
(计算机软件与理论专业论文)中医小儿肺炎辩证标准数据挖掘系统中的数据预处理技术.pdf_第4页
(计算机软件与理论专业论文)中医小儿肺炎辩证标准数据挖掘系统中的数据预处理技术.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士学位论文 中医小儿肺炎辩证标准数据挖掘系统中的数据预处理技术 摘要 随着信息时代的飞速发展,存储在数据库中的信息呈指数级增长。人们希望从存储 的大量信息中发现隐藏在数据背后的,有价值的知识。传统的数据分析和查询方法已不 能满足这个需求。在这种社会需求的强劲推动下,数据挖掘技术得到了飞速发展。目前, 数据挖掘技术已经成功地应用在社会的各个领域中,包括金融、医疗、科学、工业等等。 数据挖掘技术是一门针对性很强的学科,依据所应用的领域的不同,通常会采用不同的 策略和方法。在数据挖掘技术中,数据预处理技术占据着很重要的位置,是能够挖掘出 有用知识的前提。 中医是我国古代劳动人民留下的宝贵的财富。中医辩证是中医学中的精华,是中医 诊断学的主要研究内容。目前的中医辩证还没有一个统一的标准规范,这限定了中医学 的进一步发展。为解决这一问题,本课题组与辽宁中医学院合作,以中医小儿肺炎为例, 建立了中医d , j t , 肺炎病例数据录入系统,收集了大量的数据,并利用这些数据,运用数 据挖掘技术,试图挖掘出小儿肺炎的证和症状的t q 在规律,以建立客观的中医小儿肺炎 辨证规范。该项目为国家科技部“十五”攻关项目“中医药疗效及安全性基本i ;1 题研究”, 课题名称为“以小儿肺炎为示范建立辨证规范及中医疗效评价方法体系的研究”。 本文以该项目为背景,主要阐述了数据挖掘技术中数据预处理技术及其在中医小儿 肺炎辩证规范数据挖掘系统中的应用。本文首先论述了数据预处理技术所包含的内容, 在数据挖掘技术中的重要性,数据预处理技术中涉及的算法,接下来分析了中医小儿肺 炎辩证规范数据挖掘系统中数据源的特点,并针对该数据源的特点进行了数据完整性处 理、规范化处理、不可靠信息处理及属性约简。针对以往采用粗糙集方法进行属性约简 得到的约简子集不能保证得到最小子集的缺陷,着重探讨了一种新的属性约简方法,即 将粗糙集理论和蚁群算法( a c o ) 相结合,基于粗糙集的a c o 属性约简算 法r a c o 算法 进行属性约简,达到输出最小属性子集的目的。 关键词;数据挖掘;数据预处理;聚类;属性约简;粗糙集:蚁群算法 东北大学硕士学位论文a b s t l a c t d a t a p r e p r o c e s s i n gt e c h n o l o g y u s e di nt h e d a t am i n i n gs y s t e mf o rc h i l d r e n sp n e u m o n i a a b s t r a c t a l o n gw i t hi n f o r m a t i o nt i m er a p i dd e v e l o p m e n t ,t h ei n f o r m a t i o nw h i c hp e o p l en e e dt o s a v ea s s u m e st h ee x p o n e n t i a lo r d e rg r o w s a tt h es a m et i m e ,p e o p l eh o p et of i n do u tt h e v a l u a b l ek n o w l e d g el l i d i n gb e h i n dt h ed a t af r o mt h em a s s i v ei n f o r m a t i o n h o w e v e r , t h e t r a d i t i o n a la n a l y s i sm e t h o dh a sn o tb e e na b l et om e e tt h i sn e e d w i t ht h i sk i n do fs o c i a ls t r o n g d e m a n d ,t h ed a t am i n i n gt e c h n o l o g ya r i s e sa tt h eh i s t o r i cm o m e n t a tp r e s e n t ,t h ed a t am i n i n g h a ss u c c e s s f u l l ya p p l i e di ns o c i e t y sm a n yf i e l d si n c l u d et h ef i n a n c e ,t h em e d i c a ls e r v i c e ,t h e s c i e n c e ,t h ei n d u s t r ya n ds oo n t h ed a t am i n i n gi so n ep o i n t e dv e r ys t r o n gd i s c i p l i n e ,w h i c h c a nu s et h ed i f f e r e n ts t r a t e g ya n dt h em e t h o di nd i f f e r e n ta p p l i c a t i o n s nd a t am i n i n gf i e l d , d a t ap r e p r o c e s s i n go c c u p i e st h ev e r yi m p o r t a n tp o s i t i o n ,i ti st h ep r e c o n d i t i o no fm i n i n g v a l u a b l ek n o w l e d g e t h ec h i n e s et r a d i t i o n a lm e d i c i n ei so u rp r e c i o u sw e a l t hg i v e nb yo u ra n c i e n tt i m e s w o r k i n gp e o p l i n g d i s t i n g u i s h i n gs y m p t o mi se s s e n c ei nt h ec h i n e s et r a d i t i o n a lm e d i c i n e ,i s t h em a i nr e s e a r c hc o n t e n to fd i a g n o s t i c si nc h i n e s et r a d i t i o n a lm e d i c i n e a tp r e s e n tt h e r ei s n o tau n i f o r ms t a n d a r dc r i t e r i o nf o rd i s t i n g u i s h i n gs y m p t o m , w h i c hr e s t r i c t st h ef u r t h e r d e v e l o p i n go ft h ec h i n e s em e d i c i n e f o rs o l v i n gt h i sp r o b l e m ,w ec o o p e r a t ew i t hl i a o n i n g c h i n e s et r a d i t i o n a lm e d i c i n ec o l l e g et ob u i l dt h ed a t am i n i n gs y s t e mo f d i s t i n g u i s h i n gc h i n e s e t r a d i t i o n a lm e d i c i n es y m p t o mf o rc h i l d r e np n e u m o n i a w eh a v ef i n i s h e dt h ei n p u t t i n gd a t a s y s t e mf o rc h i l d r e np n e u m o n i a , w h i c hc o l l e c t e dm a s s i v ed a t a s e t s w ec a nu s et h o s ed a t a s e t s a n da p p l y i n gt h ed a t am i n i n gt e c h n o l o g y , d i s c o v e rt h er u l eo ft h es y m p t o mo fc h i l d r e n p n e u m o n i a , t o c o n s t i t u t et h eu n i f o r ms t a n d a r dc r i t e r i o no fc h i l d r e np n e u m o n i af o r d i s t i n g u i s h i n gs y m p t o m t h i sp r o j e c ti ss u p p o r t e db yn a t i o n a lk e yt e c h n o l o g i e sr & d p r o g r a mi nt h el o t hf i v e y e a rp l a no fc h i n a t h es u b j e c to ft h ep r o j e c ti sb a s i cr e s e a r c ho n c u r a t i v ee f f e c ta n ds e c u r i t yf o rc h i n e s et r a d i t i o n a lm e d i c i n e a n dt h es u b j e c to ft h et a s ki s i i i , 东北大学硕士学位论文 r e s e a r c ho ns y s t e mo fs y n d r o m ed i f f e rr u l e sa n dc u r a t i v ee f f e c te v a l u a t i o ne x a m p l ef o r c h i l d r e np n e u m o n i a t h i sp a p e r , t a k i l 培t h i sp r o j e c ta st h eb a c k g r o u n d ,m a i n l ye x p a t i a t ed a t ap r e p m c e s s i n ga n d t h ea p p l i c a t i o ni nt h ed a t am i n i n gs y s t e mf o rc h i l d r e np n e u m o n i a f i r s t l y , t h ei m p o r t a n c eo f d a t ap r e p m c e s s i n ga n dt h ea l g o r i t h ma p p l i e di nd a t ap r e p r o e e s s i n ga r ei n t r o d u c e d t h e nt h e c h a r a c t e ro ft h ed a t as e t sa r ed e s c r i b e d ,a n dt h ed a t as e t s i n t e g r a l i t y , s t a n d a r d i z a t i o n , u n b e l i e v a b l ea n da r ed o n e r o u g hs e tt h e o r yh a sb e e nu s e da ss u c had a t a s e tp r e p r o c e s s o r 、珩t l l m u c hs u c c e s s ,b mc u r r e n tm e t h o d sa r ei n a d e q u a t ea tf i n d i n gm i n i m a lr e d u c t i o n s t h i sp a p e r p r o p o s e sa n o wf e a t u r es e l e c t i o nm e c h a n i s mb a s e do na n tc o l o n yo p t i m i z a t i o nt oc o m b a tt h i s d i f f i c u l t y , c a l l e dr a c oa l g o r i t h m ,t om a k et h em i n i m a lf e a t u r er e d u c t i o n s k e yw o r d s :d a t am i n i n g ;d a t ap r e p m c e s s ;c l u s t e r ;r o u g hs e t ;a c oa l g o r i t h m ;r a c o t v 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研 究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:写五慧 日期:1 6 f 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文 的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部 分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流,请在下方签名;否则视为同意。) 同意闸乞 学位论文作者签名:弓毛螯导师签名:飞弋du 签字日期:眇6 j签字日期:删,7 东北大学硕士学位论文 第一章引言 第一章引言 1 1 项目研究的背景 中医有着数千年的历史,是我国劳动人民长期同疾病作斗争的极为丰富的经验总结, 是我国宝贵的医学财富。它的理论博大精深,有着自己独特的理论和专业知识体系。中 医为我国人民的保健事业和中华民族的繁衍生息做出了巨大的贡献。 传统的中医诊断疾病包括【1 l :辨病和辨证两部分。狭义的“病”是指由病名所代表 的各个具体病种。每一具体病名,是对该具体疾病全过程的特点与规律所作的病理性概 括。辨病:又称诊病,就是确定疾病的种类和瘸名。即根据四诊( 望闻问切) 等方法所 收集到的临床资料,在中医理论指导下进行综合分析,按照有关“病”的定义,确定疾 病的病种,并对该瘸种的特点和规律进行整体性的诊断思维过程,称为“辨病”或“诊 病”。任何病、证都必然会反映出一定的“症”。辨证就是要通过“症”而认识疾病内 在的病理本质。其中 症:病状。是疾病客观的症状和体征。症状之间、体征之间可有或无联系。例如小 儿肺炎中的发热、咳嗽、恶寒、恶风等。 病:具有特定的病交规律与临床表现的病种。包含特定的病因病机与代表性症状、 证型、证候及治疗规则。例如小儿肺炎等。 证:是医生对致病因素作用于病体,某一阶段病体所反应出的病理证候的概括,是 对疾病当前本质所作的结论。 证候:指每个证所表现的具有内在病理联系的症状、体征。证候为证的外候。 证型:临床较为常见的、典型的、证名规范的、被中医界公认的证的类型。例如中 医小儿肺炎中的风寒闭肺、风热闭肺、痰热闭肺等。 辨病是在辩证的基础上进行。也就是若要进行病的诊断,先要根据其证来判断。因 此辨证是后续治疗过程的基础,只有在准确辩证的情况下,复方用药、针灸等治疗手段 才能获得效果。辩证能在宏观功能层次上指导疾病病因和病机的微观研究,证病相关数 据是难得的医学信息资源。辩证是中医学中最富有特色的科学精华,也是中医诊断学的 主要研究内容。中医辨证标准的研究,对于发展中医理论及提高临床诊治水平,具有极 其重要的意义。 东北大学硕士学位论文 第一章引言 目前,中医学尚缺乏公认的中医辨证规范。1 9 9 4 年国家中医药管理局的中医病证 诊断疗效标准及“十五”规划教材中医儿科学m i l l 炎喘嗽常证: ( 1 ) 风寒闭肺证:恶寒发热,无汗不渴,咳嗽气急,痰稀色白。舌质淡红,苔薄白, 脉浮紧。 ( 2 ) 风热闭肺证:发热恶风,微有汗出,口渴欲饮,咳嗽,痰稠色黄,呼吸急促, 咽红。舌尖红,苔薄黄。脉浮数。 ( 3 ) 痰热闭肺证:壮热烦躁,喉问痰鸣,痰稠色黄,气促喘憋,鼻翼煽动,或口唇 青紫。舌质红,苔黄腻,脉滑数。 ( 4 ) 漫热闭肺证:身热不扬,咳声重浊,痰多粘稠色自或黄。肢体困倦,腹胀, 纳呆,漫赤。舌苔黄腻,脉滑。 ( 5 ) 毒热闭肺证:高热持续,咳嗽剧烈,气急鼻煽,甚至喘憋,涕泪俱无,鼻孔干 燥如烟煤,面赤唇红,烦躁口渴,溲赤便秘,舌红而干,舌苔黄腻,脉滑数。 ( 6 ) 阴虚肺热证:病程延长,低熟出汗,面色潮红,干咳无痰。舌质红而干,苔光 剥,脉细数。 ( 7 ) 肺脾气虚证:病程延长,低热起伏,气短多汗,咳嗽无力,纳差,便溏,面色 淡白,神疲乏力。蹰肢欠温。舌质偏淡,苔薄白,脉细无力。 以往对辩证规范的研究多采用经验式的和逻辑分析的方法。进行病统证或证统病病 证规范,瘸证规范中的病均为中医的疾病。随着研究的深入,逐步过渡到当今以西医疾 病为依托进行辨证规范的研究轨道上来。有关研究也从两方面展开,或病统证,或证统 病,所不同的是,此时的病全部都是西医的疾病。所用规范化方法多为数理统计方法和 逻辑分析方法。存在的倾向性问题是,获取统计量时仍难以摆脱传统的经验模式;所用 的统计方法均是预先给定的,不是由具体病证内在规律决定的,由此得出的结论在多大 程度上揭示疾病与所辖中医证和症状的基本规律尚不得而知。过分强调统计方法,忽视 了逻辑分析的重要作用,通常在没有明确疾病所辖各证的症状阃多种复杂逻辑关系的情 况下便进入统计过程,其分析结果的客观真实性便大打折扣;而在建立具有中医自身特 点且可被学术共同体认可的疗效评价指标和方法体系方面,总体起步较晚,起色不大, 把中医的证作为疗效评价指标,多因辨证规范的问题未解决丽影响了证的疗效判定的客 观性和科学性,另一方面,因未对证的诊断指标和疗效评价指标加以区别,而使评价结 果发生不同程度的偏离。 为解决这一闯题,本项目以中医, j , j l 肺炎为例,建立了中医小儿肺炎病例数据录入 2 东北大学硕士学位论文第一章引言 系统,收集了大量的数据。利用这些数据,运用数据挖掘技术,试图挖掘出小儿肺炎的 证和症状的内在规律,以建立客观的中医小儿肺炎辨证规范。本项目是国家科技部“十 五”攻关项目“中医药疗效及安全性基本问题研究”,课题名称为“以小儿肺炎为示范建 立辨证规范及中医疗效评价方法体系的研究”。将挖掘出的结果与“十五”前期的研究成 果进行比较分析,进行修正分析,最终得出标准的中医d u l 肺炎辩证标准。 1 2 数据挖掘概述 数据挖掘【2 1 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。这个定义包 括的含义:数据源必须是真实的、大量的;发现的是用户感兴趣的知识;发现的知识应 是可接收、可理解、可运用的、仅支持特定的发现问题的知识。从某种角度看,数据挖 掘是一种新的信息处理技术,其主要功能是从大量数据中进行抽取、转换、分析和其他 模型化处理,从中提取辅助决策的关键性数据。但是,有一个最大的问题是:数据量非 常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有用 的信息,就像大海捞针一样,所以数据挖掘可以描述为:按确定1 7 1 标,对大量的数据进 行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的有效 方法。数据挖掘技术是- - i l 交叉学科,融合了数据库、人工智能、机器学习、统计学等 多个领域的理论和技术。目前,数据挖掘技术已经发展成熟,应用在工业、金融、医学、 科学研究、教育、国防、情报等各个领域,并取得了较好的效果。一般的数据挖掘过程 t 3 1 女l l 图1 1 所示。 ( 1 ) 数据清理:也可称为数据清洗。是在数据中消除错误和不一致,并解决对象 知识识别问题的过程。数据清洗包括空值处理、噪声数据处理及不一致数据处理等。 ( 2 )数据集成:数据挖掘需要对数据进行集成,也就是将多个数据源中的数据合 并存放在一个统一的数据存储中。 ( 3 ) 数据选择:数据挖掘过程中并不需要将所有的数据都进行处理,有些数据对 象和数据属性对获得模式是没有帮助和影响的,这些数据应该去除掉,否则会影响数据 挖掘的效果和效率。数据选择是从数据库中检索与分析任务相关的数据。 ( 4 ) 数据变换:数据源中的数据存在形式,有可能不一致或不适合挖掘,需要进 行数据变换,将数据统一成适合挖掘的形式,如通过汇总或聚集等操作。 ( 5 ) 数据挖掘:这是进行数据挖掘的最重要的一步,通过一定的算法进行知识的 3 东北大学硕士学位论文第一章引言 发现。 ( 6 ) 模式评估:数据挖掘系统会产生很多模式或规则,但对于特定用户而言,并 非所有的模式都是有趣的。需要根据用户确定的阀值,识别表示知识的真正有趣的模式。 ( 7 ) 知识表示:直接挖掘出来的知识不能被用户很好的识别,需要通过可视化和 知识表示技术向用户进行知识的展示,这样有助于理解所获得的知识并检验知识的真伪 和实用性。 图1 1 数据挖掘过程 f i g 1 1t h e h o e c s so f d a t am i n i n g 通常将数据清理、数据集成、数据选择和数据变换合在一起,统称为数据预处理技 术,目的是为挖掘工作提供符合挖掘要求的数据,以便得到理想的效果。一般情况下, 由于在现实生活中的数据存在着各种各样的问题,因此,数据预处理过程所花费的时间 要占用整个知识发现过程的8 0 左右。数据挖掘是整个知识发现过程中的一个最重要的 阶段。首先要确定挖掘任务,如数据分类、聚类、关联规则,时间序列分析等,然后进 行算法的选择。对于不同的数据特点,不同算法的执行效率和效果可能会有所不同a 根 据实际情况进行算法的选取,如果结果不能达到预期目标,就要重新进行算法的选择。 东北大学硕士学位论文 第一章引言 可能需要不断的进行调整和修正,最终完成挖掘任务。 1 3 建立中医, j 、) l , f l i t i 炎辩证规范与数据挖掘技术相结合的意义 本项目突破了以往辨证规范预先给定数学模型的研究方式,通过数据挖掘技术揭示 中医小儿肺炎证的构成和证属症状的构成规律及关联关系。由这些规律出发,推导出符 合客观规律的优化的辨证模式,再经反复验证加以确认。运用此法建立的辨证模式,可 明显提高疗效评价的客观化和科学化水平:将中医证规范研究与中医疗效研究进行等位 挖掘,摆脱了以往研究中只是针对部分环节进行分析与统计,忽视了其他环节对于总体 的影响。改变过去将中医证候一概分为二级的固定模式,采用定量与定性相结合的方法, 建立, j , j l 肺炎各证中医证候三级( 特异症状、主要症状和次要症状) 分类法。采用逻辑 分析方法全面廓清症状间的各种关系,确保症状量化和疗效评价的客观化。采用数据挖 掘技术揭示在统一的干预条件下症状演化、消失的关联关系以及症状变化对证演变以及 疗效判断的贡献率,便于客观确认符合中医学特点的疗效评价指标;将中医+ j l 舌诊诊 断、西医肺部哕音数字化分析与中医辨证和病证疗效进行相关分析,为某些非量化指标 提供了量化标准,实现病证诊疗的客观化。提出症状特征和症状间各种逻辑关系的确认 方法: 复合症状拆分的原则和方法 注释性症状属性韵确认方法 共时症状和历时症状的确认方法 极端症状的确认方法 起鉴别诊断意义的症状的确认方法 试图利用数据挖掘技术,揭示在众多病例数据中隐藏的辩证规范,从而建立中医小 儿肺炎辩证标准。利用聚类分析方法,重新确认, b j l r i 炎的各个证,各证症状的基本构 成;利用关联规则方法,确认症状间的关联关系:利用粗糙集中属性重要度,确认症状 对病证诊断和疗效评价的贡献率;采用时间序列方法,可以实现症状变化的预测及规律。 通过以上数据挖掘方法重新建立一套新f 黔b n , j 、儿肺炎辩证标准。将新建立的中医, b j l , 肺炎辩证标准与十五前期的辩证标准,以及西医标准之间在病证诊断和疗效评价方面的 优劣进行比较,通过取舍和修正最终建立小儿肺炎辩证规范、疗效评价方法和方法体系。 东北大学硕士学位论文第一章引言 1 4 主要研究内容 中医小儿肺炎数据挖掘系统的主要研究内容包括:运用经典的数据挖掘算法或针对 中医病例数据的特点进行改进的数据挖掘算法,以小儿肺炎病例数据作为数据源进行挖 掘工作。这里主要是包括了关联规则算法的研究和应用,聚类算法的研究和应用,时间 序列方法的研究和应用以及粗糙集方法在中医小儿肺炎系统中的应用等。通过数据采集、 录入、数据预处理、数据挖掘算法的应用,来重新建立新的中医d 、j l , 肺炎辩证规范。 本论文作为该课题的一个子系统,主要完成数据预处理部分的研究和应用工作。论 文的主要研究内容包括:对各个独立的c r f 数据录入系统进行数据韵集成,形成一个统 一的数据文件:数据清理填充缺失值、去掉不一致数据、噪声数据;使用r a c o 算法 进行属性约简,去掉冗余属性;将数据分割成挖掘用数据集、验证数据集这几方面工作。 本论文的结构如下: 本文的内容分为六章,第一章介绍了本项目的研究背景和数据挖掘技术的基本知识, 以及本课题研究的主要问题及意义。第二章介绍了论文研究所涉及到的相关知识t 第三 章概述了建立中医小儿肺炎辩证规范的数据挖掘系统的总体框架。第四章详述了建立中 医小儿肺炎数据挖掘系统中数据预处理子系统的流程和所涉及的技术。第五章主要描述 了数据预处理子系统的具体设计和实现。第六章对本文进行了总结。 _ 6 东北大学硕士学位论文第二章数据预处理综述 第二章数据预处理综述 数据挖掘过程可以大致分为四个部分:数据采集、数据预处理、数据挖掘以及结果 的解释评估。目前所进行的关于数据挖掘的研究工作,大多着眼于数据挖掘的算法的探 讨,一些成熟的算法对其处理的数据集都有一定的要求,比如数据完整性好,数据的冗余 性少,属性之间的相关性小等。然而,实际系统中的数据一般都具有不完整性、冗余性和 模糊性,很少能直接满足数据挖掘算法的要求。另外,实际数据中无意义的成分很多, 严重影响了数据挖掘算法的执行效率,而且由于其中的噪声干扰还会造成无效的挖掘。 因此,数据预处理已经成为数据挖掘系统实现过程中的关键技术。 数据预处理技术在过去几年里已经得到广泛的研究【4 1 。数据预处理以领域知识作为 指导,来组织原来的业务数据,放弃一些与挖掘目标不相关的属性,提供高质量的数据, 从而减少数据挖掘的数据处理量,提高了挖掘算法的效率,提升了数据挖掘的起点和知 识的准确度。本章主要介绍数据挖掘中数据预处理的基本概念、数据预处理要完成的基 本功能以及数据预处理阶段涉及到的算法。 2 1 数据相关概念 数据属性一般分为两种:离散型( d i s c r e t e ) 和连续型( c o n t i n u o u s ) 。离散型属性也 被称为符号的( s y m b o l i c ) 、名称的( n o m i n a l ) 、类别的( c a t e g o f i c a l ) 、定性的( q u a l i t a t i v e ) 、 分类的( c l a s s ) ;连续型属性也被称为实数的( r e a l ) 、有序的( o r d e r e d ) 、数值的( n u m e r i c a l ) 、 定量的( q u a n t i t a t i v e ) 、区间的( i n t e r v a l ) 。许多数据挖掘算法对属性类型有明确的要求, 这就要求在这两种类型间进行转换。 2 2 实际数据存在的问题 进行数据挖掘的数据来源于实际应用系统的数据库或其他数据文件。但这些数据通 常存在以下几方面的问题: ( 1 ) 杂乱性。原始数据是从各个实际应用系统中获取的( 多种数据库、文件系统) , 由于各个实际应用系统的数据缺乏统一标准和定义,数据结构也有较大的差异,l 因此各 系统间的数据存在较大的不一致性,往往不能直接拿来使用。 ( 2 )重复性。是指对于同一个客观事物在数据库中存在两个或两个以上完全相同 。7 东北大学硕士学位论文 第二章敷据预处理综述 的描述。本系统的数据来源于多个数据库或其他数据文件,每个系统可能都是自治的。 这样在将它们的数据进行汇总来进行数据挖掘时,很有可能存在数据的重复和信息的冗 余现象。 ( 3 ) 不完整性。由于实际系统设计时存在的缺陷,以及一些使用过程中人为因素 所造成的影响,可能出现有些数据属性的值丢失或不确定的情况,还可能缺少必需的数 据而造成数据不完整。实际使用的系统中,存在大量的模糊信息,有些数据甚至还具有 一定的随机性质。 有一句著名的行话“垃圾入,垃圾出”( g a r b a g ei n ,g a r b a g eo u t ) 很适合这种情况。 高质量的数据和有效的技术一样,决定着整个工作的效果好坏。如果进行挖掘的算法是 基于这些脏数据的,那么挖掘效果会受到噪声的干扰而产生偏差。因此采用数据预处理 技术,对数据库中的数据进行处理,清除虚假无用的数据是进行有效数据挖掘的基础。 2 3 数据预处理的主要任务 数据预处理技术是在进行数据挖掘工作之前,数据导入中进行,通过数据清理、数 据集成和变换、数据规约、离散化和概念分层生成处理,以提高现实世界中的数据质量。 数据预处理是整个数据挖掘过程中非常重要的一步。般数据预处理的基本步骤如下图 2 1 所示: 匝互h 錾翟,屯至巫 咂巫怔圆 图2 1 数据预处理过程 f i g 2 1d a t ap r e p r o c e s s i n go v e r v i e w 2 3 1 数据集成 本系统进行数据挖掘的数据源通常来自多个不同的数据库或数据文件,这样就需要 首先将这些分散的数据进行集成,获得具有可用格式的数据,形成一个统一的数据集, 以便对数据进行处理和挖掘。在进行数据集成过程中,会涉及三方面问题; ( 1 ) 模式集成:模式集成从多个异构数据库、文件或遗留系统提取并集成数据,解 决语义二义性,统一不同格式的数据,消除冗余、重复存放数据的现象。因此,模式集 成涉及实体识别,即如何表示不同数据库中的字段是同一个实体,如何将不同信息源中 8 一 东北大学硕士学位论文第二章数据预赴理综述 的实体匹配来进行模式集成,通常借助于数据库或数据仓库的元数据进行模式识别,帮 助避免模式集成中的错误。此外,数据可能来自多个实际系统,因而存在异构数据的转 换问题和数据类型的选择问题。 ( 2 ) 冗余处理:数据集成往往导致数据冗余,如同一属性多次出现、同一属性命名 不一致等。对于属性间冗余可以用相关分析检测到,然后将其删除。 ( 3 ) 数据值冲突的检测与处理:由于表示、比例、编码等的不同,现实世界中的同 一实体,在不同数据源中的属性值可能不同。这种数据语义上的歧异性是数据集成的最 大难点。 2 3 2 数据清理 现实世界的数据一般是脏的、不完整的和不一致的。数据清理的工作试图填充空缺 的值、识别孤立点、消除噪声,并清除数据中的不一致。这是数据准备过程中最花费时 间、最乏味,但也是最重要的步骤。下面逐一说明数据清理采用的方法。 2 3 2 1 空缺位处理 信息被收集、合并以后,几乎在每个数据集中都存在缺失值。对于含空缺值比例比 较小的数据集,删除含空值的数据记录不失为一种有效的方法。然而空值达到一定比例 时,如采用直接删除方法将大大减少数据集中的记录,将可能丢失大量的信息。因此, 空值也是数据清洗的一项重要内容。一般对于缺失值的处理方法如下所示: ( 1 ) 均值替换法:计算数据集中空缺值域属性的平均值,并用该值替换空缺值。 ( z ) 专家经验法:业务领域专家制定相应的领域规则,然后根据这些规财推测空 缺值的取值。 ( 3 ) c o l dd e c k 猜测:根据以往分析中所得到的数据取代空缺值。 ( 4 ) 回归分析法:利用回归分析法分析空缺值属性和其他属性的关系,从而推测 空缺值的取值。 ( 5 ) 数据挖掘法:使用数据挖掘技术,通过已有的数据集预测空缺值的可能取值。 2 3 2 2 孤立点和错误数据处理 孤立点是一个变量的值只出现一次或出现频率很低,它与均值和这个变量的主要值 的距离很远。孤立点通常被忽略或视为噪音。尽管有不少机器学习和数据挖掘的算法考 虑了孤立点,但他们的目的只是使他们的算法尽可能小的免受孤立点的影响,或者排除 9 东北大学硕士学位论文 第二章数据预处理综述 它们。在很多应用里,例外事件常常比普通的事件更有意义。在国外,孤立点检测大多 用于电信和信用卡诈骗检测、贷款审批、医药研究、天气预报、电子贸易中的犯罪插动 检测,甚至在n b a 比赛和n h l ( n a t i o n a lh o c k e yl e a g u e ) 数据中,孤立点检测都有其应用。 在数据仓库领域,孤立点检测被用来发现不一致的数据,提高数据质量。 孤立点挖掘可以描述如下:给定一个n 个数据点或对象的集合,及预期的孤立点数目 k ,发现与剩余的数据相比是显著相异的、异常的或不一致的前k 个对象。孤立点挖掘问 题可以被看作两个子问题:在给定的数据集合中定义什么样的数据可以被认为是不一 致的;找到一个有效的方法来挖掘这样的孤立点。孤立点的定义是非平凡的,如果采 用一个回归模型,偏差的分析可以给出对数据“极端性”的很好的估计。但是,当在时 间序列数据中寻找孤立点时,它们可能隐藏在带趋势的、季节性的或者其它周期性变化 中,这项任务非常棘手。当分析多维数据时,不是任何特别的一个,而是维值的组合可 能是极端性的。对于非数值型的数据( 如分类数据) ,孤立点的定义要求特殊的考虑。 至今,已经开发了大量的孤立点检测算法,这些算法可以分成:基于统计的方法、 基于距离的方法、基于偏离的方法、基于密度的方法和基于聚类的方法。 ( 1 ) 基于统计的方法对给定的数据集合假设了一个分布或概率模型( 例如一个正态 分布) ,然后根据模型采用不一致检验( d i s c o r d a n c et e s t ) 来确定孤立点。该检验要求知 道数据集参数( 倒如假设的数据分布) 、分布参数( 例如均值和方差) 和预期的孤立点的 数目。基于统计学的方法检测孤立点的一个主要缺点是,绝大多数检验是针对单个属性 的,而许多数据挖掘问题要求在多维空间中发现孤立点。而且,统计学的方法要求关于 数据集合参数的知识,例如数据分布。但是在诲多情况下,数据分布可能是未知的。当 没有特定的检验时,统计学方法不能确保所有的孤立点被发现,或者观察到的分布不能 恰当地被任何标准的分布来模拟。 ( 2 ) 基于距离的方法是通过数据点或对象之闻的距离来检测孤立点的。如果数据集 合s 中对象至少有p 部分与对象。的距离大于d ,则对象。是一个带参数p 和d 的基于距离的孤 立点,b o ( d b ) d b ( p ,d ) 对许多不一致性检验来说,如果一个对象。根据给定的检验是一个 孤立点,那么对恰当定义的p 和d ,o 也是一个d b ( p ,d ) 孤立点。例如,如果离平均值偏 差或更大的对象被认为是孤立点,假设一个正态分布,那么这个定义能够被一个d b 0 孤立点所概括。目前已经开发出了多个高效的挖掘基于距离的孤立点的算法,主要有: 基于索弓i 的算法。嵌套循环算法,基于单元( c s l l - b a s e ) 的算法。 ( 3 ) 基于偏离的孤立点检测不是通过统计检测或基于距离的度量来确定异常对象。 东北大学硕士学位论文第二章数捂预处理综述 相反,它通过检查一组对象的主要特征来确定孤立点。与给出的描述偏离的对象被认为 是孤立点。基于偏离的孤立点检测方法主要有两种:第一种顺序地比较一个集合中的对 象;第二种则采用o l a p 数据立方体的方法。 ( 4 ) 基于聚类的方法是利用聚类算法,将数据集进行聚类,使得同一个类中的记录 具有很大的相似度,而不同类中的记录的相似度很小。那些没有被纳入到任何类的记录 即为孤立点。目前,现成的聚类算法很多,例如k - m e a n s 算法5 1 ,层次算法l 、密度算法 【7 】、网格算法【8 l 、模式算法f 9 1 等等。可以根据系统的实际需要选择一个合适的算法进行聚 类,将没有纳入到任何类的点视为孤立点,再做进一步的处理。 发现一个数据集中的孤立点和错误数据是一门科学,也是- - l l 艺术。深入了解自己 的数据是一种最有效的方法。可以依据数据的特点和背景来编制相关算法等进行孤立点 和错误数据的处理。 2 3 2 3 不一致数据处理 在有些系统中,同一意义的属性字段同一记录的值,在不同的数据文件中记录的数 值却有可能不一致,这时需要进行不一致数据的处理。可以采用其他材料进行人工纠正 的方式,或是采用算法挖掘出属性字段之间的函数依赖,进而查找出违反规则的值。 2 3 3 数据变换 数据变换主要是找到数据的特征表示,将数据转换成适合挖掘的形式,包括以下内 容: ( 1 ) 平滑处理:去掉数据中的噪声,这种技术包括分箱、聚类、回归。 ( 2 ) 聚类:对数据进行汇总和聚集,用来为多粒度数据分析构造数据立方体a ( 3 ) 数据概化:使用概念分层,用商层次概念替换低层次“原始”数据,例立n t i m e 可以映射到较高层次的概念,如:d a t e ,m o n t h 和y e a r 。 ( 4 ) 规范化:将属性数据按比例缩放,使之落入一个小的特定区间。 ( 5 ) 最小一最大规范化:对原始数据进行线性变换。设m i n a 和m a x a 分别为属性a 的最小最大值,则最小最大规范化训算公式为: v = ( v m i n ) ( m a x - r a i n ) ( n e w m a x a - - n e w m i n 一+ n e w m i n ) ( 2 1 ) 将a 值映射到区间 n e w m i n ,n e w m a x 。 ( 6 ) 小数定标规范化:通过移动属性a 的小数点位置进行规范化,规范化公式 东北大学硕士学位论文第二章数据预处理综述 为:v = v l o ,其中,j 是使得m a x ( i y f ) 1 的最小整数。 ( 7 ) 属性构造:根据已有属性集构造新的属性,以帮助数据挖掘过程。 2 3 4 数据分翻 数据分割的意义在于构造高精度的数据挖掘模型。将原始数据集分割为挖掘用数据 集、验证集。挖掘用数据集用于数据挖掘模型的构造:验证集缺省时用于数据挖掘模型 的评估,也可用于数据挖掘模型的修正。然而,少量数据是不适合作数据分割的,会使 数据挖掘失去普遍性。 通常,采用采样技术进行数据分割。这适合任意数据挖掘模型。通过简单随机采样 或分层随机采样等方法,将数据集分割成挖掘用数据集、验证集。 2 4 数据预处理常用的算法和方法 在数据挖掘的数据预处理阶段,可以应用各种算法完成数据预处理任务。涉及到的 算法有:聚类算法、关联规则算法、粗糙集方法等。在颚处理中聚类算法可以用于孤立 点的发现;关联规则可以用于进行属性之间的关联关系,以便用这种关联关系进行数据 正确性的检查;在预处理中使用粗糙集,可用于填充缺失数据,进行属性约简等。 2 4 1 聚类算法 聚类( c l u s t e r i n g ) 就是将数据对象分组成为多个类或簇( c l u s t e r ) ,在同一个簇中的 对象之间具有较高的相似度,而不同簇中的对象阀差别较大。也就是说把整个数据分成 不同的组,并使组与组之间的差距尽可能大,组内数据的差距尽可能小。数据聚类正在 蓬勃发展,与其相关的研究领域包括数据挖掘,统计学,机器学习,空间数据库技术, 生物学以及市场营销学。由于数据库中收集了大量的数据,聚类分析已经成为数据挖掘 研究领域中一个非常活跃的研究课题。主要应用于:商务,聚类能帮助市场分析人员从 客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征;生物学, 聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识 聚类在地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根据房子的类 型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。 在机器学习领域,聚类是无指导学习( u n s u p e r v i s e dl e a r n i n g ) 。与分类不同,聚类不 一1 2 东北大学硕士学位论文i t - - 章数据预处理综述 信赖预先定义的类和带类标号的训练。由于这个原因,聚类是观察式学习,而不是示例 式学习。而分类是用户知道数据可分为几类。将要处理的数据按照分类分入不同类别, 也称为有监督学习,聚类分折和分类通常是一个互逆的过程。基本的聚类方法:划分方 法,层次方法,基于密度的方法,基于网格的方法和基于模型的方法。聚类分析的一些 典型算法如下: ( 1 ) 划分方法( p a r t i t i o n i n gm e m o d ) 。给定一个n 个对象或元组的数据库,一个划分 方法构建数据的k 个划分,每个划分表示个聚簇,并且k s n 。也就是说,它将数据划分 为k 个组,同时满足如下的要求:1 ) 每个组至少包含一个对象;2 ) 每个对象必须属于且 只属于一个组。给定要构建的划分的数据k ,划分方法首先创建一个初始划分。然后采用 一种迭代的重定向技术,尝试通过对消在划分间移动来改进划分。一个好的划分的一般 准则是:在同一个类中的对象之间尽可能“接近”或相关,而不同类中的对象之间尽可 能“远离”或不同。为了达到全局最优,基于划分的聚类要求穷举所有可能的划分。划 分法的代表算法有:k - m e a n s 算法,k - m e d o i d s 算法,c l a r a n s 算法。 ( 2 ) 层次的方法( h i e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论