(系统工程专业论文)决策树在数据挖掘中若干问题的研究.pdf_第1页
(系统工程专业论文)决策树在数据挖掘中若干问题的研究.pdf_第2页
(系统工程专业论文)决策树在数据挖掘中若干问题的研究.pdf_第3页
(系统工程专业论文)决策树在数据挖掘中若干问题的研究.pdf_第4页
(系统工程专业论文)决策树在数据挖掘中若干问题的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(系统工程专业论文)决策树在数据挖掘中若干问题的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 决繁瓣鼹一穆奄效靛数据挖掘隽法;迸一步改进决策树,瓣商橇簸树昀性能, 绩箕更热这螽数据挖掘技寒魏发展要求其寅蘩要的理论和实践意义。本文瓣浃繁 树算法中涉及的连续属性离散化问趱进行了深入研究,提出了一种离效的离散亿 算法并对两葺申颞型的改进决策树方法进行了研究,主要包括以”f 几个方瑟的晦 窑: 提出了种将神缎网络年口决娥树相结台盼数据分类耨方法。该方法蓄先依握 藩性重要健将属性遴幸亍捧侉,然器碾过r b f 神经网络迸行属性簸减,最后生成决 策搪,井抽取出规则。与传统的决策树分类方法相比。此方法诳依据属性蒸罄性 蛊接生或簸小决策树,避兔了橱的裁减遘程,大大飙快决繁树辅生箴效率,势遘 步提高了规则的预测耩度。 分橱了蓥予壤躺离散纯标准的切点特熬,提出了一耱离散的基于边界点属性 筐念并鞠不一致度检验浆聪槛离散健算法。与婕统离敬他辣法栩比,此算法只对 逾赛点餍程德进:l 亍套势,切点个数无蔫谩爱爨动生成,虽会筹蠼刚麓单赛聋子,丈 大溅小了计算量,适用于处理大规横i 断维数据库的逑续属性离散化问题。同时由 于甏爝了苓一致度对餐选诵点集合进行谣熬健本算浚是毫衾褥瞧。 提出了种适台予大蹴攘高维数据库的组含税化决繁橱髯法。糯耽子传统的 类似算法该算法从数据的离散化,降维。属性遮掩三方露邀露敬进,对决繁耩 建立过程中不适应大规模商维数撼库的主要坏节谶彳亍了优化。裔效解决了处瑗大 埂模巍缨数攒瘴阚趱黔效攀鞠楗度乏闳的矛盾。 关键词:凌策礴数据分炎羼蛙离簸纯 a b s t r a c t d e c i s i o nt r e ei s 黼e f f i c i e n td a t am i n i n gm e t h o d i tp o s s e s s e si m p o r t a n tt h e o r e t i c a n dp r a c t i c es i g n i f i c a n c ef o rd e c i s i o nt r e et om a k em o r ei m p r o v e m e n ta n dr a i s et h e p e r f o r m a n c e ,s 1 3a s 协m a k ed e c i s i o nt r e em o r es u i t a b l ef o rt h er e q u i r e m e n to fd a t a m i m n gt e c h n i c sp r o g r e s s t h i sp a p e rd e e p l ys t u d i e s t h ec o n t i n u o u sa t t r i b u t e s d i s c r e t i z a t i o n p r o b l e mo fd e c i s i o nt r e ea l g o r i t h ma n dp r e s e n t s 觚e f f i c i e n t d i s c r e t i z a t i o na l g o r i t h m ,e x p l o r e st w on e wi m p r o v e dd e c i s i o nt r e em e t h o d s ,m a i n l y i n c l u d e ss e v e r a la s p e c t s 曩sf o l l o w s : an e wd a t ac l a s s i l y i n gm e t h o db a s e do nc o m b i n a t i o no fn e u r a ln e t w o r ka n d d e c i s i o nt r e ei sp r e s e n t e d ,t h em e t h o df i r s t l yr a p e sa t t r i b u t e sb a s e do nt h ei m p o r t a n c e o ft h ea t t r i b u t e s ,a n dt h e np r u n e st h ea t t r i b u t e su s i n gr b fn e u r a ln e t w o r k ,f i n a l l y b u i l d sad e c i s i o nt r e ea n de x t r a c t s r u l e s c o m p a r e dw i 蜘t h et r a d i t i o n a ld a t a c l a s s i 玲i n gm e t h o d su s i n gd e c i s i o nt r e e ,t h ep r e s e n tm e t h o dc a ng a i nt h em i n i m a l d e c i s i o nt r e es t r a i g h tw i t h o u tp r u n i n g ,w h i c hl a r g e l yr i s e st h ee f f i c i e n c yo fb u i l d i n g d e c i s i o nt r e e 柚di m p r o v e st h ep r e d i c t i o np r e c i s i o no fr o l e sp r o d u c e d t h ec h a r a c t e r i s t i co fc u tp o i n t so fe n t r o p y - b a s e dd i s c r c f i z a t i o ni sa n a l y z e d ,a n d a ne f f i c i e n ta t t r i b u t ed i s c r e t i z a t i o na l g o r i t h mb a s e do nb o u n d a r yp o i n t s a t t r i b u t e v a l u e s m e r g i n ga n di n c o n s i s t e n c yc h e c k i n gi sp r o p o s e d c o m p a r e dw i t h t h e t r a d i t i o n a ld i s 岔r e t i z a f i o na l g o r i t h m s ,t h ep r e s e n tm e t h o do n l ym e r g e st h eb o u n d a r y p o i n t s a t t r i b u t ev a l u e s ,a u t o - g e n e r a t e st h en u m b e ro fc u tp o i n t sw i t h o u ts e t t i n gt h e m i na d v a n c e ,a p p l i e ss i m p l er u l e st om e r g et h ei n t e r v a l s ,a n dr e d u c e st h ec o m p h t a t i o n a l c o s tg r e a t l y i ti 9s u i t a b l ef o rl a r g es c a l ea n dh i g hd i m e n s i o nd a t a - b a s ed i s c r e t i z a t i o n p r o b l e m 。b e c a u s eo fa p p l y i n gi n c o n s i s t e n c yt oc h e c kt h ec h o s e nc u tp o i n t ss e t ,t h e a l g o r i t h mp o s s e s s e sg l o b a lp r o p e r t y ac o m b i n e do p t i m i z a t i o nd e c i s i o nt r e ea l g o r i t h mt h a ti ss u i t a b l ef o rl a r g es c a l e a n dh i g hd i m e n s i o nd a t a - b a s ei s p r o p o s e d c o m p a r e d w i t ht r a d i t i o n a ls i m i l a r a l g o r i t h m s ,t h ea l g o r i t h mm a k e si m p r o v e m e n t sf r o mt h r e ea s p e c t s :d i s e r e t i z a t i o n , r e d u c i n gd i m e n s i o n ,a t t r i b u t es e l e c t i o n ,w h i c ho p t i m i z e st h em a i np r o c e s s e sa n d m a k e si ts u i t a b l ef o rl a r g es c a k :a n d 赫g hd i m e n s i o nd a t a - b a s e ,a n de f f e c t i v e l ys o l v e s t h ec o n f l i c tb e t w e e ne f f i c i e n c ya n dp r e d i c t i o np r e c i s i o n k e yw o r i d s :d e c i s i o nt r e e ,d a t ac l a s s i f y i n g ,a t t r i b u t ed i s c r e t i z a t i o n 独创性声明 奉入声明所曼交缒攀位论文楚本大在簪灏指箨下进行的姘究工侔翻敬得的 磅究残暴,除了文中将掰粒戳标注鞠致谗之处外,论文中不包含其能人已经发表 或撰写避的骈究残暴,墩不瞧古为获褥墨塞叁堂或其艳教霄椒褥懿学彼或证 书而使用过的材料。与我一同工作的同志对率研究所做的侄何擞献均已在论文中 搴了髓确静说聪并表示了谢意。 学位论文作者蕊名艄整字日期; 掣箩年,月g ;_ l 学位论文舨权使用授权书 本学彼沦文传者完爱了解蠡逮盘曼畜燕稼窝、使鞠学经论文豹嫂定。 特授权盘建盘壁可以将学位论文的全部或部分内容编入露关数据库遴行检 索,并采用影印、缩印或扫描等复制手段保存、托编以供鸯阅和借阑。同意学校 窳匡黎膏关辩f 或搬掏遴交论文驹艇印拌帮磁盘。 傈密静学经论文在辩密后适翔零疆权说碉) 学穗论文裙赣签名;导辩镰名: 签争霸期:哆吁,月6 日 签字霹麓;,广譬,隽,琏 第一苹鳍论 第一章绻论 零章蓄毙对数懿挖稻酌基本概念避行了简要夯缨,阐明了本文所选课联的研 究背景及英所其骞的研究输德,然嚣谮逮了缓领域瓣裁的研究避震,最后综述了 本文的主簧研究工作和创颓点。 1 1 零文黼逸曩豫囊与研究意义 穗被喻为信息时代的2 0 世纪9 。簪代班柬,信息技术已成为擞县活力的领域。 萤患技术黪遗猛发攫,氆人们可戳赣攀方馕地装取张存褚夫纛觞数据。丽澍予已 获得的数援进行一些袭层的处理( 如查询、统计等) ,己不能满足需要,因而深 入缝援数攒之糍静内在关系弱隐台靛信塞,自然疵为下一个翻标。人们迫切糯耍 一耱戆够蟹戆蟪自动缝撼数据转抉成有麓信息帮知识的技术糨工其,这种对强存 力数褥分辑工具敬遗留鼹求健褥数器挖掘筏求成为了绩患羧寒孛豹一个翦潘匏 焦点。这是个介于统计学、模式识别、人:广智能、机器学习、数据库技术以及 高缝髓并嚣计舞等壤域酾交叉耘学科,已在经漭、麓渡、垒融、天文等行渡褥到 了醴功的盘冈,在豳矫上弦起了一股空裁鹩研究熬潮( 帮掰谓麴“数据淘金 潮”) 。我国学者在这个领域也已开鼹了缀多研褒。 数据拱掘中分炎数据掀掘是应用鼹多的任务。现实中的缀多阋题都可以转化 为分类润鼷,从政麝管理决鲮、金融风险防范、裔娌经营、科学磷究和王选企监 决策支持、驻疗辅助诊新等各个镶域都可阻找到分熬技术的用溅之她。例如,可 以对圆民经济的数据瘁建立分类模溅,提取特援揽则,颈测宏观经济走势;可以 建立、。个分舆模登,对镊行款贷款褰户送行分樊,以降低贷款的矾随;也可以递 遥建立分粪模型,对工厂纳橇器运转馕凝进行分类,雳来颈测机器故障的澄生。 分黉可敬用于提取播述燕簧数据静模型和疆测未来的数据趋势。 解决分类问题商t 冬多方法。决簸树是效果较好,应用广泛的类方法。丽随 着各种数攒爆炸幢的增长,健统酌题拯捷繁耱在内褥套耱分类冀滚褒离效率蕊窝 实用性等方蕊面i 蠡太爨的阚题。因此,近年来如何处理大巍模数搦、如何使邑毒 的螽种数据挖擒方法鬻适台大规模瀚维数据处理蠲题已成为数据挖撼蓣域的一 项鬟要研究惠窖【i 一。 鉴于鞋上议谈,程国家螽然秘攀基金的资韵下。零文辩决攘树在分类数撂茬 第章鳍论 掘中的若干问题进行了研究,为构建高效的适用于处理大规模高维数据的决策树 分类舞法做出了鑫谶的努力。 1 2 分类数撩挖壤的相荚基本溉念 1 2 。1 数撩憋隧定义 从数据库中发现知识( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 是2 0 世纪 8 0 年代末开始的,k 瓣词韪在1 9 8 9 年8 胃予美国庆特律市氇开静繁属k d d 滏际 学术会议上厩式形成的。k d d 研究的阀题有:( 1 ) 定性知识和定量知识的发现; ( 2 ) 鳃每 发瑷方法:( 3 稚谈发现的应溺等。1 9 9 5 年在嬲拿大召搿了第一瘸细 识和数据挖掘( d a t am i n i n g ,d m ) 国际学术会议。由于把数据库中的“数据” 形象的比喻成矿床,“数据挖搦”一词穰帙流传开来”,。 数据挖掘( d a t am i n i n g ,d m ) 的定义与“数据库知识发现”( 常简称为知 识发现,k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 密甥穗关。一秘观点 4 叫认为 知谈发现是从太规模数据中发现知识的整个过程,而数据挖掘只是这个过程的一 个羹要步骤,其它还包括数据选取( d a t ap r e p a r a t i o n ) 和数据驰解释帮译话 ( i n t e r p r e t a t i o n & e v a l u a t i o n ) ;另种观点 7 - 9 则认为两者怒等价的概念,均指发 现知识的全过程。本文采用文献【8 接l 鼹点,认为数据挖搦从理论鄹技术上继承 了知识发现领域的成果,同时又有潜独特的内涵。数据挖掘更着暇予设计高效的 算法以达到跌巨量鼗摄中发现知识的露数。数据挖撼其馋可定义为“数据挖掘是 一个从大墅数据库巾抽取隐含的、事先未知的、具肖潜在有用的信息或知识的非 平地过程,c 引。 1 2 2 数据瘪援分熊3 6 ,钥 从不同的角度出发,数据挖掘技术有几种不同的分类。 根据挖掘的数撼痒分类:数攒挖握系统可以分为关系的、事务的、箍向对象 的、空澜的、对闯序列豹、文本的或多媒体的。 根据挖掇的任务类型分炭:总结规则挖掘、特征规则挖掘、关联媲则挖掘、 分类规则挖掘、聚樊规刘挖掘、趋势分析、偏差分析、模式分析等。 以挖掘知识韵抽象层次划分,又可分为原始层次数据挖掘、高屡次数据挖掘 帮多层次数据挖掘等。一个高级数据挖搦系统应警支持多抽象屡的知识发现。 根据数据挖掘采用的技术分类: ( 1 ) 归纳学习获 第一章绪论 掘中的若干问题进行了研究,为构建高教的适用于处理大规模高维数据的决策树 分类算法做出了自己的努力。 1 2 分类数据挖掘的相关基本概念 1 2 1 数据挖撼定义 从数据库中发现知识( k u o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 是2 0 世纪 8 0 年代末开始臼勺,k d d 词是在i 9 8 9 年8 月于美国底特律市召开的第一届k d d 国际 学术会议上正式形成的。k d d 研究的问题有:( 1 ) 定性知识和定量知识的发现; ( 2 ) 知识发现方法l ( 3 ) 知识发现的应用等。1 9 9 5 年在加拿大召开了第一届鲡 识和数据挖掘( d a t a m i n i n g d m ) 国际学术会议。由于把数据库中的“数据” 形象的比喻成矿床,“数据挖掘”一诵很快流传开来”。 数据挖掘( d a t am i n i n g ,d m ) 的定义与“数据库知识发现”( 常简称为知 识发现,k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,k d d ) 密切相关。一种观点1 4 叫认为 知识拨现是从大规模数据中发现知识的整个过程,而数据挖掘只是这个过程的。 个重要步骤,其它还包括数据选取( d a t ap r e p a r a t i o n ) 和数据的解释和评估 ( i n t e r p r e t a t i o n e v a l u a t i o n ) :另一种观点 7 - 9 1 则认为两者是等价的概念,均指发 现知识的全过程。本文采用文献 8 】的观点,认为数据挖掘从理论和技术上继承 了知识发现领域的成果,同时又有着独特的内涵。数据挖掘更着眼于设计高效的 算法以达到从巨量数据中发现知识的目的。数据挖掘具体可定义为“数据挖掘是 一个从大型数据库中抽取隐含的、事先未知的、具有潜在有用的信息或知识的非 平凡过程”【m 。 1 2 2 数据撼援分类瓯6 ,7 i 从不同的角度出发,数据挖掘技术有几种不同的分类。 根据挖掘的数据库分类:数据挖掘系统可以分为关系的、事务的、面向对象 的、空间的、时间序列的、文本的或多媒体的。 根据挖掘的任务类型分类:总结规则挖掘、特征规则挖掘、关联规则挖掘、 分类规则挖掘、聚类规则挖掘、趋势分析、偏差分析、模式分析等。 以挖掘知识咕勺抽象层次划分又可分为原始层次数据挖掘、高层次数据挖掘 和多层次数据挖掘等。一个高级数据挖掘系统应当支持多抽象屡的知识发现。 根据数据挖掘采用的技术分类: ( 1 ) 归纳学习类 ( 1 ) 归纳学习粪 蒋一章鳍论 蝴纳学习类又p 酊分为基予信惠谂方法挖撅类,细决策树方法和基予蹙 裔谂方法,蘩糍豢理稔方法。 ( 2 ) 彷生物援术类 叉可分为神经糯终方法黉翮遗传算法燮。 ( 3 ) 公式发羧类 在科攀安验与工穗数据瘴串,糟人工鹫能方法浮拽帮黢现连绥耩憔之 瓣的关系,建也变量之越翡公式,扶诮把大羹靛数据概括奁公戏中。 ( 4 ) 统计分援类 统计分析蓬一门独立的学科,盘子能对数据霹中数据袋出各种不闯的 绞讨偿感黎熟识,所越瞧拇成了数摄挖掘孛懿一大类穷法。 ( 5 ) 嫫搦数学类 模糊数学是反唆人们愚漆方式的一种舅式。将摸糕数学瘦累予数据控 掘静各项任务审,藏形躐了模糊数菇整撅类。舞浚糊聚黉、模糖分鋈 秘援糊美联嫂则铸。 ( 西援优技术类 可祝能技术是种图形韪添按拳。对数镶款势毒蕊槔进行霹筏纯曩示 藏对数据挖掇过程进嚣霹橇纯嚣零。会蟠显攥离人们对数藉挖撼的兴 趣和挖獭效果。 箨絷豹鼗援撼撬系统游黎采潮多转数摇挖掘拽零,袋装滋鸯羧滟、纂残麓投 寒,结会磐千方法的霞赢。 投攒纛爝的颁域分类:数据携撼嬲癍躅锈蠛爨鬻广泛,期金融、惫偿、渊炱 分橱、股巢謦场、网鲳数据分析等游。不冠的应用通常蔼要煞成对予谈应厢领域 特爨蠢效酶方法。器透簿、全蘸蕊数攒禳掇系统锰住箨不邋会蒋定领域鹃挖掇任 务。 l 。茏3 势粪熬攘撼撅懿生薹参骥 分类( c l a s s i f i c a t i o n ) 是一个扶瑷鸯懿繁糍嶷掰熬数据集中寻找爨类疑 数翱的莛弼特性势以此将它们进行区分的过稳。糨造分类嚣熬过程一般努为潋 下n 个主要疹骤“: ( i ) 将瓒有酌e 知类荆的数据划分为翮练数掰和测试数据两都分。 ( 2 ) 逶遮掩造势黉簿法对诩练数据逐嚣攀习,爨终褥戮一个蛰台学霹簧求( 秘 堋练糖度) 酶癸类模黎,它耐阻以分类斑卿、决策辩或数学公式肄形式 给出。 ( 3 ) 使嗣分类耩撵对测试数据避行稳翱,如粱符合涌试簧求翔溯试耩壤) , 藕章缝诞 则进行( 4 ) ;否则,返回( 2 ) 。 ( 4 ) 感闱褥到的分类攥型对来知类别酶赣数据滋行分类。 其中步骤( 1 ) 鞘前主要有两种划分方法r 7 1 ;像持( h o l d o u t ) 方法和k 倍交叉验 l 正( k 零l dc r o s sv a l i d a t i o n ) 方洼。保挎方法褥已知数攒涟机划分为潲练数据帮溺试 数獬两部分,般做法是王分之= :二数据作为训练数獭,其余三分之一作为测试数 握。使用训练数攒替出分豢模型,羹在测试数据上熬分类赣攫佟为最终觞努粪精 度。k 倍交跫验证樽母知数攒箍桃划分为k 个互不相交豹大致相等的数据子集鼠, ,& :训练和测试迭代避行k 次。在第f 敬迭代+ s 伟巍测试数撰,其泉鹩予 集掰于训练分类注。簸终韵势类器韵分类精缱取k 次铡试数掇上的分类精度的平 均馕。 1 , 2 4 分囊数据挖攮麓幅辩圭簧闯嚣 尽管挣裳数据挖据继承了大重在入工智能、机器学习以疑模式识剐等领蠛已 发鼹出的理论与技术,僵怒它仍然颧临大鲎趣蘧酶挑战。燕要蠢以”f 死个方爱。 j “: ( 1 ) 挖撼算法的有效憾和可扩放性 现在巍数据痒氇含羽数据囊覆德这戮g b 缀,甚繁豫缓。孰匿量静数据中帮效 地抽取分类信息要求所用的挖掘算法必须是鸯效的,两虽是西扩放的。邀就是诞, 算法塌予大型数据辫时的运行瞄闻必须时可鞭灏和珂接受静。具有指数复杂魔甚 至中潜妾项式复杂魔的算法在实际中是不实用的。 ( 2 嗓声数撵黧善襄数掇瓣处爨 这个问题在商业领域中尤其突出。可以想象,如果某数据库在建立时不韪西 陶数攒挖撼抟,莱婆堑翼散键躐羼憾弼能卺必,菜鎏鼗掇酌纪录缀戮缝产璺曼攥糊 甚至错谈。这将干扰挖掘过程,降低挖掘知识的精确性。肆煎主要怒使用统计和 不雅邃性理论素礁逛隐鸯交慧及箕镀藏关系。 ( 3 ) 时序数据和知识更新问题 在备种斑褥领域中曲数攒瘁太多是随涎鞫交谴豹,这侵褥翠期燕褪型爨熟识 并不适用予嗣期的情况。这就要求数据挖掘系统能够具备箍时更新骑获知识的功 能,通常采建耀蠢攀习等手羧寒鲣壤时序数攒。 ( 4 ) 模式赫懂性 数据挖搦的结粱戆管为人所懂楚萁为夫蕊雳翁麓握祭锌。楚攀裙了酶表这方 式麓够提蒿挖掘结聚的可理解性。鞫魏的表达方式主要有:决策撼、燧则、图表、 自然谣言表示、以及数据与知识的霹援他等。 ( 5 ) 网络与分布式环境下的分类挖搁 第一章绪论 随着i n t e m e t 的不断发艉,网络资源日渐丰富e 面对分布式与嗣络化的环境, 数攮控掘系统器要灞勰檑菇的技术,当前 王餐链中关于多a g e n t 繇统鹃骑究提 供了有盏豹措蕞和帮助。 1 2 s 下一步鹩磷突方翻 两向分燮豹数攥挖掘瓣窥具商覆要豹壤谂意义和实黢意义,蒸孛覆露嵩维 的、超丈规横韵数据如何构建肖效豹、可扩展的分类算法戆其中的项羹器内容 l l ”。其体谨寐,毒缓下几令方淘篮椹遴步矫究; 1 现宥分类方法的扩展和改进:对传统的分类方法,如神经黼络、决策树等 进行魏遴或谯化。键其错蟹处理夫甄禳的、离维戆数攥。 2 组方法的臌用:数据挖掘戆个复杂的过程,通过多种方法的相互融台, 在僚窝各自佬点黪髑时相夏巍蛰备魏麴缺陷,可以使攥挖掘冀法受商效零。 3 数据中噪声、缺失馕等实际潮惩的处理:通过有效的手段,挺高算疆的鲁 捧性。 4 数据挖掘过糕中各个疹骥的嫩密结台:妇璃性离散纯砖属性约简的结合、 属性约简与觏则抽墩豹结合等,这魑步骤盼涟行应该面向最终的分类性能,飒提 裔挖掘静缝麓密髓楣美。 1 3 本文鞠塞要置炸和创新点 1 3 。1 奉变巍纂王住 枣文以歇娥樾为主簧研究对象对抉繁瓣在分黉数撼挖掇孛渗及翡离散他闽 蘧进行了深入研究,并结合棒经网络辞技术对如何提高决筇树的性能避行丁研 究,其俸奁每磺究王俸如下: 第一章为本文绪论部分。首先分析了本文的选蘸背景和研究意义;然后阐明 了数鬻掩攒特剐是分类数搽掩掘熊纂率概念帮臻究隽离;疆螽总彗了本文懿主要 研究工作相创新点。 第二章介绍7 决燕撼方法的基本概念,纂本源理及研爨概况。 第三章研究了神经网络与决策树相结合酌数撵携掘方法。由予种经阏络分类 的麓效性和“黑箨性”以及决策树酶霹理熬秣强黧溉委l j 曩予拯取的特点,壤灏群 方法其有缀强的优势互补髓。大量的研究致力于两者的结合。两传统的结合恐路 多为用决策树表示神经网络中的般刘的方法1 1 2 - 1 4 1 。然耐,遮晕中思鼹的搡作笈杂, 簸鬃不瑗懋。奉章辩辞稀径,褥神经霭终诈海属镁选择鹣等翔,蓠先耪酝离条佟 第一章嫡谵 属性用文献【1 5 】提出的输入输出关联法进行属性重要性排序,再利用神经网络不 需先验籀识酶“黑璇”分典特点,及其分类效黢鸯瓣优势,辩瘸毪进行载躐选 择出对数掇分类最有效的若干属性建立捷蘸树并抽取出规则。该方法融台了神 经礴络霸决繁徒鹃优势,恩神经鹚络弓 导辅助决鬣树的建曳,避受了剪棱过程, 直潦生成豢小决策树,提高1 决策树的预i 孵9 精度。 簿题章对造续稔牲鹩懿教他闻鼷进行了潦天磷窥。瑰蠢翁离数诧方法技蛰件 属性与类别的关系角度划分可以分为两类:无监督法,有髓督法【1 6 j 。无监督法不 考虑条件属性与类别之间的荧系,寄监餐法在进行条件蔫瞧离散恍时考惑剿条件 属性与类剐乏同的燕系。显然,有蕊督法院无益督爨科学,舀为粕间数据在不同 分类阔题牛豹最佳离数优方案显然不同。簸褰条件属性之阍豹关系惫度叉霹饕离 散纯方法分为,局部法,整体法l l ”。局部方法每次只对一个属性进行离散,此时 并不考虑其它属性的影响;熬体方法从总体上对所裙属性的嚣晌避行考虑,弼时 辩垒部属髓避抒离散诧。憨麴键寒,鼹帮蠢洼比较掩擎,察翁实璃,讴是幽予忽 视其它餍牲的影响,可能产生单个褪性的过菇教化,破坏了魇嘉数搌中的蠢侩箧 豹耩式( 特镌) 。丽犍谇算法融子考虑的因幕( 相对局部冀法) 急捌增翻,算法 往键非常复杂,计算燕大。雅于实现。传统的离散化方法首先髂计离散区阐数目, 然嚣选耪莱一评玲褥准菝浚毽素诗髯套甥点,每确邂一个留点蔬要诗算一遭豫已 确寇的切点外的所有点处的评价标准值,计爨量庞大,尤菇对于犬容量高维数据 瘁,离敞纯的计算偬特鞫当太。零文通过对反甭最淹广泛,教条较理想戆薹予信 息熵樊的几种主要的离散化评价标准豹深入研究,诞嘲了关擎阻芷娩增箍为评价 标准兹切点冬渣赛赢属性傻关系鲢逛理。莽鹾龇为蒸础提出了有剐予镑缆离敞纯 思路的纂予边界点糟性值合并和不一致度检验的离散化算法。该方法不仅节省了 煞骥的遽历攘索计算丽显蠢麓预先设定离毅嚣淄数霹,酸自动生成较少静离散纯 区间数。另方面。落方法采取对秘步离散化方案用不一致度进行调整的策略, 既避免了全鼹方法瓣燕大计算囊又使其其静龛局优像的特性。该方法既是一种商 监督算法又是一种具备全局优化特牲的离散化方法。通过与多种离敞化方法的对 魄试验,衰嬲该方法是一秘离散藤商效的褰教佳方法。 第五鬻研究了袂雉树算法应用于大规模离维数据分类的蓿干敬进问题。撮出 了张瓤的缀合优化决策树簿法。像其窕方法一样,传统决策树冀法在处理大趣 模离雏数撰辩会产生许髯羹激增,攥剐复杂,预翻耩凄降低等潞麟,夫大降低了 决策辩算法的实用愫。本章遇过对掏潘决壤瓣过程审酶隧维、离散撼、屡髅选择 等蔷主要娣节进 亍髓忧,使谀策树算法不仅丈大降低了计算薰,糖淹了弱操作性 丽恳提高了预测精魔和规则简明性,更适龠于太规模离维数据的处理。 第六章。总结全文蠢雾,提出浃策瓣在分类数据挖糨中熬寨褒礤究青淹。 第一章鳍论 1 3 2 本文塞薹创新点 总结宝文,本义的主要甜新点如下: ( 1 ) 提出了一种新的将神经网络与决壤树髯法栩缩台的恩路。将幸孛经网络搀 兔耩经选择的导囱,选取对分类避霪妥豹群于属健建立决嫌糖势拯取规 则。不仅达到使两种方法优势互 b 黪效果。露最避霓了熹接从种缀鼹络 串袖取分焱勰测酗复杂粳黟。 ( 2 ) 打破了传统连续属憔离敬亿遍历搜索的思路,证明了头子以正箍增盏为 谖赞标疆豹惦点与迭界蠡藏控蘧簧系麓定遐,并爨此为基祧撵出了一辩 新的罄于边界点属性值合并和不一致度检验的离敷纯算法,节省了大量 搜索静算。广泛融裔了现商的有鹱餐和无雅餐离簸纯方法以及届部秘整 体离散化为。法。通过加入不一羲壤检验使缁一个蜡i 奉豹局棉算法舆商了 垒鲻纯酶特性,麸露栏缳落葵法效零靛基础上显著挺蔫了遴续葳靛麴离 散化效果。 f 3 ) 对待统决麓瓣掉法从多个环节避行改进,撩盘了一耱逶合予处毽失麓模 商绺数据的组合优化决策树算法。提高了决策树算法的效率和实用性。 第二章谀策榭分类方法 第二章决策树分类方法 2 1 决簸榭窆义及特点 决策挝足月样本的属性俸为结点,弱震性的取慎作为分支购树犁结构。它是 裁蠲信息谂骣理对丈量样零麴震整滋毒亍分辑和织缡筒产生匏。决策糖的掇缭赢是 所有样本中信息量嫩大的艨馁。树的中闻结点是以该结点必壤的子树所包禽黪撵 本予集中信息量最大的藏燧;决蘸树的叶结点是样本的类别俊。 决策树用于对新样本的分类,即通过穆壤树对新样本穗髋值的测试,从橱的 摄终点开始,按鼹样本羼牲麴敲懂;逐耀浍饕镶繁鳓囱下,塞到糖浆时缩患,竣 叶缩点表承的类别就是新样本的类别。决策辫方法是数据挖掘中缀肖效敬方法。 汝觜辩足矜知识袭示嘭式,肖是对所霄群零数摇豹舞发概耩,霹凌壤簿琵 准确的识别新有样本的类别,也能膏效的浚别新样本的类剿刚。 决篆樾方法中影嚷最炎鹩是j 。r ,q u i n l a n 予t 9 8 6 年提澄的i d 3 簿法壮”,戆摄 出用信息熵( 即信息论中的互信息) 来选撵属性作为决策树的结点。由于决策树 的建树算法愚想简单,谈鄹样本效率离拘特点,缓t d 3 方法成为当辩辊器学哥颁 域中最有影昀的方法之一。屠来,誉少学者提出了致避i d 3 的方法,以j r ,q u i n l a n 本人猩1 9 9 3 年提照熬i d 3 的改进冀法c 4 5 皴其代袭性【l ”。c 4 5 方洼对i d 3 方 法的主要改避有以“f 几个方简p j : ( 1 ) 磁信息增髓率取代信息增益来选撵羼淫传隽决壤褥酶结点,扶褥霓骚 了用傣息增益选择属性时偏向予选择取值较多豹属性的不足。 ( 2 ) 在树擒造过程中或者梅逡完成之箭青弱入剪枝过程。 ( 3 ) 肉鬻了离散纯步骤,能够究成对连续属憷的直接娥理。 2 2 决策树的僖惠论廉壤煳 信惠论楚c 嚣s h a n n o n 为解决精患传递( 透信) 过程润蘧丽建立的理论,也 称为统计遭馆理论。一个传递信息的系统鼹盘发送端( 信潞) 移接l | 雯端( 偿寤 以菠连接两猎的遇瀵( 信邋) 三者鳃成。信息论把通信过程糟作是在随机干扰的 环境中传递镕息的避程。在这个通信搂型中,信息渊翔千执( 噪声) 器授理解为 菜耪蘧撬过骥或淹梳序列。澄法,在进行蜜鼯豹透绉之藏,收傣者( 信宿) 不可 第二章决蹩错丹炭方法 能确切知道信源究竟会发出什么样的具体倍息,也不可能判新信源会处子竹么样 的拣悫。这辩情形麟称为蓿霭髓予储源敞卷具毒不确定健,褥虽这静不确建经是 存在于通髂之翦的,因而殳d q 作先验不确定蚀。 在进雩亍了逶信之爱,健臻收到了信添疑寒的倍感。这种先验不确定爆君台被 消除或者被硪少。如果干扰很小,不会对传逐的信息产生任何可察僦的影响,信 源靛出的信息雅够被信寤惫韶收到。在这种镑况下,信密熬先验不确定蕊羧衾被 完全消除。键是,程一般情糖下,干扰毖尝瓣信源发出的绩息造成菜种破坏,使 信锚收到的镲息不突全。因此,先骏不确定牲不鼹受部被满赊,只b 部分媲消除。 换匈话说,通信结策之君,信宿仍然有一定程度的不确定往。这就惩后验不确定 牲。最然,艨验不礴定性总爱小于先验不确逢蛙,不可髓太子先骏累确建瞧。 f 1 1 如果需验不确窿链的大小正好等于先虢不确定性的大小,遽就衮示 僖宿掇本没有收到信息。 ( 2 ,鲡采爱稳不确定往鹩大枣等于零,就表示信宿牧到了垒部信恿。 可见,信息聚用来消除( 随机) 不确定性的度耋。傣息量魍大小,由鼹潢豫黪不 确您性的大小来计赞。 2 , 2 。1 信息麓 ( 1 ) 消患( 符号) 鸭( j = l ,2 。,r ) 的发生概率p 融) 缎成信源数学模型( 样本空 籁或概率空脚) 。 ( 2 ) 自信息:消息“。发生后所宙有的信息壁。它反映了消息h ,艇生前纳不确 建瞧( 隧瓤祛,宠义巍: i 心) = l 。g 士r t u ) = - 1 0 9 p ( u 3 2 - 1 上式童日果以2 为底,所得豹信息囊举位为b i t 。如巢以e 为窿,所得的信 患麓麓n a t 。 ( 3 ) 信息熵:翻信息的数学期望。即信源发出消息后,信源消悫所提供的信 息薰瞧反姨了凿源教蹬消蠹薷弱平均碜定毪。定义为; h ( u ) 2 军p ( m ) i o g :南一莩p ( 虬) l o g , p ( 弘) 姐乏 信惠熵琦( 回是倍源发出黼的平均不确定性,穗称先验熵。 h ( u ) 的撵鹱如下: 1 ) 鬻u ) 一of 寸,说龋只存猩唯一酌可能慌,不存在不确定链。 2 ) 如果n 种可能的发生掷裔相同的概率,朗所祷的q 韵p ( u 3 = z h ( 聊达刘最大值l o g :n ,系统的不确定性最大。 第二章决燕树贽烫方法 3 ) p ( u j 甄相接近,h ( u ) 就大;p ( 配) 相麓大,h ( 叻就小。 妇爨藩遒中嚣予拣( 曝声) ,信道输出符号与输入抟露一一对盛,那么接 收到传送过来的符号蔗就消除了对发送蒋号的先验不确定性。 2 2 ,2 互憾患 1 ) 盛黢髓 般信道中宵干扰存在,信宿按牧到符碍v 眉对信源发出的是什么 褥母仍鑫苓确定缝。酃么,惫榉来痰爨接收嬲v 蠹荧予u 灼不确定燃崛? 当没肖接收刻输出倍号v 时,已知菠出符母u 的概率分碲i 为p ( u ) ,丽当 接收瓤辕出信号v = v ,后。输入信蟹的缀窜分布发篷了交能,变磁露验 概率分布p ( u ) 。那么,接受到辕出符号v = v ,焉,关于u 的平均不 确定镶必; h ( u i v 护;w 毽 v i ) i o g z 丽斋 娌。3 这是收到输出符导k 后关于u 的晨骧熵,愿验熵是娄信遂接收端缓收到 输出傧号矿嚣,关于输a 扮号u 瓣凄爨。 ( 2 ) 燕件演 屡验熵在输出倍号集v 豹藏匿 l = j 是个髓撬豢,对鹾骏熵程辕出符号 粲v 中求期望,得剿按释熵; h ( u t v ) 2 ;p ( v ) 军p 蚓v ,) l 0 9 2 丽1 “再 眩4 这个条件熵称为傣道疑义度。熊袭示在输出端收副全韶辕出镎譬v 瑶澍予输八端的符号集u 尚存在的不确寝性( 存巍疑义) 。辫u 集尚 存在的不确定性是出于干扰( 噪声) 引起的。如果戆一一瓣成信邋,那 么搂嫒裂褥号集v 后,对u 集黪不确定缝完垒消豫,刘铸遭疑义度 h ( u l v ) = 0 。 瓿上鬣分梅可韵:祭 垮熵小手茏祭l 牛熵,嚣h ( u | v ) 代寝接收剽蒋号巢v 以前关于输入棼号檠u 豹警鹭不确定性, 而h ( u i v ) 代表收到符号集v 岳关予输入符峰u 的平均不确定性e 可见, 透过楼遂终辘邀豫了望苓德定瞧,漩撂了一定熟落息,定义为: 第二章决请树务类宠洼 i ,v ) 州( o ) - h i v ) ( 2 ,5 ) l ( u ,v ) 猿燕u 帮v 之阕瓣警均互信感,它代表接竣劐符号熊v 话获得昀 关于u 的信息纛。w 见,熵( h ( u ) h ( u l v ) ) 只是不确定性的描述a 熵差 ( h c t 玎- h u l v ) ) 燕不确定蠖静灌豫,郢蕊储息才鼹横收端繇获褥瀚信息 量。 2 3 构麓凌麓钳的生翼劳骤 由于c 4 。5 是爆其代袭髋的算法,困此这墼臣c 4 5 为诵介缓决策树浆建褥思 想和主要步骤。 2 。3 。1 建壤精幢麓散i 匕 假设们为连续属性4 的值城。a 的离散化即是寻找一个最优切点集裔 。, 。如,。c 。j ,熬过程,这爨群c g 臼 c n f 矗。此切点集将纠分为摊个不栩交的 送润瓤c l 薯 # “瞄,( 岛矗翻,则 靛连续毽被转换为n 个不同的离散僮n ,如, : 扩d 兰v ( o b j ) 畦【口,越,刚瓯b 】虑任凭馕q 繇可以把实例巢台 努为亵部分; s 。 f 甜v 叠) t ja m s 2 = f ;v 彳) s 6 ; 若袁训练集中溅饿a 在 疗,雌内抟取蕊共有热个,则掰以番剿一共有玲l 转 分割情况。c 4 5 计算n - 1 种分割所辫应的结患攀箍率,逸撵疑霄最大绉怠增盏章 赫分截棒海a 瞻分割赢将镝予集合分为两个子囊: 吒 p,;f。,f、,i i i ),; b0 ( v d 第二章块鬻错势樊方珐 躁v ( a ) e 茎v ( 一) b 图2 - 1c 4 、5 内置离散纯方法示意图 雀校缀点或如继点处比较鏊条传属性其袁最大信息增黢率分割的信息增益 率,选择信息增益率最大的条件糯褴作为该结点测试属注,势臻该分割蒋镶子美 舍分为两个子集,如此赢到掰以将铡予集合究垒分类或条忭膜健全部建完为止建 立袂策树。可觅c 4 5 将离散化步骤内置于决策褥的建立过程串,在建立决策树 的闭时也将连续属性避行了离散化处理。 2 3 。2 选撵溯试曩性构造决策树 锻设s 兔铎移j 煞,爨剿属经典有蠹宁不同的德,其中8 m ,屯l 怒一个 有疆菲空实秘集合,a = 囊,鸣。、4 沟条转羼链巢螽,e 一 g ,g g 为类鄹集 合。刘s 豹分类熵定义为【2 。l : e n t r o p y ( s ) = - p f l 0 9 2 p ; ( 2 - 6 ) j * 葬中a 是s 中属子类别i 的蛮倒的比例。锻设一个实例熊s 中的实例分 属予k 个类别( c c 2 , q ) ,其概率盼躞为p 1 ,或觑n 假设属性a 将s 分为不援变的n 个子集s t ,斟为样倒总数,随l 为 震糗a 彀蕊必f 豹梯铡数。刚s 竣a 襞副分的褥戮的熵e n t r o p y ( a , s ) 定义为: 。 e n t r o p y ( a ,s ) = - p _ f l o g z 只 ( 2 7 ) t w t 其中,v a l u e ( a ) 为耩瞧a 豹凝缀爨舍,# 为v a l u e ( a ) 中的菜个德。 一个蕊戆a 稳辩予样缀集合s 鹃箔塞增盏( i n f o r m a t i o ng a i n ,| g ) , ( g a i nr a t i o ,g r ) 和难飙增益( n o m a i i z e dg a i n ,n g ) 分别定义为 i k a ,s ) ;e n t r o p y ( s ) - e n t r o p y ( a ,辩 g r ( a ,s ) = 增蕴率 ( 2 一塞) ( 2 9 ) 一燃一鼠 砷一“ 一孙 嗽圈例 一。p厶戛 第二章决攘树努樊方法 n g ( a ,s ) :i q ( a , s )( 2 。1 0 ) l 0 9 2 ” 构造决策树的步骤如下: ( 1 ) 对姿懿镌予集含诗髯各条佟震挂弱镑息增敲攀; ( 2 ) 选择信息增益率最大的的条件属性囊。作为掇结点测试属性; ( 3 ) 穰蕊不薅取蠖将糕予集台分为若干子集; ( 4 ) 在每个子集中计算剩余条僻属性的培惠增髓率,选择信息增益率最大的 豢侉震性捧为渡结疼的测试履煌; 递归调用上述算法直到可以将例子集合完全分炎或条件属性全部阁究为止。 2 3 3 决策辫赘横 固时由予噪声秘随枫阁索盼黪嗡,凌蒙橱一般会掇复杂。戡i k 需娶避行剪 技操作。剪彼分前势校和詹剪枝。匏剪枝穗树的生成过程中判断是否还继续扩展 决锻树。蓑停止扩展,量b 姻蕊予劈丧该结点鞋下翡分技。蘑势援憝对已经鬟惑好 的樾剪去菜糖结点期升棱。e 4 5 戳用魄是疆剪枝法。无论燕前剪棱还是赢剪枝 都镶要按照一定的标准进行。 2 4 决策树构鞭巍进展及生鬟研究方向 出于决疑辫本舞建树恩想简单,器予摄取规则,畦避人尝思缝便于理勰锌优 点使菸在势粪数据挖箍孛褥到了广泛应雳,缀多臻窥者为热徽出了大营静工作 2 2 - 2 s 1 。下谣扶满性藤毅化、降维、糯幢选撵梅准、赘棱、与其它数掇挖援方法载 结含簿几个嫠本阏题对秘黼歌策树巍分粪数据挖掘中酶磷究状况递行介绍。 2 4 1 离散纯方浚硒究 离散化怒分类过程中处理连续属性豹一糖有效技求 2 岳。3 1 。离教化戆效率、有 效性盔接影晌到詹缕机嚣学习算法的效率和桎能。檄多的箭凝规则产生系统其能 处理离散属性。如a q l 2 9 1 、i d 3 】簿,离散他对于这些系统,将遽攘属性傻进行 离散纯是一个鍪娶豹雾骧。帮谴蹩程露c 4 。5 ”划这样酌靛够处璎凌缕属性蚋幕绞 中,离敞化也是系统中集成的个步骤。离散化不仅可以缨缀推导分类器的时间, 恧霞有助予掇赢蘸掇的哥毽髀牲,褥到精度甏高静分类麓臻| j 。困j 毙离散化方法驹 改进不仅对予决镱树算法甚囊对于数缮挖掘技术都疑一个鼹簧的环节。 离教馥:方法麸傥纯豹角痍霹激势兔粥粪:羼部方澧和垒髑方法p ”。尉部方法 第二章决黹树努娄方法 ”j 每次只对一个属性进行离散,而全局方法同时对所有属性进行离散。总的说 聚,是零离散方法鞴对简单历行,劳最褥到广泛的威怒。毽是它被认为怒释 次优方法社l ,洲。因为在离散化一个麟性时忽略了其它属性的影响,趿此数搦中的 畜瘸蔼惑罄易丢失,数撰中蕊重要关蒺褰翳受到教塥。羁一方面,垒蜀亿方法 罄1 ,3 电格l 出予驽虑了嚣j 敬阉翡楣互终月经往可以褥至4 比局部北方法露好的结槊。但 是宅熬计算代纷缀瀛,蠢辩难予褥羚应弼。 文献 2 1 1 和文献【3 4 】分别提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论