硕士论文-数据挖掘中决策树分类算法研究与应用.pdf

上传人：努*** IP属地：江西上传时间：2019-12-24 格式：PDF 页数：68 大小：1.94MB 积分：0 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

硕士论文-数据挖掘中决策树分类算法研究与应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Y1 0 8 0 4 7 8 分类号 I 罕l 密级单位代码笾2 Z 学号 2 Q Q 垒2 Q 2 垒2 西北大学硕士学位论文作者墨垩指导教师丛国生专业技术职务整撞学科专业盐簋垫盔姓鱼堡途答辩日期地盆I 学位授予日期二o o 七年五月摘要摘要决策树是分类应用中采用最广泛的模型之一与神经网络和贝叶斯方法相比决策树无须花费大量的时间和进行上千次的迭代来训练模型适用于大规模数据集除T N 练数据中的信息外不再需要其他额外信息表现了很好的分类精确度其核心问题是测试属性选择的策略以及对决策树进行剪枝连续属性离散化和对高维大规模数据降维也是扩展决策树算法应用范围的关键技术本文以决策树为研究对象主要研究内容有 1 引入了一种新的降维方法先对所有条件属性进行重要性排序再利用神经网络不需先验知识的黑箱分类特点及其分类效能高的优势对属性进行裁减选择出对数据分类最有效的若干基本属性从而达到降维的效果 2 提出了加权二分查找算法进行连续属性离散化该方法克服了传统二分查找方法单纯划分区域容易陷入局部最大的缺点且相对简单易于实现效率高 3 改进了传统的基于信息熵的属性选择标准在选择测试属性生成决策树时克服了I D 3 和C 4 5 算法选择测试属性时的偏向问题计算量小运行时间短提高了决策树分类器的分类效率一 4 基于以上三方面工作对传统决策树进行优化整合分析了改进算法的流程并通过实验数据与C 4 5 算法进行比较证明了该算法的优势 5 将上述算法应用于一个图像数据挖掘系统对从图像中提取的特征数据进行训练生成决策树后对新特征数据进行分类透明度高可移植性强效果较好本项研究得到了十一五国家科技支撑计划重点项目综合风险防范取G 关键技术研究与示范 2 0 0 6 B A D 2 0 8 0 2 的支持关键词数据挖掘决策树离散化属性降维属性选择西北大学硕士学位论文 A b s t r a c t R e s e a r c ha n dA p p l i c a t i o no nt h eD e c i s i o nT r e eC l a s s i f i c a t i o n A l g o r i t h mo f D a t aM i n i n g A b s t r a c t D e c i s i o nt r e ei st h em o s tu n i v e r s a lm o d e l s a d o p t e d i n a p p l i c a t i o no f c l a s s i f i c a t i o n C o m p a r e dt ot h eN e u r a lN e t w o r k s N N a n dB a y sm e t h o d i td o e s n t n e e dal o to f t i m ea n dh u n d r e d so fi t e r a t i o u st ot r a i nm o d e l sb u ts u i t a b l ef o r t h el a r g e s e to f d a t 乱M o r eo v e r t h ec l a s s i f i c a t i o na e e n r a c yo f d e c i s i o nt r e ei sb e t t e rt h a no t h e r t e c h n i q u e s a n dt h ea l g o r i t h mn e e d sn oo t h e ri n f o r m a t i o nb u tt h et r a i n i n gd a t a i n f o r m a t i o n T h eC O l ei s s u eo fd e c i s i o nt r e ea l g o r i t h mi st h es t r a t e g yi nc h o o s i n gt e s t a t t r i b u t ea n dp r u n i n gt ot h ed e c i s i o nt r e e D i s e r e t i z a t i o nt h ec o n t i n u o u sa t t r i b u t e sa n d d i m e n s i o nr e d u c t i o nt ot h eh i g hd i m e n s i o nd a t aa r ec r i t i c a lt e c h n i q u e st oe x t e mt h e d e c i s i o nt r e ea l g o r i t h m sa p p l i c a t i o nd o m a i n B a s e do nt h ed e c i s i o nt r e e t h em a i nr e s e a r c hc o n t e n t so f t h et h e s i sa sf o l l o w s 1 An o v e ld i m e n s i o nr e d u c t i o na l g o r i t h mi sp r o p o s e d F i r s t t h ei m p o r t a n c eo fa l l t h ec o n d i t i o na t t r i b u t e si so r d e r e d T h e nt h ea t t r i b u t e sa r er e d u c e db yN Nw h i c h n e e dn op r i o rk n o w l e d g ea n dh a v em 帆e f f i c i e n c yi nc l a s s i f i c a t i o n A n dt h e n s o m ea t t r i b u t e sa l es e l e c t e dt or e d u e et h ed i m e n s i o n w h i c hh a v em o r ev a l i di n c l a s s i f y i n gd a t a 2 Aw e i g h t e db i n a r ys e a r c ha l g o r i t h mi sp r o p o s e dt od i s c r e t ec o n t i n u o u sa t t r i b u t e s I ti s s i m p l e r e a s i e rt oi m p l e r n e n t a t i o na n dm o r ee f f i c i e n c yt h a nt h ec l a s s i c a l b i m x ys e a r c ha l g o r i t h mw h i c hh a v et h es h o r t c o m i n g si ns i m p l yi np a r t i t i o nt h e a r e aa n d g e t t i n gi n t ot h el o c a lm a x i m u mp o i n t 3 A ni m p r o v e m e n ti nt h ea t t r i b u t es e l e c t i o nc r i t e r i o ni sp r o p o s e d I tc o n q u e r st h e s h o r t c o m i n g so fI D 3a n dC 4 5a l g o r i t h m sa td e f l e c t i o np r o b l e m si ns e l e c t i n g t e s t i n ga t t r i b u t e I th a sl e s sc o m p u t i n gt i m ea n di m p r o v i n gt h ec l a s s i f ye f f i c i e n c y o f d e c i s i o nt r e e c l a s s f i c a t o r 二 4 B a s e do nt h ef o r m e rw o r k s o p t i m i z a t i o n a n dc o n f o r m i t yi sa p p l i e dt ot h e c l a s s i c a ld e c i s i o n 仃眈A ni m p r o v e m e n tt o a l g o r i t h mp r o c e d u r ei sp r o p o s e d C o m p a r i n gt o t h eC 4 5a l g o r i t h m e x p e r i m e n tr e s u l t ss h o wt h es u p e r i o r i t y 西北大学硕士学位论文 H b s 扛a c t 5 T h ea l g o r i t h mi sa p p l i e di na l li m a g ed a t a b a s ed a t am i n i n gs y s t e m I tt r a i n st h e c h a r a c t e r i s t i cd a t ae x t r a c t e df r o mt h ei m a g e a n dt h e nad e c i s i o nt r e ei sc r e a t e d A tl a s tt h ed a t ai sc l a s s i f i e d T h er e s u l t sa l em o r et r a n s p a r e n c y t r a n s p l a n ta n d v a l i d i t y T h er e s e a r c hw o r ki ss u p p o r t e db yk e yn a t i o n a ls c i e n c ea n dt e c h n o l o g yp r o j e c t o ft h e F i v e y e a rp l a nk e yt e c h n o l o g yr e s e a r c ha n dd e m o n s t r a t i o no fI n t e g r a t e d 斑s k G u a r d i a n s N o 2 0 0 6 B A D 2 0 8 0 2 K e yw o r d d a t am i n i n g d e c i s i o n 蛾 d i s c r c t i z a t i o n d i m e n s i o nr e d u c t i o n a t t r i b u t e c h o o s i n g 西北大学硕士学位论文 n I 西北大学学位论文知识产权声明书本人完全了解学校有关保护知识产权的规定即研究生在校攻读学位期间论文工作的知识产权单位属于西北大学学校有权保留并向国家有关部门或机构送交论文的复印件和电子版本人允许论文被查阅和借阅学校可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段保存和汇编本学位论文同时本人保证毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北大学保密论文待解密后适用本声明学位论文作者签名三马亚指导二胡年6R7 强 l 西北大学学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果据我所知除了文中特别加以标注和致谢的地方外本论文不包含其他人已经发表或撰写过的研究成果也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意学位论文作者签名码j 巨川年6 月眨日第一章绪论 1 1 本文研究背景第一章绪论我们生活在一个网络化的时代通信计算机和网络技术正改变着整个人类和社会如果用芯片集成度来衡量微电子技术用C P U 处理速度来衡量计算机技术用信道传输速率来衡量通信技术那么摩尔定律告诉我们它们都是以每 1 8 个月翻一番的速度在增长这一势头已经维持了十多年在美国广播达到 5 0 0 0 万户用了3 8 年电视用了1 3 年 I n t e m e t 拨号上网达到5 0 0 0 万户仅用了4 年全球m 网发展速度达到每6 个月翻一番国内情况亦然 1 9 9 9 年初中国上网用户为2 1 0 万现在已经达到6 0 0 多万网络的发展导致经济全球化在 1 9 9 8 年全球产值排序前1 0 0 名中跨国企业占了5 1 个国家只占4 9 个因此有人提出对待一个跨国企业也许比对待一个国家还要重要在新世纪钟声刚刚敲响之后回顾往昔人们不仅要问就推动人类社会进步而言历史上能与网络技术相比拟的是什么技术呢有人甚至提出把网络技术与火的发明相比拟火的发明区别了动物和人种种科学技术的重大发现扩展了自然人的体能技能和智能而网络技术则大大提高了人的生存质量和素质使人成为社会人全球人然而现在的问题是网络之后的下一个技术热点是什么让我们来看一些身边俯拾即是的现象纽约时报由6 0 年代的1 0 2 0 版扩张至现在的1 0 0 2 0 0 版最高曾达1 5 7 2 版北京青年报也已经是1 6 4 0 版市场营销报已达1 0 0 版但是在现实社会中人均日阅读时间通常仅为3 0 4 5 分钟只能浏览一份2 4 版的报纸大量信息在给人们带来方便的同时也带来了一大堆问题第一是信息过量难以消化第二是信息真假难以辨识第三是信息安全难以保证第四是信息形式不一致难以统一处理人们开始提出一个新的口号乌要学会抛弃信息同时开始考虑如何才能不被信息淹没而从中及时发现有用的知识提高信息利用率面对这一挑战数据挖掘技术应运而生并显示出强大的生命力另一方面随着数据库技术的迅速发展以及数据库管理系统的广泛应用人们积累的数据越来越多激增的数据背后隐藏着许多重要的信息而目前的数据西北大学硕士学位论文第一章绪论库技术虽然可以高效地实现数据的查询统计等功能但却无法发现数据中存在的关系和规则无法根据现有的数据预测未来的发展趋势数据库中存在着大量的数据却缺乏挖掘数据背后隐藏的知识的手段大量的数据似乎使人坠入茫茫数据的汪洋大海之中不知哪儿是边缘哪儿是尽头有用和无用的数据常常掺杂在一起难以分辨以至于出现了数据爆炸而知识贫乏的现象如果能把这些信息从数据库中提取出来则能为用户创造很多潜在的利润若要提取有用的信息需花费大量的人力和时间传统的数据库概念方法和技术已经难以解决现在的新问题此外若要从数据中发现和提取知识更是一件不容易的事情而人们最希望的是能够让计算机自动智能地分析数据库中的大量数据以获取信息或知识因此数据库知识发现口1 K D D 及其核心技术数据挖掘p M 应运而生 1 9 9 7 年 F r i e d m a n 列举了四个主要的技术理由更是激发了数据挖掘的开发应用和研究的兴趣超大规模数据库的出现例如商业数据仓库和计算机自动收集的数据记录先进的计算机技术例如更快和更大的计算能力和并行体系结构对巨大量数据的快速访问对这些数据应用精深的统计方法计算的能力在数据挖掘技术中决策树是一种简洁而又高效的方法与神经网络和贝叶斯方法相比决策树无须花费大量的时间和进行上千次的迭代来训练模型除了训练数据中的信息外不再需要其他额外信息表现了很好的分类精确度并以其规则易于提取和容易理解的优点得到了广泛应用然而传统决策树在处理大容量高维数据时的计算代价较高因而影响了在此类问题中的应用本文以决策树为研究对象对传统决策树进行了改进从而决策树的应用范围 1 2 数据挖掘研究现状数据挖掘和知识发现o D D p 1 是近年来一个十分活跃的研究领域逐渐己成为研究热点和焦点之前 G a r M e rG r o u p 的一次高级技术调查将数据挖掘和人工智能列为未来三到五年内将对工业产生深远影响的五大关键技术之首并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两纯篙戳 i t 根据最近G a r t n c 的H P C 研究表明 l l 随着数据捕获传输和存储技术的快西北大学硕士学位论文 2 第一章绪论速发展大型系统用户将更多地需要采用新技术来挖掘市场以外的价值采用更为广阔的并行处理系统来创建新的商业增长点美国麻省理工学院2 0 0 1 年1 月份的科技评论 T e c h n o l o g yR e v i e w 杂志提出将在未来5 年对人类产生重大影响的1 0 大新兴技术其中第三项就是数据挖掘从数据库中发现知识 K D D 一词首先出现在1 9 8 9 年举行的第十一届国际联合人工智能学术会议 U C A D 上从1 9 8 9 年到1 9 9 4 年举行了四次K D D 的国际研讨会在此基础上 1 9 9 5 年召开了第一届知识发现与数据挖掘的国际学术会议 1 9 9 8 年建立了新的学术组织A C M S I G M O D 即A C M 下的数据库中的知识发现专业组 s p e c i a lI n t e r e s t e dG r o u po nK n o w l e d g eD i s c o v e r yi nD a t a b a s e 1 9 9 9 年A C M S I G M O D 组织了第五届知识发现与数据挖掘国际学术会议 0 C D D 9 9 专题杂志D a t aM i n i n ga n dK n o w l e d g eD i s c o v e r y 自1 9 9 7 年起由 k l u w e r s 出版社出版此外还有一些国际和地区性数据挖掘会议如知识发现与数据挖掘太平洋亚洲会议 P A K I D 数据库中的知识发现原理与实践欧洲会议 f P K D D 数据仓库与知识发现国际会议 D a W a K A C M S I G M O D 数据管理国际会议 S I G M O D 超大型数据库国际会议 V L D B A C M S I G M O D S I G A R T 数据库原理研讨会 P O D S 数据工程国际会议 I C D T 扩展数据库技术国际会议 0 S D B T 数据库理论国际会议 0 c I a 9 信息与知识管理国际会议 C M 数据库与专家系统应用国际研讨会 D E X A 数据库系统高级应用国际会议 D A S F A A 人工智能国际联合会 t i u c A i 美国人工智能学会会议 A A A D 等等到目前为止由美国人工智能协会主办的K D D 国际研讨会已召开了多次规模由原来的专题讨论会发展到国际学术大会以K D D 国际会议为例 1 9 9 5 年与会代表3 5 0 人展示软件6 套 1 9 9 6 年与会代表4 5 7 人展示软件1 8 套 1 9 9 7 年到会5 7 7 人展示软件 2 6 套 1 9 9 8 年就有7 7 3 人到会展示软件3 9 套平均会议代表年增长率为4 0 另外仅以1 9 9 9 年为例就有近2 0 个国际会议列有K D D M 的专题如C F 9 9 C I M C A 9 9 D a W a K 9 9 D i s c o v e r yS c i e n c e l 9 9 9 E u r o P a r 9 9 I d a 9 9 I S S M I S 9 9 J S M 9 9 K D D 9 9 P K D D 9 9 R S F D G r c 9 9 D S 9 9 V L D B 9 9 U C A I 9 9 S I G M O D 9 P A D D 9 9 C I M C A 9 9 P A K D D 9 9 等近几年从事数据挖掘研发的人员遍布世界8 0 多个国家数据挖掘的研究重点也已从算法研究向具体应用过渡从实验西北大学硕士学位论文3 第一章绪论室原型走向商品化阶段 1 9 9 9 年国际上从事数据挖掘产品研发的软件公司已从1 9 8 9 年的几个公司猛增为上百家公司每年都有若干软件产品推出与国外相比国内对数据挖掘的研究稍晚没有形成整体力量 1 9 9 3 年国家自然科学基金首次支持对该领域的研究项目t 2 1 1 9 9 9 年第三届P A K D D P a c i f i c A s i aC o n f e r e n c eo nK n o w l e d g eD i s c o v e r ya n dD a t aM i n i n g 会议在北京召开更是加快了国内在该领域的研究步伐目前国内的许多科研单位和高等院校竞相开展数据挖掘的基础理论及其应用研究如清华大学中科院计算技术研究所空军第三研究所海军装备论证中心等其中北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究北京大学也在开展对数据立方体代数的研究华中科技大学复旦大学浙江大学中国科技大学中科院数学研究所吉林大学等单位开展了对关联规则挖掘算法的优化和改造南京大学四川大学和上海交通大学等单位探讨研究了非结构化数据的知识发现以及W e b 数据挖掘 1 3 决策树算法的应用数据挖掘技术从一开始就是面向应用的决策树作为其一个分校更是如此目前已经有许多开发商可以提供支持决策树方法的软件产品 I s o f l 公司的A C 2 是一个相当流行的决策树分析算法 l s o f t 已与B u s s i n e s sO b j e c t s 公司达成合作协议根据协议 B u s s i n e s sO b j e c t s 公司将负责销售包含有I s o f t 决策树方法的数据挖掘模块 S P S S 公司向市场上销售的是一种基于S I C H A I D 算法的数据挖掘产品其他许多开发商则采用了将几种算法组合到一起的方法以增强其产品的性能此外还有许多综合了多种数据挖掘方法的软件包也都可以支持决策树算法这类产品的例子包括 m M 公司的I n t e l l i g e n tM i l l e t 和C l e m e n t i n e T h i n k i n g M a c h i n e 公司的D a r w i n 以及S i l i c o nG r a p h i c 公司的M i n e s e t 等 K n o w l e d g e S E E K E R 是一个由A n g o s s 公司开发的基于决策树的数据分析程序该程序具有相当完整的分类树分析功能 K n o w l e d g e S E E K E R 采用了两种著名的决策树分析算法 c H A D 硼i c A R T 算法 C H A I D 算法可用来对于分类性数据如患者属于哪个州或患者的性别进行挖掘 C A R T 算法则可对连续型因变量西北大学硕士学位论文 4 第一章绪论如月度支出0 1 0 0 0 美元 1 0 0 0 2 0 0 0 美元及2 0 0 0 美元以上进行处理此外还有其他几种可满足商业用途的决策树分析算法 A n g o s s 公司在增强这些算法的用户友好性方面做了大量工作 A n g o s s 公司已经宣布该公司已与一家专门研制终端用户查询工具和决策支持系统的开发商A n d y n e 公司达成了一项合作协议根据协议双方将联合开拓K n o w l e d g e S E E K E R 的市场为使其技术能够成为市场主流 A n g o s s 公司己在积极寻求多方合作伙伴例如 C u s t o m e rI n s i g h t 公司一家数据库营销工具供应商已签署协议将成为K n o w l e d g e S E E K E R 的增值销售商此外 A n g o s s 公司还签署了为I N F O R M I X 的通用服务器开发D a t a B l a d e 数据刀片模块的协议 A n g o s s 公司己就其产品可以解决的各种各样的问题作了广泛宣传同时还给出了其产品在许多行业中实际应用的例子这些例子包括 I S R 将使用 K n o w l e d g e S E E K E R 分析与税务申报有关的各种重要因素并对发生骗税的可能性进行预测加拿大读者文摘在研究市场划分以及成本预测方面使用了A n g o s s 的产品华盛顿邮报使用K n o w l e d g e S E E K E R 来指导其市场营销位于伦敦的牛律移民中心使用A n g o s s 的产品对肯尼亚移民状况进行分析 K n o w l e d g e S E E K E R 被惠普公司用于生产控制系统的规则分析加拿大帝国商业银行使用A n g o s s 的产品进行风险控制 1 4 本文组织结构本文共分为七章第一章为本文绪论部分分析了本文的选题背景讨论了数据挖掘的研究现状介绍了决策树算法的应用最后介绍了本文的组织结构第二章决策树算法研究首先介绍了几种常见的分类算法然后分析了决策树的原理构造简化过程以及剪枝算法总结了决策树剪枝优化时应遵循的原则最后分析了经典的几种决策树算法给出了几种常用决策树算法的优劣评价第三章决策树改进研究从三个方面对决策树进行了改进优化 1 分析了降维问题先对属性按重要性排序再引入神经网络对排序结果裁减降维 2 讨论了连续属性离散化问题并提出了加权二分查找的思想来进行连续属性离散化o 3 对决策树属性选择标准进行了研究提出了决策树属性选择标准的改进方法第西北大学硕士学位论文 5 第一章绪论四章决策树优化整合将神经网络和决策树相结合提出了一种数据分类新方法该方法首先将所有条件属性进行属性重要性排序再利用神经网络不需先验知识的黑箱分类特点及其分类效能高的优势对属性进行裁减降维选择出对数据分类最有效的若干属性对于连续属性通过加权二分查找法进行离散化最后在建立决策树时采用改进后的属性选择标准来选择属性对样本进行分类后面简单介绍了该算法分类器设计的流程给出了应用举例通过与C 4 5 比较说明了该算法的优势第五章在一个图像数据挖掘系统中对上述算法进行了设计简要介绍了总体流程训练流程分类流程数据流转过程和开发运行环境第六章总结与展望主要总结了论文的研究工作提出了进一步研究方向西北大学硕士学位论文 6 第二章决策树分类算法研究第二章决策树分类算法研究数据挖掘分类中流行的几个技术是贝叶斯分类神经网络遗传算法和决策树等与神经网络和贝叶斯分类相比决策树更容易让人理解而且训练一个神经网络将花费大量的时间和进行上千次的迭代生成一个决策树就要有效的多因此适用于大的训练集还有决策树生成算法除了包含在训练数据中的信息外不要求其他的信息例如领域知识或数据类的概率分布的预知信息最后与其他技术相比决策树还表现了很好的分类精确度 2 1 常见分类算法数据挖掘的一个重要应用是对大量数据的分类能力又定义为挖掘分类规则分类和预测是两种数据分析形式可以用于提取描述重要数据类的数据模型或预测未来的趋势分类是预测分类标号离散值而预测是建立连续值函数模型分类问题也是机器学习模式识别专家系统统计学和神经生物学的研究领域并己开发出许多相应的算法如决策树方法统计学方法贝叶斯方法人工神经网络粗糙集基于数据库的方法及其它的分类方法等 2 1 1 决策树决策树算法是数据挖掘领域研究分类问题最常采用的方法其原因有三一是决策树构造的分类器易于理解二是采用决策树分类其速度快于其它分类方法三是采用决策树的分类方法得到的分类准确性优予其它方法利用决策树分类通常分为两步生成树和剪技树的生成采用自上而下的递归分治法而剪枝则是剪去那些可能增大树的错误预测率的分枝生成最优决策树的问题是N P 难的目前决策树算法通过启发式属性选择策略来实现决策树方法中最为著名的算法是Q u i n l a a 提出的I D 3 算法 4 1 该算法以信息熵的增益进行属性选择增益率能克服增益偏向于多值属性的特点 C A R T 算法则采用基于最小距离的 G i n ii n d e x 标准和为了克服G i n i 在处理多类问题上的困难而进行的改进1 5 1 I D 3 及后续版本C 4 5 N C 5 0 是使用广泛的决策树算法还有许多其它选择属性的方西北大学硕士学位论文 7 第二章决策树分类算法研究法如矿统计 C s e p M D L 7 等决策树分类的其它算法还有F A C T Q U E S T C H A I D 及1 1 3 的增量版本I D 4 和1 1 5 等1 8 1 2 一些研究者对决策树在超大规模数据集中的应用做了研究提出了一些可扩展的算法如S L I Q 算法 1 3 采用预排序技术以避免将所有数据放入内存的尴尬方便了对大数据集的处理同时采用的最小描述长度 M D L 剪枝算法可以提高树的精度和有效性 S P R I N T 算法 1 4 中引入了并行性具有良好的可扩展性和效率传统的决策树算法一般只对一个属性进行分类 B r o d l e y 和U t g o f f 研究了构造多元决策树的问题提出了一些构造多元决策树的方法 1 5 P U B L I C 算法1 1 6 是由B e l l 实验室的R a j e e v R e s t o g i 和K y u s e o kS h i m 提出的该算法改进了决策树分类器将剪枝过程和树的生成过程集成如果一个结点将会在剪枝时被剪去则不扩展该结点算法改善了决策树分类器的性能 C a t l e t t 提出了在分类树的每个结点上样本化的方法但这样的算法必须将数据库中的数据全部装入内存切由于现有数据库中的大量数据无法一次性的放入内存 C h a r t 和S t o l f o 提出了将数据集划分为子集只需将子集放入内存该算法虽然适合于对大数据集进行分类但其分类质量比将数据库一次性放入内存用一个分类器进行分类的质量差 1 8 lR a i n F o r e s t 1 9 1 是一种快速构造决策树的方法该算法研究了C 4 5 C A R T C H A I D F A C T I D 3 及其扩展算法 S L I Q S P R I N T 和Q U E S T 等算法提出了一种快速构造决策树的框架 R a i n F o r e s t 算法比S P R I N T 算法的速度快具有良好的可伸缩性 2 1 2 贝叶斯方法贝叶斯分类是一种基于统计学的分类方法可以预测一个类成员关系的可能性即给定样本属于一个特定类的概率数据挖掘领域主要使用两种贝叶斯方法即朴素贝叶斯方法和贝叶斯网络方法前者使用贝叶斯公式进行预测把从训练样本中计算出的各个属性值与类别频率之比作为先验概率并假定各个属性之间是独立的然后利用贝叶斯公式及有关概率公式计算各实例的条件概率值并选取其中概率值最大的类别作为预测值此方法简单易行且精度较好后者是一个带注释的有向无环图以有效表示大变量集的联合概率分布适用于分析大量变西北大学硕士学位论文 3 第二章决策树分类算法研究量之间的相互关系利用贝叶斯公式的学习和推理能力实现预测分类等数据挖掘任务事实上贝叶斯网络也是一种适合表示不确定性知识的方法贝叶斯网络的构造涉及网络结构和网络参数两部分的学习但是获得最优结构和参数都是N P 难的因此出现了许多启发式的方法 D u d a 和H a r t 给出了关于贝叶斯分类的全面介绍朴素贝叶斯分类器 2 0 1 N 劭是一种成功的分类方法已用于许多领域的分类问题也出现了一些对朴素贝叶斯分类方法扩展的算法大多数算法放松了对类条件独立的假设 K D B 算法利用参数K 构造一个贝叶斯分类器其中每个属性最多依赖K 个其它的属性选择贝叶斯分类器预处理数据集通过删除冗余属性来选择特征子集可调节概率的N B 算法为每个分类给出了一个权值利用可调节的概率估计进行分类 N B T r c e 算法则是一种混合的算法将贝叶斯分类器与决策树方法结合利用决策树将实例空间划分成区域再利用贝叶斯分类器处理每个域 N B I b e 算法的分类准确性好于单纯的N B 算法和决策树算法后来 B o u t i l i e r 等人提出了一种特定上下文的独立性假设即变量间的独立性关系只在一定的上下文中成立 M e r e t a k i s 等人提出了一种算法利用长项集扩展贝叶斯分类器并将其称为L B 算法 L a r g eB a y e s 算法性能优于朴素贝叶斯分类器 2 L i u 等人提出了一种类似于L B 的算法将关联规则挖掘和分类挖掘集成利用关联规则产生一个分类器及分类规则集使用启发式方法进行修剪圈此外 H e c k e t m a n 给出了贝叶斯信念网络的介绍I 矧 R u s s e l l 和N o r v i g 给出了利用信念网络进行推理归纳的方法嗍 K D D 9 9 上 D a v i e s 和M o o r e 提出了利用贝叶斯网络处理具有分类属性的大项集进行无损的数据压缩瑙l 贝叶斯理论已用于文档分类医疗诊断预测推理和归纳等数据挖掘应用中 2 1 3 神经网络神经网络的研究已经取得了许多方面的进展和成果提出了大量的网络模型发现了许多学习算法人工神经网络在模式分类机器视觉机器听觉智能计算机器人控制信号处理组合优化求解医学诊断数据挖掘等领域具有很好的应用西北大学硕士学位论文 9 第二章决策树分类算法研究神经网络可分为四种类型即前向型反馈型随机型和自组织型前向神经网络是数据挖掘中广为应用的一类网络其原理和算法也是其它一些网络的基础神经网络具有对噪声数据的承受能力尤其是它对未经训练的数据的分类能力实验表明神经网络在某些分类问题上具有比符号方法更好的表现但是神经网络没有很好地用于数据挖掘的原因在于无法获得显式的规则近来已经出现了一些由训练过的神经网络提取规则的一些算法如K B A N N 等近年来神经网络用于数据挖掘分类的研究逐渐增多 L a i n 和L e e 讨论了利用人工神经网络构造文本分类器及维数削减的方法f 2 6 G u p t a 等人分析了现有神经网络算法用于分类等问题的现状认为尽管神经网络在预测精度鲁棒性无需数据分布的假设等方面具有优势但是在决定合适的网络结构训练参数结果解释及训练时间长等方面仍有许多困难从而提出了一种规则抽取框架以解决神经网络提取的规则缺乏可解释性的问题 F u 则提出了一种新的神经网络模型用于从经验数据中归纳符号知识通过基于事实的激励函数改善了网络的泛化能力 H a t a n o 等人提出了一种应用于超文本数据的分类视图机制通过自组织映射 S O M 和搜索引擎交互式的进行W E B 文档的分樊2 7 1 目前神经网络作为一种自适应自学习的算法模型在数据挖掘中已经有一些成功的应用 2 1 4 支持矢置机支持矢量机 S u p p o r tV e c t o rM a c h i n e S V M 是V a p n i k 根据统计学习理论提出的一种新的学习方法近来受到国际学术界的重视 S 讲2 8 1 建立在计算学习理论的结构风险最小化的原则之上可以提高学习机的泛化能力 S v M 的复杂度与实例集的维数无关适合于两分类问题和线性不可分问题因为它可将样本空间映射到一个高维空间使原来线性不可分的情况在高维空间中解决现在数据挖掘领域已经开始使用S V M 原理构造一些数据预处理算法及挖掘算法如 S y e d L i u 和S u n g 提出了两种增量学习方法给出了三种评价增量学习算法的鲁棒性和可行性的标准并使用S V M 的增量学习算法进行概念提升证明了得到的支撑矢量可以形成个简洁而充分的集合由于S V M 可以选择和保存有用的训练数据即支持矢量取自大型数据库中的小样本的训练数据可使计算的复杂西北大学硕士学位论文 1 0 第二章决策树分类算法研究度降低所以 S V M 方法可用于数据预处理样本化等K D D 的过程也可用于其它的数据挖掘应用研究表明对同一数据库使用不同核函数训练的S V M 在测试数据上均具有较高的预测准确率 2 1 5 其它方法除了上述方法外分类还可以使用K 最邻近分类基于案例的推理 C A R 遗传算法粗糙集和模糊集方法一般地商品化的数据挖掘软件中很少使用这些方法因为K 最邻近方法要求存储所有的样本数据集较大时无法使用该方法而基于案例的推理粗糙集方法和遗传算法尚处于成长阶段还有许多值得研究的问题给定一个样本 K 最邻近分类法搜索模式空间找出最接近未知样本的K 个训练样本即K 个近邻临近性可以由欧几里德距离定义未知样本可以被分配到K 个最邻近者中最公共的类最邻近分类是基于要求的或懒散的学习方法即它存放所有的训练样本并且直到新的样本需要分类时才建立分类有关 K 最邻近算法用于数据挖掘的研究已有许多文章 C B R 是基于要求的方法其存放的样本或案例是复杂的符号描述给定一个待分类的新案例时基于案例的推理首先检查是否存在一个同样的训练案例如果有则返回附在该案例上的解如果没有则基于案例推理将搜索具有类似于新案例成分的训练案例即视为新案例的邻近者基于案例的推理的研究方向是寻找一种好的相似性度量探索训练案例索引的有效技术和组合解的方法这种方法也可与知识库系统集成杨炳儒等人研究了K D D 与双库协同的机理遗传算法和进化计算是基予生物学优胜劣汰自然进化机理的研究领域适合于并行优化问题和数据分类将免疫机制与遗传算法和进化计算集成用于数据挖掘问题是一个新的挑战文 2 9 1 利用免疫算法解决了T S P 闯题等研究利用神经网络遗传算法进化计算的集成进行数据挖掘是一个新的方向粗糙集方法也可以用于分类问题尤其适合于发现不准确数据或噪声数据内在的结构和联系它主要用于离散值属性的数据一般地对于连续型属性应在处理前离散化在数据挖掘中使用租糙集的介绍见文 3 0 3 1 1 文 3 2 3 3 讨论了西北大学硕士学位论文第二章决策树分类算法研究利用粗糙集理论实现特征归约和知识库系统的问题文 3 4 1 提出了约简问题的分层约简算法模糊逻辑也是进行数据挖掘的理论和工具之一由于模糊逻辑可以处理不精确的知识进行不精确的推理所以模糊逻辑与神经网络遗传算法等集成用于数据挖掘也是未来的研究方向 2 2 决策树算法决策树分类采用自顶向下的贪婪算法在每个结点选择分类效果最好的属性对样本进行分类继续这一过程直到这棵树能准确地分类训练样本或所有的属性都已被使用过通常还需要对决策树进行剪枝处理以限制决策树的规模来提高预测精度决策树算法的核心问题是在每个结点选取要测试的属性以及对决策树进行剪枝传统的属性选择标准有信息增益信息增益率 G i n i 索引 z 2 相依表统计等等一个决策树包含零个或多个内部节点和一个或多个叶子节点全部的内部节点有两个或更多的子节点所有的内部节点包含一个划分这个划分是测试的数字或逻辑表达式的值连接内部节点和它的子节点的边用测试的不同输出来标注每一个叶子有一个相关联的类树的建立一般都是通过在内部节点选择一个最优的测试属性对训练集反复地划分并建立下一级的节点直到每个划分都只包含同一种类的样本为止这时称这个划分是纯的 p u r e 这个最终的纯划分形成了叶节点下面是构造决策树的一般性描述 1 开始是一个训练集和空树接着对当前节点应用该节点的测试将其划分 2 如果所有当前节点的训练样本属于同一个类别创建一个带有该类标签的叶子节点并停止 3 否则用最优测量 g o o d n 龉sm e a s u r e 计算每个集合的每个可能的划分 4 选择最优划分作为当前节点的测试刨建与该划分的不同输出数同样多的子节点 5 使用该划分的输出标注父亲和儿子之闻的边并使用该划分把训练数据划分到子节点中 6 把子节点作为当前节点循环进行 2 5 步骤直到不存在可以划分的节点西北大学硕士学位论文 1 2 第二章决策树分类算法研究为止建造好决策树以后就要使用决策树对新的事例进行分类分类是根据个事例的属性值计算它的类标签一个事例计算它的类标签是将其从树的根节点开始通过整个树该事例从根节点开始相继通过内部节点最终到达某个叶子节点在每一个内部节点中节点中的测试对事例进行测试其结果决定了该事例要通过哪一个分支到达下面哪一个节点该事例的类就是最终叶子节点的类如果分类结果和事例所应属于的类不一致那么该树对该事例分类出错决策树正确分类的比例被称为正确率错误分类的比率称作错误率单变量决策树是一种内部节点的测试使用样本的一个属性的树一个多变量树的测试可能使用包含多个属性的表达式多变量树的一个例子是倾斜决策树 o b l i q t r e e 3 5 1 倾斜决策树的测试使用属性的线性组合决策树的测试如果只有两个输出即每个内部节点最多有两个子节点该决策树称为二叉决策树 b i n a r yd

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

硕士论文-数据挖掘中决策树分类算法研究与应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档