(计算机应用技术专业论文)基于粗集理论的自主式朴素贝叶斯学习算法研究.pdf_第1页
(计算机应用技术专业论文)基于粗集理论的自主式朴素贝叶斯学习算法研究.pdf_第2页
(计算机应用技术专业论文)基于粗集理论的自主式朴素贝叶斯学习算法研究.pdf_第3页
(计算机应用技术专业论文)基于粗集理论的自主式朴素贝叶斯学习算法研究.pdf_第4页
(计算机应用技术专业论文)基于粗集理论的自主式朴素贝叶斯学习算法研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆邮电大学硕士论文摘要 摘要 机器学习( 知识获取) 的目标是将大量数据中所隐含的知识发现出来,也就 是将知识从人们难于理解、操作和使用的数据表达形式转化为便于人们理解、操 作和使用的决策规则形式的表达形式。由此可以看出,机器学习过程,实质上是 知识的一个形式转换过程,而不是知识的产生过程。在传统的机器学习研究中, 人们都借助于部分领域先验知识,然而,在很多情况下这些先验知识( 假设) 不 能很好地满足实际情况,而且如果人类对待研究的问题还没有很好的认识,这些 方法就难以适用。数据驱动的自主式学习是研究在知识发现过程中尽量摆脱对先 验知识或专家( 领域) 知识的依赖,由数据自主地完成知识的获取过程。 朴素贝叶斯( n a i v eb a y e s ,简称n b ) 由于它的简单和计算高效,并具有坚实的 理论基础而得到了广泛应用。然而,朴素贝叶斯分类基于一个简单的假定:在给 定分类特征条件下属性之间是相互独立的,同时认为:每个条件属性对分类特征( 决 策属性) 的重要性是相等的。然而,在现实世界中,这种假设经常是不满足的。对 此很多学者提出了加权朴素贝叶斯、选择朴素贝叶斯、树型扩张型朴素贝叶斯及 贝叶斯网络等改进算法,然而这些算法均未能根据数据本身的特点实现自主式学 习。 本文对数据驱动的自主式学习问题进行了较深入的研究,基于r o u g h 集的属 性重要性理论,分别从代数观、信息观及综合代数观和信息观的角度给出了属性 权值的求解方法,提出了a w n b ( 基于代数观的加权朴素贝叶斯) 、i w n b ( 基于 信息观的加权朴素贝叶斯) 和s w n b ( 综合代数观和信息观的加权朴素贝叶斯) 算法。此外,结合选择朴素贝叶斯和加权朴素贝叶斯思想,提出了c i e b a s l n b ( 基于条件信息熵的自主式朴素贝叶斯) 算法。这些算法在很大程度上去除了朴 素贝叶斯分类对先验知识( 假设) 的依赖。通过在u c i 数据集上的仿真实验,验 证了所提出算法的有效性。 关键词:a o u g l a 集,朴素贝叶斯,自主式学习分类,信息熵 重庆邮电大学硕士论文a b s t r a c t a b s t r a c t m a c h i n el e a r n i n g ( k n o w l e d g ea c q u i s i t i o n ) i st o e x t r a c tt h ei m p l i c i t , p r e v i o u s l y u n k n o w n , a n dp o t e n t i a l l yu s e f u li n f o r m a t i o nf i - o ml a r g e - s c a l e dd a t a i nam a c h i n e l e a r n i n gp r o c e s s ,w ea r et r a n s f o r m i n gk n o w l e d g ef r o mad a t af o r m a t , w h i c hi sn o t u n d e r s t a n d a b l ef o rh u m a n , i n t oa n o t h e ru n d e r s t a n d a b l ea n de a s yt ob eu s e ds y m b o l i c f o r m a t s o ,t h ee s s f f l l c eo f m a c h i n el e a r n i n gi so n l yt h et r a n s f o r m a t i o no fk n o w l e d g e f o r m a t , b u tn o tg e n e r a t i o no fn e wk n o w l e d g ef r o md a t ab a s e s w eo 胁r e l yo i lp r i o r k n o w l e d g e ,e x p e r tk n o w l e d g eo rd o m a i nk n o w l e d g ei nt r a d i t i o n a lm a c h i n el e a r n i n g h o w e v e r , i ti sp o s s i b l et h a ti ns o m er e a i - l i f ec a s e $ t h ep r i o rk n o w l e d g ew i l lb eb i a s e d 。 t h e r em a yb en op r i o rk n o w l e d g ea v a i l a b l es o m e t i m e t h e r e f o r e ,i ti st h e o r e t i c a l l ya n d p r a c t i c a l l yn e e d e dt od e v e l o pa l g o r i t h m sw h i c ha 聆d on o tr e l a yo np r i o rd o m a i n k n o w l e d g e s u c ha l g o r i t h m s a r ec o m p l e t e l yd a t ad r i v e n , a n dc o n t r o l l e db ys o m e i n t r i n s i cf e a t u r e so fi n f o r m a t i o ns y s t e m si t s e l f p r i o rk n o w l e d g eo re x t e r n a lp a r a m e t e r s a r en o tn e c e s s a r yf o rt h e m s i n c en a i v eb a y e s ( s i m p l yn b 、a l g o r i t h mi sa ne f f e c t i v es i m p l ec l a s s i f i c a t i o n a l g o r i t h ma n db a s e do ns o l i dt h e o r yf o u n d a t i o n , i th a sb eu s e di nm a n yd o m a i n s n o w a d a y s h o w e v e r , i t st w oa s s u m p t i o n s ,a t t r i b u t e sa r ci n d e p e n d e n tw i t h i ne a c hc l a s s a n dt h ei m p o r t a n c eo fa l la t t r i b u t e si se q u a lt oe a c ho t h e r , m a yn o tb et r u ei ns o m er e a l a p p l i c a t i o n s i no r d e rt os o l v et h i sp r o b l e m , m a n yr e s e a r c h e r sh a v em a d eas u b s t a n t i a l a m o u n to fe f f o r tt oi m p r o v en a i v eb a y e s s o m en e wm o d e ll i k ew e i g h t e dn a i v e b a y e s ( s i m p l yw n b ) ,s e l e c t e d n a i v e b a y e s ( s i m p l ys n b ) ,t r e e - a u g m e n t e d n a i v e b a y e s ( s i m p l yt a n ) a n db a y e sn e t w o r k se t ca r ed e v e l o p e d h o w e v e gt h e s ea l g o r i t h m s c a nn o tr e a l i z ed a t a - d r i v e ns e l f - l e a r n i n gs t i l l d a t a - d r i v e n ( s e l f - l e a r n i n g ) m a c h i n el e a r n i n gw a sr e l a t i v e l yc o m p l e t er e s e a r c h e di n t h i sp a p e r b a s e do nt h ea t t r i b u t e s w e i g h t e dt h e o r yo fr o u 曲s e t s ,a w n b ,i w n ba n d s w n ba i g o f i t h m sw e r gp r o p o s e d m e t h o d sf o rd e t e r m i n i n gt h ew e i g h t so fa t t r i b u t e si n t h e a l g e b r av i e w p o i n t , i n f o r m a t i o n a lv i e w p o i n ta n db o t ho ft h e m a r ed e v e l o p e d r e s p e c t i v e l y f u r t h e r m o r e ,c o n d i t i o n a l i n f o r m a t i o n e n t r o p y - b a s e da l g o r i t h m f o r s e l f - l e a r n i n gn a i v eb a y e s ( s i m p l yc i e b a s l n b ) w a sp u tf o r w a r d ,w h i c hc o m b i n et h e m e r i t so fs e l e c t i v en a i v eb a y e sa n dw e i g h t e dn a i v eb a y e s t h e s ea l g o r i t h m sd on o t g r e a tr e l a yo np r i o rk n o w l e d g e ( a s s u m p t i o m ) s i m u l a t i o nr e s e t s0 1 1av a r i e t yo fu c i d a t as e t si l l u s t r a t et h ee f f i c i e n c yo f t h e s em e t h o d s k e yw o r d s :r o u g hs e t , n a i v eb a y e s ,s e l f - l e a f i n g ( d a m - d r i v i n gl e a r n i n g ) ,c l a s s i f i c a t i o n , i n f o r m a t i o ne n t r o p y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重庆 鲣电太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 意。 学位论文作者躲即彳膨“签字眺砷年白旧 学位论文版权使用授权书 本学位论文作者完全了解重庆鳗电太堂有关保留、使用学位论 文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权重废邮直太堂可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:研渺秒 导师签名:硼肛 签字日期:夕哆年月f 日签字日期:矿9 7 年月f 日 重庆邮电大学硕士论文第一章绪论 1 ,1 弓i 言 第一章绪论 智能信息处理是当前信息科学理论和应用研究中的一个热点领域,随着过去 几十年中人们在专家系统、知识工程、人工神经网络、模糊集合、贝叶斯网络等 众多领域的不断实践和探索,取得了很多很好的成绩。随着信息时代的到来,信 息量不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获 取其潜在的依赖模型。这样,大量的数据就无须人的处理,甚至无须人的观察。 因此,研究能够从大量信息中形成实际概括( 归纳) 的系统就显得越来越重要。虽然 已经有很多对数据进行分析的简单统计技术,但高级的智能数据分析技术还远没 有成熟。因此,数据信息的产生和对它的理解之间的差距越来越大。 随着科学技术的高速发展。智能信息系统越来越复杂,需要处理的信息量迅 速增加,要把大量的数据作为信息,信息成为知识,知识付诸于应用,这已使得 一些传统的方法感到无能为力,例如专家系统的领域知识不易获取;人工神经网 络和贝叶斯网络的结构学习困难、训练时间较长等,因此迫切需要利用能从大量 的数据信息中发现、推理知识的有效方法。 1 2 论文背景及工作内容 智能信息处理和数据挖掘、机器学习技术的研究已经开展多年,涉及到众多 理论和技术方法,并在决策分析、医疗诊断、智能控制、模式识别等众多应用领 域取得了成功i l o l 。 随着计算机鼹络、数据仓库技术的发展,以及各应用领域( 如生物基因技术、 空间技术等) 需求的升级,当前智能信息处理和数据挖掘、机器学习研究所面临 的复杂问题呈现出如下特点川: 1 ) 数据规模巨大:需要处理的数据可能是成百万、千万甚至更多的海量数据; 2 ) 数据特性未知:人类虽然获取得到了数据,但对于数据中的结构、内在联 系和分布规律却知之甚少( 如生物基因数据、空间数据和互联网络信息等) ; 3 ) 数据包含不确定信息:经常出现数据不完备、数据之间冲突等畸形数据的 情况; 4 ) 数据日益增长:随着时间的推移,新数据不断产生,数据量逐渐增长,而 且新数据可能与旧数据之间形成新的联系,呈现新的结构,甚至产生新的冲突。 重庆邮电大学硕士论文第一章绪论 由于上述问题的存在,使得传统的机器学习、数据挖掘算法或多或少的都借 助于部分领域先验知识( 假设) ,不是完全根据原始数据来进行分析,而先验知识 ( 假设) 往往不能很好的满足实际情况,这样就在很多问题上受到限制。如果人 们对待研究的问题还没有很好的认识,这些方法就难以适用“】。 因此,研究数据驱动的自主式学习方法是解决数据挖掘、机器学习面临未知 和复杂问题时的有效途径。目前国内外在这方面也有一些研究成果。王国胤教授 等提出了一种决策表信息系统的不确定性度量方法 4 1 ,有助于实现知识获取过程不 依赖于先验知识。并在此基础上提出了基于粗集的不确定条件下自主式学习模型 u 4 ,5 】;尹德升提出了自主式的决策树预剪枝算法【6 l ;g r e g h a m e r l y 和d a n p e l l e g 分 别用不同的方法解决了自动聚类数目的问题 l s l ;张猛等采用曲线的多项式拟合技 术提出了一种自动发现阈值的方法,并把该方法应用于文本聚类中【9 j 。但这些方法 都是针对某一种数据挖掘、机器学习的理论提出的,并没有形成一套自主式学习 的理论。所以,通过分析各种数据挖掘、机器学习的理论,找出驱动学习的数据 所具有的特性,在度量这些特性的基础上,建立一整套不依赖先验知识( 假设) , 由数据驱动的自主式学习的系统理论,将是数据挖掘、机器学习中一项重要的任 务。 粗集( r o u g hs e t ,r s ,粗糙集,r o u g h 集) 理论【l 】由波兰华沙理工大学逻辑 学家z p a w l a k 教授于1 9 8 2 年提出,由于它能有效地分析和处理不精确、不一致、 不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律,近年来在 机器学习、数据挖掘、人工神经网络等多个领域得到了广泛的应用。 粗集的研究对象是由一个多值属性( 特征、症状、特点等) 集合描述的一个 对象( 观察、病历等) 集合,对于每一个对象及其属性都有一个值作为其描述符 号,对象、属性和描述符号是表达决策问题的三个基本要素。这种表达形式也可 以看成为一个二维表格,表格的行与对象对应,列对应于对象的属性:各行包含 了表示相应对象的描述符,还有关于各个对象的类别成员的信息。通常,关于对 象的可得到信息不一定足以划分其成员类别。换句话说,这种不精确性导致了对 象的不可分辨性。给定对象空间的一个等价关系,即导致由等价类构成的近似空 间的不分明关系,粗集就用不分明对象形成的上近似和下近似来描述。这些近似 分类对应了确定属于给定类的最大的对象集合和可能属于给定类的最小的对象集 合。上近似和下近似的差是一个边界集合,它包含了所有不能确切判定是否属于 给定类的对象。粗集方法可以解决重要的分类问题,所有冗余对象和属性的约简 包含属性的最小子集,能够很好地近似分类,得到可以接受质量的分类。而且, 它还可以用决策规则集合的形式表示最重要属性和特征分类之间的所有重要关 系。 2 重庆邮电大学硕士论文第一章绪论 粗集理论不仅为信息科学和认识科学提供了新的科学逻辑和研究方法,而且 为智能信息处理提供了有效的处理技术。从诞生到现在虽然只有十几年的时间, 但已在许多领域取得了令人鼓舞的成果。 目前,国际上已经开发出了许多基于租集理论的知识获取系统,并已取得了 非常丰厚的收益,例如:加拿大r e g i n a 大学利用粗集理论开发的水资源调度系统 州,使人们通过对水资源的合理调配,大大降低了水资源浪费;日本岛根医科大学 津本周作( s h u s a k at s u m o t o ) 博士领导开发了临床医疗诊断系统,可以根据症状 判断病症;p o c l 和p i a s m 开发一个分析潜在客户应用系统可用于客户分析。我国在 粗集领域的研究起步较晚,但发展很快,目前我国己见到一些应用粗集理论来处 理不完整数据和不精确、不确定性问题的研究成果报道。一些典型的应用如:利 用粗集方法评选系统重要特征参数,基于不可分辨关系进行子图分割,粗集理论 在c b r 系统案例评定中的应用等在相应的领域都取得了较丰硕的成果。 贝叶斯分析方法的特点是使用概率去表示所有形式的不确定性,学习或其他 形式的推理都用概率规则来实现。贝叶斯学习的结果表示为随机变量的概率分布, 它可以解释为我们对不同可能性的信任程度。贝叶斯学派的起点是贝叶斯的两项 工作:贝叶斯定理和贝叶斯假设。贝叶斯定理将事件的先验概率与后验概率联系 起来。朴素贝叶斯( n a i v eb a y e s ,简称n b ) 由于计算高效、精确度高,并具有坚实 的理论基础而得到了广泛应用【1 0 1 。朴素贝叶斯分类基于两个简单的假定:在给定 分类特征条件下属性值之间是相互独立的和每个条件属性对决策属性的重要性相 等。在现实世界中,这种假设经常是不满足的。因此,针对朴素贝叶斯分类的不 足之处,许多学者研究学习贝叶斯网络( b a y e sn e t w o r k ) 1 1 , 1 2 , 1 3 1 来改进其分类性 能,然而文献 1 4 已证明:要学习得到一个最优贝叶斯网络是个n p - h a r d 问题, 同时文献 1 5 表明无限制的贝叶斯网络并不能必然导致分类性能能的提高,有时 还会降低。如何能既保持朴素贝叶斯计算的简单性,又可以提高其分类性能呢? z h a n g h a r r y 在文献 1 6 中提出了根据属性的重要性给不同属性赋不同权值的加权 朴素贝叶斯( g e i g h t e dn a f v eb a y e s ,简称1 f n b ) 模型,给出了采用爬山算法和m o n t e c a r l o 技术确定权值的加权朴素贝叶斯分类方法。l a n g l e y 和s a g e 在文献 1 7 中 提出了一种基于属性删除方法的选择朴素贝叶斯分类器( s e l e c t i v en a y v e b a y e s i a n ,简称s n b ) ;文献 1 5 提出了将朴素贝叶斯与贝叶斯网络相结合的一 种折衷方法:树型扩张型朴素贝叶斯( t r e ea u g m e n t e dn a i v eb a y e s ,简称t a n ) 。 本文围绕如何提高朴素贝叶斯的分类效果为出发点,针对以上三种改善方法,提 出了基于粗集理论的加权朴素贝叶斯分类算法、基于条件信息熵的自主式朴素贝 叶斯分类算法,以避免种种假设的影响,根据数据本身的特点来实现自主式的朴 素贝叶斯学习。 3 重庆邮电大学硕士论文第一章绪论 本文得到新世纪优秀人才支持计划、国家自然科学基金( n o 6 0 3 7 3 1 11 ) 、教育 部科学技术研究重点项目、重庆市应用基础研究基金和重庆市教委科学技术研究 项目( n o 0 4 0 5 0 5 ) 、重庆邮电大学自然科学基金项目( n o a 2 0 0 6 - 4 3 ) 资助。这些项 目旨在从理论上系统研究基于粗集的智能数据分析技术,建立一套完善的粗集智 能数据分析模型理论,建立基于r o u g h 集表示、度量、和处理不确定性信息和知 识的理论系统;进行自主式学习模式的研究以及增量式学习和海量数据挖掘的研 究;在r o u g h 集理论研究基础上,对r o u g h 集中的核心约简技术进行重点突破与 改进,研究最优约简的理论框架与基于动态系统演化的实现方案:在算法开发基 础上,形成一整套关于粗集的算法库,开发相应的软件平台和应用系统,本文工 作是这些研究中的一部分。旨在进行自主式学习算法的研究。 1 3 论文组织与结构 文章第一章介绍了本文的研究背景及研究工作; 第二章介绍了粗集理论基础知识; 第三章对朴素贝叶斯学习理论及相应的改进行算法做了大致的介绍; 第四章对自主式学习理论进行了介绍; 第五章是全文的核心,提出了四个基于粗集理论的自主式朴素贝叶斯分类算 法:基于代数观的加权朴素贝叶斯( a w n b ) 、基于信息观的加权朴素贝叶斯 ( i w n b ) 、综合代数观和信息观的加权朴素贝叶斯( s w n b ) 和基于条件信息熵 的自主式朴素贝叶斯( c i e b a s l n b ) ; 第六章对文章进行了总结并对以后的工作进行了展望。 4 重庆邮电大学硕士论文 第二章租集理论基础 2 1 引言 第二章粗集理论基础 粗集理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理 不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在 的规律。粗集理论的研究已经经历了近2 0 多年的时间,无论是在系统理论、计算 模型的建立和应用系统的研制开发上,都已取得了很多成果,也建立了一套较为 完善的粗集理论体系。 由于本论文主要是基于粗集理论,如何去除朴素贝叶斯中对条件独立性和属 性重要性相等的假设,由训练数据来计算加权朴素贝叶斯中的权值以及对属性的 选择。因此为了便于后面的阐述本章将对粗集理论的有关的概念和知识【1 】作一个 简要的介绍。 2 2 粗集理论的基本概念 知识理论的基础概念是分类和范畴,实际上范畴是特征子集对对象的描述, 是给定知识库中可获得的知识。某些范畴在一个知识库中是可定义的,但在另一 个知识库中却不可定义,粗集正是对这些无法定义的范畴进行处理,使其能够近 似定义。 2 2 i 知识的分类概念 知识是人类通过实践认识到的客观世界的规律性的东西,是人类实践经验的 总结和提炼,具有抽象和普遍的特性。从认知科学的一些观点来看,可以认为知 识来源于人类以及其他物种的分类能力。在粗集理论中,“知识”被认为是一种将 现实或抽象的对象进行分类的能力。 假定给定我们感兴趣的对象论域阢对于任何子集x u ,可称之为u 中的 概念或范畴。为了规范起见,我们认为空集也是一个概念,并且彩中任何概念族 称为关于u 的抽象知识,简称知识,它代表了对c ,中个体的分类。可以用以下概 念来描述知识。 定义2 1 ( 知识) 给定一组数据( 集合) u 和等价关系集合r ,在等价关系集合詹 下对数据集合u 的划分,称为知识,记为u r 。u 上的一簇划分称为关于u 的知 重庆邮电大学硕士论文 第二章粗集理论基础 识厍。 例如,给定一玩具积木集合【,- x ,x 2 ,x 3 ,拗,x 5 ,砧,x 7 ,x s ,子集 x 1 却,x 7 构成按颜色分类的“红色”知识,可以记为聊红色;子集 x 2 ,x 4 ,x 7 ,x s 构成按 体积分类的“大的”知识,可以记为研歹眙吼 为了便于数学推导,我们通常用等价关系代替分类,在这里,这两个概念是 完全可以互相替代的。 定义2 2 ( 等价关系) 设【,是一个论域,r 是u 上的一个等价关系。u r 表示u 上由置导出的所有等价类。b k 表示包含元素工的月的等价类,x e u 。一个知识库 就是一个关系系统 , f up ) ,其中u 是论域,j p 是u 上等价关系族。如果q e p 且q o ,则n q ( q 的所有等价关系的交) 也是一种等价关系,称为p 上不分明 关系,且记为i n d ( p ) 。 不分明关系的概念是粗集理论的基石,它揭示出论域知识的颗粒状结构。 关于u 的一个知识库可以理解为一个关系系统,其中u 为论域,胄是u 上的 一簇等价关系。决策表信息系统又叫决策表,他是一类特殊而重要的知识表达系 统,也是一种特殊的信息表,它表示当满足某些条件时决策( 行为、操作、控制) 应当如何进行。它是一张二维表格,每一行描述一个对象,每一列描述对象的一 种属性。属性分为条件属性和决策属性,论域中的对象根据条件属性的不同,被 划分到具有不同决策属性的决策类。 定义2 3 ( 决策表信息系统) 。一个决策表信息系统( 简称决策表) s - - 表示训练实例。在朴素贝叶斯中假设各属性相对 于类别条件独立,财有: p ( a l ,口2 ,一。ic j ) = 兀e ( a ,lc ) i , k 而后验概率公式为: 讹l ,) 一p p ( ( c 曲1 ) 甘p ( q i 白) ( 3 2 ) ( 3 3 ) 测试样本( e ) 被分在后验概率最大的类中,由于以z ) 为一常数,则朴素贝叶斯 分类模型为【1 0 l : ( e ) = a r g m a x p ( c ) 兀e ( a ,lc ) ( 3 4 ) 其中:p ( q i c ) :c o u n t ( a , _ 一c ) ,为防止p ( q i c ) 为0 的情况出现,当实际计算为o 时, c o u n t ( c l 可以直接指定式3 3 的结果为0 5 n ,n 为测试样例的总数。 3 2 2 朴素贝叶斯的分类过程 s t e p l 数据预处理;将训练样本和待分类样本进行补齐和离散化: s t e p 2 判断:如果是分类任务,则转s t e p 5 ,如果是训练任务则转s t e p 3 ; s t e p 3 概率参数学习:扫描所有训练样本,计算所有的先验概率,( jc t ) ,即在 类别q 中属性一,的第t 种取值的概率;以及p ( c f ) ,即取值为类别q 的概率; 1 4 重庆邮电大学硕士论文 第三章贝叶斯理论及朴素贝叶斯学习算法 s t e p 4 生成朴素贝叶斯概率表,即所需的朴素贝叶斯分类器 s t e p 5 分类:调用概率表,根据分类模型得出分类结果。 3 3 朴素贝叶斯分类的改进方法 3 3 1 选择朴素贝叶斯 从r o u g h 集理论可知,对决策分类来讲,并不是所有的条件属性都是必须的, 很多决策表中都有冗余属性。由于它们的存在,会导致朴素贝叶斯算法分类性能 的降低。因此,可在不影响决策分类的情况下,先对决策表进行约简( 即删除决策 分类的冗余属性) ,在此基础上用朴素贝叶斯方法,这就是选择朴素贝叶斯模型。 文献 1 7 采用贪婪搜索的方法寻找分类所需的最佳子集,实验证明在大多数情况 下可改进朴素贝叶斯的分类性能。 3 3 2 加权朴素贝叶斯 由于在实际中比较难于满足朴素贝叶斯条件独立性的假设,同时从第二章所 介绍的r o u g h 集理论可知,每一个条件属性对决策属性的分类重要性并不是相等 的,于是可给不同的属性赋不同的权值使朴素贝叶斯得以扩展,则加权朴素贝叶 斯模型为【1 6 1 : ( e ) = a r g m a x p ( c ) 兀p ( a jc ) m ( 3 5 ) f i = 1 其中代表属性4 的权值,属性的权值越大,说明该属性对分类的影响就越 大。加权朴素贝叶斯的关键问题就在于如何确定不同属性的权值。z h a n gh a r r y 在 文献 1 6 中提出了根据属性的重要性给不同属性赋不同权值的加权朴素贝叶斯 ( w e i g h t e dn a t v eb a y e s ,简称w n b ) 模型,给出了采用爬山算法和m o n t ec a r l o 技术确定权值的加权朴素贝叶斯分类方法,并通过实验发现能改进朴素贝叶斯的 分类效果。 3 3 3 树型扩张型朴素贝叶斯 为了避免朴素贝叶斯的条件独立性假设,很多学者进行了贝叶斯网络的研究, 文献【1 5 】表明:无限制的贝叶斯网络并不能必然导致分类性能的提高,有时还会降 低。就有了将朴素贝叶斯与贝叶斯网络相结合的一种折衷方法:树型扩张型朴素 重庆邮电大学硕士论文 第三章贝叶斯理论及朴素贝叶斯学习算法 贝叶斯t a n ( t r e e - a u g m e n t e dn a t v eb a y e s ) 。它有以下两个特征:1 ) 每个属性都 以类结点为一个父结点;2 ) 除类结点外,还可能有一个其他属性作为其父结点 如图3 1 所示。 图3 1 t a n 的结构图 从图3 1 可知t a n 中除了每个属性结点与类结点有关系外,属性结点之间 也还可能存在依赖关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论