(计算机软件与理论专业论文)贝叶斯学习理论及其应用研究.pdf_第1页
(计算机软件与理论专业论文)贝叶斯学习理论及其应用研究.pdf_第2页
(计算机软件与理论专业论文)贝叶斯学习理论及其应用研究.pdf_第3页
(计算机软件与理论专业论文)贝叶斯学习理论及其应用研究.pdf_第4页
(计算机软件与理论专业论文)贝叶斯学习理论及其应用研究.pdf_第5页
已阅读5页,还剩109页未读 继续免费阅读

(计算机软件与理论专业论文)贝叶斯学习理论及其应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

儿叫斯学习理论发cj 、v 用 f j 孔:摘要 摘要 f 贝叶斯学习理论使用概率去表示所有形式的不确定性,学习和推理都通过概率规则 来实现。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为我们对不同司能 性的信任程度毋体文介绍了贝叶斯学习理论的基本观点和它的研究现状与意义,并就叽 叶斯网络的表达能力、学习过程和推理机制进行了研究和讨论。佐此基础上,主要研究 了贝叶斯学习理论中的几个关键问题:贝叶斯网络分类模型、主动贝叶斯分类器、基i 贝叶斯潜在语义索引的文本挖掘和基于贝叶斯模型选择的聚类分析棒文的贡献包括以 下几个方面: 朴素贝叶斯分类模型和特征约简:提出了一种基于类条件分布的特征约简方法;n 软 方法约简掉在各个类别中分布近似均匀的特征,从而在对概率估计影响较小的情况_ 卜, 使数据的类分布熵降低。试验表明,浚方法在保证与信息增益约简法同样多特征的情况, 能显著提高分类的精度。同时给出了朴素贝叶斯分类模型的参数学习方法,研究了朴素 贝叶斯分类器的最优性条件,指出决定贝叶斯分类的因素是最大后验概率的顺序而不足 具体的后验概率估计数值。讨论了增强朴素贝叶斯性能的三种方式:增加扩展弧、选择 贝叶斯分类器和提升贝叶斯分类器。十 主动贝叶斯分类器:提出了一种主动贝叶斯分类模型;咳模型主动的从未标注样本 集中选择有利于改进分类性能的训练例子。候选的未标注样本不必与已标注的样本直接 作比较,而是通过分类模型对其作出评价,同时模型的参数修正也可增量地进行。给出 了基于最大最小熵的主动学习方法和基于不确定抽样与最小分类损失相结合的主动学 习方法,给出了增量地分类测试实例和修正分类参数的方法。人工和实际的数据实验 i 果表明,提出的主动学习方法在具有较少带有类别标注样本的情况下能得到较好的分类 效果。上 基于贝叶斯潜在语义分析的文本挖掘:提出了一种半监督文本挖掘算法。性贝叶斯 潜在语义模型的框架下,由用户提供一定数量的潜在类别变量,而不需要任何带有类别 标注的样本,将一组文档集划分到不同的类别中。它分为两个阶段:第一阶段,利月j 必 叶斯潜在语义分析来标注含有潜在类别变量的文档的类别,第二阶段则通过朴素贝叶斯 模型,结合未标注文档的知识,对剩余的文档贴标签。实验结果表明,浚算法具有较高 的精度与召回率。j ,。 基于贝叶斯模型选择的聚类分析:提出了一个基于贝叶斯后验概率的模型选择算 法。与基于贝叶斯混合模型的聚类相比,我们给出了后验概率的直接表达式,而避免j e m 迭代。对于参数的学习,我们给出了两种不同的贝叫0 圻估计策略,最大后验估计和 蚍叫斯学习理论搜j c 心用究:摘蛭 条件期望估计。基于该后验模型。设计了一种层次聚类算法。通过测试,对两组数据准 确率分别达到了7 1 和8 5 。讨论了平均准确率中的两项p a 、n a 的意义,指出它们 、 在考察聚类算法时的重要意义。 关键词:贝叶斯学习理论,最大后验概率,贝叶斯网络_ 朴素贝叶斯分类器? 参数学习, 、 结构学习,主动学习,贝叶斯潜在语义分析,半监督学习,贝叶斯模型选择,层次聚类: j j 叭n 。堑堂翌些堡垒! ! ! 兰望竺塑! 兰! ! ! ! 竺! _ 一 r e s e a r c ho nb a y e s i a nl e a r n i n gt h e o r y a n di t sa p p l i c a t i o n g o n gx i u j u n ( c o m p u t e rs o r w a r e & t h e o r y ) d i r e c t e db yp r o f c s s o rs h iz h o n g z h i a b s t l a c t b a y e s i a nl e a r n i n gt h e o r yr e p r e s e n t su n c e n a i n t y w i t h p r o b a b i l i t y a j l d l e a r n i n g a n d i n f e r e n c ea r er e a l i z e db yp r o b a b i l i s t i cr u l e s t h er e s u l t so fl e a r n i n gi sd e n o t e db yp r o b a b i l i s t i c d i s t r i b u t i o no fs o m er a n d o mv a r i a b l e s ,a si se x p l a i n e db yb e l i e fd e g r e et od i f r e r e n tp o s s i b i i i t y i nt h i st h e s i s ,t h eb a s i cp h i l o s o p h y ,c u r r e n tr e s e a r c ha 1 1 ds i g n m c a n c eo fb a y e s i a nl e a m i n g t h e o r y a r ed i s c u s s e d i ta l s o i n v e s t i g a t e s t h e r e p r e s e n t a t i o n , l e a r n i n g a n di n f e r e n c e m e c h a n i s mo fb a y e s i a nn e t w o r kb a s e do na b o v ea l l ,i tf o c u s e so ns e v e r a lk e yp o i n t si n b a y e s i a nl e 锄i n g :b a y e s i a nn e t w o r kc f a s s i f i c a t i o nm o d e l ,a c t i v eb a y e s i a nc l a s s i 行e r ,t e x t m i n i n g b a s e do n b a y e s i a t l1 a t e n ts e m a l l t i ca 1 1 a l y s i sa i l dc l u s t e r i n ga n a l y s i sb a s e d o nb a y e s i a n m o d e ls e 】e c t i o n t h ec o n t r i b u t i o n so f t h i sd i s s e n a t i o na r ea sf o l l o w s n a f v eb a v e s i a nc l a s s i f i c a t i o na i l df e a t u r er e d u c t i o n :af e a t u r er e d u c t i o nm e t h o db a s e do n c l a s sc o n d i t i o nd i s t r i b u t i o ni sp m p o s e d i nm i sm e t 圭l o d ,t h o s ef e a t u r e sw i t ha p p r o x i m a t e l y u n i f o r md i s t r i b u t i o ni ne a c hc l a s sa r er e d u c e ds om a tt h ee n t r o p yo fd a t ac l a s sc o n d i t i o n d i s t r i b u t i o ni sd e c r e a s e dg u a r a n t e e db yl o wl o s so ft h ep m b a b i l i t ye s t i m a t i o n e x p e r i m e l l t s s h o wt h a ti ti m p r o v e st h ec l a s s i f i c a t i o na c c u r a c yr e m a r k a b l yc o m p a r e dt ot h em e t h o du s e di n i n f o r m a t i o ng a i na tt h es a m en 哪b e ro ff b a t u r e s m e a n w h i l et h ep a r 眦e t e rl e a m i n ga n d o p t i m a l i t yo ft h i sm o d e la r ed i s c u s s e d i ta l s os h o w st h a tt h ef a c t o re 丘色c t i n g n 酊v eb a y e s p e r f o r m a l l c ei s t h eo r d e ro fm a x i m u mp o s t e r i o rp r o b a b i l i t yn o tt h ee s t i m a t i o no ft h et r u e p m b a b i l i t y t l l r e e s t r a t e g i e s f o r i m p r o v i n gp e r f o n i l a n c e o fn 盯v e b a y e s i a n m o d e la r e p r o p o s e d :a d d i n ga u g m e n t e da r c s , s e l e c t i v e b a y e s i a l l c l a s s i f i e ra n d b o o s t i n gb a y e s i a n c l a s s i f i e r a c t i v eb a y e s i a nc l a s s i n e r :an e wc i a s s i n c a t i o nm o d e lf o ra c t i v el e a m i n gi sp u tf o r w a r d , w h i c hs e l e c t sm e t r a i n i n ge x a m p l ef b m u n l a b e l e dd a t as e t i n s t e a do f c o m p a r e dt o l a b e l e d d a t ad i r e c t l y u n l a b e i e dd a t aa r ee v a l u a t e db yt h em o d e jo n e s e l fa n dc h a n g et h em o d e l p a r 锄e t e r si n c r e m e n t a l l y t 、v oa c t i v es t r a t e g i e sf o rc h o o s i n ge x a m p l e sa r ed e s i g n e d :m a x & m i ne n t m p ys a m p l i n ga j l du n c e r t a i n t ys 锄p l i n gc o m b i n i n gw i t l lm i l l i m u mc l a s s i 6 c a t i o nl o s s a c c o r d i n g ly ,t h ea l g o r i t h m sf o rc l a s s i f y i n gt e x te x a m p l ea n du p d a t i n gm o d e lp a r a m e t e r sa r e p r o v i d e de x p e r i m e n t so na r t i n c i a ia n dr e a ld a t as h o w st h a tt h i sa c t i v eb a y e s i a nc l a s s i n e r g e t sg o o dp e r f o r m a r i c eu s i n gf e wl a b e l e dd a t a 川 歹 叭叶斯学习理论搜j 施用f j 究: 舳s t r a c i _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ - _ - _ _ _ _ - - _ _ 1 e x tm i n i n gb a s e do nb a y e s i a nl a t e n ts e m a n t i ca n a l y s i s :as e m i s u p e r v i s e da l g o r i t h m f o rt e x tm i n i n gi sd e s i g n e d w i t ht h ef r 锄eo fb l s a ,i tc l a s s i 矗e sd o c u m e n t so n l yb y af e wo f l a t e n tc l a s sv a r i a b i e sa j l dn ol a b e l e dd a t a 1 w os t e p sa r ei n c l u d e d :t h ef i r s ts t e p i st ol a b e l t h o s ed o c u m e n t sc o n t a i n i n gl a t e n tc l a s sv a r i a b l eb yb l s a ;s e c o n di st ol a b e l t h er e s tb yn a t v e b a y e s i a j lm o d e lw i m e m a l g o r i m m i tg e t sg o o dp r e c i s i o na n dr e c a l lj no u re x p e r i m e n t s c l u s t e r i n ga n a l y s i sb a s e do nb a y e sm o d e ls e l e c t i o n :am o d e lb a s e do nb a y e sm a p ( m a x i m u m ap o s t e r i o rp r o b a b i l i t y ) i sp r o p o s e d c o m p a r e dt oo n eb a s e do nm i x t u r em o d e l ,i t g i v e st h ed i r e c te x p r c s s i o na 1 1 dn e e d sn oe m i t e r a t i o n w ea d o p tt w oe s t i m a t i o ns t r a t e g i e sf o r p a r a n l e t e rl e a r n i n g :m a pe s t i m a t i o n a 1 1 dc o n d i t i o ne x p e c t a t i o ne s t i m a t e d b a s e do nt h i s m o d e l ,ah i e r a r c h i c a lc l u s t e r i n ga l g o r i t l l t l li sd e s i g n e dt h ea v e r a g ea c c u r a c yc o m b i n i n gp a a n dn ai su s e dt 0e v a l u a t et h ea l g o r i t l l mp e r f o r m a n c ee x p e r i m e n t e do nt w og r o u p so fr e a l d a t a ,i tr e a c h e sp e r c e n t7 1 5a n d8 5r e s p e c t i v e l y k e yw o r d s :b a y e s i a i ll e a n l i n gt h e o mm a p b a y e s i a nn e t w o r k ,n a l v eb a y e s i a nc l a s s i 疗e l p a r 锄e t e rl e a n l i n g ,s t r u c t u r el e 锄i n g ,b a y e s i a nl a t e n ts e m a n t i ca j l a l y s i s ,s e m i s u p e r v i s e d l e a m i n g ,b a y e s i a nm o d e ls e l e c t i o n ,h i e r a r c h i c a lc l u s t e r i n g 声明 本人声明所呈交的论文是我个人在导师指导f 进行的研究。卜作及取得 的研究成果。就我所知,除丫文中特别加以标注和致谢的地方外,沦文i f l 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表叫;了谢意。 储虢售秀导h 期:如z 叶 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名:嘭秀善导师签名:义遂粒目期:乙2 4 缉 本文受 国家自然科学基金项目“多策略数据库知识发现研究”( 6 9 8 0 3 0 1 0 ) 国家八六三项目“面向c i m s 的数据仓库及数据挖掘研究” ( 8 6 3 5 1 1 9 4 6 0 1 0 ) 国家自然科学基金“概念语义空间及其应用”( 6 0 1 7 7 3 0 1 7 ) 国家自然科学基金“学习计算理论及其在知识发现中的应用”( 6 0 0 7 3 0 1 9 ) 资助 笫一章绪论 1 1 论文研究的背景和意义 1 1 1 研究意义 第一章绪论 随着数字网络的普及与计算机的普遍使用,数据收集的速度越来越快,对堆积如山 的数据的处理与理解已经成为计算机科学家与工程师所面i 临的必须解决的挑战性的任 务。适应这一迫切的任务需求,数据挖掘作为理论性与应用性结合最为密切的一个研究 领域,迅速地发展起来。本文研究贝叶斯学习理论及其应用,具有以下意义: 是数据挖掘走向多策略的要求。数据挖掘从经验学习知识,以适应新的环境为 目标,正在引起越来越多的研究与应用人员的注意,是各种学科的综合运用,包括计算 机科学、数学、工程学、物理学、神经科学、认知科学等。已经形成了各种比较成熟的 学习技术和方法如:决策树学习算法、决策规则表、神经网络、统计学习和概率图模型。 并且已经开发了许多成功的应用软件。针对这些方法的不同特点,产生了理解这些方法 的几个理论框架,如计算学习理论、贝叶斯学习理论、经典的统计学习理论及其最小描 述长度原理等。 贝叶斯学习理论将先验知识与样本信息相结合、依赖关系与概率表示相结合, 是数据挖掘和不确定知识表示的理想模型。与数据挖掘中的其它方法如:规则表示、决 策树、人工神经网络等相比,贝叶斯学习理论具有下列优点: 贝叶斯学习能够方便的处理不完全数据。例如考虑具有相关关系的多个输入变 量的分类或回归问题,对标准的监督学习算法而苦,变量问的相关性并不是它们处理的 关键因素,当这些变量中有某个缺值时,它们的预测结果就会出现很大的偏差。而贝叶 斯学习则提供了较为直观的概率关联关系模型。 贝叶斯学习能够学习变量问的因果关系。因果关系是数据挖掘中的极为重要的 模式。原因有二:在数据分析中,因果关系有利于对领域知识的理解;在干扰较多时, 便于作出精确的预测。例如市场销售分析人员想知道增加广告投入是否能提高产品的销 量。为回答这个问题,分析人员必须知道,在某种程度上,广告投入是否是提高销量的 原因。即使没有这方面的实验数据,贝叶斯学习对这类问题的回答也是相当简单的,因 为这种因果关系已经包含在贝叶斯网络模型中了。 贝叶斯网络与贝叶斯统计相结合能够充分利用领域知识和样本数据的信息。f f 何从事过实际建模任务的人都会知道,先验信息或领域知识在建模方而的重要性,尤其 是在样本数据稀疏或数据较难获得的时候,些商业方面的专家系统完全根据领域专家 中国科学院博i 学位论艾儿n i 斯学习理论发儿j 知用训究 知识来构建就是一个很好的例证。贝叶斯网络用弧表示变量问的依赖关系,用概率分布 表柬表示依赖关系的强弱,将先验信息与样本知识有机结合起来。 贝叶斯方法与神经网络模型等相结合,有效的避免了数据的过分拟合问题。 贝叶斯学习理论在数据挖掘中获得了成功的应用。对贝叶斯学习理论研究最大的动力就 是它在实际应用的巨大作用和潜力。目前,贝叶斯学习理论已成功地应用到智能用户接 口、信息滤波、车辆自动导航、武器制导、医疗渗断、经济预测和文本分类等诸多领域。 1 1 2 研究背景与现状 贝叶斯( r e v e r e n dt h o m a sb a y e s1 7 0 2 1 7 6 1 ) 学派奠基性的工作是贝叶斯的论文 “关于几率性问题求解的评论”。或许是他自己感觉到它的学说还有不完善的地方,这 一论文在他生前并没有发表,而是在他死后,由他的朋友发表的。著名的数学家拉普拉 斯( l a p i a c e ,p s ) 用贝叶斯的方法导出了重要的“相继律”,贝叶斯的方法和理论逐渐 被人理解和重视起来。但由于当时贝叶斯方法在理论和实际应用中还存在很多不完善的 地方,因而在十九世纪并未被普遍接受。二十世纪初,意大利的菲纳特( b d ef i n e 埘) 及其英国的杰弗莱( j 酣怕y s ,h ) 都对贝叶斯学派的理论作出重要的贡献。第二次世界 大战后,瓦尔德( w a | d ,a ,) 提出了统计的决策理论,在这一理论中,贝叶斯解占有重 要的地位;信息论的发展也对贝叶斯学派做出了新的贡献。1 9 5 8 年英国最悠久的统计 杂志b i o m e t r l k a 全文重新刊登了贝叶斯的论文,2 0 世纪5 0 年代,以罗宾斯( r o b b i n s , h ) 为代表,提出了经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意,这一 方法很快就显示出它的优点,成为很活跃的一个方向。在这罩值得一提的是,八十年代 以后,人工智能的发展,尤其是机器学习、数据挖掘等兴起,为贝叶斯理论的发展和应 用提供了更为广阔的空间。 尽管对于贝叶斯学派哲学上的观点还存在很多异议,然而它的思想和方法在社会生 活和生产实践中得到越来越广泛的应用却是不争的事实。尤其是近年来,贝叶斯方法以 其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性 等成为当前数据挖掘众多方法中最为引人注目的焦点之一。 密度估计。 贝叶斯学习理论利用先验信息和样本数据柬获得对未知样本的估计,而概率( 联合 概率和条件概率) 是先验信息和样本数据信息在贝叶斯学习理论中的表现形式。如何获 得这些概率( 也称之为密度估计) 是贝叶斯学习理论争议较多的地方。贝叶斯密度估计 研究如何根据样本的数据信息和人类专家的先验知识获得对未知变量( 向量) 的分布及 其参数的估计。它有两个过程:一是确定未知变量的先验分命:一是获得相应分析i 的参 数估计。如果以前对所有信息一无所知,称这种分布为无信息先验分前i ;如果知道其分 布求它的分布参数,称之为有信息先验分行。由于在数据挖掘中,从数据中学习是它的 最节本特性,所以无信息先验分前i 是贝叶斯学习理论的主要研究对象。研究无信息分加j 第一市绪论 - _ - 一 一 的奠基性工作是贝叶斯假设参数的无信息先验分布应在参数的取值范围内是均匀 的。对参数有界的情况,贝叶斯假设在实际运用中获得了很大的成功,与经典的参数估 计方法是一致的,而当参数无界时,贝叶斯假设却遇到了困难。为此,人们又提出了 些选取先验分布的原则: 共轭分布:共轭分布假定先验分布与后验分布属于同种类型。这一假定为后验 分布的计算带来很大的方便,同时在认知e ,它要求经验的知识与现在的样本信 息有某种同一性,它们能转化为统一类型的经验知识。 杰弗莱原则:在贝叶斯假设中,如果对参数选用均匀分布,那么它的函数作为参 数时,也应服从均匀分布。然而这种情况是很少见的,为克服这一矛盾,杰弗莱 提出了不变性的要求。他认为一个合理的决定先验分柿的原则应具有某种不变性, 并且巧妙的利用费歇信息阵的一个不变性质,给出了个具体的方法求得适合于 要求的先验分布。 最大熵原则:利用信息论中熵的理论,在确定无信息先验分布时应取参数变化范 围内熵最大的分布作为先验分布。最大熵原则比贝叶斯假设日口进了不少,但在无 限区间上就产生了各种各样的新问题。 贝叶斯密度估计在实际应用中遇到的另一个难题就是不完全数据或者说是在数据稀 疏情况下的密度估计。对这一问题简单的处理方法是或者忽略含有不完全数据的样本, 或者把合有不完全数据的样本作为一种特殊的哑状态。当含有不完全数据的样本与待估 计的参数相关时,这两种处理方法都会对估计造成较大偏差。当i u ,比较流行的处理缺 值的情况有下面几种方法: 期望最大化方法( e x p e c t a t i o nm a x i m i z a t i o ne m ) e m 方法迭代地计算最大似然估计( m a x i m u ml i k e l i h o o de s t i m a t i o nm l e ) 和最大后 验概率( m a ) ( i m m a p o s t e r i o r m a p ) 。它处理不完全数据分为以下几个步骤:( 1 ) 含有 不完全数据的样本的缺项用该项的最大似然估计代替;( 2 ) 把第一步中的缺项值作为先 验信息,计算每一缺项的最大后验概率,并根据最大后验概率计算它的理想值。( 3 ) 用 理想值替换( 1 ) 中的缺项。( 4 ) 重复( 1 3 ) ,直到两次相继估计的差在某一固定阀值 内。e m 法的收敛性是相当慢的,已有很多算法来加速它的收敛速度。 g i b b s 抽样( g i b b ss 锄p l i n gg s ) 在贝叶斯推理中,g s 是最为流行的马尔科夫、蒙特卡罗方法之一。g s 把含有不完全 数据样本的每一缺项当作待估参数,通过对未知参数后验分布的一系列随机抽样过程, 计算参数的后验均值的经验估计。在经过几次迭代之后,这些估计收敛到某一固定值。 这两种方法都是对参数的可靠估计,也是目时处理不完全数据的有效方法。然而它们 都面临着收敛性较慢的问题,另外它们都建立在不完全数据的样本是可以忽略的假定 下,当违背这一假定时,它们的精度会大幅下降。 b o u n da n d c o l i a p s e ( b c ) b c 方法是m a r c o r a m o n i 【1 1 0 提出来的。它分为两个步骤:第步,对每个属性求得 中固年 学院博1 学位论文儿叶斯学习剧论戍j cj 、v 用圳究 它的上下界值。这些界值是通过所有可能的完整数据集计算其最大和最小估计而获得 的,因而是与所有可用信息一致的估计。这一步最后返回的是与所有可用信息一致的概 率区白j :第二步,将这些概率区间根据缺值样本的模式特点汇聚成一个点。其方法是根 据缺值样本的模式特点对极点赋以权值,然而取这些极点的线性组合。b c 即避免了以 上两种方法的收敛性问题,同时在计算复杂性方面也有很大的改进。 朴素贝叶斯学习模型 朴素贝叶斯学习模型( s i m p l eb a y e s 或n “v eb a y e s ) 将训练实例,分解成特征向 量和决策类别变量c 。朴素贝叶斯模型假定特征向量的各分量问相对于决策变量是相 对独立的,也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了朴 素贝叶斯模型的适用范围,然而在实际应用中,不仅以指数级的降低了贝叶斯网络构建 的复杂性,而且在许多领域在违背这种假定的条件下,朴素贝叶斯也表现出相当的健壮 性和高效性,它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。目前, 许多研究人员正致力于放松特征变量| 日j 独立性的限制,以使它适用于更大的范围。主要 集中在两个方面: 增广贝叶斯学习模型( a u g m e m s i m p l eb a y e s ) ( 1 ) g e o f f r e yl w e b b 【5 4 】在朴素贝叶斯模型中为每个类别赋一权值,这个权值乘 以原来的概率值最为新的调整值,在应用中有效地提高了预测精度。 ( 2 ) e a m o 肌j k e o 曲 4 2 通过在特征属性之间增加相应的弧来降低朴素贝叶斯模 型属性之间独立性的限制,并且给出了建立属性之川关联的两种方法:贪婪的 爬山搜索法和超父节点搜索法。 基于b o o s t i n g 朴素贝叶斯模型。 ( 1 ) c h a r l e s e l k a n 【1 4 】利用b o o s t i n g 技术对朴素贝叶斯模型进行了改进。他通过 调整训练样本的权重,产生几个朴素贝叶斯模型,然后再将这些模型以一 定的方式组合起来,并且证明,组合后的模型在表达能力上相当于具有几 个隐含层的感知机模型。然而b o o s t i n g 技术并非对所有朴素贝叶斯模型都 适用,有时甚至会降低它的预测精度。 ( 2 ) k a im i n gt i n g 和z o i a nz h e n g 【1 7 8 】仔细地分析了b o o s t i n g 技术在朴素贝 叶斯模型中失败的原因,认为学习算法的稳定性是b o o s t i n g 成功与否的 个关键因素,并且给出了一个结合决策树算法和b o o s t i n g 技术的朴素贝叶 斯模型。 p a c - b a y e s 学习 现代学习理论大致可以分为两大类:贝叶斯推理和p a c ( p r o b a b i l i t va p p r o x i m a t i o n c o r r e c t ) 学习。这两类学习算法都以训练数据集作为输入,经过学习,输出一个概念或 模型:它们也都关联着相应的正确性定理:p a c 学习对独立同分布的训练样本集提供了 很好的性能保证,而贝叶斯正确性定理能保证充分地利用先验信息。结合这两类学习算 法的优点,产生了p a c b a v e s 学习理论。 4 第币绪论 ( 1 )d a v i dam c a l l e s t e r 【1 9 9 9 】 3 5 】给出了两个p a c b a y e s 定理。这两个定理给 出了对独立同分布的训练数据即能充分利用先验信息又保证了p a c 性能理论依 据 ( 2 ) r a i f h e r b r i c h 【1 3 7 等提出了贝叶斯点机理论。他们使用支持向量机的超球面 去近似贝叶斯超平面。 贝叶斯神经网络模型 朴素贝叶斯模型在表达形式上等价于感知机模型,对应于分类器中线性可分的情况。 当线性不可分时,也就是说当考虑属性问的相关性时,需要引入具有隐含层的神经网络 模型。目前对贝叶斯神经网络的研究主要集中在以下几个方面: ( 1 ) 基于b 0 0 s t i n g 、投票等方法产生几个朴素贝叶斯模型,然后将这些模型以一定方 式组合。组合后的模型相当于含有隐含层的神经网络模型,用贝叶斯方法来i j | 练神经网络的权重 1 4 】。 ( 2 ) 利用贝叶斯证据框架理论学习神经网络的结构【1 8 8 】。这一方法己成功地应用到 模型选择、自相关性侦探等方面。 贝叶斯网络学习 贝叶斯网络是处理不确定信息最有效的表示方法之一。p e a r 于1 9 8 8 年出版了第一 本关于贝叶斯网络方面的书。接着n e a p o l i t a i l ( 1 9 9 0 ) 、j e n s e n ( 1 9 9 6 ) 、c a s t i l l o 等( 1 9 9 7 ) 也相继出版了他们关于贝叶斯网络的专著。贝叶斯网络是表示变量间概率分布及关系的 有向无环图。结点表示随机变量,弧表示变量问的依赖关系,定量的概率分布在条件概 率表中指定。贝叶斯网络的一个关键特征是它提供了把整个概率分布分解成几个局部分 布的方法,网络的拓扑结构表明如何从局部的概率分布获得完全的联合概率分布。贝叶 斯网络适合于对领域知识具有一定了解的情况,至少对变量问的依赖关系较清楚的情 况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高( 随着变量的增加,指数级 增加) ,网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它 的预测精度。 1 2 贝叶斯学习理论的基本观点 贝叶斯分析方法的特点是使用概率去表示所有形式的不确定性,学习和推理都用概 率规则来实现。贝叶斯学习的结果表示为随机变量的概率分布它可以解释为我们列不 同可能性的信任程度。贝叶斯学派的起点是贝叶斯的两项工作:贝叶斯定理和贝叶斯假 设。贝叶斯定理将事件的先验概率与后验概率联系起来。假定随机向量茁,秒的联合分布 密度是p ( x ,目) ,它们的边际密度分别为p ( x ) ,p ( 目) 。般情况下设x 是观测向量,臼是 未知参数向量,通过观测向量获得未知参数向量的估计,贝叶斯定理记作: ,( 口i x ) = 墨1 铲= _ 1 :i ;揣( 万( 口) 是臼的先验分析,) 1、 p 【x ) i 刀( 口) + p ( z l 臼) d 曰 、7。 一:! 里型兰堕! ! l 兰竺堡兰二鉴竺兰兰型些堡竺! ! 竖坐竺: _ - _ _ _ _ _ _ _ _ _ _ _ _ - - _ - - h - _ _ _ _ _ - _ _ _ _ _ - _ _ 从上式我们可以看出,对未知参数向量的估计综合了它的先验信息和样本信息,而 传统的参数估计方法只从样本数掘获取信息如最大似然估计。贝叶斯方法对未知参数向 量估计的一般过程为: 1 将未知参数看成是随机向量。这是贝叶斯方法与传统的参数估计方法的最火区 别。 2 根据以往对参数臼的知以,确定先验分布石( 目) ,它是贝叶斯方法容易引起争议 的一步,因此而受到经典统计界的攻击。 3 计算后验分布密度,做出对未知参数的推断。 在第二步,如果没有任何以往的知识来帮助确定万( 目) ,贝叶斯提出可以采用均匀分 柿作为其分布,即参数在它的变化范围内,取到各个值的机会是相同的,称这个假定为 贝叶斯假设。贝叶斯假设在直觉上易于被人们所接受,然而它在处理无信息先验分布, 尤其是未知参数无界的情况却遇到了困难。经验贝叶斯估计e m ( e m p m c a lb a y e s e s t i m a t o r ) 把经典的方法和贝叶斯方法结合在一起,用经典的方法获得样本的边际密度 p ( x ) ,然后通过下式来确定先验分布,r ( 目) : p ( x ) = i 石( 口) p ( z i 口) d 口 贝叶斯定理的计算学习机制是将先验分布中的期望值与样本均值按各自的精度进 行加权平均,精度越高者其权值越大。在先验分布为共轭分析泊q 前提下,可以将后验信 息作为新的一轮计算的先验,用贝叶斯定理与进一步得到的样本信息进行综合。多次重 复这个过程后,样本信息的影响越来越显著由于贝叶斯方法可以综合先验信息和后验信 息,既可避免只使用先验信息可能带来的主观偏见,和缺乏样本信息时的大量盲目搜索 与计算,也可避免只使用后验信息带来的噪音的影响。因此,适用于具有概率统计特征 的数据采掘和知识发现问题,尤其是样本难以取得或代价昂贵的问题。合理准确地确定 先验,是贝叶斯方法进行有效学习的关键问题。目| j i 先验分碲的确定依掘的只是一些准 则,没有可操作的完整的理论。在许多情况下先验分柿的合理性和准确性难以评价。对 于这些问题还需要进一步深入研究。 1 3 论文研究内容和组织结构 贝叶斯学习理论的特点是使用概率去表示所有形式的不确定性,学习和推理都用概 率规则束实现。贝叶斯学习的结果表示为随机变量的概率分御,它可以解释为我们对不 同可能性的信任程度。图论和贝叶斯统计的结合产生了表达能力更为丰富的贝叶斯网络 模型。本文主要对运用贝叶斯学习理论的基本观点来发现数掘之间潜在的模式进行了 些探索性的工作。贝叶斯网络是表示和处理不确定知识的理想模型,它的参数学习和结 构学习萨在成为当f i 机器学习的热点。贝叶斯网络分类器作为分类知识发现的一种重要 方法,是在贝叶斯学习理论的研究的核心问题之一。 发现数据问隐含的、潜在有用的模式需要大量的样本。相对于获得未加类别标注的 罐一章绪论 样本来说,获得带有类别标注的样本则需要更高的代价,本文从尽量节省标注样本的角 度提出了三种解决方案:主动贝叶斯分类器、贝叶斯潜在语义分析和贝叶斯模型选择。 本文的具体组织结构如下: 第一章、介绍贝叶斯学习理论的基本观点、研究现状及其研究意义。 第二章、贝叶斯网的表示、学习和推理。贝叶斯网络是表示和分析不确定性知识的 有效工具,是用节点表示变量,用边表示变量问概率依赖关系的无坏图。分析了贝叶蜘i 网的语义特性,构建过程和推理机制。并着重讨论了贝叶斯网中参数学习、结构学习利 网络推理中的一些典型算法和研究现状。 第三章、朴素贝叶斯分类器及其增强。提出了一种基于类条件分布的特征约简方法, 该方法约简掉在各个类别中分抑近似均匀的特征,从而在对概率估计影响较小的情况 下,使数据的类分布熵降低。试验表明,陔方法在保证与信息增益约笳法同样多特征的 情况,能显著提高分类的精度。同时给出了朴素贝叶斯分类模型的参数学习方法,研究 了朴素贝叶斯分类器的最优性条件,指出决定贝叶斯分类的因素是最大后验概率的顺序 而不是具体的后验概率估计数值。讨论了增强朴素贝叶斯性能的三种方式:增加扩展弧、 选择贝时斯分类器和提升贝叶斯分类器。 第四章、主动贝叶斯分类器。提出了一种主动贝叶斯分类模型,陔模型主动的从未 标注样本集中选择有利于改进分类性能的训练例子。候选的未标注样本不必与已标注的 样本直接作比较,而是通过分类模型对其作出评价,同时模型的参数修一也可增量地进 行。给出了基于最大最小熵的主动学习方法和基于不确定抽样与最小分类损失相结合的 主动学习方法,给出了增量地分类测试实例和修正分类参数的方法。人工和实际的数扼 实验结果表明,提出的主动学习方法在具有较少带有类别标注样本的情况下能得到较好 的分类效果。 第血章、基于贝叶斯潜在语义分析的文本挖掘。给出了一种半监督文本挖掘算法。 在贝叶斯潜在语义模型的框架下,由用户提供一定数量的潜在类别变量,而不需要任伺 带有类别标注的样本,将一组文档集划分到不同的类别中。它分为两个阶段:第一阶段, 利用贝叶斯潜在语义分析来标注含有潜在类别变量的文档的类别,第:阶段则通过朴素 贝叶斯模型,结合未标注文档的知识,对剩余的文档贴标签。分析了算法的时间与空问 复杂性,实验结果表明,陔算法具有较高的精度与召回率。 第六章、基于贝叶斯模型选择的聚类分析。提出了一种基于贝叶斯后验概率的模型 选择算法。与基于贝叶斯混合模型的聚类相比,我们给出了后验概率的直接表达式,而 避免了e m 迭代。对于参数的学习,我们给出了两种不同的贝叶斯估计策略,最大后验 估计和条件期望估计。基于陔后验模型,设计了一种层次聚类算法。通过测试,对两细 数据准确率分别达到了7 1 和8 5 。讨论了平均准确率中的两项p a 、n a 的意义,指 出它们在考察聚类算法时的重要意义。 第七章、结论和本文进一步研究的展望。 罐一章儿叫斯i 叫络的表小、学习和推删 _ - - _ _ 一一 第二章贝叶斯网络的表示、学习和推理 贝叶斯网络是表示变量i 日j 概率依赖关系的有向无上不图。贝叶斯统计和图论的发展为 贝叶斯网络理论的引入提供了峰实的理论基础,而人工智能、专家系统和机器学刊在实 践中的广泛应用,成为贝叶斯网络产生和发展的催化剂。在贝叶斯网络建模中,两个关 键的任务是网络参数的学习和网络结构学习。从数据中学习贝叶斯网络是当前机器学习 的热点问题之一。贝叶斯网络推理实质上是回答任何给定证据f 的查询问题,包括预测 和诊断两个方面。 2 1 贝叶斯网络的表示 贝叶斯统计和图论的发展为贝叶斯网络理论的引入提供了峰实的理论基础,而人 : 智能、专家系统和机器学习在实践中的广泛应用,成为贝叶斯网络产生和发展的催化剂。 因此贝叶斯网络是涉及统计学、图论、人工智能、机器学习和数据挖掘等多个领域的交 叉学科。贝叶斯网络的最初应用是从贝叶斯推理丌始的。】9 7 4 年,d ed o m d a l 等人研 制了个贝叶斯网概率推理系统,该系统能够根据已有证据进行诊断和在证据不充分的 情况下能够进一步选择可能存在的问题进行测试,以获得充分的证据。2 0 世纪8 0 年代 随着贝叶斯网络理论研究的深入,出现了大量的应用贝叶斯网的实际应用系统,代表性 的主要有m u n i n ,h u g i n ,p a t h f i n d e r ,q m r d t ,c o n v i n c e 等 1 6 8 1 f 1 6 9 1 。 m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论