(控制理论与控制工程专业论文)贝叶斯方法及其在化工软测量建模中的应用.pdf_第1页
(控制理论与控制工程专业论文)贝叶斯方法及其在化工软测量建模中的应用.pdf_第2页
(控制理论与控制工程专业论文)贝叶斯方法及其在化工软测量建模中的应用.pdf_第3页
(控制理论与控制工程专业论文)贝叶斯方法及其在化工软测量建模中的应用.pdf_第4页
(控制理论与控制工程专业论文)贝叶斯方法及其在化工软测量建模中的应用.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(控制理论与控制工程专业论文)贝叶斯方法及其在化工软测量建模中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 贝叶斯学习理论使用概率表示各种形式的知识和不确定性,并通过概率规则来实现学习 和推理过程,是处理不确定信息的有力工具。本文在学习贝叶斯学习理论的基本观点和研究 它的背景与现状的基础上,详细讨论了几种常用的贝叶斯分类模型的分类原理和性能,并主 要研究了以下几个关键问题:朴素贝叶斯分类模型及其改进、贝叶斯回归型支持向量机及其 在聚丙烯腈生产过程软测量建模中的应用。 分类是数据挖掘中一项十分重要的任务,其目的是找出分类函数或者分类模型。本文提 出了一种基于互信息属性约简的朴素贝叶斯分类器,此方法从信息论角度出发,并给出属性 重要性的度量方法和相应的属性约简算法,找出一组最近似独立的属性约简子集,弱化属性 间的依赖关系,再利用朴素贝叶斯分类器对约筒子集进行训练得到分类器,从而提高朴素贝 叶斯分类器的性能。 针对支持向量机在小样本情况下泛化性能不高的问题,本文把贝叶斯证据框架引入到支 持向量机回归问题中,用来调整支持向量机模型中的核参数和正则化参数接近最优,进而提 高模型在小样本下的推广能力。 另外,考虑到聚丙烯腈生产过程是一个机理复杂的、非线性严重的多变量时变过程,本 文建立一种多类型混合软测量模型,用于估计聚丙烯腈生产过程的质量指标。该模型以过程 机理模型为基础框架,以贝叶斯回归支持向量机和各类回归辨识模型作为混合模型中各子模 型或机理模型的过程参数估计模型,并将过程中的各种先验知识作为等式或不等式约束,引 入混合模型中。仿真结果验证了该方法的有效性。 关键词:贝叶斯理论;支持向量机;高斯过程;朴素贝叶斯分类;聚丙烯腈生产过程;泛化 能力;证据框架;软测量 a b s t r a c t b a y e s i a nl e a r n i n gt h e o r yr e p r e s e n t sv a r i o u sk n o w l e d g ea n du n c e r t a i n t yw i t h p r o b a b i l i t y 1 1 ”l e a r n i n ga n d i n f e r e n c ea l er e a l i z e db yp r o b a b i l i s t i cr u l e s t h e r e f o r e 。i t i sas t r o n gt o o ld e a l i n gw i t hu n c e r t a i ni n f o r m a t i o n 倒st h e s i sm a i n l y8 1 【t i d i e st h e b a s i cp o m t 、 b a c k g r o u n da n ds t a t u sq u oo fb a y e s i a nl e a r n i n gt h e o r y s e v e r a l b a y e s i a nc l a s s i f y i n gm o d e la r ea l s od i s c u s s e di nd e t a i li nt h ep a p e r n a y v eb a y e s i a n c l a s s i f i e ra n di t si m p r o v e m e n t 、b a y e s i a nr e g r e s s i o ns u p p o r tv e c t o rm a c h i n ea n di t s a p p l i c a t i o n si ns o f ts e n s i n go fp o l y a c r y l o n i t r ip r o c e s sa r em a i n l ys t u d i e da st h ek e y p r o b l e m c l a s s i f i c a t i o ni sav e r yi m p o r t a n tt a s ko fd a t an a n a a g ,i t sp u r p o s ei st of i n do u t c l a s s i f y i n gf u n c t i o no rc l a s s i f y i n gm o d e l st h e s i sp r o p o s e sn b c b a s e do nm u t u a l i n f o r m a t i o n ad e v e l o p e da t t r i b u t ei m p o r t a n c em e a s l l r em e t h o df o ra t t r i b u t e s r e d u c t i o ni sd e f i n e df r o mt h ev i e w p o i n to fi n f o r m a t i o nt h e o r y i tc a nf i n dan e a r i n d e p e n d e n ts u b s e ts oa st ow e a k e nt h ed e p e n d e n tr e l a t i o n s h i pb 幽c e e na t t r i b u t e s t h e nt h es u b s e ti st m i n e db yt h en b c ,i m p r o v i n gt h ep e r f o r m a n c eo f n b c t 1 1 eg e n e r a l i z a t i o na b i l 姆o fs u p p o r tv e c t o rm a c h i n ei sp o o ri ns m a l ls a m p l e n l i st h e s i sb r i n g sb a y e s i a ne v i d e n c ef r a m e w o r ki n t os u p p o r tv e c t o rr e g r e s s i o n p r o b l e m s8 0a st ot u l l et h er e g u l a t i o na n dk e r n e lp a r a m e t e ra p p r o a c h i n gh e a l - o p t i m a l t h u s t h eg e n e r a l i z a t i o na b i l i t yo f t h em o d e li si m p r o v e di ns m a l ls a m p l e s f u r t h e r m o r e ,c o n s i d e r i n gt h ep o l y a c r y l o n i t r ip r o d u c t i o np r o c e s si sac o m p l e x 、 n o n l i n e a r 、t i m e - v a r y i n gp r o c e s s n l i sp a p e re s t a b l i s h e sam u m c l a 豁s o f t 璐 m o d e lt oe v a l u a t et h eq u a l i t yf i g u r eo ft h ep o l y a c r y l o n i t r ip r o d u c i n gp r o c e s s t h i s m o d e li sb a s e do nt h ep r o c e s s i n gm e c h a n i s mm o d e l 1 1 s v mm o d e la n dr e g r e s s i o n a n di d e n t i f i c a t i o na l g o r i t h m sa r eu s e dt oe s t i m a t et h ep r o c e s sp a r a m e t e ro ft h e s u b - m o d e l0 1 m e c h a n i s mm o d e l m e a n w h i l e v a r i o u sp r i o ri n f o r m a t i o n 鹊t h e e q u a t i o no ri n - e q u a t i o nr e s t r i c t i o ni si n t r o d u c e di n t ot h e 峨m o d e l mv a l i d i t y o f t h em e t h o di sd e m o n s t r a t e db yt h ee x p e r i m e n tr e s u l t s k e y w o r d s :b a y e s i a nt h e o r y ;s u p p o r tv e c t o rm a c h i n e ;o a u s s i a np r o c e s s ;n a i v e b a y e s i a nc l a s s i f i e r ;, p o l y a c r y l o n i t r ip r o d u c t i o np r o c e s s ;g e n e m l i z a t i o na b i l i t y ; e v i d e n c ef r a m e w o r k ;s o f ts n s o r 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:型尊日期:0 ,矿年6 月7 j 日 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规 定:江南大学有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名:! ! 垒导师签名: 日期: 。7 第一章绪论 1 1 引言 第一章绪论 随着计算机技术的迅速发展,数据的收集速度越来越快,可以获得和需要处理的数据 越来越多。因而,如何从纷繁复杂的数据中找出有用的信息或潜在的关系已成为我们面临 的紧迫任务,为适应这一任务,数据挖掘方法应运而生。数据挖掘是“潮从大量的、有噪 声的、随机的数据中提取潜在的有用的信息和知识的过程,已成为一个热点研究领域。本 文研究数据挖掘中的贝叶斯方法,具有以下意义田: 1 。是数据挖掘走向多策略的要求。数据挖掘从经验学习知识,以适应新的环境为目 标,正在引起越来越多的研究人员的注意,包括计算机科学、数学、工程学、物理学、神 经科学、认知科学等。已经形成了各种比较成熟的学习技术和方法。如:决策树学习算法、 神经网络、统计学习和概率图模型等。并已经开发了许多成功的应用软件。针对这些方法 的不同特点,产生了理解这些方法的几个理论框架,如计算学习理论、贝叶斯学习理论、 经典的统计学习理论等。 2 贝叶斯学习理论将先验知识与样本信息相结合、依赖关系与概率表示相结合,是 数据挖掘和不确定性知识表示的理想模型。与数据挖掘中的其它方法如:规则表示、决策 树、人工神经网络等相比,贝叶斯学习理论具有下列优点: 1 ) 贝叶斯理论能够方便的处理不完全数据。例如考虑具有相关关系的多个输入变量 的分类或回归问题,对标准的监督学习算法而言,变量问的相关性并不是它们处理的关键 因素,当这些交量中有某个缺值时,它们的预测结果就会出现很大的偏差。而贝叶斯学习 则提供了较为直观的概率关联关系模型。 2 ) 贝叶斯理论能够学习变量问的因果关系。因果关系是数据挖掘中极为重要的模式。 原因有二:在数据分析中,因果关系有利于对领域知识的理解;在干扰较多时,便于作出 精确的预测。例如市场销售分析人员想知道增加广告投入是否能提高产品的销量。为回答 这个问题,分析人员必须知道,在某种程度上,广告投入是否是提高销量的原因。即使没 有这方面的实验数据,贝叶斯学习对这类问题的回答也是相当简单的,因为这种因果关系 已经包含在贝叶斯网络模型中了。 3 ) 贝叶斯网络与贝叶斯统计相结合能够充分利用领域知识和样本数据的信息。任何 从事过实际建模任务的人都会知道先验信息或领域知识在建模方面的重要性,尤其是在样 本数据稀疏或数据较难获得的时候,一些商业方面的专家系统完全根据领域专家知识来构 建就是一个很好的例证。贝叶斯网络用弧表示变量间的依赖关系,用概率分布表来表示依 赖关系的强弱,将先验信息与样本知识有机结合起来。 3 在化工生产过程软测量建模过程中,样本数据一般都很少而且普遍都存在噪声,因 而软测量模型的推广能力不会很好。而贝叶斯方法可以与神经网络等相结合,较好地控制 网络的复杂度,避免过拟和问题的出现,提高模型的泛化能力。 4 贝叶斯方法在诸多实际领域中获得了成功的应用。目前,贝叶斯学习理论已成功 江南大学硕士学位论文 地应用到故障诊断”、文本分类咖,生物序列分析m 、传感器数据融合嘲诸多领域。 1 2 贝叶斯理论的研究背景与现状 贝叶斯理论的奠基性工作是十八世纪英国学者托马斯贝叶斯( r e v e r e n dt h o m a s b a y e s1 7 0 2 1 7 6 1 ) 的论文“关于几率性问题求解的评论”中所提出的著名贝叶斯公式及 其推理方法。或许是他自己感觉到他的学说还有不完善的地方,这一论文在他生前并没有 发表,而是在他死后由他的朋友整理发表的。著名的数学家p s l a p l a c e 用贝叶斯的方法 导出了重要的“相继律”,贝叶斯的方法和理论才逐渐被人们理解和重视起来。但由于当 时贝叶斯方法在理论和实际应用中还存在很多不完善的地方,因而在十九世纪并未被普遍 接受。二十世纪初,意大利的b f i n e t t i 和英国的h 1 e f f r e y s 等都对贝叶斯学派的理论作 出了重要的贡献。第二次世晃大战后,a w a l d 提出了统计的决策理论,在这一理论中, 贝叶斯解占有重要的地位,同时信息论的发展也对贝叶斯学派做出了新的贡献。2 0 世纪 5 0 年代,英国最悠久的统计杂志b i o m e u i k a 全文重新刊登了贝叶斯的论文,h r o b b i n s 将经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它 的优点,成为很活跃的一个方向。到八十年代以后,人工智能的发展,尤其是机器学习、 数据挖掘的兴起,为贝叶斯理论的发展和应用提供了更为广阔的空间“。 目前,贝叶斯方法的研究主要集中在以下几个方面: 1 贝叶斯分类 朴素贝叶斯学习模型( n a i v eb a y e s i a n , n b ) 是贝叶斯分类器中提出最早应用最广泛 的分类器阻埘。此模型基于条件独立性假设,即各属性变量独立作用于类变量。尽管朴素 贝叶斯的条件独立性假设看起来是合理的,然而在实际情况中这个假设通常难以满足,即 各属性变量之间常常具有明显的依赖性。因而许多研究人员正致力于放松特征变量间条件 独立性的限制,以使它适用于更大的范围。 k o n o n e a k o 提出一种采用穷尽搜索的属性分组技术来弱化属性组之间的独立性“”。但 是,这种算法的复杂性远远高于n b 。f r i e d m a n 等在n b 的基础上提出了树扩展朴素贝叶斯分 类器“2 m ”( t r e ea u g m e n t e dn a i v eb a y c sc l a s s i f i e r , t a n c ) ,此模型通过扩展若干条合适的弧 来减弱限定的条件。g e o f f r e y 在朴素贝叶斯模型中为每个类别赋一权值,这个权值乘以原 来的概率值作为新的调整值,在应用中有效地提高了预测精度“”。e a m o n n 通过在特征属性 之间增加相应的弧来降低朴素贝叶斯模型属性之间独立性的限制,并且给出了建立属性之 间关联的两种方法;贪婪的爬山搜索法和超父节点搜索法“”。c h a r l e s 利用8 0 0 s t i a g 技术对 朴素贝叶斯模型进行了改进“”。他通过调整训练样本的权重,产生几个朴素贝叶斯模型, 然后再将这些模型以一定的方式组合起来,并且证明,组合后的模型在表达能力上相当于 具有几个隐含层的感知机模型。然而b o o s t i n g 技术并非对所有朴素贝叶斯模型都适用,有 时甚至会降低它的预测精度k a im m gt m g 仔细地分析t 1 3 0 0 s t i n g 技术在朴素贝叶斯模型 中失败的原因,认为学习算法的稳定性是b o o s t i n g 成功与否的一个关键因素,并且给出了 一个结合决策树算法和b o o s t i n g 技术的朴素贝叶斯模型“”。王峻提出了基于强属性限定的 朴素贝叶斯分类模型,此方法通过分析属性间的相关性来区分强弱属性,并在强弱属性之 2 星= 兰丝丝 间添加增强弧来弱化朴素贝叶斯的独立性假设“” 2 贝叶斯网络学习 “贝叶斯网络”这一术语是在1 9 8 8 年由p e a r l 在论文中提出的,奠定了贝叶斯网络 的理论基础,二十世纪9 0 年代后期h e c h e n n a n 把贝叶斯网络用于数据挖掘“”。目前贝叶 斯网络的研究主要集中在结构和参数学习两个方面。 1 ) 结构学习:利用样本数据集和先验知识确定贝叶斯网络的拓扑结构。 1 9 9 5 年c h i c k 盱i n g 提出了采用模拟退火算法对b d e ( b a y e s i a nd i r i c h l c te q u i v a l e n t ) 记分进行优化的贝叶斯网络结构学习算法嘲。i 嗣啪n a g a 在1 9 9 6 年提出了利用遗传算法在 给定结点同全序条件下的结构学习算法跚1 ,该方法以b d e 测度作为搜索记分函数,并用 遗传算法来优化搜索过程,实验证明此方法在出错边数与收敛速度上都有较大提高。李刚 使用附加惩罚函数的最大互信息作为评价函数,并用进化算法来提高搜索速度,取得了较 好的效果嘲。2 0 0 2 年c h c n gj i e 将信息论与统计方法相结合,通过计算互信息来确定结点 间的条件独立性,从而确定网络的结构,但该方法的不足在于需要事先确定变量的顺序 瀚加。 2 ) 参数学习:给定网络拓扑结构,确定网络的参数。 l a u r i t z e n 在1 9 9 1 年提出了贝叶斯网络参数学习的e m 方法嘶矧( e x p e c t a t i o n m a x i m i z a t i o n ) ,该方法迭代地计算最大似然估计( m a x i m u ml i k e l i h o o de s t i m a t i o n , 加坦) 和最大后验概率( m a x i m u map o s t e r i o r , m a p ) 此方法的缺点是容易陷入局部最优。 h c c k e r m a n 提出了一种用于不完整数据参数学习的g s 方法”( g i b b ss a m p l i n g ) ,g s 是 最为流行的马尔科夫、蒙特卡罗方法之一g s 把含有不完全数据样本的每一缺项当作待 估参数,通过对未知参数后验分布的一系列随机抽样过程,计算参数的后验均值的经验估 计。在经过几次迭代之后,这些估计收敛到某一固定值。张少中在其博士论文中提出了改 进的e m 算法,该方法将数据集划分为不相交的数据块,算法在数据块内进行期望计算瞄1 。 3 贝叶斯神经网络模型 m a c k a y 在1 9 9 2 年首先提出用贝叶斯方法来学习前馈神经网络矧。p e n n y 和r o b e r t s 利用 贝叶斯证据框架来自动调整神经网络的结构,进而提高网络的推广能力洲。龚杏、钟元生 等提出一种贝叶斯神经网络的重建算法,该方法针对采用传统方法求解m a p 问题的局限 性,提出一种用于正电子成像的贝叶斯神经网络重建算法,引入t - - 迸制的保边缘变量, 并应用共轭神经网络求解m 1 。李惠娟、高峰等将贝叶斯神经网络应用到垃圾邮件过滤中, 推导出垃圾邮件过滤模型,并提出一种有效的特征筛选方法来降低特征维数瑚。 1 3 贝叶斯理论的基本观点 贝叶斯学派的基本观点是:任一未知参数都应当看作随机变量,可以用一个概率分布 来描述,并称这个分布为先验分布,它可以代表人们在进行抽样调查前对事件的认识,或 说是一种先验信息,这也是它与古典统计学派的最初区别所在嘲。古典统计学派最初不承 认先验信息,主张只利用样本信息进行统计推断。如今古典统计学派已承认先验信息,现 在争论的焦点是:如何利用各种先验信息来合理地确定先验分布。 3 垩查盔堂堡主兰垡丝塞 贝叶斯分析方法的特点是使用概率去表示所有形式的不确定性,用概率规则来实现学 习和推理。贝叶斯学习的结果表示为随机变量的概率分布,它可以理解为我们对不同可能 性的信任程度。贝叶斯学派的起点是贝叶斯的两项工作:贝叶斯定理和贝叶斯假设。贝叶 斯定理将事件的先验概率与后验概率联系起来。假定随机向量x ,0 的联合分布密度是 p ( x ,d ,它们的边际密度分别为p ( x ) ,p ( e ) 。一般情况下设x 是观测向量,护是未知参 数向量,通过观测向量获得未知参数向量的估计,贝叶斯定理记作: p ( 占ix ) = 兰学。1 :, i r ( 石o i ) i * j e 丽c xe )( 1 3 1 ) 其中j r ( e ) 是0 的先验分布。 从上式我们可以看出,对未知参数向量的估计综合了它的先验信息和样本信息,而传 统的参数估计方法只从样本数据获取信息如最大似然估计。贝叶斯方法对未知参数向量估 计的一般过程为: 1 将未知参数看成是随机向量。这是贝叶斯方法与传统的参数估计方法的最大区别。 2 根据以往对参数0 的知识,确定先验分布石( d ,它是贝叶斯方法容易引起争议的 一步,因此受到经典统计界的攻击。 3 计算后验分布密度,作出对未知参数的推断。 在第二步,如果没有任何以往的知识来稚助确定石( ,贝叶斯提出可以采用均匀分 布作为其分布,即参数在它的变化范围内,取到各个值的机会是相同的,称这个假定为贝 叶斯假设。贝叶斯假设在直觉上易于被人们所接受,然而它在处理无信息先验分布,尤其 是未知参数无界的情况却遇到了困难。经验贝叶斯估计e m ( e m p m e mb a y e s i a ne s t i m a t o r ) 把经典的方法和贝叶斯方法结合在一起,用经典的方法获得样本的边际密度p ( x ) ,然后 通过下式来确定先验分布j r ( e ) : ,o ) = i 万徊) p i o ) d o ( i 3 2 ) m 贝叶斯定理的计算学习机制是将先验分布中的期望值与样本均值按各自的精度进行 加权平均,精度越高者其权值越大。在先验分布为共轭分布的前提下,可以将后验信息作 为新一轮计算的先验,用贝叶斯定理与进一步得到的样本信息进行综合。多次重复这个过 程后,样本信息的影响越来越显著。由于贝叶斯方法可以综合先验信息和后验信息,既可 避免只使用先验信息可能带来的主观偏见和缺乏样本信息时的大量盲目搜索与计算,也可 避免只使用后验信息带来的噪音影响。因此,适用于具有概率统计特征的数据采掘和知识 发现问题,尤其是样本难以取得或代价昂贵的领域。合理准确地确定先验,是贝叶斯方法 进行有效学习的关键问题。目前先验分布的确定依据只是一些准则,没有可操作的完整理 4 曼二! 丝望 论。在许多情况下先验分布的合理性和准确性难以评价。对于这些问题还需要进一步深入 研究 i 4 本文的主要研究工作 本文围绕贝叶斯理论的基本方法及其应用展开研究,全文共分六章,各章内容安排如 下: 第1 章:绪论 阐述了贝叶斯理论的研究意义、研究背景与现状及其基本观点。首先说明了贝叶斯理 论的研究意义,在此基础上对贝叶斯理论的研究背景与现状作了详细的介绍。最后,简要 的介绍了贝叶斯理论的基本观点 第2 章:贝叶斯理论与贝叶斯分类模型 进一步分析了贝叶斯定理和贝叶斯假设。讨论了几种常用的贝叶斯分类模型:朴素贝 叶斯分类模型、树扩展的朴素贝叶斯分类模型、增量贝叶斯分类模型。 第3 章:基于互信息度量的朴素贝叶斯分类模型 考虑到条件独立性假设影响了朴素贝叶斯分类模型的精度。本章提出了一种基于互信 息属性约简的朴素贝叶斯分类模型,该方法通过数据约简技术来找出属性之间依赖关系较 弱的最优约简子集,从而提高朴素贝叶斯分类模型的精度。 第4 章:贝叶斯回归支持向量机模型 针对实际应用中s v r 泛化性能不高的问题,提出一种贝叶斯回归支持向量机模型, 将贝叶斯方法引入到支持向量机回归模型中来,并用数值函数的仿真试验验证该方法的有 效性。 第5 章:聚丙烯腈生产过程的软测量建模 针对聚丙烯腈生产过程是一个机理复杂、集多种操作为一体的多变量非线性时变对 象,用机理分析模型与实测数据辨识模型参数相结合方法,运用贝叶斯回归支持向量机建 立本过程的聚合釜模型。 第6 章:总结与展望 对本文工作做了总结,并对今后的研究工作做了进一步探讨与展望。 第二章贝叶斯理论与贝叶斯分类模型 2 1 引言 第二章贝叶斯理论与贝叶斯分类模型 贝叶斯学习方法的特点是使用概率去表示所有形式的不确定性,学习或其他形式的 推理都用概率规则来实现。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释 为对不同可能性的信任程度。贝叶斯学派的起点是贝叶斯定理和贝叶斯假设。 2 2 贝叶斯方法的基本原理 2 2 1 贝叶斯定理 定义2 1 :一个随机试验所有可能的“基本结果”国构成的集合称为该随机试验的基 本空间,常用集合q = ) 表示,基本空间又称为样本空间,其元素0 9 称为样本点。 定义2 2 :给定了基本空间q ,一个随机事件就是q 的一个子集,也就是由某些基本 结果组成的集合。随机事件表示随机试验的某种结果。随机事件可以简称为事件 定义2 3 :给定基本空间0 中的两个事件a 与b ,如果彳n b = 为空集,则称a 与b 互为不相容事件。 定义2 4 :在事件a 已经发生的条件下,事件b 发生的概率,称为事件b 在给定事件 a 的条件概率( 也称为后验概率) ,记作p p i 彳) 相应地,p ( 由称为无条件概率( 也称为先 验概率) 。条件概率可以由下式进行计算: 即i a ) = 罩等 叫) 由条件概率可求得概率的乘法定理: p ( a b ) = p ( bi 彳) p ( 彳)( 2 2 2 ) 设试验e 的样本空间为s a 为e 的事件,马,垦,最为s 的一个划分,l i p ( b , ) o ,则 全概率公式为 p ( = p ( a i 马) p ( 马) + 户( 彳l 马) 尸( 马) + + p ( x i 曩) 户( 风) = p ( 彳i 马妒( 骂) ( 2 2 3 ) 设试验e 的样本空间为s ,a 为e 的事件,且,岛,e 为s 的一个划分,且 ,( 田 0 ,p ( 置) 0 ,则由条件概率的定义和全概率公式: p ( 蜀l 彳) :善坐丝盟 ( 2 2 4 ) p ( nj 置) 尸( 垦) j l 7 坚堕查兰堡圭兰垡堡塞 上式称作贝叶斯定理。 贝叶斯定理给出了先验信息、样本信息和后验信息之间的关系。 2 2 2 贝叶斯学习 贝叶斯学习使用概率去表示某一假设的发生情况,并通过贝叶斯公式来实现学习过 程。贝叶斯学习可分为两个方面,一个是模型结构学习;一个是模型参数学习。假设有一 系列可供选择的模型m ,j l 毛,用来拟和样本数据d ,并通过先验知识给予这些模型 先验概率p ( m ) ,p ( m 2 ) 9d # 9 p ( 鸠) ,并且m = 1 此时贝叶斯定理可写成: 讹1 d ) = 警 渊) 其中后验概率p ( mid ) 表示在观测样本d 下对模型m 的信任程度,以d l m ) 是关于模 型磁的似然函数,p ( d ) 是一个正常数。 选择最大的以托ld ) 相对应的模型m 作为模型结构,当模型结构确定好以后,就需 要确定贝叶斯模型的参数0 。根据先验知识可选定0 的先验分布以。) ,同样由贝叶斯公 式: 唰d ) = 警 其中后验概率p ( o ld ) 表示在观测样本d 下对参数 的信任程度,以d l o ) 是关于参数 的似然函数,p ( 研是一个正常数。 模型的参数是通过极大后验概率( m a x i m u map o s t e f i o f i ,m a p ) 来确定的,即 p “口= a r g m a x ( p ( o i d ) ) = a r g m a x ( p ( d i o ) p ( e ) ) ( 2 2 7 ) 在某些情况下,若未知参数0 服从均匀分布,此时的贝叶斯估计等同于极大似然估 计( m a x i m u ml i k e l i h o o d , m l ) o 皿= a r g m a x p ( dl )( 2 2 8 ) 极大似然估计是最常用最有效的估计方法之一,此方法是在对被估计参数没有任何先 验知识的情况下来估计参数的,同时假定被估计的参数是常数且未知。由于m a p 估计融 入了被估计量的先验知识,而m l 估计没有这种先验知识,而且如果这种先验知识能反应 估计量的真实分布情况,m a p 估计将由于m l 估计。下面举例说明m a p 估计的优越性。 假设0 = 最,岛 为被估计参数,并且有p ( d 1 0 2 ) = p ( d ) ,则由m l 估计和m a p 估计 墨三兰墨竺堑堡丝皇墨堕堑坌茎堡至 可得, 岛,岛 船= a r g m a x p ( dl 岛,b ) = a r g m a x p ( diq ) ( 2 2 9 ) 吒悬龟 岛,岛) m p = m m a x e ( o , ,岛i d ) = a r g r n a x p ( dj 岛) ,( 日) p ( 岛)( 2 2 1 0 ) q 尚也也 从式( 2 2 9 ) 和( 2 2 1 0 ) q h 可以看出,m l 估计只能估计最优的参数日,而m a p 估计可 以同时估计最优的参数只,岛。 2 3 几种常用的贝叶斯分类模型 贝叶斯分类是有指导学习的分类。贝叶斯分类器是指基于贝叶斯学习方法的分类器, 它通过训练样本集( 己分类的例子集) 来得到分类器,再利用训练好的分类器对没有分类的 数据进行分类。贝叶斯分类器中有代表性的分类器有朴素贝叶斯分类器、贝叶斯网络分类 器和树扩展的朴素贝叶斯分类模型分类器等。 贝叶斯分类具有如下特点: i 贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类 的概率,具有最大概率的类便是该对象所属的类; 2 一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属 性决定分类,而是所有的属性都参与分类; 3 贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。 2 3 1 朴素贝叶斯分类模型 朴素贝叶斯分类器( n a i v e b a y e s c l a s s i f i e r , n b c ) 是贝叶斯分类模型中一种简单有效而 且在实际使用中比较成功的分类器,其性能可以与神经网络、决策树相媲美,甚至在某些 场合优于其它分类器。n b c 模型假设所有的属性变量都条件独立于类变量c ,即每个属 性变量都以类变量作为唯一的父节点。朴素贝叶斯分类模型描述如图2 i 所示, 图2 i 朴素贝叶斯分类器模型 n b c 算法比较简单,不需要进行结构学习,只需要学习参数,实验结果和实践证明, 它的分类效果还是比较好的。但在实际的应用领域中,各个属性相互独立的假设很难成立, 是进一步提高其精度的主要障碍之一。其详细算法过程在第三章中有介绍,在此就不赘述 9 堑壹查兰塑主兰垡丝茎 了。 2 3 2 树扩展的朴素贝叶斯分类模型 n b 结构基于所有属性结点条件独立的假设,理论上在满足其限定条件下是最优的。 但这些假设在实际问题中并不成立,引起分类误差的增大。保留其n b 结构特点,减弱限 定条件,扩大最优范围是改进的一种思路。f r i e d m a n 在n b 结构的基础上提出了t a n 结 构,属性交量以类变量作为父结点,属性结点问构成一棵树形结构,即类结点没有父结 点,属性结点的最大父结点数是2 。基于t a n 结构的分类器就是t a n c 。t a n c 模型的 实质上是由n b c 通过扩展若干条“适合”的弧构成的,见图2 2 : 图2 2 树扩展朴素贝叶斯分类器模型 建立t a n 结构的方法是:在n b 结构的基础上,在属性之间增添扩展弧,以消除 朴素贝叶斯关于条件独立的假设。多余的扩展弧除了增加了需要学习的概率参数,还揭示 了错误的领域结构;而如果扩展弧缺乏,一方面由缺乏所造成的误差无法由概率参数的无 限准确来弥补,另一方面无法准确揭示领域结构和属性之间应有的因果关系。因此如何增 添一组最好的扩展弧是关键的问题,这相当于学习以类变量c 为根结点的最优的贝叶斯 网络。 类结点的最大后验概率c 山= a r g m a x p ( c _ ,) 兀p ( q l 兀q ) ,其中兀q 表示结点q 的 扣d 父结点的集合。 2 3 3 贝叶斯分类嚣的增量学习 把增量学习的思想应用于分类中称之为增量分类,这是一种动态分类过程。其特点 是随着分类过程的推进,训练集的规模不断扩大,带有类标签的实例被逐一纳入训练集中。 也就是说,新的训练实例的加入使得分类器的参数不断地更新而不必从头开始训练分类 器。这种分类模型的关键是在有众多候选实例的情况下,选择什么样的实例优先加入训练 集能促进分类性能的提高,能使得当所有的待分类实例都加入训练集之后,分类器的总体 分类性能最高。 按照分类学习对训练样本的处理方式,可将分类模型分为两类:被动分类模型和主动 分类模型。 被动分类模型的学习也称为“从样本中学习”,它随机地选择训练样本,被动地接受 差三! 墨生堑里堡皇墨竺堑坌茎堡型 这些样本的信息。这对于具有严格序关系的训练样本来说是必要的,也是不可改变的。然 而绝大部分分类学习中都认为训练样本是独立同分布的,这种被动的学习显示出明显的不 足 1 顺序地处理训练样本往往会使学习的分类器具有顺序相关性,对数据过分敏感; 2 遇到噪音样本时,会使这种噪音一直传播下去,影响分类精度; 3 缺乏综合未带类标签的样本信息的能力。在学习分类模型中,未带类别标签的样 本往往包含有助于分类的信息。在这种情况下,选择好的未带类标签的样本,把它加入到 当前的分类器中,是相当重要的。 主动分类模型对训练样本的选择是主动的,它首先选择最有利于分类器性能的样本来 训练分类器,属于更高层次的,具有潜意识的学习矧。增量学习在分类中的应用就属于主 动分类。 2 3 4 提升的朴素贝叶斯分类器 提升方法( b o o s t i n g ) 是改善分类学习的有效手段,它的基本思想是学习一系列分类器, 在这个序列中每一个分类器对它前一个分类器导致的错误分类例子给予更大的重视嘲。尤 其是在学习完分类器吼之后,增加了王导致分类错误的训练例子的权值,并且通过重新 对训练例子计算权值,再学习下一个分类器珥。这个过程重复t 次。最终的分类器从 这一系列的分类器中综合得出。 在一般情况下,提升后的分类性能有了较大的提高,但是这种提升方法也存在以下的 不足:一是不能捕捉属性间的相关性,也就是说没有突破条件独立性假设的限制;二是当训 练集中存在噪音数据时,提升方法会把噪音数据当成有用的信息通过权值而放大,从而降 低提升的性能。 2 4 小结 贝叶斯学习理论利用先验信息和样本数据来获得对未知样本的估计,而概率( 联合概 率和条件概率) 是先验信息和样本数据信息在贝叶斯学习理论中的表现形式。本章分析了 贝叶斯定理和贝叶斯假设。讨论了几种常用的贝叶斯分类模型:朴素贝叶斯分类模型、树 扩展的朴素贝叶斯分类模型、增量贝叶斯分类模型。 第三章基于互信息属性约简的朴素贝叶斯分类器 3 1 引言 第三章基于互信息属性约简的朴素贝叶斯分类器 分类是当今数据挖掘中的研究热点,它通过建立分类模型来预测未知样本的类别。朴 素贝叶斯分类器n b c ( n a i v eb a y e sc l a s s i f i e r ) 是建立在经典的贝叶斯理论基础上的基于统计 方法的分类模型,它假设各条件属性相对于类变量是相对条件独立的j 即一个属性对给定 类的影响独立于其他属性,此时朴素贝叶斯分类器才能得到最优的分类效果。尽管朴素贝 叶斯的条件独立性假设看起来是合理的,然而在实际情况中这个假设通常难以满足,即各 属性变量之间常常具有明显的依赖性。因此,怎样改进朴素贝叶斯分类器,就成了一个重 要的研究课题。 本章提出一种基于互信息属性约简的朴素贝叶斯分类器m i n b c ( n a i v eb a y c l a s s f i e r b a s e do nm u t u a li n f o r m a t i o na t t r i b u t er e d u c t i o n ) ,此方法从信息论角度出发,并给出属性重要 性的度量方法和相应的属性约简算法,找出一组最近似独立的属性约简子集,弱化属性间 的依赖关系,再利用n b c 对约简子集进行训练得到分类器,从而提高朴素贝叶斯分类器的 性能。 3 2 朴素贝叶斯分类 假定u = h ,4 ,4 ,c 为一离散变量有限集,其中4 ,4 ,4 是属性变量, c = c l ,c 2 ,q 是类变量,a i 是属性4 的取值,对于某个不知道类标号的实例 毛= q ,a 2 ) 属于类q 的后验概率为p ( q i q ,吒) ,朴素贝叶斯分类器将类标号q 分配给实例五,当且仅当 p ( qi q ,a 2 q ) 尸( c ji q ,a z ) ,i f m ,l s j s m ,_ ,i ( 3 2 1 ) 由此得到朴素贝叶斯分类的公式:_ 磁= a r g m a x 户( c , i q ,啦吒) ,l s i s m 根据贝叶斯定理 粥h ”= 等糕舞产 蚴, 由于p ( q ,a 2 ) 对于所有类为常数,只需计算p ( q ,呜a niq ) p ( q ) 即可p ( q ) 可以通过公式p ( c 1 ) = 墨s 计算,其中s 是类c l 在中的训练样本中的个数,s 是训练样本 总个数。由概率的链式法则, 扛南大学硕士学位论文 p ,以j c i ) 2 珥,c a , i q ,m 炜q ) ) = p ( qi 口2 ,a s ,巳,c 1 ) ,( 口2iq ,a 3 ,吒,q ) p ( qio l ,a z ,i ,q ) 再根据朴素贝叶斯分类器的条件独立性假设,可得到 h p ( q ,fc i ) = 兀p ( qg ) = p ( qe ) p ( a 2c i ) p ( ic f )( 3 2 4 ) 概率p ( q lc f ) 可以由训练样本计算,即p ( 吼i q ) = s , ,其中& 是在属性4 中具 有值q 并属于类c l 的训练样本个数,而墨是类q 在中的训练样本中的个数,由此得到n b c 算法的分类公式: = a r g m a x p ( c i ) n 联q ig ) ,l j s 所( 3 2 5 ) k - i 3 3 基于互信息的属性约简方法 3 3 1 信息熵与互信息 信息论是s h a n n o n 为解决通信过程问题而建立的一系歹i i 理论。信息熵是信息论中的一 个基本概念,是用来度量信息源的不确定性的。 定义1 对于某一离散随机变量x ,其取值为而,屯,。取值的概率为置,昱,只, 且毋- 1 ,则随机变量j 的熵为:日( j o = - e 只1 0 9 丑。 i - i 扣l 熵越大表示随机变量取值越不确定,取值的概率越小,所含的信息量越多。 定义2 两个随机变量五和五的互信息为:“五,五) = 日( | 墨) 一日( 五i 五) 其中,日( 五) 表示随机变量五的先验熵;日( 墨l 五) 表示在变量五给定后,变量墨的后 验熵。互信息表示了两个变量之间的制约关系。即当变量互的值确定后,会使变量墨的 不确定性减少( 熵减少) ,互信息就表示了这种熵的减少量 3 3 2 属性重要性度量方法 定义3 对于离散变量集u = 4 ,4 ,4 - ,c ,其中a = 4 ,4 ,4 ) 为条件属性集, c 为类变量集,设r c a ,厶和站导出的划分分别为z = 五,五,五 和y = k ,五, , 则r 的熵定义为: 。 1 4 第三章基于互信息属性约简的朴素贝叶斯分类器 h c r ) = - p ( x t ) l o g x l ( 3 3 1 ) s = i 其中,烈石1 ) = c a r d ( x f ) i c a r d ( u ) ,c a r d ( ) 表示集合的基数。而r 相对于c 的条件熵,定 义为: h ( c l 固= p ( x ,) p o i 石i ) l o g p ( y l z j( 3 3 2 ) i = 1 j - 1 式中p ( r l x j = c a r d ( y ,l x ,) c a r d ( x ,) 。r 相对于c 的互信息定义为: 矿( 尼c ) = 日( c ) 一日( c i r )( 3 3 3 ) 则对于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论