贝叶斯分类器讲义.ppt_第1页
贝叶斯分类器讲义.ppt_第2页
贝叶斯分类器讲义.ppt_第3页
贝叶斯分类器讲义.ppt_第4页
贝叶斯分类器讲义.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贝叶斯分类器,一、分类器的概念,分 类,特征提取 特征:对象的特殊属性 特征向量:特征的描述参数 方法:列出特征表用排除方法计算不同特征的相对概率,然后选取 良好的特征的特点:可区别性、可靠性、独立性、数量少 分类器的设计 逻辑结构:(分类规则)相似程度 分类规则的数学基础:(阈值规则)特征空间,分类器的训练 基本方法:用一组已知的对象来训练分类器 目的的区分:1. 分类错误的总量最少 2. 对不同的错误分类采用适当的加权 使分类器的整个“风险”达到最低 偏差:分类错误 分类器的性能测试 已知类别的测试集;已知对象特征PDF的测试集 PDF的获取:画出参数的直方图,并计算均值和方差,再规划到算法面积,需要的话再做一次平滑,就可将这个直方图作为相应的PDF设计 独立每一类的测试集 使用循环的方法,特征选择,特征选择可以看作是一个(从最差的开始)不断删去无用特征并组合有关联特征的过程,直至特征的数目减少至易于驾驭的程度,同时分类器的性能仍然满足要求为止。例如,从一个具有M个特征的特征集中挑选出较少的N个特征时,要使采用这N个特征的分类器的性能最好。 特征方差 类间距离 降维,二、概率论基本知识,概率论基本知识,确定事件:概念是确定的,发生也是确定的; 随机事件:概念是确定的,发生是不确定的; 模糊事件:概念本身就不确定。,联合概率和条件概率 联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记为:P(AB); 条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B), P(A|B) = P(AB) / P(B) ; 乘法定理:P(AB) = P(B)P(A|B) = P(A)P(B|A)。,概率密度函数 概率分布函数:设X为连续型随机变量,定义分布函数;F(x) = P(Xx); 概率密度函数:给定X是随机变量,如果存在一个非负函数f(x),使得对任意实数a,b(ab)有 P(aXb) = f(x)dx, (积分下限是a,上限是b) ,则称f(x)为X的概率密度函数。,样本空间的划分,全概率公式,说明: 全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果。,贝叶斯公式,Bayes公式的意义,Bayes公式,其意义是:假设导致事件A发生的“原因”有Bi(i=1,2,n)个。它们互不相容。 现已知事件A确已经发生了,若要估计它是由“原因”Bi所导致的概率,则可用Bayes公式求出.即可从结果分析原因.,三、贝叶斯分类器,确定性分类和随机性统计分类 以两类分类问题来讨论,设有两个类别1和2,理想情况, 1和2决定了特征空间中的两个决策区域。 确定性分类: 我们任取一个样本x,当它位于1的决策区域时,我们判别x 1;当它位于2的决策区域时,我们判别x 1。也可以说:当x位于1的决策区域时,它属于1的概率为1,属于2的概率为0。 随机性统计分类: 如我们任取一个样本x,当它位于1的决策区域时,它属于1的概率为小于1,属于2的概率大于0,确定性分类问题就变成了依照概率判决规则进行决策的统计判别问题。,贝叶斯分类原理,先验概率、后验概率和类(条件)概率密度: 先验概率: 根据大量样本情况的统计,在整个特征空间中,任取一个特征向量x,它属于类j的概率为P(j),也就是说,在样本集中,属于类j的样本数量于总样本数量的比值为P(j)。我们称P(j)为先验概率。 显然,有: P(1) P(2) P(c)1 如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于类j的样例数|j|比上总样例数|D|来近似,即,由以往的数据分析得到的概率, 叫做先验概率.,后验概率: 当我们获得了某个样本的特征向量x,则在x条件下样本属于类j的概率P(j|x)称为后验概率。 在得到信息之后再重新加以修正的概率叫做后验概率, 后验概率就是我们要做统计判别的依据。 类(条件)概率密度: P(x|j)是指当已知类别为j的条件下,看到样本x出现的概率。 若设x = ,则P(x|j)= P(a1,a2am| j),后验概率的获得: 后验概率是无法直接得到的,因此需要根据推理计算由已知的概率分布情况获得。 根据贝叶斯公式可得:,其中: p(x| j)为类j所确定的决策区域中,特征向量x出现的概率密度,称为类条件概率密度。 P(x)为全概率密度,可由全概率公式计算得到。,贝叶斯分类原理: 根据已知各类别在整个样本空间中的出现的先验概率,以及某个类别空间中特征向量X出现的类条件概率密度,计算在特征向量X出现的条件下,样本属于各类的概率,把样本分类到概率大的一类中。 利用贝叶斯方法分类的条件: 各类别总体的概率分布是已知的; 要分类的类别数是一定的;,癌细胞识别,两类别问题细胞正常与异常 若仅利用先验概率进行分类 统计的角度得出的两类细胞的出现概率 无法实现正常与异常细胞的分类目的 先验概率提供的信息太少,要结合样本观测信息,为此需要利用类条件概率,例:细胞识别问题 1正常细胞,2癌细胞 经大量统计获先验概率P(1),P(2)。,对任一细胞样本x观察:有细胞光密度特征 , 有类条件概率密度: P(x/ ) =1,2,。,可以把先验概率转化为后验概率, 利用后验概率可对未知细胞x进行识别 。,最小错误率贝叶斯分类: 用j和j分别表示两种不同的类型,用P(1)和P(2)分别表示各自的先验概率,用p(x|1)和p(x|2)分别表示两个类概率密度。根据全概率公式,样本x出现的全概率密度为:,根据贝叶斯公式,在样本x出现的条件下,两个类型的后验概率分别为:,这样,我们就规定样本x归属于后验概率较高的那种类型,即 利用贝叶斯公式,可以得到最小错误率贝叶斯判别规则的等价形式: 上述两个公式,也可以推广到多类,即j=1,2,.c。,例:某地区细胞识别; P(1)=0.9, P(2)=0.1 未知细胞x,先从类条件概率密度分布曲线上查到: 问该细胞属于正常细胞还是异常细胞? 解:先计算后验概率:,P(x/ 1)=0.2, P(x/ 2)=0.4,最小风险贝叶斯分类: 最小错误率贝叶斯分类只考虑分类错误的概率最小,但是,每次分类错误带来的损失是不一样的,例如: 要判断某人是正常(1)还是肺病患者(2),于是在判断中可能出现以下情况: 第一类,判对(正常正常) 11 ; 第二类,判错(正常肺病) 21 ; 第三类,判对(肺病肺病) 22; 第四类,判错(肺病正常) 12 。 第二类和第四类属于分类错误。 显然,第四类错误带来的损失大于第二类错误带来的损失。,为评估分类错误的风险,引入以下概念: 决策i:表示把模式x判决为i类的一次行动。 决策空间:所有决策i的集合。 损失函数: 表示模式x本来属于j类而采取的决策为i时所带来的损失,这样就可以得到风险矩阵。 条件风险(也叫条件期望损失):对未知x采取一个判决行动i(x)所冒的风险(或所付出的代价),对于特定的x采取决策i 的期望损失,风险矩阵:,最小风险贝叶斯判别规则: 判别步骤: (1)在给定样本x,且已知P(j)和p(x| j),j=1,2,c。根据贝叶斯公式计算出后验概率 (2)利用计算出的后验概率和风险矩阵计算出采取i的条件风险R(i |x) (3)按照判别规则,比较各种决策的条件风险,把样本归属于条件风险最小的那一种判决。,最小错误率和最小风险两种判别规则的关系: 设损失函数为0-1函数: 条件风险为: 表示对x采取决策i的条件错误概率.,所以在0-1损失函数下,使 的最小风险贝叶斯分类就等价于 的最小错误率贝叶斯分类 所以,最小错误率贝叶斯决策就是在0-1损失函数条件下的最小风险贝叶斯分类,即,前者是后者的特例。,最大似然比贝叶斯分类: 最大似然比判别规则也是一种贝叶斯分类方法,它是把模式样本归属于这样的类型i : 类型i分别与其它类型j(j=1,2,c,ji )的似然比均大于相应的门限值,而其他类型j(j=1,2,c,ji )分别与类型i的似然比均小于相应的门限值。,由最小错误率判别规则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论