朴素贝叶斯分类 (2)ppt课件_第1页
朴素贝叶斯分类 (2)ppt课件_第2页
朴素贝叶斯分类 (2)ppt课件_第3页
朴素贝叶斯分类 (2)ppt课件_第4页
朴素贝叶斯分类 (2)ppt课件_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、朴素贝叶斯分类,第九章,1,1. 定义,A,B,AB,条件概率,若 是全集,A、B是其中的事件(子集),P表示事件发生的概率,则,为事件B发生后A发生的概率。,2,乘法定理,注:当P(AB)不容易直接求得时,可考虑利用P(A)与P(B|A)的乘积或P(B)与P(A|B)的乘积间接求得。,3,乘法定理的推广,4,1. 集合(样本空间)的划分,二、全概率公式,5,2. 全概率公式,全概率公式,6,图示,证明,化整为零 各个击破,7,说明 全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果.,8,例1 有一批同一型号的产品

2、,已知其中由一厂生产的占 30% , 二厂生产的占 50% , 三厂生产的占 20%, 又知这三个厂的产品次品率分别为2% , 1%, 1%,问从这批产品中任取一件是次品的概率是多少,设事件 A 为“任取一件为次品”,解,9,由全概率公式得,10,贝叶斯公式,11,Bayes公式的意义,假设导致事件A发生的“原因”有Bi (i=1,2,n) 个。它们互不相容。 现已知事件A确已经发生了,若要估计它是由“原因”Bi所导致的概率,则可用Bayes公式求出. 即可从结果分析原因.,12,证明,乘法定理:,13,例2 贝叶斯公式的应用,14,解,15,(1) 由全概率公式得,(2) 由贝叶斯公式得,1

3、6,17,由以往的数据分析得到的概率, 叫做先验概率.,而在得到信息之后再重新加以修正的概率 叫做后验概率.,先验概率与后验概率,18,贝叶斯分类,贝叶斯分类器是一个统计分类器。它们能够预测类别所属的概率,如:一个数据对象属于某个类别的概率。贝叶斯分类器是基于贝叶斯定理而构造出来的。 对分类方法进行比较的有关研究结果表明:简单贝叶斯分类器(称为基本贝叶斯分类器)在分类性能上与决策树和神经网络都是可比的。 在处理大规模数据库时,贝叶斯分类器已表现出较高的分类准确性和运算性能。,19,20,贝叶斯分类,定义:设X是类标号未知的数据样本。设H为某种假定,如数据样本X属于某特定的类C。对于分类问题,我

4、们希望确定P(H|X),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法: P(H)是先验概率,或称H的先验概率。P(X|H)代表假设H成立的情况下,观察到X的概率。 P(H| X )是后验概率,或称条件X下H的后验概率。,20,21,贝叶斯分类,先验概率泛指一类事物发生的概率,通常根据历史资料或主观判断,未经实验证实所确定的概率。 而后验概率涉及的是某个特定条件下一个具体的事物发生的概率,21,22,贝叶斯分类,例如:P(x1)=0.9: x1-为正常细胞的概率0.9(先验概率) P(x2)=0.1: x2-为异常细胞的概率0.1(先验概率) 对某

5、个具体的对象y,P(x1|y):表示y的细胞正常的概率是0.82(后验概率) P(x2|y):表示y的细胞异常的概率是0.18(后验概率),22,朴素贝叶斯分类,朴素贝叶斯分类的工作过程如下: (1) 每个数据样本用一个n维特征向量X= x1,x2,xn表示,分别描述对n个属性A1,A2,An样本的n个度量。 (2) 假定有m个类C1,C2,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1im)当且仅当P(Ci|X) P(Cj|X),对任意的j=1,2,m,ji。这样,最大化P(Ci|X)。

6、其P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理,23,24,朴素贝叶斯分类(续),(3)由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大即可。 如果Ci类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=P(Cm),因此问题就转换为对P(X|Ci)的最大化(P(X|Ci)常被称为给定Ci时数据X的似然度,而使P(X|Ci)最大的假设Ci称为最大似然假设)。 否则,需要最大化P(X|Ci)*P(Ci)。注意,类的先验概率可以用P(Ci)=si/s计算,其中si是类Ci中的训练样本数,而s是训练样本总数。,24,25,朴素贝叶斯分类(续),(4)

7、给定具有许多属性的数据集,计算P(X|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。 给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样,联合概率分布,25,26,朴素贝叶斯分类(续),(5)对未知样本X分类,也就是对每个类Ci,计算P(X|Ci)*P(Ci)。 样本X被指派到类Ci,当且仅当P(Ci|X) P(Cj|X),1jm,ji,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类。,26,“打网球”的决定,之前用ID3算法求解的一个例子,27,实例,统计结果,28,统计结果,对下面的情况做出决策:,29,统计结果,对下面的情况做出决策:,模型:,决策:,?,贝叶斯公式:,E为第二个表中的取值、分别计算D=yes/no的概率,30,统计结果,对下面的情况做出决策:,31,已经计算出:,同理可计算:,利用公式:,最后得到:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论