贝叶斯分类(数据挖掘).ppt_第1页
贝叶斯分类(数据挖掘).ppt_第2页
贝叶斯分类(数据挖掘).ppt_第3页
贝叶斯分类(数据挖掘).ppt_第4页
贝叶斯分类(数据挖掘).ppt_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

6.4BayesianClassification,BayesianClassification,贝叶斯分类是一种统计分类方法。在贝叶斯学习方法中实用性最高的一种是朴素贝叶斯分类方法。本节主要介绍贝叶斯的基本理论,和朴素贝叶斯的原理和工作过程,并给出一个具体的例子。,BayesianTheorem:Basics,设X是类标号未知的数据样本。设H为某种假设,如数据样本X属于某特定的类C。对于分类问题,我们希望确定P(X|H),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(X|H)的简单有效的方法:P(H):先验概率,或称H的先验概率。P(X/H):代表假设H成立情况下,观察到X的概率。P(H/X):后验概率,或称条件X下H的后验概率。,贝叶斯基本理论的例子:,假设数据样本由水果组成,用它们的颜色和形状来描述。并做如下假设:X:表示假设红色和圆形的。H:表示假设X是苹果。则:P(H/X)反映当我们看到X是红色并且是圆形的时候,我们对X是苹果的确信程度。从直观上看,P(H/X)随着P(H)和P(H/X)的增长而增长,同时也可以看出P(H/X)随P(X)的增加而减小。这是很合理的,因为如果X独立于H时被观察到的可能性越大,那么X对H的支持度越小。,理论上讲,与其所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非如此。这是由于对其应用的假设的不准确,以及缺乏可用的概率数据造成的。研究结果表明,贝叶斯分类器对两种数据具有较好的分类效果:1.完全独立的数据。2.函数依赖的数据。,NaveBayesClassification,朴素贝叶斯分类的工作过程如下:(1).每个数据样本用一个n维的特征向量表示,分别描述对n个属性样本的n个度量。(2).假定m个类,给定一个未知的数据样本X,分类器将预测X属于具有最高后验概率的类。也就是说,朴素贝叶斯分类将未知的样本分配给类,当且仅当:,其中这样,最大化,其最大的类称为最大后验假定。根据贝叶斯定理:,(3).由于P(X)对于所有类为常数,只需要最大即可。如果类的先验概率未知,则通常假定这些类是等概率的,即。因此问题就转换为对的最大化。(常被称为给定时数据X的似然度,而使最大的假设称为最大似然假设)。否则,需要最大化。注意:类的先验概率可以用计算,其中是类中的训练样本数,而s是训练样本总数。,(4).给定具有许多属性的数据集,计算的开销可能非常大。为降低计算的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互独立,即在属性间,不存在依赖关系。这样:其中概率可以由训练样本估值。如果是离散属性,则,其中是在属性上的具有值的类的训练样本数,而是中的训练样本数。如果是连续值属性,则通常假定该属性服从高斯分布,因而:是高斯分布函数。分别为平均值和标准差。,(5).对于未知样本X分类,也就是对每个类,计算。样本X被指派到类,当且仅当:换言之,X被指派到其最大的类。上面的五部就是朴素贝叶斯方法的主要思想,下面用一个具体的例子来说明具体的只用过程。,表1样本取值,例1.下表给出的训练数据,使用朴素的贝叶斯方法进行分类学习。,数据样本属性用age,income,student,和credit_rating描述。类标号属性buys_computer具有两个不同的值yes,no。设:对应于类buys_computer=“yes”,对应于类buys_computer=“no”。我们希望分类的未知样本为:X=(age=“30”,income=“medium”,student=“yes”,credit_rating=“fair”)我们希望最大化。每个类的先验概率可以根据训练样本计算:P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357,我们通过在全部时间基础上观察某事件出现比例来估计概率。例如,在下例中,估计P(age30|buys_computer=“yes”)使用的是比值。其中n=9为所有30|buys_computer=“yes”的训练样本。而是在其中age30的数目。,为计算,我们计算下面的条件概率:P(age30|buys_computer=“yes”)=2/9=0.222P(age30|buys_computer=“no”)=3/5=0.600P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.400P(student=“yes”|buys_computer=“yes)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.2P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4假设条件独立性,使用以上的概率,我们得到:P(X|buys_computer=“yes”)=0.222x0.444x0.667x0.0.667=0.044P(X|buys_computer=“no”)=0.6x0.4x0.2x0.4=0.019P(X|buys_computer=“yes”)*P(buys_

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论