贝叶斯分类器经典讲解_第1页
贝叶斯分类器经典讲解_第2页
贝叶斯分类器经典讲解_第3页
贝叶斯分类器经典讲解_第4页
贝叶斯分类器经典讲解_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、贝叶斯算法贝叶斯算法贝叶斯 ,英国数学家。1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。一个医疗诊断问题有两个可选的假设:病人有癌症、病人无癌症有两个可选的假设:病人有癌症、病人无癌症可用数据来自化验结果:正可用数据来自化验结果:正+和负和负-有先验知识:在所有人口中,患病率是有先验知识:在所有人口中,患病率是0.008对确实有病的患者的化验准确率为对确实有病的患者的化验准确率为98%,对确实,对确实无病的患

2、者的化验准确率为无病的患者的化验准确率为97%总结如下总结如下P(cancer)=0.008, P( cancer)=0.992P(+|cancer)=0.98, P(-|cancer)=0.02P(+| cancer)=0.03, P(-| cancer)=0.9问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?求后验概率P(cancer|+)和P(cancer|+)贝叶斯定理贝叶斯定理 解决上面的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。癌症癌症诊断正诊断正确确诊断正诊断正确确癌症癌症贝叶斯定理这里先解释什么是条

3、件概率)(BAP在事情在事情B发生的条件下发生的条件下A发生的条件概率,其发生的条件概率,其求解公式为求解公式为)()(BPABPBAP贝叶斯定理 贝叶斯定理的意义在于,我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。贝叶斯定理)()()()(APBPBAPABP下面不加证明给出贝叶斯定理公式机器语言中的定义)(AP表示在没有训练数据前假设A拥有的初始概率。P(A)被称为A的先验概率.)(ABPP(A|B)表示假设B成立时A的概率机器学习中我们关心的是P(B|A)

4、,即给定A时B的成立的概率,称为B的后验概率,)()()()(APBPBAPABP贝叶斯定理的解释 P(B|A)随着P(B)和P(A|B)的增长而增长,随着P(A)的增长而减少,即如果A独立于B时被观察到的可能性越大,那么B对A的支持度越小.评分标准)()|(maxarg)()()|(maxarg)|(maxargBPBAPAPBPBAPABPBHBHBHBMAPH:假设候选集表示使P(B|A)最大的B值P(A)?_P(A|B)=)|(1BAPNi评分标准朴素贝叶斯分类器1、条件独立性给定类标号y,朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立。条件独立假设可以形式化的表达如下:Uni

5、yYxPyYXP1)|()|(其中每个训练样本可用一个属性向量X=(x1,x2,x3,xn)表示,各个属性之间条件独立。 朴素贝叶斯分类器比如,对于一篇文章“Good good study,Day day up.” 用一个文本特征向量来表示:x=(Good, good, study, Day, day , up)。一般各个词语之间肯定不是相互独立的,有一定的上下文联系。但在朴素贝叶斯文本分类时,我们假设个单词之间没有联系,可以用一个文本特征向量来表示这篇文章,这就是“朴素”的来历。朴素贝叶斯如何工作 有了条件独立假设,就不必计算X和Y的每一种组合的类条件概率,只需对给定的Y,计算每个xi的条件

6、概率。后一种方法更实用,因为它不需要很大的训练集就能获得较好的概率估计。估计分类属性的条件概率P(xi|Y=y)怎么计算呢?它一般根据类别y下包含属性xi的实例的比例来估计。以文本分类为例,xi表示一个单词,P(xi|Y=y)=包含该类别下包含单词的xi的文章总数/ 该类别下的文章总数。贝叶斯分类器举例 假设给定了如下训练样本数据,我们学习的目标是根据给定的天气状况判断你对PlayTennis这个请求的回答是Yes还是No。DayDayOutlookOutlookTemperatTemperatureureHumidityHumidityWindWindPlayTennPlayTennisis

7、D1D1SunnySunnyHotHotHighHighWeakWeakNoNoD2D2SunnySunnyHotHotHighHighStrongStrongNoNoD3D3OvercastOvercastHotHotHighHighWeakWeakYesYesD4D4RainRainMildMildHighHighWeakWeakYesYesD5D5RainRainCoolCoolNormalNormalWeakWeakYesYesD6D6RainRainCoolCoolNormalNormalStrongStrongNoNoD7D7OvercastOvercastCoolCoolNorm

8、alNormalStrongStrongYesYesD8D8SunnySunnyMildMildHighHighWeakWeakNoNoD9D9SunnySunnyCoolCoolNormalNormalWeakWeakYesYesD10D10RainRainMildMildNormalNormalWeakWeakYesYesD11D11SunnySunnyMildMildNormalNormalStrongStrongYesYesD12D12OvercastOvercastMildMildHighHighStrongStrongYesYesD13D13OvercastOvercastHotH

9、otNormalNormalWeakWeakYesYesD14D14RainRainMildMildHighHighStrongStrongNoNo14/9yesyp )(145/)noy(p windhumdityetemperaturoutlookxnoyes,y)(xf贝叶斯分类器打网球我们需要利用训练数据计算后验概率P(Yes|x)和P(No|x),如果P(Yes|x)P(No|x),那么新实例分类为Yes,否则为No。贝叶斯分类器举例我们将使用此表的数据,并结合朴素贝叶斯分类器来分我们将使用此表的数据,并结合朴素贝叶斯分类器来分类下面的新实例类下面的新实例:strongnormalc

10、oolovercastwindhumdityetemperaturoutlookx贝叶斯分类器举例DayDayOutloOutlookokTempeTemperaturrature eHumidHumidityityWindWindPlayTennisPlayTennisD1D1SunnSunny yHotHotHighHighWeakWeakNoNoD2D2SunnSunny yHotHotHighHighStroStrongngNoNoD8D8SunnSunny yMildMildHighHighWeakWeakNoNoD14D14RainRainMildMildHighHighStroS

11、trongngNoNoD6D6RainRainCoolCoolNormNormalalStroStrongngNoNoP(Outlook = Sunny|No)=3/5P(Temperature = Cool |No) =1/5 P(Humidity = High |No) =4/5P(P(Wind = Strong |No= Strong |No) ) =3/5=3/5贝叶斯分类器举例P(Outlook = Sunny|No)=3/5P(Temperature = Cool |No) =1/5 P(Humidity = High |No) =4/5P(P(Wind = Strong |No=

12、 Strong |No) ) =3/5=3/5145/)noY(p 6253653545153 *)NOY|X(P8751814562536 *)NOY(P*)NOY|X(P贝叶斯分类器举例DayDayOutlooOutlook kTemperTemperatureatureHumidiHumiditytyWindWindPlayTePlayTennisnnisD3D3OvercaOvercaststHotHotHighHighWeakWeakYesYesD4D4RainRainMildMildHighHighWeakWeakYesYesD5D5RainRainCoolCoolNormalNo

13、rmalWeakWeakYesYesD7D7OvercaOvercaststCoolCoolNormalNormalStrongStrongYesYesD9D9SunnySunnyCoolCoolNormalNormalWeakWeakYesYesD10D10RainRainMildMildNormalNormalWeakWeakYesYesD11D11SunnySunnyMildMildNormalNormalStrongStrongYesYesD12D12OvercaOvercaststMildMildHighHighStrongStrongYesYesD13D13OvercaOverca

14、ststHotHotNormalNormalWeakWeakYesYesP P(Outlook = Sunny|Yes)(Outlook = Sunny|Yes)=2/9=2/9P P(Temprature = Cool |Yes) =(Temprature = Cool |Yes) =3/93/9P P(Humidity = High |Yes) (Humidity = High |Yes) =3/9=3/9P P(Wind = Strong |Yes) (Wind = Strong |Yes) =3/9=3/9283293939392 *)YESY|X(PP P(Outlook = Sun

15、ny|Yes)(Outlook = Sunny|Yes)=2/9=2/9P P(Temprature = Cool |Yes) =(Temprature = Cool |Yes) =3/93/9P P(Humidity = High |Yes) (Humidity = High |Yes) =3/9=3/9P P(Wind = Strong |Yes) (Wind = Strong |Yes) =3/9=3/9贝叶斯分类器举例14/9yesPP )(189114993939392 *)YESP(P)YESY|X(P贝叶斯分类器举例由于87518 )NOY(P)NOY|X(P1891 )YESP

16、(P)YESY|X(P大于所以该样本分类为所以该样本分类为NoNo条件概率的m估计 假设有来了一个新样本 x1= (Outlook = Cloudy,Temprature = Cool,Humidity = High,Wind = Strong)要求对其分类。我们来开始计算 P(Outlook = Cloudy|Yes)=0/9=0 P(Outlook = Cloudy |No)=0/5=0 计算到这里,大家就会意识到,这里出现了一个新的属性值,在训练样本中所没有的。如果有一个属性的类条件概率为0,则整个类的后验概率就等于0,我们可以直接得到后验概率P(Yes | x1)= P(No | x1

17、)=0,这时二者相等,无法分类。条件概率的m估计 当训练样本不能覆盖那么多的属性值时,都会出现上述的窘境。简单的使用样本比例来估计类条件概率的方法太脆弱了,尤其是当训练样本少而属性数目又很大时。 解决方法是使用m估计(m-estimate)方法来估计条件概率:mnmpn)Y|X(Pci n n是是Y Y中的样本总数,中的样本总数,n nc c是是Y Y中取值中取值x xi i的样本数,的样本数,m m是称为等是称为等价样本大小的参数,而价样本大小的参数,而p p是用户指定的参数。是用户指定的参数。如果没有训练集(即如果没有训练集(即n=0n=0),则),则P(xP(xi i|y|yj j)=p

18、, )=p, 因此因此p p可以看可以看作是在作是在Y Y的样本中观察属性值的样本中观察属性值xixi的先验概率。等价样本大的先验概率。等价样本大小决定先验概率和观测概率小决定先验概率和观测概率n nc c/n/n之间的平衡之间的平衡多项式模型 基本原理 在多项式模型中, 设某文档d=(t1,t2,tk),tk是该文档中出现过的单词,允许重复,则: V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表示训练样本包含多少种单词。在这里,m=|V|, p=1/|V|。 P( tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据,而P(c)则可以认为是类别c在整体上占多大

19、比例(有多大可能性)。整个训练本的单词总数下单词总数类)(先验概率c cc cp p | |v v| |c ct tt tP Pk kk k 下单词总数类数在各个文档中出现的次下单词类条件概率1c) c|(多项式模型举例ididdocdoc类别类别In In c=Chinc=China?a?1 1Chinese Chinese Beijing Beijing ChineseChineseyesyes2 2Chinese Chinese Chinese Chinese ShanghaiShanghaiyesyes3 3Chinese MacaoChinese Macaoyesyes4 4Toky

20、o Japan Tokyo Japan ChineseChinesenono给定一个新样本给定一个新样本Chinese Chinese Chinese Chinese Tokyo Chinese Chinese Tokyo JapanJapan,对其进行分类。,对其进行分类。该文本用属性向量表示为d=(Chinese, Chinese, Chinese, Tokyo, Japan)类别集合为Y=yes, no。多项式模型举例ididdocdoc类别类别In In c=China?c=China?1 1Chinese Beijing Chinese Beijing ChineseChinesey

21、esyes2 2Chinese Chinese Chinese Chinese ShanghaiShanghaiyesyes3 3Chinese MacaoChinese Macaoyesyes4 4Tokyo Japan Tokyo Japan ChineseChinesenono118 )YES(P113 )NO(P字典里包括六个单词ididdocdoc类别类别In In c=China?c=China?1 1ChineseChinese BeijingBeijing ChineseChineseyesyes2 2Chinese Chinese Chinese Chinese Shangh

22、aiShanghaiyesyes3 3Chinese Chinese MacaoMacaoyesyes4 4Tokyo Tokyo JapanJapan ChineseChinesenonoP(Chinese | yes)=(5+1)/(8+P(Chinese | yes)=(5+1)/(8+6 6)=6/14=3/7)=6/14=3/7P(Japan | yes)=P(Tokyo | yes)P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+= (0+1)/(8+6 6)=1/14)=1/14P(Chinese|no)=(1+1)/(3+6)=2/9P(Chin

23、ese|no)=(1+1)/(3+6)=2/9P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9p(yes|d)=(3/7)31/141/148/11=108/1848770.00058417P(no|d)= (2/9)32/92/93/11=32/2165130.00014780因此,这个文档属于类别因此,这个文档属于类别china。伯努利模型1、基本原理整个训练本的文件总数下文件数类)(先验概率c cc cp p 2 2c ct tt tP Pk kk k 下文件数类的文件数下

24、单词类条件概率1c) c|(在这里,m=2, p=1/2。p( |c=YES)= p( |c=yes)(1-p( |c=yes)c ct tc ct tt ti it t伯努利模型举例ididdocdoc类别类别In In c=Chinc=China?a?1 1Chinese Chinese Beijing Beijing ChineseChineseyesyes2 2Chinese Chinese Chinese Chinese ShanghaiShanghaiyesyes3 3Chinese MacaoChinese Macaoyesyes4 4Tokyo Japan Tokyo Japa

25、n ChineseChinesenono43 )YES(P41 )NO(Pd=Chinese Chinese d=Chinese Chinese Chinese Tokyo JapanChinese Tokyo Japan伯努利模型举例ididdocdoc类别类别In In c=Chinc=China?a?1 1ChineseChinese BeijingBeijing ChineseChineseyesyes2 2Chinese Chinese ChineseChinese ShanghaShanghai iyesyes3 3ChineseChinese MacaoMacaoyesyes P

26、( P(ChineseChinese|yes)=(3+1)/(3+2)=4/5|yes)=(3+1)/(3+2)=4/5 P(Beijing|yes)= P(Macao|yes)= P(Shanghai |yes)=(1+1)/(3+2)=2/5 P(Japan | yes) P(Japan | yes)=P(Tokyo | yes)=P(Tokyo | yes)=(0+1)/(3+2)=1/5=(0+1)/(3+2)=1/5伯努利模型举例4 4TokyoTokyo JapanJapan ChineseChinesenonoP(P(ChineseChinese|no)=(1+1)/(1+2)=2/3|no)=(1+1)/(1+2)=2/3 P(P(JapanJap

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论