朴素贝叶斯分类及R语言实现PPT课件_第1页
朴素贝叶斯分类及R语言实现PPT课件_第2页
朴素贝叶斯分类及R语言实现PPT课件_第3页
朴素贝叶斯分类及R语言实现PPT课件_第4页
朴素贝叶斯分类及R语言实现PPT课件_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Naive Bayesian分类和r语言实施,数学和科学大学统计专业唐荣201721100210219,1,naive Bayesian的理论基础,2,贝叶斯定理可以根据条件概率通过P(A|B)分解为P(B|A):其他,常识的分母P(A)可以根据整体概率公式分解为:3,naive Bayesian的理论基础,4,5,6、分类过程如图:7,8,类似表格,9,P(Viagra|垃圾邮件)P(垃圾邮件)=(4/20)(20/100)=0.04,naive Bayes分类:除了Viagra一词以外,10,设置Viagra=Yes,Money=No,Groceries=No,unsubscribee=yes。垃圾邮件的条件概率:非垃圾邮件的条件概率:使用宇都表中的数据获取垃圾邮件的总示例:非垃圾邮件的总示例:0.012/0.002=6,因此该消息更有可能是垃圾邮件的6倍,即垃圾邮件。11,分母会被忽略,因此必须在结果后除以分母。垃圾信息的概率=0.012/(0.012 0.002)=0.857一样,非垃圾信息的概率=0.002/(0.012 0.002)=0.143,2,拉普拉斯估计,naive Bayes对于更复杂的问题我们收到了另一条包含Viagra、Money、Groceries和Unsubscribe这四个词的信息。像以前一样使用贝叶斯算法,垃圾邮件可以计算如下:(4/20)(10/20)(0/20)(12/20)(20/100)=0看来不是垃圾邮件:(1/80),如果类的一个或多个级别从未发生事件,则可能发生这种情况。例如,单词Groceries为p(垃圾邮件|groceries)=0,因为以前未出现在垃圾邮件消息中。在naive Bayesian公式中,概率值乘以链,所以概率值为零时,垃圾邮件的后概率为零,单词Groceries可以有效地抵消或否定其他证据。虽然该邮件很有可能被预测为垃圾邮件,但由于未出现Groceries一词,其他证据被拒绝,该邮件成为垃圾邮件的可能性为零。解决这个问题涉及一种方法,即以法国数学家皮埃尔-西蒙斯-拉氏(Pierre-SimonLaplce)的名字命名的拉氏估计(Laplaceestimator)。本质上,拉普拉斯估计将频率表中的每个数加上一个较小的数,以确保每个类的每个要素发生的概率不为零。通常加入至拉普拉斯估计的值设定为1,因此每个类别-图征组合在资料中至少出现一次。下面观察拉普拉斯估计如何影响我们对信息的预测结果。13、以拉普拉斯值为1,对每个似然函数的分子加1。在每个条件概率分母上加分子中增加1的总和。垃圾邮件等例子:(5/24)(11/24)(1/24)(13/24)(20/24)=0.0004这意味着消息成为垃圾邮件的概率为80%,不是垃圾邮件的概率为20%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论