




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,实验3:贝叶斯分类分类算法,.,2,实验3:贝叶斯分类分类算法,实验目的:1.掌握贝叶斯分类算法2.熟悉C+编程3.数据集见下图:,.,3,.,4,背景知识,.,5,朴素贝叶斯分类,朴素贝叶斯分类的工作过程如下:(1)每个数据样本用一个n维特征向量X=x1,x2,xn表示,分别描述对n个属性A1,A2,An样本的n个度量。(2)假定有m个类C1,C2,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1im)当且仅当P(Ci|X)P(Cj|X),对任意的j=1,2,m,ji。这样,最大化P(Ci|X)。其P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理,.,6,朴素贝叶斯分类(续),(3)由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大即可。如果Ci类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=P(Cm),因此问题就转换为对P(X|Ci)的最大化(P(X|Ci)常被称为给定Ci时数据X的似然度,而使P(X|Ci)最大的假设Ci称为最大似然假设)。否则,需要最大化P(X|Ci)*P(Ci)。注意,类的先验概率可以用P(Ci)=si/s计算,其中si是类Ci中的训练样本数,而s是训练样本总数。,.,7,朴素贝叶斯分类(续),(4)给定具有许多属性的数据集,计算P(X|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样,联合概率分布,2020/5/20,.,8,朴素贝叶斯分类(续),(5)对未知样本X分类,也就是对每个类Ci,计算P(X|Ci)*P(Ci)。样本X被指派到类Ci,当且仅当P(Ci|X)P(Cj|X),1jm,ji,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类。,.,9,贝叶斯分类,.,10,BayesianClassifiers,Approach:computetheposteriorprobabilityP(C|A1,A2,An)forallvaluesofCusingtheBayestheoremChoosevalueofCthatmaximizesP(C|A1,A2,An)EquivalenttochoosingvalueofCthatmaximizesP(A1,A2,An|C)P(C)HowtoestimateP(A1,A2,An|C)?,.,11,NaveBayesClassifier,AssumeindependenceamongattributesAiwhenclassisgiven:P(A1,A2,An|C)=P(A1|Cj)P(A2|Cj)P(An|Cj)0CanestimateP(Ai|Cj)forallAiandCj.NewpointisclassifiedtoCjifP(Cj)P(Ai|Cj)ismaximal.,.,12,.,13,.,14,对比决策树分类,整棵决策树就对应着一组析取表达式规则。,.,15,知识回顾,贝叶斯知识,.,16,1.样本空间的划分,二、全概率公式,.,17,2.全概率公式,全概率公式,.,18,图示,证明,化整为零各个击破,.,19,说明全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果.,.,20,例1有一批同一型号的产品,已知其中由一厂生产的占30%,二厂生产的占50%,三厂生产的占20%,又知这三个厂的产品次品率分别为2%,1%,1%,问从这批产品中任取一件是次品的概率是多少?,设事件A为“任取一件为次品”,解,.,21,由全概率公式得,.,22,称此为贝叶斯公式.,3.贝叶斯公式,.,23,Bayes公式的意义,Bayes公式,其意义是:假设导致事件A发生的“原因”有Bi(i=1,2,n)个。它们互不相容。现已知事件A确已经发生了,若要估计它是由“原因”Bi所导致的概率,则可用Bayes公式求出.即可从结果分析原因.,.,24,证明,条件概率的概念,乘法定理:,.,25,例2贝叶斯公式的应用,.,26,解,.,27,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 燃气公司员工活动策划方案
- 云上清明节活动方案策划
- 青少年抑郁咨询方案大全
- 管理咨询售后服务方案
- 以前的活动策划方案怎么做
- 四个暖心活动方案策划
- 绿色电子书标准构建-洞察及研究
- 农产品加工产业链信息化-洞察及研究
- 数字指纹技术在网络取证中的作用与挑战-洞察及研究
- 海洋油气平台无人机巡检-洞察及研究
- 律师调查报告委托合同9篇
- 2026年高考作文备考训练之“自我接纳-自我认知-自我超越”作文讲评
- 2025年河北石家庄交通投资发展集团有限责任公司公开招聘操作类工作人员336人考试参考题库及答案解析
- 幼儿园大班数学《小熊种玉米》课件
- 公交车广告承包合同5篇
- 2025年秋新北师大版数学3年级上册全册同步教案
- GB/T 13460-2016再生橡胶通用规范
- 基础观感验收自评报告
- 班级管理(第3版)教学课件汇总全套电子教案(完整版)
- 公路桥梁工程施工安全专项风险评估报告
- T∕ACSC 02-2022 中医医院建筑设计规范
评论
0/150
提交评论