免费预览已结束,剩余41页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
朴素贝叶斯NaiveBayes,CompanyLogo,朴素贝叶斯,主要内容贝叶斯简介朴素贝叶斯分类基本决策规则基于最小错误率基于最小风险总结扩展(了解)贝叶斯与分类的简单应用,CompanyLogo,贝叶斯简介,贝叶斯(ThomasBayes,17011761)英国牧师、业余数学家。在论机会学说中一个问题的求解中给出了贝叶斯定理。具有讽刺意味的是,当初贝叶斯发明概率统计理论是为了证明上帝的存在,而至死这个愿望都没有实现,不过感谢伟大的贝叶斯,因为他的无心插柳,才有了今天的贝叶斯公式,并列于数据挖掘十大经典算法:它解决了两个事件条件概率的转换问题,CompanyLogo,贝叶斯简介,先验概率:由以往的数据分析得到的概率后验概率:得到结果的信息后重新修正的概率简单地说,贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法在人工智能领域,贝叶斯方法是一种非常具有代表性的不确定性知识表示和推理方法,CompanyLogo,贝叶斯简介,贝叶斯定理P(A)是A的先验概率或边沿概率,之所以称为先验,是因为它不考虑任何B方面的因素P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称为A的后验概率P(B|A)是已知A发生后B的条件概率,也由于得自B的取值而被称为B的后验概率P(B)是B的先验概率或边沿概率,之所以称为先验,是因为它不考虑任何A方面的因素,CompanyLogo,贝叶斯简介,贝叶斯定理条件概率:P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式:贝叶斯公式P(B|A)是根据A判断其属于类别B的概率,称为后验概率。P(B)是直接判断某个样本属于B的概率,称为先验概率。P(A|B)是在类别B中观测到A的概率,P(A)是在数据库中观测到A的概率,CompanyLogo,贝叶斯简介,百度百科上的例子:学校里有60%男生和40%女生,女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子,一个人在远处看到了一个穿裤子的学生。这个学生是女生的概率是多少?使用贝叶斯定理,事件A是看到女生,事件B是看到一个穿裤子的学生。我们所要计算的是P(A|B)P(A)是忽略其它因素,看到女生的概率,在这里是0.4P(A)是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是0.6P(B|A)是女生穿裤子的概率,在这里是0.5P(B|A)是男生穿裤子的概率,在这里是1P(B)是忽略其它因素,学生穿裤子的概率,P(B)=P(B|A)P(A)+P(B|A)P(A),在这里是0.50.4+10.6=0.8根据贝叶斯定理,我们计算出后验概率P(A|B):P(A|B)=P(B|A)*P(A)/P(B)=0.25,CompanyLogo,贝叶斯分类,朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。结合样本输入输出的联合概率分布和输出的概率分布,对于给定的输入x,利用贝叶斯定理求解后验概率的过程。朴素贝叶斯简单,学习与预测效率较高,比较常用。其基本思想:对于给定的待分类项x,求解在此样本出现的条件下各个类别出现的概率,计算出每一个类别的P(yi|x),i=1,2,.,k,根据一定的决策规则,决定此样本归属于哪个类别,CompanyLogo,基本决策规则,基于最小错误率的Bayes决策基于最小风险的Bayes决策Neyman-Pearson决策最小最大决策序贯分类方法,CompanyLogo,基本的决策规则,基于最小错误率的贝叶斯决策已知条件设输入空间XRn为n维向量集合,输出空间为类别标记集合=c1,c2,.,ck,输入为特征向量xX,输出为类标记y。训练数据集T=(xi,yi),i=1,2,.,N,样本表示:x=(x(1),x(2),.,x(n)求解计算,CompanyLogo,基于最小错误率的贝叶斯决策,转化根据贝叶斯公式,CompanyLogo,基于最小错误率的贝叶斯决策,对于所有的类别,我们发现分母都是相同的,所以我们只需要考虑分子:先验概率通过领域专家知识得到,即通过经验数据(训练数据得到)条件概率:基于条件独立性假设,CompanyLogo,基于最小错误率的贝叶斯决策,因此,基于最小错误率的朴素贝叶斯的公式可写为:因此,我们需要学习得到先验概率分布和条件概率分布,CompanyLogo,基于最小错误率的贝叶斯决策,极大似然估计进行参数估计:先验概率的极大似然估计:离散特征变量的条件概率的极大似然估计,x(j)表示样本的第j个特征,其取值集合为aj1,aj2,aj3,.,ajSj,表示第i个样本的第j个特征的取值;ajl是第j个特征的第l个取值;I为指示函数,CompanyLogo,基于最小错误率的贝叶斯决策,连续特征变量的条件概率的极大似然估计:假设特征是连续、独立于其他特征,概率密度函数符合正态分布:则第k类样本在第j个特征上的方差和标准差的极大似然估计为,CompanyLogo,基于最小错误率的贝叶斯决策,连续特征变量的条件概率的极大似然估计:则条件概率可写为:计算上式时,我们直接代入第k类样本在第j个特征上的方差和标准差的极大似然估计值,CompanyLogo,基于最小错误率的贝叶斯决策,朴素贝叶斯算法:输入:输出:实例x的分类,CompanyLogo,基于最小错误率的贝叶斯决策,朴素贝叶斯算法:步骤:计算先验概率和离散变量条件概率,CompanyLogo,基于最小错误率的贝叶斯决策,朴素贝叶斯算法:步骤:计算连续变量的均值、标准差的极大似然估计代入并计算连续变量的条件概率,CompanyLogo,基于最小错误率的贝叶斯决策,朴素贝叶斯算法:步骤:对于给定的实例x=(x(1),x(2),.,x(n),计算确定x的分类,CompanyLogo,基于最小错误率的贝叶斯决策,简单的示例:由下表的训练数据学习得到一个朴素贝叶斯分类器并确定x=(2,S)的类标记y,表中X(1),X(2)为特征,取值集合分别为A1=1,2,3,A2=S,M,L,Y为类标记,YC=1,-1,CompanyLogo,基于最小错误率的贝叶斯决策,计算先验概率和条件概率,CompanyLogo,基于最小错误率的贝叶斯决策,对于给定的x=(2,S)计算因此我们判别x属于-1,CompanyLogo,基于最小错误率的贝叶斯决策,表现形式观察上式,为了避免连乘操作导致出现下溢(值太小,无法进行判别分类),常采用对上式右边部分取对数:,CompanyLogo,基于最小错误率的贝叶斯决策,贝叶斯估计:用极大似然估计可能出现先验概率或条件概率为0的情况,这会影响整个的分类结果,因此我们使用贝叶斯估计。,该方法被称为拉普拉斯平滑,=0时为极大似然估计,常取=1,CompanyLogo,基于最小错误率的贝叶斯决策,假设=1,尝试计算上面的例子?,CompanyLogo,基于最小风险的贝叶斯决策,在医学诊断上,有误诊(无病说有病)、漏诊。在雷达防空中,有虚警、漏警(有飞机说成无飞机)。这些错误判断会造成不同的后果和损失。基于最小风险的Bayes决策是:在考虑各种错误可能造成不同的损失的情况下的Bayes决策规则,我们定义:状态空间由K个自然状态(K个类)组成:=c1,c2,.,ck决策空间由K个决策组成:A=1,2,.,k,CompanyLogo,基于最小风险的贝叶斯决策,一般决策表,为损失函数,CompanyLogo,基于最小风险的贝叶斯决策,损失函数有KK个值:(i,cj)或者简写为ij含义是:当真实状态为i而所采取的决策为cj时所造成的损失大小最小错误率Bayes决策取后验概率的最大者在决策表中,每一个决策i对应存在K个损失。对于x,定义在采取决策i时的条件期望损失(条件风险)为:,CompanyLogo,基于最小风险的贝叶斯决策,x是随机向量的观察值,对于其不同观察值,采取不同的决策i时,对应不同的条件风险。所以,不同的x,将会采用不同的决策。决策可以看成随机向量x的函数,记为(x)(随机变量),可以定义期望风险为:,CompanyLogo,基于最小风险的贝叶斯决策,条件风险和期望风险的差别条件风险R(i|x)只反映出,对某一个x取值,采取决策行动i所带来的风险期望风险R则反映,在整个特征空间中不同的x取值,采取相应的决策(x)所带来的平均风险目标:采取的一系列决策行动应该使期望风险达到最小最手段:如果在采取每一个决策时,都使其条件风险最小,则对所有的x作决策时,其期望风险也必然达到最小决策:最小风险Bayes决策,CompanyLogo,基于最小风险的贝叶斯决策,最小风险Bayes决策规则:,CompanyLogo,基于最小风险的贝叶斯决策,算法的基本步骤计算类先验概率和类条件概率(上文已求)计算待识x的后验概率(Bayes公式)根据决策表,计算每一个决策的条件风险找出条件风险最小值所对应的决策k,对x采取该决策(归属到该类),CompanyLogo,基于最小风险的贝叶斯决策,例:区分正常与异常细胞,正常细胞,异常细胞,后验概率,CompanyLogo,基于最小风险的贝叶斯决策,条件风险决策:归属到异常细胞原因:损失函数起主导作用,CompanyLogo,基于最小风险的贝叶斯决策,最小错误率与最小风险的贝叶斯决策之间的关系定义0-1损失函数意义:正确决策没有损失,错误决策损失都为1附件条件:K个类别对应K个决策(无拒绝类),CompanyLogo,基于最小风险的贝叶斯决策,结论:在0-1损失函数的条件下,使风险最小的Bayes决策等价于使错误率最小的Bayes决策,后者是前者的特例,CompanyLogo,总结和扩展,贝叶斯算法流程图:便于理解贝叶斯基本步骤,CompanyLogo,总结和扩展,贝叶斯算法算法优点:算法简单,易于实现分类过程中时间空间开销小算法稳定,对于不同的数据特点器分类性能差别不大,健壮性比较好问题:现实中很难做到条件相互独立半朴素贝叶斯算法(semi-naivebayesian)贝叶斯网络(BayesianBeliefNetwork)TAN(treeaugmentednaiveBayes),CompanyLogo,贝叶斯与分类的简单应用,NaiveBayes()函数位于klaR包中NaiveBayes(formula,data,.,subset,na.action=na.pass)常用参数formula:确定待判别变量及其依赖变量data:数据框输入输出参数apriori:类别先验概率tables:各个变量在各个类别下的条件概率NaiveBayes(x,grouping,prior,usekernel=FALSE,fL=0),CompanyLogo,贝叶斯与分类的简单应用,建立基于miete数据集的朴素贝叶斯模型安装并加载klaR包install.packages(“klaR”)library(klaR)加载数据集(上节课保存了工作空间的不用做,否则就要重新进行数据预处理)以nmkat为待判别变量,data_train生成贝叶斯判别规则fit_Bayes1=NaiveBayes(nmkat.,data_train)显示fit_Bayes1所包含的输出项名称names(fit_Bayes1),CompanyLogo,贝叶斯与分类的简单应用,建立基于miete数据集的朴素贝叶斯模型显示各类别的先验概率fit_Bayes1$apriori显示所有变量在各类别下的条件概率并分析fit_Bayes1$tables自己动手:显示模型fit_Bayes1的其他内容,CompanyLogo,贝叶斯与分类的简单应用,各类别下的变量密度可视化,并进行分析占地面积wfl可视化plot(fit_Bayes1,vars=wfl,n=50,col=c(1,blue,3,green,5)租赁期mvdauerplot(fit_Bayes1,vars=mvdauer,n=50,col=c(1,blue,3,green,5)每平方米净租金nmqmplot(fit_Bayes1,vars=nmqm,n=50,col=c(1,blue,3,green,5),CompanyLogo,贝叶斯与分类的简单应用,对测试待判别变量取值进行预测根据fit_Bayes1判别规则进行预测pre_Bayes1=predict(fit_Bayes1,data_test)显示预测结果pre_Bayes1建立真实值和预测值混淆矩阵T_M=table(data_test$nmkat,pre_Bayes1$class)计算贝叶斯判别的错误率并显示error_Bayes1=sum(as.numeric(as.numeric(pre_Bayes1$class)!=as.numeric(data_test$nmkat)/nrow(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车文化课件 第一章 汽车发展史 第三节 汽车外观的发展
- 山东省烟台市蓬莱区2025-2026学年鲁教版(五四制)七年级上册数学期末模拟试卷(含答案)
- 2025-2026学年广东省深圳市坪山区九年级(上)期末数学试卷(含答案)
- 钢结构数字化制造技术要点
- 飞机维护技术基础
- 特殊食品管理办法
- 2026甘肃酒泉艺术职业高级中学招聘1人备考考试试题及答案解析
- 2026福建厦门市海员培训中心教学人员选聘1人参考考试题库及答案解析
- 2026江苏南京市气象部门招聘高层次人才2人笔试参考题库及答案解析
- 飞机小知识课件
- (高清版)AQ∕T 2081-2023 金属非金属矿山在用带式输送机安全检测检验规范
- 西师版 三年级下册数学 全册 预习单及答案
- 小学六年级上册数学期末测试卷及参考答案(轻巧夺冠)
- DZ∕T 0130-2006 地质矿产实验室测试质量管理规范(正式版)
- (高清版)JGJT 178-2009 补偿收缩混凝土应用技术规程
- 电梯日管控、周排查、月调度内容表格
- QC-提高卫生间防水一次验收合格率
- 江苏省徐州市2022-2023学年高一上学期期末抽测政治试题(原卷版)
- 地基处理施工中的安全风险与防范
- 人教版六年级科学上期末测试题(2份)有答案
- 食品安全全球标准BRCGS第9版内部审核全套记录
评论
0/150
提交评论