




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,北京,第七章贝叶斯分类器,机器学习,2018.09.02,图形绘制,图片处理,图表设计,典型案例,*,贝叶斯决策论,Contents,目录,*,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网,EM算法,机器学习贝叶斯分类器,图形绘制,图片处理,图表设计,典型案例,*,贝叶斯决策论,Chapter7,*,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网,EM算法,机器学习贝叶斯分类器,图形绘制,判别式vs.生成式,贝叶斯定理,*,贝叶斯准则,7.1贝叶斯决策论,贝叶斯决策论(Bayesiandecisiontheory),概率框架下实施决策的基本理论。对于分类任务:基于已知相关概率和误判损失选择最优类别标记,后验概率,寻找一个判定准则h以最小化总体风险:,图形绘制,判别式vs.生成式,贝叶斯定理,*,贝叶斯准则,7.1贝叶斯决策论,贝叶斯判定准则(Bayesdecisionrule),h*称为贝叶斯最优分类器(Bayesoptimalclassifier),其总体风险称为贝叶斯风险(Bayesrisk)反映了学习性能的理论上限,判别式vs.生成式,贝叶斯定理,*,贝叶斯准则,7.1贝叶斯决策论,判别式vs.生成式,生成式(generative)模型,决策树BP神经网络SVM,代表:贝叶斯分类器,判别式vs.生成式,贝叶斯定理,*,贝叶斯准则,7.1贝叶斯决策论,贝叶斯定理,ThomasBayes(1701?-1761),根据贝叶斯定理,有,证据(evidence)因子,与类别无关,主要困难在于估计似然,样本相对于类标记的类条件概率(class-conditionalprobability),亦称似然(likelihood),类先验概率(prior)样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定律),图形绘制,图片处理,图表设计,典型案例,*,贝叶斯决策论,Chapter7,*,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网,EM算法,机器学习,先假设类条件概率某种概率分布形式,再基于训练样样本对参数进行估计,*,7.2极大似然估计,极大似然估计(MaximumLikelihoodEstimation,MLE),使用对数似然(log-likelihood),估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实分布,*,7.2极大似然估计,极大似然估计(MaximumLikelihoodEstimation,MLE),图形绘制,图片处理,图表设计,典型案例,*,贝叶斯决策论,Chapter7,*,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网,EM算法,机器学习,拉普拉斯修正,*,朴素贝叶斯分类器,7.3朴素贝叶斯分类器,朴素贝叶斯分类器(naveBayesclassifiers),基本思路:假定属性相互独立,d为属性数,xi为x在第i个属性上的取值,对所有类别相同,于是,分类器使用,对离散属性,令表示Dc中在第i个属性上取值为xi的样本组成的集合,则,拉普拉斯修正,*,朴素贝叶斯分类器,7.3朴素贝叶斯分类器,分类器使用,估计P(c):估计P(x|c):,对连续属性,考虑概率密度函数,假定,朴素贝叶斯分类器(naveBayesclassifiers),拉普拉斯修正,*,朴素贝叶斯分类器,7.3朴素贝叶斯分类器,分类器使用,例如:,朴素贝叶斯分类器(naveBayesclassifiers),首先估计类先验概率P(c):,拉普拉斯修正,*,朴素贝叶斯分类器,7.3朴素贝叶斯分类器,分类器使用,例如:,朴素贝叶斯分类器(naveBayesclassifiers),拉普拉斯修正,*,朴素贝叶斯分类器,7.3朴素贝叶斯分类器,分类器使用,例如:,朴素贝叶斯分类器(naveBayesclassifiers),拉普拉斯修正,*,朴素贝叶斯分类器,7.3朴素贝叶斯分类器,分类器使用,例如:,朴素贝叶斯分类器(naveBayesclassifiers),拉普拉斯修正,*,朴素贝叶斯分类器,7.3朴素贝叶斯分类器,分类器使用,拉普拉斯修正(Laplaciancorrection),若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出现问题,因为概率连乘将“抹去”其他属性提供的信息例如,若训练集中未出现“敲声=清脆”的好瓜,则模型在遇到“敲声=清脆”的测试样本时,令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数,拉普拉斯修正,*,朴素贝叶斯分类器,7.3朴素贝叶斯分类器,分类器使用,朴素贝叶斯分类器的使用,若对预测速度要求高,则对给定的数据集,预计算所有概率估值,使用时“查表”若数据更替频繁不进行任何训练,收到预测请求时再根据当前数据集进行估值(懒惰学习,lazylearning)若数据不断增加基于现有估值,对新样本的属性值涉及的概率估值进行修正(增量学习,incrementallearning),图形绘制,图片处理,图表设计,典型案例,*,贝叶斯决策论,Chapter7,*,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网,EM算法,机器学习,SPODE敲声;根蒂)=(青绿;浊响;蜷缩)查询目标Q=q:(好瓜;甜度)=(是;高)随机产生q0:(否;高)进行T次采样,每次采样中逐个考察每个非证据变量:假定所有其他属性取当前值,推断出采样概率,然后根据该概率采样取值假定经过T次采样的得到与“查询目标”q一致的样本共有nq个,则可近似估算出后验概率,学习,*,结构,7.5贝叶斯网,推断,贝叶斯网,推断吉布斯采样算法,例如:先假定色泽=青绿;敲声=浊响;根蒂=蜷缩;甜度=高,推断出“好瓜”的采样概率,然后采样;假设采样结果为“好瓜=是”;然后根据色泽=青绿;敲声=浊响;根蒂=蜷缩;好瓜=是,推断出“甜度”的采样概率,然后采样;假设采样结果为“甜度=高”;,证据E=e:(色泽;敲声;根蒂)=(青绿;浊响;蜷缩)查询目标Q=q:(好瓜;甜度)=(是;高),图形绘制,图片处理,图表设计,典型案例,*,贝叶斯决策论,Chapter7,*,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网,EM算法,机器学习,*,7.6EM算法,Z是隐变量,无法直接求解。怎么办?,EM算法,*,7.6EM算法,EM算法,对隐变量Z计算期望,最大化已观测数据的对数“边际似然”(marginallikelihood),以初始值,为起点,迭代执行以下步骤直至
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 应急安全培训题库大全课件
- 2025广东机电职业技术学院第二批招聘工作人员11人笔试备考试题含答案详解
- 新生儿感染性疾病的病原学分类与传播途径
- 土地抵押合同(标准版)
- 中介和买家合同(标准版)
- 2025年环保设备制造业竞争激烈产品创新趋势分析报告
- 2025年工业互联网平台增强现实交互技术在虚拟现实工厂中的应用报告
- 2025年母婴用品跨境电商行业发展趋势与市场机会研究报告
- 中考英语一轮复习完形填空汇编知识点-+典型题及解析
- 山东省德州市2024-2025学年高三下学期三模化学试题(含答案)
- 小学体育教案《50米快速跑(途中跑)》
- 2024年国考真题及答案
- 高职计算机专业人工智能技术应用与开发
- 地铁接触网检修工技能竞赛考试题库500题(含答案)
- 高考3000词分层分类记忆初中1500
- DL∕T 475-2017 接地装置特性参数测量导则
- 公寓物业管理规定
- ICT保养作业指导书
- SL-T+712-2021河湖生态环境需水计算规范
- 成吉思汗课件
- JTS 206-2-2023 水运工程桩基施工规范
评论
0/150
提交评论