版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
七、贝叶斯分类器
当前1页,总共23页。贝叶斯决策论(Bayesiandecisiontheory)概率框架下实施决策的基本理论给定N个类别,令λij代表将第j类样本误分类为第i类所产生的损失,则基于后验概率将样本x分到第i类的条件风险为:贝叶斯判定准则(Bayesdecisionrule):•h*称为贝叶斯最优分类器(Bayesoptimalclassifier),其总体风险称为贝叶斯
风险(Bayesrisk)•反映了学习性能的理论上限当前2页,总共23页。判别式(discriminative)模型生成式(generative)模型建模思路:直接对代表:
•决策树
•BP神经网络
•SVM判别式vs.生成式
在现实中通常难以直接获得
从这个角度来看,机器学习所要实现的是基于有限的训练样本 尽可能准确地估计出后验概率
两种基本策略:思路:先对联合概率分布建模,再由此获得代表:贝叶斯分类器
注意:贝叶斯分类器≠贝叶斯学习
(Bayesianlearning)当前3页,总共23页。贝叶斯定理根据贝叶斯定理,有
先验概率(prior)
样本空间中各类样本所占的
比例,可通过各类样本出现
的频率估计(大数定律)证据(evidence)因子,与类别无关
ThomasBayes (1701?-1761)样本相对于类标记的类条件概率(class-conditionalprobability),亦称似然(likelihood)主要困难在于估计似然当前4页,总共23页。极大似然估计
先假设某种概率分布形式,再基于训练样例对参数进行估计假定具有确定的概率分布形式,且被参数唯一确定,则任务就是利用训练集D来估计参数 对于训练集D中第c类样本组成的集合Dc的似然(likelihood)为连乘易造成下溢,因此通常使用对数似然(log-likelihood)于是,的极大似然估计为估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实分布当前5页,总共23页。朴素贝叶斯分类器(naïve
Bayesclassifier)
主要障碍:所有属性上的联合概率 难以从有限训练样本估计获得
组合爆炸;样本稀疏基本思路:假定属性相互独立?
d为属性数,xi为x在第i个属性上的取值
对所有类别相同,于是当前6页,总共23页。朴素贝叶斯分类器
估计P(c):
估计P(x|c):•对离散属性,令表示Dc中在第i个属性上取值为
xi的样本组成的集合,则•对连续属性,考虑概率密度函数,假定当前7页,总共23页。拉普拉斯修正(Laplaciancorrection)若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出现问题,因为概率连乘将“抹去”其他属性提供的信息
例如,若训练集中未出现“敲声=清脆”的好瓜, 则模型在遇到“敲声=清脆”的测试样本时……
令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数
假设了属性值与类别的均匀分布,这是额外引入的bias当前8页,总共23页。朴素贝叶斯分类器的使用若对预测速度要求高预计算所有概率估值,使用时“查表”若数据更替频繁不进行任何训练,收到预测请求时再估值(懒惰学习,lazylearning)若数据不断增加基于现有估值,对新样本涉及的概率估值进行修正(增量学习,incrementallearning)当前9页,总共23页。半朴素贝叶斯分类器
朴素贝叶斯分类器的“属性独立性假设”在现实中往往难以成立
半朴素贝叶斯分类器(semi-naïveBayesclassifier)
基本思路:适当考虑一部分属性间的相互依赖信息最常用策略:独依赖估计(One-DependentEstimator,ODE)假设每个属性在类别之外最多仅依赖一个其他属性
xi的“父属性”
关键是如何确定父属性当前10页,总共23页。两种常见方法SPODE(Super-ParentODE):假设所有属性都依赖于同一属性,称为“超父”(Super-Parent),然后通过交叉验证等模型选择方法来确定超父属性TAN(TreeAugmentednaïveBayes):以属性间的条件”互信息”(mutualinformation)为边的权重,构建完全图,再利用最大带权生成树算法,仅保留强相关属性间的依赖性当前11页,总共23页。AODE(AveragedOne-DependentEstimator)其中是在第i个属性上取值为xi的样本的集合,m’为阈值常数表示类别为c且在第i和第j个属性上取值分别为xi和xj的样本集合•尝试将每个属性作为超父构建SPODE•将拥有足够训练数据支撑的SPODE集成起来作为最终结果
GeoffWebb
澳大利亚
Monash大学当前12页,总共23页。高阶依赖
能否通过考虑属性间的高阶依赖来进一步提升泛化性能?
例如最简单的做法:ODEkDE
将父属性pai替换为包含k个属性的集合pai明显障碍:随着k的增加,估计所需的样本数将以指数级增加
训练样本非常充分性能可能提升
有限训练样本高阶联合概率估计困难
考虑属性间的高阶依赖,需要其他办法当前13页,总共23页。贝叶斯网(Bayesiannetwork;Bayesnetwork) 亦称“信念网”(briefnetwork)JudeaPearl (1936-)2011图灵奖
有向无环图(DAG,
DirectedAcyclicGraph)贝叶斯网结构参数概率图模型(Probabilisticgraphicalmodel)•有向图模型贝叶斯网•无向图模型马尔可夫网第14章
条件概率表(CPT, ConditionalProbabilityTable)1985年J.Pearl命名为贝叶斯网,为了强调:•输入信息的主观本质••对贝叶斯条件的依赖性因果与证据推理的区别当前14页,总共23页。贝叶斯网(Bayesiannetwork)
条件概率表(CPT,ConditionalProbabilityTable)
有向无环图(DAG,DirectedAcyclicGraph)给定父结点集,贝叶斯网假设每个属性与其非后裔属性独立
父结点集当前15页,总共23页。三变量间的典型依赖关系条件独立性条件独立性
边际独立性•给定x4,x1与x2必不独立•若x4未知,则x1与x2独立当前16页,总共23页。分析条件独立性“有向分离”(D-separation)先将有向图转变为无向图•V型结构父结点相连•有向边变成无向边(根蒂)x1(好瓜)x2(甜度)x3(敲声)x4(色泽)x5
道德图(moralgraph)由图可得:若x和y能在图上被z分入两个连通分支,则有
得到条件独立性关系之后,估计出条件 概率表,就得到了最终网络当前17页,总共23页。结构学习
评分函数(scorefunction)评估贝叶斯网与训练数据的契合程度常用评分函数通常基于信息论准则例如最小描述长度(MDL,MinimalDescriptionLength)给定数据集D,贝叶斯网
•AIC: •BIC:•……
搜索最优贝叶斯网络结构是NP难问题回忆“模型选择”
在D上的评分函数:
越小越好是贝叶斯网的参数个数
表示描述每个参数所需的字节数当前18页,总共23页。推断
推断(inference):基于已知属性变量的观测值, 推测其他属性变量的取值
已知属性变量的观测值称为“证据”(evidence)精确推断:直接根据贝叶斯网定义的联合概率分 布来精确计算后验概率NP难近似推断:降低精度要求,在有限时间内求得近似解
常见做法:
•吉布斯采样(Gibbssampling)
•变分推断(variationalinference)当前19页,总共23页。吉布斯采样随机产生一个与证据E=e一致的样本q0作为初始点例如证据E=e:(色泽;敲声;根蒂)=(青绿;浊响;蜷缩)查询目标Q=q:(好瓜;甜度)=(是;高)随机产生q0:(否;高)进行T次采样,每次采样中逐个考察每个非证据变量:假定所有其他属性取当前值,推断出采样概率,然后根据该概率采样
例如:先假定{色泽=青绿;敲声=浊响;根蒂=蜷缩;甜度=高},推断出“好 瓜”的采样概率,然后采样;假设采样结果为“好瓜=是”;
然后根据{色泽=青绿;敲声=浊响;根蒂=蜷缩;好瓜=是},推断出“甜度”的采样概率,然后采样;假设采样结果为“甜度=高”;……假定经过T次采样的得到与“查询目标”q一致的样本共有nq个,则可近似估算出后验概率当前20页,总共23页。EM算法
如何处理“未观测到的”变量?
例如,西瓜已经脱落的根蒂,无法看出是“蜷缩”还是“坚挺”,
则训练样本的“根蒂”属性变量值未知未观测变量隐变量(latentvariable)EM(Expectation-Maximization)算法是估计隐变量的利器做令X表示已观测变量集,Z表示隐变量集,欲对模型参数极大似然估计,则应最大化对数似然函数
Z是隐变量,无法直接求解。怎么办?当前21页,总共23页。以初始值
•
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中电建水电开发集团有限公司秋季招聘笔试备考试题及答案解析
- 2026江西事业单位联考上饶市招聘394人笔试备考试题及答案解析
- 2026云南大理州第二人民医院长期招聘编外精神科医师、编外心理治疗师(心理咨询师)4人笔试备考试题及答案解析
- 2026海南海口国家高新区国际投资咨询有限公司招聘1人笔试备考题库及答案解析
- 2026济南高新区东城逸家小学招聘派遣制小学代课老师笔试备考试题及答案解析
- 2026年安徽职业技术学院单招职业技能考试备考题库含详细答案解析
- 2026江苏省中国药科大学原创药物研究院招聘笔试备考试题及答案解析
- 2026中天建设集团安徽公司招聘9人笔试备考题库及答案解析
- 2026湖南益阳市公安局警务辅助人员公开招聘笔试备考题库及答案解析
- 2026福建莆田市城厢区凤凰旅游开发有限公司招聘网络初审情况考试重点题库及答案解析
- 2025年律师事务所党支部书记年终述职报告
- 2025-2026 学年第一学期大一高等数学期末考试试卷
- 2025年高考(新高考Ⅱ卷)数学试题及答案
- 医院外联部主任述职报告
- 2025年广东省高考语文试卷(含标准答案)
- 2025年驾照三例测试题及答案
- 烟草行业消费者行为分析
- 《机械制图》 期末考试试题(附标准答案)
- new s-pro系列提案书海信日立空调营销股份
- 停课不停教隔空云教学
评论
0/150
提交评论