人工智能20课件.ppt_第1页
人工智能20课件.ppt_第2页
人工智能20课件.ppt_第3页
人工智能20课件.ppt_第4页
人工智能20课件.ppt_第5页
免费预览已结束,剩余24页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二十章统计学习方法,20.1统计学习20.2完整数据下的学习20.3隐变量学习:EM算法20.4无参数学习20.5支持向量机,统计学习方法概述,统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。统计学习方法:传统方法模糊集粗糙集支持向量机,贝叶斯学习,贝叶斯学习:利用观察结果更新在假设上的先验分布,把学习形式化地表示为概率推理的一种形式。由所有可能的假设进行预测。,H为假设变量,取值h1,h2,h3,假设的先验概率P(hi)第j个观察数据dj为随机变量的Dj的取值训练数据d=d1,,dn每个假设的后验概率预测:,假设hi下数据的似然,H:糖果包的类型h1:100%樱桃h2:75%樱桃+25%酸橙h3:50%樱桃+50%酸橙h4:25%樱桃+75%酸橙h5:100%酸橙P(H)=(0.1,0.2,0.4,0.2,0.1),连续取出10颗酸橙应该是什么包裹?下一颗取出的会是什么?,贝叶斯学习,贝叶斯学习,i.i.d.过程,即,为真的假设主导了贝叶斯预测,且预测是最优的,和数据集的大小无关。,贝叶斯预测假设空间通常很大(6个属性,226),近似方法:由单一的最可能假设进行预测,即选择hMAP=argmaxP(hi|d)=P(d|hi)P(hi),由hMAP预测最大后验假设(MAP),最大后验假设(MAP假设),hMAP=argmaxlogP(d|hi)+logP(hi)=argmin-logP(d|hi)-logP(hi)-logP(hi):指定假设hi所需的位数-logP(d|hi):在给定假设下指定数据所需的附加位数MAP学习就是要选择提供最大的数据压缩的假设最小描述长度学习算法。,当先验概率分布为均匀分布,则MAP退化为:hML=argmaxP(d|hi)最大似然假设,樱桃的比例,一组连续假设h剥开N颗糖,c颗樱桃,l=N-c颗酸橙,则似然概率:P(d|h)=c(1-)l(独立同分布),贝叶斯网络的最大似然参数学习,1、写出数据的似然表达式,它是待学习参数的一个函数。2、对每个参数的对数似然进行求导。3、找到满足导数为0的对应参数值。,多参数情况,观察N颗糖,rc颗樱桃是红色糖纸,gc颗是绿色糖纸;rl颗酸橙是红色糖纸,gl颗是绿色糖纸。,最大似然学习,连续模型:学习线性高斯模型(具有连续的父变量X和连续的子变量Y)最大化最小化误差平方和:,当被观察到的数据集很小时最大似然假设学习方法有较大缺陷。,贝叶斯学习,Flavor1,Flavor2,Flavor3,Wrapper1,Wrapper2,Wrapper3,1,2,对参数的可能值设置一个假设先验P()(即是随机变量的取值),随着数据的到达更新该先验分布。均匀密度分布:a,b()=a-1(1-)b-1观察到樱桃糖:P(|D1=cherry)=a+1,b(),贝叶斯学习过程可形式化表示为贝叶斯网络的推理问题。不需要额外的“学习理论”。,隐变量(潜变量),期望最大化(EM)算法,期望最大化(EM)算法,EM算法:假设已知模型参数,推断出每个数据点属于每种成份的概率。再用每种成份针对整个数据集进行拟合,根据每个数据点属于每种成份的概率对其加权。迭代直到收敛为止。,学习混合高斯分布数据由混合分布P生成,混合分布有k种成分:,期望最大化(EM)算法,EM算法步骤:1、计算期望;2、寻找最大化数据似然的参数。E步骤(期望步骤):计算数据xj由成分i生成的概率,M步骤(最大化步骤):计算高斯分布的参数即寻找使对数似然最大化的参数值。,x:所有观察值;Z所有隐含变量;模型的参数。,EM算法:,无参数学习,邻域包含k个点,即由距x点最近的k个点的特性估计x的特性。核模型:将每个训练实例当做一个密度函数核函数K(x,xi),密度估计:,最近邻模型:特定输入点x的特性和x的近邻点相似。,支持向量机(SVM),训练集T=(x1,y1,xn,yn),支持向量机(SVM),支持向量机(SVM),支持向量机(SVM),分类间隔:到分类面最近的样本和分类面之间的距离,支持向量机:具有最大分类间隔,支持向量:距离分类面最近的点,支持向量机(SVM),最大间隔:1.尽可能将两类训练数据分开2.学习得到的线性分类器,其对未知样本的预测能力和分类器间隔有如下关系:R(w)=Remp(w)+(1/margin)结构风险最小化,支持向量机(SVM),支持向量机(SVM),最大间隔问题可转化为求解二次优化问题,求出最优解w*,b*后,构造分类面(w*x+b*)=0决策函数f(x)=sgn(w*x+b*)对x的类别做出判断。,支持向量机(SVM),不等式约束条件下的二次函数寻优问题,存在唯

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论