统计机器学习_第1页
统计机器学习_第2页
统计机器学习_第3页
统计机器学习_第4页
统计机器学习_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计机器学习国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第1页,共36页,2023年,2月20日,星期六机器学习与人工智能机器学习来源于人工智能。著作:机器学习(MachineLearning)

TomMichell描述:如果一个系统能够通过执行某种过程而改进它的性能,这就是学习。HerbertSimon国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第2页,共36页,2023年,2月20日,星期六机器学习Vapnik在“机器学习”术语之前加了“统计”二字,变为“统计机器学习”。由此从Rosenblatt的感知机到人工神经网络划入了这个领域。Duda&Hart的模式分类(统计模式识别)划入这个领域。统计学的算法文化划入了这个领域。Quilan的决策树方法和Valiant的PAC划入这个领域。“统计”国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第3页,共36页,2023年,2月20日,星期六人工智能与统计机器学习早期,不喜欢。M.Minsky的批评,感知机停滞。Duda&Hart的统计模式识别,统计机器学习与其一致。人工神经网络反对AI。统计机器学习使用的AI成果:Valiant的PAC:这是当前统计机器学习的基础之一。Quilan的决策树:这是统计机器学习最重要的算法之一。统计机器学习已成为人工智能最主要的研究课题。Vapnik在“泛化”旗帜下,批判了这种排他性。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第4页,共36页,2023年,2月20日,星期六统计机器学习统计机器学习的理论框架有限样本理论统计建模的两种文化近期的研究课题国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第5页,共36页,2023年,2月20日,星期六Duda&Hart1973年,他们出版了至今有重要影响“Patternclassificationandsceneanalysis”,2001年,在此基础上,删除了情境分析的内容,大量增加了统计建模的内容。尽管2001年版的内容大大丰富了,无论在理论研究结果,方法的罗列,还是参考文献的收集,都可以称为一本研究者必备的手册,但是,其理论框架的识别也比1973版困难。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第6页,共36页,2023年,2月20日,星期六统计机器学习的统计框架Duda&Hart的模式分类理论框架=统计机器学习理论框架Bayes决策论后验概率:P(jx)=P(i)p(xji)。样本数趋于无穷大。判决规则:对所有j,最大P(jx)就是x的类别。目标:风险R(ix)=(ij)P(ix)最小。是损失函数。函数g(x)=w0+wtx,如果wtx>-w0,x属于1。问题变为在确定的损失函数(准则函数或目标函数)意义的优化问题。线性感知机就是如此。损失函数是平方损失。令gj(x)=P(jx),g(x)=gj(x)-gi(x)。判别为计算g(x)的参数。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第7页,共36页,2023年,2月20日,星期六发展的线索样本数量:趋于无穷大。有限样本理论,泛化误差1-概率成立。线性判别,感知机:线性不可分,M.Minsky的批评。非线性算法BP,孤立事件,问题没有解决。线性空间。损失函数:根据问题定义损失函数。精心设计实验获得数据(手写字符识别)的理论:高维涌现的数据(网络、生物、金融)。包含多个有意义解答。从数据建立模型:经验知识和经验模型的考虑。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第8页,共36页,2023年,2月20日,星期六统计机器学习统计机器学习的理论框架有限样本理论统计建模的两种文化近期的研究课题国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第9页,共36页,2023年,2月20日,星期六Valiant&Vapnik1984年,Valiant建议,算法多项式复杂性是统计建模的条件,为此,不惜牺牲精度,PAC(ProbableApproximatlyCorrect)。传统统计学家难以接受。假设自然模型y=F(x),S={x,y}n是对y=F(x)的n次观察的样本集合,通过复杂性为多项式的算法A,获得模型y=f(x)。考虑所有从y=F(x)可能观测的样本(iid),对任意正整数>0,0<1,F(x)-f(x)成立的概率大于1-。Vapnik基于PAC,首先在iid条件下,推出了有限样本建模的泛化界,从此,开创了至今还有重要意义的以margin界为基础的统计机器学习的研究。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第10页,共36页,2023年,2月20日,星期六Vapnik的贡献(1)---有限样本理论Vapnik有限样本理论:考虑两个因素,其一,有限样本,其二,算法的计算复杂性是多项式。由此,接受PAC并推出泛化界。结构风险等。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第11页,共36页,2023年,2月20日,星期六Vapnik的贡献(2)---线性算法BP算法:非线性形式y=f1(1f2(2x)),算法漂亮,科学上:孤立事件。在科学哲学上:“对某个问题已经认识,是找到一个空间,这个问题可以在这个空间上线性表述”,这个在二十世纪三十年代VonNeurmman在研究量子力学数学基础时暗示的思想。其数学方法,就是Hilbert空间。Vapnik提出核映射,将样本集合映射到线性内积的Hilbert空间,样本集合成为线性可分,直接使用感知机。没有免费的午餐!如果将空间的各维度定义在实数域上,可以线性划分这个问题的维数减低,最小的维数是什么?如果事先确定维数,代价可能就是精度。n-XOR问题:将问题映射到多项式基张成的空间,并定义空间各维度在{0,1}上,可以证明,n-XOR线性可分维数是2n。维数灾难!国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第12页,共36页,2023年,2月20日,星期六Vapnik的贡献(3)---泛化误差界Vapnik首先推出了PAC泛化误差不等式,但是,这个研究对算法设计没有本质的指导意义M是不同类别数据分界的边缘。问题变为设计使得两个闭凸集边缘最大的算法。由于直观的几何描述受到理论和应用研究者的偏爱。Vapnik称这个时期为Margin时期。1998年,Shawe-Taylor等推出的基于边缘的泛化不等式国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第13页,共36页,2023年,2月20日,星期六统计机器学习统计机器学习的理论框架有限样本理论统计建模的两种文化近期的研究课题国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第14页,共36页,2023年,2月20日,星期六LeoBreiman2001年,LeoBreiman发表题目怪异的文章:StatisticalModeling:TheTwoCultures.StatisticalScience,2001,16(3):199-231.统计建模分为两种文化数据建模文化:开始假设数据来自一个已知模型形式,例如,线性回归,logistic回归等,然后,从数据和模型估计参数,研究其误差等问题。研究报告开始:“假设数据是由下列模型产生……”.算法建模文化:假设数据来源未知且复杂(非线性或结构)的自然模型,使用复杂的解决非线性的方法,例如,决策树等,计算一个对自然模型近似的函数。机器学习。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第15页,共36页,2023年,2月20日,星期六统计学简史---陈希孺大样本理论:20世纪之前,处理“社会统计”数据,特点是“大量并自然采集,变量少”。理论上,以拉普拉斯的中心极限定理为依据,将问题归结为正态分布。这些研究对当时的人口分析其着重要作用,例如,死亡原因分析等。小样本理论:20世纪后,物理学数据是“受控”的实验获得的。数据集合规模不大,称为“小样本统计学”。它是对大样本统计学中“依赖近似正态”的反叛,精确估计分布。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第16页,共36页,2023年,2月20日,星期六面临的现实和统计学家的思考面临的现实:数据“自然采集(不受控)”,变量数量巨大,性质复杂(非线性和多模型),形式多样。需要精确估计其分布。统计学家的思考:(1)呼吁统计学家关注高维数据自然涌现对统计学的冲击,假设模型,然后研究其性质的方法已不能适应这种需求。(2)数据集合变量多且性质复杂,需要考虑计算机作为研究统计学的工具,统计学家应该关注由此所带来的问题。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第17页,共36页,2023年,2月20日,星期六就数据的涌现,我们似乎又回到了20世纪前,然而,当时发展的仅适合处理极少变量(往往是单变量)的统计理论已显苍白,需要崭新的思考和大胆的假设。计算机成为统计学不可或缺的工具,其限制将改变统计学的思考。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第18页,共36页,2023年,2月20日,星期六统计机器学习统计机器学习的理论框架有限样本理论统计建模的两种文化近期的研究课题国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第19页,共36页,2023年,2月20日,星期六近期的研究课题重采样技术损失函数变量稀疏高维、性质复杂且形式多样的自然涌现的数据,带来大量困难的问题,它们不仅对计算机科学,对统计学也同样是挑战性问题。以下是几个目前解决这些困难问题的线索。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第20页,共36页,2023年,2月20日,星期六Efron,Valiant&Schapire1984年,Efron对重采样本技术中的bootstrap描述:给定训练集,取子集,建立模型,重复这个过程,获得多个模型,数量为B,如果B趋于无穷大,均值方差的bootstrap估计等于均值方差的传统估计。1986年,Valiant提出了弱可学习:F(x)-f(x)成立的概率大于1-修改为概率大于(1/2)+,其中0<(1/2).这意味着,学习成功率只需大于50%,比随即猜想稍好!1991年,Schapire证明,弱可学习的充要条件是强可学习。其证明是构造的,其构造过程类似bootstrap技术。从此,集群学习成为机器学习重要的研究课题。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第21页,共36页,2023年,2月20日,星期六集群学习“集群(Ensemble)”一词来自神经科学家D.Hebb,他倡导多细胞集群学说,主张视觉客体是由相互关联的神经元集群来表象。集群学习就是将各种方法获得模型在加性模型下形成一个对自然模型的近似。两个部分:其一,加性模型的解释,其二,加性模型的权值的获得。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第22页,共36页,2023年,2月20日,星期六加性模型的解释---投票加性模型:y=jfj(x)对1jn,j=1,且fj(x)定义在集合{-1,+1}上,对新的观察x,某些fj(x)=+1(同意),另一些fj(x)=-1(反对),它们相加就是同意与反对票数之差,如果采用“少数服从多数”的决策规则,这就是一人一票的投票原则。假设-1j+1,且fj(x)定义在集合{-1,+1}上,这就是一种加权投票,类似董事会上根据握有股票多少的投票。如果fj(x)定义在区间[-1,+1]上,将成为允许有保留同意和反对的投票。同样可以加权。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第23页,共36页,2023年,2月20日,星期六权值的获得---空间加性模型暗示,这个计算可以在{fj(x)}张成的空间上设计。因此,只要损失函数确定,这就是一个优化问题。但也不简单。根据数据集合计算加性模型中的参数i的问题。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第24页,共36页,2023年,2月20日,星期六对重采样技术,简化算法设计的复杂性仅是其表面意义,更为重要的是,它可以作为“局部到整体”等所谓结构化数据问题的统计基础,有趣的是,它也是排他性的经验模型与算法模型集群的理论基础------知识的集群。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第25页,共36页,2023年,2月20日,星期六近期的研究课题重采样技术损失函数变量稀疏国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第26页,共36页,2023年,2月20日,星期六对margin的批评对实际问题,Margin的上界太松[Friedman,2000]Margin将偏差方差混合在Margin之中,不能清楚地表示其贡献,不能描述不同损失函数的影响和解凸优化问题得到的分类器和Bayes分类器之间的逼近程度[Zhang,2004]很多损失函数具有Bayes一致的性质。SVM使用Hinge损失,成功的关键不是因为Margin,而是因为使用了具有Bayes一致性质的Hinge损失函数![Hastie,2006]计算机科学家尽管没有直接批评Margin,但是,也不敢完全相信它,因为还是需要考虑模型的偏差和方差。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第27页,共36页,2023年,2月20日,星期六关键:损失函数Margin假设:Hinge损失(0-1损失)对大多数问题有效,即,误判等代价或近似等代价。这对很多问题是不能接受的,例如,结构数据,Rank。根据问题构造损失函数。最简单的方法:假设判别函数为y=ixi,在某个下,对任一个样本x计算出一个y’,损失函数可以定义为:=Loss(:y1,y2,…,yn)函数不连续、不可微,甚至不凸。梯度不能使用。感知机:使用(y-y’)2代替上述函数(surrogatefunction)。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第28页,共36页,2023年,2月20日,星期六假设存在最好且普适的损失函数的研究已经过去,不同问题设计不同损失函数的研究成为主流。根据问题设计损失函数的宗旨是:具有与Bayes最优一致性质的连续、可微且凸性函数。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第29页,共36页,2023年,2月20日,星期六近期的研究课题重采样技术损失函数变量稀疏国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第30页,共36页,2023年,2月20日,星期六变量稀疏:变量选择---特征选择模式识别:减少计算量。特征选择统计学:获得信息(相对预测),变量稀疏--变量选择数据挖掘:描述数据(相对预测)。当前任务:辨别自然模型的真实变量,过滤多余变量带来的噪音。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第31页,共36页,2023年,2月20日,星期六特征选择vs.变量稀疏特征选择Wrapper变量稀疏LASSOFilterLARS对特定算法,优化中逐步删除不必要的变量。通过逐步加入变量,完成优化。国科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所科学院自动化研究所第32页,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论