统计学习理论简介ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-03-30 格式：PPT 页数：29 大小：3.29MB 积分：25 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第八章统计学习理论简介IntroductionofStatisticalLearningTheory 1机器学习问题和方法 2学习过程的一致性条件 3函数集的学习性能与VC维 4推广性的界 5结构风险最小化支持向量机客观世界中存在着无法准确认识但可进行观测的事物统计是面对数据而又缺乏理论模型时最有效的也是唯一的分析手段传统的统计学所研究的是渐进理论是在样本数目趋于无穷大时其性能才有理论上的保证上世纪90年代中才成熟的统计学习理论是在基于经验风险的有关研究基础上发展起来的专门针对小样本的统计理论统计学习理论为研究有限样本情况下的模式识别函数拟合和概率密度估计等三种类型的机器学习问题提供了理论框架同时也为模式识别发展了一种新的分类方法支持向量机 1机器学习问题和方法 1 机器学习问题机器学习是现代智能技术中重要的一个方面研究从观测样本出发去分析对象去预测未来机器学习的基本模型 G从F x 中抽取的x S是研究对象 LM是所求的学习机输出y与x之间存在一种固定的但形式未知的联合概率分布函数F y x 学习机中有函数集 f x w 可估计输入与输出之间依赖关系其中w为广义参数 2 风险最小化机器学习问题表示已知变量y与输入x之间存在一定的未知依赖关系即联合概率分布F x y 作为一种特例若x和y之间有确定性关系即系统辨识机器学习就是根据独立同分布的n个观测样本 x1 y1 x2 y2 xn yn 在一组函数 f x w 中求一个最优函数f x w0 使预测的期望风险R w 最小化 L y f x w 为损失函数由于对y进行预测而造成的损失 w为函数的广义参数故 f x w 可表示任何函数集 F x y 为联合分布函数三类机器学习问题的损失函数模式识别输出y就是类别两类输出y 0 1 这时预测函数称为指示函数损失函数定义函数拟合 y 连续变量是x的函数损失函数概率密度估计估计的概密为p x w 损失函数要使期望风险R w 最小化依赖概率分布F x y 但在机器学习中只有样本信息无法直接计算期望风险及其最小化 3 经验风险最小化 EmpiricRiskMinimization ERM 根据概率论中的大数定理用算术平均代替数学期望定义了经验风险来逼近定义的期望风险用训练样本 xi yi i 1 n 即经验数据定义故称为经验风险求经验风险Remp w 的最小值代替求期望风险R w 的最小值就是所谓的ERM原则模式识别中前面各章的分类器设计除SVM 函数拟合中的最小二乘法概率密度估计中的极大似然法都是在ERM原则下得到的从期望风险最小化到经验风险最小化并没有可靠的理论依据 Remp w 和R w 都是w的函数概率论中的大数定理只说明样本无限多时Remp w 在概率意义上趋近于R w 并不说二者的w最小点为同一个点而且客观上样本是有限的有限样本情况下学习精度和推广性之间往往有矛盾采用复杂的学习机器可使误差更小但推广性差统计学习理论对使用经验风险最小化原则的前提对解决机器学习问题中的期望风险最小化理论依据进行了研究 2学习过程的一致性条件一致性 consistency 是指当样本趋于无穷时 Remp w 的最优值收敛到R w 的最优值 1 学习过程的一致性最优预测函数f x w 最小的L y f x w n 最小值Remp w n R w n 为在L y f x w n 下的真实期望风险值如果下面两式成立时称这个学习过程是一致的换句话讲如果经验风险最小化方法能提供一个函数序列 f x w 使得Remp w 和R w 都收敛于最小可能的风险值R w0 则这个经验风险最小化学习过程是一致的这两个条件说明式保证了所达到的风险收敛于最好的可能值式保证了可以在经验风险的取值基础上估计最小可能的实际风险存在一种可能预测函数集中有某个特殊的函数满足上述条件为此定义了非平凡一致性概念即预测函数集中的所有子集都满足条件 2 学习理论关键定理经验风险最小化一致性的充分和必要条件是经验风险在函数集上如下式收敛于期望风险其中P概率这样把一致性问题转化为一致收敛问题它有赖于预测函数集和样本概率分布 Remp w 和R w 都是预测函数的函数泛函目的是通过求经验风险最小化的预测函数来逼近能使期望风险最小化的函数关键定理没有给出学习方法即预测函数集是否能满足一致性的条件为此定义了一些指标来衡量函数集的性能最重要的是VC维 3函数集的学习性能与VC维1 指示函数集的熵和生长函数指示函数集的熵有n个训练样本Zn zi xi yi i 1 2 n 定义N Zn 为函数集中的函数能对样本分类的数目随机熵定义指示函数集能实现分类组合数的自然对数称为函数集在样本上的随机熵H Zn lnN Zn 指示函数集的熵 n个样本的随机熵的期望值H n E lnN Zn 也称VC熵作为衡量函数集分类能力的指标是函数集的一个特性生长函数 growthfunction G n 函数集的生长函数G n 定义为最大随机熵G n 反映了函数集把n个样本分成两类的最大可能的分法数二分法的最大数为2n G n nln2 如果G n 2n成立就称为具有n个样本的集合被指示函数打散 shattered 了退火的VC熵定义VC熵退火的VC熵与生长函数三者之间的关系 2 生长函数的性质与VC维 VapnikChervonenkisdimension 由VC维的创立者在1968年发现了下面的规律函数集的生长函数或者与样本数成正比即 G n nln2 或者以样本数的某个对数函数为上界即VC维对于一个指示函数集表示函数能打散的最大样本数若其生长函数是线性的 VC维为无穷大若以h的对数函数为上界则VC维等于h 线性分类器一章中已述d维空间中的N个样本线性可分的数目为当n d 1时此两式结果相同若d 2 n 3 D 8种线性二分的情况 n 4 D 16 其中14种是线性可分的 n 5 D 32 其中22种是线性可分的随着样本数目增多可能的二分法总数增加但并不是线性关系而是如图实线所示也就是生长函数G n 的性质当n d 1 VC维的直观定义假设存在一个有h个样本的样本集能被一个函数集中的函数按照所有可能的2h种形式分为两类则此函数集能够把样本数为h的样本集打散也就是说如果存在h个样本的样本集能够被函数集打散而不存在有h 1个样本能被打散则函数集的VC维就是h 指示函数集的VC维就是用这个函数集中的函数能够打散的最大的样本数目表示学习过程一致的充要条件是函数集的VC维有限 VC维h d 1 2 1 3指示函数为线性函数根据VC维的定义 d维空间中的线性分类器中二值符号函数的VC维是h d 1 实值线性函数的VC维也是h d 1 VC维反映了函数集的学习能力 VC维越大则学习机器越复杂目前对一些特殊的函数集的VC维可准确知道而对一些复杂的学习机器如神经网络其VC维除了与函数集的选择有关外还受算法的影响确定困难 1 推广性统计学习理论指出经验风险最小化原则下的学习机器的实际风险由两部分组成训练样本的经验风险Remp w 称为置信范围F h n 不但受置信水平1 h影响而且是函数集的VC维h和样本数n的函数为此重写为上式强调随着n h的增加 F n h 单调减少 4推广性的界经验风险与期望风险之间差距的上界F n h 反映了根据经验风险最小化原则得到的学习机器的推广能力称为推广性的界当n h较小时如小于20 h固定样本数n少置信范围或称为VC信任 F较大用经验风险近似真实风险的误差大用经验风险最小化取得的最优解推广性差另一方面样本数n固定若VC维越高复杂性越高则置信范围越大误差越大注意函数的VC维是指示函数的性质用样本数数目来表示不是需要训练样本的数量为了推广性训练样本的数量n要多得多 2 复杂性VC维越高置信范围越大复杂性高误差大因此在设计分类器时要使VC维尽量小就是不用过于复杂的分类器或神经网络选择模型的过程就是优化置信范围的过程例如选了线性分类器就确定了学习机器的VC维虽然很多问题不是线性的但当样本数有限时往往用线性分类器 VC维低可得到好的结果同样在神经网络中首先根据问题和样本选择不同神经网络的结构隐层数对应于VC维再进行经验风险最小化有时训练误差过小反而导致推广能力下降这就是神经网络中的过学习问题这是因为学习样本少或学习机器设计不合理也就是说采用复杂的学习机器容易使学习误差更小但丧失推广性因此有限样本情况下经验风险最小并不一定意味期望风险最小可通过函数最小化使经验风险收敛于期望风险函数的重要性质就是VC维学习机器的复杂性不但与系统有关而且与有限的样本有关即存在学习精度和推广性之间存在矛盾因此在模式识别中为了推广性人们趋于用线性或分段线性等较简单的分类器 5结构风险最小化StructureRiskMinimization SRM 1 结构风险最小化其理论依据也是把函数集S f x w w 分解为一个函数子集序列各子集按VC维的大小排列h1 h2 hk 这样在同一个子集中置信范围相同再在每一个子集中寻找最小经验风险Remp 通常它随函数集复杂度的增加而减少选择经验风险与置信范围之和最小的子集就达到期望风险最小在这个子集中使经验风险最小的函数就是所求的最优函数这就称为结构风险最小化原则在SRM原则下设计分类器步骤第一步模型选择选择一个适当的函数子集使之对问题有最优的分类能力即确定了F n h 第二步从子集中选择一个判别函数再进行参数估计使经验风险最小得到最优函数这也称为有序风险最小化原则 2 支持向量机SVR 实现了有序风险最小化思想 SVM的最优分类线不但能将两类分开使经验风险最小为0 而且要使两类的分类空隙最大实际上就是推广性的界中的置信范围最小样本集为 SVM的推广性非线性支持向量机是在比原特征空间维数高的空间进行分类若变换的维数过高在此空间的线性判别函数的VC维 h d 1 可能会很大最优和广义最优分类面的推广能力的定理如果一组训练样本能被一个最优分类面分开则对测试样本分类错误率的期望上界是训练样本中平均的支持向量数占总训练样本数的比例即因此推广性与维数无关只要选择一种内积定义构造支持向量数相对少的最优分类面 SVM的主要优点针对有限样本的其目标是得到现有信息下的最优解算法最终转化为一个二次优化对偶问题理论上可得到全局最优解算法通过非线性变换到高维特征空间在此空间构建核函数实现原空间的非线性判别函数使学习机器有较好的推广能力同时解决了维数问题其算法复杂度与维数无关在SVM方法中只要定义不同的内积函数就可实现多项式逼近 Bayes分类器 RBF方法 MLP等现有的学习算法经典的SVM算法为两类分类算法在多类问题中解决方法构造多个两类SVM的组合主要有一对多

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计学习理论简介ppt课件.ppt

文档简介

温馨提示

最新文档

评论

统计学习理论简介ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档