




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档对“学习算法的几乎处处稳定性与泛化能力”的理解与思考该篇读书报告是针对Kutin和Niyogi的论文Almost-everywhere algorithmic stability and generalization error。为了更好的理解这篇论文,我还通过查阅相关资料了解了一些统计机器学习的相关概念。下面我将通过问答的方式,对我的论文阅读收获进行总结。首先,为什么要提出学习算法稳定性的概念?长期以来,泛化性和泛化误差是通过学习机器(或者称训练模型)的复杂度来衡量,代表性的如由Vapnik和Chervonenkis所发展的统计机器学习理论。但是这种方法引入了VC维或VC熵的理论,在学习机器的复杂度越高的情况下,VC维的计算也就更加复杂,该方法的局限性也随之体现出来了。近年来,基于学习算法本身的研究方法被提出来,这种方法通过引入算法稳定性的概念来对学习算法的泛化界做定量的估计,而不会涉及学习机器本身的VC维或者VC熵。总结而言,经典的统计学习理论是从机器的角度研究学习问题的,即研究当机器满足什么条件时学习算法具有泛化性,而学习算法的稳定性理论是从算法自身的角度研究泛化性,这是一种全新的研究学习问题的途径。其次,学习算法稳定性是如何应用到对算法泛化能力度量的?在回答这个问题之前,先介绍经典的统计机器学习方法如何度量算法的泛化能力。回忆一个概念,一个学习算法称为具有泛化性,如果对于任何概率分布P,任意的训练集S和任何 0,下述等式limmPIfs-ISfs=0 (1)一致成立。式中,Ifs为期望风险(误差),Isfs为经验风险(误差)。根据这一定义,一个学习算法具有泛化性当且仅当经验误差在概率意义上收敛于期望误差。泛化性的概念是定性地描述了一个学习算法的预测能力。但从应用的角度来说,需要定量地把握学习算法的泛化能力,故引入泛化误差界的概念。一个算法的泛化误差界通常指如下形式的一个估计PsupfsFIfs-ISfs ,m,lF (2)其中是以、训练集数目m以及表示机器复杂度的度量l(F)为变量的正函数(如机器的VC维),它刻画了学习算法经验误差收敛到期望误差的速度估计。从学习算法稳定性的角度来研究泛化能力问题,就不使用机器的任何复杂性的度量(即公式(2)中的l(F)),而代之以使用与算法自身相关的稳定性指标l(A)来对泛化误差进行估计。即寻求如下形式的泛化界估计PIfs-ISfs(,m,l(A) (3)它是对机器中函数fs的非一致估计,更加符合应用实际和便于应用。那么,学习算法稳定性的概念有哪些不同的定义?Kutin和Niyogi所提出的“几乎处处稳定”的学习稳定性框架和其他的框架相比又有什么不同或优势?基于从算法自身研究学习问题起始于Devroye,Rogers和Wagner的研究,他们注意到留一估计中样本有小的改变时算法的稳定性性质,并将算法稳定性作为研究 K-最近邻算法泛化性的一个工具(此时由于机器的VC维无限,传统的研究方法失效)。Kearns和Ron研究了具有有限VC维的机器和算法稳定性的关系(故仍旧依赖了传统的VC维的概念);Bousquet和Elisseeff证明了回归问题正则化算法在一定意义下是一致稳定的,并且获得了正则化算法泛化误差的一个指数界估计。但由于Bousquet和Elisseeff定义的稳定性条件太强,Kutin和Niyogi引进了“几乎处处稳定”的概念,并在此基础上研究了学习算法的泛化性。经过查阅资料和阅读论文,我认为判断一个学习稳定性框架的标准有两个。第一,算法稳定性概念的定义;第二,从不同稳定性概念所推导证明出的学习算法的泛化误差界。而最理想的框架应该是这样的:在不太严苛的稳定性定义下,能够推导证明出指数形式的泛化误差界估计。要求“不太严苛”的稳定性定义,因为太严苛的稳定性是一般的学习机器很难达到的,而太弱化的稳定性定义又会导致多项式形式的泛化误差边界。显然,一个具有指数泛化误差边界的算法总是远远优于具有多项式误差边界的算法。下面就可以从稳定性定义和推导出的泛化误差界形式这两个角度来比较不同的学习稳定性框架。在稳定性定义上,Kearns和Ron的论文提出了两种定义:“h假设稳定”和“e逐点假设稳定”,这两种定义可称为“weak hypothesis stability”,即“弱假设稳定”。Bousquet和Elisseeff提出的定义为“m一致稳定”,即“uniform hypothesis stability”,这是一种过于严苛的定义。而Kutin和Niyogi在此基础上提出的定义为“(, )几乎处处稳定”,论文中称为“training stability”,将“m一致稳定”进行了合理的弱化处理。各种稳定性的具体定义如下:设A是一个学习算法,S是训练集,l(f, z)为损失函数,满足有界性条件0l(f, z)M(M是一个常数)。1. A称为是h假设稳定的,如果i1,2,m, ES,z|lfs, z-l(fsi,z)|h。2.A称为是e逐点假设稳定的,如果i1,2,m, ES|lfs, zi-l(fsi,zi)|e。3. A称为是m一致稳定的,如果SZm, i1,2,m, lfs, -l(fsi, )m。4. A称为是(, )几乎处处稳定的,如果i1,2,m, lfs, -l(fsi, )对S以1-的概率成立。其中,Si和Si分别表示从给定训练集S中删除样本zi和将zi替换为一个新样本zi所形成的新训练集(即留一训练集和换一训练集)。由上述的学习算法稳定性定义,可以分别推到出如下的泛化误差界:1.如果算法A是h假设稳定的,则PIfsIloofs+-1M2+6Mmh2m1-.2.如果算法A是e逐点假设稳定的,则PIfsImfs+-1M2+12Mme2m1-.3.如果算法A是m一致稳定的,则,0,PIfsImfs2m+exp(-2m2(4mm+M)2);PIfsIloofsm+exp(-2m2(4mm+M)2).4.如果算法A是(, )几乎处处稳定的,则,0,PImfs-Ifs+M2(exp-l282l+M2+4l2M2l+M).从形式上来看,1和2所推导出的泛化误差界为多项式形式(结果不理想),3推导出的泛化误差界为指数形式(是最理想的),而4推导出的是一个指数和多项式混合界(当且仅当m=o(exp(-m)时退化成一个指数界)。单从泛化误差界来看,Bousquet和Elisseeff 提出的“m一致稳定”所定义的稳定性框架要比Kutin和Niyogi 基于“(,)几乎处处稳定”的框架效果要好。但是,后者是基于前者进行改进的,故必定有其优势所在(否则论文岂不是毫无意义)。前者使用的“m一致稳定”定义过于约束,这导致一些学习算法由于违背这一条件而无法应用;而后者引入“(,)几乎处处稳定”的定义(即在大多数情况下,在训练集里改变一个点只会导致该集里的点的误差发生微小的改变),有效地放宽了限制条件,而且通过实验证明了由此定义能够得到良好的泛化误差界。此外,论文还证明了“(,)几乎处处稳定”(即“training stability”)是“PAC可学习性”的充分必要条件。由此,“(,)几乎处处稳定”定义的优势显而易见。既然基于“几乎处处稳定性”定义的学习稳定性框架这么好,那还有改进的余地吗?在哪方面可作出改进?我认为答案是肯定的。因为至少有一点没有做好:通过“几乎处处稳定”的定义推导得到的泛化误差边界不是指数形式的。通过查阅文献,发现确实有人通过引入新的稳定性定义,优化了这一点。在张海和徐宗本的论文学习算法的稳定性与泛化:一种新的稳定性框架中,他们引入了“im均方稳定”的定义,得到了与一致稳定性框架下同阶的指数式泛化误差界。主要结果如下:定义:算法A称为是im均方稳定的,如果对于任何训练集SZm,存在正实数im,i=1,m,使得E(lfs,-l(fsi,)2|z1,z2,zmim。定理:如果学习算法A是im均方稳定的,且损失函数满足0l(f, z)M,则对与任意的0,成立下述泛化误差指数界估计PIfsImfs+exp(-216i=1mim+48Mi=1mimm+48M2m),其中=maxiim。从上面的结果可以看出,在和几乎处处稳定性框架相当的均方稳定框架下,得到了和更窄的一致稳定框架下所得到的指数界同阶的指数界估计。可以说,这一新的框架是整合了几乎处处稳定和一直稳定两个框架的优点。参考文献:1Kutin S., Niyogi p., Almost-Everywhere Algorithmic Stability and Generalization Erro
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江苏盐城市第一人民医院招聘编外专业技术人员42人考前自测高频考点模拟试题及答案详解(夺冠)
- 2025福建福州市晋安区公益性岗位招聘5人考前自测高频考点模拟试题及完整答案详解
- 2025年临沂职业学院公开招聘教师和教辅人员(24名)考前自测高频考点模拟试题完整参考答案详解
- 2025年中国货物控制带行业市场分析及投资价值评估前景预测报告
- 2025年临沂市工程学校公开招聘教师(10名)模拟试卷及答案详解1套
- 2025湖北省招募选派三支一扶高校毕业生1998人模拟试卷及答案详解(名校卷)
- 2025安徽芜湖经济技术开发区公办幼儿园招聘26人考前自测高频考点模拟试题及参考答案详解一套
- 2025江苏连云港灌江农业发展集团有限公司招聘拟聘(第二批)考前自测高频考点模拟试题带答案详解
- 2025年中国户外型聚酯树脂行业市场分析及投资价值评估前景预测报告
- 2025年乾县皖能环保电力有限公司招聘模拟试卷附答案详解(典型题)
- 2025年盘锦市总工会面向社会公开招聘工会社会工作者52人考试参考试题及答案解析
- 2025河北水发节水有限公司公开招聘工作人员16人笔试参考题库附答案解析
- 2025年秋人教版数学四年级上学期第一次月考测试卷【附答案】
- 新版中华民族共同体概论课件第十二讲民族危亡与中华民族意识觉醒(1840-1919)-2025年版
- 夜间红外成像算法优化-洞察及研究
- 书店服务礼仪培训课件
- 压缩空气储能系统中离心压缩机的变工况特性与调节规律深度剖析
- 党建知识应知应会测试题库(附答案)
- 设备点巡检基础知识培训
- 2025-2026学年辽师大版(三起)(2024)小学英语四年级上册(全册)教学设计(附目录)
- 曲阜师范大学毕业论文答辩课件模板课件
评论
0/150
提交评论