




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/5统计模式识别问题的基本理论统计模式识别问题的基本理论1统计模式识别问题简介统计模式识别问题可以看作是一个更广义的问题的特例,就是基于数据的机器学习问题。基于数据的机器学习是现代智能技术中十分重要的一个方面,主要研究如何从一些观测数据出发得出目前尚不能通过原理分析得到的规律,利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。现实世界中存在大量我们尚无法准确认识但却可以进行观测的事物,因此这种机器学习在从现代科学、技术到社会、经济等各领域中都有着十分重要的应用。当我们把要研究的规律抽象成分类关系时,这种机器学习问题就是模式识别。统计是我们面对数据而又缺乏理论模型时最基本的分析手段,传统统计学所研究的是渐进理论,即当样本数目趋向于无穷大时的极限特性,统计学中关于估计的一致性、无偏性和估计方差的界等,以及分类错误率诸多结论,都具有这种渐近特性。但实际应用中,这种前提条件却往往得不到满足,当问题处在高维空间时尤其如此,这实际上是包括模式识别和神经网络等在内的现有机器学习理论和方法中的一个根本问题。2/5等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题。由于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学上比较艰涩,0年代以前并没有提出能够将其理论付诸实现的较好的方法。加之当时正处在其他学习方法飞速发展的时期,因此这些研究一直没有得到充分的重视。直到90年代中期,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系统计学习理论。同时,神经网络等较新兴的机器学习方法的研究则遇到一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等等。在这种情况下,试图从更本质上研究机器学习问题的统计学习理论逐步得到重视。为了解决有限样本的机器学习问题,在过去二十多年里,发展了很多新的统计学方法,其中等发展了专门研究小样本统计估计和预测的统计学习理论以及结构风险最小化原则。统计学习理论就是研究小样本统计估计和预测的理论,主要内容包括四个方面1)经验风险最小化原则下统计学习一致性的条件;2)在这些条件下关于统计学习方法推广性的界的结论;3/53)在这些界的基础上建立的小样本归纳推理准则;4)实现新的准则的实际方法。其中,最有指导性的理论结果是推广性的界,与此相关的一个核心概念是VC维。VC维模式识别方法中VC维的直观定义是对一个指示函数集,如果存在H个样本能够被函数集中的函数按所有可能的2H种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大。有界实函数的VC维可以通过用一定的阈值将它转化成指示函数来定义。VC维反映了函数集的学习能力,VC维越大则学习机器越复杂。遗憾的是,目前尚没有通用的关于任意函数集VC维计算的理论,只对一些特殊的函数集知道其VC维。比如在N维实数空间中线性分类器和线性实函数的VC维是N1,而上一节例子中的VC维则为无穷大。对于一些比较复杂的学习机器,其VC维除了与函数集有关外,还受学习算法等的影响,其确定更加困难。对于给定的学习函数集,如何计算其VC维是当前统计学习理论中有待研究的一个问题。4/5推广性的界统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之间的关系,即推广性的界。关于两类分类问题,结论是对指示函数集中的所有函数,经验风险和真实风险之间以至少1的概率满足如下关系上式右端第一项反映训练样本的拟合程度;第二项称为VAPNIKCHERVONENKIS置信范围,H是函数集的VC维。式表明,在有限训练样本下,学习机器的VC维越高则置信范围越大,导致真实风险与经验风险之间可能的差别越大。这就是为什么会出现过学习现象的原因。机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。结构风险最小化原则在传统方法中,选择学习模型和算法的过程就是调整置信范围的过程,如果模型比较适合现有的的训练样本,则可以取得比较好的效果。但因为缺乏理论指导,这种选择只能依赖先验知识和经验,造成了如神经网络等方法对使用者“技巧”的过分依赖。当N/H较大时,式右边的第二部分就较小,真实风险就接近经验风险的取值。如果N/H较小,那么一个小的5/5经验风险值并不能保证小的真实风险值。在这种情况下,要最小化真实风险值,就必须对不等式右边的两项同时最小化。但是需要注意,不等式右边的第一项取决于函数集中的一个特定函数,而第二项取决于整个函数集的VC维。因此要对风险的界,即式的右边的两项同时最小化,我们必须使VC维成为一个可以控制的变量。统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列,在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得真实风险的最小,如图1所示。于是有两个本文由论文联盟HTTP/收集整理思路一是在每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集。这种方法比较费时,当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省徐州市新沂市2021-2022学年五年级上学期科学期中试卷(含答案)
- 民法典的新变化
- 江苏省连云港市赣榆区2026届化学高一第一学期期末联考模拟试题含解析
- 2026届湖北随州市普通高中化学高一上期中达标检测模拟试题含解析
- 2025年考研英语(一)长篇阅读技巧提升与押题卷
- 2025年注册电气工程师考试试卷 电气设计专项训练:电气工程设计与施工协调
- 2025年注册土木工程师考试真题试卷 建筑结构设计专项训练
- 2025年高考英语阅读理解专项训练:长篇阅读技巧揭秘
- 星光学校开展校园安全生产大排查大整治行动自查自纠报告
- 测量员岗位职责是什么
- DB S63-0011-2021食品安全地方标准 黑果枸杞中花青素含量的测定
- 《如何说孩子才会听怎么听孩子才肯说》读书分享
- 2022年贵州省注册安全工程师考试题库合集(含各科真题和典型题)
- 康复科讲课课件
- 《蒙牛乳业集团财务共享服务中心优化研究》
- 工业互联网安全防护措施手册
- 2024年新版人教精通版三年级英语上册单词带音标
- 电力建设工程施工安全管理导则
- 2025年软件资格考试信息处理技术员(初级)(基础知识、应用技术)合卷试卷及解答参考
- 2023-2024学年江苏省盐城市盐都区八年级(下)期末物理试卷(含答案)
- 外研版英语四年级下册阅读理解练习(含答案)
评论
0/150
提交评论