下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计形式识别问题的根本理论统计形式识别问题的根本理论1统计形式识别问题简介统计形式识别问题可以看作是一个更广义的问题的特例,就是基于数据的机器学习问题。基于数据的机器学习是现代智能技术中非常重要的一个方面,主要研究如何从一些观测数据出发得出目前尚不能通过原理分析得到的规律,利用这些规律去分析客观对象,对将来数据或无法观测的数据进展预测。现实世界中存在大量我们尚无法准确认识但却可以进展观测的事物,因此这种机器学习在从现代科学、技术到社会、经济等各领域中都有着非常重要的应用。当我们把要研究的规律抽象成分类关系时,这种机器学习问题就是形式识别。统计是我们面对数据而又缺乏理论模型时最根本的分析手段,传
2、统统计学所研究的是渐进理论,即当样本数目趋向于无穷大时的极限特性,统计学中关于估计的一致性、无偏性和估计方差的界等,以及分类错误率诸多结论,都具有这种渐近特性。但实际应用中,这种前提条件却往往得不到满足,当问题处在高维空间时尤其如此,这实际上是包括形式识别和神经网络等在内的现有机器学习理论和方法中的一个根本问题。V.Vapnik等人早在20世纪60年代就开场研究有限样本情况下的机器学习问题。由于当时这些研究尚不非常完善,在解决形式识别问题中往往趋于保守,且数学上比拟晦涩,90年代以前并没有提出可以将其理论付诸实现的较好的方法。加之当时正处在其他学习方法飞速开展的时期,因此这些研究一直没有得到充
3、分的重视。直到90年代中期,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系统计学习理论StatistialLearningThery,简称SLT。同时,神经网络等较新兴的机器学习方法的研究那么遇到一些重要的困难,比方如何确定网络构造的问题、过学习与欠学习问题、部分极小点问题等等。在这种情况下,试图从更本质上研究机器学习问题的统计学习理论逐步得到重视。为理解决有限样本的机器学习问题,在过去二十多年里,开展了很多新的统计学方法,其中V.Vapnike等开展了专门研究小样本统计估计和预测的统计学习理论以及构造风险最小化原那么StruturalRiskiniizatin,SR
4、。统计学习理论就是研究小样本统计估计和预测的理论,主要内容包括四个方面:1经历风险最小化原那么下统计学习一致性的条件;2在这些条件下关于统计学习方法推广性的界的结论;3在这些界的根底上建立的小样本归纳推理准那么;4实现新的准那么的实际方法算法。其中,最有指导性的理论结果是推广性的界,与此相关的一个核心概念是V维。2V维形式识别方法中VVapnikhervnenkDiensin维的直观定义是:对一个指示函数集,假如存在h个样本可以被函数集中的函数按所有可能的2h种形式分开,那么称函数集可以把h个样本打散;函数集的V维就是它能打散的最大样本数目h。假设对任意数目的样本都有函数能将它们打散,那么函数
5、集的V维是无穷大。有界实函数的V维可以通过用一定的阈值将它转化成指示函数来定义。V维反映了函数集的学习才能,V维越大那么学习机器越复杂容量越大。遗憾的是,目前尚没有通用的关于任意函数集V维计算的理论,只对一些特殊的函数集知道其V维。比方在n维实数空间中线性分类器和线性实函数的V维是n+1,而上一节例子中的V维那么为无穷大。对于一些比拟复杂的学习机器如神经网络,其V维除了与函数集神经网构造有关外,还受学习算法等的影响,其确定更加困难。对于给定的学习函数集,如何用理论或实验的方法计算其V维是当前统计学习理论中有待研究的一个问题。3推广性的界统计学习理论系统地研究了对于各种类型的函数集,经历风险和实
6、际风险之间的关系,即推广性的界。关于两类分类问题,结论是:对指示函数集中的所有函数包括使经历风险最小的函数,经历风险和真实风险之间以致少1-的概率满足如下关系:上式右端第一项反映训练样本的拟合程度;第二项称为Vapnikhervnenkis置信范围又称V置信范围,h是函数集的V维。式1说明,在有限训练样本下,学习机器的V维越高复杂性越高那么置信范围越大,导致真实风险与经历风险之间可能的差异越大。这就是为什么会出现过学习现象的原因。机器学习过程不但要使经历风险最小,还要使V维尽量小以缩小置信范围,才能获得较小的实际风险,即对将来样本有较好的推广性。4构造风险最小化SR原那么在传统方法中,选择学习
7、模型和算法的过程就是调整置信范围的过程,假如模型比拟合适现有的的训练样本相当于n/h值适当,那么可以获得比拟好的效果。但因为缺乏理论指导,这种选择只能依赖先验知识和经历,造成了如神经网络等方法对使用者技巧的过分依赖。当n/h较大时,式1右边的第二部分就较小,真实风险就接近经历风险的取值。假如n/h较小,那么一个小的经历风险值并不能保证小的真实风险值。在这种情况下,要最小化真实风险值,就必须对不等式1右边的两项同时最小化。但是需要注意,不等式1右边的第一项取决于函数集中的一个特定函数,而第二项取决于整个函数集的V维。因此要对风险的界,即式1的右边的两项同时最小化,我们必须使V维成为一个可以控制的变量。统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照V维的大小亦即的大小排列,在每个子集中寻找最小经历风险,在子集间折衷考虑经历风险和置信范围,获得真实风险的最小,如图1所示。于是有两个本文由论文联盟搜集整理思路:一是在每个子集中求最小经历风险,然后选择使最小经历风险和置信范围之和最小的子集。这种方法比拟费时,当子
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年道德领导力在构建公平包容学校环境中的作用
- 2026年自动体外除颤器(AED)使用培训
- 2026年互联网医疗中的法律与伦理规范
- 2026年痛风患者健康讲座与嘌呤饮食控制
- 2026年幼儿园戏剧教育活动指导手册
- 2026年非煤矿山安全管理人员培训成果检验
- 2026年教师课堂教学质量评价表
- 2025宁夏水利电力工程学校招聘11人笔试历年参考题库附带答案详解
- 2025国家电投集团电投置业选聘14人笔试历年参考题库附带答案详解
- 2025贵州黔东南州黎平广通贸易有限公司招聘拟聘人员笔试历年难易错考点试卷带答案解析
- 治安管理处罚法普法讲座
- 沙龙会员协议书
- 道岔钳工技能测试题库及答案
- 陕西省建设工程安全生产管理办法
- 2025年广东省高考政治试卷真题(含答案解析)
- 2025年河北省中考化学试卷真题(含答案解析)
- 军事伪装道路施工技术专题
- 良肢位摆放叙试题及答案
- 2025年高考数学全国一卷试题真题及答案详解(精校打印)
- T/CCMA 0168-2023土方机械电控手柄技术要求及试验方法
- 2025年统计学期末考试题库:时间序列分析核心考点解析
评论
0/150
提交评论