前馈神经网络介绍03(共14页)_第1页
前馈神经网络介绍03(共14页)_第2页
前馈神经网络介绍03(共14页)_第3页
前馈神经网络介绍03(共14页)_第4页
前馈神经网络介绍03(共14页)_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、4.13 函数(hnsh)逼近通用(tngyng)逼近定理令是一个非常(fichng)数、有界、单调增的连续函数,令表示维单位超立方体,上连续函数空间用来表示, 则给定任何函数,存在一个整数和实常数集,在这里,这样我们就可以定义: (4.86)作为函数的一个近似实现;也就是:对存在于输入空间中的所有均成立。多层感知器结构的神经元模型中logistic函数确实是一个非常数、有界、单增函数;而且它满足函数上的条件。通用逼近定理是存在性定理,为任意连续函数的逼近提供了数学上的基础。这个定理说明对于多层感知器计算一个由输入和期望(目标)输出表达的给定训练集的一致逼近来说单个隐含层是足够的。逼近(bjn

2、)误差的边界令表示(biosh)函数的多维傅立叶变换(binhun),;为频率向量。函数由它的傅立叶变换函数的反变换公式形式定义: (4.87)在这里。定义函数的傅立叶幅度分布的第一绝对动量如下: (4.88)第一绝对动量量化了函数的光滑度或者匀称性。一个半径的球体,误差界定理:对于每个具有有限第一绝对动量的的连续函数,并且每个,则存在一个由公式(4.86)定义形式的S形函数的线性组合得到的函数: 其中。当观察到函数由表示的的输入向量值的集合严格属于球体内部的时候,这个结果对经验风险提供如下的界: (4.89)使用(shyng)具有个输入(shr)节点和个隐含(yn hn)神经元的多层感知器而

3、导致的风险的界: (4.90)关于风险的界的两项表达了两种对隐含层大小互相矛盾的要求之间的折衷: 令表示估计误差的均方值。然后忽略公式(4.90)中表达式的第二项的指数因素,我们可以推断出一个好的泛化所需的训练集大小大约是。其中是等于网络中自由参数的总数的。从总体上认为为了得到好的泛化,训练例子的数目应该大于网络中自由参数总数量和估计误差均方值之比。维数灾当隐含层的大小由下式优化设置(也就是,风险关于最小化)的时因此,风险由界定。在风险(fngxin)的一阶条件中,以训练(xnlin)集大小表达(biod)的收敛速度取决于(乘以一个对数因子的倍数)。对传统的光滑函数(举例来说,多项式和三角函数

4、),令表示光滑度的大小尺度,定义为函数的连续导数的数目。总风险的最小最大的收敛速度取决于。这个依赖于输入空间维数的收敛速率,就是维数灾,这几乎完全制约了这些函数的实际应用。应用于函数逼近的多层感知器的使用看来提供了超越于传统函数的优势;但是这个优势受限于第一绝对动量保持有限的条件;这是一个光滑度约束。Richard Bellman在他对自适应控制过程的研究(Bellman 1961)中介绍了维数灾。为了从几何上解释这个概念,令表示一个维的输入向量,表示训练样本。采样密度与成正比。令函数代表一个存在于维输入空间的平面,它通过点。现在如果函数是任意复杂并且(对绝大部分来说)是完全未知的,我们需要密

5、集的样本(数据)来进行很好的学习。不幸的是,密集样本在“高维”中是很难找到的,因此产生了维数灾。在个别情况下,维数增加的结果导致复杂度呈指数增长,从而导致高维空间中均匀随机分布点的空间填充性质退化。维数灾的基本原因如下(Friedman,1995):定义在高维空间的函数看来远远比定义在低维空间上的函数复杂(fz)得多,并且这些复杂的东西是更难以区分的。克服维数灾难的唯一可行办法是在训练数据上混合关于这个(zh ge)函数的一些先验知识,这些先验知识已知是正确的。在实际中,同样存在这这样的论据:即如果希望在高维空间中得到好的泛化性能(xngnng),对于增大的维数我们必须假设未知潜在函数的更高的

6、光滑度要求(Niyogi和Girosi,1996)。这个观点将在第五章中继续深入讨论。可行性考虑从理论的观点来看,总体逼近理论是重要的,因为它为具有单个隐含层的前馈网络作为一类逼近器的正确性提供了必要的数学工具。如果没有这样一个理论,我们可能在寻找那些并不存在的方法。然而,这个理论并不是构建性的,亦即是,它实际上并不能具体说明如何由一定的逼近性质决定一个多层感知器。总体逼近理论假设被逼近的连续函数是给定的并且一个无限制的隐含层对逼近是可用的。这两个假设在绝大多数多层感知器的实际应用中都是大胆的。使用单个隐含层的多层感知器的问题是那里的神经元趋于整体(zhngt)地相互作用。在复杂情形下这种相互

7、作用使得在一点提高它的逼近同时不恶化它在其它点上的逼近变得困难。在另一方面,在具有两个隐含层的情况下逼近(曲线拟合)过程变得更容易处理。具体地,我们可以进行如下处理(Funahashi,1989;Chester,1990): 从第一个隐含层中抽取的局部特征。特别地,在第一个隐含层中的一些(yxi)神经元经常将输入空间分割成区域,这层中另外的神经元学习表现这些区域特点的特征。 从第二个隐含(yn hn)层中抽取全局特征。特别地,在第二隐含层中的一个神经元组合在输入空间个别区域起作用的第一个隐含层的神经元的输出,从而学习该区域的全局特征并且在别处的输出为零。这个两阶段的逼近过程在实质上与曲线拟合的

8、样条插值技术是相似的,在这个意义下神经元的影响是隔离的,并且输入空间不同区域的逼近可以单独地调整。一个样条就是一个分段多项式逼近的例子。Sontag(1992)为在逆问题中两个隐含层地使用提供了更深入(shnr)地理由。特别地,考虑下述逆问题:给定一个(y )连续向量值地函数,一个(y )紧子集包含于的像(即,值域)之中,并且,寻找一个向量值函数,使得满足下述条件: 对于这个问题出现在逆动力学(动态)中,此时一个系统的观察状态是当前动作和系统先前状态的函数,表示如下:假设可逆,那么对于任何我们可以把当作的函数来求解。函数代表运动方向,因而函数代表逆运动。在实际条件中,我们的动机是寻找一个可以通

9、过多层感知器计算的函数。从总的说来,非连续函数对于解决逆运动问题是必需的。这是一个有趣的问题,即使具有非连续激活函数的神经模型的使用是许可的,但一个隐含层并不能充分保证所有逆问题的解决,因而具有两个隐含层的多层感知器对于每一个可能的、和是充分的(Sontag,1992)。4.14 交叉(jioch)确认反向传播学习的核心是把输入输出映射(由标定的一组训练例子表示)编码(bin m)为一个多层感知器的突触权重和阈值。我们的期望是网络被很好地训练以至它对过去进行充分的学习就能总结地得出未来。从这个观点来看,学习过程等于为这个数据集合给出网络参数化的一个选择。具体地,我们可以把网络选择问题看作是在一

10、个候选模型结构集合中选择符合某个标准的“最好(zu ho)”一个的问题。在这种意义下,统计学中一个名为交叉确认的标准工具提供了一个有吸引力的指导规则(Stone,1974,1978)。首先已有的可用数据集被随机分割成一个训练集和一个测试集。这个训练集被进一步细分为两个不相交子集:估计子集,用来选择模型。确认子集,用来测试或者确认模型。这里的动机是用一个与参数估计数据集相异的数据集确认的模型。用这个办法我们可以用训练集来估计不同候选模型的性能,进而选择“最好”的一个。然而,存在一个明显的可能性是这样选出来的具有最好表现参数值的模型可能会导致对确认子集的过度拟合。为了防止这个可能性的出现,在与确认

11、子集不同的测试集上估量被选模型的泛化性能。当我们不得不以设计一个具有(jyu)好的泛化性能的大型神经网络作为目标的时候,交叉确认的使用是特别吸引人的。例如,我们可以使用交叉确认确定具有最优隐含层数目的多层感知器,最好在何时停止它的训练,正如在下两个子节中所述的那样。模型(mxng)选择根据(gnj)交叉确认选择模型的思想遵循一个与第二章所述结构风险最小化思想相似的哲学。现在考虑如下表示的布尔函数类的嵌入结构: (4.91)也就是说,第个函数类包含一个具有相似体系结构和从一个多维权重空间抽出的权重向量的多层感知器簇。以函数或者假设为特征的类的一个成员把输入向量映射到,这里是以某未知概率从输入空间

12、中抽取出来的。在所述结构中的每个多层感知器都是由反向传播算法训练的,该算法负责多层感知器参数的训练。模型选择问题本质是选择具有最好的值和自由参数 (亦即是,突触权重和阈值) 数目的多层感知器。更精确地,假设对输入向量的期望响应标量是,我们定义泛化误差如下: 对于(duy)给出一个标定(bio dn)训练集我们(w men)的目标是选择精确的假设,当从测试集中给定输入时它所得泛化误差为最小。下面我们假设由公式(4.91)表达的结构具有这样的性质,即对于任意大小的我们都可以找到一个具有数量足够多的自由参量的多层感知,这样训练数据集就可以充分地被拟合。这只不过重申了4.13节的通用逼近定理,我们提到

13、作为拟合数字,的重要性即是一个合理的模型选择程序应该选择一个要求满足的假设;否则网络复杂度将会增加。令一个存在于0和1范围之间的参数决定估计子集和确认子集之间的训练数据集的划分,由个例子组成,个例子分配给估计子集,剩下的个例子分配给确认子集。估计集用表示,它通常训练多层感知器的一个嵌套序列,以复杂度递增的假设构成。由于由个样本组成,我们认为的值小于或者等于相应的拟合数字。交叉确认方法的使用(shyng)导致了如下的选择: (4.92)其中(qzhng)相应(xingyng)于,是当由个例子组成的确认子集上测试时由假设产生的分类误差。关键的问题是如何具体确定决定训练集在估计子集和确认子集之间的划

14、分的参数。最优的几个定性特点:当定义输入向量的期望响应的目标函数的复杂度相对于同样大小的是小的时候,交叉确认的性能对的选择相对不敏感。当目标函数项对于样本大小变得更复杂的时候,最优的选择在交叉确认性能上具有更重要的影响,并且它自身的值减小。 的一个单一固定的值在目标函数复杂度的一个相当大的范围内近乎最佳。等于0.2的一个固定值是一个切合实际的选择。 复杂度增长的多层感知器的嵌入顺序是可以建立起来(q li)的;例如,通过如下建立具有个完全(wnqun)连接的多层感知器: 具有(jyu)递增的单个隐含层的多层感知器; 具有两个隐含层的多层感知器;第一个隐含层的大小为,第二个隐含层是递增的。尽管该

15、过程在文中针对二值分类讨论的,但是它可很好地应用到多层感知器的其他应用中。早期停止训练的方法我们可以通过交叉确认来标记过适应的发生,此时训练数据被分成了估计子集和确认子集。周期性的估计-确认的过程是如下进行的:经过一个估计(训练)的之后,多层感知器的突触权重和偏置都已经固定下来,并且网络是是在它的前向模式下运作的。对每个确认子集的例子度量确认误差。当确认阶段完成的时候,另一个时期的估计(训练)重新开始,这个过程被重复。这个过程称作训练的早期停止方法。 均方误差 确认(qurn)样本 早期(zoq)停止点 训练样本 0 训练(xnlin)回合数目 图4.20 基于交叉确认的早期停止规则示意图Am

16、ari等人(1996)提出的过适应现象的统计学理论为早期停止训练方法的使用提供了警告。两种行为模式验证了对于训练集的大小的依赖:非渐近模式,此时,其中是训练集的大小,是网络中自由参数的个数。此时早期停止训练的方法确实通过无遗漏的训练提高了网络的泛化性能(亦即是,当整个的训练样本集合被用来训练并且训练过程不被停止的时候)。这个结果暗示着当的时候过度拟合可能会发生。决定估计子集和确认子集之间的训练数据划分的参数的最优值定义为对于大的,这个公式近似为 ,很大 (4.93)例如(lr),对于。 渐近模式(msh),。对于这种行为模式(msh)来说,通过无遗漏训练使用早期停止训练方法产生的泛化性能的提高是很小的。交叉确认的变体把个样本的有效集合分割为个子集来使用多重交叉确认方法,;这里假设对是可分的。这个模型在除了一个子集之外的其他子集上进行训练,确认误差通过剩下子集上的测试来衡量。这个程序总共被重复次试验,每次使用一个不同的子集进行确认,如图4.21所示的情形。模型性能的评估是通过求实验中所有的试验的确认平方误差的平均来进行的。多重交叉确认存在一个缺点:当时,既然模型必须训练次,它可能需要一个超大的运算量。 图4.21 交叉确认的阻止方法示意图. 试验1对一给定的试验,带阴影的数 试验2据集用来确认模型,而剩下的 试验3数据用来训练模型 试验4特别地可以使用被称为“留一交替”方法的多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论