（计算数学专业论文）带惩罚项的bp神经网络在线梯度法.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-06 格式：PDF 页数：43 大小：1.12MB 积分：18 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要多层前传神经网络在许多领域有着广泛的应用。网络的泛化能力，即网络在训练集以外的样本上的精度，是标志神经网络性能的一个重要指标。提高网络泛化能力的一个重要指导思想是选择能够在训练集上达到精度要求的尽可能小的网络。这里所说的小网络是指具有较少的神经元或连接的网络。得到这样的较小网络的一个有效途径是：在网络训练完成之后删除一些不重要的单元或连接。关于这方面的算法的介绍参见f 7 ，1 5 ，1 9 1 。其中，从网络中删除连接权值的方法中包括在传统的误差函数中加入一个惩罚项，这样不重要的连接就有较小的权值，修剪这些权值就可以使网络的复杂性大大减小2 2 1 。另外，在一些训练结束时不对网络进行修剪的情况中，网络的复杂性仍然会因为权值都比较小而大幅降低，因而会表现出较好的泛化能力f 1 8 ，2 6 j 。所以在b p 网络的误差函数中加入惩罚项是提高网络泛化能力的一个重要途径。已有许多文献研究了多种不同的惩罚项，例如1 0 ，1 2 ，1 3 ，2 2 2 6 1 。他们中的大多数( i i 0 1 2 2 2 ，2 6 1 ) 都是在实验的基础上对惩罚项的性能进行研究，没有在数学上论证权值的有界性。j u nk o n g w e iw u 1 3 1 对一种惩罚项的性质在数学上作了研究，他们在训练样本线性无关( 样本个数不能多于样本的维数) 的条件下，证明了应用惩罚项到无隐层b p 网络中可以保证权值有界。本文将在j u nk o n g 、v e iw u 1 3 x 作的基础上探讨将惩罚项应用到更重要的有隐层b p 神经网络中，同时允许样本线性相关。我们证明了在上述条件下，网络的每个权值都是有界的，并且网络是确定性弱收敛的( 误差函数关于权值向量的导数的模收敛到零) 。关键词：b p 神经网络，惩罚项，在线梯度法，有界，收敛 a b s t r a c t m u l t i l a y e rp e r c e p t r o nn e t w o r k sh a v eb e e nw i d e l yu s e di nm a n ya p p l i c a t i o n s t h e g e n e r a l i z a t i o na b i l i t y , i e h o ww e l lt h en e t w o r kp e r f o r m s0 nt h ed a t as e t st h a th a v e 1 t o tb e e ns h o w nt ot h en e t w o r kf o l t r a i n i n g ，i sa ni m p o r t a n tc r i t e r i o no fan e t w o r k s p e r f o m l a n c e ar u l eo ft h u m bf o ri n l p r o v i n gt h eg e n e r a l i z a t i o ni st oc h o o s et h es m a l l e s t n e t w o r kt h a tf i t st h et r a i n i n ge x a m p l e s s u c hs m a l ln e t w o r k sm a ym e a ne i t h e rs m a l ln u m b e ro fc o n n e c t i o n so rs m a l lm a g n i t u d eo fc o n n e c t i o n so rb o t ho ft h e m o n ew a yt oo b t a i nn e t w o r kw i t hs m a l ln u m b e r o fc o n n e c t i o n si st od e l e t es o m eu n i m p o r t a n tc o n n e c t i o n sa n dn o d e sa f t e rt h et r a i n i n g h a sb e e nf i n i s h e d f o rag e n e r a lr e v i e wo ft h i ss e e e g 7 1 5 ，1 9 t y p i c a l l y , m e t h o d s f o rr e m o v i n gw e i g h t s ( c o n n e c t i o n s ) f r o mt h en e t w o r ki n v o l v ea d d i n gap e n a l t yt e r mt o t h ee ir o rf m m t i o n ，u n n e c e s s a r yc o n n e c t i o n sw i l lh a v es m a l lw e i g h t s ，a n dt h e r e f o r et h e c o m p l e x i t yo ft h en e t w o r kc anb er e d u c e ds i g n i f i c a n t l yb yp l u n i n g e , g2 2 e v e ni n t h ec r i s e st h a tp r u n i n gd o e sn o tb ec a r r i e do u ta f t m t h et r a i n i n gp r o c e s s ，t h en e t w o r k cans t , i l ih a v en m c hr e d u c e dc o m p l e x i t yd u et os n m l ln m g n i t u d eo fw e i g h t s ，h e n c eg e n e r a i i z e sw e l l 1 8 ，2 6 】s oa d d i n gap e n m t yt e r mt ot h ee r r o rf u n c t i o no fb pn e t w o r ki s a ni m p o r t a n ta p p r o a c ht og a i nb e t t e rg e n e r a l i z a t i o n ai o to fw o r k sh a v eb e e nd o n eo nt h eu s i n go fd i f f e r e n tp e n a l t yt e r m ss u c ha s 1 0 1 2 ，1 3 ，2 2 2 6 m o s to ft h e m ( e g 1 0 ，1 2 ，2 2 ，2 6 ) h a v et h e i rr e s e a r c ho nt h e b a s i so fe x p e r i m e n t s a n dd on o tg i v eam a t h e m a t i c sp r o o ft h a tt h ew e i g h ti sd e f i n i t e l y b o u n d e dw h e r e a sj u nk o n g & w e iw u 1 3 p r o v i d es u c ha p r o o ff o rav e r ys p e c i a la n d s i m p l ec a s e ，w h e r et h et r a i n i n ge x a m p l e sa r el i n e a r l yi n d e p e n d e n t ( t h u st h en u m b e ro f t r a i n i n ge x a m p l e sc a r l _ n o tb el a r g e rt h a nt h ed i m e n s i o no ft h ee x a m p l ev e c t o r s ) a n dt h e n e t w o r kh a sn oh i d d e nl a y e r o u ra i mi nt h i sp a p e ri st or e m o v et h e s er e s t r i c t i o n sa n dt o c o n s i d e ram o r er e a l i s t i cc a s ew h e r et h en u m b e ro ft r a i n i n ge x a m p l e sc a nb ea r b i t r a r i l y l a r g ea n dt h e r ei sah i d d e nl a y e ri nt h en e u r a ln e t w o r kw e 咖t h em a t h e m a t i c sp r o o f s o ft h eb o u n d e d n e s so ft h ew e i g h t sa n dt h ec o n v e r g e n c eo ft h en e t w o r k k e y w o r d s ：b pn e u r a ln e t w o r k ，p e n a h yt e r m ，o n l i n eg r a d i e n tm e t h o d ，b o u n d - e d u e s s c o n v m g e n c e i i 第一章绪论 1 1 1 神经网络综述人工神经剐络是一门交叉学科，是生命科学和工程科学相互交叉、相互渗透、相互促进的结果。作为人类智能研究的重要组成部分，它已成为神经科学、脑科学、心理学、认如科学、计算机科学、数理科学共同关心的焦点。神经网络的研究已有5 0 多年的历史，可以大致分为四个阶段。一、奠基时期。作为神经网络或神经建模的基础，是由m c c u l l o d c h 和p i t t s l 9 4 3 年发表的论文奠定的。二、第一次高潮。从5 0 年代后期到六十年代中期是神经网络的第次研究高潮。这一时期神经网络得到很大发展，但也有一些问题。三、沉默期。随着m a r v i nm i n s k y 和s e y m o u r p a p e r t 出版的”感知器”一书，在数学上证明感知器既不能实现异或( x o r ) 逻辑函数问题，也不能实现许多其它的谓词函数。使神经网络的研究走入低谷，大多数学者转向人工智能、模式识别等领域。但也仍有一+ 些人作了许多扎实的基础工作，为神经网络的复兴开辟着道路。网、复兴期。8 0 年代以来又有大量的学者开始研究神经网络，其中j o h nh o p f i e l d 提出的联想记忆神经网络和他在世界各地的讲学成为掀起这次热潮的强大动力。另外许多学者各自研究出凋节多层感知器相继层间连接权的一种算法，即著名的反向传播( b p ) 算法。虽然不能说b p 解决了任意计算任务但他确实解决了许多单层感知器不能解决的问题，如x 0 r 问题，反向传播学习算法使多层感知器成了研究适应性神经网络有监督学习的有力工具。神经网络的研究目标一方而是要阐明大脑的工作原理，揭示思维的本质，探索智慧的本源。另一方面是要设计出于有大脑的某些神经计算性质的人工智能装置，即神经计算机。神经网络作为高度交叉的重要前沿学科，在走过了半个世纪的曲折发展道路后，逐渐形成了自己的学科组织结构，即包括神经科学、信息科学( 目前已涉及计算机视觉、语音理解与合成、摸式识别、知识工程、最优化问题求解、系统辨识与自适应控制等研究方向) 以及神经网络的数学、物理学理论研究三个主要方面。神经网络n j 分为有监督学习模型和无监督学习模型两种。有监督学习中的多层感知器应用非常广泛。反向传播算法是多层感知器的一种有效而广泛应用的学习算法。并且反向传播算法已任丈量确定性问题女n x o r 问题卜进行了实验，在大多数情况下都可以得到令人满意的结果一在诸如模式识别、系统辨识、图像处理、语言理解、函数拟合等一系列实际问题中得到7 ，极为广泛的应用。但是关于b p 算法的确定性收敛问题的证明却不多见。有一些文章使用概率的观点对b p 算法的收敛性作了一些讨论，得出了一些基于概率收敛的结果。吴微教授在b p 算法非线性模型的确定收敛性证明方面作了许多工作。他在3 之 2 7 1 中证明了单层感知器非线性模型在线梯度法在输入样本( 训练样本) 线性无关的条件下带惩罚项的b p 神经网络在线梯度法是确定收敛的。但因为在大多数情况下输入样本的数目会很大，而每个样本的维数一般不会太大，这就导致输入样本之间线性相关的情况在实际应用中占有较大比例，因此证明在输入样本线性相关时算法具有确定性收敛性质有着更人的理论和现实意义。据此吴老师推广了他的证明，文f 25 1 证明了在输入样本线性相关的条件下单层感知器在线梯度法具有确定收敛性。感知器在作分类问题时常常出现训练过程中当误差函数趋向于极小值时，训练算法产生的权值序列逐步增大以致无界的情况。这使得在用硬件设计神经网络时由于电子元件本身的物理属性的制约而难以实现或成本太高。同时由j ：权值过大也会导致网络的泛化能力。_ j 降，所以许多学者在针对限制连接权值的数量和大小方面作了很多工作( 见1 3 和第二章) ，本文也将致力于这个方面的工作，不同的是我们将把研究重点放在对限制权值的方法( 惩罚项方法) 进行严格的数学沦证上面( 第三章和第四章) 。 1 2 b p 神经网络 1 2 1 神经元简介图1 ，1 给出了一个简单的单层前传网络( 神经元) 的示意图。它也是许多更复杂的神经网络的基本构件之一。神经元对外界传入的个信号经过权值处理后，用线性求和器得到“综合印象”，再由活化函数讣) 对此综合印象做出非线性反应。这种反应机制是对真正生物神经反应机制的一种简单而又常常有效的模拟。将大量简单神经元按某种方式连接起来，并通过某种学习过程确定单元之问的连接强度( 权值) ，就得到各种人工神经网络，用来完成逼近、分类、控制和模拟等各种任务。输八知= 一1 剐1l ：神经元模型 f i g u r e1 1 ：m o d e lo fn e u r o n 设给定j 个输入样本模式 p ) 墨，其中p = ( 托一，岛) 7 r 。v ，以及模式的理想带惩捌项的b p 十自经删络在线梯度法输出f 0 fd 。cr 1 。另外，给定一个非线性函数9 ( z ) ：r 1 一r 1 。一个单层前传网络的任务是选择权向量w = ( 研，仉名) 7 1 矗“和闽值0 r 1 使得，。n 一、 0 j = ( kg ( w p 一目) = g ：职器一0 ，j = 1 ， ( 1 i ) 、n = l 7 其中p 为网络的实际输出。利用样本模式，通过某种学习算法选定之后，我们就可以向网络输入冗中其它模式向量，得到相应的输出，从而完成各种分类或逼近任务。上述函数口( z 1 称为活化函数，常见的有符号函数，径向基函数，随机值函数等等。网络的输出值p 及理想输出c f 可以只取有限个离散值( 例如双极值士1 或二进制o ，1 ) ，这时网络相当于一个分类器；也可以取连续值，这时网络相当于输入与输出0 之间函数关系的种数值逼近器。当存在w 和p 使( 1 1 ) 成立时，我们说该问题是可解的或样本模式f p 2 是可分的。否则称为不可解的，或不可分的。这时只能选取和目使得误差c 一p 尽司能地小。从下一节开始我们介绍最重要的多层前传神经网络一b p 网络。 1 2 2b p 网络基本算法 b p 网络是现在应用最为广泛的神经网络。它采用光滑活化函数，具有一个或多个隐层，相邻两层之间通过权值全连接。它是前传网络，即所处理的信息逐层向前流动。而当学习权值时却是根据理想输出与实际输出的误差，由前向后逐层修改权值( 误差的向后传播，a p b a & p r o p a g a t i o n ) 。以带一个隐层和。个输出单元的b p 网络为例，其拓扑结构如图1 2 所示：输出层隐层 p w 输入层圈1 2 ：b p 网络结构 f i g u r e12 ：a r c h i t e c t u r eo fb pn e u r a ln e t w o r k 选定一个非线性光滑活化函数g ：r 1 一r 1 并按稍后给出的规则确定了权矩阵l ，f = ( p i ，竹) 【s 。! 盯，1 1 p ! p 和出= 训m 1 p ! p i ! 。! 之后，对任一输入信息向量 = 带惩罚项的b p 神经网络在线梯度法 ( ，一，4 n ) r ，网络的实际输出为 ( 1 2 a ) 其中隐层输出为昂= g ( w p ) = 9 泛矗) p = ”，p ( 1 2 b ) 现在，假设给定一组样本输入向量 p 。j ；lcr n 及相应的理罄输出 ) 名1cr m ，并记( p ) 2 ，cr m 为相应的实际输出。定义误差函数；互1 蚤j ，一旷= 1 亡j = lm 芒= 3 s ( v v , w ) 1 1 1 0 c 1 叱一，( 妾1 唧9 ( 薹1 嘞积) ) j 2 ；互ll f 2 = 1r rl 叱一gf 唧9 ( 嘞积) ) ，= llp =n = ( 1 3 ) 权值矩阵和n ，的确定( 即学习过程) 应使误差函数e ( m 叫) 达到极小。为此，一个简单而又常用的方法是梯度下降法。取当前权值。的改变量为一町彘 = q ( o 采一岛) 9 ( 碾) 弓 = 1 = 目捌 ( 1 4 ) j = 1 其中 o 为学习速率， = ( 嘿。一繇) 9 7 ( 厶)( 1 5 ) 而 ( 1 6 ) 是隐层单元对输出层第m 个单元的线性输入。进一步，我们可以得到当前权值叫。的改变量为：唧瓦o e 唧砉嚣器 = 目( 一岛) 9 7 ( 破) g ( j i = 叩翥g ( 晖) 靠 m | | m 句，日 u 群 p 叫 = 碍带惩罚项的b p 神经网络在线梯度法 ( 1 7 ) 其中心= ( u p r ，岛 ”1 m ( 1 8 ) 晖= f l ( 崞) e 综合以上讨论我们看到，应用b p 网络时，所处理的信息是前向传播的( 见( 1 2 ) ) ，因此称为前传网络。而在网络学习阶段，是用误差的向后( 或称反肉) 传播来逐层修改权僵( 见( 1 4 ) s n ( i 7 ) ) ，因此称为反向传播( b a c kp r o p a g a t i o n ) 算法。 i 2 3 关- t - b p 网络的一些细节在线梯度法在迭代公式( 1 4 ) 和( 1 7 ) 中，我们必须将所有谢练样本( f 羔。全部输入到网络中，然后才能对当前的权值w 和训做- 4 , 步调整。实际应用中，样本数j 常常很大，上述做法看来不够经济。因此，广泛应用的是下述所谓在线梯度法：随机选取个样本，对当前权值w 和矿，定义权值增量为 w 篇。= 矸名召( 1 ，9 句略= 叩晖器 ( 1 9 b ) p = l ，一，p ：礼= l ，一，： = l ，- - 、m 现在，每输入一个训练样本向量掣，我们马上修改一次当前权值。关于在线梯度法收敛性的一些讨论可参见 25 】 27 。局部极小问题像所有利用导数的优化方法一样，梯度法很容易陷入误差函数的局部极小。在线梯度法可以看作是梯度法的一种随机扰动，有助于跳出局部极小，另外应该指出对许多实际问题，局部极小解是可以接受的。活化函数9 ( 。) 的选择夕( z ) 通常选为符号函数的光滑逼近。即s i g m o i d 型函数，例如： 1 9 ( 茹) 2 再高啬两 ( 11 0 ) 9 ( z ) = t a n h ( z z )( 1 1 1 ) 其中卢 o 是适当选定的常数。般地。满足如下性质的函数称为s i g m o i d 函数：光滑，单调递增，上、下有界( 称为饱和性) 。饱和值司以是o i ( 例如( 11 0 ) ) ，电可以是士1 ( 例如( 11 1 ) ) 。以上列举的两个函数还有一个特晟就是它们的导数值可以由其函数值给 5 岛耶，。吁 = 带惩罚项的b p 神经网络在线梯度法出，分别有 g ( z ) = 2 口( 1 一g ( 。) ) g ( z ) 9 7 ( z ) = 卢( 1 一9 2 ( 。) ) ( 1 1 2 ) ( 1 1 3 ) 这一性质有利于减小计算量。当然，也可以选择其他活化函数。例如，径向基函数，小波函数，样条函数等等。这些函数在某些逼近性质方面可能比s i g m o i d 型函数好，但是s i g m o i d 型函数的鲁棒性 ( r o b u s t n e s s ) 更好。另外，f 1 2 ) 中两层的活化函数可以选成不相同的。例如可以将( 1 2 a ) 中的9 ( z ) 选为线性函数。初始权值的选取初始权值w 0 ，w 0 通常选取为小的随机数，太大的初值可能使系统过早地陷入饱和区( 例如对于s i g n l o i d 函数g ( 。) ，- 当l x l 较大时，g ( z ) zo ) ，不利于进一步学习。其它误差函数二次型函数( 1 3 1 并非是误差函数的唯一选择。任何一个可微函数f ( o j ，f ) ，j = 掣处取最小，都可以代替| | 0 一引j ，并导出相应的权值更新规则。下面的所谓“熵测度”函数就是一个有自己特点的误差函数： e = 壹兰；c 十等案+ jc - 一嚷# 鲁 ca，j = l7 n = il 。 11 _ m 。i 1 、”o 这里我们设( 1 2 ) 中g ( x ) n n n 值为土1 。特别地，若取g ( 。) = t a n h ( p x ) ，则可推得，相应于( 15 ) 的公式现在成为 = 卢( 0 袭一( 刍) ( 1 ，1 5 ) 我们注意到( 1 5 ) 中的导数项g ，( 日毛) 消失了。这一性质克服了权值修改公式( 1 ，4 ) 的如下缺点：当实际输出铱极端错误( 例如繇一1 ，0 = 1 ) 时，f o ( 1 1 3 ) ，9 7 ( 如) 十分接近于零从而使本来应做较大改变的当前权值w 只得到极小的改变。还有一种折中的方式可以综合两个误差函数的优点，比如定义相应于( 1 5 ) 的公式为毛= ( 9 7 ( 日未) + 0 1 ) ( o 一繇) ( 1 1 6 ) 学习速率卵的选择在梯度下降法中，学习速率( 或步长) 町如果太小，则收敛速度很慢；如果太大，又 - wz 一, 。t 引- 起迭代解的剧烈振荡。柏g 选择并非易事。下面的所谓的自适应规则是常用的。在每步( 或若干步) 权值迭代更新后，给当前的q 值一个改变量町：岍一荔：啦a e 0 ，袈等是正的或负的( 表示误差函数随权值分量的增大而增大或减小) ，则相应地叫。( t ) 减小或增加。d l 时( 1 1 9 ) 容易发散。：髫0 ，i = 2 ，( 1 2 1 ) j = l 在h a y k i n 1 1 书4 6 中，从概率统计学的角度讨论了这样做的理由。我们在下面给出一个粗浅的几何解释( 图1 5 ) 。考虑n = 1 的分类问题。设目) 的取值范围为f - g 1 2 ，而f = f 2 1 1 是定常数。阀值鹃= 一1 。用平面几何知识可以证明，当f 1 = 一1 2 ，2 2 = 8 带惩罚项的b p 神经| ) 6 | 络在线梯度法专 j 蕊 1 l i l 十 5 吖【一图15 ：输入样本向量e 1 的取值范围 f i g u r e1 5 ：s c o p eo fi n p u tv e c t o r l 勖 0 1 2 时，下图中的角度q 取最大值。( 注意当f 1 一士。o 时，显然有。一0 。) 这时，分类边界任f w ，f = o 的可能变化角度( = 口) 也取最大值，意味着仰7 有曼大的选择余地。还可以用主分量分析方法减小输入向量的维数( 参见4 1 第九章) 。理想输出考虑分类问题。这时，理想输出定义为1 和一1 是方便的。但是要注意，如果我们利用s i g m o i d 函数作为活化函数g ( x ) ，则有可能在训练过程中使权值趋于无穷大，因为l i r a 口( z ) = = e l 。为此可以选取正数e 0 ，将理想输出定义为1 一s 和- 1 + 。 1 2 ，4b p 网络8 应用寻写z i p 码识蚋人们已将b p 网络成功地应用于手写数字邮政编码( z i p ) 的识别。利用从邮件中记录下来的约一万个手写数字进行训练和实验。输入为1 6 1 6 象索阵列，通过三个隐层前传至t j l o 个输出单元，每个输出单元对应o 9 数字之一。前两个隐层称为特征检测器。第一个隐层有1 2 组单元，每一组有6 4 个单元。每组中的任一单元与输入阵列的某一个5 5 方形相连。属于同一组的6 4 个单元具有相同的权值，因此它们检测输入区域中不同位置上的某相同特征。采用这种权共享方式以及局部的5 x 5 接收区，使得待定权值数目减小为2 5 1 2 个，再加上阈值6 4 x 1 2 个，共有待定参数1 0 6 8 个。第二隐层是类似的特征检测器，由1 2 组、每组1 6 个单元组成。同样采用5 x 5 接受区和同缀单元权共事的方式。对于第二隐层中的每一组的单元，其输入取自第隐层中1 2 个组中8 个组的不同组合，从而第二层每组育2 5 8 个共享的权以及1 6 个阈值。第三隐层由3 0 个与莳层单元完全连接的单元组成有1 9 2 3 0 个权值和3 0 个闽值。最后的 9 带惩诮项的b p 神经咧络在线梯度法 1 0 个输出单元 3 0 个隐单元 1 2 个特征探测器 ( 4 x 4 ) 1 2 个特征探测器 ( 8 x 8 ) 1 6 x 1 6 个输入单元图l6 ：z i p 码训别删络 f i g u r e1 6 ：r e c o g n i z ez i pc o d e 十个输出单元与第三隐层也是全连接有3 0 x1 0 个权值和1 0 个阈值。整个网络共有1 2 5 6 个单元，9 7 6 0 个待定参数。对该网络用反向传播算法来训练，并用伪牛顿法来加速。利用7 3 6 0 个手写数字训练，并用另夕b 2 0 0 0 个数字测试。训练集上误差率约为1 ，测试集上误差率约为5 。图象压缩 r u m e l h a r t 等研究了用b p 网络作图像压缩的问题，或称编码问题。这时，输入层和输出层都a nxn 单元构成，相应于咒xn 个象素点。每个单元取值为士1 ( 或0 ，1 ) 之间，表示不同的象素灰度。中间隐层单元个数为m 。m n 2 即为网络对图像的压缩比。在训练学习阶段中，选取待传输图像的若干7 7 , n 小块，既作为网络输入，也作为理想输出。训练完成后在发射端将需传输的图像分成若干n n 4 , 块，分别由中间隐层处理( 见( 1 2 b ) ) 后将隐单元输出信号传输到接收端，然后在由输出层单元处理( 见( 1 2 a ) ) 后得到接收端的图像。参看图1 7 。股票预测利用b p 网络可以用来预测股市指数涨跌，例如w 西w ue ta 1 f 2 3 ；2 4 。输入层有1 6 个单元，包括今日最高、最低及收盘指数，当日及三十日平均成交量等1 6 个参数。隐层为6 8 个单元，输出层为一个单元。输出+ 1 时表示预测第二天涨，输出一1 时则表示第二天跌。活化函数选为( 1 1 1 ) ( 其中口= o 6 5 ) ，并采用了惯性项( 见( 1 1 8 ) ) 。训练时，采 1 0 带惩制项的b p 神经刚络存线梯度法 y 乞，图1 ，7 ：用b p 网络做髑像压缩 f i g u r e17 ：c o m p r e i m a g ew i t hb pn e t w o r k 用1 0 0 天数据中的8 0 天的数据作为训练样本，而另夕卜2 0 天作为检测样本。训练样本精度达到为9 5 左有，而检验样本精度在6 5 8 0 之间。 1 3 带惩罚项的b p 神经网络在i 23 ( 关于b p 网络的一些细节) 的讨论中曾提到个主题：如何确定最佳的隐单元个数，与此相关但更加一般化的问题是如何确定一个神经网络的拓扑结构。所求的神经网络应该在已知的样本上表现出尽可能高的精度，同时还要在未知的样本上表现出尽可能好的推广能力。事实上，这是一对矛盾，就像我们在1 23 所举的多项式过适应的例子一样( 参见图1 3 和图1 4 ) ，在己知样本上的表现越好就意味着网络结构越复杂，那么这个网络在未知样本上的表现就可能越糟。求得一个具有恰当复杂性的网络成为一项艰难的任务。解决这个难题的策略大体上分成两类。一类是由小到大的构建网络，即仅在当前网络不能在训练样本上取得所需精度时才增加网络中隐层或隐层单元的个数，在达到要求后即停止：另一类是由大到小的创建网络，即首先构建一个足够大的网络，然后逐步减少隐单元或单元问的连接来降低网络的体积，直到再减少单元数网络就不能正常工作为止。有许多文献探讨了这两类算法( 参见f 7 ，1 0 ，1 2 ，1 3 ，1 5 ，1 9 ，2 2 ，26 ) 。由于从大n 4 , 的方式通常具有更大的网络体积，般也就有更好的泛化能力。我们主要讨论在这个方向上作出的工作。标准的b p 算法是通过最小化误差( 期望输出和实际输出的差) 函数来训练网络，使其适应给定的样本的。而从大到小的求得最佳的网络结构的实现方式之一是在网络训练完成之后，对网络中的单元和连接( 权值) 的重要性作判定，把那些在某种标准下重要性低的单元和权值删除，然后重新训练网络，周而复始。这种方法训算量比较大，又引入了需要确定重要性标准的难题。另一种实现方式足在原有的误差函数巾加入一个复杂度项，这个复杂度项主要衡量网络结构的复杂程度( 体现了泛化能力的优劣) ，这样也就在训练网络适应己知样本的同时保证其结构不会太复杂，计算量比较小，也更稳定。由于误差函数中多了复杂度项，训练过程中权值在更新时既要考虑提高精度又要顾及到不能变得过于复杂，所以训练过程也就变成了带惩罚项的b p 神经网络在线梯度法求精度和复杂度的一个较好平衡的过程。因为复杂度项在权值更新过程中主要起到抑制某些权值增长的作用，所以复杂度项通常也被称为惩罚项。惩罚项有许多不同的形式，不同的惩罚项在对复杂度的控制上有不同的侧重点，起到的效果也各不相同，我们将在第二章专门介绍几种基本的惩罚项。 1 4 本文的主要工作本文解决的主要问题是：在数学上证明了在带有一个隐层的b p 神经网络中应用我们给定的惩罚项时，网络的所有权值都是有界的，从而在理论上保证了网络的复杂度不会无限增长。同时我们还证明了在应用惩罚项后网络仍然是确定性弱收敛的f 误差函数关于权值向量的导数的模收敛到零) 。具体的惩罚项介绍及证明过程参见2 5 ，第3 章和第4 章。本文的主体第3 章、第4 章和第2 章的一部分已写成学术论文投到n e u r o c o m p u t i n g 。在单层网络，样本线性相关条件下得到的类似结果已被非线性动力学接收，将发表在该刊2 0 0 4 年第一期上。 1 2 第二章惩罚项简介 2 1w e i g h t d e c a y 简介 d ，c p l a u te ta 1 f 1 8 1 在反向传播算法的试验中提出一种称为w e i g h td e c a y 的方法。即在每次更新权值h , 寸- d n 入衰减项h 萁中h 是很小的正数，在该文中h = 0 0 0 1 。这样权值更新规则由原来的山= 筹变为叫一e 帆，此一危伽项的作用是使权值有一个不断向0 靠近的趋势，通常豢会使权值向绝对值大的方向增长，所以那些对网络不那么重要的权值，即梯度筹值较小的权值会变得越来越小，最后就只剩下网络收敛必须的权值。当网络收敛到某个平衡点附近时，权值的绝对值通常与慧成正比，这可以间接的体现出该权值( 连接) 在网络中起作用的大小也可以使网络更容易被人理解。实现这种算法的一个简单方式是在误差函数中加入；h 叫2 ，网络的学习过程可以看作是最小化误差过程和最小化权值的平方和( 网络的复杂度) 过程之间的一个平衡。写成公式的形式为： ( 2 1 ) 其中j 是训练样本的总数，e ，是实际输出和期望输出之间的误差( 即通常的误差项) ，e 是所有权值的集合，的意义与上文中叙述相同。这种类型的惩罚项具有形式简单，计算快捷等特点，同时还表现出较好的性能( 参见f 9 ，1 0 1 ) 。此种惩罚项的一个潜在的不足是它对一组都较小的权值更加有利，而对一组权中有一个稍大而其余比较小的权值组合不利，尽管有时后者有更好的性能。例女f l ( 1 6 1 ) ，一个单元接受两个单元的输入，而这两个输入单元有很强的联系，那么当从这两个单元传来的输入是 t o 和0 或w 2 和叫2 时，其表现也会相似。但惩罚项会对后者更加有利，因为 ( 詈) 2 + ( 詈) 2 叫2 + 0 2 为此，s j n o w l a ae ta 1 f 1 6 1 提出了一个更加复杂的惩罚项，使算法对较小的权值继续有效的同时不影响较大的权值，并得出了较好的实验结果。 2 2 1概述 2 2w e i g h t e l i m i n a t i o n 简介为提高神经网络的泛化能力，减小网络的复杂度。简单来说也就是减少网络中的连接数目，a n d r e z u ss w e i g e n de ta 1 2 6 提出。w e i g h t e l i m i n a t i o n 算法。这个算法基于个简单的在误差函数中加入个计算参数数目的项，然后用反向传播算法对新的锄弓，一带惩罚项的b p 神经刚络存线梯度法由误差项与权连接数目项的和组成的成本函数进行最小化。 e ；+ a 煮锸 (2z)j = li 6 c 4“ 式中第一项是网络的误差，可以衡量网络的精确度。第二项刻画了网络的大小，即复杂度项。a 表示精确度项和复杂度项之间的相对重要性关系。在该文中给出了动态调整此参数的方法，将在后面叙述。式中的参数咖是一个可以调节常量，下面我们先重点研究一下与蛐相关的问题。 2 2 2参数w o 的选取图2 1 ( b ) 显示出复杂度项作为毗蛳的函数的图像。两边的渐近区域对应于极大和极小的权，这些权的意义可以作如下理解。当l 毗j 叫。时，则复杂度项中对应于此权值的部分趋近于单位1 ( 乘a ) 。基于此，我们可以说复杂度项起到一种记录巨大权值数目的作用。当l 伽“叫。时，该部分趋近于零。在这里起到了很重要的作用，权值的大小都是相对于w o 来说的，下面举例说明一下w o 的作用。 q4嚎，t毒tl毒圈2 1 ( a ) 权值的先验概率分布( b ) 相应的能量值( c ) 在卅i 唰的s 叫。条件下的能量值t 其中s 叫。是n = ，肛的函数，s = w l + u 2 。 f i g u r e21 ：( a ) p r i o rp r o b a b i l i t yd i s t r i b u t i o nf o raw e i g h t ，( b ) c o r r e s p o n d i n gc o s t ( c ) c o s tf o rd i f f e r e n t v a l u e so f 酬w oa s f u n c t i o no f a = 1 s ，w h e r es = w l + w 2 考虑一个神经元以冗余的方式和两个权值( 甜1 ，w 2 ) 相连，两个权值连接到同一个输入。这两个权值的总和固定不变。考虑问题：两个相近的较小权值与只有一个较大的权值两种结构哪个具有更低的复杂性? 我们从图2 1 ( c ) 中可以得到一个有趣的答案，即带惩罚项的b p 神经刚络在线梯度法这依赖s 叫。的值。其中s = w l + w 2 是神经元的相对输入。从图中可以看出当s 叫。较小，即叫。相对1 ，叫2 较大时，c o s t a 具有一个最小值在血：= 叫1 s = 0 5 ，即两个权值都应该存在，并且相等，网络的复杂性将会更低。但随着s 伽。的增大，这种平衡也不复存在，图像从中间向上凸起，c o s t a 的最小值点逐渐向两边靠拢，即当趋近于0 或1 时，网络的复杂性更低，这意味着令某个权值近似等于s 而去除另外的那个权值。实际上，此时的姚具有相对较小的值。根据以上的分析不难看出2 1 中讲述过的w e i g h t d e c a y 算法是本算法在w o 具有较大值时的特例。在w e i g h t - d e c a y 无法自由调节是否对较大权值进行衰减的问题可以在本算法中容易的解决，我们可以选择希望得到较大的权值( 叫。较小) 或组小权值( w o 较大1 。另外我们也可以分析复杂度项的导数，从图2 2 中不难得出上述结论。 f ( w j w 0 = 0 1 图2 ，2 ：复杂度项的导数在小吲叫。值下的图像 f i g u r e22 ：p l o to ft h ed e r i v a t i v eo fc o m p l e x i t ya c c o r d i n gt od i f f e r e n t o 2 2 3 参数a 的选取参数a 的大小决定了复杂度项在整个误差函数中的比重，也体现了人们对精简网络复杂性的看重程度。所以a 越大，训练过程就会越注重减少复杂性，a 越小训练过程就会越注重提高网络的精确度。但如果a 太小，就不能起到减低复杂性的作用，a 太大就会使所有的权值都衰减到0 。另外，由于问题的多样性，同一问题在解决过程中不同阶段义有不同特点，都使得a 的选取比较困难。例如，对一个简单阀题来说比较合适的a ，对 1 5 带惩罚项的b p 神经列络存线梯度法一个复杂问题( 较难训练) 来说就会显得太大；在l i 练过程中开始阶段需要较小的入以利于网络尽快地找到大的方向，在后期就需要较大的a 来降低复杂性。所以动态的选择a 就可以避免人工选取引起的网络性能对参数选取过于敏感的问题，具有较大意义。首先令a = 0 ，这使网络可以利用所有的资源。在每个训练周期改变a 的值，改变时有三神方式，即小幅增加、小幅减小、大蝠减小。其中小幅增加的方式最常用，小幅减小较少使用，大幅减小的方式很少使用。选择这三种方式的依据是网络的误差项( 公式( 2 2 ) 中第一项) ，a 表示训练周期数目。把而与三个量( 两个来自误差项自身，一个由外部给出) 作比较即可确定a 的动作方式。它们是： = 。一。前一个周期的误差。。平均误差。其中a 。= ，y 厶一1 + ( 1 7 ) 岛( - y 趋近于1 ) 。 d期望的最小误差，外部给出的精确度标准。其中d 的选取标准视具体的问题而有所不同。例如，如果存在一个可以接受的最小误差标准，高于这个误差的网络精度不能接受，则可以设d 为这个最小误差。存训练过程中观察网络对非训练集样本的表现，如果达到某个误差时过适应开始出现( 郎如果继续训练下去非训练集的精度将会开始下降) ，那么可以设这个误差值为d 。另外，如果对训练样本的噪声数据的含量有比较合理的估计也可以估测出合理的最小误差。对于一些基本的简单问题，因为对样本数据可以精确的适应，所以d 可以设为0 。对诸如汇率预测等较难问题，d 不应比概率精度更小。每个训练周期后，把岛和这三个量进行比较，来确定对a 的修改方式： a a + a 。 d 司。 n 一1 j 小幅增加a ，这些情况表示网络正在不断提高精度，误差已经降到标准以下 d 或正在下降矗。，增加a 意味着增加复杂度项的比重。这里a 是实际增加的量，它应该非常小，一般在l o “左右。剩下的两种情况，误差有所增加e 。2 1 ， i 删络的精度存变差，应该减小a ，减小的程度视长期量a 。而定。 a a a a 岛。一1 且e 。 0 ，使得对所有w ，如果i 训( w l ，wl r ) ，则有e l 一口，( ) e l + v 。在这个权值区间内，惩罚项对权值的作用差别很小，并且作用力也不大。例如，当u = 1 0 2 时，量值在( 毗，w u ) = ( 09 5 3 1 6 4 ) 之间的权值的惩罚项均在e 1 的1 0 以内。通过减小f 2 的值，可以把这个区问拓的更宽。而当权值超过t u u 时，e ：甜2 开始起主导作用，权值受到的惩罚力 + 嘞昭 b 。刚。d 带惩罚项的b p 神经刚络在线梯度法 f ( w )【a ) f ( w ) 图2 3 ：函数，( ) = e l f l w 2 ( 1 + 卢t j 2 ) + e 2 ”2 及其导数的图像(

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算数学专业论文）带惩罚项的bp神经网络在线梯度法.pdf

文档简介

温馨提示

最新文档

评论

（计算数学专业论文）带惩罚项的bp神经网络在线梯度法.pdf

文档简介

温馨提示

最新文档

评论

相关文档