已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本文首先阐述了前向神经网络的结构以及经典的反向传播学习算法,尤其是 对r b f 网络的各种学习算法进行了比较系统的分析研究,然后又介绍了进化计 算的思想和算法框架,并把这种算法思想引入到b p 网络学习思想中去对b p 算 法进行了改进。 由于前馈神经网络结构和学习算法的多样性以及对原有训练样本的必然依 赖性的缺点,一直没有一种通用的增长学习算法。本文利用前馈网络的结构与权 值信息重新生成样本来代表学习过的旧样本,提出了一种新的通用增长学习算 法。同时为了解决新旧知识可能发生的冲突问题,对重新生成的代表样本进行了 评估。 接着利用r b f 网络结构特点与模式识别思想的一致性提出了一种改进的r b f 网络,并系统的介绍了新网络的结构和相应的学习算法,并对有关算法和结果 进行了理论分析和证明。 最后本文对提出的学习算法和新的网络结构进行了仿真验证,取得了良好的 效果。 关键词:学习算法增长学习神经网络r b f 网络进化策略 垒! ! ! 型 a b s t r a c t f i r s t t h ep a p e ri n g o d u e e st h es t u r e t u r eo ff e e d f o r w a l dn e u r a ln e t w o r ka n d c l a s s i c a lb a c k p r o p a g a t i o n ( b p ) l e a r n i n ga l g o r i t h m ,t h e ns y s t e m a t i ca n a l y s i sa n d r e s e r c ha r em a d et ot h ev a r i o u sl e a r n i n gm e t h o d so fr b f n n ( r a d i c a lb a s i sf u n c t i o n n e u r a ln e t w o r k ) n ei d e aa n da l g o n t h r nf r a m eo fe v o l u t i o ns t r a t e g ya r ep r e s e n t e d a n di n t r o d u c e dt ot h e l e a r n i n ga l g o r i t h mo fb pn e u r a ln e t w o r kt oi m p r o v et h e p e r f o r m a n c eo f i t t h e r ei sn ou n i v e r s a ii n c r e m e n t a ll e a r n i n ga l g o r i t h mf o ra l lf e e d f o w a r dn e u r a l n e t w o r k sb e c a u s eo fn o to n l yt h e i rv a r i f i e so n 1 es t u e t u r ea n dl e a r n i n ga l g o r i t h m s b u ta l s ot h e i r d e p e n d e n c e o nf o r m e r l e a r n i n g i n s t a n c e s au n i v e r s a l i n c r e m e n t a l l e a r n i n gm e t h o d i sp r e s e n t e dw i t hr e g e n e r a t i n gi n s t a n c e st or e p r e s e n ta l l 也ep r e v i o u si n f o r m a t i o ns t o r e di nt h en e tb y u s i n gt h ei n f o r m a t i o no n t h es t r u c t u r e a n dw e i g h t s t os o l v et h ep r o b l e mo fc o n f l i c t sb e t w e e no l dm e m o r ya n dn e w i n s t a n c e s ,t h er e g e n e r a t e di n s t a n c e sa l ee v a l u a t e db e f o r ei n c r e m e n tl e a r n i n g m a k i n gu s eo fc o n f o r m i t yb e t w e e nt h es t r u c t u r eo fi 也附a n dt h ei d e ao f p a t t e r nr e c o g n i t i o n an e w k i n do f i 啦fn e t w o r ki sa l s o p r e s e n t e dw i t hi n t r o d u i n gt h e s t r u c r t r ea n dt h er e l e v a n tl e a r n i n ga l g o r i t h mo fi t s y s t e m a t i c a l l y t h et h e o r e t i c a l a n a l y s i sa n dp r o v eo f r e l e v a n ta l g o r i t h m sa n d c o n c l u s i o n si sa l s op r o v i d e d i nt h ee n d t h es i m u l a t i o nd e m o n s t r a t e st h e g o o d r e s u l to ft h e l e a r n i n g a l g o r i t h m a n dt h en e wn e t w o r ks t r u c t u r e k e y w o r d :l e a r n i n ga l g o r i t h m r b fn e u r a in e t w o r k i n c r e m e n t a ll e a r n i n gn e u r a ln e t w o r k e v o l u t i o ns t r a t e g y 引言 神经网络是人们在模仿人脑处理问题的过程中发展起来的一种新型智能信 息处理理论,它通过大量的称为神经元的简单处理单元构成非线性动力系统, 对人脑的形象思维、联想记忆等进行模拟和抽象,实现与人脑相似的学习、识 别、记忆等信息处理能力,神经网络在经历了6 0 多年的曲折发展之后,在信息 科学领域等许多应用方面显示了巨大的潜力和广泛的应用前景 5 4 5 5 5 6 5 7 。 神经网络可以被看作借鉴人脑思想而设计的一种数学算法,讨论怎样用这 些算法解决许许多多特定的问题,这是本文的核心指导思想。 目前对神经网络特点的形成应归功于两个开拓者:r a m o n yc a 3 a l 5 8 】和 s h e r r i n g t o n 5 9 1 。他们提出了大脑是由不同的单元( 神经元) 组成的思想。即使 神经元的计算速度比硅逻辑门慢的多,但由于大脑具有大约1 0 3 个神经单元而且 据估计大约1 0 6 个连接突触,所以大脑仍具有极高的效率。而神经网络分层 的思想源于c h u r c h l a n d 和s e j i n o w s k i 等的研究 6 0 】 6 1 ,他们对大脑局部区域刨 析的广泛研究揭示出大脑的不同层具有不同的功能。 我们今天所知的神经网络开始于m c c u l l o c h 和p i t t s 6 2 1 的开创性工作, m c c u l l o c h 他们关于全或无神经元的典型研究奠定了神经网络逻辑计算的基础。 在1 9 4 8 年,w i e n e r 6 3 首先讨论了计算机模拟大脑学习系统中统计机制的重要 性,但真正的统计机制和神经网络之间的联系是h o p f i e l d 7 9 建立的。当心理学 家h e b b 6 4 提出了一种现在称之为h e b b i a n 学习规则的发案时,这种计算机模 拟大脑学习的理论得到迸一步的发展。h e b b i a n 学习规则对后来的学习计算模型 和适应系统领域的研究产生了深远的影响。 在2 0 世纪5 0 年代,心理学家f r a n kp o s e n b l a l t t 6 5 通过试验提出了一种类似 神经元称作感知机的单元,他摆脱了传统的符号逻辑的束缚,使用概率论去分析 这些模型,接着r o s e n b l a l t t 6 6 给出了感知机收敛算法,该算法的收敛性证明指 出:如果用于训练的感知机参数取自两个线性可分的类型,则可以用一超平面 对其进行划分。另外,在这时期( 2 0 世纪6 0 年代初期) ,w i d r o m 和h o f f 6 7 1 提出了一种学习算法( w i d r o m - - h o f f 学习规则) 使网络的输出方差和最小。 事情并非一帆风顺,1 9 6 9 年,m i n s k e y 和p a p p e r t 6 8 用巧妙的数学方法证明 了单层感知机计算的局限性,从而形成了一股抛弃神经网络理论而转向人工智 能领域的浪潮。 在7 0 年代期间,些研究人员并没有放弃对神经网络的研究,并且做了许 引言 多先期工作,这期间研制出了几种神经网络模型 6 9 7 3 ,其中包括有名的a r t 共振模型 7 3 】,这些工作使人们对大脑完成各种功能的机制和原理有更深刻的理 解。 2 0 世纪8 0 年代是神经网络的复兴时期。这个时期发表了许多卓越的成果, 有效的显示了人工神经网络的潜力。其间h o p p f i e l d 提出的全连接神经网络 7 4 7 5 成功的给出了货郎担问题的漂亮解,重新激发了人们对神经网络的研究 兴趣,并对之进行重新认识。不同与以前的神经网络,h o p p f i e l d 网络是一种动 态反馈系统,比前馈网络具有更强的计算能力。 1 9 8 6 年,r u m e h a r t 和m e c l e l a n d 7 6 编辑的两卷关于并行处理著作的出版, 人工神经网络获得了又一次新生。该书对m i n s k y 和p a p p e r t 过低的估计多层感 知机的潜力提出了批评,成功的消除了神经网络训练问题的障碍,在6 0 年代, 这一障碍曾使神经网络的研究几乎停止。 也是在这个时期才给出神经网络比较完整的定义 7 7 7 8 1 。 在神经网络模型中,理论最充分和最常用的r u m e l h a r t 的b p 网络及其反向 传播学习算法 1 4 】就是在这期间提出的。 9 0 年代至今是神经网络大发展时期,神经计算成了一个交叉性很强的学科, 各个学科的思想被引进到神经网络的研究中去,如模糊数学 8 0 、进化思想 8 1 】、 专家系统 8 2 等。作者相信尤其是随着思维科学和数学的发展,神经计算一定会 取得突破性进展。 神经网络类型很多,本文主要讨论了前馈神经网络的学习算法和相关思想, 并对传统网络结构和学习算法进行了改进,提出了新的学习算法和网络结构, 并对有关算法进行了来理论分析和证明,最后通过仿真进行了验证。 本文的具体内容这这样组织的。前三章介绍了用到的基础理论知识并对有 关内容进行了归纳和总结。 前馈神经网络( 第一章) ,r b f 网络( 第二章) ,进化计算( 第三章) ,第四 章是本文提出的增长学习算法和对b p 学习算法的改进;第五章是改进的r b f 网络结构和相应的学习算法;第六章对全文进行了总结和展望。 苎二兰互些堑堂翌箜萱塑婴塑 第一章有监督学习的前馈网络 1 1 前馈多层感知器结构 感知器( p e r c e p t i o n ) 是f r o s e n b l a t t 在2 0 世纪5 0 年代末提出的模拟生物识 别对象的一种神经网络,它是一个两层网络( 不包括输入层) ,输入到中间层 的权固定,只有中间层到输出层的权值是可调的,因此中间层不能看作是隐层。 通常说感知器是单层网络,不能解决非线性问题,这种提法是不确切的 5 】。 解决非线性问题的方法是使输入到中间层的权也是可调的,这就有了两层计算 单元,从学习角度看,中间层成为隐层,从而成为多层前馈网络( m l p ) 。 由反向传播算法 1 瑚i 练的多层感知器,是神经网络中最普遍、最通用的形 式。已经证明:由一个单豫层和非线性兴奋函数组成的多层感知器网络,是通 用的函数逼近器【2 。也就是说,这样的网络能逼近任意复杂的决策边界。但这 并不意味着我们能得到零误差【3 。它说明有一个隐层已足够,但并不说明一个 隐层是最好的。文献 4 】证明,逼近相同输入维数的函数,两个隐层的网络可能 比单个隐层的网络所需的隐单元数要少的多。此结果也可扩展到模式分类映射 5 】。图1 1 给出一含单个隐层的前馈网络。 图1 1 前馈网络拓朴结构 将输入矢量输入至输入层,并传至后面的隐含层,最后通过连接权输出到 输出层。该网络中的每个神经元通过求输出权值和非线性兴奋函数传递结果来 工作,其数学描述如下: o u t 。= f ( n e t ) = 厂( o u t ,+ 舅) ( 1 - 1 ) j 第一章有监督学习的前馈网络 这里o u t 。是所考虑层中第i 个神经元的输出;o u t 。是前一层第j 个神经元的 输出。对非线性兴奋函数f 的使用有几种常用形式,其中经常采用的是s i g m o i d 函数: f ( n e t ,) 2 彳+ e 喇,凸 ( 1 - 2 ) 式( 卜2 ) 中q 0 代表神经元温度,温度越高,s i g m o i d 函数变化越平缓。在 非常低的温度下,它接近于阶跃函数。图1 2 给出了s i g m o i d 函数温度变化曲线。 图1 2s i g m o i d 函数温度变化曲线 注意在x = o 附近,几乎是一个线性区,而该区域宽度取决于温度。 把输入空间映射到输出空间所需知识由权值来体现。寻找有用权值集合的 过程称为训练。训练首先是提供训练集合,它由输出样本和与之对应的输出样 本组成。训练集合的每一矢量是否有特定的期望的输出,就是由监督和无监督 学习间的差别。 网络训练过程,包括从训练集合到训练集合的映射。至少在给定误差内, 该组权值可对训练集矢量正确映射。实际上,网络所学正是训练集合所教。并 且训练算法有效,那么,网络应能正确对不属于训练集合的输入量正确分类。 这个现象有时称称作推广。 这样,我们看到神经网络应用包括两个截然不同的阶段。在网络训练阶段, 根据网络输出误差调整网络权值以表现问题域。第二阶段或称为工作阶段,权 值固定不变,并且当把试验数据或实际数据输入到网络时,网络能够对其映射 或分类。 第一章有监督学习的前馈网络 1 2 利用b p 算法进行网络训练 在开始讨论网络训练之前,首先必须度量网络收敛到其期望值的程度。这 个度量即为网络误差。我们讨论的有监督训练,对于给定训练集合来说,这个 期望值是已知的。以后将看到,恰当的选择训练集合是成功的网络应用的关键 因素。这个训练集合必须大小适当,并且能合理的描述问题空间。现在假设这 样的训练集合存在,因此我们就可以讨论怎样用它来训练一个网络。 首先定义网络误差,对于反向传播训练算法 1 】,通常使用的网络误差是熟 知的均方差。但事实上并不是必须使用均方差,可使用任何连续可微误差函数。 但是选择其它误差函数增加了额外的复杂性,因而需十分小心处理。但要记住, 无论选用那种函数为误差函数,必须在网络输出期望值与实际之间提供一个有 意义的度量量一距离。均方差定义如下: e p = ( f 川一o p 。) 2 ( 1 3 ) e 。是p 个表征矢量的误差,t 。,是第i 个输出神经元的期望值( 即训练集值) , o 。,是第j 个输出神经元的实际值。 式中每一项都反映单个输出神经元对整个误差的影响。取绝对误差( 期望 值与实际值之差) 的平方,可以看出远离期望值的那些输出对总误差影响最大。 增加幂指数影响更明显。 反向传播训练算法是熟知的梯度训练算法中最简单的一种,它的中心思想是 调整权值时使网络总误差最小。梯度下降法,也称作最速下降法,便提供了这 样一种算法。所有权值都是n 维误差空间中的一个元素,在误差空间中权值作 为独立的变量,并且它的相应误差表面形状由训练集合和误差函数共同决定。 权值的误差函数负梯度指向误差函数减小最快的方向。如果在权值空间沿 这个矢量移动,最终将达到极小值,在这点梯度为零。但这点可能是局部极小 值。 上述结果可用数学方法描述如下: 一鲁 ( 1 - 4 ) 其中,矿。表示连接l 一1 层的源神经元i 和l 层的目的神经元j 权值的变化。 权值的这个变化导致了权值空间中,梯度沿降低误差方向变化。 目标就是确定如何调整每个权值使网络收敛。式( 卜4 ) 说明每个权值w 将 苎二兰堂壁型型型l 一 沿着局部误差表面最速下降的负梯度方向变化一步的关系式。 、, 现在的任务是将式( 1 4 ) 转换成适合于计算机实现的微分方程。为此,首 先必须计算偏微分a e ,l a w f ,应用公式: 吲吩老鲁 m 5 ) 然后n e t 。由下式给出: 疗e t 。= w ( 1 - 6 ) 式( 卜6 ) 中,对l - 1 层的所有神经元输出0 求和。因此,我们可以计算 式( 卜5 ) 中的第二项c 3 n e t 却f ,即: 瓦c 8 n e t e j = 击莩峋 ( 1 - 7 ) 展开式( 1 7 ) 得: ,、 篑= 毒融+ w 州- o m 砷 将式( 1 - 8 ) 代入式( 1 5 ) 得: 堡:0 旦( 1 - 9 ) 枞j co n e t 定义误差信号6 。为: 万:一旦 ( 1 1 0 ) ” o n e t e f 合并式( 1 - 9 ) 和式( 卜1 0 ) 得出: 一挈:6 “o p ( 1 - 1 1 ) 将式( 1 1 1 ) 代入式( 卜4 ) 并且乘上一个比例常数7 7 ,重写式( 1 - 4 ) 如下: pw , = r , 5 ( 1 1 2 ) 常数r l 是学习速率,它控卷4 在权值空间中权值对应每步沿负梯度方向变化的 大小。 为了得到可用的微分方程,暂不考虑j 。的变化,运用微分公式: 占:一旦:一堡盟 ( 1 1 3 ) 。” o r i e l o n e t w 已知,输出0 n e t 的函数,其表示如下: 塑= 主童些量兰翌堕萱堕旦塑一 0 月= f ( n e t ) ( 1 _ 1 4 ) 瓦8 0 z = ,懈。) ( 1 1 5 ) 其中f ( ) 输出函数。 为了计算方便越。8 0 p j ( 式( 1 - 1 3 ) ) 中第一项,必须分别考虑下面两种情况: 1 目的神经元j 是一输出神经元。 2 目的神经元j 是一隐含层神经元。 对于输出层中的目的神经元j ,我们直接得到以0 。为自变量的误差函 数e 。,因此可以得出: 番瓦8 。i :1 y - - ( t 所) 2 卜训 m 1 6 ) 注意到,由式( 1 - 1 6 ) 对于特定的误差函数,我们研究了相应的算法。选 择不同的误差函数会产生不同的微分方程。把式( 卜1 5 ) 和式( 卜1 6 ) 代入式 ( 卜1 3 ) ,可以将占珂( 输出层的目的神经元) 写成: 6 ,= k 圹o 。伊b t 。1 q - 1 7 ) 对于隐含层中的目的神经元,不能直接对误差函数微分。因此,利用微分 公式: 盟:y 兰堕( 1 _ 1 8 ) 0 0 q n e t c 3 0 p : 、1 在式( 卜1 8 ) 中,对l + i 层中的所有神经元求和。根据n e t 。的定义,可以 计算式( 卜1 8 ) 中的第二个银子: 可c o n e t r * = 击陟。一 :寺融w 。卜 m 将式( 卜1 9 ) 代回式( 卜1 8 ) ,得出: 瓦s e e = 莩鲁w * ( 1 _ 2 。) 现在,由定义可以得到: 占砷= p i ( 1 - 2 1 ) o n g 靠 将式( 卜2 1 ) 代入式( 卜2 0 ) ,得出: 第一章有监督学习的前馈网络 卺5 k o 2 2 最后,将式( 卜1 3 ) 、式( 卜1 5 ) 、式( 1 2 2 ) 合并,隐含层误差信号d 可 可表示为: 。 6 目= f k t 。范6 一日( 1 - 2 3 ) 概述上述结果,式( 卜1 2 ) 给出了关于厶的微分方程。它对隐含层和输出 层权值都有效。式( 1 1 7 ) 和式( 卜2 3 ) 分别是对应于输出层和隐含层权值厶 的表达式。式( 卜1 6 ) 给出的是对应式( 卜3 ) 的均方差的解。因此,如果使用 其它的误差函数,则需要修正式( 1 - 1 6 ) 。为了得到适于计算机的微分方程, 仅计算厂( n p r 。) a 为此,必须选择一个特定的输出函数厂( n e t 。) 并求出对应于这 一函数的解。利用s i g m o i d 函数,则得: 。f ( n e z ) 2 南( 1 - 2 4 ) 由式( 卜1 5 ) 和式( 1 2 4 ) ,可以将厂( n e t 。) 写为: 伽= 去 品巧 m 2 s , 对式( 卜2 5 ) 求导,则得: 广纠2 高j 去( 1 矿勺( 1 - 2 s ) 下面继续计算厂( n e t 何) : 厂2 l 南卜”去c 卅瑚, c 卜:, = 南高 卜z s , = 南 f 筹一南l ”z , = 南 1 去 ”s 。, 将式( 1 2 4 ) 代入式( 1 3 0 ) 可将1 ( n e t ) 表示为0 。的函数。 f 1 ( n e t 。) = d 。( 1 一d 。)( 1 3 i ) 苎二童壹些堑兰翌堕萱堡塑塑 一一一 考虑式( 卜1 2 ) 、式( 卜2 3 ) 、式( 1 - 3 1 ) ,可以写出在计算机上用b p 算 法对网络训练所需的微服方程,其中误差函数是均方差函数且输出函数是 s i g m o i d 函数。从推理过程中我们可以看到,如选择另外的误差的或兴奋函数, 需要对上述公式进行修正。 综上所述,反向传播算法所需的微分方程是: a w f = r 6 日o p ( 1 3 2 ) 其中,叩为学习速度,万。,为l 层神经元的误差信号,o 。为l 1 层神经元的 输出。 误差信号占。可表示为: 对输出神经元 厶= o 。一。摩) o 。( 1 一o 。) ( 1 3 3 ) 对隐含层神经元 = o 。( 1 - d 。) 厶w k j ( 1 3 4 ) o 。代表l 层神经元j 的输出,o ,代表l - l 层神经元i 的输出,占外为l + 1 层神经元k 的误差信号。 真正的梯度下降是沿着梯度确定的方向以无穷小步长进行。很明显,这对 于实现我们的目的是不切实际,因此我们定义了学习速度玎。可以看到,式 ( 卜3 2 ) 确定了沿着梯度方向的一个有限步长。这里玎是常量,它相当于确定 步长的增益。其中心思想就是选择足够大的7 7 ,使得网络迅速收敛,而不会因 调整过度而振荡。 实际上,在式( 卜3 2 ) 中经常加入动量项,以便在某些问题中加快网络 的收敛速度。该动量考虑了过去权值变化的影响。动量常数口决定了这项的重 要性。通过滤掉高频变量,该动量能使权值空间的误差表面平滑。当加入了动 量项时,权值由下式调整: a w ”( 甩+ 1 ) = 7 7 ( j dp ,) + 如w ( ,z )(1一 o 3 5 ) 有动量项的反向传播训练公式是纯梯度算法的变形之一,目的在于提高算 法迅速收敛的能力。 反向传播学习的全部过程,既包括它的前向路径也包括其反向路径,如图 1 3 所示。采用反向传播算法时,网络权值必须首先用一随机值进行检查初始化。 选择小初始权值时很重要的。初始化后,训练集合矢量就可以被用于网络。 使网络向前运行产生一实际集合,利用反向传播可以建立一新权值集合,总误 差经多次迭代后减少。如果不是这样,可以调整训练参数a 和口。 第一章有监督学习的前馈网络 图1 3 反向传播算法流程图 1 0 - 第二章径向基函数网络 第二章径向基函数网络 2 1r b f 网络拓朴结构 我们知道神经网络最初是模拟人类神经元对外界刺激反应方式而设计出来 的,在b p 网中,是通过一个阈值来模拟神经元的反应门限值以及非线性的s 函 数( 式卜2 ) 而根据对人脑的研究成果,人类大脑对外界刺激的反应形式是基于感受野 的,亦即不同部位的脑细胞对外界刺激的反应强度是不同的,各个神经元的作 用域都是一个局部的范围,只有当输入在一定的范围内( 即感受野) ,该神经元 才响应,否则不响应或响应很小。这一点在b p 网的神经元映射函数中并没有得 到体现,与神经元的作用原理有一定的出入,致使它的性能不是很好。 正是基于以上对人类神经元的认识,l e e 6 提出了用径向基函数( 砌强) 来 模拟神经元的非线性输出作用,我们称这种新的神经网络结构为径向基函数网 络( r b f n ) 。它包含有一维数足够高的隐含层,此层对输入空间进行非线性变 换,而输出层提供从隐单元空间到输入空间的一种线性变换。需注意的是,不 像多层前馈网络删l p ) 中的神经元不管处于那一层都是同一种神经元模型,r b f 网络中隐含层神经元根本不同于输出层的神经元。 它的隐含层神经元映射函数变为: 一( x - 一e ) z f ( x ) = e ” ( 2 - 1 ) 其中,c 是r b f n 的映射中心,用来表示各神经元感受野中心,a 用来表示 神经元的对外界的作用敏感程度,它越小,则对输入的变化越敏感。 显然,r b f n 的神经元映射函数就是我们通常所说的高斯函数。该函数的最 大特点是只有当输入与中心相等时,输出达到最大,随着输入与中心的渐渐偏 离,输出也逐渐减小,并很快趋近于零,这与实际神经元基于感受野的这一特 点很相似,只有当输入在中心附近的定的范围内,输出响应很大,否则不响 应或响应很小。 因此,r b f n 的神经元映射函数可以更确切的描述出实际神经元响应基于感 受野的这一特点,比b p 网有更深厚的理论基础,从而它的性能也大大优于b p 网。j a c k o n 和l e e 论证了径向基函数对非线性连续函数的一致逼近性能 6 、 7 , 第二章径向基函数网络 而且文献 8 证明:r b f 网络具有最佳逼近特性,文献用正则化的方法证明了对 最小问题 n 2 日7 k = ( y ,一妒( x ,功) ) 2 + 兄1 f p 叫i ( 2 2 ) 其中的驴函数的解为径向基函数,而b p 网络不具有这种最佳逼近特性。 正因为r b f 网以上的种种的原因,因此,我们看到r b f 网络在各方面都 体现出了优越的性能,下面我们将具体的介绍该网络的学习方法。 r b f 网络具体结构如下: 第一层:非线性变换层。 其输出啊:占协) :g f 掣 ,其中x ;扛一:,一。 v i c ,= p 严,c ;”,c ;m 为第f 个非线性单元的“中心”向量,c ;们 表示第f 个中心的第g 个分量,o - ,为第i 个非线性单元的宽度,表示范数, 通常取2 范数,g ( ) 表示非线性函数的关系,一般取g a u s s 函数,即: g ( x ) = e x p f 一三l l 盯 第二层:线性合并层 它的作用是将变换层输出线性加权合并 三 ) ,。= 艺h ,w j i ( 1 i 0 ( 2 3 ) i = 1 其中m 为输出维数,p 为隐单元数。 需要指出的是,式( 2 一i ) 并不是唯一的选择,也可用厂( 口) = 口2 l o g ( a ) 9 , f ( a ) = n 2 i 0 ,f ( a ) = 口2 + c 1 1 当然,径向基函数是最常用的映射函数。 2 2 r b f 网络学习算法综述 r b f 网络的学习算法根据算法思想可以大致分为两类。 第一类算法思想是选定某种性能指标,用适当的方法来校正网络参数,使 该性能指标取得最优值,这样r b f 网的学习实际上就转化为一个最优化问题。 在神经网络中最优化问题常用梯度下降法 1 2 或遗传算法 1 3 】在这种算法中, r b f 网络的隐含层网络中心和输出层权值同时在计算过程中确定。但是,这类 算法像b p 算法一样,存在计算量大,易陷入局部最小,收敛速度慢等问题 1 4 】。 第二章径向基函数网络 通过分析r b f 网络结构特点,我们发现主要有两个因素决定着r b f 的网络 结构:网络中心、输出层权值。据此,我们得到第二类算法。 第二类的算法的核心思想是充分利用r b f 网的两层结构特点来设计学习算 法。第一步确定网络中心,第二步确定网络输出层权值。这种两步训练算法的 重要特点是在第二步可以直接利用线性优化算法,这样可以加快学习速率和避 免局部最优,因此得到广泛的应用,并且,最近大多数的r b f 网络的改进也是 围绕着这两个方面展开的 1 5 ,本文也是如此。 理论和数值分析证明,r b f 网络的性能主要由隐会层的中心决定而不管隐 含层神经元用什么径向基函数 1 6 】。即r b f 网络的结构特点主要由隐含层的中 心位置和个数决定。这里,我们首先来看一下较简单的第二层权值的确定。 由于这一过程只是来求取从隐层空间到实际输出空间的线性变换的权系 数,原理上比较简单,因而,各种r b f 学习算法这一部分改进并不是很大。目 前最常见的两种方法是l m s 和r l s 方法,这对于一般的问题的求解都可以满 足要求,但是,我们应该看到,求隐层到输出层之间的变换权系数这一过程是 一个求解线性方程组的过程,因而也会象解方程组一样面临方程组的系数矩阵 奇异的问题,l m s 算法只是通过对隐层节点输出矩阵直接求逆来求权系数w 的,而r l s 算法只是l m s 算法的递推形式,他们都没有考虑隐层节点输出矩 阵奇异的情况。所以当r b f n 的各时刻隐层输出所构成的矩阵奇异时,l m s 和 r l s 方法所求得的权系数w 的值会有较大的偏差,虽然这种情况出现的概率较 小,但是一旦出现网络的性能也会突然下降。对于该问题通常所采用的解决办 法是用正交化的方法来求权系数w 的值,但是,直接采用g i v e n s 正交变换的计 算量过大,无法满足实时跟踪控制运算的需要,因此,这里我们采用的方法是 用递推g i v e n s 最小二乘法( r g l s ) ,由于这一过程是采用正交变换而得到的, 因而数值特性很好,同时,又是一种递推算法,计算量比起直接用g i v e n s 正交 变换要小得多,所以说,r g l s 算法既有r l s 的运算量小,速度快的优点,又 有良好的数值特性。 现在,我们讨论网络的结构的确定问题,即隐层节点数和位置的选取问题。 不恰当的隐层节点数,会使瑚强网络无法正确的反映出输入样本空间的实际划 分,也就是说,隐层节点空间无法实现从非线性的输入空间到线性的输出空间 的转换,从而极大的降低了网络的性能,因此隐层节点数的选取成为决定r b f 网络性能的一个最重要的因素。 由于输入向量空间的聚类数定小于输入向量的个数,因此,最初的时候, 第二章径向基函数网络 人们直接把隐层节点数取为输入向量的个数,即每个输入向量对应于一个隐层 节点,这样隐层中心的位置也同时确定了,我们只需解线性方程组来确定输出 层权值即可以完全确定该r b f 网。这种方法计算量小,过程简单,很适合于一 些小规模的样本问题,但是对于一些规模较大的问题,所求得的网络结构过于 复杂。为此,人们又引入了七一均值聚类以及它的改进方法 1 7 3 、 1 8 1 、 1 9 1 ,该 方法可以根据样本之间的空间距离实现样本的模式聚类,把距离相近的输入向 量归为一类,并把它们的算术平均值作为中心,再通过第二层权值的线性变换 来逼近实际输出值。这样便实现了用较少的中心来表示一些规模较大的问题, 该方法对于一些输入样本数及聚类模式数给定的模式识别的问题比较适用。显 然,七一均值聚类及其改进方法要求预先给定全部输入样本及其聚类中心的数 目,这对某些问题是无法实现的。从输入空间中随机选取样本作为网络中心的 方法 2 0 3 同样存在这个问题,虽然对于不太复杂的对象可以回避这个问题。 但是,对于一个未知的复杂非线性对象则行不通了,我们是无法事先确定 输入样本空间的,为了使r b f n 能使适用于各种问题,必须实现能根据不同的 问题而自动地确定r b f n 的隐层节点数和隐层节点值。人们在这方面做了大量 的研究,现今主要的方法有: 1 正交最小二乘法( o l s ) 2 1 3 、 2 2 1 优点:可以根据输入样本对输出贡献率的大小来确定中心: 缺点:只适用于批量学习,运算量较大。 2 动态均值聚类方法 2 3 】、 2 4 】 优点:可以实时来确定网络的中心: 缺点:所求得中心与输入向量次序有关,占用存储空间过大。 3e r p c l 方法【2 5 优点:运算简单,收敛速度较快; 缺点:步长很难取到最佳值。 在后面的部分中,我们将对各种方法进行进一步的研究和讨论,并给出各 自的改进方法。 论。 2 3 常见的几种学习方法简介 下面,我们进一步说明r b f 网的几种学习方法,并对它们的优缺点进行讨 第二章径向基函数网络 2 3 1 梯度下降法 对于一些不太复杂的非线性对象,我们可以预先给定一个隐层节点数,只 要它与输入样本的实际聚类数相差不是很大时,我们便可以通过梯度下降法来 不断修正网络的中心值,使网络特性逼近于实际系统。该方法比较简单,也是 经常被使用的一种方法。 文献 1 2 】给出了基于梯度下降法的r b f 神经网络训练算法,简要的过程如 下 对一般r b f 网络结构,取性能指标 j = l 善( y t - 多。,2 其中,;,为网络的输出,多,:壹w , , = l 咿唧c 一譬严,1 1 x , - c ,酽= 和- 2 ( 2 4 ) 由此可见,j 是关于c j ,w f ,巳的函数。 网络训练的过程就是调整以上三组参数,使j 趋于最小。 求取j 对各网络参数,w 。c :”,盯。的偏导数,其中1 t p ( p 是隐单元数) , 1 s m ( m 是输出维数) ,1 q n ( n 是输入维数) ,得到参数的校正方法。 可以得到r b f 神经网络的梯度下g 峰q jj l 练算法: 权值的校正方向s 。,= 一害l = o ,一多。h = e 。皿 州舭的姬方峨,一若= 掣静屯h , = 学兰眦 宽她的校正方蛾:一一o j :錾掣盔m o跳,o - 盯j= 一 :墼笋向兰 由此,可得r b f 网络的梯度下降法校正公式: 第二章径向荽函数网络 w k ( 胛+ 1 ) = w 。( 胛) + 格 c 押+ 1 ) = c ;( 船) + 格加) 盯,( + 1 ) = o t ( n ) + 您。 其中,1 s p ,1 s m ,1 q n p 为隐单元数,恸输出维数,为输入维数。 五为步长,通常取0 t 0 5 左右。 由于隐层输出到输出层之间的变换是线性变换,所以人们更多的采用是已 经比较成熟的r l s 算法。 给定样本输入,则在当前的网络隐单元中心c i 及宽度。,( 1 j p ) 参数下, 隐单元输出向量h 7 = 阮,h :,h ,1 ,p 为隐层单元数。 y = h w ( 2 - 5 ) w = 【w 1 ,1 其中,y = p l 一,虬】 w j = h ,- 一,w 。】 这样,根据r l s 算法权值的修正递推公式如下 w ( k ) = t v ( k 1 ) + 足( 七) i j ,( j ) 一h 1 ( t ) 矿( t 一1 ) f r 1t 1 世( j i ) = p ( k 一1 ) 。h ( 七) ih 1 ( k ) p ( k 一1 ) h ( j i ) + 二i ( 2 6 ) lj 1r 1 p ( k ) = l ,一k ( k ) h 1 ( k ) j p ( k 一1 ) 以 另外,我们也可以象b p 网一样对上面的修正算式进行简单的改进,如:加 动量项,变步长等。这样,按照上面的公式对网络参数不断的进行循环校正, 最终网络性能将达到我们所要求的性能指标。该方法是最常用的r b f 网学习算 法,运算过程简单,采用梯度下降来修正网络的中心,l m s 算法来修正权值, 但是,正如前面所说,该方法要求所给定的隐层节点数必须与输入样本空间的 聚类数相差不要很多,如果隐层节点数大于输入样本空间的聚类数,则方面 会降低网络的学习速度,另一方面因为过多的隐节点带来的计算误差而使r b f 网的收敛精度下降;如果隐层节点数小于输入样本空间的聚类数,则无论网络 学习多少次,最终的精度都不能达到很高。这一点正是固定隐层节点数的一类 算法的通病。 另外,r b f 网的中心宽度。的值只是改变曲线的形状,对结果的影响不大, 其作用完全可以由中心和权值的作用来补偿。因此,有的文献中令它的值为常 第二章径向基函数网络 数1 ,这样可以减小计算量,而且对精度的影响不大。由于这是r b f 网应用得 很普遍的一种方法,因此,在这里不详细举例了。 下面几节将介绍几种能够根据实际问题来确定隐含层节点的方法。 2 3 2 基于k 均值聚类的r b f 学习方法 当已知网络的全部输入向量时以及样本聚类数时,可以用卜均值聚类法来 确定网络的中心。我们知道,r b f 网络对输入响应的大小取决于输入向量与网 络中心之间的距离,输入向量与中心的距离越小,神经元的响应也就越大,所 以r b f 网的中心修正过程实质上是根据样本之间的距离对输入样本进行聚类的 过程,相互之间距离很小的输入向量归于一类,而聚类中心就是网络中心。因 此,i 卜均值聚类法亦可以用在r b f 的网络中心确定中。 与其他方法相比,该方法的特点是中心和权值的确定可以分为两个相互独 立的步骤。首先是无监督的中心确定阶段,把全部输入向量按照七一均值聚类法 进行聚类,得到聚类中心,也就是r b f 网的中心;之后是有监督的权值确定过 程,这一过程根据系统的实际输出值和上一步所得到的网络中心值,用l m s 方 法便可以确定网络的权值。 由于卜一均值聚类法的聚类过程一般能够根据输入向量比较准确的确定聚 类数和相应的聚类中心,因此如果已知全部输入向量时,用该方法是能够比较 精确的确定网络结构的。但是它要求实现确定全部输入向量和指定聚类中心的 数目,这对于实际系统是很难得到的。因此,人们一直在寻求对该方法进行改 进,以便能根据系统的输入来实时的确定网络的中心,这便是我们后面要介绍 的动态聚类的方法。 2 3 3 基于正交最小二乘法o l s 的砌疆学习方法 前面曾经提到过,早期时确定r b f 网中心的一种方法便是把每一个输入向 量都作为网络中心,也就是说,网络中心数与输入样本的个数是相等的。该方 法显然在问题比较复杂,输入向量比较多时,所得到的网络规模过于庞大而不 实用。 经过分析可以发现,不同的输入样本对网络的中心的位置确定影响是不一 样的,有的比较大,有的比较小。如果我们能够准确的找到各样本点对确定网 络中心影响大小的一个量度,那么,便可以从中取出对网络中心影响较大的作 为网络中心,便可以简化网络的结构。这便是正交最小二乘法,它使我们能够 根据精度要求以及各个样本点对中心的影响的大小来合理的确定网络的结构, 第二章径向基函数网络 该结构在满足精度要求的前提下,中心的数量少,并且不会导致数值病态情况 的发生。下面,我们来简要地看一下该方法的基本思想 设系统共有三个输入样本,尸是r b f 网的隐层节点数,a ( o 表示模型的期望 输出,p 是网络输出与实际输出之间的偏差,其它参数仍与前面介绍的一致, 且系统是一个单输出系统( 对于多输出系统可以看成是多个单输出系统的组合 道理是一样的) ,则应有下式成立 上 d ( t ) = z h i w i + p ( f ) ( 2 - 7 ) f = l 把上式写为矩阵的形式有 d = h w + e ( 2 8 ) 日是对各输入与隐层输出所构成的矩阵,它们通过输出层权值的线性组合得 到了网络输出,也可以看成网络输出矩阵d 是在以由各输入样本所对应的隐层 输出为基的空间中的向量。显然,不同的中心对d 的影响是不同的,而这其中 又由于各个节点的隐层输出之间是相关的,所以我们无法知道日中的各隐层输 出所构成的基中,哪一个对d 的贡献更大 因此,我们想到利用o l s 来把h 变换成为一个关于正交基向量表示的矩阵, 进而,可以很清楚的描述出各个基向量对输出贡献的大小。对h 进行q r 分解 有 小q r( 2 9 ) 其中,尺是上三角阵, q 矩阵是由h 的正交基所构成的矩阵 q 5 q 1 ,q 2 ,q p 由于正交基向量q i 所构成的空间与h 矩阵空间应属于同一个空间,所以原 问题也可以表述为 d 2 q g + e 显然,其中g = r 阡瞻l ,戤,g p 这样,根据o l s 方法,可以得到g i 岛:掣 q :q , ( 2 - 1 0 ) ( 2 - 1 1 ) 求得了g 矩阵之后,我们便可以由g = r 妒来直接求得权矩阵w w = r 一1 g ( 2 。1 2 ) 由于训练样本的数目非常大,我们希望从中选取少量有代表性的样本来作 第二章
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年初中三年级生物期中考试
- 2025年初中一年级化学物质鉴别卷
- 2025年汽车租赁业务模式创新项目可行性研究报告及总结分析
- 销售考评情景模拟题库(带答案)(3篇)
- 2025年二手商品交易平台创新项目可行性研究报告及总结分析
- 2024年福建省漳州市事业单位经济类岗位技能考试试卷
- 2020-2025年公共营养师之三级营养师题库综合试卷B卷附答案
- 2025年个性化定制产品电商平台可行性研究报告及总结分析
- 押题宝典监理工程师之监理概论高分通关题型题库附解析答案
- 2025年公路监控安防系统项目可行性研究报告及总结分析
- (2025年)《成本会计》期末测试试卷及答案
- 预防地震安全教育课件
- 2025江西赣州全南县旅游发展投资集团有限公司招聘1人笔试历年典型考点题库附带答案详解试卷3套
- 管理晋升述职述能报告
- 2025年邯郸市事业单位考试真题及答案
- 劳动法基本知识课件讲义
- 2024年12月大学英语四级考试真题合集(共3套)
- 海上光伏电站施工安全管理方案
- 2026-2031年中国水利信息化服务行业市场发展趋势与前景展望战略研究报告
- 辽宁重点项目-喀左年处理60万吨钒钛磁铁矿项目可行性研究报告
- 加油站重大隐患检查表
评论
0/150
提交评论