(计算机应用技术专业论文)采用导数约束关系的前向神经网络学习优化方法研究.pdf_第1页
(计算机应用技术专业论文)采用导数约束关系的前向神经网络学习优化方法研究.pdf_第2页
(计算机应用技术专业论文)采用导数约束关系的前向神经网络学习优化方法研究.pdf_第3页
(计算机应用技术专业论文)采用导数约束关系的前向神经网络学习优化方法研究.pdf_第4页
(计算机应用技术专业论文)采用导数约束关系的前向神经网络学习优化方法研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特n i j i 以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名:聿是a 圣盛 e l期:碰:f 加 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:。车必三刍毋师签名: 摘要 摘要 人工神经网络以人的大脑工作模式为基础 经网络最重要的特点就是学习能力。从本质上讲 具体的误差信息来合理地选择网络的权重。 通过大量神经元的相互作用来体现处理能力。人工神 人工神经网络的学习过程是一个优化的过程,即根据 目前,人工神经网络的优化学习算法,仅利用网络的输出数据误差作为指导信息来进行网络训练, 而没有有效引入样本点数据之间的关联关系误差来指导网络训练,导致网络泛化能力差、实用性不大。 单纯将输出数据误差最小作为标准来指导网络进行训练,其本质只是对样本数据精确插值,而这样的插 值是非光滑的,从而对非样本数据产生较大误差。因此,在网络训练过程中,除了考虑样本数据所提供 的信息外,还应考虑样本数据间的关联关系,并把这些关系转化为约束形式引入到网络学习优化过程当 中。 在网络模型的输入与输出关系的建立中,最重要的指导信息是输入与输出之间的导数关系,只有正 确建立了这种导数关系才能建立输入与输出之间正确的数值对应关系。本文以神经网络学习优化为主线, 以提高神经网络训练速度和质量为目标,着重研究前向神经网络学习优化方法,通过对现有的优化方法 进行研究和总结,提出在神经网络训练中引入导数约束关系,强调输入与输出之间的导数关系在网络训 练中的重要性。主要研究工作包括:神经网络学习优化过程中导数关系的引入策略与方法、导数关系的 提取与建模、基于导数约束关系的神经网络训练算法设计,并用m a t l a b 进行仿真。研究及实验结果表明: 本文所提出的方法能大幅度降低网络输出误差,减少训练时间和训练次数,改善了网络的泛化能力。 关键词:神经网络学习优化导数关系 4 a b s t r a c t t h ep r i n c i p l eo fa r t i f i c i a ln e u r a ln e t w o r k si sb a s e do nt h a to fh u l m a l lb r a i nw o r k i n g t h ea b i l i t i e so fa l l a r t i f i c i a ln e t w o r ka r ei m p l e m e n t e db yc o o p e r a t i o no fm a s so fn e u r a lu n i t s o n ei m p o r t a n tc h a r a c t e r i s t i co f a r t i f i c i a ln e u r a ln e t w o r k si si t sa b i l i t yo fl e a r n i n g i ne s s e l l c e ,l e a r n i n gi na r t i f i c i a ln e u r a ln e t w o r k si sa l l o p t i m i z a t i o np r o c e s s ,t h a ti s , a l la r t i f i c i a ln e t w o r ka d j u s t st h ew e i g h t so ft h en e t w o r ko ni t sc o n c r e t ee r r o r i n f o r m a t i o n c u r r e n t l y , t h eo p t i m i z a t i o na l g o r i t h ma b o u ta r t i f i c i a ln e u r a ln e t w o r k sl e a r n i n gi sam e t h o do ft r a i n i n g n e t w o r k so n l ya c c o r d i n gt ot h ee l t o ro fo u t p u td 瓶w i t h o u ti m p o r t i n gr e l a t i o n s h i po ft h ed a t ao fs a m p l e s e f f e c t i v e l y ,w h i c hr e s u l t si nl a c k i n gt h ea b i l i t yo f g e n e r a l i z a t i o na n dp r a e t i c a b i l i t y u s i n gt h ee l t o ro f o u t p u td a t a a sc r i t e r i o nt ot r a i n i n gn e t w o r k si si n t e r p o l a t i o nf o rd a t ao fs a m p l e s i ti sn o ts u r p r i s i n gt og e tb i ge t l o ri n n o n - s a m p l ed a t af o rs u c hi n t e r p o l a t i o n i sn o n - s m o o t h h e n c e , i nt r a i n i n gn e t w o r k s 。b e s i d e st h ei n f o r m a t i o n o f f e r e db ys a m p l ed a t a , w es h o u l ds t u d yt h er e l a t i o n s h i po fs a m p l ed a t aa n dt r a n s f o r mi ti n t oc o n s t r a i n t c o n d i t i o n st ou s ei nt h eo p t i m i z a t i o nl e a r n i n go f n e t w o r k s w h e ne s t a b l i s h i n gi n p u ta n do u t p u to fn e t w o r k sm o d e l ,t h em o s ti m p o r t a n tg u i d a n c ei n f o r m a t i o ni st h e d e r i v a t i v er e l a t i o nb e t w e e ni n p u ta n do u t p u t o n l yw h e nw ee s t a b l i s hs u e hd e r i v a t i v er e l a t i o n ,w ec a l lg e t a c c u r a t en u m e r i c f lp a r a l l e l i s mb e t w e e ni n p u ta n do u t p u t i nt h i sp a p e r , w et a k eo p t i m i z a t i o nl e a r n i n go f t h en e u r a ln e t w o r ka sm a i nl i n ea n da i mt oi m p r o v et h es p e e d a n dq u a l i t yo f t r a i n i n gn e u r a ln e t w o r k w ee m p h a s i z et h em e t h o do f o p t i m i z a t i o nl e a r n i n go f n e u r a ln e t w o r k s a n dp r o p o s ei m p o r t i n gd e r i v a t i v ec o n s t r a i n tr e l a t i o n si nt r a i n i n gn e t w o r k s o u rr e s e a r c h e si n c l u d e :t h ep r i n c i p l e a n dt h es t r a t e g yo nh o wt og u i d et h ed e r i v a t i v er e l a t i o n si no p t i m i z a t i o nl e a r n i n go fn e u r a ln e t w o r k s ,d r a w i n g a n dm o d e l i n go ft h ed e r i v a t i v er e l a t i o n s , a l g o r i t h md e s i g no fn e u r a ln e t w o r k st r a i n i n gb a s e do i ld e r i v a t i v e c o n s t r a i n tr e l a t i o n s a n dm a t l a bs i m u l a t i o nd e s i g n 幻c a r r yo n b yo u rr e s e a r c h e sa n dl a b sw ed r a wt h e c o n c l u s i o nt h a tt h em e t h o d si nt h i sp a p e rc a nr e d u c et h ee r r o ro ft h eo u t p u tn e t w o r kg r e a t l y , w eh a v el e s s n u m b e r so f t r a i n i n ga n dt h eg e n e r a t i o na b i l i t yo f t h en e t w o r ki si m p r o v e d k e y w o r d s :n e u r a ln e t w o r k s ,l e a r n i n go p t i m i z a t i o n ,d e r i v a t i v er e l a t i o n s 5 1 1 问题的提出 第一章绪论 f 1 2 0 世纪8 0 年代初掀起的第二个神经网络研究的高潮以来,在神经网络的研究方面,主要有如下几 个重大成果: ( 1 ) h o p f i e l d 证明了单层自反馈网络的收敛性,并将其应用于求解t s p 问题。 ( 2 ) r u m e l h a r t 等人提出的前向神经网络的结构及其对应的b p 学习算法。 ( 3 ) c y b e n k o ,i t o r n u k ,f u n a h a c h i 等人分别独立证明了三层前向网络可以逼近任何函数。 ( 4 ) v a p n i k 提出的支持向晕机理论。 这些理论和方法上的成果极大地推动了神经网络研究的发展,并在实际中得到应用。然而它们自身 还存在许多不足,很多重要问题至今没有得到解决。如具体确定一个网络的层数和隐单元的个数较为困 难,神经网络所采用的优化算法,大多存在收敛速度慢、易陷入局部极小点等问题。经过训练所得到的 网络性能差,实用价值不大。神经网络出现的这些问题,制约着它的发展,限制了它的应用。 在所有这些闯题中,很重要的一个就是神经网络学习所采用的优化算法,它对神经网络的训练起着 关键作用。因此,对神经网络学习优化方法的研究具有十分重要的意义。由于目前所用的网络绝大部分 是前向网络,本文主要针对前向神经网络学习优化进行研究。 1 2 神经网络的研究现状 到目前为止,人工神经网络系统已经具有了一些同人脑相类似的特点,在信息的分布式存储、数据 的并行处理以及利用外来的信息进行自学习的能力方面都同人脑很相似。但是,这种人工神经网络仅仅 是对大脑的粗略而且简单的模拟,无论是在规模上还是在功能上与大脑相比都还差得很远。 b p 网络是目前人们认识最为清楚、应用最为广泛的一类神经网络,也是神经网络的重要模型之一。由 于b p 网络具有相当强的输入输出映射能力和很强的信息处理能力,从而使这种网络具有广泛的应用领域 与应用前景。 然而,b p 网络在这些领域应用中表现出来的结果与人们所要求的相差较大。主要是训练后的网络联 想性差,即在样本点附近,网络具有准确的输出,而在其它点则误差很大”。造成这种情况的根本原因在 于网络没有建立起所模拟系统输入与输出之间准确的本质关系。其次,网络训练难以进行。产生这种情 况的原因在于提供给网络训练的信息不够。目前主要通过样本数据所提供的数据信息对网络进行训练, 没有充分挖掘数据间所隐含的约束关系。在很多情况下。仅靠单一的信息形式有时难以达到预期的效果。 出现上述情况的一个重要原因是现有的神经网络学习优化算法不能完全适应网络的动态性和复杂 性。 归纳起来,现有的神经网络主要存在以下关键技术问题”1 ,这些理论与技术问题也是目前国内外神 经网络研究领域的重要方向。 ( 1 ) 提高神经网络训练速度的策略与技术 从本质上讲,神经网络的训练过程是一个优化的过程,即根据具体的误差信息来合理选择网络的 权重。但由于网络结构的复杂性和非线性等特性,从而仅能利用数值求解的方法,通过迭代而逐步获得 合理的权值。目前的神经网络训练算法的收敛速度很慢,求解一个相当简单的问题,其训练通常需要几 百或几千次的迭代。这个问题严重限制了神经网络的应用领域,特别是对于一些实时性要求很高的领域。 在改进神经网络训练算法的研究中,所涉及的问题包括: 8 局部极小值问题。从数学上看,b p 学习过程是一个非线性优化问题,这就不可避免地存在有局部 极小值问题。 网络的隐单元个数的合理选取问题。目前对于神经网络的隐单元个数的选取尚无理论上的指导, 而是根据经验选取。 网络训练算法的设计与引入。为了提高神经网络的训练速度,应根据网络的具体特点,设计开发 新的网络训练算法。 ( 2 )领域知识的引入策略与技术 领域知识是求解问题的原理性知识,以及已获得的有关求解问题的具体特性的知识。将这些知识表 示成为适当的约束形式而引入神经网络训练,从而减小网络训练的优化搜索范围。因此,神经网络所求 解问题的领域知识的引入是有效提高网络应用效率与功能的重要途径,也是提高网络训练质量与效率的 重要手段。在神经网络的结构设计以及网络训练的过程中,如何有效地引入神经网络所求解问题的领域 知识,建立有效的引入策略与技术将是目前神经网络研究中亟待解决的问题。 1 3 研究目标与主要工作内容 本文着重对b p 网络进行深入地研究,以神经网络学习优化为主线,以提高神经网络训练速度和质量为 目标,着重研究前向神经网络中学习过程优化方法。从解决梯度下降法入手,把遗传算法与基于导数的 方法相结合,以克服神经网络学习中收敛速度慢和局部极小值问题。更为重要的是,把基于导数的约束 关系引入到神经网络学习中,以提高神经网络利用先验知识的能力。最后用t a t l a b 进行仿真试验。 1 4 论文结构安排 本文共分六章,具体安排如下: 第一章绪论。主要介绍论文研究的背景、神经网络研究现状,提出利用先验知识提高神经网络的计算 能力,在神经网络学习中引入导数约束关系以达到优化的目的。最后阐述论文研究的目标和内 容。 第二章典型神经网络模型及其算法。主要介绍典型的神经网络模型及其学习规则,围绕h e b b 规则及误 差反向传播法进行讨论。 第三章基于导数的b p 网络学习优化方法。对现有的基于导数的b p 神经网络主要的优化方法进行综述, 比较优缺点。主要对牛顿法、拟牛顿法、共轭梯度法等进行分析比较。 第四章基于遗传算法的b p 网络学习优化方法。利用b p 算法在局部搜索时比较有效的特点,在遗传算法 中把b p 算法作为一种学习策略加入到其中,能够使算法尽快地收敛。具体算法是:首先用遗传 算法对初始权值分布进行优化,在解空间中定位出一些较好的搜索空间,然后采用b p 算法在这 些小的解空间中搜索出最优解。 第五章采用导数关系的神经网络约束训练。这是本文的重点,介绍为什么要在神经网络训练中引入约 束关系,怎样引入,以及基于导数关系的神经网络约束训练算法。 第六章总结与展望。本部分对论文的工作进行简单的总结,并阐述神经网络学习优化算法的未来发展。 9 典型神经网络模型及其学习算法 第二章典型神经网络模型及其学习算法 研究人工神经网络要深刻了解和掌握各种典型人工神经网络的模型结构和学习规则。神经网络通常包括前 向网络和反馈网络,对各种神经网络模型以及相应的算法进行深入分析,对神经网络学习算法的研究具有重 要意义。本章主要阐述感知器、自适应线性网络、b p n 络和h o p f i e l d 网络,涉及h e b b 学习规则、d e l t a 学习规 则、反向传播规则等。重点对前向网络特别是b p 网络进行深入分析。 2 1神经网络的结构和学习规则 神经网络的结构和学习方式直接决定了网络的性能,不同的网络学习规则不尽相同。 通常所说的神经网络的结构,主要指它的联接方式。神经网络按照拓扑结构属于以神经元为节点,以及节 点间有向连接为边的一种有向图结构,其结构大体上可分为层状和网状两大类。 层状结构的神经网络是由若干层组成,每层中有一定数量的神经元,相邻层中神经元单向联接,一般同层 内的神经元不互联。网状结构的神经网络中,任何两个神经元之间都可能双向联接。 通过向环境学习,获取知识并改进自身性能是人工神经网络的一个重要特点,在一般情况下,性能的改善是 按照某种预定的度量通过调节自身参数( 权值) 随时间逐步达到的。因此,可以认为神经网络学习的本质特征 是在于调整联接权重,而如何调整联接权重就构成了不同的学习算法。 神经网络按环境所提供信息的多少,其学习方式可分为有教师学习,无教师学习和强化学习三类。 1 有教师学习 为了使神经网络在实际应用中解决各种问题,必须对它进行训练。从应用环境中选出一些样本数据,通过 不断地调整权值矩阵,直到得到合适的输入输出关系为止。这个过程就是对神经网络的训练过程,这种训练 的过程需要有教师示教,提供训练数据。由于在训练过程中又需教师的监督,故这种有教师的学习称为监督 式学习。 有教师学习方法虽然简单,但是要求教师对环境和网络的结构应该比较熟悉。当系统复杂、环境变化时, 就变得困难。为了适应环境变化就要重新调整权值。这样,当学习到新知识的同时,也容易忘掉已学过的旧 知识,这些是有教师学习方法的缺点。 2 无教师学习 无教师学习的训练数据集中,只有输入而没有目标输出。在训练过程中,神经网络自动地将各输入数据的 特征提取出来,并将其分成若干类。经过训练好的网络能够识别训练数据集以外的新的输入类别,并相应获 得不同的输出。显然,无教师的训练方式可使网络具有自组织和自学习的功能。 3 强化学习 这种学习介于上述两种情况之间。外部环境对系统输出结果只给出评价( 奖或罚) ,而不是给出正确答案, 学习系统通过强化那些受到奖励的动作来改善自身性能。 人类高度发展的智能,主要是通过学习获得的。要模拟人脑神经系统的学习功能,必须使得人工神经网络 具有学习功能。因此,有关神经网络的学习算法的研究一直占有特殊的地位。 神经网络中常用的有三种学习规则”1 。 联想式学习一h e b b 规则 h e b b 学习规则是根据h e b b 的假设提出的。h e b b 的假设是:如果一个突触两端的神经元同时兴奋或抑制, 那么这一突触的强度应得到加强,如果一个突触两端的神经元一个兴奋而另一个抑制,则这一突触的强度应 该减弱。 由于神经元k 和神经元,之间的突触即为神经网络中此二神经元的联接强度w 。,i 牧h e b b 的假设事实上 1 0 典型神经网络模型及其学习算法 是调节的学习规则。 忱( t ) = r l y k ( t ) x j ( t ) ( 2 1 ) 其中,j ,为输入值,y k 为输出值,为联接权值,7 为学习速率- 在某些情况下,h e b b 规则需要作些修正,以防止权值无限制地增长,这种情况在兴奋信号和响应信号的 符号保持一致时发生。这就要求权系数达到某一程度时,应具有相应的饱和值。 广3 h e b b 规则就是在这个规则的基础上变形而得的。为了使学习稳定,在学习规则中加入稳定项, w k j ( t ) = 7 y , ( t ) x j ( t ) 一y k ( f ) 】 ( 2 2 ) 误差纠正学习一d e l t a 学习规则 d e l t a 学习规则又称w h 规则,是由威德罗和霍夫提出的用来修正权矢量的学习规则。 令耽( f ) 为输入x ( f ) 时神经元j i 在f 时刻的实际输出,噍( r ) 表示期望输出,则误差 e k ( f ) = 吼( t ) 一y k ( f ) , 1 在某一时刻,网络总误差定义为占0 ) = :1 己吃2 ( f ) 误差纠正学习的目的是使网络输出的总误差达到最小,根据梯度下降法可得 1 o ) = 玎气( f ) x ,( f ) ( 2 3 ) 竞争学习规则 竞争学习是指网络在学习时,各输出单元互相竞争,最后达到只有一个最强者激活。其最常用的学习规 则可写为 a 0 = 刁( x ,一w ) ,若神经元j 竞争获胜 w ,旬= 0 , 若神经元j 竞争失败 2 2 感知器模型及学习算法 1 9 5 7 年,美国学者r o s e n b l a t 提出了一种用于模式分类的神经网络模型,称为感知器( p e r c e p t r o n ) 。 它是由阀值元件组成且具有单层计算单元的神经网络。感知器的输出为: y o ) = 厂( 嵋( f ) - o ) ( 2 4 ) l = 1 其中y ( t ) 为f 时刻输出,t 为输入向量的一个分量,w j o ) 为t 时刻第价输入的权值,o 为阈值,厂( ) 为 阶跃函数。感知器的学习规则如下: w o + 1 ) = w o ) + r d y o ) 】 ( 2 5 ) 其中7 7 为学习速率( o 。,高斯函姒班时掣) 典型神经网络模型及其学习算法 ( 2 ) 径向基神经网络 上述的径向基函数是一恰好通过己知数据点的插值函数,而有噪声数据的精确插值函数通常是剧烈振 荡的函数,一个好的插值函数应是平滑且能过滤掉数据中的噪声。另外,上述精确插值函数的另一个限制是, 其所需的基函数的个数与数据中的模式个数相等。因此,当数据鼍很大时,函数的求值变得非常困难。 通过对精确插值函数的修正,就得到了径向基函数神经网络模型。这一模型提供了一个光滑插值函数, 它所用的基函数的个数由所要表达的映射的复杂性决定,而不是由数据规模确定。 径向基神经网络由三层组成,其结构如图2 3 所示,输入层节点只传递输入信号到隐层,隐层节点由象 高斯核函数那样的辐射状作用函数构成,输出层节点通常是简单的线性函数。 图2 3 ( 3 ) 网络的学习与训练 径向基网络的一个重要性质是其第一层权重和第二层权重所起的作用完全不同,这便导致了它们的训练 方法各不相同。通常第一层权重( 控制基函数的参数) 采用聚类方法确定,而第二层的连接权重可利用整个 数据解方程直接求出。 假定径向基网络映射为y k ( x ) = w o c j ( x ) ,其中= 1 ,写成矩阵为 ,t y ( x ) = w q ow = ( w 蔚)缈= ( 妒,) 由于基函数是固定的,网络等价于一单层网,权重的优化等价于极小化误差函数,考虑误差函数 1 e = 吉;| | j 么t t 2 ,其中0 是当输入为时第k 个输出单元的期望值。它的极小化权值可 j 通过解方程1 形1 = 1 t 得到,t = ( t j k ) ,中= ( 妒m ) 解得w 1 = + t 实际情况由于的病态,可采用正规化方法求解【1 4 】。 径向基网络权值的学习由于可直接计算,避免了学习过程中的反复迭代,所以学习速度比b p 算法快得 多。但比b p 算法需要更多的样本。 2 6 h o p f i e l d 网络模型及学习算法 h o p f i e l d 网络是一种反馈网络,又称联想记忆网络,它是由美国加州大学物理学家j h o p f i e l d 于1 9 8 2 年 首次提出。是一种具有相互联接的反馈型人工神经网络模型。在此网络中引入了能量函数的概念,给出了网 络稳定性判据。可以用它来求解约束优化问题,如t s p 问题。 反馈网络能够表现出非线性动力系统的动态特性。它所具有的主要特性为以下两点:第一,网络系统具 有若干个稳定的平衡状态。当网络从某一初始状态开始运动,网络系统总可以收敛到某一个稳定的平衡状态。 第二,系统稳定的平衡状态可以通过设计网络的权值而被存储到网络中。 h o p f l e l d 网络根据其激活函数的不同,可分为离散型的h o p n e l d 网络( d h n n ) 和连续型的h o p f i e l d 网 络( c h n n ) 。 1 9 典型神经网络模型及其学习算法 2 6 1 离散型h o p f i e l d 网络( d h n n ) ( 1 ) d h n n 的结构和工作方式 在d h n n 模型中,网络由n 个神经元组成,每对神经元i 和神经元j 相互连接,其连接权重满足= 且m ,= 0 ,每个神经元节点可以有两值状态, 一1 或1 ,其输出类似于m p 神经元,激活函数为: i - 1 ,a 0 妒( 口) = s g n ( a ) = i1 , a 0 在给定初始状态x ( o ) 后,网络按下述方式自发地运行 x ( t + 1 ) = 妒( t o ) p ) , 其中一o + 1 ) 为神经元在f + 1 时刻的输出值。当x ,= 妒( w 玎t 一只) ,则网络已处于稳定状态,并把此 稳定状态作为网络的输出。 d h n n 能够实现联想记忆,给定网络某一输入模式,网络能够通过自身的动力学状态演化过程,最终达 到稳定的平衡点,从而实现联想记忆。 d h n n 有两种工作方式,串行工作方式和并行工作方式。串行工作方式的特点是,任一时刻只有一个单 元改变状态,其余单元保持不变。并行工作方式的特点是,某一时刻所有的神经元同时改变状态。并行工作 模式不能保证网络收敛到稳定状态,而串行工作模式总收敛到网络的某一稳定态。 ( 2 ) d h n n 的学习规则 在d h n n 的网络训练过程中,运用的是h e b b 规则。设给定p 个待存向量 ,“2 ,z f ,且 f 一1 ,1 1 ”,根据h e b b 规则有: 1p 2 言群甜j - l ,2 , 蟛= 嘭_ 1 + k 甜k ,其中z 矿为第k 个待存向量第i 个分量。有时也称此规则为外积规则。 ( 3 ) 网络的稳定性 h o p f i e l d 神经网络的稳定性可以用网络的能量函数进行分析。d h n n 的能量函数定义为 1h”h e = 一主善善_ + 蚤只一, 写成矩阵的形式为 e :一善,w x + x 7 0 , 很明显,它是一个二次曲面。从某一初始状态开始,经过有限步迭代,网络的能量必收敛到一个极小值, 2 6 2 连续型h o p f i e l d 网络( c h n n ) 连续型h o p f i e l d 网络( c h n n ) 与离散型h o p f i e l d 网络( d h n n ) 的工作原理很相似,拓扑结构完全相同。c h n n 是以模拟量作为网络的输入输出量,各神经元采用并行方式工作,所以它在信息处理的并行性、联想性、实 时性、分布存储、协同性等方面比d h n n 更接近生物神经网络。 典型神经网络模型及其学习算法 ( 1 ) c h n n 结构 图2 4 是c h n n 结构图,每个神经元可由同相端或反相端输出。当由反相端输出时,它对其它神经元有抑 制作用。对每一个神经元而言,自己的输出信号经过其它神经元又反馈到自己,所以c h n n 是一个连续的非 线性动力学系统。 事鼢l 毛 :釜兴吼。三俞阶 毫嚣_ 钐矿彤 - : 岭p 高,二一队 = 互详_ 一少 幽2 4 ( 2 ) c h n n 的学习规则 与d h n n 不同的是,c h n n 的权重不是通过学习得到的而是固定的、事先设计好的。激活函数妒通常 1 为一s 型函数,妒( x ) 2 _ i ;歹神经元j 的输出可表示为_ 2q j ( u j ) ,这里吩为等j 个输入量。在 权重给定的情况下,c h n n 按下式变化其状态: c 警一等+ 舌n w _ 一只 一= 哆( 甜,) 其中r ,c 为网络固有常数。 c h n n 的能量函数定义为: e = 一吉手手一_ + 薹以- l ( _ ) 以+ 荟n 只v 当网络按状态方程运行时,能量函数会随之下降,如果网络未达到稳定态,则能量函数的下降便不会停止, 当时间t 趋于无穷时,网络收敛于一稳定状态。 2 7 本章小结 本章介绍了神经网络最主要模型及常用算法,重点阐述h e b b 规则及d e l t a 学习规则在神经网络中的应用, 围绕b p 算法及其相应的改进算法展开了深入讨论。当前应用最多的网络是b p 网络,而传统的b p 网络学习 算法训练时间长,易收敛于局部极小值,因而必须对其进行优化。下一章将讨论如何对神经网络的学习进行 优化。 2 t 基于导数的b p 网络学习优化方法 第三章基于导数的b p 网络学习优化方法 神经网络最重要的特点就是它的学习功能,而学习可以归结为优化问题。从优化的观点来看,目标 函数的选取和优化方法是两个主要问题。在前向网络中,一般用误差平方和作为目标函数,优化就是使 误差平方和达到最小。本章主要论述基于导数的优化方法,包括梯度下降法、拟牛顿法、 1 2 v e n b e r g - m a r q u a r d t 法、共轭梯度法。 3 1 优化过程中的一些实际问题 ( 1 ) 目标函数的选取 神经网络学习的目的是对产生样本的规律统计特性进行建模。在神经网络实际训练中常采用误差平方 和为目标函数,这是否合理? 一般,当样本分布为高斯分布,样本量足够大,网络规模合理时,采用误 差平方和为目标函数,网络输出能很好地表示数据间的函数关系“”“。但在其它情况时,网络的泛化功 能差,不能很好地表示数据问的函数关系。即使网络的规模很合理。在这种情况下,就要对目标函数进 行变形。 ( 2 ) 权值的初始化 权值的初始化对最后结果以及收敛速度有很大的影响。权的初始值过大,一开始就工作在饱和状态, 如果太小会降低收敛速度,一般都是赋以随机数。但在对目标函数认识比较清楚的情况下,可以指定初 始值,使算法尽快地收敛。 3 2 基于导数的优化方法原理 b p 网络的训练实质上是一个非线性目标函数的优化问题,人们对非线性优化问题的研究已有数百年 的历史。而且不少传统的基于导数的优化方法收敛也较快。因而,人们自然想到采用导数的优化方法对b p 网络的权值进行训练。基于导数优化的算法不仅利用了目标函数的一阶导数信息,往往还利用目标函数的 二阶导数信息。这类算法包括梯度下降法、拟牛顿法、l e v e n b e r g - m a r q u a r d t 法和共轭梯度法,它们可以 统一描述为 1 7 1 : f ( x c k + t ) ) = n f i n ( f ( x + r l s ( x ) )( 3 1 ) , r 忙+ 1 ) = x ( + 玎( s ( r ( )( 3 2 ) 其中,x 婶为网络所有的权值和偏置值组成的向量,s ( x ( ) 为由x 的各分量组成的向量空间中的 搜索方向,叮为在s ( x ( 2 ) 的方向上使厂( x “”) 达到极小的步长。这样,网络权值的寻优分为两步: 首先,确定当前迭代的最佳搜索方向s ( x 冲) ;而后,在此方向上寻求最优迭代步长。关于最优搜索步长 玎( 的选取,是一个一维搜索问题。对这一问题有许多方法可供选择,如黄金分割法、二分法、多项式插 值法、回朔法等。这几种方法的区别在于对最佳搜索方向s ( x 竹) 的选择上有所不同。 3 3 牛顿法与拟牛顿法 牛顿法是一种常见的快速优化方法,它利用了一阶和二阶导数信息,第一次迭代的搜索方向确定为 负梯度方向,即搜索方向为: 基于导数的b p 网络学习优化方法 s c x o ) = 一v f ( x o ) 以后各次迭代的搜索方向由下式确定 s ( x ( ) = - h ) 一1 v f ( x ) ( 3 ,3 ) 即 z + 1 ) = j + 智( s ( x ) = x n 一町( ( 日) 一1 v f ( x ) ( 3 4 ) 其中,日婶为海森( h e s s i a n ) 矩阵( 二阶导数矩阵) 。牛顿法的收敛速度比一阶梯度法快,不过由于神 经网络中参数数目的庞大,导致计算海森矩阵的复杂性增加。 因此,人们在牛顿法的基础上提出了一类无需计算二阶导数矩阵及其求逆矩阵的方法。这类方法一 般是利用梯度信息或一个近似矩阵去逼近日忙) 。不同的构造日婶的方法,就产生了不同的拟牛顿法。因 此,拟牛顿法是为了克服梯度下降法收敛慢以及计算复杂而提出的一种算法。比较典型的拟牛顿法是: b f g s 拟牛顿法和正割拟牛顿法 3 7 1 。 1 1b f g s 拟牛顿法 除了第一次迭代外,对应( 3 3 ) ,( 3 4 ) 两式,b f g s 拟牛顿法在每一次迭代中采用下式来逼近海森阵 日耻) = 月啦- 1 ) + w i i ( i x j j ( k z - i 可 ) j f v i f i ( 两x k - ) ) r + j 蚕夏;笔! ;害:;l ;i 妻i e 丐 c s s , 其中,d 拶= v f ( x ”) 一v f ( x “)( 3 6 ) b f g s 拟牛顿法在每次迭代中都要存储近似的海森矩阵,海森矩阵是一个n 挖的矩阵,n 是网络中所有的 权值和偏置的总数。因此,当网络参数很多时,要求极大的存储量,计算也较为复杂。 正割拟牛顿法 正割拟牛顿法不需要存储完整的海森矩阵,除了第一次迭代外,以后各次迭代的搜索方向由下式确 定 s ( x ”) = 一v f ( x k ) ) + 4 t l ( k - 1 ) s ( x ( l - t ) ) + 召c * d g x ( 3 7 ) 其中 碱蟛= w ( x 。) 一v f ( x “) 忍= 筹精 4=一+否芒i:;专;忍+丽dgxr*vf(x(*) 相对于b f g s 拟牛顿法,正割拟牛顿法减少了存储量与计算量。实际上,正割拟牛顿量是通常的需要近 似计算海森矩阵的拟牛顿法与共轭梯度法的一种折衷,它的形式与共轭梯度法相似。 3 4 共轭梯度法 鉴于梯度下降法收敛速度慢,而牛顿法和拟牛顿法计算较复杂,共轭梯度法力图避免两者的缺点。 共轭梯度法的第一步沿负梯度方向进行搜索,然后沿当前搜索方向的共轭方向进行搜索,可以迅速达到 最优值。其过程描述如下: 第一次迭代的搜索方向确定为负梯度方向,即搜索方向s ( z o ) = 一彤( x o ) ,以后各次迭代的搜 基于导数的b p 网络学习优化方法 索方向由下式确定: s ( x ) = 一1 盯( x ) + s ( x - 1 ) x ( “1 ) = z + 叩s ( x ) 根据。所选取形式的不同,可构成不同的共轭梯度法。常用的两种形式是: m :粤 反- 1 - l 其中g k = v f ( x 似) 或 :等k 或一l 颤一1 ( 3 8 ) 通常,搜索方向s ( x ) 在迭代过程中以一定的周期复位到负梯度方向,周期一般为n ( 网络中所有 的权值和偏差的总数目) 。共轭梯度法比绝大多数常规的梯度下降法收敛都要快,而且只需增加很少的存 储量及计算量。因而,对于权值很多的网络采用共轭梯度法是一个较好的选择。 3 5 l e v e n b e r g 一- i a r q u a r d t 法 l e v e n b e r g - m a r q u a r d t 法实际上是梯度下降法和牛顿法的结合。我们知道,梯度下降法在开始几步下 降较快,但随着接近最优值时,由于梯度趋于零,使得目标函数下降缓慢。而牛顿法可以在最优值附近 产生一个理想的搜索方向。l e v e n b e r g - m a r q u a r d t 法的搜索方向定为: s ( x ) = - ( 日+ 名d 一1 v ,( x ) ( 3 9 ) 令叩= 1 ,则x ( “) = x ( + s ( x ) 起始时丑取一个很大的数,此时相当于步长很小的梯度下降法,随着最优点的接近,五减少为零, 则s ( 工) 从负梯度方向转向牛顿法的方向。通常,当f ( x 恤“) ,( x 冲) ,减少旯,否则增大旯。 从( 3 9 ) 式中可以注意到该方法仍然需要求海森矩阵。不过,由于在训练b p 网络时,目标函数常常 具有平方和的形式,则海森矩阵可通过雅可比( j a c o b i a n ) 矩阵进行近似计算h = j 。j ,雅可比矩阵包含网 络误差对权值及偏置值的一阶导数,而通过标准的反向传播技术计算雅可比矩阵要比计算海森矩阵容易 得多。 l e v e n b e r g m a r q u a r d t 需要的存储量很大,因为雅可比矩阵使用一个p 万矩阵,q 是训练样本的个数, n 是网络中所有的权值和偏差的总数目。l e v e n b e r g m a r q u a r d t 的长处是在网络权值数目较少时收敛非常迅 速。 综上所述,l e v e n b e r g m a r q u a r d t 法和拟牛顿法因为要近似计算海森矩阵,都需要较大的存储量。不 过,通常这两类方法的收敛速度较快。其中,l e v e n b e r g - m a r q u a r d t 法结合了梯度下降法和牛顿法的优点, 性能更加优良一些。共轭梯度法所需存储量较小,但收敛速度相对前两种方法慢。所以,考虑到网络参 数的数目( 即网络中所有的权值和偏差的总数目) ,在选择算法对网络进行训练时,可以遵照以下原则【l q : 在网络参数很少时,可以使用牛顿法或l e v e n b e r g - m a r q u a r d t 法。 在网络参数适中时,可以使用拟牛顿法。 在网络参数很多,需要考虑到存储容量问题时,可选择共轭梯度法。 其实,对于不同的问题,很难比较算法的优劣。而对于特定问题,一种通常较好的方法有时却可能 不易获得良好的训练效果,甚至可能出现难于收敛到预定目标的情况。因此,在解决实际问题时,应当 尝试采用多种不同类型的训练算法,以期获得满意的结果。在大多数情况下,可以使用l e v e n b e r g - m a r q u a r d t 法和拟牛顿法。此外,弹性b p 算法也是一种简单有效的方法。 2 4 基于导数的b p 网络学习优化方法 需要指出的是,上述所有算法均存在局部极小问题。就经验而言,对大多数问题,l e v e n b e r g m a r q u a r d t 可以获得相对较好的结果。除对网络应当使用不同的初始值进行多次的训练外,当然还可以采用其他全 局优化算法,如模拟退火法、遗传算法等,来解决局部极小问题。 3 6 本章小结 本章介绍了神经网络常用的优化算法,包括梯度下降法、拟牛顿法、l e v e n b e r g - m a r q u a r d t 法、共轭 梯度法。比较了它们各自的优缺点和实用场合,阐述了传统算法存在的局部极小值问题。可以看出,单 纯采用基于导数的方法,很容易出现局部极小值问题,而且当目标函数不可微时。就不能用这种方法了。 下一章将介绍利用遗传算法对神经网络学习进行优化。 基于遗传算法的b p 网络学习优化方法 第四章基于遗传算法的b p 网络学习优化方法 传统的优化算法不仅要求目标函数可微,且易陷入局部极小值。神经网络要解决的问题在很多场合下 不满足这个要求,求解问题遇到极大的困难。以遗传算法为代表的非导数算法很好地解决了这个问题, 并且还有许多独特的优势。本章将利用遗传算法来优化b p 网络,解决局部极小值问题。 4 1 遗传算法 遗传算法是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,它是一种基于自然选择和 遗传变异等生物机制的全局性概率搜索算法。它的主要特点是群体搜索策略和群体中个体之间的信息交 换,搜索不依赖梯度信息,也不需要目标函数可微,只需要该函数在约束条件下可解。因此,该方法尤 为适用于处理传统方法难以解决的复杂和非线性问题。与其它一些优化算法相比,它主要有以下几个特 点1 9 1 1 2 0 】: ( 1 ) 遗传算法不是直接作用在参变量集上,而是利用参变量集的某种编码。它的操作对象是一组可行解, 而非单个可行解。它从一个点的群体开始搜索,轨道有多条,而非单条,因而具有良好的并行性。 ( 2 ) 遗传算法只需利用目标的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论