(应用数学专业论文)基于相对熵函数准则的bp算法收敛性分析.pdf_第1页
(应用数学专业论文)基于相对熵函数准则的bp算法收敛性分析.pdf_第2页
(应用数学专业论文)基于相对熵函数准则的bp算法收敛性分析.pdf_第3页
(应用数学专业论文)基于相对熵函数准则的bp算法收敛性分析.pdf_第4页
(应用数学专业论文)基于相对熵函数准则的bp算法收敛性分析.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(应用数学专业论文)基于相对熵函数准则的bp算法收敛性分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨t 程大学硕+ 学位论文 摘要 前馈神经网络是目前神经网络理论中发展最完善、应用最为广泛的网络, 其结构简单、可操作性强,能模拟任意的非线性输入输出关系。在实际应用 中,大部分前馈网络采用误差反向传播算法( b p 算法) ,它的特点是解决了隐 层引入以后的学习问题。误差反传算法实质上是非线性优化问题的梯度算法, 故与生俱来就存在诸多缺陷,这些缺陷直接影响网络的性能。目前的研究重 点主要集中在网络结构、网络权值学习算法、误差函数、以及相关的收敛性 和稳定性等方面。 为了提高网络收敛速度,许多学者对误差函数的构造与应用进行了深入 研究。n b ,k a r a y i a n n i s 提出了熵误差函数,以解决传统误差函数训练过程中 存在的假饱和状态;s h o h 对熵误差函数进行修正,避免了n bk a r a y i a n n i s 提出的熵误差函数给出的误差信号过于强烈,常导致过学习的现象;m i n g h u j i a n g 等再次肯定了熵误差函数在提高前馈神经网络学习算法收敛速度方面 的作用,并对其进行了修正,然而形式过于复杂,不利于推广使用。 本文主要对基于相对熵函数准则的b p 算法收敛性进行了讨论,并对学 习率稍加改动以减小网络振荡的可能性。在满足文中假设条件情况下,对于 典型的全连接的前馈型神经网络,利用基于相对熵函数准则的b p 算法得到 误差序列和权值序列:然后,利用引理得到了误差序列的单调性和收敛结果; 最后得到了权值序列的弱收敛和强收敛结果,即基于相对熵函数准则的b p 网络的弱收敛结果和强收敛结果。 关键字:反向传播算法;相对熵;单调性;弱收敛;强收敛 哈尔滨丁程大学硕十学位论文 a b s t r a c t b a c kp r o p a g a t i o nn e u r a ln e t w o r ki st h em o s tw i d e s p r e a da p p i i c a t i o n a n dp e r f e c tn e u r a ln e t w o r kt h e o r ya tp r e s e n t w it hit ss i m p l es t r u c t u r e a n ds t r o n gw o r k a b i l i t y 。i tc a ns i m u l a t ea n yn o n 一1 i n e a rr e l a t i o n s b e t w e e ni n p u ta n do u t p u t i nt h ep r a c t i c a la p p l i c a t i o n ,t h em a j o r i t y o ff e e df o r w a r dn e t w o r ku s e st h ee r r o rb a c kp r o p a g a t i o na l g o r i t h m ( b p a l g o r i t h m ) ,i t sc h a r a c t e r i s t i cs o l v e st h ei m p l i c i ts t r a t at oi n t r o d u c e q u e s t i o n sf o r l a t e r s t u d y i n f a c t ,t h e e r r o n e o u s r e v e r s e d i s s e m i n a t i o na l g o r i t h mi st h en o n i i n e a ro p t i m i z a t i o n q u e s t i o n g r a d i e n ta l g o r i t h m sw i t hm a n yb o r n w i t hf l a w sw h i c ha f f e c tt h en e t w o r k p e r f o r m a n c ed i r e c t l y t h ep r e s e n tr e s e a r c h e sf o c u so nn e t w o r kw e i g h t , s t u d ya l g o r i th l i l ,e r r o rf u n c t i o n ,n e t w o r ka r c h i t e c t u r e a sw e l la s c o r r e l a t i v ea s t r i n g e n c ya n ds t a b i l i t ye t c i no r d e rt oi m p r o v et h ec o n v e r g e n c er a t eo fn e t w o r k ,m a n ys c h o l a r s h a v ec o n d u c t e dt h o r o u g hr e s e a r c h e si n t ot h es t r u c t u r ea n da p p l i c a t i o n o fe r r o rf u n c t i o n n b k a r a y i a n n i sp r o p o s e dt h ee n t r o p ye r r o rf u n c t i o n t os o l v ef a l s es a t u r a t e dc o n d i t i o ne x i s t i n gi nt h et r a d i t i o n a le r r o r f u n c t i o nt r a i n i n gp r o c e s si n1 9 9 2 :s - h o hm o d i f i e dt h ee n t r o p ye r r o r f u n c t i o np r o p o s e db yn b k a r a y i a n n i ss ot h a tt oa v o i dt h ep h e n o m e n o n o fo v e rs t u d yd u et ot h es t r o n ge r r o rs i g n a l si n1 9 9 7 :m i n g h uj i a n g a n ds oo na f f i r m e di t sf u n c t i o no fe n h a n c i n gt h ef e e df o r w a r dn e u r a l n e t w o r ks t u d ya l g o r i t h mc o n v e r g e n c er a t eo n c em o r ea n dr e v i s e di t i n 2 0 0 3 ,h o w e v e ri t sf o r mi st o oc o m p l i c a t e dt os p r e a da n du s e t h i sa r t i c l ed i s c u s s e st h ea s t r i n g e n to ft h eb pa l g o r i t h mm a i n l y b a s e do nt h er e l a t i v ee n t r o p yf u n c t i o n ,a n dm o d i f i e st h es t u d yr a t e s l i g h t l yt or e d u c et h ep o s s i b i l i t yo ft h en e t w o r kv i b r a t i o n i nt h e s u p p o s ec o n d i t i o no ft h i sa r t i c l e ,w eo b t a i nt h ee r r o n e o u ss e q u e n c e a n dt h ew e i g h ts e q u e n c er e g a r d i n gt h em o d e lo fe n t i r ec o n n e c t i o nf e e d 哈尔滨t 程大学硕十学付论文 f o r w a r dn e u r a ln e t w o r kb a s e do nt h er e l a t i v ee n t r o p yf u n c t i o ni nb p a l g o r it h m a n dt h e nu s i n gt h el e m m aw eo b t a i nt h em o n o t o n yo f t h e e r r o n e o u ss e q u e n c ea n dt h er e s t r a i n i n gr e s u l t f i n a ll yw eo b t a i nt h e w e a kc o n v e r g e n c ea n ds t r o n gc o n v e r g e n c er e s u l to ft h ew e i g h ts e q u e n c e , n a m e l yb a s e do nr e l a t i v ee n t r o p yf u n c t i o nc r i t e r i o nb pn e t w o r kw e a k c o n v e r g e n c ea n ds t r o n gc o n v e r g e n c er e s u l t k e y w o r d :e r r o r b a c k p r o p a g a t i o na l g o r i t h m ;r e l a t i v ee n t r o p y m o n o t o n o u s :w e a k l yc o n v e r g e n t :s t r o n g l yc o n v e r g e n t 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) :强釜煎 e t 期:年月 e t 哈尔滨t 程大学硕十学位论文 第1 章绪论 1 1 人工神经网络介绍 人脑是产生自然智能的源泉,是真正出色的并行计算机。人工神经网络 ( a r t i f i c i a ln e u r a ln e t w o r k s ,简称a n n ) 是在人类对其大脑神经网络认识理解 的基础上人工构造的能够实现某种功能的神经网络,它是理论化的人脑神经 网络的数学模型,是基于模仿大脑神经网络结构和功能而建立的一种非线性 算法的信息处理系统。 近2 0 年来,由于神经科学、数理科学、信息科学、计算机科学的快速发 展,人类认识自身、了解自身的可能性得到进一步提高,所以研究人类自身 的科学领域有了进一步扩大。由于被称为“万物之灵”的人类具有高度发达 的大脑,所以探索和揭示脑神经的奥秘是当代科学所面l 临的最重大的研究课 题之一。 借鉴对生物脑神经的研究成果,发展非生物的信息处理方式人工神 经网络成为2 0 世纪8 0 年代再度活跃起来的新的信息处理科学研究领域。这 与人工神经网络是以非线性处理为基础分不开的,正是由于非线性作用才形 成了大到大自然、人类社会小到工程技术等系统的复杂性。 1 1 1 人工神经网络的概述与发展史 1 1 1 1 人工神经网络概述 早在2 0 世纪初,人们就已经发现人脑的工作方式与现在的计算机是不同 的。人脑是由极大量基本单元( 称之为神经元) 经过复杂的相互连接而成的一 种高度复杂、非线性的、并行处理的信息处理系统。 人工神经网络,又称连接主义模式,是借鉴人脑的结构和特点,通过大 量简单处理单元( 神经元或节点) 互连组成的大规模并行分布式信息处理和非 线性动力学系统,因而有其固有的特点: 1 高度并行性 人工神经网络是由许多相同的简单处理单元并联组合而成,使其对信息 哈尔滨t 程大学硕士学位论文 的处理能力与效果惊人。 2 高度非线性全局作用 人工神经网络每个神经元接受大量其它神经元的输入,并通过并行网络 产生输出,影响其它神经元。网络之间的这种相互制约和相互影响,实现了 从输入状态到输出状态空间的非线性映射。从全局的观点来看,网络整体性 能不是网络局部性能的简单迭加,而表现出某种集体性的行为。 3 良好的容错性与联想记忆功能 人工神经网络通过自身的网络结构能够实现对信息的记忆,而所记忆的 信息是存储在神经元之间的权值中。从单个权值中看不出所存储的信息内容, 因而是分布式的存储方式,这使得网络具有良好的容错性,既能进行模式信 息处理工作,又能进行模式联想等的模式信息处理工作,也能进行模式识别 工作。 4 十分强的自适应、自学习功能 人工神经网络可以通过训练和学习来获得网络的权值与结构,呈现出很 强的自学习能力和对环境的适应能力。 人工神经网络处理单元大体可以分为3 类:输入单元、输出单元和隐层 单元。输入单元接受外部环境的信号和其他系统模型处理的数据,输出单元 将系统处理后的信息进行输出,隐层单元是位于输入和输出单元间外部系统 不可见单元。神经元间相互连接,并存在一定连接强度,信息的表示和处理 体现在网络处理单元的连接机制中。人工神经网络的功能由处理单元的激活 函数、模式和网络的相互连接机制确定。 1 1 1 2 人工神经网络发展史 人工神经网络诞生半个世纪以来,经历了以下几个发展阶段。 1 奠基阶段 1 8 9 0 年,w i l l i a nj a m e s 在心理学一书中谈及人工神经网络的主要思 想。到了2 0 世纪4 0 年代初,神经生物学家w a r r e ns m c c u l l o c h 与青年数学 家w a i t e r p i t t s 合作( 1 】,从人脑信息处理观点出发,采用数理模型的方法研究 了脑细胞的动作和结构及其生物神经元的一些基本处理特征他们提出了第 一个神经计算模型,即神经元的闽值元件模型,简称m p ( m c c u t l o e h p i t t s ) 模 2 哈尔滨1 i 稃大学硕十学位论文 型,为计算神经行为的某方面提供了可能性,从而开创了神经网络的研究。 数学家n e l l r l l a 皿【2 】是最初的神经网络设想者之一,他提出了元胞自动机。数 学家t u r i n g 建立了通用计算机的抽象模型1 3 ,4 1 ,他和p o s t 5 】都证明了同一个 重要定理:原则上存在着一种“万能自动机”,它能识别任何别的自动机能够 识别的符号。t u r i n g 机理论为带有存储程序的计算机的形式程序语言的发明 提供了理论框架。t u r i n g 机和逻辑神经网络之间或多或少的等价性得到了证 明,使人们对于大脑和计算机之间的类似性的信念进一步加强了。1 9 4 9 年神 经生物学家h e b b 【6 ,7 】的论著n eo r g a n i z a t i o no fb e h a v i o r 对大脑神经细 胞、学习与条件反射作了大胆的假设,称为h e b b 学习规则。h e b b 对神经网 络的发展起到了重大的推动作用。 2 ,第一次高潮阶段 1 9 5 8 年,计算机科学家r o s e n b l a t t l 8 】基于m p 模型,增加了学习机制, 推广了m p 模型。他提出的感知器模型,首次把神经网络理论付诸工程实现。 1 9 6 0 年w i d r o w 和h o f f 提出了自适应线性元件a d a c i n e 网络模型i9 1 ,这是 第一个对实际问题起作用的神经网络。 3 持续阶段 1 9 6 9 年,m i n s k y 和p a p e r t i l o 】出版了p e r c e p t r o n ) ) 一书,指出了感知机 不能解决高阶谓词问题,使人工神经网络的研究陷入了低潮。但在其间,一 些人工神经网络的先驱仍然致力于这一研究,美国波士顿大学的g r o s s b e r g 川 提出了自适应共振理论( a r t 网) ,芬兰的k o h o n e n 1 2 】提出了自组织映射 ( s o m ) ,a m a r i 1 3 - 1 6 】致力于神经网络数学理论的研究,这些都为神经网络的 进一步研究与发展奠定了基础。 4 第二次高潮阶段 1 9 8 2 年,美国加州工学院h o p f i e l d t l7 j 提出霍普菲尔特神经网络模型,开 创了把神经网络用于联想记忆和优化计算的新途径,有力地推动了神经网络 的发展。1 9 8 5 年,h i n t o n 和s e j n o w s k y 等人提出了玻耳兹曼机 1 8 , 1 9 】 ( b o l t z m a n n ) 模型,首次采用了多层网络的学习算法,在学习中采用统计热力 学模拟退火技术,保证整个系统趋于全局稳定点。1 9 8 6 年r e m e l h a r t 和 m c l l e l l a n d 等人提出了并行分布处理的理论【2 0 】,同时,w e r b o s 和p a r k e r 独立 发展了多层网络的b p 算法,这是目前最普通的网络,广泛用于实际问题求 哈尔滨t 程大学硕十学位论文 解。 5 新发展阶段 神经网络的发展己到了一个新时期,它涉及的范围正在不断扩大,其应 用渗透到各个领域。在连接主义模式下,进化与学习结合的思想正在迅速发 展,神经计算、进化计算正成为其发展的一个重要方向。1 9 9 4 年廖晓昕【2 3 】对 细胞神经网络建立了新的数学理论与基础,得出了一系列结果,如平衡态的 全局稳定性、区域稳定周期解的存在性和吸引性等,使该领域取得了新的发 展。ew e r b o s 2 4 , 2 5 通过混沌、孤立子系统的数学技术来理解人的认知过程, 建立新的神经信息处理模型和框架。日本学者a m a r i s 【2 6 _ 3 5 1 将微分流形和信 息几何应用于人工神经网络的研究,探索系统化的新的神经信息处理理论基 础,为人工神经网络的理论研究开辟了一条崭新的途径。神经网络理论有极 强的数学性质和生物学特征,尤其是在神经科学 3 6 , 3 7 、心理学和认知科学等 方面提出了一些重大问题,是神经网络理论研究的新挑战,也是它发展的机 会。2 l 世纪神经网络理论日益变得更加外向,不断产生具有重要意义的概念 和方法,推进神经网络向更高阶段发展。 1 1 2 人工神经元模型与网络结构 1 1 2 1 人工神经元模型 图1 1 表示出了作为人工神经网络的基本单元的神经元模型,它有三个 基本要素。 臣辩儿【o 丁 ,图1 1 基本神经元模型 1 一组连接( 对应于生物神经神经元的突触) 连接强度由连接上的权值表示,权值为正表示激活,为负表示抑制。 2 一个求和单元 用于求取各输入信号的加权和( 线性组合) 。 3 一个非线性激活函数 哈尔滨t 程大学硕十学位论文 起非线性映射作用并将神经元输出幅度限制在一定范围内( 一般限制在 ( 0 ,1 ) 或( 1 ,+ 1 ) 之间) 。 此外还有一个阈值吼( 或偏置b 。= 吼) 。 以上作用可分别以数学式表达出来: 上 2 艺w o x ,唯= n e t i = 一吼,儿= 6 p ( v k ) ( 卜1 ) j = l 式中:x ix :,x ,为输入信号,w k ,w k 2 ,为神经元七的权值,为线性 组合结果,吼为阂值,伊( ) 为激活函数,几为神经元k 的输出。 激活函数妒( ) 可以有以下几种形式。 1 阈值函数( 图1 2 ) 图1 2 阈值函数图形 加,= 照: 即阶梯函数。这时相应的输出 i i ,h 0 几2 1 叽 0 n 其中,v k = 2 w 。x ,一吼,常称此神经元为肘一p 模型。 j = j 2 分段线性函数( 图1 3 ) 兰 厂。 疋 图1 3 分段线性函数图形 ( 卜2 ) ( 1 - 3 ) 哈尔滨t 稗大学硕十学何论文 伊( v ) = 1 v 1 圭( 1 + v ) ,一1 v 0 可控制其斜率。另一种常用的是双曲正切函数 加,= 叫,= 羔篇 这类函数具有平滑和渐近性,并保持单调性。 1 1 2 2 网络拓扑结构 ( 卜5 ) ( 1 - 6 ) 除单元特性外,网络的拓扑结构也是人工神经网络的一个重要特性。从 连接方式看人工神经网络主要有两种。 1 前馈型网络各神经元接收前一层的输入,并输出给下一层,没有反馈。 节点分为两类,即输入单元和计算单元,每一计算单元可有任意个输入,但 只有一个输出( 它可耦合到任意多个其他节点作为其输入) 。通常前馈网络可 分为不同的层,第f 层的输入只与第i 一1 层输出相连,输入和输出节点与外界 相连,而其他中间层则称为隐层。 2 反馈型网络所有节点都是计算单元,同时也可接收输入,并向外界输 出,可画成一个无向图,其中每个连接孤都是双向的,也可画成图的形式。 若总单元数为斤,则每一个节点有疗一1 个输入和一个输出。 6 哈尔滨t 稃大学硕十学位论文 从作用效果看前馈网络主要是函数映射,可用于模式识别和函数逼近。 反馈网络按对能量函数的极小点的利用分类有两种:第是能量函数的所有 极小点都起作用,这类主要用作各种联想存储器;第二类只利用全局极小 点,它主要用于求解最优化问瑟。 1 1 3 人工神经网络的学习方式和学习规则 人工神经网络的工作过程主要分为两个阶段:第一阶段是学习期,此时 各计算单元状态不变,各连线上的权值可通过学习来修改:第二阶段是工作 期,此时各连接权固定,计算单元状态变化,以达到某种稳定状态。 1 1 3 1 人工神经网络的学习方式 通过环境学习而获取知识并改进自身性能是人工神经网络的一个重要特 点。一般情况下,性能的改善是按某种预定的度量通过调节自身参数( 如权值) 逐步达到的,学习方式( 按环境所提供信息的多少) 有三种。 i 监督学习( 有教师学习) 这种学习方式需要外界存在一个“教师”,他可对一组给定输入提供应有 的输出结果( 正确答案) 。这组已知的输入一输出数据称为训练样本集。 2 非监督学习( 无教师学习) 非监督学习时不存在外部教师,学习系统完全按照环境所提供数据的某 些统计规律来调节自身参数或结构( 这是一种自组织过程) ,以表示外部输入 的某种固有特征( 如聚类,或某种统计上的分布特征) 。 3 再励学习( 或强化学习) 这种学习介于上述两种情况之间,外部环境对系统输出结果只给出评价 ( 奖或惩) 而不给出正确答案,学习系统通过强化那些受奖励的动作来改善自 身性能。 1 1 3 2 人工神经网络的学习规则 学习是一个过程,通过这个过程人工神经网络的自由参数按选定的学习 方式下在其嵌入的环境的激励过程下得到调节。依据自由参数改变的方式有 以下几种重要的学习规则: 7 哈尔滨t 程大学硕十学位论文 1 h e b b s r u l e : - 。= ,7 d , ( 1 7 ) 心理学家d o n a l dh e b b ( 1 9 0 4 - 1 9 8 5 ) 写了一本题为t h eo r g a n i z a t i o no f b e h a v i o r 的书【3 l l ,在这本书中他提出了神经元之间连接强度变化的规则,即 后来的h e b b 学习法则。h e b b 写道:“当神经细胞彳的轴突足够靠近细胞曰并 能使之兴奋时,如果4 重复或持续地激发b ,那么这两个细胞或其中一个细 胞上必然有某种生长或代谢过程上的变化,这种变化使a 激活b 的效率有所 增加”。简单地说,就是如果两个神经元都处于兴奋状态( 给它们相同的符号) , 那么它们之间的突触连接强度将会得到增强。 2 t h ed e l t ar u l e : w j f = ,7 ( d 一d ,) 工, ( 1 8 ) d e l t a 规则是h e b b 规则的进步扩展。这种规则连续地更改网络权值, 使网络对输入模式的输出响应尽可能地接近各自的期望输出。调节权值的方 法是最小化实际输出与期望输出的均方差,并反传误差直至第一层。也被称 为w i n d r o w - h o f f 学习规则或最小均方学习规贝j j ( l e a s tm e a ns q u a r el e a r n i n g r u l e ) 。 3 k o h o n e n sl e a r n i n gl a w : a w ( k + 1 ) = h ( d 。,t ) ( f 肿一陟_ ( 七) ) ( 1 9 ) t e u v ok o h o n e n 提出的模仿大脑皮层活动的拓扑网络结构,其中的神经 元之间相互竞争,胜者获得学习机会( w i n n e rt a k e sa 1 1 ) 。获胜的神经元在更 新自己权值的同时,抑制其它神经元的活动。k o h o n e n 规则不需要期望输出, 属于非监督学习。利用这种规则的神经网络主要有自组织映射( s o f m ) 、自适 应共振理论( a r t ) 等。 4 h o p f i e l dl a w : 专笋:一“,) + 兰q ( d + 玩( 1 - 1 0 ) j 2 l 1 9 8 2 年美国加州理工学院的生物物理学家j o h nh o p f i e l d 提出了h o p f i e l d 神经网 1 7 1 。他利用非线性动力学系统理论中的能量函数方法研究反馈人工神 经网络的稳定性,并利用此方法建立了全互连型神经网络和计算能量函数, 成功求解了n p c o n m p l e t e 的t s p 问题( t r a v e l l i n gs a l e s m a np r o b l e m ) 。基本的 哈尔滨丁程大学硕十学位论文 h o p f i e l d 神经网络是一个由非线性元件构成的全连接型单层反馈系统,能量 函数e ( w ) 在网络迭代运行过程中不断地降低能量,最后趋于平衡状态。 1 2 人工神经网络的应用 人工神经网络的实质反映了输入转化为输出的一种数学表达式,这种数 学关系是由网络的结构确定的,网络的结构必须根据具体问题进行设计和训 练。学习人工神经网络的关键在于掌握生物神经网络与人工神经网络建模的 联系、人工神经网络的数学基础、以及人工神经网络的应用。 以下根据一些文献的介绍“,列出神经网络在一些主要领域的应用情 况: 1 模式信息处理和模式识别 所谓模式,从广义上说,就是事物的某种特性类属,如:图像、文字、 声纳信号、动植物种类形态等信息。模式信息处理就是对模式信息进行特征 提取、聚类分析、边缘检测、信号增强、噪声抑制、数据压缩等各种变换。 模式识别就是将所研究客体的特性类属映射成“类别号”,以实现对客体特定 类别的识别。人工神经网络特别适宜解决这类问题,形成了新的模式信息处 理技术。它在各领域的广泛应用是神经网络技术发展的重要侧面。这方面的 主要应用有:图形符号、符号、手写体及语音识别,雷达及声纳等目标的识 别,药物构效关系等化学模式信息辨识,机器人视觉、听觉,各种最近相邻 模式聚类及识别分类等等。 2 最优化问题计算 人工神经网络的大部分模型是非线性动态系统,若将计算问题的目标函 数与网络某种能量函数对应起来,网络动态向能量极小值方向移动的过程则 可视作优化问题的解算过程,稳态点则是优化问题的局部的或全局最优动态 过程解。这方面的应用包括组合优化、约束条件优化等一类求解问题,如任 务分配、货物调度、路径选择、组合编码、排序、系统规划、交通管理以及 图论中各类问题的解算等。 3 复杂控制 神经网络在诸如机器人运动控制等复杂控制问题方面有独到之处。较之 9 哈尔滨t 程大学硕七学位论文 传统数字计算机的离散控制方式,更适宜于组成快速适时自适应控制系统。 这方面主要应用是:多变量自适应控制、变结构优化控制、并行分布控制、 智能及鲁棒控制等。 4 通信 神经网络的自学习和自适应能力使其成为对各类信号进行多用途加工处 理的一种天然工具,尤其在处理连续时序模拟信号方面有很自然的适应性。 这方面的主要应用有:自适应滤波、时序预测、谱估计和快速傅里叶变换、 通信编码和解码、信号增强和降噪、噪声相消、信号特征检测等。神经网络 在作弱信号检测、通信、自适应滤波等方面的应用尤其引入注目,已在许多 行业得到运用。 5 金融预测与管理 股票市场预测1 4 1 1 、有价证券管理、借贷风险分析以及信用卡欺骗检测等。 6 其他领域 其他如知识发现和数据挖掘 4 2 , 4 3 l 、气象与地球科学h i 等。 1 3 本文主要工作 前馈神经网络( f e e df o r w a r dn e u r a ln e t w o r k s ) 在神经网络理论研究与非 线性系统建模及控制中占据非常重要的地位。目前的研究重点主要集中在网 络权值学习算法、误差函数、网络结构以及相关的收敛性和稳定性等方面。 反向传播( b p ) 算法因其简单易行、计算量小、并行性强等优点,目前是神经 网络训练采用最多、应用最广泛、最为成熟的训练算法之一。 关于神经网络收敛性的研究目前国内外很多学者做了大量的工作,提出 了很多研究网络收敛性的方法。本文是在文献 4 5 4 9 的基础上进行研究,在 利用反向传搔算法训练前馈型神经网络过程中,采用相对熵函数为误差函数 得到网络的收敛性基于相对熵函数准则的b p 算法的收敛性。 第一章介绍了神经网络的基本概念、发展历史以及神经网络的应用。 第二章详细介绍了反向传播( b p ) 算法的推导过程和算法实现步骤,以及 b p 网络学习中应注意的一些问题。b p 算法实质是非线性优化问题的梯度下 降算法,从而导致网络收敛速度慢和存在局部极小两个主要问题。针对这两 1 0 哈尔滨t 程大学硕十学位论文 个主要问题介绍了一些解决方法。其中的熵函数法也是本文研究的重点。 第三章介绍了信息论理论中衡量两个概率分布差异性的重要度量一相对 熵。根据相对熵的基本性质说明其作为反向传播( b p ) 算法中误差函数的合理 性。分析了基于相对熵函数准则的b p 算法可以加速网络收敛的原因( 有效避 免网络的假饱和状态) ,并用实例对传统b p 算法和基于相对熵函数准则的b p 算法进行比较,基于相对熵函数准则的b p 算法可以加速网络收敛的结论同 样被验证。这也是本文所做工作之一。 第四章是本文所做工作的重点。首先给出证明所需要的假设条件,针对 典型的前馈型神经网络,利用误差反向传播算法,算法中的误差函数采用相 对熵函数,得到误差序列和权值序列。利用定理4 1 、4 r 2 、4 3 得到网络的弱 收敛结果和强收敛结果。从b p 神经网络的实际应用来看,文中的假设条件 也是合理的。 哈尔滨丁程大学硕十学位论文 第2 章b p 神经网络 本章主要介绍了前馈神经网络权值学习的反向传播算法。详细介绍了反 向传播算法的推导过程及其算法步骤,说明了反向传播算法在实际应用中注 意的一些问题以及反向传播算法的优缺点,并介绍了算法改进的一些措施。 2 1b p 神经网络简介 b p 网络是现在应用最为广泛的神经网络。它采用光滑激活函数,具有一 个或多个隐层,相邻两层之间通过权值全连接。b p 学习过程可描述如下: 1 工作信号正向传播:输入信号从输入层经隐单元传向输出层,在输出 端产生输出信号,这是工作信号的正向传播。在信号的向前传递的过程中网 络的权值是固定不变的,每一层神经元的状态只影响下一层神经元的状态。 如果在输出层不能褥到期望的输出,则转入误差信号反向传播。 2 误差信号反向传播:网络的实际输出与期望输出之间差值即为误差信 号。误差信号由输出端开始逐层向前传播,这是误差信号的反向传播。在误 差信号反向传播的过程中,网络的权值由误差反馈进行调节,通过权值的不 断修正使网络的实际输出更接近期望输出。 图2 1 描绘了b p 网络的一部分,两种信号都在这个网络中得到辨认。 + 工作信号 一误差信号 图2 1 函数信号的前向传播和误差信号的反向传播 1 2 哈尔滨r 稃人学硕十学但论文 2 1 1b p 网络基本算法 图2 2 表示了一个具有两个隐层和一个输出层的前馈神经网络 输 入 信 号 输 出 信 号 输入层第一隐层 第二隐层 输出层 图2 2 具有两个隐层的前馈网络结构 这里所说的网络是全连接的。信号在一层接一层的基础上逐步流过,方向是 向前的,从左到右。 2 1 1 1 反向传播( b p ) 算法推导过程 b p 网络算法的导出是相当地复杂,首先给出在推导过程中的一些符号。 符号i ,和k 是指网络中不同的神经元;由于信号在网络中从左向右 传播,神经元,所在层在神经元i 所在层的右边,而神经元,是隐层单元 时神经元k 所在层在神经元,所在层的左边。 在迭代( 时间步) 摊,网络的第r 1 个训练模式( 例子) 呈现给网络。 符号e ( 疗) 指迭代 时的瞬时误差平方和或瞬时误差能量和。关于所 有n ( 即整个训练集) 的e ( h ) 的平均值即为平方均误差能量e 。 符号p ,( ”) 指的是迭代n 时神经元,的输出误差信号。 符号d ,( 疗) 指的是关于神经元,的期望响应并应用于计算p ( n ) 。 符号y ,( ,1 ) 指的是迭代一时出现在神经元,的输出处的函数信号。 符号w 。( 疗) 表示权值,该权值是迭代h 时从神经元i 的输出连接到神 经元- ,的输入。这个权值在迭代厅时的修正量为a w ( 疗) 。 迭代丹时神经元- 的诱导局部域( 即所有突触输入的加权和加上偏置) 记为v ( ) :它构成作用于神经元,激活函数的信号。 用来描述神经元,的非线性输入输出关系的激活函数为妒i ( ) 哈尔滨t 程大学硕+ 学 奇论文 用于神经元的偏置用6 ,表示;它的作用可由一个与等于+ 1 的吲定 输入相连的权值为w 。= b ,突触表示。 输入向量( 模式) 的第i 个元素用毒( 月) 表示。 输出向量( 模式) 的第k 个元素用o a n ) 表示。 学习率参数记为玎。 符号加,表示多层前向网络的第,层的大小( 即节点的数目) ; f = 0 ,1 - ,而就是网络的“深度”。因此,1 0 是输入层的大小,鸭是第 一个隐层的大小。肌,是输出层的大小。也使用符号m ,= m 。 神经元歹在迭代丹时( 即呈现第n 个训练例子) 输出误差信号定义如下: e j ( n ) = d ,( 一) 一_ y ,( 疗) 神经元,是输出节点 ( 2 1 ) 1 将神经元j 的误差能量瞬时值定义为去p ;( 疗) 。相应的,整个误差能量的瞬时 上 值e ( 月) 即为输出层的所有神经元的误差能量瞬时值的和;这些只是那些误差 信号可被直接计算的“可见”神经元。因此e ( 胛) 的计算公式是 e ( 力= e ( 月) ( 2 2 ) j e c 集合c 包括网络输出层的所有神经元。令记为包含在训练集中模式( 例子) 的总数。对所有月求e ( 玎) 的和然后关于集的大小规模化即得到均方误差能 量,表示为 互= 专e ( 厅) ( 2 3 ) n = l 误差能量的瞬时值e ( 月) 和误差能量的平均值e 是网络所有自由参数( 即权值 和偏置) 的函数。对下一个给定的训练集,e 表示的代价函数作为学习性能的 一个度量。学习过程的目的是调整网络的自由参数使得最小化e 。要达到最 小化,考虑一个训练的简单方法,即权值在一个模式接一个模式的基础更新, 直到一个回合结束,也就是整个训练集的完全表示已被网络处理。权值的调 整根据每个呈现给网络的模式所计算的各自的误差进行。因此,这些单个权 值在训练集上的改变的算术平均,是基于使整个训练集合的代价函数e 最小 化的真实权值改变的一种估计。 考虑图2 3 ,它描绘神经元,被它左边的一层神经元产生的一组函数信 号所馈给。因此,在神经元j 的激活函数输入处产生的诱导局部域v ,( 疗) 是 1 4 哈尔滨t 稃大学硕十学位论文 _ ( 疗) = ( 疗) 卫( ”) ( 2 4 ) - - o 神经元, ,一一_ 、 j ,t ( 月 图2 3 神经元_ ,的信号流图 这早坍是作用于神经元j 的所有输入( 不包括偏置) 个数。突触权值w i o ( 相应 于固定输) k y o = + 1 ) 等于神经元j 的偏置6 ,。所以迭代孵时出现在神经元歹输 出处的函数信号y j ( n ) 是 y j ( n ) = 伊,( ”,( 疗) ) ( 2 - 5 ) 反向传播算法中,网络的突触权值w j i ( 月) 的修正值为血”,f ( n ) ,它i e _ l l = 于二 e ( n ) 对w f ( n ) 的偏导数o e ( n ) 却,( 厅) 。根据微分的链式规则,可以将这个梯 度表示为 器= 端荆端端 ( 2 6 ) 偏导数a _ e ( 疗) a ,( ,z ) 代表一个敏感因子,决定突触权值叶f ( 月) 在权值空间的 搜索方向。 在式( 2 2 ) 两边对勺( n ) 取微分,可以得到 踹n 鼍d ) ( 2 7 ) i ) ”7 、。 在式( 2 - 1 ) 两边对巧( 疗) 取微分,得到 a e j o ) 瓦丽一1 接着,在式( 2 5 ) 两边对( n ) 取微分,得到 ( 2 - 8 ) 哈尔滨t 稃大学硕十学何论文 ,渊= 乃n 最后,在式( 2 4 ) 两边对1 叶f 0 ) 取微分,得到 瑞刊 ( 2 9 ) ( 2 一l o ) 将式( 2 7 ) 至( 2 1 0 ) 代入式( 2 6 ) ,得到 罢黠:(n)hg)h(”)(z-11)-v-i-e7 瓦丽2 够n 妒肌 应用于w ,f ( h ) 的修正a w j i ( 胛) 由d e l t a 法则定义为 哦一,7 云端 ( 2 _ 1 2 ) 其中,r 是反向传播算法的学习率参数。由式( 2 1 2 ) 中负号的使用意味着在权 值空间中梯度下降( 即寻找一个使得e ( n ) 值下降的权值改变的方向) 。于是将 ( 2 1 1 ) 代入( 2 1 2 ) q b 得到 a w j a n ) = 警s j ( n ) y i ( n 1 ( 2 - 1 3 ) 这里局域梯度8 i ( 甩) 定义为 删一黜一嚣粥端州n ( 2 - 1 4 ) 局域梯度指明突触权值所需要的变化。根据式( 2 1 4 ) ,输出神经元,的局域梯 度占肋) 等于该神经元相应误差信号e j ( n ) 和相应激活函数导数伊j ( v ,( 胆) ) 的 乘积。 从式( 2 1 3 ) 和( 2 1 4 ) 注意到,权值调整a w f ( n ) 计算所涉及的一个关键因 子是神经元,输出端的误差信号e ,( 聆) 。在这种情况下,要根据神经元的不同 位置,区别两种不同的情况。第一种情况,神经元是输出节点。这种情况 的处理很简单,因为网络的每一个输出节点都提供自己期望的反应信号,使 得计算误差信号成为直截了当的事。在第二种情况,神经元_ ,是隐层节点。 虽然隐层神经元不能直接访问,但是它们对网络输出的误差共同承担责任。 然而,问题是要知道对隐层神经元这种共担的责任如何进行惩罚或奖赏,这 已经被网络反向传播误差信号成功地解决了。 情况1 神经元是输出节点 当神经元_ ,位于网络的输出层时,给它提供自己的一个期望响应。可以 哈尔滨t 稃大学硕士学位论文 用式( 2 一1 ) 来计算这个神经元的误差信号e j ( n ) ,当e i ( 竹) 确定以后,用式( 2 1 4 ) 来计算局域梯度j ,( 疗) 是很直接的。 情况2 神经元,是隐层节点 当神经元,位于网络的隐层时,就没有对该输入神经元的指定期望响应。 因此,隐层的误差信号要根据所有与隐层神经元直接相连的神经元的误差来 递归决定。这就是为什么反向传播算法的发展变得很复杂的地方。考虑在图 2 4 中所描绘的情况, 一一一一j 墅上一一一一 月押 神经元i 图2 4 输出神经元t 连接到隐层神经元,的信号流图 它描绘的神经元就是一个网络隐层节点,根据式( 2 1 4 ) n t - 把隐层神经元的局 域梯度重新定义为 妙一器鬻一器忡) ) ( 2 - 1 5 ) ”7 砂,( n ) 加,( 月)砂,( ”) 。 、 在公式的第二行用到了式( 2 9 ) ,要计算偏导扭( n ) 砂,( 疗) ,进行如下处理。 从图2 4 可以看到 e 0 ) = 寺o ) 神经元| i 是输出节( 2 1 6 ) 这就是对式( 2 2 ) 用下标k 替代下标,。这么写是为了避免与情况2 使用下标, 表示一个隐层神经元相混淆。在式( 2 1 6 ) 两边对函数信号y ,( 胛) 求偏导,得到 丽o e ( n ) = ;丽o e a n ) ( 2 - 1 7 ) 砂,( 胛) 乍砂,( 疗) 。 接着对偏导数& 女( _ ,z ) 勿,( ,z ) 使用链式规则,重写式( 2 - 1 7 ) 为等价形式 1 7 哈尔滨t 程大学硕士学位论文 器= 莩e k 器端 c z 一 砂,( 疗) 。6 吒( n ) 砂,( 疗) “ 然而,从图2 4 注意到 e k ( n ) = 败( 磅一y k ( n ) = d k ( 珂) 一缎( 唆( ”神经元k 为输出节点( 2 1 9 ) 因此 型竺= 一张( ( 盯) )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论