(计算数学专业论文)连续感知器学习算法的有限收敛性及连续距离转换神经网络.pdf_第1页
(计算数学专业论文)连续感知器学习算法的有限收敛性及连续距离转换神经网络.pdf_第2页
(计算数学专业论文)连续感知器学习算法的有限收敛性及连续距离转换神经网络.pdf_第3页
(计算数学专业论文)连续感知器学习算法的有限收敛性及连续距离转换神经网络.pdf_第4页
(计算数学专业论文)连续感知器学习算法的有限收敛性及连续距离转换神经网络.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算数学专业论文)连续感知器学习算法的有限收敛性及连续距离转换神经网络.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 前馈神经网络( 单、多层感知器) 已经成为应用最广泛的神经网络模型之一 当前神经网络的一个热点问题就是研究神经网络学习算法的理论基础,特别是学 习算法的收敛性证明 作为该网络基本组成的感知器,具有对线性可分问题进行正确分类的能 力特别是训练离散型感知器的一些算法,如p e r c e p t r o n 规则和基于l m s 算法 的d e l t a 规则( 或称w i d r o w h o 丘规则) ,不仅在实践中行之有效,而且在理论上已经 证明是收敛的【4 】但在连续型感知器( 单层和多层) 中广泛使用的在线b p 算法,虽 然在实际应用中有了很好的效果,并且有许多学者也已经尝试着得到在线b p 算 法的收敛性,但是,在解决线性可分这样基本的分类问题方面,在线b p 算法还没 有取得令人满意的有限收敛性结果 一些学者做了这方面的工作,其中在g o r i & m a g g i n i 7 】的这篇文章中,他们证 明了在一定条件下,多层感知器的在线b p 算法对线性可分样本能够收敛到一个 最优解但不幸的是,他们在证明过程中有些不妥之处,特别是数学上的错误保证 不了最后结论的正确性( 见3 2 1 节) 在本文中,我们给出了连续单层感知器的在线梯度算法对线性可分样本的有 限收敛性证明,并且把这种方法推广到多层感知器中,证明了在与【7 】相似假设条 件下多层感知器在线b p 神经网络的有限收敛性 本文的另一项工作是关于连续距离转换神经网络用于目标匹配的内容 目标匹配是数字图像识别的一个重要课题我们试图利用连续距离转换神经 网络( c o n t i n u o u sd i s t a n c et r a n s f o r m n e u r a ln e t w o r k s ,c d t n n ) 更有效地解决这一 问题c d t b r n 是用于描述二维图像边界的神经网络表示方法这种方法在物 体表示和不变识别方面有很好的应用我们的研究表明,在图像的目标匹配 中,c d t b f n 也是生成距离图的一个很有效的方法依据c d t n n 生成的距离图相 对于其它离散方法得到的距离图的一些显著优点,我们将c d t n n 与多分辨率图 像搜索方法结合起来用于目标匹配,并对实际图像及其变形图像进行了目标匹配 试验 关键词:前馈神经网络,连续感知器,在线梯度法,在线b p 算法,有限收敛性,目标 匹配 a b s t r a c t f e e d f o r w a r ds t r u c t u r et r a i n e d b y t h e b a c k p r o p a g a t i o n ( b p ) a l g o r i t h m h a sb e e no n e o ft h em o s tw i d e l yu s e da r t i f i c i a ln e u r a ln e t w o r km o d e l s ar e m a r k a b l ea s p e c to ft h e c u r r e n td e b a t eo nn e u r a ln e t w o r k sc o n c e r n st h et h e o r e t i c a lf o u n d a t i o n so f c o m m o n l y u s e dl e a r n i n ga l g o r i t h m s a st h eb a s i cu n i to f t h ef e e d f o r w a r dn e u r a ln e t w o r k s ,p e r c e p t r o n sh a v et h e a b i l i t y t oc l a s s i f yl i n e a r l ys e p a r a b l et r a i n i n gp a t t e r n sc o r r e c t l y e s p e c i a l l y , s o m ea l g o r i t h m s , s u c ha sp e r e e p t r o nr o l ea n dd e l t ar u l eb a s e do nl m s m e t h o d ,h a v ep r o v e dc o n v e r g e n t f o rl i n e a r l ys e p a r a b l e t r a i n i n gp a t t e r n s 4 b u tf o rt h ec o n t i n u o u sp e r c e p t r o n s ,d e s p i t e t h ee x c e l l e n t a p p l i c a t i o n ,w eh a v e n o tf o u n ds a t i s f a c t o r i l y p r o v e d r e s u l t sf o rt h el i n e a r l y s e p a r a b l ep r o b l e m r e s e a r c h e r sh a v ea l s oa t t e m p t e dt oo b t a i nt h ec o n v e r g e n c eo f t h e o n l i n e b p a l g o r i t h m f o r n o n l i n e a r m u l t i l a y e r p e r c e p t r o n s o n e o f t h e s e a t t e m p t s i s g o r i m a g g i n i 【7 】i n w h i c h t h e yn y t op r o v eac o n v e r g e n c er e s u l tf o ro n l i n eb p m u l t i l a y e r n e u r a ln e t w o r k sw i t hl i n e a r l ys e p a r a b l ep a t t e r n su n d e rs o m ea s s u m p t i o n s u n f o r t u n a t e l y , t h e i rp a p e rc o n t a i n sam a t h e m a t i c a lm i s t a k et h a tr e n d e r st h ep r o o f se r r o n e o u s ( s e e 3 2 1 ) i nt h i st h e s i s ,w cp r o v et h a tt h eo n l i n eg r a d i e n tm e t h o df o rc o n t i n u o u s p e r c e p t r o n s c o n v e r g e si nf i n i t es t e p sw h e n t h et r a i n i n gp a t t e r n sa r el i n e a r l ys e p a r a b l e ,a n dg e n e r - a l i z et h em e t h o d i n 6 4 】t op r o v et h ef i n i t ec o n v e r g e n c eo f o n l i n eb pm u l t i l a y e rn e u r a l n e t w o r k su n d e rs o m ea s s u m p t i o n sw h i c ha r es i m i l a rt ot h o s ei n 【7 ,b u ts t r o n g e rt h a n t h o s ei n 6 4 0 u rs e c o n dw o r ki nt h i st h e s i si so dc o n t i n u o u sd i s t a n c et r a n s f o r mn e u r a ln e t w o r k s ( c d t n n ) f o ro b j e c tm a t c h i n g c d t n n h a v eb e e nu s e dt or e p r e s e n tt h ee d g eo f t w o d i m e n s i o n a li m a g e s t h e ya r es u c c e s s f u l l ya p p l i e di no b j e c tr e p r e s e n t a t i o na n di n - v a r i a n tr e c o g n i t i o n o u rr e s e a r c hf i n d st h a tc d t n ni sa l s oa ne f f i c i e n tm e t h o dt ob u i l d d i s t a n c ei m a g e sf o rt h eo b j e c tm a t c h i n go fi m a g e s e x p l o i t i n gt h ea d v a n t a g eo ft h e d i s t a n c ei m a g ed e r i v e db yc d t n no v e rt h a tb yo t h e rd i s c r e t em e t h o d s ,w ec o m b i n e c d t n na n dt h em u l t i - r e s o l u t i o nt e c h n i q u et od ot h eo b j e c tm a t c h i n g s o m es u p p o r t i n go b j e c tm a t c h i n ge x p e r i m e n t sa r ep r e s e n t e d k e y w o r d s :f e e d f o r w a r dn e u r a ln e t w o r k s ,c o n t i n u o u sp e r c e p t r o n s ,o n l i n eg r a d i e n t m e t h o d ,o n l i n eb pa l g o r i t h m ,f i n i t ec o n v e r g e n c e ,o b j e c tm a t c h i n g 一i 主要符号对照表 竹 p 0 j w 眦 w l j y 副; 9 ( ) e ( 眦y ) b n ( u ,v ) e v , ( “,v ) w 2 ? ( 眠y ) ,- y a o a 主要符号对照表 学习率 第j 个输入样本 第j 个输入样本对应的理想输出 样本集合个数 输入层与隐层的权矩阵 输入层与隐层第i 个神经元的权向量 表示连接第j 个输入神经元与第z 个隐层神经元的权值 隐层与输出层的权矩阵 输出层与隐层第i 个神经元的权向量 表示第i 个隐层单元和输出神经元的权值 激励函数 误差性能函数 误差函数对权向量砒的梯度向量 误差函数对权向量m 的梯度向量 第k 步的权值 的改变量 第k 步的权值饥的改变量 向量w 和向量y 的内积 向量a 曰n 维数增加一维,( a t ,a ) 郧”1 i 第一章绪论 第一章绪论 1 1 神经网络概论 人工神经网络( a r t i f i c i a l n e u r a ln e t w o r k s ,简称神经网络n n s ) ,是对人脑或自 然神经网络( n a t u r a ln e t w o r k ) 若干基本特性的抽象和模拟,其目的在于模拟大脑 的某些机理与机制,实现某个方面的功能其结构是由大量的处理单元( 称神经 元) 通过广泛地相互连结而成的复杂网络系统,这一特点决定着人工神经网络具 有高度的并行性和高速的信息处理能力 人工神经网络的研究始于4 0 年代初半个多世纪以来,经历了兴起、高潮与 萧条、高潮及稳步发展的曲折道路1 9 4 3 年,心理学家、s m c c u l l o c h 和数理逻 辑学家w p i t t s 提出了m i p 模型,这是第一个用数理语言描述脑的信息处理过程的 模型,从此开创了神经网络理论研究的时代5 0 年代末6 0 年代初,以计算机科学 家r o s e n b l a t t 提出了著名的p e r c e p t r o n ( 感知机) 模型 4 和w i d r o w 提出的a d a l i n e ( 自 适应线性元件) 5 】为代表,神经网络形成了首次高潮但是,对于复杂的高级 谓词问题( p r e d i c a t e ) ,由于感知器缺少有效的训练方法,美国著名人工智能学 者m a i n s k y 和s p a p e r t 于1 9 6 9 年发表了影响很大的p e r c 印虹o n 一书,从而使 这一研究走向低潮他们的分析恰似一瓢冷水,很多学者感到前途渺茫而纷纷 改行在这之后近1 0 年,神经网络研究进入了一个缓慢发展的萧条期一直到 3 8 0 年代,美国生物物理学家j l h o p f i e l d 于1 9 8 2 年、1 9 8 4 年在美国科学院院刊 发表的两篇文章,有力地推动了亭卑经网络的研究,引起了研究神经网络的又一 次热潮接着。于1 9 8 6 年,d r u m e l h a r t 和j m c c l e l l a n d 出版了具有轰动性的著作 并行分布处理认知微结构的探索,提出了多层感知器的”误差反向传播算 法( b p 算法) ” 1 ,该书的问世宣告神经网络的研究又一次进入了高潮期b p 网络 具有分类灵活、算法简练的优点,因此已被广泛用于模式分类、函数逼近、统计 分析和数据压缩等领域,成为至今为止影响最大的神经网络之一紧接着在多层 感知器网络的基础上,又派生出若干神经网络,如径向基函数( r b f n ) 等,从而使 有导师学习多层感知器网络( m l p n ) 走向实用化 第一章绪论 1 1 1 神经网络的特征、结构及学习规则 神经网络是对人脑完成特定任务或感兴趣的功能进行建模的机器,这种网络 通过学习过程来实现有用的计算,据此美国的神经网络学家s i m o nh a y k i n 2 给出 了神经网络的一种自适应机器的定义: 一个神经网络是一个由简单处理元构成的规模宏大的并行分布式处理器天 然的具有存储经验知识和使之可用的特性神经网络在两方面与人脑相似: 1 神经网络获取的知识是从外界环境中得来的; 2 互连神经元的连接强度,即突触权值,用于存储获取的知识 神经网络的主要特征 高度并行性神经网络并行处理的含义与目前的并行处理机有很大的区别, 它的并行处理能力是通过分布式结构来实现的,即由不同个数的神经元以 及它们之间不同的连接形式和方法来表现处理过程 非线性全局作用一个人工神经元可以是线性或者是非线性的,一个由非线 性神经元互连而成的神经网络自身是非线性的,并且非线性是一种分布于 整个网络中的特殊性质网络就是这样互相制约、互相影响,实现从输入状 态空间到输出状态空间非线性映射的网络的演化遵从全局性作用原则,从 输入状态演化到终态而输出从全局观点来看,网络整体性能不是网络局部 性能的简单叠加,而是表现某种集体性行为;每一步计算与上一步计算紧密 相关,并对下一步产生影响,问题是通过算法逐步进行处理的, 自适应学习能力神经网络嵌入了一个调整自身突触权值以适应外界变化 的能力特别是,一个在特定运行环境下接受蕾l i 练的神经网络,对环境条件 不大的变化可以容易进行重新训练,而且,当它在一个时变环境中运行时, 网络就可以设计随时闻变化的突触权值用于模式识别、信号处理和控制 的神经网络与它的自适应能力耦合,就可以变成能进行自适应模式识别、 自适应信号处理和自适应控制的有效工具 良好的容错性一个以硬件形式实现后的神经网络具有天生容错的潜质,或 者鲁棒计算的能力, 学习能力以及泛化能力学习是基本的认知活动,是经验与知识的积累过 一 一 第一章绪论 程,也是对外部事物前后关联地把握和理解的过程,以便改善系统行为的性 能学习的目的是通过有限个例子( 训练样本) 的学习找到隐含在例子背 后的规律( 如函数形式) 通过学习解决问题是神经网络的一个主要特点, 它包括以下三个方面 5 3 】: ( a ) 学习的统计性能,通过例子能否学到其中规律? 或者说随着所学例子 的增加学习结果是否越来越趋于真正的规律( 错误率一o ) ? 从信 息论观点来看,原则上能否学习的问题是统计学习理论的主要研究内 容; ( b ) 学习的计算复杂性,为学到真正规律所需样本量( 样本复杂度) 与计 算量( 计算复杂度) 这里从算法及其现实性看实际上能否学习的问 题,它是计算学习理论重点研究的内容: ( c ) 学习过程是反馈的,因而是一个动态过程,作为动态过程,一些学习算 法的收敛性问题 而泛化是指神经网络对不在训练( 学习) 集中的数据可以产生合理的输出,因 此这种信息处理能力让神经网络可咀解决一些当前不能处理的复杂的( 大 型) 问题 神经网络的结构 。 神经网络的结构设计包括以下几方面: 神经元之间的排列方式; 不同层神经元之间的连接方式,以及同层神经元之间的连接方式 神经元接受输入和产生输出的方式: 连接权值的学习规则 一般来说,所有的神经网络都有相似的拓扑结构神经网络中的处理单元可 以分成称为层的不相交子集,在同一层中的神经元具有相同的传递函数最常见 的有三种形式: 一是输入层,输入神经元只接受从外部环境到达的输入 3 第一章绪论 二悬输出层,神经元把信号从系统输出,这些输出既可直接影响运动系统, 也可只影响外在于系统的其它系统; 三是隐藏层,是那些输入与输出都在系统中的单元,对于外界来说,它是看 不见的 输入层接受从外部环境到达的输入,产生输出继而,这个输出被用于隐层的 输入这个过程直持续到满足某个特定条件或直到从输出层输出到外界 神经网络的拓扑结构是通过神经元权值连接方式表现出来的这些连接可能 是单向的,也可能是双向的一个神经元可能有一个或多个输入,一个或多个输 出同层之间的神经元可能有连接,也可能没有连接下面是几种不同层之间神经 元的连接,称为层间互联( i n t e r - l a y e r c o n n e c t i o n s ) ; 全违接( f u l l yc o n n e c t e d ) :第层的神经元与第二层所有的神经元都有 连接; 部分连接( p a r t i a l l yc o n n e c t e d ) :第一层的神经元不一定与第二层所有的 神经元都有连接; 前馈( f e e df o r w a r d ) 连接:第一层神经元的输出传给第二层的神经元,但 是它们不接受第二层的神经元的输出; 双向( b i d i r e c t i o n a l ) 连接:第一层神经元的输出传给第二层的神经元,同 时它们也接受第二层的神经元的输出; 层级( h i e r a r c h i c a l ) 连接:只有上下两层之间的通信,没有跨层通信; 共振( r e s o n a n c e ) 连接:全连接,并且层间反复传送消息直到满足某条件 更复杂的结构是同层内神经元也有连接,称为层内互联( i n t r a 1 a y e r c o r m e c t i o n s ) : 递归( r e c m r e n t ) 连接:同层的神经元全连接或部分连接,神经元之间相 互通信,直到满足条件,才输出到另一层; o n c e n t e r o f f s u r r o u n d :神经元对它的邻居有兴奋性连接,对其它神经元则 是抑止性连接: 神经网络的学习方式 一d 一 第一章绪论 神经网络根据学习规则的不同,主要分为以下几种学习方式 1 有导师学习( s u p e r v i s e dl e a r n i n g ) 待分类的模式类型属性已知,对于每次 模式样本的输入,网络输出都有一个对应的指导( 监督) 信号与其属性相匹 配,通过来自环境的指导信息( 包括输入和期望输出的训练样本) 不断调 整网络的连接权值使得输出端的输出与监督信号的误差减小到预定的要 求通常,为了保证训练的成功,需要很多训练样本和很长的训练时间; 这种学习方式的主要学习规则是所谓的d e l t a 规则: 钍坼= 町( o s 一白) q 这种规则连续地更改网络权值,使网络对输入模式的输出响应尽可能地接 近各自的期望输出调节权值的方法是最小化实际输出与期望输出的均方 误差,并反传误差直至第一层它也被称为w i n d r o w - h o f f 学习规则或最小 均方学习规则( l e a s t m e a n s q u a r el e a r n i n gr u l e ) 利用这种学习方式的神经网络主要有以下几种应用比较广泛的模型:感知 器( p e r c e p t r o n ) 、多层感知器( m l p ) 、径向基函数网络( r b f n ) 等 2 无导师学习( u n s u p e r v i s e dl e a r n i n g ,也称自组织,s e l f - o r g a n i s i n g ) 待分类 的模式类别属性未知,网络结构和连接权值根据某种聚类法则,自动对周围 环境的模式样本进行学习调整,直到网络的机构和连接分布能合理地反映 训练样本的统计分布 这种学习方式的主要学习规则是k o h o n e n 5 l e a r n i n g l a w : a w 。( k + 1 ) = ( d 。,女) p ) 一1 4 ,m ( 七) ) ( 1 2 ) t a n v ok o h o n e n 提出的模仿大脑皮层活动的拓扑网络结构,其中的神经元之 间相互竞争,胜者获得学习机会( w m n e rt a k e sa 1 1 ) 获胜的神经元在更新 自己权值的同时,抑止其它神经元的活动 利用这种学习方式的神经网络主要有自组织特征映射( s o f m ) 、自适应共 振理论( a r t ) 等 3 自监督( s e l f - s u p e r v i s e d ) 待分类的模式类别属于已知,对于每次模式样本的 输入,网络能够根据样本本身的特征,基于某种法则,通过不断调整网络的 一s 一 第一章绪论 连接分布,直至达到给定的精确要求 这种学习方式的主要学习规则是h o p f i e l d l a w 掣刊卅静啪m q 。, 这种网络的主要模型是1 9 8 2 年由美国加州理工学院的生物物理学家j j h o p f i e l d 提出的h o p f i e l d 神经网络模型【6 】他利用非线性动力学系统理论 中的能量函数方法研究反馈人工神经网络的稳定性,并利用此方法建立 全互连型神经网络和计算能量函数,成功求解了n p c o m p l e t e 的t s p 问题 ( t r a v e l l i n gs a l e s m a n p r o b l e m ) 基本的h o p f i e l d 神经网络是一个由非线 性元件构成的全连接型单层反馈系统,能量函数e ( w ) 在网络迭代运行过 程中不断地降低能量,最后趋于平衡状态 1 1 2 神经网络的应用 神经网络的研究已有近4 0 年,神经计算成为了一个非常热门的研究领域,己 成为人工智能两大主流( 连接主义和符号主义) 之- - 1 ,2 ,5 2 但这领域仍处 于发展的初期阶段,可以说是- - i 1 具有活力的学科 神经网络具有其它方法所不具有的性能,能成功地解决其它一些方法解决不 了的问题已经被用来解决各种复杂的、模糊的、不完备模式问题最常见的是 用于预测,如各种专家系统、股市预测也可以用来解决各种分类问题,如模式 识别、翻译、银行信用风险评估、签字识另t 1 1 5 5 ,5 8 ,6 0 3 还被广泛用于其它学科, 如信号处理、故障检测、自动化控制、语音识别、可化视、优化问题、排序问 题等等, 目前已经成熟的应用n n s 的产品有很多n n s 的商业用途目前已经引起人 们越来越多的关注,一些大型金融机构已在使用神经网络来增进某些特殊功能, 如评定顾客的信用、评判抵押品的价值、目标行销以及贷款风险评估等,虽然这 些系统实际运行时只比传统演算法的精确度高出几个百分点,但因为这些评估涉 及了巨大的资金交易,因此它具有突出的实用价值现在还有些机构使用神经网 络来分析信用卡的交易情况,以判断是否被盗刷一家叫n e s t o r 的公司用n n s 做 抵押贷款的金融风险预测,将贷款的风险分为优质和不良两个等级h n c 公司 ( h e c h t n i e l s e nc o ) 为b a n k t e c 开发的手写体识别系统,用于支票和信用卡的 一6 第一章绪论 签字识别n n s 也可用来侦测犯罪行为,美国大多数机场都用n n 8 来侦测旅客的 行李箱里是否夹藏炸弹或其他爆裂物品,如安装在美国机场的s n o o p e 炸弹探 测器而芝加哥警察局的风纪处则用n n s 来“过滤”受贿警官还有常用的人脸 识别技术用于在大型体育场等公共场所搜索罪犯计算机智能方面,语音自动生 成系统n e t t a l k ,它可以“读”出文本上的文字而在p d a 上,常见的手写软件 也免不了使用n n s 还有应用n n s 的网络信息自动挖掘,图像矢量量化的神经网 络编码器还可以用n n $ 设计人机交互游戏,直日西洋双陆棋( b a c k g a m m o n ) 、 桥牌、跳棋等等,让计算机与人对弈工业上,许多自动化工厂也用n n s 来监控 操作流程、调节温度设置、判别出错环节,如高炉的温度控制、轧制机床生产计 划的制定、电力调度计划的制定、大规模集成电路的设计等,这种类型的n n s 取代了人工操作,大大提高了蹩体生产力综上所述,n n s 的应用分为下面几类: 预测:通过输入值来预测输出,如股市预测、天气预报、癌症诊断,信用卡 发行机构也用n n s 做破产预测和预防欺诈; 分类:判断输入的模式属于哪一类,如字符识别、语音识别,通过对病况、 模式、图像、化学成分或顾客的经济状况的分析,产生一份诊断计划或投 资计划; 数据联想:类似于分类问题,但是具有联想功能,能从受损模式中恢复出原 始数据,如图像恢复; 数据过滤:平滑输入信号,如图像或语音信号的去嗓; 数据概念化:通过分析输入模式,推理数据之间的关系,如数据挖掘; 智能控制:当控制对象或控制过程具有复杂的时变性、非线性或不确定性 时,对它们不能精确建模,此时经典控制理论很难实现有效控制而神经网 络具有非线性映射能力,可以对不确定系统自适应和自学习; 优化计算与决策:卣目标函数和约束条件建立网络酌能量函数,用网络状 态的动态方程驱动网络运行,当系统稳定时,在稳定点上的能量达到极小 值,此时神经元状态对应最优值; 1 2 前馈神经网络 从连接的方式上看,神经网络可分为前馈型网络及反馈型网络两种其中多 第一章绪论 层前馈神经网络( 也称多层前向网络、多层感知器) 是典型人工神经网络模型之 一,也是在模式识别和分类方面发展得最早、研究人员最多、应用最为广泛的 一类人工神经网络模型作为促进人工神经网络研究重新复苏的一个重要方面, 前馈网络在人工神经网络研究的发展过程中占有重要的地位前馈网络提供了 描述复杂非线性映射和分类的一般性方法形成这一观点的理论基础来源于k f u n a h a s h i 1 0 和g c y b 盯l k o 【l l 】等人关于前馈网络的映射能力所做的研究工作, 他们一致的研究结果表明:只要规模足够大,即网络中的隐节点数目足够多,前馈 网络( 甚至只要一个隐层) ,可以以任意精度逼近( 或表达) 紧集上任意连续函数 多层前馈神经网络由三部分组成:一组感知神经单元组成输入层,一层或多 层计算神经元的隐层,还有一层计算神经元的输出层输入信号( 训练样本) 在层 层递进基础上前向传播通过网络在监督学习的方式下使用通常称为b p 算法这 种非常普遍的算法来训练多层感知器,它们已经成功应用于不同的复杂而困难的 问题 多屡前馈神经网络有三个突出的特点: 1 网络中的神经元包括非线性激励函数与r o s e r t b i a t t 感知器使用的硬限幅 函数( 如符号函数) 相反,非线性是光滑的( 即处处可微) 一般定义为s i g m o i d 型函 数非线性的出现是很有必要的,否则网络的信息处理结果仅仅被归结为单层感 知器所具有的输入输出关系,而且,s i g m o i d 函数的使用也是基于生物学上的考虑 2 网络包括一层或多层隐层神经元,它们不是网络输入输出的部分这些隐 层神经元逐步从输入样本( 向量) 中提取更多的有用的特征,可以使网络学习复杂 的任务 3 网络展示出高度的连续性,它由网络突触决定网络连接的改变需要突触 连接数量或其权值的改变 正是由于上述特性与通过训练从经验中学习的能力相结合,使得多层前馈神 经网络具有它独特的计算能力然而,同样是这些特性导致现阶段关于网络行为 知识的缺乏首先,由于非线性分布式的存在和网络的高度连接性使得多层感知 器的理论分析难于进行其次,隐层的使用使得学习过程变得更不想象就间接的 意义而言,学习过程必须决定输入模式的那些特征应该由隐层神经元表示出来 学习过程因此变得更困难了,因此不得不在大得多的可能函数空间搜索,同时不 得不在输入模式的不同表示中进行选择 许多学者非常怀疑像b p 算法的神经网络学习算法的实际表现,其中一个 一8 一 第一章绪论 ( a )( b ) 网1 ,l 感知器( a ) 只有一层的简单感訇i 器;( b ) 有一个隐层的两层感知| 器 主要原因就是缺乏收敛性理论的结果目前,神经网络的一个引人瞩目的方面 是对广泛使用的学习算法基础理论的研究近来,通过分析误差函数的形态 一些学者已经取得了对离线b p 算法( o 塌i n eb a c k - p r o p a g a t i o n ) 理论成果,特别是 重点已经放在了局部最小问题上然而,以我们所知,尽管在线b p 算法( o n l i n e b a c k - p r o p a g a t i o n ) 已经在许多方面得到了广泛的实际应用,但它的有限收敛性的 研究还不是很多从某种意义上讲,一方面在线b p 算法是在离线b p 算法的基础上 发展而来的,特别是当学习速率相对于训练的样本数不是太小时;另一方面,在 线b p 算法不仅仅是梯度下降法的一种逼近,大多数情况下它有许多不样的重 要的性质因此,从实验的角度来看,有必要分析解释在线b p 算法为什么在许多 不同的实际应用中取得成功的原因 这一节我们主要介绍一下前馈神经网络基本组成单位一一简单感知器,以及 多层感知器的结构;为了以后几章对理论分析的方便,我们在这里对多层感知器 的主要算法一- - b p 算法做了一些概括性的描述 5 1 2 1 简单感知器 分层前馈网络又称为感知器这种分层网络中,神经元以层的形式组织,并且 只有后层到前一层的连接,而同层的单元之间没有连接图1 1 给出了两个感知器 的例子 ! 图1 ,l ( a ) 是最简单的单层感知器( r o s e n b l a 廿感知器) ,它的源节点构成输入层, 直接投射到神经元输出层上去,而不是相反也就是说,这个网络是严格的前馈 的我们之所以称它为”单层”,是因为源节点没有计算功能,而不把这个输入层计 一o 一 第一章绪论 算在内由于单层感知器是多层感知器神经网络的基础,我们首先介绍一下它的 工作机理,具体的离散感知器和连续感知器的学习算法我们分别在第二章和第三 章给出 神经元对外界传入的个信号经权值彬处理后,用线性求和器得到”综合印 象”,再用激励函数g ( o ) 对此作出非线性反映这种反映机制是对真正的生物神经, 元反映机制的一种简单而又常常有效的模拟将大量简单神经元按某种方式连接 起来,并通过某种学习过程确定单元之间的连接权值,就得到各种人工神经网络, 用它们来完成逼近、分类、控制和模拟等各种任务 设给定j 个输入样本模式 f ) 名。,其中f = ( i ,岛) 7 碾”,以及理想输 出 o ) 名lc 豫1 另外,给定一个非线性函数9 ( z ) :r 1 一r 1 一个单层感知器( 神 经元) 的任务是选择权向量w = ( 卸1 , l l # n ) f r 和阌值8 r 1 ,使得 = f i 9 ( w f 一8 ) = g ( w 。嵌一口) n = 1 其中为网络的实际输出利用样本模式,通过某种学习算法选定之后,我们就 可以向网络输入豫中其他模式向量,得到相应的输出,从而完成各种分类或逼近 任务, 上述函数g ( 。) 称为激励函数,常见的有符号函数、径向基函数、随机值函数 等等网络的输出值及理想输t :b o j 可以只取有限个离散值( 例如双极值士1 或二 进制0 ,1 ) ,这时网络相当于一个分类器;也可以取连续值,这时网络相当于输入f 与输出0 之间函数关系的一种数值逼近器当存在和口使( 1 4 ) 成立时,我们说该 问题是可解的,或样本模式 f 名。是可分的;否则,称为不可解的,或不可分的 这时只能选取w 和口使得误差0 j p 尽可能地小 1 2 2 多层感知器以及b p 算法 多层感知器是现在应用最为广泛的神经网络它采用光滑激励函数,具有一 个或多个隐层,相邻两层之间通过权值全连接它是前馈网络,即所处理的信息逐 层向前流动而当学习权值时,却是根据理想输出与实际输出的误差,由前向后逐 层修改权值( 误差的向后传播,1 1 1 b a c kp r o p a g a t i o n ) 因此,这种网络又叫做b p 神经 网络 以带一个隐层和一个输出单元的两层b p 神经网络为例,其拓扑结构如 一1 0 第一章绪论 图1 1 ( b j 所示 选定一个非线性光滑激励函数9 :豫1 一r 1 ,输入到隐层的权矩阵为w : h s p s 只1 5 。! ,隐层到输出层的权矩阵为y = h ! 。! 。1 白s p 对任一输入 信息向量f = ( 。,臼) r ”,网络的实际输出为 其中隐层输出为 p 白= 9 n ) = 9 ( 唧) ,m = 1 ,m ( 1 5 a ) 0 p = g ( ) = 9 ( 矗) ,p = 1 ,p ( 1 5 b ) n 茹1 现在,假设给定一组样本输入向量 f 盎- c 剐7 及相应的理想输出 伊 名。c 琏”,并记 ) 是lcr m 为相应的实际输出定义误差函数 e ( 眠啦;刭j 0 s _ 钏2 pn 一g ( 哳g ( 靠) ) 2 , ( 1 6 ) p n = l 权值矩阵和y 的确定( 即学习过程) 应使误差函数e ( 彤y ) 达到极小为此,一个 简单而又常用的方法是梯度下降法取当前权值w 南的改变量为 其中口为学习速率, 一”罴 = q ( 嚷一岛) 9 ( 壤) j = l = 卵撅, ( 1 7 ) j = 1 醵= ( o 鲁一岛) 9 ( 霸)( 1 8 ) m ,博 1 2 第一章绪论 而 ( 1 9 ) 是隐层单元对第m 个输出层单元的线性输入进一步,我们可以得到当前权 值坼。的改变量应为: 其中 h 卯亡o e 舯- - p 一”面一”备丽瓦 = q ( 陬一( d g ( 碾) 9 ( 嵋) 岛 j = lr n = l = 1 9 ( 嘭) 器, ( 1 1 0 ) m = 9 ( 嵋) 鲁, 1 = 1 综合以上讨论我们看到,应用b p 网络时,所处理的信息( 工作流程) 是前向传 播的( 见( 1 5 ) ) ,因此称为前馈网络而在网络学习阶段,是用误差的向后( 或称反 向) 传播来逐层修改权值( 见( 1 7 ) 和( 1 1 0 ) ) ,因此称为反向传播( b a c k p r o p a g a t i o n ) 算 法 在线梯度法 在迭代公式( 1 7 ) 和( 1 1 0 ) ,我们必须将所有训练样本 , 墨。t 全部输入到网络 中然后才能对当前的权值w n v i 敏- - 4 , 步调整实际应用中,样本数常常很大, 上述做法看起来不够经济因此,广泛应用的是下述所谓在线梯度法:随机选取 一个样本f ,对当前权值叫和矿,定义权值增量为 u = q 蠢a 一1 2 一 ( 1 | 1 2 a ) 晖 p ,州 = j m h 器 村 | | 晖 第一章绪论 t 矗= q 靠, ( 1 1 2 b ) p = 1 ,p ;n = 1 ,;m = 1 ,m 现在,每输入一个训练样本向量,我们马上修改一次当前权值关于在线梯度法收 敛性的一些讨论,可参见 6 1 ,6 2 局部极小问题 像所有利用导数的优化方法一样,梯度法很容易陷入误差函数的局部极小 在线梯度法可以看作是梯度法的一种随机扰动,有助于跳出局部极小另外应该 指出,对许多实际问题,局部极小解是可以接受的 激励函数9 ( 。) 的选择 通常选为符号函数的光滑逼近,即s i g m o i d 型函数,例如: 9 ( z ) = 再i 而1 ,( 1 1 3 ) g ( z ) = t = h ( 3 z ) ( 1 1 4 ) 其中口 o 是适当选定的常数一般地,满足如下性质的函数称为s i g m o i d 函数: 光滑,单调递增,上、下有界( 称为饱和性) 饱和值可以是o 1 ( 例如( 1 1 3 ) ) ,也可 以是士1 ( 例如( 1 1 4 ) ) 以上列举的两个函数还有一个特点,就是它们的导数值可以 由其函数值给出,分别有 ,( z ) = 2 3 ( 1 一g ( z ) ) 萝( 芏) 9 ( 茁) = z ( 1 一9 2 ( z ) ) ( 1 1 5 ) ( 1 1 6 ) 这一性质有利于减小计算量 当然,也可以选择其他激励函数例如,径向基函数、小波函数、样条函数等 一1 3 一 第一章绪论 等这些函数在某些逼近性质方面可能比s i g m o i d 型函数好,但是s i g m o i d 型函数 的鲁棒性( r o b u s t n e s s ) 更好 另外,( 1 5 ) 中两层的激励函数可以选成不相同的例如可以将( 1 5 a ) 中 的g ( z ) 选为线性函数 初始权值的选取 初始权值w o ,v o 通常选取为接近于零的随机数,太大的初值可能使系统过 早地陷入饱和区侧如对于s i 哥n o i d 函数9 ( ) ,当h 较大时,g ( z ) o ) ,不利于进一 步学习 其它误差函数 二次型函数( 1 6 ) 并非是误差函数的唯一选择任何一个可微函数f ( 0 ,p ) 只 要在= p 处取最小,都可以代替j l 一f 悒并导出相应的权值更新规则,下面 的所谓“熵测度”函数就是一个有自己特点的误差i 激 5 2 ,5 4 】: e = 圭j = l m 釜:l ;c + 。珈s 苌导+ i 1 c - 一晚# 鲁 t 这里我们设( 1 5 ) 中9 ( 。) 的饱和值为士1 特别地,若取9 ( 。) = t a n h ( 触) 则可推得,相 应于( 1 8 ) 的公式现在成为 毛= p ( o 毛一簖) ( 1 1 8 ) 我们注意到( 1 - 8 ) 中的导数项9 ( 日毛) 现在换成了常数项卢这一改变克服了权值 修改公式( 1 ,7 ) 的如下缺点:当实际输出镰极端错误( 铙“- 1 ,o tz1 ) 时, 由( i 1 6 ) 知g ( 上臻) 接近于零,从而使本来应作较大改变的当前权值只得到极小 的改变 还有一种折中的方式可以综合两个误差函数的优点,比如定义相应于( 1 8 ) 的 公式为 鲁= ( g ( 且乏) + o - 1 ) ( o 鲁一岛) ( 1 1 9 ) 1 4 第一章绪论 学习速率n 的选择 在梯度下降法中,学习速率( 或步长) 町如果太小,则收敛速度很慢;如果q 太 大,有可能引起迭代杰的剧烈震荡”的选择并非易事 4 4 ,4 5 1 下面的所谓的自 适应规则是常用的在每一步( 或若干步) 权值迭代更新后,给当前的口值一个改变 量竹:, la r l 如果e 0 ? ? = ( 1 2 0 ) l 一切如果a e 0 其中e 是误差函数e 的改变量,口和6 是适当的正常数 网络逼近能力 一个典型的结果是,若9 ( 。) 为9 m 嘶d 函数,则可以适当选择隐单元个数m 及 权值w v v ,使得神经网络( 1 5 ) 以任意给定精度逼近一个给定的连续函数 9 】这 就给多层前馈网络的广泛应用提供了理论保证 隐层个数 由以上结果,多于一个隐层的前馈网络显然不是必要的但是对于某些问题, 更多的隐层有可能导致总的单元数减少,从而得到更有效的神经网络带更多隐 层的相应的学习方法可类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论