(计算机应用技术专业论文)bp神经网络中一种逃离局部极小点的方法研究.pdf_第1页
(计算机应用技术专业论文)bp神经网络中一种逃离局部极小点的方法研究.pdf_第2页
(计算机应用技术专业论文)bp神经网络中一种逃离局部极小点的方法研究.pdf_第3页
(计算机应用技术专业论文)bp神经网络中一种逃离局部极小点的方法研究.pdf_第4页
(计算机应用技术专业论文)bp神经网络中一种逃离局部极小点的方法研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)bp神经网络中一种逃离局部极小点的方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 b p ( b a c k p r o p a g a t i o n ) 算法是现在用得最多的一种神经网络学习算法,由 于它是基于最速下降方法,它有收敛速度慢、容易陷入局部极小点等缺点,这限 制了它的应用范围。 本文从标准b p 算法容易陷入局部极小点这个问题着手,分析其容易陷入局 部极小点的原因,即网络神经元的转换函数s i g m o i d 函数存在一个饱和区域,在 此区域中网络节点的输入变化大但是其输出变化极小,甚至变化可以忽略不计, 由此产生了网络的输出对输入的敏感性极小,网络的输出和输入不协调,网络陷 入局部极小点。所以本文提出了一种改进价值函数,使价值函数不仅与输出层的 输出有关还与隐藏层的输出有关,从而加大网络对输入的敏感性,使网络的输出 和输入之间尽可能协调,使其能快速逃离局部极小点,收敛到全局最小点。然后 根据价值函数的性能曲面,对改进的b p 算法的各参数( 因子) 在几种特殊情况 下进行了讨论,并给出了迭代过程中最优参数的计算方法。 在文章的最后对扩展的异或问题进行了仿真实验,用改进b p 算法和标准带 动量因子的b p 算法与模拟退火算法进行了对比,对比结果表明:标准的b p 算 法只能确保收敛到极小点,但不能确定是局部极小点还是全局极小点,改进的 b p 算法能确保收敛到全局极小点;改进的b p 算法比模拟退火算法的收敛速度 快很多。 因此,这种改进的方法能加快收敛速度并收敛到全局极小点,达到了期望的 效果。 关键词:b p 算法,s i g m o i d 函数,价值函数,饱和区域,不协调,逃离局部 极小点,全局极小点 a b s t r a c t an e wr e s e a r c l l0 ne s c a p l n gi r o m1 0 c a lm i n l m ai n _ j1 b a c k p r o p a g a t i o na l g o r i t h m b a c k p r o p a g a t i o na l g o r i t h mi san e u r a ln e t w o r kl e a r n i n ga l g o r i t h mu s e dw i d e l y b u tt h ea l g o r i t h mi sb a s e do nt h es t e e p e s td e s c e n tm e t h o d ,a n dt h em e t h o do f t e n s u f f e r sf r o mas u b o p t i m a ls o l u t i o no ral o c a lm i n i m ap r o b l e m ,w h i c hl i m i t si t ss c o p e o fa p p l i c a t i o n s t a r t i n gw i t ha n a l y z i n gt h er e a s o n so fs i n k i n gi n t o l o c a lm i n i m a ,t h ea u t h o r n o t i c e st h a tas a t u r a t i o nr c g i o ne x i s tf o ra ne r r o rf u n c t i o ni nw h i c ht h ec o r r e s p o n d i n g c h a n g e si no u t p u tl a y e ra x eu n n o t i c e a b l eo re v e nn e g l e c t e dw i t ht h o s eo fi n p u tl a y e r , c a u s i n gt h eo u t p u tl a y e r sl o s eo fs e n s i t i v i t yt oi n p u ts i g n a l sa n dt h es e v e r eb l o c ko f t h ep r o p a g a t i o no fi n f o r m a t i o n am o d i f i e de r r o rf u n c t i o nh a sb e e np r o p o s e dw h i c hi sr e l a t e dt ot h eo u t p u to ft h e h i d d e nl a y e r sa sw e l la st h a to ft h en e t w o r k ,t h e r e b yi n c r e a s i n gt h es e n s i t i v i t yt ot h e i n p u tn e t w o r ka n dh e l p i n g i te s c a p ef r o mt h el o c a lm i n i m aa n dc o n v e r g et ot h eg l o b a l m i n i m a e s p e c i a l l yt h ei m p r o v e dv a r i o u sp a r a m e t e r si ns e v e r a ls p e c i a lc i r c u m s t a n c e s a r ed i s c u s s e da n di h em e t h o d so fc a l c u l a t i n gt h eo p t i m a lp a r a m e t e r sg i v e n f i n a l l y ,a m o d i f i e dx o ri su s e di nt h es t i m u l a n te x p e r i m e n t s ,a n dt h er e s u l tc o n t r a s tw i t ht h e p r e v i o u sb pa l g o r i t h mi n d i c a t e st h a t t h en e wb a c k p r o p a g a t i o na l g o r i t h mc a nf a s t e s c a p ef r o mt h el o c a lm i n i m aa n dc o n v e r g et ot h eg l o b a lm i n i m aw h i l et h ep r e v i o u s b pa l g o r i t h mc a n n o tc o n f i r mw h e t h e rt h ec o n v e r g e dm i n i m ai st h el o c a lo n eo rt h e g l o b a lo n e f u r t h e r m o r e ,t h ec o n v e r g i n gs p e e do fi m p r o v e db pa l g o r i t h mi s m u c h h i g h e rt h a nt h a to ft h e s i m u l a t e d a n n e a l i n ga l g o r i t h m a l l t h er e s u l t so ft h e e x p e r i m e n ta n dc o n t r a s ta r ej u s tw i t h i nt h ee x p e c t a t i o n k e yw o r d s :b a c k p r o p a g a t i o na l g o r i t h m ,s i g m o i df u n c t i o n ,e r r o rf u n c t i o n , s a t u r a t i o nr e g i o n ,e s c a p ef r o mt h el o c a lm i n i m a ,g l o b a lm i n i m a i v 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究在做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律责任由本人承担。 论文作者签名:耋垄盐 日 期: 2q q g 生! 星 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权贵州大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:交墨途 导师签名:主量型k 日期:2 垒q 墨生璺且 第1 章绪言 人脑是产生自然智能的源泉,是真正出色的并行计算机。研究人类思维一直 是科学发展中最有意义、最激动人心、也是最富有挑战性的课题。自从公元前亚 里士多德时代开始,人们就开始研究具有思维能力的机器。第一台电子计算机的 问世使这方面的研究有了实质性的进展。以计算机为中心的处理技术的高速发 展,使得计算机在当今的信息化社会中起着十分重要的作用。但是,当用它来解 决某些人工智能问题时却遇到了很大的困难乜m m 1 。而大脑是由生物神经元构成 的巨型网络,它在本质上不同于计算机,是一种大规模的并行处理系统,它具有 学习、联想、记忆、综合等能力,并有巧妙的信息处理方法n 町n 。 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,简称a n n ) 是在人类对其大脑神 经网络认识理解的基础上人工构造的能够实现某种功能的神经网络,它是理论化 的人脑神经网络的数学模型,是基于模仿大脑神经网络结构和功能而建立的一种 非算法的信息处理系统【2 1 f 3 | 。它的出现成为人们进一步了解人脑思维奥秘的有力 工具。尽管它还不是大脑的完美无缺的模型,但它特有的非线性适应性信息处理 能力,可以通过学习来获取外部的知识并存储在网络内,可以解决计算机不易处 理的难题,特别是语音和图像识别 1 、理解、知识的处理、组合优化计算和智能 控制等一系列本质上非计算的问题,使之在神经专家系统、模式识别、智能控制、 组合优化、预测等领域得到成功应用n 1 。人工神经网络与其它传统方法相结合, 将推动人工智能和信息处理技术不断发展。 1 1 人工神经网络的历史、特点及现状 1 1 1 人工神经网络的历史 人工神经网络的研究始于2 0 世纪4 0 年代。半个多世纪以来,它经历了一条由 兴起到衰退,又由衰退到兴盛的曲折发展过程,这一发展过程大致可以分为以下 四个阶段。 1 ) 初始发展阶段 人工神经系统的研究可以追溯n 1 8 0 0 年f r u e d 的前精神分析学时期,他已做 了些初步工作。1 9 1 3 年人工神经系统的第一个实践是由r u s s e l l 描述的水力装置。 1 9 4 3 年,美国的心理学家w s m c c u l l o c h 和数学家w a p i t t s 在论文神经活动中 所蕴含思想的逻辑活动中,提出了一个非常简单的神经元模型,即m p 模型。 该模型将神经元当作一个功能逻辑器件来对待,从而开创了神经网络模型的理论 研究。m p 神经元模型首次以简单的数学模型模仿出生物神经元活动功能,并揭 示了通过神经元的相互连接和简单的数学计算,可以进行相当复杂的逻辑运算这 一令人兴奋的事实。此模型沿用至今,直接影响着这一领域研究的进展,以致人 们通常认为他们的工作是神经网络领域研究工作的开始。 1 9 5 8 年,f r o s e n b l a t t 等人研制出了历史上第一个具有学习型神经网络特点 的模式识别装置,即代号为m a r ki 的感知机( p e r c e p t r o n ) 。对于最简单的没 有中间层的感知机,r o s e n b l a t t 证明了一种学习算法的收敛性,这种学习算法通 过迭代地改变连接权来使网络执行预期的计算。 稍后r o s e n b l a t t ,b w i d r o w 等人创造出了一种不同类型的会学习的神经网络 处理单元,即自适应线性元件a d a l i n e ,并且还为a d a l i n e 找出了一种有力的学习 规则,这个规则至今仍被广泛应用。 除r o s e n b l a t t 和w i d r o w 外,在这个阶段还有许多人在神经计算的结构和实 现思想方面作出了很大的贡献。例如,k s t e i n b u c h 研究了称为学习矩阵的一种 二进制联想网络结构及其硬件实现。n n i l s s o n 于1 9 6 5 年出版的机器学习一 书对这一时期的活动作了总结【3 1 0 2 1 低潮时期 1 9 6 9 年m m i n s k y 和s p a p e r t 所著的感知机一书出版。在该书中,作者 对单层神经网络进行了深入分析,并且从数学上证明了这种网络功能有限,甚至 不能解决像“异或( x o r ) 这样的简单逻辑运算问题;同时,他们还发现有许 多模式是不能用单层网络训练的,而多层网络是否可行这个问题还很值得怀疑: 他们还指出,能够求解非线性问题的网络,应该是具有隐藏层的多层神经网络, 而将感知器模型扩展到多层网络是否有意义,还不能从理论上得到有力的证明。 由于m m i n s k y 在人工智能领域中的巨大威望,他在论著中作出的悲观结论 给当时神经网络沿感知机方向的研究泼了一盆冷水。他的悲观结论对当时神经网 2 络的研究是一个沉重的打击。由于当时计算机技术还不够发达,超大规模集成电 路( v e r yl a r g es c a l ei n t e g r a t e dc i r c u i t e s ,简称v l s i ) 尚未出现,神经网络的 应用还没有展开,而人工智能和专家系统正处于发展的高潮,从而导致很多研究 者放弃了对神经网络的研究,致使在这以后的1 0 年中,神经网络的研究进入了 一个缓慢发展的低潮期。 但是,仍然在1 9 7 2 年t e u v ok o h o n c n 和j a m e sa n d e r s o n 分别独立提出了能够完 成记忆的新型神经网络,s t e p h e ng r o s s b e r g 在自组织识别神经网络方面研究也十 分活跃。同时也出现了一些新的神经网络模型,如线性神经网络模型、自组织识 别神经网络模型以及将神经元的输出函数与统计力学中的玻耳兹曼分布联系的 b o l t z m a n n 机模型等【2 1 儿2 5 1 。 3 ) 复兴时期 到了8 0 年,随着个人计算机和工作站计算机能力的急剧增强和广泛应用, 以及不断引入新的概念,克服了摆在神经网络研究面前的障碍,人们对神经网络 的研究热情空i 订高涨。尤其是在美国波士顿大学的s g r o s s b e r g 、芬兰赫尔辛基 技术大学的t k o h o n e n 以及同本东京大学的甘利俊一等人的坚持不懈的工作下, 神经网络研究丌辟了了一条复兴道路。 1 9 8 2 年,美国加州理工学院的生物物理学家j j h o p f i e l d 采用全互连型神经网 络模型,利用所定义的计算能量函数,成功地求解了旅行商问题( t r a v e l l i n g s a l e s m a np r o b l e m ,简称t s p ) 。1 9 8 4 年, a t & tb e l l 实验室利用h o p f i e l d 理论研 制成功了第一个研究神经网络芯片。尽管早期的h o p f j e l d 网络还存在一些问题, 但不可否认,正是由于h o p f i e l d 的研究才点亮了神经网络复兴的火把,从而掀起 神经网络研究的热潮。另外,在1 9 8 6 ,d e r u m e l h a r t 和j l m c c l e l l a n d 及其研究 小组提出p d p ( p a r a l l e ld i s t r i b u t e dp r o c e s s i n g ) 网络思想,则为神经网络研究新高潮 的到来起到了推波助澜的作用。 4 ) 20 世纪8 0 年后期以来的热潮 h o p f i e l d 模型提出后,许多研究者力图扩展该模型,使之更接近人脑的功能 特性。1 9 8 3 年,t s e j n o w s k i 和g h i n t o n 提出了“隐单元的概念,解决了m m i n s k y 和s p a p e r t 在感知机一书中提到的具有隐藏层的多层神经网络的问题,并且 研制出了b o l t z m a n n 机。日本的福岛邦房在r o s e n b l a t t 的感知机的基础上,增加隐 3 层单元,构造出了可以实现联想学习的“认知机”。k o h o n e n 应用3 0 0 0 个阈器件 构造神经网络实现了二维网络的联想式学习功能。经过许多专家的艰苦奋斗,终 于解决了m m i n s k y 和s p a p e n 在感知机中提到的一些问题。在8 0 年代中期, 哈佛大学的w e r b sp 和斯坦福大学的r u m e l h a r td 等人发表了称为反向传播( b a c k p r o p a g a t i o n ) 算法的学习算法,同时给出了使用b p 算法的应用实例,使得其效果 受到了人们的普遍关注。1 9 8 6 年,d r u m e l h a r t 和j m c c l e l l a n d 出版了具有轰动性 效应的著作并行分布处理认知微结构的探索,该书的问世宣告神经网络的 研究进入了新高潮。 8 0 年后代期,特别是在近年来,神经网络的研究取得了很大的进展,在神经 网络这个涉及生物、电子、计算机、数学、物理等多种学科的新的高科技领域中, 吸引了众多的神经生理学家、心理学家、数学家、计算机与信息科学以及工程师 和企业家等。大量的有关神经网络机理、模型、算法特性分析,以及在各方面的 应用的研究成果层出不穷,在国际上掀起了一股人工神经网络的研究热潮。 具体各种神经网络模型见下表:【1 1 网络名称发明者时间特点局限性典型庶川领域 感知器 f r a n k 1 9 5 8 最甲的神经不能识别复杂字文字识别、声 ( p e r c e p t r o n ) r o s e n b l a t t 网络,有学符,与输入模式 音识别利学习 ( 康奈尔人 习能力,只 的人小、平移硐i记忆等 学) 能进行线性旋转敏感 分类 白适应线性单元 b c r n a r d 1 9 6 0 学习能力较要求输入一输出雷达大线控 ( a d a l i n e ) w i d r o w ( 斯坦福大 强,较早开 之间是线性关系制、自适应同 1 9 6 2始商业应用波抵消等 学) 误差反传网络w e r b s p ( 哈 1 9 7 4 多层前馈网需要大量输入一语音识别、过 b p ( b a c k 佛大学) r u m e l h a r td 络,采用最输出数据,训练程控制、模式 p r o p a g a t i o n ) ( 斯坦福大 1 9 8 5 小均方差学时间长,易陷入识别等 学) 习方式,是局部极小 m c c l e l l a n d 目前应用最 ( 斯坦福大 广泛的网络 学) 4 自适应共振理论 c a r p e n t e rg 1 9 7 6可以对任意受平移、旋转和模式识别,长 a r t g r o s s b e r gs ( a d a p t i v e ( 波士顿大 多个和任意尺度的影响:系于识别复杂、 r e s o n a n c e 1 9 9 0 复杂的二维统较复杂未知模式 学) t h e o r y ) 模式进行自 组织学习 自组织特征映射 t u e v o 1 9 8 0 对输入样本模式类型数需要 语音识别、机 网络 k o n h o n e n s o m ( s e l f ( 芬兰赫尔辛 自组织聚 事先知道器人控制,图 o r g a n i z i n g 类,可映射像处理等 f e a t u r em a p ) 基技术大学) 样本空间的 分布 h o p f i e l d 网络 j o h nh o p f i e l d1 9 8 2 单层自联想无学习能力,权求解t s p 问题, ( 加州理工 网络。可从值要预先设定优化计算及联 学院)缺损或有噪想记忆等 声输入中恢 复完整信息 玻尔兹曼机 h i n t o nj 1 9 8 5 采州随机学玻尔兹曼机训练图像、卢纳和 ( b o l t z m a n( 多伦多人 m a c h i n e ) :学) 习算法的网时间k :柯阳机雷达等的模式 柯两机 s e j n o ws k it 1 9 8 6络,可训练在某些统计分布识别 ( c a u c 2 h y m a c h i n e ) ( 霍布金斯人 实现全局最卜产生噪卢 学)优 1 1 2 人工神经网络的特点 人工神经网络吸取了生物神经网络的许多优点,它具有以下几个突出的优点 使它近年来引起人们的极大关注: 1 ) 可以充分逼近任意复杂的非线性关系; 2 ) 所有定量或定性的信息都等势分布贮存于网络内的各神经元,故有很强的 鲁棒性和容错性; 3 ) 采用并行分布处理方法,使得快速进行大量运算成为可能: 4 ) 可学习和自适应不知道或不确定的系统; 5 5 ) 能够同时处理定量、定性知识。 人工神经网络由于结构的特殊性,使得它具有几个固有的独特的特点: 1 、) 高度并行性 人工神经网络是由许多相同的简单处理单元并联组合而成,使其对信息的处 理能力与效果惊人。 2 ) 高度非线性全局作用 人工神经网络每个神经元接受大量其它神经元的输入,并通过并行网络产生 输出,影响其它神经元。网络之间的这种相互制约和相互影响,实现了从输入状 态到输出状态空间的非线性映射。从全局的观点来看,网络整体性能不是网络局 部性能的简单迭加,而表现出某种集体性的行为。 3 1 良好的容错性与联想记忆功能 人工神经网络通过自身的网络结构能够实现对信息的记忆,而所记忆的信息 是存储在神经元之间的权值中。从单个权值中看不出所存储的信息内容,因而是 分布式的存储方式,这使得网络具有良好的容错性,既能进行模式信息处理工作, 又能进行模式联想等的模式信息处理工作,又能进行模式识别工作。 4 1 十分强的自适应、自学习功能 人工神经网络可以通过训练和学习束获得网络的权值与结构,呈现出很强的 自学习能力和对环境的适应能力。 1 1 3 人工神经网络研究的现状 神经网络的研究可以分为理论研究和应用研究两大方面。 理论研究可分为以下两类: 1 ) 利用神经生理与认知科学研究人类思维以及智能机理。 2 1 利用神经基础理论的研究成果,用数理方法探索功能更加完善、性能更加 优越的神经网络模型,深入研究网络算法和性能,如:稳定性、收敛性、容错性、 鲁棒性等;开发新的网络数理理论,如:神经网络动力学、非线性神经场等。 应用研究可分为以下两类: 1 、) 神经网络的软件模拟和硬件实现的研究。 2 ) 神经网络在各个领域中应用的研究。这些领域主要包括:模式识别、信号 6 处理、知识工程、专家系统、优化组合、机器人控制等。 随着神经网络理论本身以及相关理论、相关技术的不断发展,神经网络的应 用定将更加深入。 1 2 b p 神经网络研究的内容及其应用 由于单个感知器的功能有限,1 9 6 9 年,m i n s k y 和p a p e r t s 对多层神经网络 提出了一些看法,他们的观点多少影响了人们对神经网络研究的积极性。后来人 们提出了多层前馈网络( m l p ) 模型。 多层前馈网络( m l p ) 模型是最常用的一种网络模型,它含有输入层、输出层 以及处于输入输出层之间的中间层。中间层有单层或多层,由于它们和外界没有 直接的联系,故也称为隐层。在隐层中的神经元也称隐单元。隐层虽然和外界不 连接,但是,它们的状态则影响输入输出之间的关系。而且隐层对网络的收敛等 特性起了一个决定性的作用,也是说,改变隐层的权系数,可以改变整个多层神 经网络的性能。理论已证明只含一个隐藏层的m l p 可以一致逼近r 上具有紧支集 的任何连续函数,也可在最小均方误差意义下逼近任意平方可积函数。 学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程 中,学习算法的研究有着十分重要的地位。目前,人们所提出的神经网络模型都 是和学习算法相应的,有的模型可以有多种学习算法,而有的学习算法可以用于 多种模型。 在上个世纪八十年代,哈佛大学的w e r b sp 和斯坦福大学的r u m e l h a r td 等 人发表了称为反向传播( b a c kp r o p a g a t i o n ) 算法的学习算法。它是基于多层前馈 网络( m l p ) ,但误差采用反向传播,由反向传播的误差来更新网络的权值和偏 置值的一种学习算法。b p 算法理论基础坚实、推导过程严谨、所得的公式形式 对称优美、物理概念清晰、通用性好,直到今天,它仍然是前馈网络学习的主要 算法之一1 ,它仍然是自动控件上最重要、应用最多的有效算法。 b p 神经网络作为一种非线性系统的工具在分类模式识别、图像处理和系统控 制等领域得到了广泛应用。它重新燃起了人们对神经网络研究的热潮。随着研究 过程的深入,随着b p 神经网络的广泛应用,它的不足之处也慢慢体现出来了,主 要有三点:1 ) b p 算法学习过程收敛速度慢;2 ) 用b p 算法所得到的网络性能差,比 如可能出现假稳定状态,样本可能不是网络的稳定状态等;3 ) 因为误差平方和函 数可能有局部极小点出现,故b p 算法不是完备的。 1 3 b p 神经网络在国内外研究现状及本文的研究内容 由于b p 神经网络存在网络收敛慢和容易陷入局部极小等问题,许多学者致力 于改进b p 算法克服上述缺点。总结起来,一般是从如下四个方面进行改进: 1 ) 为提高网络收敛速度,避免网络陷入局部极小点,或者为了改进网络推广 能力而对传统b p 算法进行改进; 2 ) 采用其它的方法训练m l p ,如为扰动法估计导数、遗传算法、逆推最d , - 乘法、扩展的k a l m a n n 滤波方法等; 3 ) 采用其它可实现函数逼近、分类和概率密度估计的前馈网络模型,包括除 s i g m o i d 函数外的其它函数网络( 径向基函数、多变量自适应回归样条、三角函数 及多项式函数基、投影寻踪回归法等) ; 4 ) 采用某些复杂的结构模型,如模块结构、分级结构等形式的网络。 国内外仍在不断开展改进b p 神经网络算法的研究工作。在国内一般用遗传算 法或基于模拟退火算法相结合的方法进行改进。高宏宾四3 提出了一种利用遗传算 法对b p 算法的改进方案。它充分考虑t b p 算法的精确性和遗传算法全局寻优的特 点,使b p 算法摆脱局部极小的困扰,并且所训练的网络能够达到要求的精度。但 是遗传算法由于参数还没有一个定量的标准,大多数都是由实验经验所得,并不 可靠,而且不同的编码、不同的遗传技术都会影响到遗传参数的选取,因而会影 响到算法的通用性。模拟退火算法由于是以初始温度足够高、时间足够长为代价, 因而在网络反应时间要求高的系统中用处不大。 在国外,有研究者采用其它的算法来进行神经网络学习。空h a m i tb h a y a 3 1 提出了建立c g ( c o n j u g a t eg r a d i e n tm e t h o d ) 算法和带动量因子的b p 算法之间的不 同的联系。特别分析提出了一个普通的l i a p u n o v 函数逼近和b p 算法一样好。并提 出了一个连续的c g 算法,如何选择参数( 学习因子和动量因子) ,来确保这系统 是全局渐近稳定逼近,从而达到误差函数收敛趋近到o 。r i m e r 瞳2 1 提出一个新的基 于分类的价值函数( c l a s s i f i c a t i o n b a s e de r r o rf u n c t i o n s ,c b ) 的启发式逼近 ( h e u r i s t i ca p p r o a c h e s ) 方法。它是企图引导网络直接逼近到正确的模型分类而 8 不是利用通常的误差最小的启发式方法逼近到正确的模型分类。 另外也有一些研究者从b p 神经网络原理的角度对其进行分析,进行改进。 e u g e n ed e m i d e n k o n 4 1 从分析非线性系统中得到了曲率和误差平方和之间的关系, 提出了局部单峰性( 1 0 c a lu n i m o d a l i t y ) ,误差平方和函数的局部单峰性的级别 ( 1 e v e l ) 等于非线性衰退函数的内在的曲率( i n t r i n s i cc u r v a t u r e ) 的最小平方半 径。利用这个可以加强b p 神经网络的分类功能。g e o f f r e yh i n t o nn 刚从能量函数 的角度进行分析,利用一个无人监督的非线性的多层神经网络来对多维数据向量 进行建模。 为了加快b p 神经网络的收敛速度,许多研究者提出了许多改进的方法,取得 了可喜的成就。由于b p 神经网络在迭代过程很费时间,f r i t zs t a g e r 5 1 提出三种 改进的批处理模式的方法:离线训练方法( o f f l i n et r a i n i n g ) 、基于梯度的方法 ( g r a d i e n t b a s e d ) 、与梯度无关的方法( g r a d i e n t f r e e ) 。对于带有线性输出层的 非线性多层感知器,提出了一个输出层基于线性衰退的非线性多层感知器 ( n m l p ) 。对于任意的n m l p ,考虑到隐藏层的节点的贡献,来确定是否删除饱 和的隐藏层节点还是重新激活隐藏层节点。j i my f y a m 邮提出了一个基于柯西 ( c a u c h y ) 不等式和一个线性代数( al i n e a ra l g e b r a i cm e t h o d ) 的方法柬确定前 向神经网络的最优初始权值。k a m a r t h is v z ) l 提出了一个基于外推的算法来加速 b p 算法。这个需要误差函数表面沿着主要的轴上有一个平滑变化,以使外推j 有 可能。x i a o m i n gc h e n 。”1 提出了一个修改误差函数的方法,来加快网络的收敛速 度。y h z w e i r i 抛m 3 m 4 1 更是在加速权值的调整过程时,提出了第三个因子:比 例因子( p r o p o r t i o n a lf a c t o r ) ,并对其稳定性和收敛性进行了分析。 为使网络逃离局部极小点,收敛到全局极小点,也有一些专家提出了一些有 意义的改进方法。n i k o l a o sa m p a z i s a 心3 1 在分析了系统的雅可比矩阵( j a c o b i a n m a t r i x ) 后,提出评价系统的学习特性是这矩阵的特征值。局部极小点关系到平 滑曲线的临界点( c r i t i c a lp o i n t s ) 。顺着这个分析,作者采用种强制最优的方法 ( c o n s t r a i n e do p t i m i z a t i o nm e t h o d s ) ,这方法能减少在这种局部极小点的邻近区域 内的时间花费,快速逃离局部极小点。日本t o y a m a 大学的z h i q i a n gz h a n g 呻1 为了 解决局部极小问题,提出了一个在误差函数中添加一个因子,这因子关系到隐藏 层的神经元的饱和度。但是为了防止隐藏层神经元陷入深度饱和区域,网络的激 9 活函数是自适应函数( a d a p t e d ) 。 近年来,t k a t h i r v a l a v a k u m a r 1 提出了一个对单隐藏层的前向网络的个 全新的有效的训练方法。对隐藏层采用一个新的最优化的标准,找到每个隐藏神 经元的假想的教师信号,修改标准b p 算法。j a v i e re v i t e l a 力在分析标准b p 算 法,发现了标准b p 算法在训练过程中有过早饱和现象,他把这个过早饱和现象的 全过程用三个独特的阶段来刻画,得出结论:动量因子在发生这个现象中起了一 个决定性的作用,并得出了产生这个现象的必要条件,最后提出了基于这些条件 估计发生这个现象的一个方法。x g w a n g ,z t a n g 叼删等分析得到“在隐减 层和输出层的权值矩阵的更新不协调( u p d a t ed i s h a r m o n y ) ”,提出了修改价值函 数的方法来逃离局部极小点。然而他们只考虑网络仅仅只有一个隐藏层的情况, 也没有对网络的参数的选择作进一步的讨论。 在网络的学习参数的优化方面,也有很多人做了深入的研究。国内东南大学 的x i a o - h uy u 。m 1 根据b p 神经网络的前馈和反馈过程得出“估计最优的学习因子 ( l r ) 和动量因子( m f ) 的计算和存储的负担是三倍于标准b p 算法( b p a ) 。然 而反馈学习过程能被显著加速而节省运行时间”。y a h y ah 口引提出了三因子算法。 添加上的比例因子增加了b p 算法的速度,但也减小了b p 算法的收敛速度。但他分 析并得到了求迭代过程中各个因子的最优值计算的一个公式。 本文主要是研究了人工神经网络中一种最常用也用得最多的一种网络学习 算法b p ( b a c k p r o p a g a t i o n ) 算法。由于b p 算法存在收敛速度慢且容易陷 入局部极小点等等一些缺陷,故从网络节点的转换函数( s i g m o i d 函数) 入手, 分析网络收敛速度慢及陷入局部极小点的原因。对其缺陷进行改进。改进网络的 价值函数,使其不仅与输出层的输出有关,还与隐藏层的输出有关,从而使得网 络在迭代过程中权值的修改与输出层的实际输出和期望输出的差尽可能保持同 步,从而达到加快收敛并逃离局部极小点收敛到全局极小点的目的。 然后对这种改进的方法和标准b p 算法进行了对比,验证其是否能正常逃离 局部极小点,收敛到全局极小点;并和现在最流行的逃离局部极小点的算法 模拟退火算法进行对比,看其收敛速度是否达到或超过模拟退火算法的收敛速 度。 第2 章人工神经网络模型介绍 神经网络的基本单元是神经元,它是由大量的神经元广泛互连而成的网络, 与对应的生物神经网络有密切的关系。生物神经网络对人工神经网络研究有着重 要的启示。要研究神经网络首先就必须了解生物神经元。 2 1 生物神经元模型 苫2 :飞蟛? 蠢= “、。j ,:二旁组舭 t in 、? :;i 苍:_ : 了了_ 盛净 1 1 2 2 人工神经元模型 人工神经元的主要结构单元是信号的输入、综合处理和输出。人工神经元之 间通过互相连接形成网络,称为人工神经网络。目前多属人工神经网络的构造大 体上都采用如下一些的原则: 1 ) 有一定数量的基本单元分层联接构成; 2 ) 每个单元的输入、输出信号以及综合处理内容都比较简单; 3 ) 网络的学习和知识存储体现在各单元之间的联接强度上。 作为神经网络( n e u r a ln e t w o r k ) 的基本单元的神经元模型( 见图2 2 ) ,它 有三个基本要素: 1 1 一组连接( 对应于生物神经元的突触) ,连接强度用连接上的权值表示, 权值为正表示激活,为负表示抑制; 2 ) 一个求和单元,用于求各输入信号的加权和( 线性组合) ; 3 ) 一个激活函数,起映射作用,并将神经元输出幅度限制在一定范围内。 图2 2 一个典型的神经元模型主要由五部分组成:输入、网络权值和阀值、单元求 和、转换函数、输出c 1 0 1 i o 2 2 1 输入 神经元的输入是由n 个输入组成的一个向量。_ ,z :,吒代表1 3 个输入,用 一个,l 1 的列向量石来表示,表示为:x = ( 五,x 2 ,吒) r 。 2 2 2 网络的权值和阀值 m 。,m :,m ,代表网络权值,表示输入与神经元间的连接强度,b 为神 经元的阀值,也可以把阀值看作是一个输入恒为1 的网络权值。用l x n 行矢量w 1 2 来表示:w ;( m 。,w 1 2 ,m ,) ,阀值b 为1 1 的标量。 注:网络权值和阀值都是可调的。正是基于神经网络权值和阀值的动态调 节,神经元乃至神经网络才得以表现出某种行为特性。因此,网络权值和阀值的 可调性是神经网络学习特性的基本内涵之一。 2 2 3 9 元求和 单元求和是对输入信号进行加权求和即有:u = 肥f ;臌+ 6 2 著m 薯+ 玑 这是神经元对信号处理的第一个过程。 2 2 4 转换函数 神经元的转换函数,又称传递函数或激活函数,它用于对单元求和的计算结 果进行函数转换,得到神经元的输出。这是神经元对信号处理的第二个过程。 常用的转换函数有如下几种: 1 ) 阀值函数,其图像如图2 3 0 7 一l 函数表达式厂 ,5 三二三三 2 ) 线性函数,其图像如图2 4 图2 3 j乡 l 0 7 工 一l 函数表达式f ( x ) ;妇 3 ) s i g m o i d 函数,其图像如图2 5 图2 4 1 3 - - 【i , l 7 0 5 o 图2 5 函数表达式 厂。) = 五 4 ) 正切s i g m o i d 函数,其图像如图2 6 il ,t z ) , - 厂一 0 。 一i 图2 6 函数表达式m = 等 2 2 5 神经元输出 输入信号经神经元加权求和及转换函数作用后,得到了最终的输出结果。 表达式为:0 = f ( w x + 6 ) 2 3 几种典型的神经网络结构 神经网络的类型多种多样,它们是从不同角度对生物神经系统不同层次的抽 象和模拟。从功能特性和学习特性来分,典型的神经网络模型主要包括感知器、 b p 网络、径向基函数网络、自组织人工神经网络、反馈神经网络等等。一般来说, 当神经元模型确定后,一个神经网络的特性及其功能主要取决于网络的拓扑结构 及学习方法。 2 3 1 感知器模型 1 9 4 3 年,w a r r e nm c c u l l o c h 和w a l t e rp i t t s 最早提出了一种人工神经元模型。 1 4 该模型的主要特点是把神经元输入信号的加权与其阀值相比较以确定神经元的 输出。如果加权和小于阀值,则神经元的输出为零;如果加权和大于阀值,则该 神经元的输出为l 。w a r r e nm c c u l l o c h 和w a l t e rp i t t s 进一步证明了这些神经元 网络原则上可以完成任何数学和逻辑函数的计算。 2 0 世纪5 0 年代末,f r a n kr o s e n b l a t t 和其它几位研究人员提出了一种被称为 感知器的网络,它在w a r r e nm c c u ll o c h 和w a lt e rp i t t s 的基础上引入了用于训 练神经网络解决模式识别问题的学习规则。他证明了要求解问题的权值存在,那 么其学习规则通常会收敛到正确的网络权值上。整个学习过程简单,而且是自动 的。只要把反映网络行为的实例提交给网络,网络就能够根据实例从服从初始值 的权值和偏置值开始自动地进行学习。 2 3 1 1 感知器的结构 图2 7 图2 7 ,这是一个经典的感知器模型,包括n 个输入、n 个权值,被称作突触 权( s y n a p t i cw e i g h t s ) ,还有阂值( t h r e s h o l d ) w o ,在他们加权和后,进入方块所示 的非线性部分一激活函数,通常使用硬限幅器( h a r dl i m i t e r ) 来实现,他们都是 阶跃函数,其输出一般为两个电平值o 和1 。我们称带有h a r dl i m i t e r 的神经 元为m c c u l l o c h - p i t t s 神经元。感知器是神经网络的基础,我们模型大多都是由 这种m p 神经元构成。 2 3 1 2 感知器的学习规则 学习规则就是修改神经网络的权值和偏置值的方法和过程( 也称这种过程是 训练算法) 。学习规则的目的是为了训练网络来完成某些工作。现在有很多类型 的神经网络学习规则,大致可以将其分成三大类:有监督学习、无监督学习和增 1 5 强( 或分级) 学习。 感知器的学习规则采用的是有监督学习,学习规则是将提供一组能够正确反 映网络行为的实例: p 。,t 。) , p 2 ,t :】, p 口,f 1 2 】其中p q 是网络的输入,t q 是该输 入相应的目标输出。当每个输入作用到网络上时,网络的实际输出与目标输出相 比较,然后通过学习规则来调整该网络的权值和偏置值,使得网络的实际输出进 一步靠近目标输出。 2 3 1 3 感知器的收敛性 虽然感知器的学习规则非常简单,但它十分有效。可以证明:只要权值的解 存在,则该规则总能收敛到实现期望分类的权值上。 2 3 1 4 感知器的局限性 只要问题的解存在,那么感知器学习规则就一定能够在有限步数内收敛到问 题的解。但是感知器能求解哪些问题呢? 基本的感知器是不能解决非线性可分的 问题,如简单的x o r 问题心。 2 3 2 b p 神经网络 反向传播(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论