




已阅读5页,还剩73页未读, 继续免费阅读
(计算机软件与理论专业论文)madaline网络学习算法改进.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要人工神经网络走过了半个多世纪的曲折历程,吸引了许多科学家在这个领域研究,成为现代脑神经科学,数理科学以及信息科学等综合研究领域的共同的科学前沿之一。二进前向网络是典型的人工神经网络模型之一,是在模式识别和分类方面发展得最早,应用非常广泛的一类人工神经网络。本文首先介绍了神经网络结构和学习算法的基本知识,进一步系统介绍了二进前向网络的结构和算法研究的现状。由于对二进前向网络进行训练的学习算法要求每层的输入输出均是二值,这样就使均方误差函数中存在许多不连续点,它们是不可导的,所以不能直接使用较为成熟的用于连续函数的l m s 算法和b p 算法等。对m a d a l i n e 这种典型的多层二进前向网络,6 0 年代w i d r o w 和w i n t e r 提出的针对m a d a l i n e 网络特点的m r i i( m a d a ii n er u l ei i ) 算法,本文对m r i i 算法作了深入的分析和研究,虽然m r i j 算法根据最小干扰原则思想解决了一些收敛率及收敛速度慢等不足,但还存在着权值修改公式参数较多不容易协调,经验取值缺乏理论依据不够灵活等缺点。针对m a d a l i n e 其输入输出均为离散二进制这一显著特点,本文提出了改进后的感知机学习算法,在感知机学习规则上引入学习速率的概念,简化了m r i i 算法权值修改公式的计算量,并对它的作用和所带来的变化作了全面系统的分析研究,对学习速率与网络收敛能力的关系,网络收敛能力与网络结构的关系,学习速率与信任度的关系,学习速率与结点翻转迭代次数的关系,以及学习速率与最小干扰原则的实现等都做了深入仔细的探讨。用c 语言编程验证比较了改进后的算法与原m r i i 算法的学习效果,实验结果表明本文的算法具有更好的收敛性和成功率。关键词:二迸前向网络,m a d a l i n e 网络,m r i i 学习算法,感知机学习算法a b s t r a c tt h es t u d y o f n e u r a ln e t w o r k s h a sb e e ne v o l v i n g f o r m o r e t h a n h a l f ac e n t u r ya n d i t h a sa t t r a c t e dal a r g en a m b e ro fr e s e a r c h e r si nm a n yd i f f e r e n ta r e a s n o wn e u r a ln e t w o r k sh a v eb e c o m eac o m m o nf r o n t i e ro fe n c e p h a l o n e u r a ls c i e n c e ,m a t h e m a t i c sa n di n f o r m a t i o ns c i e n c e t h eb i n a r yf e e d f o r w a r dn e u r a ln e t w o r ki so n eo ft h em o s ti m p o r t a n tt y p e so fn e u r a ln e t w o r k s 。i tf i n d sw i d ea p p l i c a t i o ni ne n g i n e e r i n g ,s u c ha sp a t t e r nc l a s s i f i c a t i o na n dp a t t e r nr e c o g n i t i o n t h i st h e s i sf i r s ti n t r o d u c e st h eb a s i ck n o w l e d g ea b o u tt h eb i n a r yf e e d f o r w a r dn e u r a ln e t w o r k ss t r u c t u r e ,i t sl e a r n i n ga l g o r i t h ma n dt h ec u r r e n ts i t u a t i o n b e c a u s eb i n a r yf e e d f o r w a r dn e u r a ln e t w o r k sr e q u i r et h a tb o t ht h ei n p u ta n dt h eo u t p u ta r eb i n a r yt h em e a ns q u a r ee r r o rf u n c t i o nc a n tb ee m p l o y e dd u et om a n yu n c o n t i n u o u sp o i n t st h a tc a nn o tb ed i f f e r e n t i a t e d s ot h el m sa l g o r i t h ma n dt h eb pa l g o r i t h mc a nn o tb eu s e dd i r e c t l y a c c o r d i n gt ot h ec h a r a c t e r i s t i co ft h em a d e l i n e ,w i d r o wa n dw i n t e rp r e s e n tt h em r i a l g o r i t h mi n l 9 6 0 s t h et h e s i sa n a l y s e st h em r i ia l g o r i t h md e e p l ya n df i n d so u tt h a t t h ea l g o r i t h mi m p r o v et h el e a r n i n gc o n v e r g e n c ei ns o m ew a y sb yf o l l o w i n gt h ep r i n c i p l eo fm i n i m a ld i s t u r b a n c e ,b u tn o ta sas o l u t i o nt oe v e r yp r o b l e m t h ea d j u s tw e i g h tf o r m u l au s e di nm r i ia l g o r i t h mi n c l u d e sm a n yp a r a m e t e r s ,b u tm o s to ft h e mc o m ef r o me x p e r i e n c ei np r a c t i c ew i t h o u tt h e o r e t i c a lr e a s o n t h ep a r a m e t e r sa r et o om a n yt ob eh a r m o n i o u s l yc o n t r o l e d a c c o r d i n gt ot h ec h a r a c t e rt h a tb o t ht h ei n p u ta n dt h eo u t p u ta r eb i n a r y , t h et h e s i sp r e s e n t sa ni m p r o v e da l g o r i t h mt h a ti n t r o d u c e sl e a r n i n gr a t ei n t ot h ep e r c e p t i o nl e a r n i n gr u l ei no r d e rt or e d u c et h en u m b e ro ft h ep a r a m e t e r sa n ds i m p l i f yt h ec o m p u t a t i o n t h ea u t h o rs t u d i e dt h en e wa l g o r i t h mt h r o u g h l y ,i n c l u d i n gt h er e l a t i o n s h i pb e t w e e nt h el e a r n i n gr a t ea n dt h ea b i l i t yo ft h en e t w o r kc o n v e r g e n c e ,t h el e a r n i n gr a t ea n dt h en e t w o r ks t r u c t u r e ,t h el e a r n i n gr a t ea n dt h ec o n f i d e n c e ,t h el e a r n i n gr a t ea n dt h er e v e r s i o nt i m e so fn e u r o n so u t p u t ,a n dt h el e a r n i n gr a t ea n dt h ep r i n c i p l eo fm i n i m a ld i s t u r b a n c e t h ea u t h o ra l s oi m p l e m e n t st h ea l g o r i t h mi ncp r o g r a m m i n gl a n g u a g et oc o m p a r et h ep e r f o r m a n c eo ft h em r l la l g o r i t h ma n dt h en e wi m p r o v e da l g o r i t h m ,t h ee x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h en e wa l g o r i t h mo b t a i n sb e t t e rp e r f o r m a n c ei nc o n v e r g e n c ea n ds u c c e s sr a t e k e y w o r d s :b i n a r yf e e d f o r w a r dn e u r a lp e r c e p t r o nn e t w o r k s ,m a d a l i n en e t w o r k s ,m r i ia l g o r i t h m ,1 e a r n i n ga l g o r i t h m 学位论文独创性声明:本人所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。如不实,本人负全部责任。论文作者( 签名) :学位论文使用授权说明威匆鳄6 年6 月,y 日河海大学、中国科学技术信息研究所、国家图书馆、中国学术期刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权河海大学研究生院办理。论文作者( 签名) 威鳄邳年占月咖第一章引言人工神经网络是基于人类大脑的结构和功能而建立起来的新学科。它能在一定程度上模仿生物神经系统的功能,使得它在信息处理和智能学科中有着及其重要的地位。多层前向网络是典型的人工神经网络模型之一,也是在模式识别和分类方面发展得最早,应用非常广泛的一类人工神经网络模型。1 1论文的选题背景1 1 1研究的意义与动机人的智能是人自身某种属性的体现,也就是说,这种属性一定能够从人体的结构中找到答案。人工神经网络就是模拟人脑神经网络的构成,以解决某些智能问题( 如识别问题) 的一种方法。神经网络的研究对神经网络系统从理论和实现上进行了探讨和分析,已经获得许多方面的进展和成果,提出了许多网络模型和学习算法。对神经网络研究,主要是确定合适的网络结构和设计学习速度快、收敛性好的学习算法。一般来说,结构是根据所研究的领域及要解决的问题来确定的,因此对学习算法的研究就显得更有价值。所谓学习算法就是在网络学习过程中,不断地调整网络参数,直到输出结果满足给定的要求。一个适合网络模型的学习算法将有效降低它的计算复杂度,提高网络的学习能力,这无疑具有重要的理论和现实意义。然而,学习算法仍存在众多不明确、不完善的地方,理论研究也有待突破。神经网络算法能否达到全局收敛及收敛速度快慢,与算法及算法参数的选取有直接关系,而目前,大多数算法不能给出参数选定的依据。二进前向网络是典型的人工神经网络模型之一,是应用非常广泛的一类人工神经网络,在模式识别和分类方面都有较早的应用。虽然连续激活函数具有较强的计算能力,离散的激活函数在许多范围内受到局限,然而,多层离散网络因为能够处理一些二值的函数而显示出它对离散数据处理的重要性。它的计算比连续函数简单,给神经网络的研究提供了一个很好的起点。离散的激活函数可使得神经网络在硬件实现方面的复杂度降低,从而降低了构造开销,另外对外部噪音和对内部干扰的承受能力都较强。但是由于二进前向网络的每一个神经元都是采用硬限幅( 非线性) 激活函数,即隐层神经元和输出神经元都具有硬限幅特性,这些神经元的组合构成的二进前向网络具有强非线性性质。目前,就是对于一般非线性问题,也没有一种较好的通用的求解方法“1 。因此,二进前向网络的学习算法1表现出收敛速度慢,成功机率低等缺点,仍值得进一步探讨和研究。1 1 2研究的主要内容m a d a l i n e 是一种多层二进前向网络,每层的权值是可调的,且每层的输入输出均是二值。这样就使均方误差函数中存在许多的不连续点,它们是不可导的,因此不能再用l m s 算法来解决,也不能用最速下降法来进行权系数调整。6 0 年代w i d r o w 和w i n t e r “提出的针对m a d a l i n e 网络特点的m r i i ( m a d a l i n er u l ei i ) 算法,其重点在于最小干扰原则的提出,调权的方法延用m r i 中的由m a y s 给出的公式,公式中参数较多,对这些参数文中给出了经验值,但是非常笼统,使这些参数的设置失去了灵活修改权值的意义,算法在实现控制上的许多细节也未作交代;另外,对于大样本集且要求样本合格率较高时,m r i i 算法的收敛能力和收敛速度都不理想,训练时间长难收敛。国内的文献很少提n m r i i 算法,即使在引用m r i i 算法时,也未作详细阐述。胡守仁和张立明“2 3 文献中提到的m r i i 算法是用l m s 调权,但是由于l m s 算法只适用于连续值,而m r i i 在比较误差时用的是输出层的出错个数,而不是出错误差的大小,这就使得l m s 算法的使用受到很大的局限;并且l m s算法的步幅a 的选择有一定的随机性,若选择不当,收敛速度很慢,甚至出现振荡现象。对二进前向网络的训练算法都存在着( 1 ) 无法保证训练的收敛性,训练有可能陷入局部极小或产生振荡,从而难以训练出满足性能要求的网络;( 2 ) 即使收敛,训练速度也可能非常慢。基于以上的原因,我们提出用感知机学习规则来更新权值,翻转f h m r i i 算法确定的隐层中需要翻转的a d a l i n e s 的输出,保持网络各层的输入输出均用二值的数字量进行计算和传递,大大降低了计算的复杂性。为了使前个样本学习所调整的权值对后一样本学习的影响尽量小,我们在感知机学习规则中引入学习速率这一概念,使每次权值的改变步幅灵活可调,使它小于感知机学习规则所要求的权值的改变,进一步实现了最小干扰原则思想,降低了样本学习之间的互相影响,有效提高了网络学习效率。实验验证了改进算法的优越性,它不仅增加了网络收敛的概率还使网络的学习速度有了明显提高。论文还讨论了新算法中各个参数问的关系,探讨提高网络学习收敛速度的可能途径。1 2 论文的组织结构第二章首先介绍了a d m i n e 的结构和它的分类机制,接着介绍m a d a l i n e 网络基本构成,对m a d a l i n e 网络学习算法的研究现状作了介绍,给出了几个该领域较常见的算法设计思想。通过对m a d a l i n e系统给出了m r i i 算法思想的实现步骤,则作了分析对比。网络由来和m r ii 算法思想发展的介绍,并对m r i i 中的调权方法和感知机学习规第三章讨论了对m r i i 算法改进的思路,通过介绍最小干扰原则说明算法改进的意义,给出算法改进的方法。对算法中影响学习收敛的各个参数做了介绍,包括它们之间相互作用和相互影响的关系。第四章介绍用c 语言实现m r i i 算法和改进后的算法,比较它们在不同参数下的收敛性和收敛速度。第五章对论文进行总结,阐述论文的的研究成果及创新点,对进一步的研究提出展望。第二章m a d e li n e 网络结构和m r i i 算法2 1a d a li n e 结构和分类机制2 1 1a d a l i n e 结构人工神经元的主要结构包含输入、综合处理和输出。人工神经元之间通过互相连接形成网络,即人工神经网络。目前多数人工神经网络的构造大体上都采用如下一些的原则:( 1 ) 有一定数量的基本单元分层联接构成;( 2 ) 每个单元的输入、输出信号以及综合处理内容都比较简单;( 3 ) 网络的学习和知识存储体现在各单元之间的联接强度上。一组连接作为神经网络的基本单元的神经元模型,它有三个基本要素:删1 神经兀模型( 1 ) 一组连接( 对应于生物神经元的突触) ,连接强度有个连接上的权值表示,权值为正表示激活,为负表示抑制。( 2 ) 一个求和单元,用于求取各输入信号的加权和( 线性组合) 。( 3 ) 一个激活函数,起映射作用并将神经元输出幅度限制在一定范围内。此外还有一个阈值( 或偏置) 。一般_ ,t ,为输入信号,l ,:,”k 为神经元k 的权值,q k 为闽值,f ( ) 为激活函数,y k 为神经元k 的输出。激活函数f ( ) 通常有以下几种形式:( 1 ) 硬极限函数:当函数的自变量小于0 时输出为一1 或0 ,当函数的自变量大于0时输出为1 。( 2 ) 线性函数:线性函数的输出等于输入。( 3 ) s i g m o i d 函数:最常用的函数形式为,参数n o 可控制其斜率。( 4 ) 双曲正切函数。41 9 6 0 年美国学者w i d r o w 和h o f f 提出a d a l i n e ( a d a p t i y e1 i n e a re l e m e n t ) 网络,这种网络实际上是一种自适应阈值逻辑元件,即其采用的激活函数是硬极限函数。神经元a d n i n e 是神经网络m a d a l i n e 的基本构造元素,构成网络中的一个节点,也是m a d n i n e n 络的最简单形式。如图( 2 ) 。其中,输入表示为向量,x = ( x 。x :,x 。x 。) t ,与之相关联的权记为,w = ( w 。,w :,w 。w 。) t ,x 。是阈值,q 是输出。这些参数中,输入元素和输出是二值的离散量,其余可以是任意的实数。a d a l i n e的输出分为模拟输出和数字输出两种。其模拟输出量定义为该神经元的权向量与输入向量的内积s d y 。w k t x 。,数字输出量为这个和经过一个逻辑装置得到的二进制值q 。= s g n ( y 。)( 当y 、 = 0 时q 。= 1 ;当y t o 时q k = 一1 或0 ,本文采用一1 ) 。a d a l in e 的训练过程是:将训练集中的一个样本x 。及其理想响应信号d 。送入a d a l i n e 中,得到样本矢量和权矢量的点积之后经激活函数激活的数字输出量q n ,将它与d 。进行比较,并将差值送到学习机制中,以调整权向量w 。,使得q 。和所要求的输出d 。相一致。若一致,就说明h d l i n e 对该样本已训练完毕。_ 一i :。一1 蕊晶函一ju一图2 一个a d a l i n e 神经兀梗型a d a l i n e 的输入模式有n 维变量,输入维数加上一个其权值恒为1 的偏置构成了一个( n + i ) 维的输入矢量。权值是实数,可由算法调整,我们假设这样的权值是神经网络的硬件所能够得到的。a d a l i n e 的二进制值是由输入和权值决定的,它的一个划分平面可由它的模拟量方程y = 0 来得到的,即y k = w x t x 。x k t w t = o 。在这个平面的一边权矢量和输入矢量的内积大于0 ,另一边就是这个权矢量和输入矢量的5内积小于0 。2 1 2a d a l i n e 的线性不可分问题感知机学习规则和l m s 算法是设计用来训练单层的类似感知器的网络的,只能解决线性可分的分类问胚。一般来说,对于n 维空间,凡可以n l 维超平面进行适当分割的点集称为线性可分集合,只要输入模式属于线性可分几何就可以用感知机网络对其进行正确的分类。对线性可分我们有定义如下:定义在二值函数的输入输出对为 ( x i ,y i ) ,i = l ,2 ,i i l 其中,x i 卜1 ,1 “,y i 卜1 ,l 。当存在w er n 和b r 使( x i l w + b ) = y i 对于i = l ,2 ,m 成立,则称该二值函数为线性可分的。否则称它为非线性可分或线性不可分。i蕊豁糕孰r l图j弋yr)砭瓤r 10 谬图3 线性可分类图4 线性不可分类x我们先用输入矢量作出矢量空间,然后将权矢量加到该矢量空间内,那么它的划分平面就是一个通过原点的垂直于权矢量的超平面,它将输入矢量空问分为两半:在这个超平面的一侧全是与该权矢量点积和为正的输入矢量,另一侧则是与该权矢量点积和为负的输入矢量。反过来,我们也可以将输入加入到权矢量空间内来考虑,假设输入矢量有其理想的输出,超平面通过原点垂直输入矢量将权矢量空间一分为二,这个超平面的一侧的权矢量是可以得到正确理想输出的权矢量,如果这时加入第二个输入矢量,它的理想输出同样会将权矢量空间分成两半,其中的一半可以得到正确的结果,依次输入每个样本。将正确输入矢量空间和正确权矢量空间和起来加以考虑,我们得到这两个空间相交的那部分。为了满足训练集中所有样本的输入输出要求,这个相交部分的权矢量必须由每个输入矢量及其理想输出确定。也许这两个空间的交集为空,这意味着没有权值矢量可以将输入样本分离得到正确的输出。显然,一个a d a l i n e 是无法将所有输入进行正确分类的。因为输入有i 1 维,就有2 。个不同的样本,每个样本的理想输出可能是l 或者一1 ,也就是说对一个a d a l i n e有2 2 ”个输出的可能,事实上,一个a d a l i n e 只能对一小部份输入进行分类,电就是线性可分的那部分。当输入维数较小时,我们可以用图示法来说明一个a d a l i n e 的分类能力。假设有输入输出对如下:( + 1 ,+ 1 )+ 1( + 1 ,一1 )+ 1( 一l ,一1 )+ 1( 一l ,+ 1 )一l它的分类平面方程是:y :爻7 博:“o + t ln i + z 2 2 :0 即。2 = 一兰1 。l 一塑t f ,2u 2这个方程是一条直线,横轴是输入样本中的x 。,纵轴是输入样本中的x 2 ,直线的斜率是一w w ,x :轴上的截距是一w 。w :。输入样本空间是输入矢量空间的予空间,它存在于输入矢量空间的超平面中,当x 。等于+ 1 时,输入矢量和权矢量是三维的,但输入样本是二维的,分类的超平面是二维的,包含样本空间的超平面也是二维的,这些空间都存在于三维空间中,输入矢量和权矢量也在这个空间中。图( 5 )中,直线右边的输入使a d a l i n e 的模拟量为正,直线左边的输入使a d a l i n e 的模拟量为负,这样这个a d a l i n e 就完成了从二维的样本输入到一维的输出的映射。22 一;( - i ,4 - 1 )扩。器夕1 z 】响o0 0( - i ,1 )( + i ,1 )图5 一个分荚买倒为调整权值,图中的斜率和截距是可调的,如果改变权值的符号也将会改变这条直线两边的输出结果的符号,因此改变权值将会引起输入输出映射关系的改变。我们将这个改变权值的机制称为算法。算法中的输入有理想的输出,当样本j , g x a d a l i n e 时,会得到它的模拟量输出,在有限步的权值调整后,我们将得到正确的输入输出映射关系。当然,线性不可分问题是单个a d a li n e 无法解决的。从图( 5 ) 中可知,对一个二维输入样本单个的a d a l i n e 给出了一条直线来对输出作划分,对多维输入而言,就是一个超平面来作划分。这里我们给出一个二维输入的线性不可分的例子:( + 1 ,+ 1 )一l( + 1 ,一1 )+ 1( 一1 ,一1 )一1( 一l ,+ 1 )+ 1这是一个典型的线性不可分问题,也就是异或问题。我们无法找到这样一条直线可以将这四个输入进行分类到理想的输出。因为n = 2 ,所以总共有2 2 “= 1 6 个二进制的输入输出映射对,其中1 4 个是线性可分的,目前,还没有找到一个可以对任意值n 计算其线性可分个数的通用公式,但是,只要对n 稍作改变,线性可分数量的百分比将迅速下降。例如,当n = 5 时,在4 3 1 0 。个输入输出函数映射对中只有9 4 ,5 7 2 个是线性可分的。因此,在多维空间里,用一个a d a l i n e 来实现输入输出的函数映射关系是很有限的。2 2l a d e l i n e 网络结构从层次结构看,人工神经网络可分为单层神经网络和多层神经网络;从连接方式看,人工神经网络主要有两种:前馈型网络和反馈型网络。单层神经元网络是将两个或更多的简单的神经元并联起来,是每个神经元具有相同的输入矢量x ,即可组成一个神经元层,其中每个神经元产生一个输出,一般情况下,输入向量维数r 与层神经元数目k 不相等。网络模型的网络权为矩阵,该网络的输出矢量为:几。= f ( w 。, x 。十b 。) 。其中,f 0 表示激活函数,公式中的字母下标给出了矢量矩阵所具有的维数;权矩阵w 元素中的行表示神经元的位数,列表示输入失量的位数,如w 。表示来自第2 个输入元素到第1 个神经元之间的联接权值。多层神经网络是将两个以上的单层神经网络级联起来则组成多层神经网络。每层网络都有一个权矩阵w ,一个偏差矢量b 和一个输出矢量a 。多层网络的每一层起着不同的作用,最后一层为网络的输出层,所有其它层称为隐含层。在多层网络中,每一隐含层的输出都是下一层的输入。特别值得强调的是,在设计多层网络时,隐含层的激活网络应采用非线性的,否则多层网络的计算能力并不比单层网络更强1 。前馈网络的特点是:信号的流向是从输入通向输出。而反馈网络的主要不同点表现在它的输出信号通过与输入连接而返回到输入端。在反馈网络中,由于将输出8循环返回到输入,所以每一时刻的网络输出不仅取决于当前的输入,而且还取决于上一时刻的输出,其输出状态由输入矢量设定后,随着网络的不断运行,从输出反馈到输入的信号不断改变,使得输出不断变化,从而使网络表现出暂态特性,使得反馈网络表现出前向网络所不具有的振荡或收敛特性。由于本文采用的网络属于前向网络模型,对前向网络特介绍如下:( 1 ) 前馈式网络:该种网络结构是分层排列的,每一层的神经元输出值和下一层神经元相连,这种网络结构特别适用于人工神经网络算法,现在已得到了广泛应用。本文采用的正是这种网络结构。( 2 ) 输出反馈的前馈式网络:该种网络结构与前馈式网络结构的不同之处在于这种网络存在着一个从输出层到输入层的反馈回路。该种结构适用于顺序型的模式识别问题。( 3 ) 前馈式内层互联网络:该层网络结构中,同一层问存在的相互关联,神经元之间有相互制约关系,从层与层之间的关系来看是前馈式的网络结构,许多自组织神经网络结构大多具有这种结构。y l ky 2 kx mx 2 k 玛kx 啦x 5 k 蚝k输出矢量y k输出层a d a l i n e s第二层a d a l i n e s第一层a d a l i n e s输入矢量x k图6 一个m a d a l i n e 神经网络模型m a d e l i n e 网络是一种多层二进前向神经网络,如前所述,有些输入输出映射关系是单个h d a l i n e 无法实现的,它和感知机受同样的局限性影响:只能解决线性可分问题,为了克服了硬限幅函数只能对两个线性可分集合或相交集合的分类,需要将多个a d a l i n e 联结起来,即用多层自适应线性网m a d a l i n e ( m a n ya d a l i n e )来实现非线性可分的逻辑函数。m a d a l i n e 是一种离散型的多层前向网络,它由许多层神经元组成,每一层的a d a l i n e 根据一定的规则连接而成,如图( 6 ) 每一层的a d a l i n e 只和它前一层和后一层上的各个a d a l i n e 用权相连。每层的权值系数是可调9的,且每层的输入和输出均为二值,前一层的输出将作为后一层的输入,是神经网络中应用最为典型和广泛的网络之一。其输入写成向量的形式x 。= i x 。孙,x 。k ,”x n t ,这个向量称为a d a l i n e 的输入信号向量或输入模式向量。一组输入信号相应的有一组权值w r = w 。,w i k ,w 矿w 。 7 ,这个向量称为权向量。本文中,l 表示m a d a l i n e 的层数。第( 1 ,sl ) 层上有n 1 个a d a l i n e 。因此,可以用n o ,n 1 n 1 表示m a d a l i n e 的结构。在这里不仅从左至右代表包括输入层在内的m a d a l i n e 各层,还指出了各层a d a l i n e 的个数。其中n o 是个例外,它代表输入层并且指出输入维数;n 代表输出层。因为在第,一l 层上的a d a l i n e 个数就是该层的输出维数,是它下一层,即第,层的输入维数,所以第,层的输入维数为n 。对第l 层的第i 个a d a l i n e 而言,输入表示为向量x = ( ,x l 一) 。,与之相关联的权记为彬7 = ( w f 。,屹。) 7 ,偏置为o j ,输出为= f ( x + 彬。+ 纠) 。对第l 层而言,每个a d a l i n e 都有相同的输入向量x ,它的权的集合为w 。= 彬,w ,t ) ,输出向量为y 7 = 叫,y 。i ) 7 。对整个m a d a l i n e 而言,输入向量记为x 1 或r ,权记为= 。u u ,输出记为y 。2 3n t i i 算法学习是人类智能的主要标志和获得智慧的基本手段。目前,人工神经网络主要从结构上模拟人脑,所采用的学习方法也都是经过数学推导而求得的。事实上,人类学习是一种特定目的的知识获取过程,其内部表现为新知识结构的建立和修改,而外部表现为性能的改善。具体地说,学习的目的、学习的要求、学习方法的选择等是受人的意识行为所支配的:学习不仅是一种数学上渐近收敛的过程,而且应带有一定的启发性。学习算法是对问题解的寻优过程。现实中几乎所有的系统或模型在实际应用前都需要根据输入数据样本来对自身进行学习或训练,以便系统或模型能记住或熟悉所训练的输入模式,然后对未知的样本模式进行测试和评判等。因此,学习算法研究是神经网络技术研究中的一个非常重要的环节。2 3 1神经网络学习算法通过向环境学习获取知识并改进自身性能是神经网络的一个重要特点。按环境所提供信息的多少,网络的学习方式可分为三种:监督学习:这种学习方式需要外界存在一个“教师”,它可对一组给定输入提供应有的输出结果( 正确答案) 。学习系统( 神经网络) 可以根据己知输出与实际输出之间的差值( 误差信号) 来1 n调节系统参数。非监督学习:不存在外部“教师”,学习系统完全按照环境所提供数据的某些统计规律来调节自身参数或结构( 这是一种自组织过程) 。再励学习:这种学习介于上述两种情况之间,外部化境对系统输出结果只给出评价( 奖或惩) ,而不是给出正确答案,学习系统通过强化那些受奖励的动作来改善自身的性能。从学习形式上分可分为:误差纠正学习:误差纠正学习的最终目的是使某一基于误差信号的目标函数达到最小,一是网络中每一输出单元的实际输出在某种统计意义上最逼近应有输出。一旦选定了目标函数形式,误差纠正学习成为一个典型的最优化问题。h e b b 学习:神经心理学家h e b b 提出的学习规则可归结为“当某一突触两端的神经元的激活同步时,该连接的强度应增强,反之则应减弱”。描述这一思想最常用的一种数学表达式在感知机学习算法中有较好的体现。竞争学习:顾名思义,在竞争学习时网络个输出单元相互竞争,最后达到只有一个最强激活者。自1 9 4 4 年h e b b 提出改变神经元连接强度的h e b b 规则开始,即首次出现了“学习算法”的概念。1 9 5 7 年,r o s e n b l a t t 首次引进了感知器( p e r c e p t r o n )的概念,并正式引进了“学习算法”。1 9 6 2 年,w i d r o w 提出了自适应线性元件( a d li n e ) ,并提出了自适应最小均方( l m s ) 学习算法。1 9 7 4 年,w e r b o s 在其博士论文中第一次提出了能够实现多层网络训练的反向传播( b p ) 算法,可以沈是“学习算法”史上的一次革命。不过,由于b p 算法本质上就是l m s 算法,因而其存在局部极小值、训练速度慢等缺陷。随后,出现了大量改进的b p 算法,以及一些变型的学习算法等。( 一) 有监督h e b b 算法:很多神经网络的学习规则都可看作h e b b 学习规则的变形。h e b b 学习规则的数学描述:w i j 表示神经元x j 到x i 的突触权值,x j 和x i 分别表示神经元j 和i 在一段时间内的平均值,在学习步骤为n 时对突触权值的凋整为:w i j ( n ) = r l ( x j ( n ) 一x j ) ( x i ( n ) 一x i ) 有监督h e b b 学习规则为:w i j ”k w i j “。+ t 。p ,。矩阵形式为:w o e = w “十t 。p 。( 二) 感知机学习规则:本章的改进算法正是在这一算法的基础上进行。感知机学习规则是h e b b 学习规则的变形。h e b b 学习规则的数学描述:w 。表示神经元输入p ,到输出0 。的突触权值,h e b b 假设意味着:如果一个正的输入要产生一个正的输出,就应该增加w 。这就是该假设的数学解释,即:w 。,”= w i j 。l d + t p 。,t i 是第q个目标向量的第i 个元素。即神经元权值的改变与它两边的输入输出函数值的乘积成正比,因此,权值不仅在输入输出均为正时增加,而且在输入输出全为负时1 l也会增加。感知机学习规则也是遵循了这个基本数学思想。该算法是针对二进前向神经网络的一个重要学习算法,其计算简单有效应用广泛。现介绍如下:感知机学习规则:( 1 ) 选择一组初始权值w i ( 0 ) ;( 2 ) 计算某一输入模式对应的实际输出与期望输出的误差e :( 3 ) 如果e = o ,输入下一个训练样本返回( 2 ) 否则继续;( 4 ) 更新权值( 闽值可视为输入匣为i 的一个权值) :( 5 ) 返回( 2 ) :重复,直到对所有训练样本模式,网络输出均能满足要求。算法中e 是感知机的误差变量,它是理想输出t 与实际输出a 之间差值,因此e的值会有以下三种情况( 我们假设它的数字量分别是i 干i 0 ) :如果理想输出是1 而实际输出是o ,即e = 1 0 = 1如果理想输出是0 而实际输出是1 ,即e = o 一11如果理想输出等于实际输出b l j e = o这样,我们把它的学习表达式分别写成以下三条规则:当e = l 时,w i j “= w i j 。l d + p 当e = 一l 时,w i j ”= w i j 。l d _ p “当e = o 时,w ,j ”= w 。,“d _由此,它统一的权值更新计算可用以下表达式表示。1 :w i ;”= w 。j 。l d + e p 。=w i j o l d + ( t - a ) p ,。( 理想输出t ,实际输出a ) 。虽然感知机的学习规则非常简单,但它的功能却十分强大,它的有效性早已得到广泛验证。( 三) 梯度( l m s ) 算法:梯度算法把神经元的激发函数改为可微分函数,例s i g m o i d函数。对于给定的样本集x i ( i = l ,2 ,n ) ,梯度法的目的是寻找权系数w ,使得f w x i 与期望输出y i 尽可能接近。要使误差e 最小,可先求取e 的梯度,最后按负梯度方向修改权系数w ,权重变化率视情况不同而不同,一般取( o ,i ) 之间的小数。显然,梯度法比原来感知器的学习算法进了一大步。关键在于:1 神经元的传递函数采用连续的s 型函数而不是阶跃函数:2 对权系数的修改采用误差的梯度去控制而不是采用误差去控制。( 四) b p 算法:b p 网络是采用误差逆传播算法( e r r o r b a c k p r o p a g a t i o nt r a i n i n g )进行误差校正的多层前馈网络。1 9 8 9 年,r o b e r t h e c h t n i e l s o n 证明了一个隐含层的3 层b p 网络可以有效的逼近任意连续函数,b p 网络算法步骤主要有四部分组成:( 1 ) 输入模式的正向传播过程,即输入数据从输入层逐层向输出层传播,得到响1 应:( 2 ) 输出误差的反向传播,即输出的误差由输出层开始反向传播到输入层,而网络各层的权值改变量则根据传播该层的误差来决定,即公式:氓,叩蒜e = = ( 并一砰) 2 2 ,( m 为样本个数, 为期望输出,t 为实际输出,q 为输出结点个数) :( 3 ) 循环记忆训练,即输入模式的一向传播与输出误差的反向传播反复交替的计算过程:( 4 )学习结果的判别,即判定全局误差是否小于预先设定的限定值。传统的bp 网络采用梯度下降算法,虽然具有很强的非线性映射能力,且网络的中间层数、各层的处理单元数及网络的学习系数等参数可以根据具体情况任意设定,灵活性较大。但是它也有一些缺点:学习收敛速度太慢:不能保证收敛到全局最小点,误差较大。b p 算法实质是求取误差函数的最小值问题。采用非线性规划中的最速下降方法,按误差函数的负梯度方向修改权系数。2 3 2二进前向网络算法研究现状b p 网络为多层网络,克服了线性不可分弊端。b p 算法与l m s 算法都是以最小均方误差为准则,b p 算法使用的是在l m s 算法中用到的相同的近似最速下降法,区别:b p 算法用链法则来求偏导数,l m s 算法则用普通的求导法则。另外这几种算法的传递函数不同。不同的网络结构和网络参数要求不同的网络学习算法。m r i i 是多层h d a l i n e s 前向网络的监督学习算法,a d a l i n e 是一个模拟神经的处理单元,由权值和二进制输入决定的一个二进制输出单元,由于m a d a li n e 网络的激活函数是不连续的,且网络又是多层的,上面提到的几个经典成熟的算法就无法直接使用,对二进前向网络的学习算法许多研究者做了有益的探索和研究,在这里,我们先简要介绍一下其它几种算法,概括地将它们分为两类,一类是代数法,一类是几何法。代数法:由于m a d e l i i e 网络的输入输出是离散值,它的函数关系式是不可导的,因此就无法直接使用b p 算法或l m s 算法,为了能够利用现有成熟的连续可导算法,在连续函数与不连续函数之间建立关系,使不连续的m a d a l i n e 网络转变成为可以用连续网络的算法,我们可以用代数法来达到这个目的,当逻辑为0 时用0 1 取代,当逻辑为l 时用0 9 取代。这里我举两个例子:方法一;由v p p l a g i a n a k o s ,g d m a g o u l a s ,n k n o u s i s ,和m n v r a h a t i s 在论文 2 中提出,其主要思想方法如下:n j 一n e c = 眩1 7 * t 。+ 彰当n e ,j 是激活后的数字量,即取值为当加权和大于等于0 叫等于1 ;否则y ;等于0 。s ( 彰) = 上1 + e - p r i n t )当b 足够大时,上式的s i g m o i d 函数接近硬限幅函数。方法二:,( f ) = b s ( o + ( 1 6 ) 目( f )s ( 0 3 专一1o ( 0 = = ,当b = t 时,函数关系式是s i g m o i d 函数;当b = o 时,函数关系式是硬限幅函数。几何法:感知机网络的规则和非规则划分学习算法是对l a d a li n e 网络两种几何方法,主要针对下述问题:( 1 ) 训练样本为卜1 ,l 的输入输出对,事实上,超立方体顶点的二分类问题就是这一问题的特殊情况。( 2 l 所训练的网络为硬限幅特性神经元构成的网络,且为单隐层网络。一个分类超平面系对超立方体的顶点的规则划分是满足下述条件的划分:1 1 ) 任何未被分类超平面划分的顶点集均有相同的颜色。1 2 ) 每个分类超平面将不同颜色的样本点分开。1 3 ) 任意两个分类超平面互不相交。一个分类超平面系对超立方体的顶点的非规则划分是满足下述条件的划分:1 1 ) 任何未被分类超平面划分的顶点集均有相同的颜色。j 41 2 ) 每一个分类超平面将不同颜色的样本点分开。以上是当前该领域中的一些算法思想概要。虽然,研究者们尝试了许多不同的算法思路,但这些算法表现出收敛速度慢,成功率低和较差的泛化能力。6 0 年代w i d r o w 和w i n t e 一“提出的针对m a d a l i n e 网络特点的算法m r i i ( m a d a l i n er u l ei i ) ,算法基于最小干扰原则,该原则使修正某个输入样本的错误输出后改动的权值对其余样本产生的影响尽量的小,在训练过程中m r i i 用一系列的尝试调整来修正输出错误,这些尝试首先要求权值的改动为最小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届江苏省徐州市睢宁高级中学南校高二化学第一学期期中质量检测试题含解析
- 电子商务物流配送优化方案协议
- 2026届新疆乌鲁木齐地区化学高二第一学期期中监测试题含解析
- IT运维管理云桌面管理及远程技术支持设计
- 青少年足球体能训练计划
- 制造业企业健康体检工作总结范文
- (2025年标准)股权割让协议书
- (2025年标准)股票借款协议书
- 2025年无人机航模制作与调试专业笔试预测试题及答案解析
- 建筑工地任何可能的紧急情况的处理措施
- 新学期教学工作会议上校长讲话:把功夫下在课堂里把心思放在学生上把质量落到细节中
- 空调器快速接头工艺规范
- 《有效课堂提问的22条策略》读书笔记
- 采购项目需求论证报告模板
- 二年级劳动教案(上册)
- 建筑施工三检制度
- 湖北群艺积分制管理操作流程
- GB/T 4883-2008数据的统计处理和解释正态样本离群值的判断和处理
- GB/T 4213-2008气动调节阀
- GB/T 30230-2013运动水壶的安全要求
- GB/T 24267-2009建筑用阻燃密封胶
评论
0/150
提交评论