(计算数学专业论文)两种前馈型神经网络中梯度学习算法的收敛性.pdf_第1页
(计算数学专业论文)两种前馈型神经网络中梯度学习算法的收敛性.pdf_第2页
(计算数学专业论文)两种前馈型神经网络中梯度学习算法的收敛性.pdf_第3页
(计算数学专业论文)两种前馈型神经网络中梯度学习算法的收敛性.pdf_第4页
(计算数学专业论文)两种前馈型神经网络中梯度学习算法的收敛性.pdf_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 b p 网络是目前应用最为广泛的神经网络之一。作为一种简单有效的学习算法,批 处理方法( 离线梯度法) 已成为工程计算中的常用算法。然而,当网络的训练样本数目 比较多时,这种把所有的训练样本都输入网络才对权值进行一次修改的离线梯度法就 不是那么有效了。本文采用在线梯度法对网络进行学习,也就是每输入一个样本就对 权值进行一次调整。在训练中加入随机输入是为了使网络更容易跳出局部极小。而加 入惩罚项则可提高整个网络的泛化能力,也就是提高测试样本的实验正确率。带惩罚 项的两层b p 神经网络以及带随机输入的三层b p 神经网络中在线梯度法的收敛性已经 分别在文1 和【2 中做了详细介绍。本文推广这些结果,给出了三层b p 神经网络中带惩 罚项和随机输入的在线梯度法的一些收敛性结果,其中包括:每一轮输入之后误差函 数的单调性定理,算法的弱收敛性和强收敛性定理。 高阶神经网络( h i g h e r o r d e rn e u r a ln e t w o r k ,h o n n ) 的提出是为了提高前馈型 神经网络的非线性分类能力。作为- - 种h o n n ,p i s i g m a 神经网络( p i s i g m an e u r a l n e t w o r k ,p s n 斡) 保持了多层高阶网络强大的学习能力,又避免了随着输入样本维数的 增加权值的组台性增长【3 ,4 1 。它在解决分类和函数逼近问题上也有比较好的效果瞄b 】。 目前,此种网络尚未得到广泛的研究,其中算法的收敛性理论结果亦无人给出。我们 采用梯度下降法算法对网络进行学习,得到了类似于b p 神经网络的收敛性结果。 关键词:b p 神经网络,在线梯度法,惩罚项,随机输入,p i s i g m a 神经网络,梯度下 降算法,收敛。性 、 a 1 童整董! 堕塑煎焦型塑丝婴查堂鏖兰翌薹鲨塑坚箜壁: a b s t r a c t b pn e t w o r ki so n eo fm o s tw i d e l yu s e dn e n r a ln e t w o r k s t h ec a s e sf o rt w o - l a y e r w i t hap e n a l t yt e r ma n dt h r e e - l a y e rw i t h o u tp e n a l t yt e r mh a v eb e e ns t u d i e di n 1 a n d 【2 】,r e s p e c t i v e l y i nt h i sp a p e r ,w ep r e s e n ta n dd i s c u s sa no n l i n eg r a d i e n tm e t h o dw i t ha p e n a l t yt e r mf o rt h r e e l a y e rb pn e u r a ln e t w o r k s t h ei n p u tt r a i n i n ge x a m p l e sa r er e s e t s t o c h a s t i c a l l yb e f o r et h ep e r f o r m a n c eo fe a c hb a t c hs ot h a tt h el e a r n i n gi se a s yt oj u m p o f ff r o ml o c a lm i n i m a t h em o n o t o n i c i t ya n dt h ec o n v e r g e n c eo fd e t e r m i n i s t i cn a t u r ea r e p r o v e d h i g h e r - o r d e rn e u r a ln e t w o r k s ( h o n n ) h a v eb e e nd e v e l o p e dw i t hi n t e n t i o nt oe n - h a n c et h en o n l i n e a rd e s c r i p t i v ec a p a c i t yo ft h ef e e d f o r w a r dm u l t i l a y e rp e r c e p t t o nn e t w o r k s t h ep i = s i g m an e u r a ln e t w o r k s ( p s n n ) ,a sa ne f f i c i e n th o n nf o rp a t t e r nc l a s s i f i c a t i o na n da p p r o x i m a t i n gp r o b l e m s ,m a i n t a i nt h ep o w e r f l l ll e a r n i n gc a p a b i l i t yo fm u l - t i l a y e rh o n n w h i l ea v o i d i n gt oc e r t a i nd e g r e et h ec o m b i n a t o r i a li n c r e a s eo ft h en u m b e r o ft h ew e i g h t sa n dt h eh i d d e nu n i t sw h e nt h ed i m e n s i o no ft h ei n p u tv e c t o r si n c r e a s e s ( s e e ,e g 3 ,4 】) t h en u m e r i c a lt e s t si n 3 ,5 i n d i c a t et h a tf a i r l yc o m p l e xa p p r o x i m a t i o n a n dc l a s s i f i c a t i o np r o b l e m sc a nb et a c k l e db yp i s i g m an e u r a ln e t w o r k su s i n go i l l yt h r e e o rf o u rs u m m i n gu n i t s h o w e v e r ,t ot h eb e s to fo n rk n o w l e d g e ,t h e r eh a sn o tf o u n da n y t h e o r e t i c a lc o n v e r g e n c ea n a l y s i sf o rp s n n t h es e c o n da i mo ft h i st h e s i si st ow o r ko n t h i sr e s p e c ta n dt op r o v i d es o m ec o n v e r g e n c er e s u l t sf o rt h eg r a d i e n td e s c e n tl e a r n i n g a l g o r i t h mf o rp s n n k e yw o r d s :b pn e u r a ln e t w o r k s ;o n l i n eg r a d i e n tm e t h o d ;p e n a l t yt e r m ;s t o - c h a s t i ci n p u t s ;p i - s i g m an e u r a ln e t w o r k ;g r a d i e n td e s c e n ta l g o r i t h m ;c o n - v e r g e n c e 独创性说明 俸者郑整声羁:本硕士学镶论文憝我个人在导筛指警下避行的研究工 作及取得研究成采。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包食其他入已经发表或撰写的磷究成果,也不包禽为获褥大连理 工大学或者其她单像的学位或证书联使用过静材料。与我一霞工作豹同志 对本研究所傲的贡献均已在论文中傲了明确的说明弗表示了谢意。 作者签名:盘嚣:薹日期:丝! 蛙幽。 大连理工大学硕士研究生学位论文 大连理工大学学俊论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阕。本人授权大连瑷工大学可以将本学位论文的全部或部分内 容编入有关数据库避行检索,也可采用影窜、缩币或扫描等复制手段傈存和汇编学稼论 文。 作者签名:窒茎茎 导搏签名:豆 w m - 兰鲨争监月兰l 鞘 大连囊工大学硬壹学位论文 1 绪论 1 1 神经网络简介 耪经瞬络( n e u r a ln e 豫。瘫,是近年袋眷度兴起戆一个高技本磷究领域,也是信意秘 学、脑科学、神经心理学等多种学科i 脏年来研究的热点。作为连接主义方法的先导性 鼓拳,炎翻试图透过砖它戆磅爨最终籀嚣人黯豹奥秘,建立起戆模拟人弦功能粒结构 的智能系统,使计算机能够像人脑那样进行信息处理。 享枣经翻终麴操终蠢嚣个过程:一怒学习或训练,二是正豢攥终或豫为联想。调练 畦,乎巴要教给两络的信息( 外鄢输入) 作为网络的输入和要求的输出,使网络按某种规 则( 称为诫练算法或学习算法) 调节各辛申经元之间的连接权值,囊到加上给定的输入, 瞬络凝能产黛给定输融为止。这时,各个连接权僖已经调节好,网络黪调练过程完 成。所谓正常操作,就是对训练好的网络输入一个信母,它就可以正确联想出相应的 输出,所疆鸯称为联想操传。 作为一种由简单的处理单冗所组成的大量并行分布的处理机,神缀网络目前只能 算是丈藏熬 聂缀模薅,毽它畜攘多特点鼹久类瓣智能特点类叛,骥懿: ( 1 ) 结构题并行的; ( 2 絮谖的分蠢存德; ( 3 ) 容错饿和稳健性: f 4 ) 强大戆是逶盛,鑫学习能力。 神经网络的研究是从2 0 世纪4 0 年代开始的,迄今融有半个多世纪的历史。它的发 展经嬲了一条由兴起,蔫条纛兴衰三个除段橡戏豹照搬递爨。 神经咒模型 撼经元是季孛经掇络操捧匏整本售感处理单元,也是抟经霸络靛设计基础。般来 说,作为神经元模型成具备三个要素: ( 1 ) 突触或连接,嚣用她j 表示季孛经元i 期神缀元i 之间鲍连接强度,墩称为权德。 ( 2 ) 加法器,用于求输入信号被神经元的相成突触加权的和。 f 3 ) 激活黼数,用予限铡李申经元的输出振幅。通常,一个神经元的输出幢范围 在 o ,l 】或p 1 ,1 】区间内。 一个典型的神经网络模型如下图所示: 1 鲁慧芳:两种前馈型神经网络中梯度学习算法的收敛性 x 1 x 2 x n 圈l 。1 毒枣经网络横型 f i g 1 1 m o d e lo fn e u r a ln e t w o r k y 1 第i 个输出神经元静输如值为 挑= f ( e + ) ( 1 2 1 ) j = l 其中q 0 1 ,2 ,n ) 为输入信号,”巧为权值,玩是闽值,( ) 是激活函数n 激懑蕊数,( ,) 可取不题涵数,蕊孛 较露曩熬蠢三耱: ( 1 ) 阈值函数( t h r e s h o l df u n c t i o n ) m ) : 1 ,o ( 1 1 2 2 ) l 吼x 0 ( 2 ) 分段线性函数( p i e c e w i s e _ l i n e a rf u n c t i o n ) f l , 管王 ,( 岱) 一 , 一1 1( 1 , 2 3 ) l i ,口s - 1 ( 3 ) s i g m o i d 黼数( s i g m o i df u n c t i o n ) s i g m o i d 函数瞧称为s 疆函数,是嚣裁痰爰最广泛垂萼滔纯函数。一觳遗,满是翔下 性质的函数称为s i g r n o i d 函数:光滑,单调递增,上、下有界( 称为饱和性) 。例如: 鼬净再商两, ,( 茁) = t a n h ( 3 x ) 除此之外,遥可以选择其它的活化函数,如:径向基函数、小波函数、样条函数 镣。 常用的连接方式 2 大连理王大学硬士学薤论文 棒经元透进粳篷赣簋连攘,耨一令襻经元鹣赣盘佼给勇一个聿牵羟元熬辕入。这些 连接可能是单向的,也可能悬溉向的。一个神经元可能有一个硪多个输入,一个或多 令竣如;鼹层乏超的季枣经元可娆奏连接,逛霉戆没有懑接。下箍是凡耱苓弱是之阉毒枣 经元的连接,称为层阅互联( i n t e r l a y e rc o n n e c t i o n s ) :。 垒连接( 1 磁l yc o n n e c t e d ) :第一层酌棒经露与第二蘑绣富豹棒经元簧s 骞连羧; 部分连接( p a r t i a l l yc o n n e c t e d ) :第一层的神经元不一定与第二层所有的 睁经元都 肖连接; 翦馈f f e e df o r w a r d ) :连接:第一层枣孛经元戆输出传给第二簇的神经元,但是它稠 不接受第二层的神经元的输出; x 2 疼 ( b i - d k e c t i o n a i ) 连接:第一屡李枣经元妻奄簸出砖绘燕二揆戆耪经盂,弱聪宅翻 也接受第二层的神经元的输出; 蔗缀( h i e r a r e h i c a l ) 连接:灵有上下巍层之鬻於通穰,没存跨藩遥穰; 熬撮( r e s o n a t e ) 连接:全连接,辨且层间反复传送消息直到满足某条件 熙复杂的结构是同层内神缴元也商连接,称为层内强联( i n t r a - l a y e r c o n n e c t i o n s ) 递归( r e c u r r e n t ) 涟接:同襟的享率经元全连接或部分连接,神径元之闻裙互遴信 点到满足条件,才输出到另一层; o n - c e n t e r o f fs u r r o u n d :神经元对它的邻居有兴奋性连接,对其它神经元则是抑 止性连接。 学习道程 亭枣经疆终熬学习馥熬戈训练,是攒逸过耪经阚络爨在丽壤熬剡激据髑调整耪经鄹 络的自由参数,使网络以一种新的方式对外界环境作出反应的一个过程。神经网络经 过反复学习对冀环境熨加了解。 蕊本的学习算法商: ( 1 ) 误差修正学习( d e l t a 规则或w i d r o w - h 硼搬则) ( 2 ) 基于记忆的学习 f 3 ) h e b b 学习 3 磐慧芳:辩释蘩馈囊粹经浏络中梯发学习算法静收敛经 ( 4 ) 竞争学习 ( ) 隧辘学习簿法( b o l t z m a n n 学习) 常用的学习方式有以下两种: ( 1 ) 凑教师学习( 凑毁餐学习) 学习燕在教 | i | l 约监督下遴学豹。教烯霹戳根据鲁身掌搓的翔谈为神经网络挺馁诫 练样本熬精望输崮,神经耀络禳攥麓警输潞辩裔身的参数避行诫整。这种调整瑚以逐 步而又发复魂迸彳亍,最终荫的是证神经网络地输出邋近期黧输出。 ( 2 ) 无教师学习 这截藏例可以分戈鼹类:增避式学习秘天整餐学习。在增进戏学习中,输入输出 映射静学器是遥避与环壤懿不叛变踅完藏静,鞋的是使一令标量毪缝掩标迭弱簸小。 我无箍瞽袋鲁缀织学习系统中,提供独立于任务羽褒示住质的度鬣,要求网络学习该 魔鲞褥鬣鑫由参数将穰掭这个度豢采逐步优化网络。 神经网络的应用 譬串缀网络赝嶷考的 线性特性、大爨媳势嚣分毒缝牧以及学习秘螺缡能力蠖其在 港龆建模、对润痔裂分耩、模式识剩、信弩处理黻教控稍筹方面褥掰了广泛的应用。 龙其撂对姣少物鬻或统计壤簿、蕊黎数据啐t 存在统计交亿、数据由稚线性梳制产生等 糠手辐题,耱经醛络髓够掇供较为有效豹解决方法。 根据m r i t i n ,t h 等人的总结,神经网络在实际生活中的应用包括:宇宙飞船、汽 车= 亍她、银行业、国防壤域、电子镁域、娱乐领域、金融领域、保殓镁域、制造她、 医药领域、石油j 靼天然气勘搽、规器人、语富领域、蠢馀避券、电信领域秘交逶镊 域。 楣倍随著神经溺络磷究的谶一步深入,其斑丽前景将甏为广阔。 1 2 本文的主装工俸 b p $ o 经网络是曼翦艘用最为广溅的劂绦之,这秘网终中霉建瓣算法鸯批处理方 法( b 矗毛c hg r a d i e n tm e t h o d ) 茅- 1 奁线撵度法( o n l i n eg r a d i e n tm e t h o d ,o g m ) 。由于在突际 阉题中榉本数辫氇往经多,新苏崧线梯菠法已经越采越多魄代替抵簸理方法被广泛采 矮。在缢往豹研究中,关予o g m 的投敛结莱大部分帮是概率链的。近年来,关馓教授 等人对这种算法的确定收敛性缩粜徽了大鬣的工作,得到了些很有意义的结论。其 中包括:文 6 1 中给出了输入样本线性无关的情况下o g m 的确定收敛性,丽文 7 1 则对鼹 层b p 网络中样本线性相关的情况做了研究并得到了同样的结论。 4 大连理工大学矮士学毽论文 愆麓矮静提出是梵了捷离蹩个圈终翡泛弦戆力f 测试样本的实验委礁率 。褥在样 本输入时加入随机排列则相当于对网络学习进行了扰动,从而有利于使其跳出周部极 小。带惩罚瑷瓣嚣层b p 阏终秘不警惩援瑷毽燕骞随掇羧入熬三层b p 网络孛在线檬度 法的收敛性已经分别程文 1 i 和1 2 】中得到了证明。本文把结果推广到带惩罚项和随机输 入的三层b p 网络中,褥到了更好的结论。其中包括:每一轮训练过后谈羞函数灼单调 性定理,算法的弱收敛性和强收敛幢定理。 商阶神经潮络( h i g h e r - o r d e rn e u r a ln e t w o r k ,h o n n ) 的提出是为了提高前馈型神 经网络的菲线往分类髓力。它在处理模式识掰等一些强稚线蔑阔题中寄眈多藩戆知器 更好的效果。作为一种h o n n ,p i s i g m a 神经网络( p s n n ) 保持了多层h o n n 强大的学 习蕤力,焉避免了隧羲输入样零维数豹增热投壤静缀会整增长,著基荚在处瓒分类 和函数逼近问题上都有比较好的效果i 硼。目前,此种网络并未得到广泛的研究,其中 算法瓣i | 臭敦悭理论结桊衮玉入绘出。我弱采黑b p 算法对嘲终避行学习,褥到了类镁 于b p 神经网络的收敛性结果。 5 鲁慧芳:两种前馈型神经网络中梯度学习算法的收敛性 2 带惩罚项的b p 神经网络中在线梯度法的收敛性 2 1 b p 神经网络简介 b p 神经网络是现在应用最为广泛的一类神经网络。它采用光滑活化函数,具有一 个或多个隐层,相邻两层之间通过权值全连接。它是前馈型网络,既所处理的信息逐 层向前流动。而当学习权值时,根据理想输出与实际输出的误差,由前向后逐层修改 权值f 误差的反向传播,b p b a c kp r o p a g a t i o n ) 以带一个隐层且网络结构为一p m 的网络为例: 图2 1b p 神经网络结构 f i g 2 1 s t r u c t u r eo fb pn e u r a ln e t w o r k 设w = w 茹) 1 。m ,l s p 尸和w = 邺。) 1 s p 只1 1 。s 分别是隐层到输出层和输入 层到隐层的权矩阵。选定g :r r 为非线性活化函数。则对任一输入向量f = ( 1 ) 豫,网络的实际输出为 其中隐层输出为 = 9 ( ( 2 1 1 ) p = 1 ,p( 2 1 2 ) m=m 强 ,一 鲥 | | n &如 长。 “ = 9脚“ i | 昂 大连理工大学硕士学位论文 给定一组输入样本 ) 暑lc 腿。及相应的理想输出 瘩一cr m , r m 为相应的实际输出。定义误差函数 1 j e ( 彬叫) = ;j l o 。一1 1 2 一j = l = ;阱一9 ( 9 ( 繇) ) 2 一j = 1m 芦 n = 1 我们期望得到一组权值矩阵和叫使误差函数e ( w 训) 达到极小。为此, 的方法是梯度下降法。即:w 南的改变量由下式给出 一叩彘 = 口( o 毫一繇) ( 硪) 召 j = l = 目蝇, j ;l 其中”为学习速率, 馘= ( 暖一岛拟碥) , 并记 一) 暑- c ( 2 1 3 ) 一个简单常用 ( 2 1 4 ) ( 2 1 5 ) 而 或= ( 2 1 6 ) 是隐层单元对第m 个输出层单元的线性输入。进一步,我们还可以得到权值聊。的改变 量: 一”瓦o e 一”妻器篆 = q ( 醵一岛) g ( 取) w 钿9 ( 峰) 器 = 卵毛9 ( 峰) 器, ( 2 1 7 ) 其中 = 靠, n = 1 m = g ( 嘭) 蝇 7 ( 2 i8 ) 鲁慧劳:两种前馈型神经网络中梯度学习算法的收敛性 2 2 学习道程中注意的阍鼷 初始权值 b p 霹终学习瓣静初始投毽过大、避小聱会影瘸学霹速度,因瑟应逡海蚜麓分毒弱 小数经验值。为避免每一步权值的调整方向相同,应将翩始值设为随机数。 期望竣怒 神经网络的激活函数是s i g m o i d 函数。如果其期望值是一口和n ,则期腹输出只能趋 于- - a 和a ,面不能达到一8 和。为避免学习算法不收敛,提高学习速度,皮设期塑输出 为相成的小数。 学习步长 一般来说,学习步长印大剐两络收敛遽戚快,僮过大会s i 起振荡即网络不稳 定:q 小可避免网络不稳定,但收敛速魔慢。在最优的梯度法中”应是可变的,憋个 一维攘索熬结慕。毽b p 阚络结构复杂,误差酗数是菲常复杂豹菲线毪黼数,邀就经 得求最优q 难度很大,计算量也很大。成用实例表明,”可取值1 0 一一1 0 范围内的任意 数。 一般要求怒:当训练到误麓曲面的平坦区甜,为加强收敛应使目增大;当训练到 误差曲褥的变化剧烈区黠,为防止过学霹( 使误夔增热) ,应使溅夺。为加抉牧敛,应 使? 7 合碱化,眈如用变步长算法。然而我们也应该注意劐,只有减小町才能保证权值修 正真正沿梯度下降方向。 在线梯废法 在迭代公式( 2 14 ) 和( 2 1 7 ) 中,我们必须将所有训练样本 ;全部输入到网络 中,热簿才麓辩当前豹权值矽帮w 骰一小步调整。而在察际应稻中,祥零数西常常很 大,上述做法就不够经济了。因此,广泛应用的是下述所谓的在线梯度法:随机选取 一巾襻本擎,对警兹投壤秒。窝w ,定义投篷增豢必 w 焉,一叩备嚅,( 2 2 1 ) 磊= 霉露麓,( 2 2 。2 ) p = 1 - - p ;n 一1 - ;m = l m , 露每竣入个训练样本囱量,我髓马上修改一次警蘸投镶。这秘方法也霹窭圭看终是撵 度法的一种随机扰动,商利于使网络跳跚局部极小。 网络逼近能力 一个典型的结果是,若g ( 。) 为s i g m o i d 型函数,则可以适当选择隐单元个数及权 8 大连理工大学硕士学位论文 壤,镁餐搽经爨络爵戳懿经意耩麦遥近个绘定静黔裂巍p 豹连续涵数。这畿绘多层 前馈型网络的广泛应用提供了理论保证。 2 3 泛他毙力狂惩霭璞 我们把谶练糖本输入腿终,逶避b p 算法修改投壤,攀望鬟终缮到戆题络蠢缀好的 挺化能力,即对于从朱在难成城训练网络中使用过的测试数据,网络计算的输出尽可 麓正确。同时,神经网络也应该在己知的训练样本上表现出尽可能高的精度。然而, 东训练撵零孛戆表璎越好簸意禳羞黪络结棱越复杂,默嚣瑟溅络在测试样本上的裘璃 就越熬。所以,要得剐一个对训练样本和测试样本都有缀好表现的网络结构烂项艰 难的任务。解决这一难题的策略大体生可以分为两装:一是由小到大地构建黼络,即 只有焱当嚣网络不能在诩练样本上这蜀期望静精凌对才增热霭络虢隐麓蕺溅单蠢夸 数,直到达到要求为止 二是由大n d , 地创建网络,即蓠先构建一个足够大的网络, 然后逐步减少隐单元躐单元之间的连接来减小网络体积,赢到褂缩减就不能正常工作为 止。 。 这里,我f | 】讨论上述匏第二狰螬援。瞧炎剩,l 、瓣创建网络圭要蠢嚣转寅法。一是 当网络训练结束以后,对网络中的单元和连接( 权值) 做重要性判定,把在某种标准下 薰要往比较小的单元和连接删除,然后重新词练网络,耐而复始。这种方法计算量很 大,又弓l 入7 判定重簧牲懿难魃。= 是在器有误差滔数黪基础上燕入一个复杂度瑗, 主要用以衡量网络结构的复杂稷度( 体现了泛化能力的优织) ,从而保证网络适应已知 样本的同时结构不会报复杂,计算量比较小,潮络也更稳定。复杂度项在权德更新过 糕中主要越撺翻策些粳蓬增长静俦掰,掰绫恣键称洚惩镄顼( p e n a l t yt e r m j 。由予误 蓑函数中加入了惩罚项,权值熨新时既要提高精度又要顾及到不能使网络结构过予复 杂,从而训练过程也是个求得精度与复杂度平衡的过程。 下面介绍凡稀基本的惩罚项: f 1 ) w e i g h td e c a y 方法 网络的学习过程可以餐作是最小化误差过稷和墩小化权值的平穷和过程之阕鸵一 个平衡。用公式可以表示如下: , 凹( ) :1 r8 ;+ h - 、训;, j = li e a 其中j 是调练样本个数,e ) 是误差函数,8 j 是第7 个样本的实际输出和理想输出之间 的误差,a 怒所裔较氆的集合,h 是一个很小的芷数。诧法的详情可参阅文。 f 2 ) w e i g h te l m i n a t i o n 方法 鲁慧势:两种前馈型神经网络中梯度学习算法的收敛性 踟) 。若霹+ a 吾舞, 其c w o 是可调常数,a 表示精确度项和复杂度联之闽的粳对重螯矬关系。此法其体可参 照文阮 ( 3 ) w e i g h td e c a y 羊n w e i g h te t r n i n a t i o n 方法的结合 嚣( ) = 弓+ a ,i e a 鲁s y = i十k i e a 埘 w e i g h te l m i n a t i o n 方法纛法区爨较大帮嚣大豹较镶,麸瑟不能翡斑毂值豹笼疆增 加,筒w e i g h td e c a y 方法对较大权慎有很好的衰减作用。两种方法结合可以相互补 夷,达裂更好躬效果。毒兴趣霹季文 i 镄 f 4 ) s t r u c t u r a ll e a r n i n gw i t hf o r g e t t i n g 算法 繁一步: 职1 ( ) 一弓2 十a | 训t 1 , j ;l i e a 其中a 是正常数。目的链得蓟糨路的礴络结构。 第二步: e 2 ( w ) = e 1 ( 鲫) e r a i n 1 一瓠,堍 , 其中是隐单元i 的输爨且垃 o ,l l ,c 是惩罚项的权重。曩的是漪除分毒姨表示。 第三步:同时应用一,二步得至谈差最小,性能更好的网络。 雯详细的介绍霹参见文 1 1 1 , ( 5 ) 利用内积的惩罚项 k o n g ,j ,w u ,w 在文 1 2 1 中提出了应用内积的惩罚项,并将其应用到两鼷b p 棒 羟网络中。文章对通过调练褥掰的权撼序列的宵界性及算法豹鞴收敛性给出了严格的 理论证明。本文把结果推广到三层b p 神经网络中。采用在线梯度法以使网络更易解决 落练檬本数蟊滗较多静霹题。褥对,在输入辩潮久随瓤藿搀,使网络鬟荔蕊出躏都稷 小。舆体的理论结果将在后文中给出。 2 4 网络结构及算法 我髓考虑带毒一个戆层鼹结构为p 洚i 款露终绘定训练榉本集 f ,臻,c 时x 酶,设g :r 一豫和,:酞一瓞分别为隐单元和输出单元上的活化酗数。令输入层 1 0 大连理工大学硕士学位论文 到隐层的权矩阵为y = ( ) 。啪记地= ( u m w 涵,”咖) 7 ( 1 isn ) ,隐层到输出层的 权向量为训= ( 叫l ,切2 ,一,w 。) 7 。 本文的研究是在欧氏空间中进行的。假设是任一正整数,对于茹= ( x l , 。k ) t ,y = ( g l ,y k ) t r v ,定义z y = 各l 矾玑,忙9 = 忙。) ;。为了表法简 洁,我们还引入记号 g ( 嚣) = ( g ( 。1 ) ,9 ( 茹2 ) ,9 ( ) ) tv x = ( x l ,- - ,x 。) r “ = g ( y ) ,1 ,工 蝣= a ( v 。一) ,k = 0 ,1 ,一,1 j z 对于给定的输入样本融,网络的实际输出值为 = ,g ( y ) ) ( 2 4 1 ) ( 2 4 2 ) ( 2 4 3 ) 对每个训练样本j ,定义平方误差函数 弓( ) = i 1 ( o 一f ) 2 = ;p 一,( ”螂) 2 ( 2 4 4 ) 相应的总误差函数可表为 j 面,y ) = 弓( 甜) ( 2 4 5 ) j = l 引入惩罚项,n ( 2 4 4 ) 和( 2 4 5 ) 变为 马仍) = ( o 。一,洳) ) 2 + a - ) 2 , ( 2 4 6 ) j f ( w ,v ) = 马( w 叻) , ( 2 4 7 ) = 1 其中a 是非负实数。 网络训练的目的是为了求得权值w 和y + 使 e ( + ,v + ) = m i ne ( 蜘,y ) ( 2 4 8 ) 为此,人们常常采用简单有效的在线梯度法( o c m ) 。我们用一种特殊的随机方式选 择p ,即:在每一轮训练执行之前,首先对训练样本1 ,。随机排序,然后把得到 的f 一,f m 7 顺序输入网络。对任意给定的初始权值z 0 0 和y o ,按下列公式迭代地修 改权问量 w ”。卅= w “7 十一1 + p ”。+ j 一1 ,m = 0 ,1 ,一,1 j 正 昭。却= ,7 + 。一1 + 昭j + j - 1m = 0 ,l ,一,1 j 上1 i 其中 弘= 一堡等型= 一( 邺珈哪, 1 1 ( 24 9 ) ( 2 4 1 0 ) ( 2 4 1 1 ) 鲁慧劳:两种黼馈型神经网络申梯度学习算法的收敛性 跏一一坠甓型= 一瓤嘲划 键,( z 4 1 2 ) 这里是第m 轮的学习步长。 2 。5 所需条件及重蒹弓l 瑾 为了给出艨面的收敛性结暴,我们先给出零文所篱要的足个瑕设螯传,其中岛是 菜一磁常数。偿实,下列各条中的岛w 班是不同的正常数。为了简便怒见,我们采用 了统的记号。以后的q ,岛等记号类似。) ( a 1 ) | 孽t ) ,| 9 7 ( t ) | , 疗”( 砖j e b ,t r ( a 2 ) l ,( t ) l ,l f 他) l ,i ,”( t ) l 曼岛,t r ( a 3 ) | | w m j + i i | 岛, m 一0 ,1 ,一,1s z ( a 4 ) l l 口。 0s 岛, m 一0 ,l ,1 i 基1 曼j ( a 5 ) 学嚣步长痔戮 冁 瓣送戴公式为 二一= 二十卢,m = 0 ,1 ,( 2 5 1 ) 其串委露数詹瀚毽将在蕊瑟豹滚鞠孛绘积。 根据上述条件,我们容易得到如下的七个引理。其中引理2 1 到2 4 的证明可在 文鬟及荬g l 文中我到,雩 理2 5 稆2 。6 戆谨碉是矗接了强| l 冬,褥弓l 理2 ,7 是文 1 3 l 中定 理1 4 1 5 的直接推论。 g l 疆2 1 引疆2 2 设x = 嚣l ,t 一,茹并) ,爨耳,焚| 悄峪f m , i = 1 、2 k ( 蚓) k 蝌 t = li = l 学习步长序列 卵。 袅1 鼹有以下特性: o m o ) 收敛。磐票存在常数舻 0 蹙愆 ,一l :, 那么 l i ma n = 0 】2 ( 2 5 2 ) ( 2 5 3 ) ( 2 5 4 ) ( 2 5 5 ) 垄塑型型塑墼 么胃l 理2 凛 令磁= ”+ 1 一,观= 。,】,ls i 扎。若条释f a l ) 成立,酃 l i c ( x ) 1 1 曼q ,珏德n s 哆岫一哆删q 蒌| 妒舢一蟛删,芸暑 慨( ,船t ) , 鹂舯1 勺飞) l m 枯瓴l ,l s t s 托一1 ,】s g 萼i 埋2 , 5 若象传( a i ) ,( a 2 ) 成立, ( 2 4 ,1 0 ) 生成,则 其中白蹩介于妒培 q j f 孀| f 女鞯l ( 2 , 8 8 ) 序列f 截p 如弩莉f 妒7 螂) 辔学习算法尊点9 ) j 夥( 够f s q ,l j z 霹 蟛( t j l a ,i j z 蟛帮彬”。蜘r o d + j - 1 之阉的镬实数,m 。,l ,。 f 2 5 9 ) ( 2 , 5 1 0 ) 勇鬻:名,:鬻1 :篓:,i 妒j ,m o 。若条件f a l 九( a 2 ) 成立,序 到 啦“妒j 秘 妒州) 自学习簿法豫4 。9 i :凳i 骂薹矗:蟊;杼”“a 动成立廖 l 露e 一( 锗”。,w j ) j i ( 1 l , 。 | 蜀* f ”,p 。列q ,i 她辨,踺经惫os 1 ,令 “1 ”一。一” 密= 珏 ”。十 蜉, 叠g 誊 。+ 喝,妒+ 1 ,毋十d 。只 要。冀+ ,鼍+ 敬嚣,嚣”j ,毋删仍2 s i s 搀一1 ( 蹬。,娼,蜡。+ t 唱) ,一1 9 妇( 妨,v “+ 1 7 ) i i q , | 圾强如”。,叼8 q ,l 鬟t 船。 ( 2 , 5 、11 ) ( 2 5 、1 2 ) ( 2 5 1 3 ) ( 2 , 5 。i 4 ) 集稚三高篙蕊篇麓茎纛獭斟患 集稚2 和蚤 守盎扛j 一。,筑谴藤秘。糟序列i 窖;二i 二羹2 搿基穗往甲鄹掇赛患 熙妙“一扩= 。,恕粉妒) i j 。o , 鲁慧芳:两种前馈型神经网络中梯度学习算法的收敛慢 雯| j 存在q 经褥 2 6 主要定理 为了简化后面的证明,讯 | | 妾罗训“。| | = 墨,。,阢6 :,a m y m 7 l | 一a | | 笥矿。忙哪 i = 1 j j | 2 弩印叫i = 噶 j = l j = l j 毙豁,我稍还萼 入 弩掣州旷= 噶 妻i = i | f 弩昭。| | = o - v 掣n 一口魏 卜喝 舻窖一铆”7 州一1 一罗锄“。,m = 0 ,t ,1 s j z 一 。卅一1 一 p 7 ,m = 0 ,1 ,一,1 jsz1 曼t 显然 r ”,1 0 , r 1 = 0 ( 2 + 6 ,1 ) ( 2 6 2 ) ( 2 6 3 ) ( 2 , 6 4 ) 定理2 1 设条件( a 1 ) 一a 3 ) 成立,序剿 埘) 和 妒州) 由学习冀法( 2 4 9 ) : 2 4 1 0 ) 生成,则对于m = 0 ,1 ,j = t ,五l = 1 ,站, j w ”州= w m j + ( 矿。+ 冗m 2 ) , ( 2 6 。s ) k = l 进而有, 1 4 ( 2 6 6 ) i ) 岛池+ 协e ,傅 。汹 妒弩 ,坶 ; 譬 ,埘 。 h , n r+ j 妒m k ;黼 + j j 1 w j m; ,斌 。:l m r ,鲻,、l 耋喜m 大连理工大学磺圭学位论文 证明:( 2 6 5 ) ,( 2 6 6 ) 霹由( 2 。4 田和( 2 4 1 0 ) 炎接得飘a 根据( 2 4 1 1 ) 和( 2 6 1 ) ,得 嚣4 。= 尹 “7 钾一1 一”7 一 ( 叫- 嘲m j xm j 一( 叫州州嘲小1 ) 蟛州_ l = ( 锄m j 妒叫m j ) ( 妒;m w j 一妒搿埘一1 ) + t ( ”嘲m j ) 一( 叫m 州妒_ ) | 端州q = w 蜥r n j 八、, 甲删m j 一m j 忏1 ) + 露m 互为) 眇啡,舀孑一妒男+ 1 ) + ( 钳m j w m j + j 一1 ) 譬+ 一13 妒鎏j + 一1 , 其中亡;介于训m j 删m j 和 “7 钾- - 1 妒州m j + j - 1 之间。由( a 3 ) ,( 2 5 6 ) ,( 2 5 7 ) ,( 2 5 9 ) 和( 2 5 1 0 ) , 我们推出 f f 秽。i i q 伽村伊1 一切时i i + 归州一m ( 2 6 8 ) 其中q :c ( 1 + c l + 岛a ) 。同理, 8 1 7 l i r 。1 1 霹愉叫村却_ 。一”州i i + l j 妒“卜1 一咿。l i ) , ( 2 6 9 ) 萁孛,霹= a ( 岛岛+ 岛件+ c l n + 岛m a x l g j l | ) m a x l ! ,s j | 。t 下面,我们利用数学归纳法证明:对任意k = l ,j ,存在正常数q 使得 fn , 一、 k - - 1 锋、 m 舣钏冗m i f ,f f 哆 咐s 岛,m 础耐i i + 妻f | 妒邗 ( 2 6 1 0 ) li = 1 js = l i = 1 巍譬8 3 ) ,2 矗4 ) 爨翔,一l 露存在岛,l 馊褥2 。& 1 0 ) 残立。瑷,是大于l 戆任意整 数一目 j 时,存在g ,使得( 2 6 1 0 ) 成立下面我们证明自= j 时,亦存在g ,使 镊( 2 矗1 0 ) 成立。 令四k m a x l 洲黟。由( 2 6 5 ) ,( 2 6 6 ( 2 删知、 | l 妒。| | s 琶 l 铆耐州一甜柑l + | | 够州一一妒。 = c ! ( | | 薹e , * n w m j tz 、mk ,i + 娄 l 薹e 磬妒7 + 妒斗,| ) q ! | 2 ”州忡四? 划村”l i ? w 驯 + i j 妒。忡掣( i mj l + 9 讥吲 量茎童墅生煎堕垄塑堡型塑鏖堂翌苎鎏塑堕塾丝 同理, j 一1 n 、 q ? 伽州i i + j j ? 妒- = l i = 1 一j - 1 篡, n 、 + 2 呸掣嚷善? 鲫柑妻 k = l8 = l ;j, j - 1 h、 q ( 1 + 2 掣咖) ( | i ? 叫”iw + 妻l | m i i1 k = i = 1 刚:捌? 2 鄯嘶叫卜虾i = l 辩刈) 则= 时,存在岛,= ( q + c ,) ( 1 + 2 c 蒜) 猹得( 2 6 1 0 ) 成立。 7 又令叼”= m a x l _ k 0 ,当o 粕m i 铭 焘,府麓扇 0 ,肖 ( 噶+ 啦) 岛( 嚼+ 喝) 2 6 邡) 定理2 4设条 牛( a 1 ) 一a 3 ) 成立,序捌 锃) m 州 和 妒y + j 由学习髯法( 2 4 9 ) , ( 2 4 1 0 ) 生成。若啪,按定理2 3 中的方式选取,则 、。 磊1 | | 玩( w m j , 妒侧2 0 0 , ( 2 1 6 1 7 ) i 1 瓦( 矿7 ,伊。汗 o o ,ls f 髓+ ( 2 6 - 1 8 ) 2 ? 结论( 收敛牲结暴) 在这一部分串,g 表示广义正常数,农不嗣懿撼方表承不嗣豹鳢e 定理2 5如槊定理2 3 条件都成立,郧么 瘩( 甜( 懈+ 1 y ,矿( m + 1 ) 了) 季( 钍严了,矿“了) ,m 拦0 ,1 ,x 一。 定理z 6如果定理2 4 蕊件都戚立,那么 l i r a l 净( 埘“钾,v ”州) | | 一0 ,t j s 五 辩砷” l i m ! i 强( 棚“7 钾,v ”。q ) 一0 ,1 篓z 1 i 1 7 , 、 m ” 1 9 ( 2 7 ,1 ) ( 2 7 2 ) ( 2 ,7 3 ) 鲁慧芳:两种前馈型神巍网络中梯度学习算法的收敛性 证明:利用( a 1 ) ,( a 3 ) ,( 2 4 9 ) 一( 2 4 1 2 ) ,( 2 5 5 ) ,( 2 5 9 ) 和( 2 5 1 0 ) ,樗 | | 昭| | 兰,t r ;= 0 ,l , 门 i 磁| l 罴,m o ,l ,l 茎l s 他, 进而结合( 2 5 7 ) 可攉出 肛( 钳m + 1 v ,v m + 1 j ) 一e 。( m ,y m j ) ! l , ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论