已阅读5页,还剩58页未读, 继续免费阅读
(计算机软件与理论专业论文)基于同伦bp算法进行入侵检测的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要入侵检测是网络安全的重要内容,它是一种积极、有效的网络安全手段。对比传统的静止的防御手段而言,它能主动的进行网络攻击的识别、跟踪以及采取相应的预防措施,因此受到各界越来越多的关注。基于神经网络算法的入侵检测由于其较强的自适应、自学习能力,尤其是对于复杂的训练数据有较强的分析能力,因此在入侵检测中有较好的发展前景。文章从入侵和检测两个方面进行研究。首先对入侵检测和神经网路的基本原理作了简要介绍,并利用n s 软件对入侵部分进行了仿真模拟,形象直观的体现了整个入侵过程。随后,文章着重研究检测部分,分析了原始反向传播算法的利弊,并针对其存在的缺陷,提出相应的改进措施:第一,改进原有算法的误差参数,引入交叉熵函数替代均方差函数来稳定算法收敛,改善局部极小点问题;第二,适当调节激活函数,优化函数收敛过程;第三,引入同伦方程进行一次改进权值,并结合动量项方法进行二次改进权值,加快其收敛速度,完善算法理论。同时,找出改进的同伦反向传播算法与入侵检测的切入点,利用m a t l a b 进行算法平台的搭建,以检验改进后的算法的有效性。比较发现了改进后的同伦反向传播算法收敛速度优于加动量项算法,陷入极小点的几率也有所降低,得出了在一定条件下改进的同伦反向传播算法优于加动量项的反向传播算法的结论。关键词:入侵检测,网络安全,神经网络,同伦方程,交叉熵函数r e s e a r c ha b o u ti n t r u s i o nd e t e c t i o nb a s e do nh o m o t o p yb pa l g o r i t h m( c o m p u t e r & c o m m u n i c a t i o ne n g i n e e r i n g )d i r e c t e db yp r o f z h ul i a n z h a n ga s s o c i a t ep r o f x i a oj u n b ia b s t r a c ti n t r u s i o nd e t e c t i o ni sa l li m p o r t a n tc o n s t a n to ft h en e t w o r ks e c u r i t y c o m p 删、析t l lt h et r a d i t i o n a la n ds t i l ld e f e n s ew a y ,i ti sa na c t i v ea n de f f e c t i v en e t w o r ks e c u r i t ym e a n i tc a ni d e n t i f ya n dg e tt r a c eo fn e t w o r ka t t a c k s ,e v e no f f e rs o m ed e f e n s em e a s l e s i nar e s u l t ,m o r ea n dm o r ep e o p l ep a ya t t e n t i o nt oi t i ti sb e l i e v e dt h a tt h ei n t r u s i o nd e t e c t i o nb a s e do nn e u r a ln e t w o r ka l g o r i t h mh a sab d g h tp r o s p e c tb e c a u s eo fi t ss e l f - a d a p t a b i l i t ya n ds e l f - l e a r n i n g ,e s p e c i a l l yt ot h o s ec o m p l i c a t e dd a t a t h ea r t i c l ei sc o m p o s e do fi n t r u s i o na n dd e t e c t i o n f i r s t ,i te x p r e s s e sb r i e f l yt h eb a s i cp r i n c i p l eo fi n t r u s i o nd e t e c t i o na n dn e u r a ln e t w o r k , a n ds i m u l a t e si n t r u s i o nb yn ss oa p p r o p r i a t e l ya n dd i r e c t l yt h a tp e o p l ec a ne a s i l yu n d e r s t a n dt h i sp r o c e s s l a t e r , t h ea r t i c l ew i l lf o c u so nt h ed e t e c t i o nw h i c hi n c l u d e st h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h ef o r m e rb pa l g o r i t h ma n a l y z e di nt h i sp a p e r , a n ds o m em e a s u l sa l eg i v e nt or e s o l v et h e m :f i r s t ,i m p r o v et h ee r r o rf u n c t i o n , i no r d e rt os o l v em a n yp r o b l e m ss u c ha ss t a b i l i t yp e r f o r m a n c ea n dl o c a lm i n i l n u n lp o i n t , i ti sr e a s o n a b l et or e p l a c em e a ns q u a r e de r r o rp e r f o r m a n c ef u n c t i o nb yc r o s s 。e n t r o p y s e c o n d ,a d j u s tt h ea c t i v a t i o nf u n c t i o na p p r o p r i a t e l ya n do p t i m i z et h ec o n v e r g i n gp r o c e s s t h i r d ,i no r d e rt oa c c e l e r a t ec o n v e r g e n c es p e e d ,t h ea r t i c l er e l i e so nh o m o t o p ye q u a t i o na n dm o m e n t u mt oi m p r o v ew e i g h t a tt h es a n l et i m e ,f i n dt h ek e yp o i n tb e t w e e ni m p r o v e dh o m o t o p yb pa l g o r i t h ma n di n t r u s i o nd e t e c t i o n ,a n de s t a b l i s ha na p p r o p r i a t em a t l a ba l g o r i t h mp l a t f o r mt ot e s tt h ee f f e c t i v e n e s s c o m p a r i n gt h ep e r f o r m a n c eo ft h ei m p r o v e dh o m o t o p yb pa l g o r i t h mw i t ht h ep e r f o r m a n c eo fb pw i t hm o m e n t u ma l g o r i t h m ,i ti so b v i o u st h a tt h ei m p r o v e dh o m o t o p yb pa l g o r i t h mh a v eaf a s t e rc o n v e r g e n c ea n dl o w e rl o c a lm i n i m u mp o i n t s s oi ti sc o n c l u d e dt h a tt h ei m p r o v e dh o m o t o p yb pa l g o r i t h mi ss u p e r i o rt ot h eb pw i t hm o m e n t u ma l g o r i t h m k e yw o r d s :i n t r u s i o nd e t e c t i o n ,n e t w o r ks e c u r i t y ,n e u r a ln e t w o r k , h o m o t o p ye q u a t i o n ,关于学位论文的独创性声明本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外,本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志对研究所做的任何贡献均己在论文中作出了明确的说明。若有不实之处,本人愿意承担相关法律责任。学位论文作者签名:刘广秭日期:j o o :其中1 ,i = 罗w h x ,一以,这个模型称为m c c u l l o c p i t t s 模型,简称m p 模型。在此模o _ _ j型中,如果神经元的局部域非负,输出为1 ,否则为0 。该模型描述的是皆有或皆无的特性。2 分段线性函数函数形式为:kt缈( v ) = o ,- 1l 一1 - ( v + 1 ) ,_ l 列针l这个函数相当于一个放大系数为1 的非线性的放大器:当运算的线性区域在开区间内时,函数变成了一个线性组合器;当线性区域向两边接近无穷时,函数变成了一个阈值函数。3 s i g m o i d i 函数s i g m o i d i 蟊数是对数一s 形传输函数,对数- s 形传输函数的输入函数的输入区间为( 咱,佃) ,输出区间为( 0 , 1 ) 。由于对数一s 形传输函数是可微的,所以对于多层网络的反向传播算法才采用了这种函数。最常用的s i g m o i d i 函数的数学表达式为:伊( 1 ,) = i + e x 二p ( - a v ) 其中参数口 o ,可以控制函数的斜率。1 5第三章神经网络另一种为双曲正切函数,输入函数的输入区间为( 硼,佃) ,输出区间为( 1 ,1 ) ,其函数表达形式为:砌) = 鼬( 争篙舞。3 1 3 信号流图定义3 5 信号流图是指在神经网络中,由一些信号沿着箭头的方向流动的连接线和相应节点组成的神经元模型。其中连接线分为突触连接( 图3 - 2 - 1 ) 和函数连接( 激活连接)( 图3 2 2 ) 。而节点类型也有两种:求和节点( 如图3 2 - 3 ) 和分送节点( 图3 2 - 4 ) 。,j 。产弧nd )【4 ),图3 - 2 信号流图的各个单元f i 9 3 - 2t h eu n i t so fs i g n a ls t r e a m s因此,人工神经网络也可以理解为有突触连接和函数连接的节点组成的有向图,由此可以给神经网络一个定义。定义3 6 神经网络是一个由具有互连接突触的节点和函数连接构成的有向图( 图3 3 ) ,该有向图具有以下几个特征:1 每个神经元可以表示为一组线性的突触连接,一个应用它的阈值,以及可能的非线性函数连接。阈值由一个固定为1 的输入连接的突触连接表示。2 神经元的突触连接要给与之对应的输入信号加权。3 神经元的诱导局部域由输入信号的加权和构成。4 函数连接抑制神经元的诱导局部域产生输出。1 6中国石油大学( 华东) 硕士学位论文x o2 - 1七图3 - 3 神经元的内部信号流图f i 9 3 - 3t h ei n t e r n a ls i g n a lo fn e u r a lu n i t s为了从整体上把握神经元的状态,只研究神经元之间的信号流动( 如图1 4 ) 。x o2 - 1x lx 2:输出y 七x p图3 - 4 神经单元外部表示f i 9 3 - 4t h ee x t e r n a ls i g n a lo fn e u r a lu n i t s由此可以有如下的定义:定义3 7 有向图是完全的是指有向图所具有的不仅描述了神经元间的信号流,而且也描述了每个神经元内部的信号流的性质。定义3 8 有向图是局部完全的是指省略神经元内部的信号流细节,而只描述神经元1 7第三章神经网络信号间的信号流的情况。定义3 9 神经网络结构图是一个有向图,该有向图是局部完全的,并且它具有以下特征:1 源节点提供输入信号。2 每一个神经元由一个计算节点表示。3 源节点和计算节点之间没有权值表示,图中连接线只是信号流的有向线。3 2 神经网络工作原理人工神经网络首先要以一定的学习准则进行学习,然后才能工作。现以人工神经网络对两种网络数据包的分辨为例,数据包a 为攻击数据,数据包b 为正常数据,规定当a输入神经网络时应该输出1 ,表示攻击数据。当b 输入神经网络时输出o ,表示正常数据。那么网络学习的准则应该是:如果网络做出错误的判决,则通过网络的学习,应使得网络减少下次犯同样错误的可能性。首先,给网络的各连接权值赋予( 0 ,1 ) 区间内的随机值,将“a 所对应的规则输入给网络,网络将输入模式加权求和,与阈值进行比较,再进行非线性运算,得到网络的一般输出。在此情况下,网络输出为“l ”和“0 ”的概率各为5 0 ,也就是说是完全随机的。这时如果输出为“1 ( 结果正确) ,则使连接权值增大,以便使网络再次遇到“a 数据包时,仍然能做出正确的判断。如果输出为“0 ( 结果错误) ,则把网络连接权值朝着减小输入加权值的方向调整,其目的在于使网络下次再遇到“a ”数据包时,减小犯同样错误的可能性。如此操作调整,当给网络反复输入若干个数据包“a 、“b ”后,经过网络按以上学习方法进行若干次学习后,网络判断的正确率将大大提高。这说明网络对这两个模式的学习已经获得了成功,它已经将这两个模式分布地记忆在网络的各个连接权值上。当网络再次遇到其中任何一个数据包时,就能够做出迅速、准确的判断和识别。一般说来,网络中所含的神经元个数越多,则它能记忆、识别的模式也就越多。在入侵检测系统中,神经元个数越多,那么它能记忆的攻击模式就越多,当然神经元个数的增加对于网络的收敛速度也是一个威胁。3 3 网络拓扑结构网络的拓扑结构是神经网络的重要性质,它是与训练神经网络的学习算法紧密联系在一起的。目前的网络拓扑结构主要有两种构成方式:前馈型网络和反馈型网络。1 前馈型网络1 8中国石油大学( 华东) 硕士学位论文各神经单元接收前一层的输入,并且输出给下一层,没有反馈,也就是说网络是严格的无环的。节点分为两类,即输入单元和计算单元,每一个计算单元可以有任意个输入,但是却只有一个输出。一般来说,前馈网络都有很多层,本层的输入只会连接上一层的输出,只有输入和输出节点与外界相联接,其他层为中间层只和内部相连,称为隐藏层。2 反馈型网络所有的节点都是计算单元,同时也可以接收输入,并且向外界传输。由于这个特性,网络可以画成一个无向图。该无向图可以看成是由若干个反馈环组成的有向网络,反馈环是指信号从某一个节点出发,最终可回到该节点的结构。由于网络中反馈环的存在,它使用一种叫做单元延迟元素的特殊构成,因此当神经网络有非线性的单元,就形成非线性的动态行为。3 4 学习规则在讨论感知机的学习规则之前,首先要学习一般的学习规则。学习规则就是修改权值和阈值的方法和过程。训练网络的学习规则一般有:有教师学习、无教师学习和强化学习。1 有教师学习有教师学习又称为有监督学习,它需要外界的一个“教师具有对从周围环境中抽取出来的训练向量做出判断,并且根据自身掌握的一些知识对训练样本提供期望响应,期望响应代表着神经网络的最优动作。误差信号是神经网络实际响应与预期响应之差,神经网络根据这种误差进行调整、修正,最终达到最优。2 无教师学习无教师学习又称为非监督学习,不存在外部教师,是完全根据统计规律来调整网络的权值和阈值,对网络进行逐步优化。3 强化学习强化学习也称为再历学习,是介于有教师和无教师学习之间的学习方法,它是外部环境对神经网络系统的输出结果只进行奖惩操作,系统再根据动作来调整自身的参数,以达到最优。1 9第三章神经网络3 5 神经网络学习算法学习是神经网络的重要特性,神经网络通过学习改善网络的各个参数,调整网络状态。根据m e n d e l 和m c c l a r e n l 9 7 0 年对学习的定义,学习是一个过程,通过这个过程来调节神经网络在环境激励过程下的参数,其学习方式影响着学习的类型,以下是一些神经网络常用的学习算法。3 5 1 误差修正学习神经元k 构成前馈神经网络输出层的唯一计算节点,神经元k 被一层或多层隐藏神经元产生的信号向量x ( n ) 驱动,这些隐藏神经元的改变是由神经网络的源节点的输入向量驱动的。参数r t 表示离散时间,或者说是调节神经元k 的突触权值的交互过程的时间步。令y 。( 拧) 为输ax ( n ) 时神经元七在丹时刻的实际输出,以( 刀) 为相应的应有输出,则误差信号可以写为:e t ( 刀) = d i ( 以) - y t ( 拧)( 3 - 3 )误差信号e k ( n ) 为驱动控制机制,它的目的是调节神经元七的突触权值,使气( 刀) 达到最小,也就是说让实际输出y 。( 刀) 与应有输出以0 ) 之间尽量靠近,转换成数学问题,就是在选定了目标函数形式后,求解函数的最优化问题。实现这个目标需要通过最小代价函数,一般是使用均方误差来表示:,叫丢( 砌( 3 - 4 )其中e 是数学中的数学期望,表示求和。这个数学表达式的前提是被学习的过程是宽平稳的。为了了解整个过程的数学特性,常常需要知道在某一时刻的瞬时值,此时用f ( 甩) 表示:荆i _ 三誓( 疗)( 3 - 5 )这里所描述的学习过程被称为误差- 纠正学习,对代价函数孝( 珂) 的最小化由w i d r o w h o f f学习规则进行计算,令( 刀) 表示在第以时间步,被信号向量x ( 刀) 的x ( 疗) 分量激发的神2 0中国石油大学( 华东) 硕士学位论文经元七的突触权值。根据此规则,突触权值的调节量w 白( 行) 定义如下:咄( 玎) = t l e k ( 刀) ( 拧) ( 3 - 6 )其中7 为学习步长,为正常量,决定学习过程的学习率,这就是误差纠正学习规则。3 5 2 基于记忆的学习基于记忆的学习算法包含两个重要的部分:用于定义测试向量墨的局部邻域的准则和用于t 的局部邻域中的训练实例的学习规则,算法随着这两个组成部分的不同而不同。最近邻规则是基于记忆学习的简单方式,如果向量x 。瓴,x :,h 满足m i n d ( x ,) = d ( x 。,一) ,其中d 是欧几里德距离,那么x 。就是薯的最近邻。按照最近邻规则来划分样本空间,这个规则独立于样本训练的基本分布。3 5 3h e b b 学习h e b b 学习是为了纪念神经心理学家h e b b 而命名的,学习规则为:1 如果突触在每一边的两个神经元的激活是同步的,那么突触的连接强度会被加强。2 如果突触在每一边的两个神经元的激活是异步的,那么突触的连接强度会被削弱。相应的数学表达式为:,( 玎) = f ( yi ( 刀) ,x ,( 丹) )( 3 7 )其中y 。( 疗) 和x j ( n ) 分别表示神经单元两端的学习状态。3 5 4 竞争学习竞争学习是神经网络中的输出单元要通过彼此竞争来确定最后的输出神经元。在任意时刻,只有一个输出神经元通过竞争处于激活状态,竞争学习规则有三个基本元素:1 一个神经元集合,这些神经元除了一些随机分布的突触权值之外是完全相同的,并且由于突触权值的不同而对一个给定的输入模式集合有不同的响应。2 对每个神经元的强度上的限制。3 允许神经元作为响应一个给定输入子集的权利而竞争的机制,从而使得每一次只有一个输出神经元或者每组只有一个神经元是激活的。对于一个想成为获胜神经元的神经元k ,对于指定输入模式x 的诱导局部域1 ,。必须是网络结构中所有神经元中最大的。获胜2 1第三章神经网络神经元七的输出信号儿被设置成为1 ;竞争失败的所有神经元要设置为0 。作用于突触权值的改变量厶的定义为:啪,= 协裂嚣删,其中,7 是学习参数。3 5 5b o l t z m a n n 机学习基于b o l t z m a n n 学习规则的神经网络称为b o l t z m a n n 机。在b o l t z m a n n 机中,神经元构成递归结构,并以二值方式运行,即要么处于+ 1 状态,要么处于1 状态,能量函数表示成:e :一昙x :x ,( 3 9 )x ,是神经元的状态,是连接神经元到神经元七的突触权值,其中k j 说明其中神经元没有自反馈。b o l t z m a n n 机的神经元有两种功能组:可见的和隐藏的。所以有两种运作方式:1 钳制条件,可见神经元都被钳制到由环境决定的特定状态。2 自由运行条件,在这种情况下所有的可见的和隐藏的神经元都允许自由操作。用店表示在钳制条件下神经元,和七的状态间的相关量,用店表示在自由运行条件下神经元_ 和k 的状态间的相关量。由此得到改变量:w 匆= ,7 ( p 去一店) ,j f k( 3 一l o ),7 是学习参数,或和店的取值在- 1 和+ 1 之间。3 6 神经网络的特点神经网络的以下特性使它的发展空间比较广阔:1 并行分布处理:在神经网络中,知识与信息的存储表现为神经元之间分布式的物理联系。它分散地表示和存储于整个网络内的各神经元及其连线上,每个神经元及其连线只表示一部分信息,而不是一个完整具体概念,只有通过各神经元的分布式综合效果才能中国石油大学( 华东) 硕士学位论文表达出特定的概念和知识。神经网络具有高度的并行结构和并行计算能力,因而能够有较好的耐故障能力和较快的总体处理能力。这很适于实时和动态控制机制。2 高速信息处理能力:人工神经网络是由大量的神经元广泛互连而成的系统,它的这一结构特点决定着人工神经网络具有高速信息处理的能力,因而其知识存储容量很大。3 非线性映射:神经网络具有固有的非线性特性,这源于其近似任意非线性映射( 变换)能力。这一特性给非线性控制问题带来新的希望。4 泛化能力:由于神经网络的知识存储容量很大,并且神经元个数众多,使它具有很强的不确定信息的处理能力,即泛化能力。即使输入信息不完全、不准确或模糊不清,神经网络仍然能够联想存在于记忆中的事物完整思维模式。只要输入的模式接近于学习样本,系统就能给出正确的推理结论。5 自适应:在一般的任务执行过程中,空间是学习过程的一个基本的维,而时间是另外一个维。理论上讲,如果空间的学习和时间的学习相一致,那么网络的学习是一个精确的学习,也就是说所处的环境是相对不随时间变化的,是平稳的,那么这些统计特征就可以被学习系统作为经验记住。但是,如果环境是随时间不断变化的,一般的有监督学习无法跟踪到这种变化,这就需要系统对环境的学习是持续的,如果输出值与实际值满足在误差之内,就不必修正参数,否则要修正参数来不断的跟踪环境变化。而神经网络可根据环境的变化适时调整时间与空间的一致性,有助于对特殊环境的学习,具有一定的自适应特性。6 健壮性:因为人工神经网络的原理是来自人脑的神经系统,自然可以联想到,人工神经网络的另一个重要特点是它的健壮性。想象一下,当人脑遭受打击损伤后,人脑的部分记忆会丢失,但不会失去全部的记忆。同样人工神经网络也有类似的特点,无论是硬件或者软件故障只会使部分神经元失效,而整个系统依然可以正常运行。这与人工神经网络的结构特点以及信息存储的分布性是密切相关的。第四章b p 神经网络4 1l m s 算法第四章b p 神经网络l m s ( 1 e a s tm e r r ls q u a r e ) 算法是b p 算法的理论基础,有必要进行一定的讨论。在讨论l m s 算法之前,首先要讨论一下最优问题。对于一个最优问题要求得最优解w 满足e ( w ) e ( 计,也就是说要解决一个无约束的最优化问题使v e ( w ) = 0 ,其中v 表示梯度。在最速下降算法中,权值的调整是在最速下降的方向进行的,是与梯度方向反向的。令g = r e ( w ) ,所以最速下降方法的一般表示为w ( n + 1 ) = w ( n ) 一骝( 疗) ,其中,7 为学习步长,从以到刀+ 1 步的算法修正式是a w ( n ) = w ( n + i ) - w ( n ) = - ,z g ( n ) 。,7 对收敛性的影响是相当明显的:,7 较小时,算法的瞬时响应平缓;,7 较大时,算法响应剧烈;当7 7 超过某一临界,算法是不稳定的。l m s 算法是建立在代价函数的基础上的,代价函数可表示为:e ( 忉= - 三- e 2 ( 拧)( 4 - 1 )p ( 拧) 是在疗时刻测得的误差,然后公式( 4 1 ) 两边再对w 求导得掣:p o ) i o e ( n ) ,当l m s 算法运行在线性单元上时,误差信号可表示成:p ( 刀) = d ( 刀) 一x 1 ( 刀) w ( ,z ) ( 4 - 2 )式子两边再对俐求导,就可以得到警叫小鬻o w t 叫咖。衲= 鬻o w (口,刀,l 可以看成是梯度的一个近似。因此l m s 算法形式为:w ( n + 1 ) = w ( 刀) + r l x ( n ) e ( n ) 。( 4 3 )l m s 算法优于最速下降法的地方是用了向量梯度的一个近似。在最速下降算法中,权值向量在权值空间有一个明确定义的轨迹,不适用于变化的空间;而在l m s 算法中,权值向量在权值空间跟踪随机的轨迹。所以,l m s 算法不需要知道环境的统计特性,优点是简单。此外,l m s 算法是模型独立的,因此具有一定的鲁棒性,即小的模型不确定性和小的波动只能导致较小的误差,而不会偏离过远。因此,算法即便运行在异常情况下也有一定的生存能力。但随之而来的缺点是收敛速度太慢,对输入特征结构的变中国石油大学( 华东) 硕士学位论文化太敏感。一般情况下,l m s 算法需要十倍于空间维数的迭代次数才会逐渐收敛,从而达到稳定状态。显而易见,当空间维数比较高时,算法的收敛速度会非常缓慢。4 2 感知器感知器是用于线性可分模式分类的最简单的神经网络模型,它由一个具有可调特性的突触权值和阈值的神经元组成。一个简单的单层感知器由输入、阈值和输出组成( 图4 1 ) ,它是建立在非线性神经元上的,其他表示与神经元模型类似。输入而x 2y k输出工p图4 1 单层感知器结构f i 9 4 - 1t h es t r u c t u r eo fs i n g l el e v e lp e r c e p t r o n4 2 1 单层感知器单层感知器可以实现线性可分函数,通过调整权值的大小来进行监督学习。首先定义学习算法中所使用的向量:x ( 刀) 为p + l 维的输入向量,x ( 刀) = 卜lz l ( 刀) x 2 ( 玎) x p 研) 】r ;w ( 疗) 为p + 1 维的权向量,w ( ,1 ) = 【秒( 刀) m ( 拧) w 2 ( n ) ( 甩) 】r ;y ( 刀) 为实际输出;d ( n ) 为应有输出:,7 为学习的步长,是一个在【o ,1 】区间的数。感知器的学习算法过程可简化如下:1 把w ( o ) 赋值为一个小的随机数。2 在第刀步输入输入向量x ( n ) ,并且计算y ( n ) ,y ( n ) 的计算方法如:y ( n ) = s g n ( w 7 ( 刀) x ( 以) ) 。3 权系数的调节是按下式进行的:w ( n + 1 ) = w ( 刀) + 巩d ( 刀) 一y ( 疗) 】x ( 川。第四章b p 神经网络4 刀= n + l ,返回到第2 步。可以证明,当样本来自线性可分模式时,在进行有限步后,该算法可收敛。4 2 2 多层感知器网络输入层由一组感知单元组成,隐藏层是一层或多层的计算节点,输出层是一层计算节点组成,信号层层向前传播通过网络,这样的神经网络称为多层感知器( 图4 2 ) 。输图4 2 多层感知器结构f i 9 4 - 2t h es t r u c t u r eo fm u l t i p l ep e r c e p t r o n多层感知器有以下三个主要的特点:1 网络中的每个神经元都包含一个非线性激活函数。普遍用的是s i g m o i d 非线性函数。2 网络至少包含一层隐藏单元。3 网络有高度的连接性。4 3b p 算法学习过程b p 算法是l m s 算法与多层感知器相结合的产物,具有二者的优点,它的学习过程分为两个阶段:第一阶段是正向传播计算过程。输入信息由输入层输入,经隐含层处理,最后通过输出层输出网络计算的结果;第二阶段是误差修正反向传播过程。在此过程中,要比较输出层的实际输出与期望输出的误差,若不满足要求,按照减少误差的方向从输出层经隐含层逐层修正各连接权值,直到输入层。这两个阶段是反复交替进行的,只有在输出的误差满足要求或达到限定的循环次数时才会停止。在使用b p 算法进行网络学习时,首先要定义两种信号( 图4 3 ) :工作图4 - 3 多层感知器中的两个基本信号f i 9 4 - 3t w ob a s i cs i g n a lo fm u l t i p l ep e r c e p t r o n中国石油大学( 华东) 硕士学位论文1 工作信号施加输入信号后向前传播直到在输出端产生实际的信号,是输入值和权值的函数。2 误差信号网络的实际输出与应有输出的差值,由输出端到输入端一层一层向后传播。假设第刀次迭代中输出端的第j f 个单元的输出为y j ( 力) ,那么这个单元的误差信号为:p ( 刀) 2 乃( ) 一少( 刀) ( 4 - 4 )定义单元j f 的平误差为i 1 e ;( 疗) ,其中j 是所有输出单元的集合。若训练样本的总数为,那么均值为:如= 专扣,是学习的目标函数,算法的目的即使e a r 达到最小。b p 算法按样本的学习过程推导如下:对于输入信号的第f 个输入( 图4 - 4 ) ,令,( 刀) :兰嘞( 甩) y ,( 刀) ,p 为加到单元前i = 0的输入个数,则乃( 力) = 纺( v ( 刀) ) ,求e ( 刀) 对的梯度:o e ( n ) 一o e ( n ) o e j ( 疗) 勿( 刀) o n ( 咒)伽( 行) 冼( ,z ) 砂( 刀) 加( 刀) 毗( 刀)舔叫篇训俐,匆,( 刀)加,( 刀)吖叫7桊一加跳砒其中权值的修正量为:( 4 - 6 )器刮班所以赋4 - 6 )( 4 7 )嘶一叩器2 鸭删,负号表示权值的修正量是按照梯度的下降方向的,渺一器鬻粥叶枷砌p7抛,( 刀) 钞,( 刀) 西,0 )p ”pp “2 7( 4 8 )第四章b p 神经网络8 i ( , 0 称为局部梯度。由于单元_ ,可以是隐单元,也可以是输出单元,因此要分为两种情况进行讨论:1 当歹是输出单元时的情形比较简单( 如图4 - 4 ) ,可以直接得出下式:哆( 刀) = ( 嘭( 疗) 一y ( 疗) ) 矿( ,( 咒) ) ( 4 - 9 )神经元,y f (图“输出单元的信号流图f i 9 4 - 4t h es i g n a ls t r e a mo fo u t p u tu n i tj2 当j 是隐单元情形时,啪) _ - 器俐砌巳( 胛)( 4 一l o )由图( 如图4 - 5 ) 可知当七为输出单元时,有e ( 狞) = 三萎2 ( 刀) ,对于此式,对y ,( 胛) 求洲啪。丽o e ( n ) 2 渺) 端2 渺) 端端撒里,呱加啪一小m 刮删,所以器一纵咖) ) 而g1 ,。( 甩) = ( 刀) 乃( 刀) ,q 为单元k 的输入端个数。然后再对乃( 门) 求导,可以得j = o鬻= 咖) ,因此就可以删:器一莩驰w 疗)( 4 1 1 )中国石油大学( 华东) 硕士学位论文把公式( 4 - 1 1 ) 代入公式( 4 一l o ) 得:t ( 刀) = 伊;( ,( 刀) ) 瓯( 刀) ( 刀)k神经元j f神经元k图4 _ 5 隐单元,的信号流图( 4 1 2 )f i 9 4 - 5t h es i g n a ls t r e a mo fh i d d e nu n i tj而万,( 刀) 的计算也有两种情况:1 当是输出单元时,8 j ( n ) = 彤( v ( 以) ) p ( 玎) 。2 当是隐单元情形时,8 j ( n ) 是蟛( ( 刀) ) 与后面一层万的加权和之积。8 j ( n ) = 缈;( 1 ,( 刀) ) 瓯( 玎) ( 甩)七用b p 算法进行学习时,训练网络的方式有两种:一种是每输入一次样本修改一次权值;另一种是当所有的样本都输入完毕后先求总的平均误差,然后再求权值的修正量。综上所述,b p 算法的步骤可归纳如下:1 初始化,把网络中的可调参数置为一个合理的小数值。2 对每一个样本进行前向计算,然后再进行反向计算,最后修正权值。3 刀= 玎+ 1 ,对下一个样本进行输入、计算、修正,最后达到期望的要求。b p 学习算法具有理论依据充分,推导过程严谨,物理概念清晰及通用性好等优点,使它至今仍然是多层前馈人工神经网络学习的主要算法。但b p 算法也存在一些不足之处,主要有;第四章b p 神经网络1 b p 学习算法的收敛速度慢,且收敛速度与初始权值的选择有关。2 b p 学习算法采用梯度下降法进行学习,由于是非线性优化,不可避免地会存在局部极小点问题。当局部极小点产生时,此算法所求的解就有可能不是全局最优解。3 网络隐含层的层数及节点个数的优化选择尚无理论上的指导。由于b p 算法的收敛性和局部最小问题,有很多的学者提出了许多改进的反向传播算法,有基于b p 算法参数m 的改进、误差形式的改进、激发函数【4 8 1 和竞争学习的调整、遗传算法优化b p 算法、同伦方法改进b p 算法、误差放大 4 9 1 的方法等等。4 4b p 神经网络的工作过程b p 算法的计算过程可由工作流程图4 - 6 表出。网络初始化赋值误差是否满足要求调整中间层到输出层的连接权值和输出层单元结束图铴神经网络工作流程f i 9 4 - 6t h ep r o c e s so fn e u r a ln e t w o r k中国石油大学( 华东) 硕士学位论文5 1 同伦基本概念第五章同伦b p 算法同伦【删是拓扑学中的一个分支,下面给出同伦的一般性定义。设x 与】,是拓扑空间,连续函数f :x y 是一个映射,x 与x 。是x 的两个子空间,】,与p 是l ,的两个子空间,如果映射f :x y 满足f ( x ) sy ,f ( x 。) y 一,那么记为f :( x ,x ,x ) _ ( y ,】,7 ,】,。) 。定义5 1 :设厂与厂满足( x ,x ,x ) 一( l 】,】,。) 是两个映射。如果存在映射f :( x ,x ,x 。i ) 寸( y ,y ,) 使f ( x ,0 ) = f c x ) 。f ( x ,1 ) = f ( x ) 对任意的x x 成立,则称厂与相对于( x ,x ) ,( j ,】,。) 来说是同伦的,并记作f 兰f 7 :( x ,x ,x ) 专( 】,r ,】,。) ,当x ,x 。,】,】,都是空集时,称为绝对同伦,记为f 兰f :x y ;连接厂与厂有一个连续形变,对于( x ,f ) x i ,在此表达中,可以把f 理解为时间,z ( x ) = f ( x ,) 定义了一组映射z :xjy ,对于,f , c x ) 表示在,时刻x 在y 中的像,特别地,r = 0 时为映射厂,= 1 时而为映射f ,z ( x ) 同时连续的依赖于点x x 以及时间f t 。5 2 同伦b p 算法生成同伦算法是一种由简单到复杂的算法,如果所求的问题是一个非常复杂的非线性函数f ( x ) = 0 形式,那么就要选取一个跟这个函数有一定关系并且较为简单的可计算的函数g ( x ) = 0 的形式,让这个简单函数逼近所求函数,用式子表达为:h ( t ,x ) = ( 1 - t ) g ( x ) + ,厂( x )( 5 - 1 )其中f ( x ) 为所要求的复杂的非线性函数,g ( 功为自定义的一个较为简单的函数,r是自变量,当f = 0 时,h ( o ,x ) = g ( x ) 为已知函数,g ( x ) = 0 是根据环境要求定义的,因此容易求出它的解;当t = l 时,h ( 1 ,x ) = f ( x ) ,就转化为所要求的复杂函数f ( x ) = 0 的3 1第五章同伦b p 算法解,当f 在从0 寸1 的过渡过程中,函数从已知函数不断的逼近所求的函数,解函数( ,)的0 解的曲线也从( 0 ) 过渡到( 1 ) ,跟踪零点路径的轨迹,最终求出复杂函数g ( x ) = 0的解。实际操作时,f 取区间【0 ,l 】上的若干离散值,用t ,表示,i = 0 , 1 ,n ,并且f 一,r 一。的权重的终值为f ,的初始值。5 2 1 同伦算法改进过程本文采用的是含一个隐藏层的三层前向网络,假定输入层的单元个数为刀,隐藏层的单元个数为,输出层的单元个数为m ,激活函数为s i g m o i d 函数或线性函数,并把阈值写入到连接权的表达式中,则各算法过程描述如下:1 建立节点。一q = 一嘞,i f f i 0h j = 厂( q ) ,j = 0 , 1 ,最= h j w j kj f f i 0y t = g ( 最) ,七= o ,1 ,m其中激活函数厂和g 可以为指数s i g m o i d 函数、双正切s i g m o i d 函数或线性函数中的任一种。表示神经网络输入层的第f 个输入,吃表示神经网络隐藏层的第个输出,几表示神经网络输出层第七个输出,表示神经网络输入层的第f 个神经元与网络隐藏层第个神经元之间的连接权值,表示隐藏层的第个神经元与输出层第后个神经元之间的连接权值。2 b p 算法调整学习。对于实际的网络输出几和期望输出允,由传统的b p 算法按梯度下降进行调整学习,其算法简化如下:1m - ie = 去( y 七一九) 2 ,则隐藏层到输出层的权值修改量为:3 2中国石油大学( 华东) 硕士学位论文a w j ko f 一刁瓦:一,7 石o e 鬲o y k o ? k o,几:( 允一j , ) g ,( 最) ,w。砂i 识i kv 凡厂6v = 一,7 ( y i 一夕。) 9 7 ( 最) = ,7 ( 多t y k ) g ( p k ) h j= ,7 儿h j输入层到隐藏层的权值修改量为:艿:8 e= 一一o o ,8 ea y k8 p ko h ja y t 犯o h , 0 0 ,:一窆( 儿一九培,( 丑) 厂,( q ) m - i= ( 允一y 。) g ( p k ) w 业( q )k = om - i= ( y k w j k ) f ( q )k - - - o= 材( 夕。- y 。) g ( 最) y 肚f ( q ) 而k = o= , 1 s j x l:该算法存在一定的缺陷:首先,误差平方和准则对于分类问题并不是最合理的【5 l j ,它是在应有输出为高斯分布的条件下由极大似然原则导出的,但是在实际分类中,输出往往是二值的,不符合高斯分布,并且均方误差受奇异值影响巨大,容易产生振荡。其次,权值的改变量固定,调节空间小,在陡区间和平坦区间以一样的步长收敛,不能很好的进行收敛。3 引入交叉熵算法。1 9 4 8 年,s h a n n o n 等提出把熵( e n t r o p y ) 引入信息论,从而产生“信息熵 的概念。一般说来所获得的信息越多,信息的不确定性就越小。信息熵的定义如下:对于随机变量x 可以取区间【l ,以】上的刀个可能值,x = t o = 1 , 2 ,刀) 出现的概率为只= p ( x = 而) ,0 毋1 ,并且只= l ,则可定义随机变量x 的熵日( 力= 一最l o g p k 。f i l如果两个随机变量a 和b 分别来自两个分布,则它们之间的差别程度,可以用类似于k u l l b a c k l e i b e r 距离进行表示:3 3竺峨堕哆识一饥瓦堕哪堕饥叩叩第五章同伦b p 算法e = 酗m 套们飞m g 啬,( 5 - 2 )肚弘1 0 9 兰k + ( 1 吨) 1 0 9 鲁j 1 )( 5 - 3 )t t i,i对儿求导,则,丝a y k = 瓦y 而km 多k ,再求出隐藏层到输出层的权值变化量,= 三瑟r 器他) ,。二蒸a y ka p a h j y k - - y k八q ,三:瓣烈鹕= 。薹裂。在一定条件下,该算法可有效的避免陷入局部极小点【5 3 1 。通过比较发现由交叉熵改3 4中国石油大学( 华东) 硕士学位论文进的算法与原算法的本质区别是输入层与隐藏层的误差以与九不同所致。当激活函数为指数型s i g m o i d 函数时,改进的算法中的元的变化幅度较大,因此权值的修改很大,容易产生振荡。为了减少振荡,原交叉熵( 相对熵) 算法采用了添加模拟退火的附加项来改善算法的收敛速度,其存在的问题是添加了附加项,虽然加快了收敛的速度,但是这样一来收敛函数发生改变又容易陷入局部极小点了,使改进的熵函数不能最大的体现改进的优越性。本文引入一种不会改变收敛函数,并且在陡区间减慢收敛、在平坦区间加快收敛的方法不仅可有效的减小振荡,而且可改善函数的收敛速度。此外,该算法也可有效的避免函数陷入极小值问题。4 基于同伦方程改进交叉熵算法。( 1 ) 为了解决振荡以及收敛问题,先使用同伦方法进行粗调。有关参数修改如下:,一一l尹i = ( 1 一) 九+ ( 1 一pi n f ) 冗,t ,( o ,1 )( 5 _ 4 )一上一上一上式中,当九专g o 时,式子的后一项r f ( 1 一ei 矗i ) 元中的pl 办专1 ,( 1 一ei 元i ) 一0 ,则整体一一一ll上减小了y k 的变化值,稳定了收敛。而当y k 寸0 时,el
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025天津蓝巢检修公司校园招聘笔试历年备考题库附带答案详解2卷
- 2025中铁六局路桥公司校园招聘笔试历年备考题库附带答案详解2套试卷
- 2025上海地铁招聘96名见习人员笔试历年典型考点题库附带答案详解试卷2套
- 2025贵州毕节金沙县国有资本投资运营集团有限公司招聘工作人员笔试排名及笔试历年典型考点题库附带答案详解2套试卷
- 口腔颌面畸形的遗传因素分析-洞察及研究
- 城市休闲文化空间布局的混合使用与共享经济研究-洞察及研究
- 功能性康复训练路径优化-洞察及研究
- 半灌木植物提取技术在天然化妆品中的应用-洞察及研究
- 多源遥感数据在河口动力学研究中的应用-洞察及研究
- 定制旅游需求分析-洞察及研究
- 医院辐射防护和安全保卫制度
- 第五版-FMEA-新版FMEA【第五版】
- XXXX年中国星级饭店评定报告书
- 经典模板《湛蓝情深》
- 辽宁交通高等专科学校-单招《职测》考前特训复习题库(含答案)
- 战伤救护理论考核题库
- 中文工具书检索
- GB/T 24202-2021光缆增强用碳素钢丝
- 阻尼复合材料课件
- 微生物农药细菌
- 新版GMP验证总计划
评论
0/150
提交评论