10第十章___神经网络剪枝方法_第1页
10第十章___神经网络剪枝方法_第2页
10第十章___神经网络剪枝方法_第3页
10第十章___神经网络剪枝方法_第4页
10第十章___神经网络剪枝方法_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章神经网络剪枝方法剪枝方法采用自顶向卜的设计方法。它先构造一个足够人的网络,然后通过在训练时删除或合并某些节点或权值,以达到精简网络结构,改进泛化的目的。ReedReedl993曾对早期的剪枝算法作过简单的分类。本章介绍了三类最常用的剪枝方法:权衰减法,灵敏度计算方法,及和关性剪枝方法。对每类剪枝方法,我们详细介绍了其中较为典型的算法,分别是权消去法,Skeletonization方法,及隐节点合成方法。对每种算法,我们都给出了仿真实例。10.1权衰减法我们在第7章已经介绍,权衰减法属J:正则化方法,它通过在网络目标函数中引入表示结构复杂性的正则化项来达到减低网络结构复杂性的目的。目标函

2、数通常为J(W)=E(W)+AC(W),其中E(W)通常取网络误差平方和,C(W)表示网络的复杂性,C(W)通常取以下形式:当C(W)=Y2时为uss正则化项;当C(W)=|vv(.|时为Laplace正则化项;当C(W)=丄log(l+夕叭)为Cauchyaj=i正则化项。由j:正则化项的剪枝特性,训练过程中一些冗余的连接权将衰减到零,从而达到剪枝的目的。但是,权衰减法中的正则化参数兄对神经网络的泛化能力有很人影响,且比较难以整定,小川哲等小-渡199用进化策略寻找该正则化参数,较人地改进了网络泛化能力。Weigend等人WeRul991也给出了自己的正则化参数调整方法。I、面我们介绍Wei

3、gend等人WeRul991提出的权消去法(Weight-Elimination),该方法用于剪除网络中冗余的权值。10.1.1权消去法剪枝原理为了避免过拟合,应该设计最小结构的神经网络,即如果几个神经网络対训练样本拟合得同样好,则结构最简单的网络平均意义上泛化能力最好。实现这一假设需耍两个工具:(1)一个复杂性测度;实现最小结构的算法。Weight-Elimination方法中,用Rissanen的最短描述长度Rissl978來描述学习机器的复杂性。即给定训练数据后,最好的模型应该具有以卜的最短总描述长度:总描述长度=描述长度(数据I模型)+描述长度(模型),该式右边第一项是模型的残差,第二

4、项衡鼠模型的复杂性,因此最短描述长度是综合评价残差和模型复杂性的混合测度,其目标是寻找满足目标精度的最小结构神经网络。根据最短描述长度准则,Weigend等人采用以卜误差函数Err=En+Err2(10.1)其中E巧和Eq分别另:(10.2)其中为固定值,称基准权值,(10.3)a代表模型复杂性项的和对重耍性。由式(10.3)可见,网络中每个权值叫均対应一个的损失函数项:C(wJ=汐;/听1+昉/吒(10.4)(10.5)3(10.2)(10.5)#(10.2)显然,模型复杂性项是叱/%的函数,图10是C(旳/%)随匕/%变化的曲线。由图可见,当帆|叫则c(ww)值接近1,如果帆|叫或帆|w0

5、,则模型复杂性项正好是网络中重要权值的个数。(10.5)#(10.2)那么在权值损失函数项中起什么作用呢?假定某个节点与某信号输入端之间有两根兀余的连接权值,分别为嗎和卬2,其和为S=VP,+VV2,则这两个权值的损失函数V项之和必定人两个权值合并后的损失函数吗?事实上,这取决Yk=的值。如果%令a=,则两个权值的损失函数项之和为:皿心需+(131+(1-加)(10.5)#图10.2显示了C(wJ+C(”2)随和k变化的情况。由图可见,当k小丁某一定值(大约1左右)时,C(W)+?(叫)只在a=0.5出有一个最小值点,此时W=w2,两个权值的损失项和等,即两个权值同等重要;随着R的增加,这种对

6、称性被打破,而且C(wJ+C(vv2)的最小值点逐渐移向a=0及a=1,这意味着可以去掉较小的权值,并以权值和S替换余I、的那个权值。这说明,在网络学习过程中,如果权值出现分化,使部分权值远人于叫,而另外部分权值远小J:%,则可以消去较小的权值,留卜较大的权值。I、面解释上述误差函数能否实现剪枝,即如何实现剪枝(即剪枝特性)。我们知道,根据贝叶斯公式,给定训练样本I、神经网络模型的后验分布(似然函数)可写为:“(modelIdata)=p(dataImodel)*“(model)(10.6)因此假定训练样本的分布p(datamodel)为正态分布,神经网络模型的先验分布/?(mode/)为以下

7、混合先验分布:(10.7)则式(10.3)的损失函数可以看成是上式(10.7)的负对数值,而式(10.3)的损失函数可以看成是训练样本分布的负对数值,丁是整个式(10.3)成为式(10.6)似然函数的负对数值。此时权消去法便与先验概率联系起来了,学习过程中的权值可看成仅是“噪声”作用的结果。此时权消去法的剪枝特性如2当权值较人,即帆.|叫时式(10.7)近似为均匀分布:/(vv.)=exp,这说明学习过程中取较小值的可能不人,剪枝特性不明显;权,权值分布函值较小时,即帆|vv叫时,式(10.7)近似为/(W.)=exp-沙;图10.3不同兄值时权值的先验分布数可看成为均值为o,方差为52=的正

8、态分布,此时,故2越大,或越小,则本来就小的权值取0值的可能就更人,从而体现了剪枝特性。图10.3是A分别为0.05,0.2,0.5,1.02.0时权值的先验分布,可见,随着兄的增人,附近点的高斯分布特性愈加明显。学习过程中权值匕的调节公式为:(10.8)(10.9)“()=wk一1)+AvvJ+/lAvvj其中AidEnAvv,=-77LdVj也_可按Rumelhart等人的标准BP算法获得。dv.(10.10)训练一定次数后,与各网络中的某些权值将衰减到零附近。如果一个隐节点的输出权值全接近零,我们就可以删除该隐节点;当一个隐节点的输入权值全为零时,把该隐节点并入卜一层的偏移节点。通过这些

9、操作,我们即可得到较为精简的神经网络。权值调整和剪枝的具体步骤如卜:(1)选定初始神经网络规模,初始化其权值。以(10.1)式为误差函数,用权衰减法训练神经网络,其中权值调整公式为(10.8),直至满足误差精度,或达到一定训练次数。删除各神经网络中的冗余权值和冗余隐节点,得到较精简的神经网络。10.1.2正则化系数兄的动态修改策略在学习过程中随时检测以卜误差堂Z间的关系: E(f-1):前一次权值调节时的误差。 4(f):当前时刻的加权平均误差,定义为4(f)=口4-1)+(1-“)E(f),其中“为接近于1的滤波系数。 D:期垫误差值。如果没有先验知识,可设定)=0,此时算法也能较好地进行,

10、但计算时间由计算次数限制,因此计算时间可能较长。每次权值调节后,我们计算当前时刻的学习误差E)和加权平均误差4(f),并根据它们之间的关系(共有8种组合)对兄进行调节。具体规则如卜: 如果或E(t)D,则此时当前误差有所上升(因为E(t)E(t-1),但从长远來说训练误差仍在卜降(因为E(t)E(t-1),E(r)A(r),且E(t)D,则N(f)s(/-1),其中。为一接近1的系数。此时不仅当前误差在上升,而且从长远來说训练误差也在卜降,所以应该较人幅度地减小正则化的作用。%开始可以取0值,随后按上述规则动态调节。10.1.3试验例子:非线性系统辨识这是一个SI3D的非线性系统的例子:y伙)

11、sin4016伙-1)+伙-1)3+4巾伙-1)2+4伙-1)2丿2?怖“伙一1)+忆川一1)(10.11)其中讥灯为输入信号,取-1,1内均匀分布的随机值。令y(0)=0,按上式产生200个图10.4权消去法的学习曲线8#图10.5学习过程中疋则化系数的变化我们用一个2-20-1结构的3层BP网对上式进行建模,网络的两个输入为#“伙-1)和y伙-1),输出为),伙)。网络训练时其它学习参数设置如2初始权值为-0.1,0内均匀分布的随机值,最人训练次数5000.学习率0.0005,目标误差0.5,基准权值0.1,正则化参数初值为0,正则化参数调整时的滤波系数“=0.92,p=0.95,正则化参

12、数增量=0.5W-7。网络训练结束后冗余权值被消去的阈值为0.01o图10.4为某次训练的学习曲线,图10.5为学习过程中正则化参数的变化情况。网络训练结束后对所有样本的训练误差为2.3059,删除冗余隐节点后,网络余卜7个隐节点,对100个测试样本的测试误差为2.2061o由图10.4和10.5可见,尽管学习过程中正则化系数的变化并不平滑,但权消去法的学习曲线却较为平滑,说明权值分化过程不会导致训练误差的剧烈波动,而且对最终剪枝结果影响并不人。该例子的Stlab程序见附录Lo10.2灵敏度计算方法灵敏度计算方法是指在网络进行训练时,或在网络训练结束后,计算节点(输入节点及隐节点)或连接权对网

13、络误差的贡献(灵敏度),删除那些贡献最小的节点或权。Wzer和ShlenskyMoSml989提出的方法用删除输入节点或隐节点,当某一节点的灵敏度低预定的阈值时就可删掉该节点。KrninKarn1990提出一种删除权值的方法,该方法在神经网络学习种动态计算每个连接权的灵敏度,因此计算覺较小。网络的节点灵敏-匕dEJ度可近似为每次权值调整时,误差E变化量的累计:5.=V()%(),“,分叫wf-vv其中叱彳为E达最小时的最终连接权值,叱;为神经网络的初始权值,N为训练次数Q2F(epochs)oLedin等LiDel990给出的权值灵敏度为*=砥时/2,其中饥=。由丁该灵敏度是作了较多假设后得到

14、的,存在误删连接权的可能,故hfassibi和storkHast1993提出了改进的方法,但计算鼠较人。小谷学等小尾1996也对该方法作了改进。松永丰等松村1996,松中1991定义k层第i个节点的有效度为Mg:=工(叱字號)2,其中/为该节点输出,威罗为该节点到*+1层第丿个节点pJ的连接权,M和p分别为R+1层节点数和模式总数。可以在每次学习后直接删除有效度最低的节点,也可以通过有效度进行节点之间的竞争自动淘汰有效度低的节点。I、面我们介绍M)zer-ara)lensky提出的灵敏度剪枝方法:Skeletonization方法MoSml989,该方法不仅可以剪除冗余的隐节点,还可以计算每个

15、输入的灵敏度估计。原始的氷eletonization只用J:分类,这里我们将&eletonization的灵敏度计算方法进行改进,使Z用函数逼近时不仅能剪除冗余隐节点,也能剪除不重要的输入节点,这在非线性系统结构辨识等领域有重要意义。10.2.1Skeletonization方法原理考虑对输入节点和隐节点剪枝(不是连接权)进行剪枝的最原始的方法:在网络中其它参数不变的情况卜,如果一个输入节点或隐节点被删除,神经网络的性能会有什么变化?故提出了以下测度:Pi=WithoutUnit-iWithUnit-i(10.12)其中E为网络对训练样本集的误差。如果删除某个隐节点后对整个网络重新训练,则计算

16、复杂性为0(np),n是网络中的计算节点数,p为训练样本数。由直接计算上式需要很人的计算鼠,&eletonization方法关键是找到一种快速计算卩的方法。1)灵敏度Q的逼近方法图10.6网络输入节点和隐节点的重视程度系数为逼近灵敏度Q,M)zer和Shlensky对每个输入节点或隐节点都引入一个系数,该系数被称为重视程度系数(attentionalstrength),假定节点i的重视程度系数为a.。并不是神经网络系统的参数,只是为方便表示而引入,它表示対第i个节点的输出进行惩罚(见图10.6):Oj=/(工旳“心)(10.13)其中勺,q表示第J和第7个节点的输出,I表示第,个节点到第丿个节

17、点的连接权,/为激活函数,通常为sigrra)dal函数。引入后,如杲冬=0,节点i对网络的其余部分没有影响,相当于删除了该隐节点;如呆0=1,节点i就是一个传统的节点。丁是隐节点i的灵敏度可表示为(10.14)2)灵敏度。的计算可以利用误差目标函数対匕的导数信息來逼近0.:lim7TIEq严7他=1dadE(10.15)12#对上式作工程近似,即当/=0时上式依然成立,则a;=)Ea;=l(10.16)dE#dEJ:是便可得到门的逼近表达式:(10.17)p的计算可与权值调整同步进行,并可以使用权值调整的中间结果。类似J:BP算法的推导,我们可以得到各隐节点的灵敏度门逼近值。由丁计算Q时匕=

18、1,因此冬不是一个参数,而是为便j:解释而引入,即匕和Q的计算不会影响网络权值调整。灵敏度估计时所用的误差为刃=工|口-0,同E=工(tpj-o/相比,在总误差较小时,采用绝対值误差也能得到好的灵敏度估计。当然,也可以用E计算Q,而用F训练权值。考虑到仿真例子的需耍,卜面我们以用于函数逼近的单输出三层田网为例,给出隐节点和输入节点的灵敏度估计公式。该三层BP网的隐节点使用单极性3geidal激活函#数,输出节点使用线性激活函数,共W个训练样本,权值训练的目标函数为误差绝対值和。于是各隐节点的灵敏度为:工叭叫。护(10.18)kQ=工工6叫時(1-時)H加且s;卷,5;02(10.26)其中G和

19、g为预设的合并阈值。当某隐节点/输出序列的方差才满足以卜条件时该隐节点可以并入卜一隐层的偏移节点:s;叫,+b忤偏移节点合成条件_由于隐节点输出序列方差较小,该隐节点输出可用其均值代替:匕=町,丁是下一层任意节点R的输入为叫M+%*1+Swkivi_i丿(10.34)=(%+匕叫)*1+工叫Mli.j因此偏移节点合哇法为:删除第j个隐节点,同时令下一层节点R的偏移为:W防(10.35)4) 算法实现(1) 初始化:确定输入输出层、隐层节点数;随机初始权值;学习系数;动鼠系数;合成时刻误差坷;目标误差勺;阈值q、02,令当前学习次数为k=l(2) BP学习:用deHa学习规就、j神经网络的妝值进行修正,同时计算当前训练误差值和对所有模式的隐节点输出序列。(3) 合成、终止判断:如果当前训练误差值E可,k=k+l转2;s2E,转4;E已且s:,则对隐节点对(i,j)进行合成。(6) 偏移节点合成。如果某隐节点满足s;比,则将该隐节点同偏移节点合并。k=k+l,转2。5) 讨论隐节点合成算法的原理比较简单,算法计算量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论