神经网络--非确定方法训练网络.doc_第1页
神经网络--非确定方法训练网络.doc_第2页
神经网络--非确定方法训练网络.doc_第3页
神经网络--非确定方法训练网络.doc_第4页
神经网络--非确定方法训练网络.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络学习的非确定方法在此之前已经讲述了感知器、BP网络、及RBF网络的训练算法,这些算法有一个共同特点:对应于某个样本的一次迭代,算法都是根据相应样本、神经元状态及网络联接权当前值等计算出本次迭代后网络各联接权的调整量。即:算法所执行的计算是确定的。但人脑中有时神经元是按照概率工作的,神经元在某时刻是处于激励状态还是处于抑制状态具有一定的随机性。所以为增强神经元状态的随机性,可使神经元按一定概率工作,联接权的计算根据一定概率实现随机调整,这种方法叫做非确定方法,也称为统计方法(Statistical Method)。 确定方法 非确定方法 联接权修改方法确定 按概率原则随机调整 激活原则由激励函数确定 神经元的激励或抑制具有随机性一基本非确定训练算法1基本思想:从所给网络中随机选取一个联接权,对该联接权提出一个“伪随机调整量”,若此调整量能使网络性能得到“改善”,则保留此调整,否则放弃。这种网络性能的“改善”,除了那些真正改善网络性能的调整外,还应该包括一定概率下那些使网络性能暂时变差、但在总的趋势上有助于网络性能改善的调整。如图1所示的从A点到B点的移动(跳出局部极小)。图1 局部极小示意图以下是有监督方式下对一个多层前馈网络的训练过程。多层前馈网络结构如下:图2 多层前馈网络结构设网络样本集为: 其中,为网络输入向量和理想输出向量。网络共层,其联接权矩阵依次为: 训练算法如下:Step1:从样本集中取一样本;Step2:将输入网络,计算网络实际输出(,);Step3:求出网络关于和的误差测度;Step4:随机从中选择一个联接权;Step5:随机生成一个小的随机数;Step6:调整,;Step7:用修改后的重新计算对应的;Step8:求出网络关于和的误差测度;Step9:若,则保留本次对权值矩阵的修改;否则根据概率判断本次修改是否有用,如果认为有用,则保留本次修改,否则放弃。Step10:重复上述过程,直到网络满足要求。2算法说明:(1)训练目标:对样本集中的所有样本,网络能获得最小的误差测度。常采用理想输出与网络实际输出的方差之和作为目标函数。(2)网络输入层神经元个数为,输出层个数为,设各隐层神经元个数用表示,则上述算法Step4中是从个联接权中随机选择其中一个联接权,对此可供选择的方法较多。(3)算法中的可采用伪随机数发生器得到,也可根据网络当前状态按照“能量”函数的分布去计算,这样虽计算量大些,但对提高算法的效率有好处。(从理论上讲,联接权的大小应该和网络能量相关)(4)算法中Step9中的操作是为算法能跳出局部极小点而设计的,应用概率原则判断是否接受本次修改。为使网络从局部极小点逃离,必须允许目标函数暂时变差。(5)用何种标准来判断网络满足要求。(6)当一个样本输入网络后,产生的随机修改量可能使网络性能变差,即该修改无效,此时能否可以随机抽取其他网络权值进行修改,直至修改有效?(7)对一个选定的样本,能否每次选取若干个联接权进行修改?若修改有效,可一次进行多个权值的更新。3局部极小问题:从数学角度来说,上述问题是求一个元函数的极小点问题,也就是说算法要在一个极其复杂的高维环境中寻找其全局极小点。由图1可见,若采用基于负梯度的方法修改权值,则网络一旦陷入局部极小,就难以逃离出来。而在上述算法中,如果权值修改量较大,就很有可能使网络远离已经陷入的某个极小点,所以保留使网络性能变差的修改,同时适当增加修改量将有助于网络逃离局部极小点的束缚。同样,权值修改量不宜过大,否则容易造成函数在相邻极值点之间的来回跳动。一个较好的办法是:在算法初期选择较大的权值修改量,这样有利于搜索整个输入空间;然后逐渐减小这个修改量,但应保证网络有能力从局部极小点跳出;在算法后期,进一步减小权值修改量,当网络进入全局极小点区域时,网络没有足够能量跳出。所以权值修改量大小应该和网络的能量相关。二模拟退火算法(Annealing Algorithm)网络的目标函数统称定义为网络的某种误差测度。当误差测度较大时,表明网络距离全局极小点比较远,所以网络应该具有较大的“能量”,以使其能逃离可能“路过”的局部极小点;当误差测度较小时,说明距离全局极小点较近,或已进入全局极小点区域,此时网络的“能量”较小,修改网络权值时不足以使其有足够的能量跳出全局极小点。这一过程可用金属的退火过程形象地描述。在金属热加工过程中,金属的温度与其能量有一定关系。当金属温度超过其熔点(Melting Point)时,原子会激烈地随机运动,这种运动趋向于寻找其能量最小的状态。温度越高,原子具有的能量就越高。随着温度的不断降低,金属逐渐冷却,其原子的能量也越来越小,最后到达能量最低点,这就是全局极小点。即通过升高温度可提高金属原子的能量,使其能摆脱原来的能量状态(局部极小)而最终到达一个更加稳定的状态(全局极小)。1退火过程描述:在金属的退火过程中,其能量的状态分布如下: 其中:表示系统处于能量的状态的概率;为Boltzmann常数;为系统的绝对温度(开氏温度,Kelvin)。注意到: 所以当温度足够高时,系统温度起主要作用,此时对于所有的能量状态,其概率趋于1,这表明系统处于高能量状态的概率与处于低能量状态的概率是一样的。随着温度的降低,在决定的值时作用越来越明显:越大,就越小,系统处于高能量状态的可能性就越小。当温度降为0时,系统就很难处于一个高能量状态。(1)在高温情况下,足够大,对系统所能处的任意能量状态,随趋于0,将趋于1。(2)在中温情况下,比较小,设,则: ,即:系统处于高能量状态的可能性小于处于低能量状态的可能性。(3)在低温情况下,非常小,设,则: 所以有:,即:温度趋近于0时,系统处于低能量状态的概率远远大于系统处于高能量状态的概率。2模拟退火算法描述:可将网络的训练过程看成是让网络寻找最低能量状态的过程,此时可取网络目标函数为其能量函数,再定义一个较大的人工温度,并且在训练过程中依据网络的能量和温度来决定其联接权的调整量。这种方法称为模拟退火组合优化法。(1)基本思想如下:随机为系统选择一个初始状态,在初始状态下给系统一个小的随机扰动,计算系统的能量变化: 若,则接受此扰动;若,则根据以下概率判断是否接受: 如果此扰动被接受,则系统从状态变换到;否则系统状态保持不变。逐渐降低温度,并如此重复下去,直至温度最低。上述过程也称为Metropolis抽样过程,它满足Boltzmann分布,即系统的状态序列满足: 设表示物质体系在状态时的内能。对于给定的温度,若系统处于热平衡状态时服从Boltzmann分布,当温度下降时,内能也随之下降。若下降的足够慢,则系统总可以保持热平衡状态,使其内能在该温度下最低。当下降至0K时,系统内能达到最小值。(2)模拟退火算法如下:Step1:初始化各层的权值联接矩阵,定义人工温度的初值;Step2:对每个温度重复如下过程:(2.1)选取一个样本,计算其实际输出与目标函数;(2.2)随机从中选取一个;(2.3)按一定算法产生的一个调整量;(2.4)按照重新计算相应的输出和目标函数;(2.5)计算;(2.6)如果,则:(2.6.1)按均匀分布在区间取一随机数;(2.6.2)按Boltzmann分布计算接受本次调整的概率: (2.6.3)如果,则转(2.2);(2.7)用代替;(2.8)如果样本集中还有未被选用的样本,则转(2.1);Step3:判断在此温度下,Metropolis抽样是否稳定。若稳定则转Step4,否则转Step2;Step4:降低温度;Step5:如果足够小,则结束,否则转Step2。三模拟退火算法使用说明:1模拟退火算法是否能达到的最小值,取决于足够高和下降的足够慢,以及在每个温度下,Metropolis抽样是否稳定。2温度的初值可按照如下方法确定:(1),即:取初始时系统目标函数的值。(2),即:取初始时系统目标函数值的若干倍。(3)依据经验而定,选取某个较大的值作为。3温度的下降原则。理论上说温度的下降应不快于,。所以可选用如下的温度下降方法:(1),称为冷却率,取值范围为:。(2)Geman在1984年曾证明:温度的下降必须与时间的对数成反比,网络才能收敛到全局极小点。此时温度的下降采用如下公式: ,为人工时间,可采用迭代次数。4Metropolis抽样是否稳定的判断。(1)检验目标函数的均值是否稳定(记录迭代过程中各样本相应的目标函数值);(2)检验是否连续若干步的变化值均小于某个值(为非常小的正数);(3)每个温度下按照固定的或预先设定的步数进行抽样。5调整量的确定:(1)简单起见,为小的均匀分布的随机扰动;(2)根据Boltzmann分布或Gauss分布来计算。Gauss分布如下所示: 上式说明:当增加时,其相应的概率将降低。为求得可采用如下的Monte Carlo法:首先对用数值积分法从0到求积分,根据网络精度要求设定一个积分长度,构造出如下形式的表格:然后按照均匀分布在上随机选取一个值,再从中选取,使满足:,最后所对应的即为需求的权值修改量。Boltzmann分布可得到与Gauss分布类似的结论。值得注意的是:值较大时,可能使网络产生振荡;而值较小时,又会影响到算法的收敛速度。6Cauchy训练:Cauchy分布的一般形式为: 用Cauchy分布取代上述Monte Carlo法中的Gauss分布,具有如下优点:(1)按照Cauchy分布得到的联接权调整量大于Gauss分布得到的调整量。取得较大联接权调整量的机会越多,训练的速度就越快,算法的效率就高。(2)用Cauchy分布取代Gauss分布或Boltzmann分布,温度可以下降得更快,从而提高算法训练速度。此时温度下降公式可为: (3)Cauchy分布可以直接用常规积分方法计算: 即: ,加上学习率,有。与Monte Carlo法相对应,仅需在区间内按均匀分布随机选取一个数作为,再取当前的温度值,即可算出权值修改量。7算法的Step2是对每个样本调整一个权值,调整顺序是随机的,所以实际应用中可针对具体情况对算法流程加以适当改变。四BP算法与Cauchy训练的结合Cauchy训练的速度比Boltzmann训练快,但与BP算法相比,速度较慢。其原因在于BP算法是沿着能量函数极小化的方向调整联接权值,且每次的调整量是确定的;而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论