深度学习简明教程 课件 第3章 反向传播算法_第1页
深度学习简明教程 课件 第3章 反向传播算法_第2页
深度学习简明教程 课件 第3章 反向传播算法_第3页
深度学习简明教程 课件 第3章 反向传播算法_第4页
深度学习简明教程 课件 第3章 反向传播算法_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章反向传播算法3.1反向传播机制3.2反向传播算法性能分析3.3改进的反向传播算法3.4反向传播算法实现的几点说明

3.1反向传播机制

梯度下降法的优点之一在于它可以用在隐层神经网络的训练中,因此梯度下降法是多层前馈神经网络学习的一种常用方法。梯度下降法要求误差函数必须是可导的,线性元件虽然满足这个条件,但是如果在多层前馈神经网络模型中采用线性元件,多层前馈神经网络也只能产生线性函数,即采用线性元件的多层前馈网络和单层前馈网络本质上是一样的。因此,在多层前馈神经网络中通常采取Sigmoid单元(简称S-元件)和线性元件配合使用的方法。

假设训练样例集为

,其中是网络的输入,

是对应的目标输出值。反向传播神经网络采用的是与自适应线性网络中类似的性能学习,同LMS算法类似,首先定义误差函数,再对训练样例集进行递推,每一次扫描都逐个处理训练样例。在处理一个训练样例时,先从输入向前计算结果,再向后传播误差,并根据误差值修改权值。值得指出的是,误差函数是隐藏层可调参数的一个隐函数,因此需要用到隐函数求导的法则。

以均方误差定义性能函数:

那么第m+1层的净输入向量相对第m层的净输入向量的倒数为

(3.11)接下来,第m层单元的敏感度向量就可以记为

(3.12)

这样第m层单元的敏感度函数就可以通过第m+1层单元的敏感度函数,即后一层单元的敏感度函数获得。网络中每一层的敏感度向量计算出来后,就可以利用它来计算性能函数对各层的权值和偏置的梯度,即

(3.13)

(3.14)

网络的权值与偏置的更新公式可记成向量的形式:

(3.15)

(3.16)

考虑具有2层(隐层为Sigmoid单元,输出层为线性单元)结构的前馈神经网络模型,如图3.1所示,设有个网络输入节点,每一个输入节点代表一个输入分量;全体输入分量合在一起记为x,作为隐藏层中每一个元件的输入;隐藏层中有多个隐藏S-元件,计算出每个S-元件对输入x

的输出,并传输给输出层的所有S-元件。输出层中有多个输出线性元件,元件的输入是隐藏层的输出,计算出最终网络的输出。

下面采用上述算法训练一个单隐层的前馈神经网络模型。

在该模型中,隐藏层的输出可以写为

式中:W1、f1、a1

分别是隐藏层的权值矩阵、传递函数和输出,p

为网络的输入。经过线性输出层之后,网络的最终输出为

式中:W2、f2、a2分别是线性层的权值矩阵、传递函数和输出。在使用梯度下降法训练网络时,首先计算隐藏层的适应度函数:

算法3.1

1.建立前馈网络;

2.将网络上的各个权值随机初始化

Repeat

For每一个训练例<x,t>

Do根据网络输入x向前计算各个隐层单元的输出(前向传播);

计算每一个输出单元的误差、性能函数和敏感度函数;

计算每一个隐藏单元的敏感度函数(后向传播)

修改网络的各层权值和偏置

Until终止条件满足定理1只要隐层神经元的个数充分,隐层传输函数就为S型输出传输函数,输出的线性的单隐层网络可逼近任意函数。

已经证明:这种结构的单隐层神经网络可以用来逼近任意函数。由上述分析可以看到,反向传播算法实现了一种对可能的网络权值空间的梯度下降搜索,它通过迭代地减小训练样本的目标值和网络实际输出间的误差来最小化性能函数。在这种情况下,单隐层网络的性能指数可能不再是如自适应线性网络中的二次函数,那么性能曲面就有多个极小点。虽然反向传播算法是最常见的多层前馈网络学习算法,但是由上述训练过程可以看出,梯度下降决定了反向传播只能收敛到局部而非全局最优,在理论上并不能保证网络收敛到性能函数的全局极小点。人们在反向传播算法的基础上也提出了很多其他的算法,包括对于特殊任务的一些算法。

3.2反向传播算法性能分析

理论上,基于最陡梯度下降的反向传播算法可能陷入局部极小点,目前人们对局部极小点问题仍缺乏理论上的分析结果,但实际上问题并不像想象的那样严重。这主要是因为以下两方面的原因:(1)当网络的权值较多时,一个权陷入极小点不等于别的权值也陷入极小点,权值越多,逃离某权值的局部极小点的机会越多。

(2)若权值的初始值接近0,则网络所表达的函数接近线性函数(没有什么局部极小点),只有在学习过程中当权值的绝对值较大时,网络才表示高度非线性函数(含有很多局部极小点),而此时权值已经接近全局极小点,即使陷入局部极小点也与全局极小点没有太大的区别。

由于局部极小点问题在实际上并非很严重,因此反向传播算法的实用价值是很大的。此外,还有一些避免陷入局部极小点的诱导方法,例如:

(1)在算法中使用随机梯度下降法而不是真正的梯度下降法。随机梯度下降法的实质是:在处理每一个例子时使用不同的误差曲面的梯度,而不同的误差曲面有不同的局部极小点,所以整个过程不太容易陷入任何一个这样的局部极小点。

(2)用多个具有相同的结构和不同的权初始化的网络对同一个训练样例集进行学习,在它们分别落入不同的局部极小点时,将对独立验证集具有最佳结果的网络作为学习的结果;或全体网络形成一个“决策委员会”,取它们的平均结果作为学习的结果。

(3)引入冲量使过程“冲过”局部极小点(但有时也会“冲过”全局极小点)

3.3改进的反向传播算法

BP算法因其简单、易行、计算量小、并行性强等优点,目前是神经网络训练采用最多的训练方法之一。但通常存在以下两方面问题:(1)学习效率低,收敛速度慢。BP算法误差减小得太慢,使得权值调整的时间太长,迭代步数太多。由于梯度逐渐变为0,越接近局部最优,收敛速度越慢。为了保证算法的收敛性,学习速率不能过大,否则会出现振荡。因此需要经过多次调整才能将误差函数曲面降低。这是BP算法学习速度慢的一个重要原因。

(2)易陷入局部极小状态。

BP算法是以梯度下降法为基础的非线性优化方法,不可避免地存在局部极小问题,且实际问题的求解空间往往是极其复杂的多维曲面,存在着许多局部极小点,更使这种陷于局部极小点的可能性大大增加。

3.3.1带动量项自适应变步长BP算法(ABPM)

动量法是将上一次权值调整量的一部分叠加到按本次误差计算所得的权值调整量上,作为本次权值实际调整量,即本次的实际调整量为

式中:α为动量系数。动量项的引入使得调节向着底部的平均方向变化,不至于产生大的摆动,若系统进入误差函数的平坦区,则误差将变化很小。在改变学习速度的同时,一定程度上也解决了局部极小的问题。

标准BP网络的逼近误差曲面的梯度变化是不均匀的,如果采用固定步长λ,那么在误差曲面较平坦的区域收敛较慢;当λ较大时,又会在峡谷区域引起震荡,自适应变步长算法就是针对定步长的缺陷提出来的。它是以进化论中的进退法为生物理论基础的。

学习率的调整公式为

式中:Emin

是前k

次迭代中的最小误差,er为误差反弹许可率,de和in分别是学习步长增长率和减小率,α为动量系数。采用自适应变步长BP算法(advancedbackpropagation

method,ABPM)修改后的权值向量为

3.3.2同伦BP算法(HBP)

同伦BP算法(homotopybackpropagation,HBP)是循序渐进地将解决复杂问题的思想引入BP网络的能量函数极小值的确定中。同伦方法网络根据采用的组成部分的不同,可分为教师同伦、输入同伦、结构同伦等。本节主要介绍教师同伦算法。该算法首先要确定教师同伦函数T

式中:t是形成过渡函数的变量,在学习过程中由0逐渐变到1;Tb和Te分别是构造出的初始教师和给定教师,其中Tb可以表示为

3.3.3LMBP算法

高斯牛顿迭代法在非线性问题的求解中具有二阶收敛速度,但迭代过程中的Hessian矩阵有可能变成奇异阵,从而无法迭代。LM(levenberg-marquardt)算法则是在高斯牛顿法

和最速下降法之间进行平滑调和,其公式为

式中:H

为能量函数E

在w(k)处的Hessian矩阵,DH

是对角元素为H的对角阵;是E

在w(k)的导数矩阵。

μ可以通过下式调整:

3.4反向传播算法实现的几点说明

反向传播算法提供了使用最速下降法在权空间计算得到轨迹的一种近似。使用的学习步长越小,从一次迭代到另一次迭代的网络的突触权值的变化量就越小,轨迹在权值空间就越光滑。在反向传播算法中,动量的使用对更新权值来说是一个较小的变化,而它对学习算法会产生有利的影响,动量项可以降低学习过程停止在误差曲面上一个局部最小的概率,这对于得到全局极值点可能是有帮助的。动量和学习率参数一般会随着迭代的增加而逐步减小。在一个训练过程中,一个训练集合的完全呈现称为一个回合(epoch)。对于一个给定的训练集合,反向传播算法可以以下面两种基本形式进行学习:

(1)串行方式,又称为在线方式、模式方式或随机方式。这种运行方式在每个训练样本呈现之后进行权值更新。首先将一个样本对提交给网络,完成前馈计算和反向传播,修改网络的权值和偏置,接着将第二个样本提交给网络,重复前述过程,直到回合中的最后一例子也被处理过。

(2)并行方式。权值更新要在组成一个回合的所有训练样本都呈现完之后才进行。整个训练集合在全部提交完之后才进行权值更新。从在线运行的角

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论