第8章基于数学原理的神经网络不讲_第1页
第8章基于数学原理的神经网络不讲_第2页
第8章基于数学原理的神经网络不讲_第3页
第8章基于数学原理的神经网络不讲_第4页
第8章基于数学原理的神经网络不讲_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第八章第八章 基于数学原理的神经网络基于数学原理的神经网络 除了的多层感知器外,除了的多层感知器外,径向基函数神经网络径向基函数神经网络(radial basis function neural network,rbf网网)是另一类常用的是另一类常用的3层前馈网络,也可用于函数逼近层前馈网络,也可用于函数逼近及分类。及分类。 与与bp网相比,网相比, rbf网结构更简洁,学习速度网结构更简洁,学习速度也更快。也更快。 本章介绍本章介绍rbf网的结构、工作原理和常用学习网的结构、工作原理和常用学习算法。算法。28.18.1径向基函数径向基函数rbf8.1.1 基于径向基函数技术的函数逼近与内插

2、基于径向基函数技术的函数逼近与内插 对于对于rbf网络工作原理的理解可基于网络工作原理的理解可基于2种不种不同的角度:同的角度:当用当用rbf网络解决网络解决非线性映射非线性映射问题时,用问题时,用函数逼近与内插函数逼近与内插的观点来理解;的观点来理解;当用当用rbf网络解决复杂的网络解决复杂的模式分类模式分类任务时,任务时,用用模式可分性模式可分性观点来理解。观点来理解。 3 1963年年davis提出高维空间的多变量插值理论。径向提出高维空间的多变量插值理论。径向基函数是基函数是20世纪世纪80年代后期年代后期powell解决多变量有限点解决多变量有限点插值问题时引入的。插值问题时引入的。

3、 设设n维空间有维空间有p个数据点个数据点 xp ,p=1, 2, , p ,在输出,在输出空间相应的目标值为空间相应的目标值为dp,p=1, 2, , p。插值问题是寻。插值问题是寻找一个非线性映射函数找一个非线性映射函数f(x),使其满足下述插值条件,使其满足下述插值条件f(xp)=d p, p=1, 2, , p (8.1)式中,函数式中,函数f描述了一个插值曲面。描述了一个插值曲面。 严格插值或精确插值严格插值或精确插值:是一种完全内插,即该插值:是一种完全内插,即该插值曲面必须通过所有数据点。曲面必须通过所有数据点。 4 选择选择p个基函数,每一个基函数对应一个训个基函数,每一个基函

4、数对应一个训练数据,各基函数的形式为练数据,各基函数的形式为 )(pxx , p=1, 2, , p (8.2) 基于径向基函数技术的插值函数定义为基函数的线基于径向基函数技术的插值函数定义为基函数的线性组合性组合 ppppw1)()(xxxf(8.3) 5ppppppppppppppdwdwdw1212111)()()(xxxxxx(8.4) 6)(piipxx 令令 ,i=1, 2, , p,p=1, 2, , p,则上述方程组可改写为则上述方程组可改写为 pppdw 11 1p pppdw 21 2ppppdw p1 ppppppppppdddwww2121212222111211(8.

5、5)7 令令表示元素为表示元素为ip的的pp阶矩阵,阶矩阵,w和和d分别表示分别表示系数向量和期望输出向量,式系数向量和期望输出向量,式(8.5)还可写成下面的向量还可写成下面的向量形式形式 dw (8.6) 式中式中称为插值矩阵。若称为插值矩阵。若为可逆矩阵,就可以从式为可逆矩阵,就可以从式(8.6)中解出系数向量中解出系数向量w,即,即dw1 (8.7) 83种常见的径向基函数种常见的径向基函数 910 (1) 由于插值曲面必须通过所有训练数据点,当训由于插值曲面必须通过所有训练数据点,当训练数据中存在噪声时,神经网络将拟合出一个错误的插练数据中存在噪声时,神经网络将拟合出一个错误的插值曲

6、面,从而使其泛化能力下降。值曲面,从而使其泛化能力下降。 (2)由于径向基函数的数量与训练样本数量相等,当由于径向基函数的数量与训练样本数量相等,当训练样本数远远大于物理过程中固有的自由度时,插值训练样本数远远大于物理过程中固有的自由度时,插值矩阵求逆时可能导致不稳定。矩阵求逆时可能导致不稳定。 118.1.2 正则化正则化rbf网络网络 能够实现完全内插的输入能够实现完全内插的输入- 输出映射函数有很多,若输出映射函数有很多,若输入输入- 输出映射函数是光滑的,则问题的解是连续的,意输出映射函数是光滑的,则问题的解是连续的,意味着味着相似的输入对应着相似的输出相似的输入对应着相似的输出。 正

7、则化理论表明,当映射函数正则化理论表明,当映射函数f(x)的基函数为的基函数为green函数时,可保证函数的光滑性。函数时,可保证函数的光滑性。ppppgw1),()(xxxf green函数的一个重要例子是多元函数的一个重要例子是多元gauss函数,定函数,定义为义为 2221exp),g(pppxxxx1、正则化、正则化rbf网络的结构与特点网络的结构与特点12 x1 x2 xn g(x,x1) g(x,xp) g(x,x2) y1 y2 yl 正则化正则化rbf网络网络 13 当采用正则化当采用正则化rbp网络结构时,隐节点数即样本数,网络结构时,隐节点数即样本数,基函数的数据中心即为样

8、本本身,参数设计只需考虑基函数的数据中心即为样本本身,参数设计只需考虑扩展扩展常数常数和输出节点的和输出节点的权值权值。 2、rbf网络常用学习算法网络常用学习算法 (1). 径向基函数的扩展常数径向基函数的扩展常数md2max14 (2). 输出层的权值输出层的权值dw1 只要得到插值矩阵只要得到插值矩阵,即可由上式解出即可由上式解出w。ppppppppdddwww2121212222111211将所有样本输入一遍,即可得到矩阵将所有样本输入一遍,即可得到矩阵 。158.1.3模式可分性观点与广义模式可分性观点与广义rbf网络网络 若若n维输入样本空间的样本模式是线性可分维输入样本空间的样本

9、模式是线性可分的,总存在一个用线性方程描述的超平面,使两的,总存在一个用线性方程描述的超平面,使两类线性可分样本截然分开。类线性可分样本截然分开。 若两类样本是非线性可分的,则不存在一个若两类样本是非线性可分的,则不存在一个这样的分类超平面。但根据这样的分类超平面。但根据cover定理,非线性定理,非线性可分问题可能通过非线性变换获得解决。可分问题可能通过非线性变换获得解决。 1、模式的可分性、模式的可分性16cover定理:定理: 将复杂的模式分类问题非线性地投将复杂的模式分类问题非线性地投射到高维空间将比投射到低维空间更可射到高维空间将比投射到低维空间更可能是线性可分的。能是线性可分的。

10、17 设有一组函数构成的向量设有一组函数构成的向量 ,将将n维空间的维空间的p个点映射到个点映射到m维维空间空间(mn) ,如果在该,如果在该m维维空间存在空间存在m维向量维向量w,使得,使得 )(,),(),()(21xxxxm21, 0)(, 0)(fxxwfxxwtt则由线性方程则由线性方程wt(x)=0确定了确定了m维维空间中的一个分界空间中的一个分界超平面。超平面。182、 广义广义rbf网络网络 由于正则化网络的训练样本与由于正则化网络的训练样本与“基函数基函数”是一一对应是一一对应的。当样本数的。当样本数p很大时,实现网络的计算量将大得惊人。为很大时,实现网络的计算量将大得惊人。

11、为解决这一问题,可减少隐节点的个数,即解决这一问题,可减少隐节点的个数,即n m pn为为样本维数,样本维数, p为样本个数,从而得到广义为样本个数,从而得到广义rbfrbf网络。网络。 19 广义广义rbf网络的基本思想是:网络的基本思想是: 用径向基函数作为非线性变换函数,构成用径向基函数作为非线性变换函数,构成隐层空间。隐层对输入向量进行变换,将低维隐层空间。隐层对输入向量进行变换,将低维输入空间的模式变换到高维隐层空间内,使得输入空间的模式变换到高维隐层空间内,使得在低维空间中线性不可分问题在高维空间中变在低维空间中线性不可分问题在高维空间中变得线性可分。得线性可分。 20 y1 yk

12、 yl w1 wk wl t x1 x2 xi xn-1 xn 1 2 j 0 广广义义rbf网网络络 21广义广义rbf网络与正则化网络与正则化rbf网络有以下几点不同:网络有以下几点不同:径向基函数的数目径向基函数的数目m与样本数与样本数p不相等,且不相等,且mp。径向基函数的中心不再限于数据点,由训练算法确定。径向基函数的中心不再限于数据点,由训练算法确定。各径向基函数的扩展常数不再统一,其值由训练算法确各径向基函数的扩展常数不再统一,其值由训练算法确定。定。输出函数的线性中包含阈值参数,用于补偿基函数在样输出函数的线性中包含阈值参数,用于补偿基函数在样本集上的平均值与目标值之平均值之间

13、的差别。本集上的平均值与目标值之平均值之间的差别。 223、 广义广义rbf网络设计方法网络设计方法 根据数据中心的取值方法,根据数据中心的取值方法,rbf网的设计方法可网的设计方法可分为两类。分为两类。 第一类方法:第一类方法:数据中心从样本输人中选取。一般来说,样数据中心从样本输人中选取。一般来说,样本密集的地方中心点可以适当多些,样本稀疏的地方中心点可以本密集的地方中心点可以适当多些,样本稀疏的地方中心点可以少些;若数据本身是均匀分布的,中心点也可以均匀分布,总之,少些;若数据本身是均匀分布的,中心点也可以均匀分布,总之,选出的数据中心应具有代表性。选出的数据中心应具有代表性。 第二类方

14、法:第二类方法:数据中心的自组织选择。常采用各种动态数据中心的自组织选择。常采用各种动态聚类聚类算法算法对数据中心进行自组织选择,梯度训练方法、资源分配网络对数据中心进行自组织选择,梯度训练方法、资源分配网络(ran)法,等等。法,等等。 23k-means聚类算法确定数据中心聚类算法确定数据中心 初始化。选择初始化。选择m个互不相同的向量作为初始聚类中个互不相同的向量作为初始聚类中心:心: 。 )0(,),0(),0(m21ccc计算输入空间各样本点与聚类中心点的欧式距离计算输入空间各样本点与聚类中心点的欧式距离 )(kjpcxm, 2 , 1, 2 , 1jpp;4、 广义广义rbf网络数

15、据中心的聚类算法网络数据中心的聚类算法24ppkjjpjp, 2 , 1)(min)(*,cxx相似匹配。令相似匹配。令 代表竞争获胜隐节点的下标,对每代表竞争获胜隐节点的下标,对每一个输入样本一个输入样本 根据其与聚类中心的最小欧式距离根据其与聚类中心的最小欧式距离确定其归类确定其归类 ,即当,即当 *j)(*pjxpx时,时, 被归为第被归为第 类,从而将全部样本划分为类,从而将全部样本划分为m个子个子集:集: ,每个子集构成一个以聚类中,每个子集构成一个以聚类中心为典型代表的聚类域。心为典型代表的聚类域。px*j)(,),(),(m21kkkuuu25更新各类的聚类中心。对各聚类域中的样

16、本取均值,更新各类的聚类中心。对各聚类域中的样本取均值,令令uj(k)表示第表示第 j个聚类域,个聚类域, nj 为第为第 j 个聚类域中的样个聚类域中的样本数,则本数,则 将将k值加值加1,转到第,转到第步。步。重复上述过程直到的改变量小于要求的值。重复上述过程直到的改变量小于要求的值。 )(1) 1(kljjnkuxxc26 各聚类中心确定后,可根据各中心之间的距离确定各聚类中心确定后,可根据各中心之间的距离确定对应径向基函数的扩展常数。令对应径向基函数的扩展常数。令 ijijccd min则扩展常数取则扩展常数取 jjd为重叠系数。为重叠系数。 27 利用聚类算法得到各径向基函数的中心和扩展常利用聚类算法得到各径向基函数的中心和扩展常数后,混合学习过程的第二步是用有监督学习算法得数后,混合学习过程的第二步是用有监督学习算法得到输出层的权值。到输出层的权值。u最小均方算法最小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论