




已阅读5页,还剩52页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于奇异值分解的神经网络结构优化设计及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
, 1 j f , i ,i 一 声明尸明 本人郑重声明:此处所提交的硕士学位论文 o ,其中,r = r a n k ( , 4 ) ,仃( 彳) = 吼2 ,吒2 ,吒2 。 q ,吒,巳即为矩阵彳的奇异值。 当前,由于矩阵的奇异值分解具有的良好性质,它已经成为数值线性代数领域 中使用最多、效果最好的工具之一,并且在信号和图形处理1 1 钔、生物身份鉴别【1 9 1 以及神经网络等多个尖端领域都有着广泛的应用和光明的前景。 2 1 2 有关奇异值分解的几点说明 ( 1 ) 若刀刀维矩阵y 为酉矩阵,用y 右乘式( 2 - 3 ) ,可得到彳矿= o r , ,其列向 量形式为: 舻 。,裂i 鬟二,刀 ( 2 5 ) 因此,我们将y 的列向量u 称为矩阵彳的右奇异向量( f i g h ts i n g u l a rv e c t o r ) ,y 则称为彳的右奇异向量矩阵( r i g h ts i n g u l a rv e c t o rm a t r i x ) 。 ( 2 ) 若m m 维矩阵u 为酉矩阵,用u 左乘式( 2 3 ) ,可得到【,彳= 7 i ,其 列向量形式为: 咋彳= 【。,o f :i v i ,h + , i l = ,1 + , 2 2 , ,, r ,” ( 2 6 ) 因此,我们将u 的列向量称为矩阵彳的左奇异向量( 1 e f ts i n g u l a rv e c t o r ) ,u 称为a 的左奇异向量矩阵( 1 e ns i n g u l a rv e c t o rm a t r i x ) 。 ( 3 ) 当肌n 维矩阵彳的秩厂= r a n k ( , 4 ) 比m 和n 中最小的一个还小时,由于奇 异值。= := = 吒,h = r a i n ( m ,n ) ,因此上文得到的奇异值分解表达式( 2 - 3 ) 可以简化为: 彳= v r z ,r e ( 2 7 ) 式中,u - - ( u 。,1 2 ,“,) ,r e = ( m ,v r ) ,= 幽昭( q ,c r 2 ,q ) 。我们将表达 式( 2 8 ) 称为矩阵彳的截尾奇异值分解( t r u n c a t e ds v d ) 或薄奇异值分解( t h i ns v d ) : 相应的,表达式( 2 3 ) 则可称为矩阵的全奇异值分解( f u l ls v d ) 。 6 华北电力大学硕士学位论文 ( 4 ) 由式( 2 3 ) 可以得到: a a = 【厂z 2 u 日( 2 8 ) 这也就是说,m x n 维矩阵4 的奇异值q 是矩阵朋胃的特征值的平方根。 ( 5 ) 矩阵彳的谱范数等于矩阵彳的奇异值中的最大者,即: 私= ( 2 9 ) 根据矩阵彳的f r o b e n i o u s 范数l ,的酉不变性 m pl l 彳l l ,- i i , 彳y l | ,) 以及奇异 值分解定理,可得: i i a i i ,= 阳肾陲舭1 2 = 遗o :o ;4 - - o : 上面表达式说明,一个矩阵的所有非零奇异值的平方和的正值平方根等于这个 矩阵的f r o b a a i o u s 范数。 我们将矩阵彳的秩为k 的近似矩阵标记为4 ,其中k o - 2 ( 彳) 吒( a ) ,则: 虹h ( 彳) 2 圭乃吩 窆 q ( a ) 2 ,七= 1 ,2 ,所 ( 2 2 1 ) 华北电力大学硕士学位论文 ( 1 0 ) 如果p = m i n ( m ,n ) ,且矩阵4 - i 。和吃煳的奇异值排列顺序为: q ( 彳) 吒( 彳) q ( 彳) 吼( 口) 吒( 曰) 咋( 曰) q ( 彳+ 曰) 吒( 彳+ 曰) q ( 彳+ 曰) 则: q + ,t ( 4 曰) q ( 彳) 乃( 口) ,l s f ,j p ,i + j o 。 我们令群= 一主若= 一篆茜= 簖一) ( 刀群) = ( 踞一磁( 1 一) 因此,可得出输出层节点七的权值调整表达式为: ( 七+ 1 ) = ( 七) + ,7 醪吖 ( 3 1 2 ) 1 7 华北电力大学硕士学位论文 同理,根据梯度法,可得第f 个隐层节点的权值调整表达式为: = - q - - 薏= 1 等等叫嚣:者c 姜哆坳 = 叩3 哆= ,7 掣哆 ( 3 1 3 ) 跳c j j 一 8 ,= - 册a j e p v 一等盟o n e t f 一筹g ,( 栉吖) 一嚣坝l + 印) 吼e t ;钓?a 0 7 o 、h 的? y 1 ”j 。 因为隐层节点输出的变化将会影响与该节点相连接的所有输出层节点的输入, 即: 一等一扣哪o j p o n e t f a o :一妻岳茜嘻吖蝴科i i i 哪智阮彳衅、智f “ = 喜卜器h = 鼢 ( 3 1 4 ) 因此,我们可以得到隐层节点f 的权值调整表达式为: 嘞( 七+ 1 ) = 坳( 后) + ,7 哆 ( 3 1 5 ) 式中,d f 为在样本p 作用下,输入节点j f 的输出。 由式( 3 1 2 ) 和式( 3 1 5 ) 的形式我们可以看出,对于某一样本p ,可根据误 差信号来调整权值大小直到误差精度满足要求为止;对于其它样本,按照同样的方 法和要求继续调整网络权值,直到样本集内所有个样本作用下的网络误差全部满 足要求的精度为止。我们称这种计算过程为“在线学习 。 如果训练按照使误差函数减小最快的方向进行,采用和以上方式类似的推导 过程,我们可以得到第k 个输出层节点以及第f 个隐层节点在样本集内全部样本作用 下的权值调整表达式为: ( 七+ 1 ) = ( 七) + ,7 鬈节 ( 3 - 1 6 ) ,l l 嘞( 后+ 1 ) = 嘞( 七) + ,7 哆 ( 3 一1 7 ) | p 篙i 式( 3 1 6 ) 和式( 3 1 7 ) 所得出的权值调整表达式是在样本集内全部样本都输 入之后,根据全部个训练样本的总误差,进行的,我们称这种权值调整方式为“批 处理学习”或“离线学习”。 l r 华北电力大学硕士学位论文 值得指出的是,“离线学习 方式可以保证总误差_ 厂不断向着其梯度方向变化。 这种方式避免了输入样本的顺序对权值调整的影响,具有很好的稳定性。特别是在 样本数量较多的情况下,这种方法较之“在线学习 方法而言,具有更快的网络收 敛速度。 3 2 3b p 网络学习算法的改进 标准的b p 算法采用的是最速梯度下降法来调整权值,但是对于复杂的神经网 络,误差函数曲面特性复杂,局部极小点很多,因而训练算法在训练过程中非常容 易陷入某个局部极小点而无法逃脱。为了克服传统b p 算法收敛速度慢、易陷入局 部极小值等缺陷,许多学者针对传统的b p 算法进行了改进,都在不同程度上提高 了算法的效率和稳定性。下面简要介绍几种主要的改进算法【3 0 】: ( 1 ) 附加动量的改进算法 该方法考虑了训练过程中上一步搜索的经验积累,即在误差反向传播的基础上 给每一个权值( 或者阈值) 的变化加上一项正比于上一次权值( 或者阈值) 变化量 的值,并根据反向传播法来产生新的权值( 或者阈值) 变化。这样做改善了学习过 程中的振荡和收敛速度缓慢的现象。其迭代过程可以表示为以下公式: a w ( k + 1 ) = ( 1 - m 。) r l v f ( w ( k ) ) + m e ( w ( k ) - w ( k - 1 ) ) ( 3 1 8 ) 式中,k 为训练次数;v s ( w ( k ) ) 为误差函数的梯度;w 为连接权向量; ,7 为学 习速率:魄为动量因子,0 掰, 1 ) ,并有w = 厶w + w 转步骤1 ) ;否则,用乘以o ,转步骤3 ) ,直到误 差平方和小于设定值为止。 3 3 基于奇异值分解的b p 网络结构优化策略 在关于神经网络泛化理论的介绍中,我们了解到泛化能力对于神经网络而言至 关重要,而影响网络泛化能力的最主要因素又是网络的复杂程度,对于函数逼近的 三层b p 网络而言,即网络隐层节点数量。因此,三层前向b p 网络的隐层节点数量 对整个网络的性能有极大的影响。 对于函数逼近的b p 神经网络,设目标函数为f ,网络函数为正,b 枷n 【3 2 】 给出了神经网络泛化误差与网络隐层节点个数之间的关系式: e r r ( f ) d 针。1 0 9 ) 2 7 ) 式中,刀为输入层节点个数;,为隐层节点个数;为训练样本数量。 式( 3 - 2 7 ) 说明,在b p 网络输入层节点个数和训练样本总数固定的情况下, 随着隐层节点个数,的减小,标准差逐渐减小,而偏差逐渐增大。因此,一个网络 好的泛化能力取决于隐层节点个数,的选择。 一直以来,在b p 网络的结构设计和应用过程中,找到一个合适的隐层节点数 目是一个难点,也是研究的热点问题之一。隐层节点数目过少会导致网络的学习能 力不足而得不到要求的训练精度,网络性能自然得不到保障;相反,如果隐层节点 数目过多,则会增加训练时间,浪费计算资源,更容易在训练过程中陷入复杂误差 曲面上的局部极小值,并且还降低了网络的泛化能力。在系统建模中,普遍的规则 是既要对数据达到理想的拟合效果,又要网络模型具有简单的结构。 在这一小节中,我们以矩阵的奇异值分解( s v d ) 理论为基础,提出了一种新 的隐层节点优化策略,对一个较大规模的b p 网络隐层节点进行“修剪。在定义一 华北电力大学硕士学位论文 个包含较多隐层节点的网络结构的基础上,采用奇异值分解方法分析训练样本对应 的网络隐层节点输出矩阵,找出各个隐层节点之间的内在联系,并根据隐层节点对 整个网络的贡献率【3 3 】与节点之间的相关性系数【3 4 】逐步剔除冗余隐层节点,最后达到 精简网络结构的目的。 设某三层b p 网络的输入层节点数为刀,对应于输入模式特征向量的维数;隐 层节点数为,采用双曲正切s 型函数t a n s i g ( x ) 作为激发函数;输出层节点数为m , 采用线性单元,本文使用b p 网络进行建模,即函数逼近,因此对应于输出空间维 数取朋:l 。 设训练集内共有个输入模式,用( 拧+ 1 ) 维增广矩阵x 表示输入模式: l x = ( 如2 ,) r p = ( - 1 x l p , 毛,毛,) 1 其中,1 p n ,为第p 个模式的特征向量。隐层一输入层权值矩阵形可以 表示为( n + 1 ) x l 维矩阵: iw = ( m ,w ) l = ( ,) r 。其中;ls f s ,w 。o ,为隐层第f 个单元的阈值;为隐层第z 个单元与输入层第j 个单元之间的连接权值。隐层单元的输出可以表示为( ,+ 1 ) 维增广矩阵h : 日= ( j i ;d , ,鸟) j i i = ( 鸟1 ,j | 1 1 2 ,鸟) r j i i p = i - 厂【矿- w 1 , j i ,= l of , 其中,o f 1 ,l ps ,矽为隐层第f 个单元对应于第p 个输入模式的输出 值;j i i ,= - 1 为隐层向输出层各单元提供的偏置值。隐层输出层权值矩阵d 可以表 示为( ,+ 1 ) l 维矩阵: o = ( 0 0 ,q ,0 1 ) r 其中,q 为隐层第f 个单元与输出层单元之间的连接权值,d o 为输出单元阈值。 整个网络的实际输出可以表示为n x l 维矩阵: y = ( ) ,j ,2 ,y ) = 册 其中,y p 为第p 个输入模式对应的实际输出值。 2 2 华北电力大学硕士学位论文 令n x l 维矩阵骂删鼬表示隐层的实际输出值,则e 蚴为增广矩阵日对应的 原矩阵,即: 巩鼢州= ( ,j 1 2 ,岛) ( 3 2 8 ) 在矩阵蜀一中,包含了b p 网络隐层单元之间的关联信息,因此对其进行奇 异值分解,可得: 巩胁删= h r ( 3 - 2 9 ) 矩阵蜀枞的奇异值按照由大到小的顺序依次分布在矩阵的对角线上。根 据奇异值分解的几何意义,奇异值的大小反映着被分解矩阵所携带的突变信息。我 们从b p 网络的角度分析,也就是说各个奇异值的大小反映了与其对应的各个隐层节 点对整个神经网络的贡献程度【3 5 1 ,很小的奇异值对应的网络隐层单元可能与其它隐 层单元作用相似或者对整个网络的贡献非常小。因此,我们定义贡献率: c = t = ij 儋j = t 叫 协3 。) 其中,为奇异值的总个数,即隐层节点总个数;g 为预计要保留的奇异值个数, 即预保留隐层节点个数。余下的l - q 个隐层节点我们称之为待删除节点。 然后,分析每个待删除节点与其它各个预保留节点之间的相关情况。设有两个 隐层节点f 和,它们对应的个输入模式的输出序列分别为 和 b ) ,l p n , 其均值分别为石和i ,于是, 和 b ) 之间的相关系数可以表示为: 艺一i i 吩2 ( 3 - 3 1 ) 其中, 一l l 。若,:,= 1 ,则表示两个向量正相关;若= 一l ,则表示两个 向量负相关。两个向量之间高度的正相关和高度的负相关都是向量之间相关性很强 的表现。 如果一个待删除节点与任意一个预保留节点之间的相关性系数的绝对值过大 ( 超过某一预先设定值) ,则表示该待删除节点与网络中某个预保留节点有较强的 相关性,即该待删除节点对网络的贡献程度很小,因此删除该节点。按照同样的方 法逐一的检验每个待删除节点之后,即可得出要保留的隐层节点数量,于是我们便 得到了经过一个优化过程后的网络结构。进而,在此网络结构基础上继续循环进行 下一个优化过程,按照贡献率和相关性的标准删除冗余节点,直到在连续的8 个优 化过程中网络结构稳定无变化,即未出现要删除的隐层节点( 不存在待删除节点或 2 3 华北电力大学硕士学位论文 者每个待删除节点均通过了相关性检验) ,则循环优化过程终止。此时,便得到了 最终优化后的网络隐层节点数,从而确定了b p 网络的结梅。 3 4 优化的b p 网络在循环流化床锅炉中的应用 。 一 循环流化床锅炉( c i r c u l a t i n gf l u i d i z e db e db o i l e r ,简称c f b b 或c f b ) 技术 3 6 l 是一种较为成熟的高效低污染的清洁燃烧技术,与其他燃烧方式相比,它具有可中 温燃烧、燃烧适应性广、灰渣易于综合利用、负荷调节范围大以及可以实现压火热 备用等独特的优势1 3 7 ,在全世界范围内正在得到迅速的发展,正在成为燃烧系统 的“主力军一。但是,循环流化床锅炉的热惯性和迟延性均较大,并且具有参数耦 合强烈以及多变量时变非线性等特点,人们对它的研究和掌握还比较有限,这些都 给常规的建模工作带来了极大的困难。此时,神经网络建模方法相对其他传统的基 于严密数学模型的建模方法就具有了独特的优势。我们可以只关心外部特性,将整 个系统和动态过程看成一个“黑箱 ,利用神经网络针对输入输出的非线性映射能 力对循环流化床锅炉燃烧系统进行建模。系统模型可以应用于仿真、系统分析以及 控制逻辑设计等多个领域,具有一定的理论和实践价值。 3 4 1 循环流化床锅炉建模数据的选取与分析 本文用于b p 神经网络建模的数据采自某火电机组,共有平均床温、一次风量、 二次风量和给煤量各5 5 0 0 组现场实时数据,采样周期为t s = 1 0 s 。在建模过程中,以 循环流化床锅炉的平均床温作为b p 网络输出,以一次风量、二次风量和给煤量为网 络输入。 循环流化床锅炉的燃烧过程【3 8 】可以简要概括为:燃料进入燃烧室后,处于流化 状态的热物料将其迅速加热燃烧,较大的煤料沸腾燃烧,较小的颗粒则由烟气带入 燃烧室上部的相密区中悬浮燃烧,分离器将由烟气带出的部分颗粒回收并重新送入 炉膛再燃烧。 在燃烧过程中,一次风的作用除提供燃烧所需空气外,还要流化床料和燃料。 须将一次风量控制在一个合适的范围内,以保证稳定良好的流化状态:利用二次风 对飞灰起到上扬和下压的作用,促使物料在炉膛内的循环,保证燃料的完全燃烧。 一次风量、二次风量和给煤量对床温的影响相互偶合且均带有一定的滞后性。 3 4 2 建模与仿真 根据对循环流化床燃烧系统的先验知识, 次风量u s ( t - 7 ) 以及给煤量( f 一5 ) 和y ( t - 1 ) , 我们分别选取一次风量“,( t - 1 5 ) ,二 y ( t - 2 ) 作为b p 网络的输入,选取平 华北电力大学硕士学位论文 均床温y ( t 1 作为网络输出。取训练样本数为3 5 0 0 ,测试样本数为2 0 0 0 。 为了验证基于奇异值分解的优化策略对b p 网络的有效性,我们首先选择一个初 始规模足够大的三层b p 网络。令隐层节点数为3 0 。使用神经网络工具箱中的t r a n i l m o 函数调用l m 算法对b p 网络进行训练,设训练最大步长为1 0 0 ,目标误差m s e 为0 1 5 , 学习率为o 0 l 。仿真结果如图3 3 所示,图3 3 ( a ) 中,实线表示期望输出,虚线表示 神经网络的实际输出:图3 3 ( b ) 表示各采样点期望值与网络实际输出值之间的偏差, 其最大幅值为1 8 1 6 7 ,测试误差m s e 为0 7 3 2 9 。 ( a ) 网络期望输出与实际输出 7 ( b ) 偏差 图3 3 优化前网络( 3 0 个隐节点) 在以上仿真中,虽然包含有3 0 个隐层节点的较大规模的b p 神经网络可以对循环 流化床锅炉燃烧系统的现场数据做出正确的反映,但是其数据拟合的偏差较大且不 p,de9j勺o 华北电力大学硕士学位论文 稳定,函数逼近的精度有待进一步提高。为提高b p 网络的泛化能力,获得更好的建 模效果,采用上述基于奇异值分解的优化策略对网络结构进行优化,选择适当韵贡 献率c 和相关性系数,对网络的隐层节点进行“修剪 ,删除冗余节点。当c 取值0 7 5 以及,取值0 7 5 时的一次仿真结果如图3 4 所示:图3 - 4 ( a ) 中,实线表示期望输出,虚 线表示神经网络实际输出;图3 4 ( b ) 表示各采样点期望值与实际输出值之间的偏差, 其最大幅值为1 1 1 1 ,测试误差m s e 为0 0 5 1 1 。观察发现,偏差曲线整体平稳,无较 大波动。优化后的b p 网络剩余7 个隐层节点,我们从优化前后的图像和数据对比可 以得知,优化后的网络结构简单,并且泛化能力明显提高。隐层节点优化过程如图 3 5 所示。 ( & ) 网络期望输出与实际输出 ( b ) 偏差 图3 4 优化后网络( 7 个隐节点) 2 6 华北电力大学硕士学位论文 i 一一一广一一一广一一一 i 一l 一一l 一i t - 一一一一p 年- t - 一一一 i i ii 4 _ 一1_ s t e po fo p t i m i z a t i o np r o c e s s 图3 5 隐节点优化过程 b p 网络的性能受初始权值的影响较大,网络的初始权值不同,训练结果就不同, 具有一定的随机性,这是由于复杂的误差曲面上的局部极小点很多而造成的。因此, 为了说明基于奇异值分解的优化算法的有效性和稳定性,我们在以上b p 网络结构和 网络的训练和测试样本数、学习率、目标误差等等基本参数不变的情况下,对各不 同的贡献率和相关性系数搭配均取3 0 次优化前后的平均网络性能做比较,获得的数 据分别如表3 1 和表3 2 所示。其中,m s e l 表示优化前的包含有3 0 个隐层节点的b p 网络3 0 次仿真的平均均方根误差;m s e 2 表示优化后的网络3 0 次仿真的平均均方根 误差;l o o p s 表示完成一次网络优化所需要的平均循环过程数;r h n 表示在优化后 网络中包含的平均剩余隐层节点个数。 表3 1c 变化,固定时的优化性能 c ,m s e l m s e 2l o o p sr h n o 7 5 o 7 5 0 5 2 80 1 5 01 6 16 8 o 8 0o 7 5 0 6 0 9o 1 9 61 7 17 2 o 8 5o 7 50 3 0 5o 1 8 71 8 37 1 o 9 00 7 50 5 7 7o 1 7 51 9 67 2 注:以上数据均来自m a t l a b 运行结果 2 7 gc)co口口一工jo-,qe3z 华北电力大学硕士学位论文 表3 2c 固定,变化时的优化性能 。c ,m s e lm s e 2l o o p sr h n 0 8 00 7 00 4 6 30 2 0 91 9 85 0 o 8 0o 7 50 6 0 90 1 9 61 7 97 2 0 8 00 8 00 5 0 8o 1 5 71 7 1l o 4 0 8 00 8 50 6 0 10 1 9 0 1 5 31 2 5 注:以上数据均来自m a t l a b 运行结果 通过对表3 1 和表3 2 的对比分析发现,相关性系数,过大会导致平均优化步数减 少,此时网络优化不完全,优化完成后剩余隐层节点较多;反之,较小时平均优化 步数增加,可能导致过度优化,将对网络有一定贡献的隐层节点删掉,剩余隐层节 点太少从而降低了b p 网络的泛化能力。在系数,固定不变的情况下,系数。哒大则进 行每步优化时待删除节点越少,从而增加了完成优化所需的循环步数,但不影响优 化完成后剩余节点个数。大量的仿真实验表明了使用适当的系数搭配可产生比较理 想和稳定的优化效果,优化完成后剩余隐层节点在6 1 0 个之间。 3 5 本章小结 r一 本章首先简要介绍了人工神经网络的基本结构和工作原理,又针对在建模中所 使用的b p 神经网络做了较详细的阐述,介绍了b p 网络的组织结构、运行方式和训 练算法等,在此基础上,我们提出了一种基于奇异值分解的神经网络结构优化策略, 根据每个隐层节点的贡献率以及它们之间的相关程度对b p 网络进行优化,删除冗 余节点,在获得精简的网络结构的同时提高网络泛化能力。最后,将该优化策略应 用于循环流化床现场数据的神经网络建模仿真中,通过优化前后网络泛化能力的对 比,证明了该优化策略对b p 网络优化的有效性和稳定性。 2 8 华北电力大学硕士学位论文 第四章基于奇异值分解的r b f 网络结构优化及其应用 4 1r b f 径向基函数神经网络简介 在上世纪八十年代末期,j m o o d y 和c d a r k e n 首次提出了基于径向基函数 ( r a d i c a lb a s i sf u n c t i o n ,r b f ) 的神经网络。在某种程度上,径向基函数方法利用 了多维空间中的传统严格插值法的理论和研究成果【2 7 1 。在人工神经网络的环境下, 神经网络的隐层节点提供若干个能够在输入模式向量扩展至隐层空间时为其构建 一个任意的“基”的“函数 集,这些函数集当中的函数就是径向基函数【3 纠。径 向基神经网络是当前最为流行的三层前馈型神经网络之一,广泛的应用于函数逼近 与分类。r b f 网络不仅有与其自身相对应的生理学基础,而且比b p 网络结构简单, 学习速度更快。 4 1 1 径向基函数的概念 径向基函数( r b f ) 是以到空间中某个固定点的距离为自变量的函数。在我们 所熟知的二维欧式空间中,一般距离定义为: ,_ :_ 。? 。“ ,釜l ( x , y ;x o ,y o ) = ( 石- x o ) 2 + ( y 一) 2 c 4 - 1 ) 式中,“y ) 为二维欧式空间中任意一点的坐标;( x o ,y o ) 为某一固定点的坐标。以,为 自变量的函数就是径向基函数,记为州) ,( x o ,y o ) 称为径向基函数烈,) 的中心。同 样的,我们可以将此定义扩展到高维空间当中。 径向基函数一般可以分为局部径向基函数和整体径向基函数两大类。如果当, 趋于无穷大时烈z ) 的值趋于零,则称们) 为局部径向基函数;相反,当,趋于无穷大 时烈,) 的值不为零,则称认,) 为整体径向基函数。局部径向基函数只是在输入数据 所在区域的中心进行插值,而整体径向基函数则可以在整个空间中进行全局的插 值。通常,在神经网络的构建中我们经常用到的r b f 函数有以下几种,形式分别如 式( 4 2 ) 一( 4 4 ) 所示,其曲线形状分别如图4 1 中曲线a 、b 、c 所示: ( 1 ) g a u s s i a n 函数( 高斯函数) : 烈d = 唧( 一) ( 2 ) r e f l e c t e ds i g m o i d a l 函数: 州) 2 群哪( 测2 2 9 ( 4 2 ) ( 4 3 ) 华北电力大学硕士学位论文 ( 3 ) 逆m u l t i q u a d r i c 函数: 州) - 冗:艿:厂? _ 。 i ( 4 4 ) 图4 1 :常用的三种r b f 函数图形 上式中,艿均为常数,通常称为径向基函数的扩展常数( 或者宽度) ,显而易见,万 的值越小,该径向基函数的选择性就会越强。 4 1 2r b f 网络结构 r b f 网络是一种前馈型神经网络,一般分为三层,即输入层隐层输出层三层 结构,如图4 2 所示。 o 。似一q 4 ) 图4 2 :径向基函数网络结构 上图所示为一研一j i i 一刀结构的r b f 网络。其中x = ( 五,恐,) r ,x r ”表示网 络的输入矢量;y = ( y j ,n ) r ,y r ”表示网络的输出矢量;,( ) 表示第f 个隐层 节点的激活函数;形r h x 表示网络的输出权矩阵;6 0 ,吃则表示网络输出单元的 偏置。r b f 网络的输出层神经元一般都采用简单的线性函数作为其激活函数( 也可 以采用其它如s i g m o i d a l 函数的非线性激活函数) 。 3 0 华北电力大学硕士学位论文 与包括b p 网络在内的多层感知器网络不同,径向基函数网络的一个显著特点 是其隐层节点采用距离函数( 如欧氏距离函数) 作为基函数,而采用径向基函数( 如 高斯函数) 作为其激活函数。在多维空间中,径向基函数关于空间中一个中心点具 有径向对称性( 图4 2 中,q 即为该网络中第f 个隐层节点的中心) ,而且神经元的 输入离该中心点越近,神经元的激活程度就越高:反之,输入矢量离中心点越远, 神经元的激活程度就越低。我们称r b f 网络隐层节点所具有的这个特性为“局部特 性一。以式子( 4 2 ) 描述的高斯径向基函数为例,若r b f 网络隐层单元采用该基函 数,则网络的输出可以表示为: 以= 圭心f i ii 1 4exp i i x - q ) 以= 心l i :i ( - 5 ) 4 1 3r b f 网络学习算法 我们可将采用径向基函数,( ) 作为激活函数的r b f 网络的输出描述为以下通 式: 以= 哗哦( 忙一q 0 ) ( 4 - 6 ) j 暑i 从上面的公式可以看出,针对已有的训练样本且选好合适径向基函数后,r b f 网络的学习算法需要确定的有以下三方面【2 4 】: ( 1 ) 网络隐层节点个数h :隐层节点个数的确定分为两种基本方式,第一种是 人工的在网络训练之前给定一个隐节点个数h ,训练算法将h 作为一已知量进行运 算,采用这种方法时隐节点个数h 往往是根据使用者的先验经验而确定的,如下文 要提到的聚类方法和梯度训练方法;第二种是由训练算法在动态训练过程中根据一 定原则计算生成出一个较为合理的隐节点个数h ,如正交最小二乘( o l s ) 算法。 ( 2 ) 各个隐层单元的径向基函数的径向对称中心q 和宽度常数磊:数据中心q 的确定方法分为两大类:第一,从样本中选取数据中心。属于这一类方法的有正交 最小二乘算法、正则化正交最d - - - 乘算法( r o l s ) 以及进化优选算法等。在这类 算法中,数据中心的位置一经确定则不再变化;第二,数据中心动态调节。这类算 法的数据中心在空间中的位置是在学习的动态过程中不断的由算法来调节的,比如 k - m e a n s 聚类方法、s o f m 方法以及梯度训练算法等。 第一类算法操作简单,容易实现,但数据中心完全从样本中选取且不再改变, 对网络性能的影响有一定的随机性。且o l s 算法不能计算宽度常数五,得出的网络 又未必是具有最小结构( 最小结构网络,指的是在能够以给定精度学习给定目标函 数或者训练样本的r b f 网络中,具有最少的隐层节点个数的网络) 的r b f 网络。 3 l 华北电力大学硕士学位论文 第二类方法可以根据训练算法自行确定各个隐层单元的扩展常数最,但缺点是 在搜寻各个隐层单元数据中心时只利用了输入样本信息,而忽略了输出样本信息。 且经典的聚类方法无法自行确定网络的隐层单元数量。r b f 网络的隐层节点数量对 整个网络的泛化能力有着非常大的影响,因此,如何确定或者优化聚类法r b f 网络 的隐层节点个数,是应用聚类方法设计r b f 网络时的一个关键和热点问题。 ( 3 ) 输出权值( 包括网络输出节点的偏置) :当r b f 网络的隐层节点个数、数 据中心和宽度常数等系统参数确定后,输出权值矩阵w ( 包括网络输出节点的偏置) 可利用梯度法求得;或者根据网络的输入和输出列出的一个线性方程组,采用最小 二乘法求得。 下面,我们以一个m h l 结构的r b f 网络为例简单介绍一下在训练r b f 网络 时经常使用的三种学习算法【堋。在叙述中,均令网络的个样本输入为 五,五,耳,其中五= ( 五,恐,毛) r 。,i f l ,2 ,搠,与之相应的样本输出为 舅,乃,v n ,网络中第七个隐层节点的激活函数为吼( ) ,七= l ,2 ,h 。 ( 1 ) 聚类法 聚类法由m o o d y 和d a r k e n 于上世纪八十年代提出。该方法首先用k - m e a n s 算 法对所有的样本进行聚类,从而确定出网络各个隐层节点的径向对称中心q ,然后 根据各个数据中心之间的距离远近确定各隐层节点的扩展常数最,最后使用梯度法 训练网络输出权值w ( 包括各输出节点偏置) 。 令k - m e a n s 聚类算法进行到第k 步迭代时,网络中h 个隐层节点的数据中心分 别为q ( 七) ,c 2 ( 七) ,c ( k ) ,与之相应的聚类域分别为w ( 七) ,心( j | ) ,( k ) ,则聚类 算法的计算步骤可描述如下: ( a ) 令七= l ,选择j 1 1 个不同的初始聚类中心q ( 1 ) ,c 2 ( 1 ) ,( 1 ) ( 可以随意 从样本输入中自由选取,保证h 个中心值各不相同即可) 。 ( b ) 分别计算所有输入样本与各所选聚类中心的距离0 一q ( 七) 0 ,其中, i = l ,2 ,h ,j ;l ,2 ,n 。逐一将所有样本划分到距离其最近的数据 中心所属的类中,即:若f ( ) = i i l i n 0 一q ( 七) i i ,i = 1 ,2 ,h ,则将 。 输入样本划分到第f 类中,即:x ,w ( 七) 。 ( c )按照以下公式重新计算各个类的数据中心值: q ( 1 ) 文坛j 磊) 川- 1 2 ,h “7 式中,m 为第f 类中所包含的样本数量。若q ( k + 1 ) q ( k ) ,则转步 华北电力大学硕士学位论文 骤( b ) ;若q ( 七+ 1 ) = q 似) ,则聚类计算结束,转步骤( d ) 。 ( d ) ,计算各隐层节点的宽度常数4 磊= 口呻n 忖一q ) 0 ,即隐层节点宽 度常数与它到距离它最近的聚类中心的距离成正比关系,口称为重叠 系数。 当隐层节点的数据中心和宽度常数确定后,输出权值矩阵形可由梯度训练或者 最小二乘法求的。 ( 2 ) 梯度训练法 r b f 网络的梯度训练方法与前文中所介绍的b p 网络梯度训练方法原理类似, 均是在将目标函数最小化的同时调节网络参数,因此在这里不加赘述。 ( 3 ) 正交最j 、z 乘法 ” 该方法的基本思路是【4 0 】:如果我们将网络隐层节点个数定义为与样本数量相 等,即将所有的样本输入都作为网络的数据中心,那么根据m i c c h e l l i 于1 9 8 6 年提 出的m i c c h e l l i 定理( 对于采用径向基函数的r b f 网络,若五,五,。k 各不相等, 则网络的隐层输出矩阵是可逆性) 可知,隐层输出矩阵h r x 是可逆的,因此, 输出样本y 可以由矩阵日的个维向量线性表出。进而,我们可以在日中找到膨 个维向量( m n ) 来构成一个满足给定误差占的新矩阵风,即: i 阻- y l l g - ( 4 8 ) 式中,是可令l i 以w - y l l 的值达到最小的最优矢量。显而易见,以的选取,如何 在h 中找到合适的m 个维向量组成见直接影响r b f 网络的性能。而一旦确定了 矩阵以,也就确定了网络的隐层节点个数以及各隐层节点的数据中心值。 算法具体步骤如下: ( a ) 计算网络隐层节点输出矩阵日,则日的个维列向量分别为q 1 1 ,q 1 2 , ,q ,它们构成了一个维欧式空间胃。 ( b ) 计算输出样本y 在q 1 ,q 2 ,q 上的投影,将与y 具有最大夹角的 列向量q 。对应的输入样本作为第一个数据中心。 ( c ) 用广义逆方法计算网络输出权值后可得到网络的训练误差,如果该误差 小于规定的目标误差则退出计算,否则对剩余的一1 个列向量进行施密 特正交化处理,得到q 2 1 ,q 2 ,q 。1 ,转步骤( b ) 。 ( d ) 重复进行以上步骤,直到网络的训练误差满足目标误差停止运算为止。 4 2 基于奇异值分解的r b f 网络结构优化策略 泛化能力对于神经网络而言至关重要,是衡量一个网络性能的最重要指标。与 3 3 华北电力大学硕士学位论文 b p 网络一样,r b f 网络的泛化能力也在很大程度上取决于网络是不是具有一个合 理的复杂度,即隐层节点个数。 针对r b f 网络,n i y o g o 和g o r i s i 4 1 】给出了网络泛化能力与网络隐层节点个数 之间的关系: i i - 1 1 2 。( 州 学 9 ) 式中,为一常数,0 od 华北电力大学硕士学位论文 1 5 9 5 2 e 0 0 4 、1 2 0 7 7 e 0 0 4 、1 0 2 7 9 e - 0 0 4 、8 0 8 0 4 e 一0 0 5 、6 9 6 9 7 e 一0 0 5 、5 0 5 5le 0 0 5 、 4 1 4 2 6 e 0 0 5 、3 9 2 0 8 e 0 0 5 、2 5 9 6 7 e 0 0 5 、2 5 0 6 9 e 0 0 5 、1 5 3 5 9 e 0 0 5 。其图像如图4 4 所示。从图像可以看出,矩阵以删的奇异值大小差别很大,最大的2 7 1 9 4 7 8 ,而最 小的只有1 5 3 5 9 e 0 0 5 ,数量级相距很多。因此,在优化网络时,我们选取的累积贡 献率c 值较大( 接近于1 ) ,避免删除过多隐层节点,出现过度优化。 图4 _ 4 隐层节点输出矩阵奇异值 当累积贡献率c 取值1 3 1 0 巧时,前1 9 个较大的奇异值能够得以保留,我们 根据。定位向量 ,找出对应较小的2 1 个奇异值的隐层节点并将其删除,得到优化 有的网络。优化后的r b f 网络隐层节点剩余1 9 个,仿真结果如图4 5 所示,图4 5 ( a ) 中,实线表示期望输出,虚线表示神经网络的实际输出;图4 5 ( b ) 表示在各个采样 点期望值与网络的实际输出值之间的偏差,偏差的上限为1 8 0 7 2 ,下限为0 7 5 4 6 , 测试误差m s e 为0 4 7 4 8 。从函数的图像和数据可以看出,优化后的r b f 网络虽然 只有1 9 个隐层节点,但是相对4 0 个节点的较大规模网络而言,测试误差有一定减 小,各个采样点处的期望值与网络实际输出的偏差上下限均明显减小,偏差幅度基 本能够保持在0 5 到1 5 之间,整个网络的泛化能力有明显改善,提高了函数逼近 的精度。 3 9 一些! ! 皇垄丕堂堡主堂垡堕窒 p a e i 竺 e 垦 焉 : t e s ts a m p l e s ( a ) 网络期望输出与实际输出 ( b ) 偏差 1 1 1 4 5c 取值1 3 1 0 。5 时优化后网络( 1 9 个隐节点) 在对网络进行优化的过程中,调节累积贡献率c 的大小可以影响r b f 网络剩余 隐层节点的个数,进而影响优化的效果。表4 - 1 的统计为不同c 值所对应的剩余隐 层节点数量r h n 和优化后网络的测试误差m s e 、偏差的最大幅值m a x d 和最小幅 值m i n d 。 华北电力大学硕士学位论文 表4 1锨不同值时的网络优化结果 c m s em a x dm i n dr h n 1 - 6 x1 0 。50 4 8 2 7 1 8 1 9 9- 1 2 5 2 11 7 1 - 5 x1 0 5 0 5 0 8 71 8 4 8 30 8 2 3 41 8 i - 4 x1 0 5 1 - 3 x1 0 50 4 7 4 81 8 0 7 20 7 5 4 61 9 1 - 2 x1 0 。5 0 4 7 0 91 7 9 8 7- 1 0 5 7 82 0 1 1x1 0 。5 0 8 2 2 12 3 4 8 90 5 3 l l2 4 l - 9 x1 0 - 6 1 - 8 x1 0 6 0 7 5 1 72 2 8 4 1 0 4 7 2 52 5 1 - 7 x1 0 。6 1 - 6 x1 0 - 6 o 5 7 4 00 5 6 0 12 0 9 2 02 6 1 - 5 1 0 - 6 注:以上数据均来自m a t l a b 运行结果 我们设定聚类中心个数( 隐层节点个数) 为3 0 ,选取训练样本中第2 0 0 到第 2 3 1 这3 0 个样本作为网络初始聚类中心,再次进行仿真建模。仿真结果如图4 - 6 所 示,图4 - 6 ( a ) 中,实线表示期望输出,虚线表示神经网络的实际输出;图4 6 ( b ) 表 示在各个采样点期望值与网络的实际输出值之间的偏差,偏差的上限为2 1 3 9 7 ,下 限为0 8 1 3 2 ,测试误差m s e 为0 5 3 8 7 。 ( a ) 网络期望输出与实际输出 4 i 华北电力大学硕士学位论文 ( b ) 偏差 图4 6 优化前网络( 3 0 个隐节点) 为了提高r b f 神经网络的泛化能力,我们采用基于奇异值分解的优化策略对以 上r b f 网络的结构进行优化。当累积贡献率c 取值1 3 x1 0 石时,仿真结果如图4 7 所 示,图4 7 ( a ) 中,实线表示期望输出,虚线表示神经网络的实际输出;图4 7 ( b ) 表示 在各个采样点期望值与网络的实际输出值之间的偏差,偏差的上限为1 5 5 1 7 ,下限 为0 8 9 0 6 ,测试误差m s e 为0 2 2 1 6 。从函数的图像和数据可以看出,优化后的r b f 网络规模较小,且测试误差降低,各个采样点处的期望值与网络实际输出的偏差上 下限均有所减小,偏差幅度基本能够保持在0 5 到1 5 之间,整个网络的泛化能力有 明显改善。 ( a ) 网络期望输出与实际输出 4 2 华北电力大学硕士学位论文 ( b ) 偏差 图4 7c 取值1 3 1 0 6 时优化后网络( 2 4 个隐节点) 同样,我们将调节累积贡献率c 的大小对r b f 网络剩余隐层节点的个数以及优 化的效果统计在表4 2 中。r h n 表示剩余隐层节点数量;m s e 表示优化后网络的测 试误差;mx d 表示偏差的最大幅值;m i n d 表示最小幅值。 表4 - 2c 取不同值时的网络优化结果 cm s em a x dm i n dr h n 1 - 5 1 0 60 4 5 3 72 2 6 1 10 7 5 1 82 2 1 - 4 x1 0 石0 2 4 5 31 6 0 6 60 8 4 2 92 3 1 - 3 x1 0 - 60 2 2 1 61 5 5 1 70 8 9 0 62 4 1 - 2 x1 0 。60 3 4 4 41 8 0 3 30 7 4 0 l2 5 注:以上数据均来自m a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学课程标准考试及答案
- 2025年贵州省安顺市公需课培训(专业技术人员继续教育)试题及答案
- 2025年贵州二级建造师考试试题库(答案+解析)
- 职业培训考试题目及答案
- 安全教务培训课件
- 高一开学考试试题及答案
- 商业合同履行守信承诺书(6篇)
- 语文高二月考试卷及答案
- 大学三级考试a卷真题及答案
- 软件开发笔试题目及答案
- 2025年亚马逊AWS云服务合同范本参考
- 班干部聘任仪式
- 2025年老年病学住院医师规培出科考试理论笔试答案及解析
- 激光武器物理课件
- 气瓶泄漏应急演练范文大全
- 2025年REACH 250项高度关注物质SVHC清单第34批
- 2025年软件架构师专业技术考核试题及答案解析
- 八上语文第9课《天上有颗南仁东星》课件
- 2025-2026学年苏教版(2024)小学科学三年级上册(全册)课时练习及答案(附目录P102)
- DBJT15-110-2015 广东省建筑防火及消防设施检测技术规程
- 2024年BRCGS包装材料全球标准第7版全套管理手册及程序文件(可编辑)
评论
0/150
提交评论