(计算数学专业论文)mca算法的改进及收敛性分析.pdf_第1页
(计算数学专业论文)mca算法的改进及收敛性分析.pdf_第2页
(计算数学专业论文)mca算法的改进及收敛性分析.pdf_第3页
(计算数学专业论文)mca算法的改进及收敛性分析.pdf_第4页
(计算数学专业论文)mca算法的改进及收敛性分析.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人连理工大学硕士学位论文 摘要 人工神经网络是对人脑的反应机制进行简化、抽象和模拟建立起来的数学模型,通 过大量基本组成单位人工神经元的相互连接而对外界环境输入的信息进行并行分 布式的处理,具有较强的自适应性和容错性作为人工神经网络的一个应用m c a 神经网络学习算法,就是寻找一个方向,使得数据空间在这个方向上的投影有最小的方 差由于其应用的广泛性,m c a 算法的收敛性变得非常重要因为确定离散时间 ( d e t e r m i n i s t i cd i s c r e t et i m e ,d d t ) 系统不要求算法的学习率收敛到零,而且还可以保持 算法的离散特征,所以基于d d t 系统的m c a 收敛性分析是近年来人们研究的热点 本文对o j a - x um c a 和o j a l lm c a 学习算法进行了研究对于前者,我们在归一化 o j a - x um c a 算法的基础上又做了进一步的改进,提出了固定步长的跳步归一化及自适 应变步长的跳步归一化方法,提高算法的收敛速度和学习精度,并且还对固定步长的跳 步归一化方法做了权值有界性的证明对于后者,我们在理论上对算法的收敛性进行了 分析,将原有学习率的取值范围扩大了一倍,并通过数值试验验证了我们的理论结果 本文的结构安排如下:第一章介绍了人工神经网络及m c a 神经网络学习算法的相 关背景知识,第二章对归一化o j a x um c a 算法进行了改进,第三章对o j a l lm c a 算法 的收敛性做了进一步的研究,最后是结论 关键词:m c a 算法;神经网络;d d t ;跳步归一化;自适应;收敛性;收敛速度 m c a 算法的改进及收敛性分析 t h em o d i f i c a t i o na n d c o n v e r g e n c ea n a l y s i so fm c aa l g o r i t h m a b s t r a c t a r t i f i c i a ln e u r a ln e t w o r k ( a n n ) i sam a t h e m a t i c a lm o d e lb a s e do nt h es i m p l i f i c a t i o n , a b s t r a c t i o na n ds i m u l a t i o no ft h er e a c t i o n s y s t e mo fh u m a nb r a i n a n nd e a l sw i t h i n f o r m a t i o nf r o mo u t s i d ee n v i r o n m e n ti na p a r a l l e lm a n n e rb yc o l l e c t i o no fm a n yb a s i cu n i t s c a l l e dn e u r o n , w h i c he n s u r e st h ea n nag o o dq u a l i t yo fs e l f - a d a p t a t i o na n de r r o rt o l e r a n c e a sa na p p l i c a t i o no fa n n ,m c an e u r a ln e t w o r kl e a r n i n ga l g o r i t h m i st os e a r c had i r e c t i o nt o l e tt l l ed a t as p a c eh a v et h el e a s tv a r i a n c eo nt h ed i r e c t i o n b e c a u s eo fi t sw i d e a p p l i c a t i o n t h e c o n v e r g e n c eo ft h em c aa l g o r i t h mi sv e r yi m p o r t a n t a st h ed e t e r m i n i s t i cd i s c r e t et i m e ( d d t ) s y s t e md o e s n tr e q u i r et h el e a r n i n gr a t ec o n v e r tt oz e r oa n dc o n s e r v et h ed i s c r e t eo f t h ea l g o r i t h m ,t h ec o n v e r g e n c eo fm c a a l g o r i t h mb a s e do nd d t i st h eh o t s p o to fp e o p l e s w o r k n l i st h e s i ss t u d i e st h eo j a x um c a l e a r n i n ga l g o r i t h ma n dt h eo j a l lm c al e a r n i n g a l g o r i t h m t ot l l ef o r m e r w em a k es o m ei m p r o v e m e n t sb a s e do nt h e n o r r n a l i z i n g i m p r o v e m e n t , p u tf o r w a r dt h ef i x e di n t e r v a ln o r m a l i z i n gm e t h o da n da d a p t i v ei n t e r v a l n o r m a l i z i n gm e t h o d ,w h i c hi m p r o v et h ec o n v e r g e n c es p e e da n dt h ea c c u r a c y i na d d i t i o n , w e p r o v et h eb o u n d e d n e s so ft h ef i x e di n t e r v a ln o r m a l i z i n gm e t h o d t ot h el a t t e r ,w ea n a l y s i st h e c o n v e r g e n c eo ft h el e a r n i n ga l g o r i t h m ,a n de n l a r g et h es c o p eo ft h el e a r n i n gr a t et ot w i c e , w h i c hi sp r o v e db yt h en u m e r i c a le x p e r i m e n t a t i o n t h es t r u c t u r eo ft h i st h e s i si so r g a n i z e da sf o l l o w s c h a p t e r1 g i v e sab r i e fi n t r o d u c t i o n o fa n na n dt h e k n o w l e d g eo fm c al e a r n i n ga l g o r i t h m c h a p t e r2m a k e ss o m e i m p r o v e m e n t sb a s e d0 1 2t h en o r m a l i z i n gi m p r o v e m e n to ft h eo ja - x um c a l e a r n i n ga l g o r i t h m c h a p t e r 3i sc o n c e m e dw i t ht h ef u r t h e rs t u d yo ft h ec o n v e r g e n c eo ft h eo j a nm c a l e a r n i n g a l g o r i t h m f i n a l l y ,ab r i e fc o n c l u s i o ni sg i v e n k e yw o r d s :m c at e a m i n ga t g o r i t h m ;i n t e r v a l n o r m a t i z i n g ;a d a p t i v e ;d d t ; c o n v e r g e n c e ;c o n v e r g e n c es p e e d ;c o n v e r g e n c ea c c u r a c y i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:j 堂色墨喀盖丑鲎卫也必塑立望萼i 一 作者签名:_ 韶一魄哥年上砬日 人连理: 大学硕十研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 大连理工大学硕士学位论文 1 绪论 1 1神经网络概述 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,a n n ) 是在现代生物科学研究对人和一 般生物的神经组织的结构和运行机制的认识理解基础上,利用数学方法进行信息处理, 并且对神经组织的若干基本特性进行抽象和模拟,建立起来的某种简化的数学模型【1 ,2 1 其目的在于模拟大脑的某些机理与机制的运行,实现某个方面的功能从结构上看,人 工神经网络由若干简单处理单元( 也称神经元) 按照不同方式相互连接构成,是具有高 度的并行性和高速的信息处理能力的非线性动力系统作为智能研究的重要组成部分, 它已吸引了众多的神经生理学家、心理学家、数理科学家、计算机和信息科学家等的研 究和应用 近3 0 年来,神经网络逐渐渗透到生命科学、工程科学、金融学等科学研究的诸多领 域并且有了稳定快速的发展和应用,例如在图像识别【3 7 l 和金融预测【8 1 0 】等方面 虽然a n n 与真正的生物神经网络有差别,但是它汲取了生物神经网络的部分优点, 所以具有以下的特性: ( 1 ) a n n 在结构上与目前的计算机有本质的不同,它由很多小的处理单元相互连接 而成,虽然每个处理单元的功能简单,但是大量的处理单元的结合却可以完成很复杂的 任务 ( 2 ) a n n 具有非常强的容错性,局部的神经元破坏不会对整体造成太大的影响 ( 3 ) a n n 记忆的信息是存储在神经元之间的连接权值上,从单个权值不能看出存储 信息的内容,所以它是分布式的存储方式 ( 4 ) a n n 学习功能十分强大,它的连接权值和连接的结构都可以通过学习得到 1 1 1 人工神经元 神经元是神经网络的基本处理单元,一般地是一个有着多个输入、单个输出的非线 性结构 神经元的基本模型如图1 1 所示其中x ,j = 1 ,2 ,n 为神经元i 的输入,w ;,表示 第j f 个输入x ,与神经元f 连接的权值,b ,是神经元f 的阈值,厂,称为神经元的活化函数, u ,表示神经元f 的状态,也就是它的输出一般地,神经元f 的作用由数学表达式表示为: “t 2 厂r ( 薹w ,z ,+ 6 t ) ( 1 1 ) m c a 算法的改进及收敛性分析 x l 口 x 2 w f 2 1 一 | r 。 w f 3 7 图1 1 人 神经兀的基本结构 f i g 1 1s t r u c t u r eo fa r t i f i c i a ln e u r o n 人工神经元的着眼点不是利用物理器件完整地复制生物体内的神经细胞,而是抽取 其中的可利用部分来克服目前的系统不能解决的问题,如学习、控制、识别和专家系统 等 对于不同的神经网络模型,神经元的活化函数也不同常用的活化函数有线性函数 s ( x ) = x 、符号函数f ( x ) = s g n ( x ) 、s i g m o i d 函数、高斯函数等这些活化函数有不同的 特点,适合在不同的方面应用 1 1 2 人工神经网络的拓扑结构 一般情况下,要实现一定的功能,神经网络通常由若干个神经元相互连接而成,而 各个神经元之间的相互连接和作用保证了神经网络的信息处理能力知识与信息的存储 表现为网络元件互连分布时的物理联系神经网络的学习和识别取决于各神经元连接权 系数的动态演变过程,并表现出自适应性、容错性、并行分布处理等各种优点 神经网络的构造,是按照一定方式将若干神经元连接起来,并使网络中各神经元的 连接权值按一定的规则进行调整神经元相互连接的方式不同,神经网络的拓扑结构也 就不一样,这样就得到不同的神经网络模型je l , 2 , 1 1 】一般来说,神经网络中的神经元可以 分成若干称为层的集合,每个神经元属于且仅属于其中某一层,在同一层中的神经元具 有相同的活化函数 寸 h 大连理工大学硕士学位论文 常见的层结构有三种:输入层,隐层和输出层,如图1 2 ,其中,之所以成为隐层神经 元,就因为它的输入与输出都在网络内部,对外界是不可见的输入层上的神经元接收 来自外界的输入信息,并传递给位于隐层上的神经元;隐层是神经网络的内部信息处理 层,负责将网络中的信息进行处理后传递给下一层,根据实际的需要,隐层可以是一层 或多层,最后一个隐层将处理后的信息传递到输出层;输出层中的各神经元将这些信息 进一步处理后即完成一次从输入到输出的信息处理,由输出层向外界输出信息处理结果 也就是说,神经网络的输入层接受外部环境的输入,产生输出,然后这个输出被用于隐 层的输入这个过程一直持续到最后一个隐层,然后从最后一个隐层到输出层,输出层 输出信息到外界 x 1 x 2 卜叶只 。、 卜_ 咒 卜+ 虼 输入层隐层输出层 图1 2 神经网络的层结构 f i g 1 2l a y e ro fa r t i f i c i a ln e u r a ln e t w o r k 神经元通过权值相互连接,一个神经元的输出传给另一个神经元作为其输入这些 连接可以是单向的( 即两个神经元之间信息的传递只由其中一个到另外一个) ,也可以是 双向的( 即两个神经元的输出互相作为对方神经元的输入) 神经网络中的一个神经元 既可以有一个或多个输入,也可以有一个或多个输出 根据连接方式的不同,神经网络的神经元之间的连接有如下几种方式: 1前向网络 神经元分层排列,分别组成输入层、隐层( 可以由若干层) 、输出层每一层的神经元 只接受来自前一层神经元的输入,后面的层对前面层没有信号反馈输入模式经过各层 次的顺序传播,最后在输出层上得到输出感知器网络和b p 网络就属于前向网络见图 1 2 m c a 算法的改进及收敛性分析 2 有反馈的前向网络 其结构如图1 3 所示,从输出层到输入层有信息反馈,这种网络用于存储某种模式 序列,如神经认知机和回归b p 网络都属于这种类型 x 2 x n y 2 : yn 图1 3 反馈神经网络的拓扑结构 f i g 1 3t o p o l o g yo fr e c u r r e n ta r t i f i c i a ln e u r a ln e t w o r k 3 层内有相互结合的前向网络 通过层内神经元的相互结合,可以实现同一层内神经元之间的横向抑制或兴奋机制 这样可以限制每层内可以同时动作的神经元素,或者把每层的神经元分为若干组,让每 一组作为一个整体进行运作例如,可以利用横向抑制机理把某层内具有最大输出的神 经元挑选出来,从而抑制其他神经元,使之处于无输出的状态 4 相互结合型网络 这种网络在任意两个神经元直接都可能有连接h o p f e i l d 网络和b o l t z m a n 机均属 于这种类型在这种网络中,信号在神经元之间反复传递,网络处于一种不断改变状态 的动态之中信号从初始状态开始,经过若干次变化,才会达到某种平衡状态,网络的运 行还可能周期震荡或者混沌状态 大连理工大学硕士学位论文 图1 4h o p f e i l d 神经网络的拓扑结构 f i g 1 4t o p o l o g yo fh o p f e i l dn e u r a ln e t w o r k 1 1 3 神经网络的学习规则 学习规则是用数学公式表示的网络连接权值的更新算法,虽然简单,但是稍加变化, 就可以导出各种新的规则常用的神经网络学习规则有以下几种: ( 1 ) 误差纠正学习规则( d e l t a 规则) 记y ( 刀) 为输a x ( n ) 时,神经元k 在行时刻的 实际输出,并记d 。( 刀) 为相应的理想输出,则误差信号( ,2 ) 可写为e k ( 刀) = d k ( ,z ) - y 。( ”) 误差纠正学习的最终目的是使某个基于e 。( n ) 的代价函数达到最小,在某种统计意义下 使得网络中每个输出单元的实际输出最接近于理想输出一旦选定了代价函数形式,误 差纠正学习就成为一个典型的最优化问题常用的代价函数是平方误差或均方误以均 方误差为例,其定义为: ,= e ( i 1 p t 2 ( 刀) ) ( 1 2 ) k 其中e 是求期望的算子上式成立的前提条件是学习过程是宽平稳的,优化问题可用最 速下降法求解直接用,作为代价函数来求解时,需要知道整个学习过程的统计特征, 为解决这一困难,通常做法是用,在甩时刻的瞬时值代替,即 p ( 刀) = 去吒2 ( 刀) ( 1 3 ) k 这样,问题变为求e ( n ) 对权值w 的极小值采用优化问题常用的梯度下降法可得: ( ,z ) = r l e ( n ) x ,( ,2 ) ( 1 4 ) 其中r l 0 为学习步长,这就是通常所说的误差纠正学习规则反向传播算法就是基于 该规则的一种简单又常用的神经网络训练算法 一5 一 m c a 算法的改进及收敛性分析 ( 2 ) h e b b 学习规则神经心理学家d o n a l do l d i n gh e b b ( 1 9 0 4 1 9 8 5 ) 写了一本题为 ( ( t h eo r g a n i z a t i o no fb e h a v i o r 的书,在该书中他提出了神经元之间连接强度变化的规 则,即后来的h e b b 学习规则该规则可归结为:“当某一突触( 连接) 两端的神经元的 激活同步时( 同为激活或同为抑制) ,该突触的强度应该增强,反之则应减弱 用数 学公式可描述为: a w k j ( n ) = f ( y t ( n ) ,x ,( ,z ) ) 。 ( 1 5 ) 式中y 。( 刀) ,x ,( ,z ) 分别为w 肼( 咒) 两端神经元的状态最常用的一种情况是: w 白( 聆) = r l y ( 玎) x ,( 刀) ( 1 6 ) 由于a w k j ( n ) 与乩( ,z ) ,x ,( ,z ) 的相关成比例,有时又称之为相关学习规则 ( 3 ) 竞争学习规则t e u v ok o h o n e n 提出的模仿大脑皮层活动的拓扑网络结构,在 竞争学习时网络各输出单元间相互竞争,胜者获得学习机会( w i n n e rt a k e sa 1 1 ) 获胜 的神经元在更新自己权值的同时,抑制其它神经元的活动k o h o n e n 规则不需要期望输 出,属于无教师学习最常用的竞争学习规则可以写为: w “甩) :j7 7 ( _ ( 玎) 一( 甩) ) ,若神经元j 竞争获壁 ( 1 7 ) 盯、7 10若神经元i 竞争失败 学习是基本的认知活动,是经验和知识的积累过程,也是对外部事物前后关联地把 握和理解的过程,以便改善系统行为的性能学习的目的是通过有限个例子( 训练样本) 的学习,找到隐含在例子背后的规律( 例如函数形式) 通过学习解决问题是神经网络 的一个主要特点通过选择不同的层结构、连接方式、学习方法、学习规则,可以得到 不同的神经网络模型 1 1 4 神经网络的应用及其研究内容 神经网络的应用:预测与预报、联想记忆、模式识别、函数逼近、聚类、数据压缩、 语音识别与合成、非线性系统建模、非线性控制、特征提取、组合优化、矩阵代数问题 求解、盲信号处理和微分方程求解等,尤其对于缺少物理或统计理解的、观察数据中存 在统计变化、数据由非线性机制产生等棘手问题,神经网络可以提供有效的解决方法 现阶段神经网络的研究主要集中在以下几下方面: ( 1 ) 网络结构结构和设计比如网络中各个神经元是如何连接的,根据不同的需要, 应该如何设计出总体性能较好的网络等 ( 2 ) 运行方式例如运行的时间变量可取连续值还是离散值等 ( 3 ) 学习算法学习算法的恰当与否直接影响到训练效果的好坏甚至结果的成败 另外算法对网络的泛化能力也有重要影响 大连璎工大学硕士学位论文 ( 4 泛化性麓泛化性能是指网络识别训练集之外的样本的能力我们希望网络对 未经过训练的输入也有好的结果,所以网络泛化能力也是网络性能一个很重要的标准 ( 5 ) 逼近能力包括网络逼近能力、对不同函数类的逼近阶、激活函数的类别及形 状对逼近函数的影响和神经网络对不同空间的函数的最佳逼近等 ( 6 ) 应用露前神经网络不仅应用予上匿的领域,还被应用到控制与优化、金融预 测与管理等领域 1 2 m c a 和p c a 神经网络 1 2 1 简介 最小主元分析( m i n o rc o m p o n e n ta n a l y s i s ,m c a ) 是一穗非常重要的统计方法,作 用是寻找一个方向,使得数据空间在这个方向上的投影有最小的方差通过计算,最小 主元正好是信号数据的关联矩阵最小特征值对应的特摄向量m c a 神经网络采用线性 神经元,将输入的信号作为作为网络的输入,加权平均以后作为输出信号,通过调整权 值,使网络的权值向量收敛到关联矩阵的最小特征值对应的特征向量最小主元分析在 曲线拟合、计算机图形处理、总体最小二乘等方面具有非常重要的意义翻广泛的应用 与之相对的是最大主元分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) ,作用是寻找一个方向, 使得数据空闯在这个方向上的投影有最大的方差,最大主元正好是信号数据的关联矩阵 最大特征值对应的特征向量p c a 在图像压缩、模式识别和特征提取等方面有着广泛的 应用 很明照,信号的关联矩阵的最大特征值或者最小特征值对应的特征向量可以有数值 代数上很多现成的算法解决,比如特征值分解或者奇异值分解等等,那为什么还有提出 各种p c a 和m c a 算法呢? 有两个原因:第一、这些矩阵代数方法必须先获得对输入信 号关联矩阵的估计,然后进行主元分析这就使得矩阵代数的方法不适合实时环境下的 在线提取第二、在很多现实情况下,输入信号一般都是高维的,这样对关联矩阵徽特 征值分解或者奇异值分解计算量非常大【1 2 1 而神经网络具有的很好的并行计算能力和 容错性,非常适合主元的在线提取,所以人们提出m c a 或者p c a 神经网络 1 ,2 2m c a 和p c a 收敛性研究 嚣为大部分m c a 和p c a 算法都是随机离散时间( s t o c h a s t i cd i s c r e t et i m e ,s d t ) 系 统,直接研究其收敛性非常困难f 1 3 , 1 4 l ,所以需要通过某些间接方法来研究s d t 系统的动 力学行为后来人们提出确定连续时闻( d e t e r m i n i s t i cc o n t i n u o u st i m e ,d c t ) 系统【1 5 】,但 是这种系统非常苛刻的条件之一就是要求算法的学习率必须趋向于零【湖,这个条件在 m c a 算法的改进及收敛性分析 实际应用中很难满足为了更好的研究算法的收敛性,文献【1 7 提出确定离散时间 ( d e t e r m i n i s t i cd i s c r e t et i m e ,d d t ) 系统,d d t 系统不要求算法的学习率收敛到零,而且 可以保持算法的离散特征,现在被广泛应用举个例子,o j a 提出一种p c a 算法【1 8 】: w ( k + 1 ) = w ( 七) + r l y ( k ) x ( k ) - y ( k ) w ( k ) 】, j c ( 七) 是神经元输入,y ( 七) 表示神经元的输出,r 0 是学习率,w ( 七) 是权值向量为了研 究算法的收敛性,一个d c t 系统为: d w - ( t 一) :r w o ) 一w o ) 7 r w ( f ) , 而一个d d t 系统则为: w ( 七+ 1 ) = w ( 七) + 札r w ( 七) 一w ( 尼) 7 r w ( 七) w ( 七) , 其中,r = e x ( k ) x r ( 七) 】是 x ( 七) ix ( 七) r ”( 七= o ,1 ,2 ,) 的协方差矩阵 根据d d t 系统,人们提出了各种m c a 和p c a 算法因为本文主要工作都是围绕 着m c a 学习算法的,所以我们只是简单罗列出几种主要的m c a 算法: ( 1 ) f e n g sm c a 算法:w ( 七+ 1 ) = ,( 七) 一r l ( w r ( j j ) w ( 七) y ( 尼) x ( 七) 一w ( 尼) ) ( 2 ) m c a e 删翱鞑一驴w 一器似炉舒) ( 3 ) l u om c a 学习算法:w ( k + 1 ) = w ( 七) 一r l ( w r ( 七) w ( 后) y ( 七) x ( 后) 一y 2 ( 七) w ( 七) ) ( 4 ) 响m c 膊踔法w ( m ) - 以炉州的一篇j ( 5 ) o j a + m c a 学习算法:w ( k + 1 ) = w ( k ) - r l y ( k ) x ( k ) - ( y 2 ( 七) + 1 0 以删2 ) w ( 七) 】 ( 6 ) 叫埘聪法w ( ) _ w ( 妒似的卜一篱j ( 7 ) d o u g l a s m c a 算法:w ( k + 1 ) = w ( 后) 一7 7 ( w r ( 七) w ( 七) ) 2 y ( 七) x ( 七) 一y 2 ( 七) w ( 七) 删e x m c a 靴一时驴以妒刁珊卜箫j ( 9 ) o j a x um c a 学习算法:w ( 七+ 1 ) = w ( k ) - r l y ( k ) x ( k ) - y ( k ) w ( k ) 】 这些算法都是通过自适应的调整权值来收敛到最小主元这些算法可以应用的一个 非常重要的前提就是要收敛,所以收敛性研究就变得非常重要,但是很多算法是不收敛 大连理工大学硕七学位论文 的例如o j a - x um c a 学习算法:w ( k + 1 ) = w ( 七) 一,7 ) ,( 七) x ( 七) 一y ( 七) w ( 足) 】,就是不收敛 的以后我们会进行讨论 1 3m o a 和p o a 集成 从直观上来看,最大主元代表了输入数据最大方差的方向,而最小主元代表了输入 数据的最小方差的方向但是因为p c a 算法比较容易获得稳定的结果,而m c a 算法往 往不稳定,所以一般情况下,为了使得由p c a 算法转化来的m c a 算法稳定,通常需要 附加一些条件,比如说,o j a x up c a 学习算法:w ( k + 1 ) = w ( | j ) + 7 7 y ( 尼) k ( 七) 一y ( 七) w ( 尼) 是 稳定的,但是o j a - x um c a 学习算法:w ( k + 1 ) = 以后) 一7 7 ) ,( 尼) b ( 七) 一y ( 尼) w ( 七) 】却不稳定, 也就是说不收敛 为了更好地进行集成运算,人们希望一个网络能以简单的方式既能实现p c a 又能 实现m c a w a n g 和曲u n e n 【2 4 】通过双梯度方法首先研究了这种网络,其中包含一个特 定的参数,而算法能稳定运行的前提是该特定参数必须大于输入信号的关联矩阵的最小 特征值但是因为最小特征值往往是不可知的,所以这种方法在实际应用中有很大的不 便c h e n 2 5 】等人推广了x u t 2 6 墅j 算法,使之既能够完成p c a 又能够完成m c a ,具有很好 的数值性能 能不能进行集成的一个关键是目标函数是不是既有最大值又有最小值加权信息量 准则是一个很好的p c a 准则,但不能用于m c a ,而自适应次分量提取算法同样不能应 用于p c a 1 4i q l 0 a 神经网络应用 作为一种重要的信号处理和数据分析工具,最小主元分析被广泛地应用到曲线曲 面拟合、噪声提取、总体最小二乘等众多工程领域 1 m c a 神经网络在提取噪声子空间的应用 在实际数据观测中,由于噪声的存在,观测结果不可避免地受到影响,导致实际观 测到的数据是真实信号和噪声信号的叠加在信号处理中,从观测数据中提取噪声信号 和真实信号是非常重要的m c a 可以通过对张成噪声子空间的基向量组进行提取,来达 到从观测信号中提取噪声子空间的效果 令p ( 尼) = e 。( 后) ,e 2 ( 七) ,e 。( 七) 】r 和s ( 尼) = h ( 七) ,j 2 ( 七) ,s 。( 七) 】7 分别代表在第k 次 采样时的噪声数据向量和信号数据向量,这样实际得到的数据向量为 x ( k ) = s ( 七) + e ( k ) = 【x i ( 七) ,x 2 ( 七) ,x n ( 七) r ,k = o ,1 , 为了简化问题,我们做出如下假设: m c a 算法的改进及收敛性分析 ( 1 ) 信号数据与噪声数据是统计不相关的; ( 2 ) 噪声数据是零均值的; ( 3 ) 噪声数据的各个分量e l ( 七) 是统计不相关的; ( 4 ) 噪声数据的各个分量p ,( 七) 具有相同的方差盯2 ; 根据假设( 1 ) ,数据向量的关联矩阵为 r = e x ( k ) x r ( 七) ) = e 【s ( 七) + p ( 七) 】【s ( 尼) + e ( 尼) 】, = e s ( k ) s r ( 七) ) + e p ( 七) p7 ( 七) ) ,( 1 8 ) 由假设( 2 ) - ( 4 ) 得,r = 疋+ r r2 i = e s ( k ) s r ( 七) + 仃2 i ( 1 9 ) 设关联矩阵r s = e s ( k ) s r ( 七) ) 的秩为r ( r 0 是r 的,个非零特征值,v ,是与特征值 对应的单位特征向量 由( 1 9 ) 和( 1 1 0 ) ,关联矩阵r 可以用特征值表示为: 尺= 饥v f 7 + 仃2 , j = i = 兄以,7 + 盯2 ,儿r f = li = l = ( 五f 竹2 ) y ,v j r + 盯2 v f v f r i = 1 i = r + l 显然,在信噪比足够大的时候,允,+ 盯2 比盯2 大很多我们将关联矩阵r 的最大的, 个特征值力,+ 盯2 所对应的特征向量v ,成为最大主元,由最大主元张成的子空间 s p a n v i ,v 2 ,v r ) 称为最大子空间或者信号子空间 另外,将观测信号的关联矩阵r 的最小的万一,重特征值盯2 所对应的特征向量 v 。( 汪,+ 1 ,+ 2 ,刀) 称为最小主元,由最小主元张成的子空间s p a n v 川,一+ 2 ,k ) 成 为最小子空间或者噪声子空间 这种m c a 神经网络算法不仅可以提取单个的最小主元,也可以推广到对多个最小 主元或者最小子空间的提取 大连璎工大学硕士学位论文 2 m c a 神经网络在曲线曲面拟合中应用 我们举一个最简单的例子,对于2 维空间中的一组数据点 d = i x ( i ) ,夕( 翊r ,江l ,2 ,n ,我们需要焉直线y = k x + b ,使褥这些数据点与该悫线之 间的距离最小化 一种最常用的拟合方法是使用最小二乘法该方法是通过寻找一条拟合直线使得数 据点到该拟合直线的垂直距离的平方和最小化在最小二乘法拟合中,需要最小化的代 价函数为 n = y ( i ) - k x ( i ) - b 2 悔l 焉最小二乘法的实质是:寻找一组参数未。,使得 瓦( 七。,d ) = k m i a n - y ( i ) 一缸( f ) “】2 ) 采用最小二乘法求拟合直线基于如下假设:所有数据点的纵坐标y ( f ) 存在观测误差, 两其横坐标x ( f ) 是精确的健在许多实际应用中,观测数据的横纵坐标可能都存在误差 于是,最小二乘法就有了其局限性而总体最小二乘法可以解决这个问题,它考虑到数 据点的各个分量的观测都可能存在误差,比最小二乘法拟合有更高的拟合精度总体最 小二乘法拟合与最小二乘泫拟合的区别在予对数据点到拟合直线的距离的计算方式不 同 设拟合直线的方程为 a l x + a 2 y 。0 为了简化问题,我们假设拟合直线通过原点在总体最小:乘法拟合中,数据点 k ( f ) ,y ( f ) 】r 刘拟合童线的距离经过简单的计算可以得到: 乎( i ) = 设向量x ( f ) = 胁( f ) ,y ( f ) 】r ( 扛1 ,2 ,) 表示空间中的数据点,向量a = 嘲,口2 】r 表示 拟合直线的法向量在总体最 b - - 乘法拟合问题中,需要被最小化的代价函数为 f ,n 一i q x ( f ) + 口2 y ( 圳2 聪由。善瞥 芒a r x ( o x r ( o a = i l l 矿 矗n m c a 算法的改进及收敛性分析 :a r r a 么。彳 其中,r 2 专善x ( f ) x 7 1 ( f ) 是数据向量x ( f ) 的关联矩阵;i 蹴r a y l e i g h 商的基本性质,可 知,若a 0 ,均有 等珥彳。彳 “ 其中,以是关联矩阵r 是最小特征值并且当r a = 磊么时, a r r a 刁了2 厶 不难看出,当拟合直线a 。x + a :y - - o 的法向量a 为关联矩阵r 的最小特征值对应的 特征向量时,代价函数( 彳) 取最小值厶 根据以上分析,m c a 神经网络可以解决总体最小二乘法问题,从而可以解决曲线 曲面拟合问题 1 5 本文的主要工作 我们选取了o j a x um c a 学习算法和o j a nm c a 学习算法进行研究 对于前一种算法,因为算法不收敛,而现有的改进算法【2 1 1 可以保证其收敛性,并且 得到了改进算法收敛的充分必要条件但是这种改进算法的计算量很大,并且收敛速度 慢,收敛精度不高而我们在现有改进算法上做了进一步改进算法,通过数值试验结果 可以看出,算法的收敛速度和收敛精度有了比较大的改善,我们将在第2 章给予详细介 绍 对于后一种算法,现有的成果已经证明了其收敛性但是其对学习率比较严格,要 求其收敛的充分条件:r 0 是学习率但是由文献 9 知道,这种算法不收敛 由参考文献 1 2 1 ,我们可以举个特铡来证明其发散性我们假定输入必单维的,著 且 x ( 七) 暮l ,k = o ,1 ,2 , ,这样y ( k ) = w ( 尼) r x ( 七) = w ( 七) ,k = o ,1 ,2 ,这样算法就变为 w ( k + 1 ) = 以惫) 1 + 呔扩( 露) 一1 ) ( 2 2 下面我们分两种情况来分析其发散情况 情形l 假设以0 1 由( 2 2 ) 矢口,w ( k + 1 ) w ( 七) w ( o ) 1 ,故l i mw ( 七) = 0 0 情形2 假设0 吠o ) 1 由( 2 2 ) 知,0 w ( k + 1 ) w ( 七) 毛 ,因为r = e x ( k ) x 7 嵇) 】是一个对称正半定矩阵,新以存在掣中的正交基 v fli = 1 ,2 ,牌 ,并且使得v ,是特征值 的单位特征向量 | i ) 可以表示为: w ( 七) = z ,( k ) v j ,k = 0 , 1 州2 一 ( 2 4 ) 乙( 七) 是某些常数,故,w ( 七) 7 r w ( 七) = z ;( 尼) ,因为r 是对称矩阵,根据r a y l e i g h 商的 有关性癀,得到 下w r r w t ( 2 5 ) 将( 2 4 ) 带入( 2 3 ) ,得到: z ,= z ,( 七) 【l 一露五+ r w 7 1 ( 七) 足w ( 七) 】,f = l ,2 ,糟 气 “卜向 q 石 但是文献【2 1 】中的算法计算壁大并且精度不高,我们在此基础上提出两种进一步改 进的算法,并且通过大量的数值试验来比较算法的优劣 2 2 固定步长的跳步归一化0 j a - x um c a 学习算法 2 。2 。 算法简介 我们发现每一步进行归一化,计算量太大,而且与真正的最小特征值之间的误差较 大,掰戮我们采取跳步爹曩一化的方法来减少计算量和误差,通过大量的数值试验,我们 对跳步归一化的步数进行了归纳根据d d t 系统,我们的算法为: s t e p l :给定初始权篷联o ) ,学 - 3 率u ( o r l ,p = o ,l ,;j = o ,1 ,m - 1 ( 2 9 ) i i ) l 以p 珑十歹+ 1 ) l l 以p 搬+ 歹) 黔p = 0 ,1 ,;j = o ,1 ,册一2 ( 2 。l o ) i i i ) 序列 w ( k ) l k = 0 , 1 , 有界 证明i ) 一i i ) 根据0 。8 ) 知 l l w ( p 卅) 0 2 = z ? ( p 柳) + + z ;( p 掰) = l ,p = o ,1 , ( 2 i 1 ) 记 a w ( k ) = - r rw ( k ) - w r ( 七) rw ( 七) w ( 尼) 】, ( 2 1 2 ) 则 w r ( k ) a w ( k ) = 叩w r ( k ) r w ( k ) ( 1w ( k ) 1 1 2 一1 1 ( 2 1 3 ) 由于r 为对称半正定矩阵,放 w 2 ( 七) 犬w ( 七) 0 ( 2 1 4 ) 壶( 2 7 ) ,( 2 1 3 ) ,g 1 4 ) 有 11w ( k + 1 ) 1 1 2 渊1 1w ( k ) l l = + 2 , 7 w 7 ( k ) r w ( k ) ( 1 1w ( k ) u 2 1 ) + i ia w ( k ) l l 2 ( 2 1 5 ) 固定p = 0 ,1 ,在( 1 9 ) 式依次取素= p m + j ,j = 0 ,l ,m 一2 ,结合( 2 。l1 ) ,( 2 1 4 ) 知,i ) ,i i ) 成立 i i i ) 将( 2 4 ) 带入g 7 ) ,得 z ,( 素+ 1 ) = z ,( k ) 1 - r 2 , + r 乃z 弦2 ) 】 ( 2 1 6 ) 根据( 2 1 6 ) ,有 | 毛( 朋+ 1 ) h 聋( 册) 忙节五+ 移窆乃z ;( p 撇) | i 乐朋) l ( 1 + 弦+ 私。窆弓( 删) ) ij = llj = l 1 + 2 警五1 + 聊五一f , m c a 算法的改进及收敛性分析 i 五c 朋均i = 聊州i n c p 聊州i r ( 1 + r 2 。+ n r 矿, r ( f 2 + n r 2 。r 2 ) = 丁4 , i 互( p m + 3 ) i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论