




已阅读5页,还剩70页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于敏感性理论的madaline网络学习算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于“敏感性理论”的m a d a l i n e 网络学习算法。是一种针对姒d a l i n e 网络( 一种离敬 型的二值前向网络) 的有监督的学习算法目前,对于二值前向网络,还没有一种很好的训 练学习算法 本文以。最小扰动”原则作为算法设计思想,从“i 帆d a l i n e 敏感性”的角度来寻找体 现,贯彻这种思想的方法和途径,并成功地设计出了一种“基于敏感性理论的h a u a l i n e 学 习算法”另外,文中也以一定的篇幅分析了新算法的失败模式。局部震荡”现象,并 进一步阐述了跳出“局部震荡”的思想及其算法实现最后。通过与职的一组对比模拟 试验,以及“i 1 0 n k sp r o b l i 丑i ”的模拟试验,验证并展示了新算法的良好的学习性能和泛 化性能,并分析和揭示了新算法所体现出来的其它一些良好性能表现,如算法学习性能对隐 层结点数目表现出高灵敏度以及算法的泛化性能相对于网络结构呈现出良好的稳定性。 可以说,新算法在二值前向网络上比较成功地实现了感知机学习规则的推广突破了这 一业界长期以来未能很好解决韵难题。 关键词la d a l i n e 、m a d a l i n e ,- - f f f f 向网络、敏感性、学习算法 a b s t r a c t t h el e a r n i n ga l g o r i t h mb a s e do nt h es e n s i t i v i t y - t h e o r yf o rm a d a l i n r ei t e u r a ln e t w o r k s , w h i c hi so n eo f m u l t i - l a y e rp e r c e p t i o n sn e u r a ln e t w o r k s , i sas u p e r v i s e dl e a r n i n ga l g o r i t h m u n t i l n o w , t h e r ei sn os a t i s f a c t o r yt r a i n i n ga l g o r i t h mf o rt h ed i s c r e t em u l t i - l a y e rp f l v e p t i o nn e u r a l l 坞q w o r k s t h ep r i n c i p l eo fm i n i m a ld i s t u r b a n i nt h ep a p e ri sl o o k e d0 1 1a saf u n d a m e n t a li d e at o d e s i g n m ga l g o r i t h m i nt h e 弘i p c r am e a l l st op e r f o r mt h ep r i n c i p l es u c c e s s f u l l yf o u n da n da a l g o r i t h mb a s e d 0 nt h es e n s i t i v i t yt h e o r yo f m a d a l i l q ef o r v l a g l a l i n en 髓l r a in m w o r k sh a sb e e n w o r k e do u t i na d d i t i o n , “l o c a lr e c y c l e p h e n o m e n o n , a saf a i l u r em o d eo f t h en e wa l g o r i t h m , i s a n a l y z e di nt h ep a p e r t h ew a yt ob r e a kt h es i t u a t i o ni sf o u n da n dt h ea l g o r i t h mc a l l e da s “d 妇c i l r h 柚a l g o r i t h m i sf i g u r e do u tf i n a l l y , t h ef l e wa l g o f i t l u ns h o w sb e t t e r 肼:一钿锄a n c ei i l l 啪i n ga n dg e n e r a l i z a t i o nt h r o u g ht h es i m u l a t i o ne x p e r i m e n t si nc o m p a r i s o nw i t hm r i ia n dt h e m o n k sp r o b l e m o t h e rg o o dp e r f o r m a n c eo ft h ea l g o r i t h mi sa l s oa n a l y z e da n dr e v e a l e di nt h e p a p e r , s u c ha sl e a n i n gc a p a b i i 姆h a v i n gs t r o n gs e n s i t i v i t yt ot h en u m b e ro fh i d d e n l a y e rn e t l r o l $ a n dg e n e r a l i z a t i o nc a p a b i l i t yh a v i n gs t a b i l i t yt on e t w o r k s s t r u c t u r e t ol a r g ee x t e n t , t h en e wa l g o r i t h mh a sa c h i e v e dt h eg e n e r a l i z i t o no ft h et r a i n i n gr u l e so f p e r c e p t i o n si nt h ed i s c r e t em u l t i - l a y e rp e r c e p t i o nn e u r a ln e t w o r k ss u c e s s f u l l y i t h a ss o l v e dt h e d i 塌c u i t i 嚣i nt h en e u r a ln e t w o r k sl i e i d sw e l l k e y w o r d s :a d a l i n e 、m a d a l i n e 、b i n a r y f c a d f o r w a r dn e u r a ln e t w o r k s 、s e n s i t i v i t y 、l e a n i n g a l g o r i t h m 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。如不实,本人负全部责任。 论文作者( 签名) : 学位论文使用授权说明 年月 日 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权河 海大学研究生院办理。 论文作者( 签名) ;年 月日 第l 章绪论 第1 章绪论 人工神经网络是一种具有应用广泛的,可行的学习方法,适用于从样本中学习实值、离 散值和向量值函数人工神经两络具有抗嗓音能力,已被应用于智能控制、模式识别、信号 处理、计算机视觉等诸多领域 1 1 人工神经网络概述 1 1 1 人工神经网络概念 人工神经网络是人们受生物神经系统的启发而对生物神经系统的一种模拟,确切地说。 是对人类大脑结构和机理的一定程度的模拟 研究表明,人类智能来自,于自身大脑,人类通过大脑进行思维,展开联想、实施判断和 推理。长期以来人类致力于自身大脑的内部结构和功能的研究和探讨,并力求建立模仿人 类大脑的计算机系统。就目前而吉。对于人类大脑的内部工作机理还不很清楚。但对大脑的 结构已有所了解大体上,人类神经系统由大量紧密连接的神经元组成,其中的每个神经元 与众多神经元相连接,接受某些神经元的输出。并把自己的输出传输给另外的神经元,在这 些神经元网络中备神经元之间的连接的强弱随外部的激励信号作自适应变化,而每个神经元 又随着其所接收盼多个激励信号豹综合大小面呈现兴奋或抑制状态。研究进一步表明,大脑 的学习过程就是神经元之间连接强度随外部激励信息作白适应变化调整的过程。而大脑对各 种信息的最终处理结果则由神经元的状态来体现 类似地,作为对生理神经网络模拟的人工神经罔络( 尽管这种模拟目前还处在极其低级 的水平) 也是由许多人工神经元连接而成。各连接神经元之间有一个连接权来体现其连接强 度,每个神经元接受多个输入值( 可能是其它神经元的输出值) ,产生一个输出 0 关于网络稳健性分析问题,b o s e 和g a r g a ( 1 9 9 2 ) ”1 将基于v o d 的方法用于n 维奇偶 校验问题的研究上,获得了网络规模与网络稳健性的些认识:网络的规模越大,网络的稳 6 第1 章绪论 健性就越好;网络的规模下降所导致的是网络稳健性能的急速降低。张军英,许进等人m 用通过构建超立方体的稳健超平面系的几何方法。得出了如何构建实现b o o l e 函数的稳健或 最稳健( 即稳健性能达到最大值1 2 ) 二值前向网络的研究成果 1 2 3 二值前向网络的训练 目前,还没有一个好的训练算法用于对实现二进输入输出函数的二值前向网络的训练 ( k i m 和p a r k 。1 9 9 5 ) 嘲 离散的二值输入输出函数作为一种连续型函数的一种特倒,同样可以利用连续型前向网 络学习算法,即传统的反向传播算法即b p 算法来训练二值训练样本然后b p 算法依然存在 着以下几方面的严重不足: i 、网络训练前,网络结构必须预先给定然后对于特定的非线性分类问题,需要多少 隐结点数依然是个不解的难题“1 。所以b p 算法本身无法解决或帮助解决网络结构问题。 2 、b p 算法不能保证训练的收敛性,即训练有可能陷入局部最小,从而难以训练出满足 性能要求的网络。陷入局部最下的现象对于高维的二值训练样本尤其突出,这给用b p 算法 来进行实验研究造成很大困难。 3 ,b p 算法训练速度也可能非常的慢 4 ,b p 算法不是为二值前向网络设计的算法,导致其网络输出需转化离散的二值,同时 其硬件实现也复杂许多。 因此,用b p 算法来训练二值训练样本,显然不是一种理想的选择。 还有一些专门为二值前向网络设计的训练算法主要有两大类。 1 、几何构造学习算法这类算法的共性是基于输入模式的几何特性,通过构造分类超 平面系来获得网络参数。这些参数包括分类超平面个数( 对应于单隐层网络的隐结点数) 和 分类超平面( 对应于网络的连接权和阀值) 。另外,几何学习方法具有保证收敛和自动确定 隐结点数目的特点。且在二值情况下的训练速度明显优于b p 算法,并且所训练出的网络的 连接权和阀值皆为整数,这有利于大规模集成电路实现。属于这一类的四种典型算法是; t i l i n ga l g o r i t h m ( m e z a r d 和n a d a l 。1 9 9 2 ) t e l tu p s t a r ta l g o r i t h m ( f r e n ,1 9 9 0 ) ( i l l , r e g u l a rp a r t i t i o n i n ga l g o r i t h m ( k e i b e k 等,1 9 9 2 tr u j 彻和m a r c h a n d 。1 9 8 9 ) 4 “和 i r r e g u l a rp a r t i t i o n i n ga l g o r i t h m ( m a r c h a n d ,g o l l e a 和r u j a n ,1 9 9 0 ) 1 1 4 。此外,由b o s e 和g a r g a ( 1 9 9 3 ) “闱所提出的网络训练方法( v o r o n i o d i a g r a m 或v o d ) 以及张军英,许进等 7 第1 章绪论 提出的稳健二值前向网络的几何学习算法也属于这一类 2 、训练学习算法所谓训练学习算法。就是说算法的设计初衷和目的就是为了用来有 效地训练一给定结构的二值前向网络,使网络能最终实现对训练样本的正确分类。目前,这 一类算法,还未能取得像b p 算法对于连续型前向网络( 网络中神经元的传输函数为对数- s 型函数) 那样的成功,并且相关这类算法研究论文也还相当少。由w i d r o w 和w i n t e r ( 1 9 8 8 ) “”提出的m r i i ( w a d a l i n er u l ei i ) 算法就属于这一类。m r i i 算法本身在一定程度上取得 了较好的成功,并表现出了一些独特的优点:一是网络的泛化性能与学习性能呈现正相关关 系,二是网络的泛化性能对网络结构的大小比较不敏感这些都是以往其它学习算法所难以 体现的特性但1 4 r i i 在网络训练学习方面表现的还不很理想网络的收敛率以及泛化率都 还不高,离实际应用还有相当的距离。有关m r i i 算法的更详细情况将在后面章节中单独介 绍。本文就是在借鉴脓i i 算法的“最小扰动原则”的思想上,从删i ) a l i n e 网络敏感性的角 度来构建一种基于敏感性理论的新的二值前向网络的学习算法。 1 3 本文的研究内容及成果 基于目前有关i & a d a l i n e 敏感性性研究理论,本文从“姒n l i n e ”敏感性角度成功地设 计了一套针对k k i ) a l i n e 网络的学习算法,它是一种针对w a d a l i n e 网络的有监督的学习算法。 此前,胍i 、躲也是针对w a d a l i n e 的有监督的学习算法,并取得了一定的成果。但 在网络的收敛性能方面,仍然很不理想 新学习算法引入了目前各种前向神经网络有监督学习算法的共同指导思想一“最小扰 动”思想“”,并试图从m a d a l i n e 敏感性角度来设计一套体现和贯彻“最小扰动”思想的学 习规则,进而达到引导和控制_ i a d a l i n e 网络学习的目的 敏感性反映的是网络或网络结点随自身参数的改变而对自身输入模式点的扰动程度,它 是对整个输入空间中,输入模式点分类发生改变程度的一种度量。最小扰动”思想是指网 络结点的学习在有利于当前训练样本学习的同时,对其他训练样本的模式分类扰动尽可能 小。从敏感性观点看,就是指在网络结点的学习( 即调整其权参数值) 的同时,使其所导致 的网络输入空间中其它样本输入点受扰动程度( 即的模式分类发生改变的情况) 尽可能小 简言之,就是因学习导致的网络敏感性尽可能小。基于此,新学习算法从“结点权参数的调 整规则的制定”到“学习结点的组织、控制”的整个设计过程中,充分利用“结点或网络敏 感性”作为尺度,来体现和贯彻“最小扰动”思想。如结点权值修改的幅度、结点学习的次 8 第1 章绪论 数、结点学习顺利的安捧等方面都充分体现了这一设计理念大量模拟实验验证了本文所提 出的算法设计理念是合理的、算法设计是成功的且切实可行的 文中通过一组对比实验。相对于职,新学习算法表现了其优越的学习能力,同时保 持了在胍中所展现的良好的网络泛化性能。且高于m i i i 的泛化性能。另外,实验表明新 学习算法还呈现出一些非常有益而重要的性能特征:( 1 ) 新学习算法学习性能对网络隐层结 点数具有极高的灵敏性。当网络隐含层结点个数多于问题模式分类所需的二进制位数( 这是 问题求解所必需的最少隐层结点数) 时即便是多于一个,如果问题有解,则网络的学习能 力具有显著的提升,实验结果表明般都能达到9 成以上( 2 ) 新学习算法训练下的网络, 网络泛化性能对网络结构的相当的稳定性一般而育,网络的泛化性能会随着网络隐层结构 的增大而呈现下降趋势显然,我们总希望这种趋势越不明显越好。 本文的另一个重要内容是对新学习算法下无法达到收敛的同络进行了深入地分析,揭示 了新学习算法下网络陷入“局部震荡”的现象并分析了导致的原因 网络陷入“局部震荡”而无法收敛,本质上是网络提供了线性不可分的隐含层输出模式, 且这种线性不可分横式,靠算法本身已难予改变。为此,文中进一步提出了改普算法,即对 陷入“局部震荡”的网络隐层结点施加一定范围的扰动,让网络在新权基点上继续学习以达 到跳出“局部震荡”的僵局这里,是依据m a d a l i n e 敏感性来控制这种扰动( 如哪个或哪 些结点 | 尊_ 耍扰动,扰动幅度多少等) ,使得网络的后继学习能最大限度地保持和继承网络业 已学习获得的性能。实验表明,基于敏感性的扰动思想下构建的扰动算法,是可行的,也是 合理的。 1 4 论文组织结构 本文主要分以下八个章节: 第1 章绪论简要回顾了人工神经网络的发展历史、现状及其应用;特别介绍了作为 离散型的前向神经网络的二进前向网络的发展和研究现状进而引出了本文的研究动机和目 的。 第2 章m a d a l i n e 网络模型、特征及其相关符号约定着重介绍了m a d a l i n e 网络 模型及其特征。最后就本文用到符号作出说明 第3 章基于半超球面模型的m a d a l i n e 敏感性理论主要介绍了$ 协n d f o r d 大学 w m t e r 博士从半超球面模型对a d a l i n e 神经元在权参数或输入参数扰动下敏感性、 9 第1 章绪论 m a d a l i n e 网络的敏感性的研究理论a d a l l n e 以及m a d a l i n e 敏感性是本文论题的 重要理论基础。 第4 章m r i i 学习算法。主要介绍w i n t e r 博士针对m a d a l l n e 网络设计的一套学习 算法。并对其优点及不足作出评价和分析 第5 章基于“敏感性理论”的m a d a l l n e 学习算法这是本文的最重要的章节,在 该章提出了算法设计的理念、详细论述了算法设计细则 第6 章新学习算法验证实验。通过几组与m r i i 算法的对比实验以及一个用m o n k s p r o b l e m 数据集( 来自u c i 专门用来比较机器学习算法的公共数据) 来训练网络的模拟 实验来验证新学习算法性能表现。 第7 章新学习算法的失败模式及其改磐算法。本章详细分析了新学习算法未能收敛的 现象“局部震荡”,并着重阐述了解决思路及其改譬算法( 即扰动算法) 的设计最后 通过几组模拟实验验证了扰动算法的正确性和可行性。 第8 章总结与展望。总结了本文的主要工作、研究成果及其意义;并简要提出了该论 题的进一步研究的工作及相关课题。 第2 章m a d a l i n e 网络模型、特征及其相关符号约定 第2 章m a d a l i n e 网络模型、特征及其相关符号约定 2 1i p d ) a l i i q e 神经网络模型 神经元是生物神经系统中的信息处理单元,作为模拟生物神经系统的人工神经网络,有 必要研究神经元的内部结构和工作机理,即如何感受外界的各种刺激信号,并产生和传递相 应的神经脉冲信号,在此基础上,建立模拟神经细胞的人工神经元的数学模型。 2 1 1 神经元的数理模型 目前人工神经元模型主要由输入信号序列( 即输入向量) 、综合各输入信号的累加器 、传输函数( ) 以及一个输出y 所构成的元件,如图2 1 所示 图2 - 1 神经元基本模型 y 依据神经元的状态是否考虑时间特性,有静态神经元模型和动态神经元模型之分;依输 出类型以及神经元内部状态的关系,又可分为如下几种模型。 1 、离散神经元模型 这是一种静态神经元模型。该类神经元在神经元的输入总和达到某- - f - i 限值( 又称为阀 值) 以上时,产生一个正电位。并作非衰减的等幅传递其他神经元反之,如果输入总和低 于门限值时,根据选择的传输函数的不同,或产生一个负电位并作非衰减的等幅传递其他神 经元,或不能引起任何可见的反应。其中的传输函数通常为硬极限函数或对称硬极限函数。 分别定义如下t 神经元的传输函数硬极限函数与输入,输出的关系: y = 厂c 甜,= ( 喜( 吩- + ) ) = : :三: ,= i l v“、v 神经元的传输函数对称硬极限函数与输入、输出的关系: 第2 章m a d a l i n e 网络模型、特征及其相关符号约定 y = 厂c 甜,= 厂 套( w ,_ + ) ) = :三: k 产i l “、” 式中,坼为神经元第_ ,个连接权,) ,为神经元f 的输出,为神经元的阀值,甜为神 经元传输函数的输入 圈2 - 2 ( a ) ,c o ) 是分别以硬极限函数,对称硬极限函数为传输函数的离散型神经元模型结 构示意图: ( a ) 图2 - 2 离散型神经元模型结构 ( a ) 硬极限型;( b ) 对称硬极限型 2 、连续神经元模型 这也是一种静态神经元模型。该类神经元的传输函数为连续型函数。通常有线性函数、 双曲正切s 形函数、对数s 形函数等。其中对数s 形函数( 又称为软限幅函数、软极限函数) 用得比较普遍,其定义如下: 神经元的传输函数对数s 形函数与输入、输出的关系: y 2 m ) 2 鬲拓 图2 - 3 是以对数s 形函数为传输函数的连续型神经元模型结构示意图: 图2 - 3 传输函数为软限幅函数的连续型神经元模型结构 3 徽差分神经元模型 苎! 主坚垒里些望竖旦丝堡型:壁堑墨薹塑鲞丝曼垫塞, 这是一种动态神经元它将神经元状态随时间变化的特性考虑进来,并将时间特性异l 徽 差分来表示。这类神经元所采用的方程式各异,具有代表性的有: 其结构如图2 - 4 所示; 害;一导+ 窆坳一+ w o 石一i 刍坳一+ w 。 j ,= 确) = 瓦而1 图纠徽,差分神经元模型结构 4 、概率神经元模型 概率神经元模型依靠统计学的概念和方法。其动作采用了以概率描述的状态变化规律。 如,被称为玻尔兹曼机的神经网络模型就是采用如下方程: p ( j ,= 1 ) = 雨而1 式中,p 为神经元f 状态更新时新状态以为l 的概率。 2 1 2 人工神经网络模型 将若干个神经元按照某种方式组合起来,并将神经元之间的相互作用关系模型化这就构 成了神经网络模型依据其各神经元之间的组合方式以及相互作用关系,可构成多种不同的 神经网络模型通常可分为如下两种: l 、分层两络模型 这种模型将网络中的神经元分成若干层,然后由各层级连而成,网络输入样本经过第一 层进入网络,通过中间层进行变换,到达最后一层( 输出层) 输出,至此完成网络一次动作。 分层网络模型依据其连接方式的不同又可以进一步分为如下几类: ( 1 ) 简单分层网络模型又称前向( 馈) 网络,多层感知机网络如图2 - 5 ( 8 ) 所示 ( 2 ) 层内互联的分层网络模型。如图2 - 5 ( b ) 。 3 第2 章m a d a l i n e 网络模型、特征及其相关符号约定 ( 3 ) 输出反馈的分层网络模型如图2 - 5 ( c ) 。 2 、互连同络模型 这是一种网络中任意两个神经元之问都相互连接的网络模型如图2 - 5 ( d ) 所示。网络 的动作采用动态分析方程,依据网络结构和神经元特性进行网络能量最小化计算,使网络由 一初始状态到达一稳定状态。典型的h o p f i e l d 网络就属于这种模型 如果将多个具有一定特定子功能的互连网络作为子网络,再将这些子网络互连起来可以 构成更为复杂的互连网络 如 - 加 ) o ( a ) 撼裂 椭) ( c ) 图2 - 5 神经网络模型 ( a ) 简单分层模型;( b ) 层内互联的分层网络模型; ( c ) 输出反馈的分层网络模型;( d ) 互连网络模型 2 1 3m a d a l n e 网络模型 1 9 6 0 年由美国学者w i d r o w 和h o f f 提出了自适应线性神经元a d a l i n e ( a d a p t i v el i n e a r e l e m e n t ) ,这是一种以对称硬极限为激活函数的离散型神经元。m a d a l i n e ( m u l t i - a d a l i n e s ) 神经网络就是由多个a d a l i n e 神经元组成一种神经网络模型。 姒d a l i n e 是一种前向网络。该类网络的信息总是单向流动的( 从前层流向后层) ,每一 层有一个或多个神经元;相邻层仅相邻层的结点相连接且是全连接,即相邻两层的每两个结 点都有连接,除此之外再无别的结点连接。网络分输入层、隐含层和输出层三层。首层为网 1 4 势 习,孵 第2 章m a d a l i n e 网络模型、特征及其相关符号约定 络输入层,该层结点为样本输入分量,首层与网络第一层全连接,实现样本向网络输入;最 后一层为网络输出层。实现网络的输出;输入层与输出层之闯的各层为网络隐含层网络前 层输出即为后层输入,正如图2 - 5 ( 8 ) 所示的那样 w a d a l i n e 是种二值离散型网络该类网络中各神经元均为离散特性神经元。网络的 输入输出为二值在i n d a l i n e 网络中二值是指( - 1 1 ) 所以,w a d a l i n e 网络是一种二值( - 1 1 ) 的、离散的、前向神经网络其神经元( a d a l i n e ) 模型、神经元激励函数、网络模型分别如图2 咱、式2 1 、图2 - 7 所示 图2 - 6 a d 丑l i n e 神经元模型 ,叫咖,( 毫( w 力饥) = _ l l 乃f o ,r u 。o c 2 m - 1 1 - 1 1 1 1 输入层隐含层 输出层 圈2 - 7m d a l i n b 神经网络( 单隐层) 结构 ,1 1 1 1 对于前向网络所需的隐结点数日,目前的研究表明,用单跨层的网络就能够满意地拟合 训练样本中的数据旧所以我们约定,本文所讨论的m a d a l i n e 网络皆为单隐层 m a d a l i n e 网络。若m a d a l i n e 网络具有露个输入、丙个隐层神经元、m 个输出,则记 为y 一h - m 1 5 第2 章m a d a l i n e 网络模型、特征及其相关符号约定 2 2m a d a l i n e 网络特征 2 2 1m a d a l i n e 网络的样本空问 由于m a d a l i n e 网络输入输出分量的二值( 一1 1 ) 特性,一个n 维输入样本即可以看 作一个n 元b o o l e 函效的自变量取值( 其中一1 对应o ) ,也可以看作以坐标原点为重心,边 长为2 的n 维超立方体的一个顶点也就是说,w a d a l i n e 网络的输入,输出空间都是相应 维数超立方体的顶点集合。 超立方体具有良好的几何对称性:任一个顶点( 而,x 2 ,矗) 中任意一个或多个分量作 变换新= 一而,o = 1 ,2 ,功后依然是超立方体上的一个顶点这种完美的结构对称性对简 化问题的分析起到积极有效的作用。 2 2 2g a d a l i n e 网络的分类能力 w a d a l i n e 网络主要用于b o o l e 函数的实现、模式识别与模式分类。其中用于模式分类 方面的作用尤其突出下面就其分类方面的表现作一个粗略的介绍 1 、一个a d l i n e 神经元对应着一个分类超平面 一个a n a l i n e 神经元,设其输入为x = ( 而,而,毛) 7 ,输出为y 。与输入的连接权 为矿= ( m ,w 2 ,比) 7 ,阀值为则: j,= + l l w 气+ w o - 0 k - i w ,t 五+ o 显然该a d l i n e 神经元对应着这样一个分类超平面,:w i 黾+ w o = o ,它将整个疗维输 i - l , k f i ! i m 一分为二,面为正区域( 即w t 吒+ 嘞o 的区域) ;一面为负区域( 即 w 墨+ 1 o 2 口时,输入模式x 远 离判定超平面,而与所有欧几里得距离为d 的邻顶点同侧。所以s = o 。 对上式s 两边取数学期望,可得: i = a v ep d e c i s i o ne r r o rii n p u th a se r r o ro fm a g n i t u d ed 】 = “和”争矿m 袁川聊 = 2 每厂。鲁r ) 渤“矿伽m :( s m ) 上式对于 d a l i 腿对于输入扰动敏感性的计算时间复杂度很高,为了能简化计算,作者 w i n t e r 提出了其简约式,并在模拟试验中验证这个简约式在发生扰动的x 分量较少( 小于 1 2 ) 时。仍能保持其有效性 虱n ) 一 生r * 料( 3 ,t ) 石石 l 五l 其中:d - | 必| - 砺;r = l 工| - 鬲 , 3 4 在权值扰动和输入错误情况下a d a l i n e 敏感性计算 前面分析了a d a l i n e 分别在权值扰动和输入错误情况下的敏感性计算问题,那在它们同 时作用下a d a l in :e 的敏感性又是怎么样的呢? 在w i n t e r 的论文中,提出了如下结论,即“在 权值扰动较小的情况下,一般说来,权值扰动仅仅影响那些没有输入错误的输入模式。而那 第3 章基于半超球面m a d a l i n e 敏感性理论 些因输入错误的输入模式的判断出错率( d e c i s i o ne r r o rr a t e ) 不受权值扰动的影响。” 这从圈3 4 可以直观的分析看出,在有输入错误的情况下,当权扰动较小时,前后两个 判定超平面将在邻顶点超球面上掠过一组邻顶点,它们的分类将发生改变。其中一部分由原 来的正确模式变为错误模式,而另一部分则相反。最终的结果是这两个部分彼此抵消。所以 a i ) a l i n e 在输入错误情况下的判断出错率( 敏感性) ,在权值扰动很小时,不受权值扰动的 影响。另一方面,权值扰动较小意味着西判定边界的改变而使模式分类发生变化的那些输入 模式,离两个判定边界都很近,从图3 - 4 可以看出,这时很小,a d a l i n e 因输入错误而导 致的判定错误率是主要的( 接近1 2 ) 因此。在权值扰动和输入错误情况下, 柚a l i i $ 敏感 性,在权僵扰动较小的情况下。仅受输入错误的影响;权值扰动和输入错误对a d a l i n e 敏感 性的作用相互独立,彼此分离 因此,a d a l i n e 在权值扰动和输入错误情况下的敏感性可表示为; 瓢) = 艺d 。p 1 n p u t h a 8he r r o r s ( 3 1 2 ) 2 口 其中: 即饼( 惫n 2 y # 腹杂式, 。当l ! 舁( 简约式) “i 彳万千( 闻纫瓦) d h = 2 毒p f 。 - 1 ( p # ) s i n n - 2 q ,c o s n - i 脚识 o ( 复杂式) * 、! 等, ;o 1 ( 简约式) n + l 一2 h p2 瓦丽丽 , 3 5 ) 脚t d a l i n e 敏感性计算 通过上述计算,可以很容易由条件概率得出w a d a l i n e 网络中第,层a d a l i n e 的结点敏 感性的计算式: 矿;芝p i n p “,p 口t t e ,”he ,r 。叫 ,;1 i o = d i b p i n p u t t ol a y e r ,p a t t e r nhe r r o r a ,= 2 ,l 1 0 。( 3 1 3 ) 第3 章基于半超球面m a d a l i n e 敏感性理论 假定网络第一层的输入没有输入错误,且第一层各a 。 l i n e 的权值扰动幅度等雾 相 同,同时假定每层中的各 n a l i n e 输出相互独立,则l 层w a d a l i i 忸中第,层 1 ) a l i n e 的敏 感性的计算式可写成: _ ,;杰巩p 【坳”t p a t t e r n0 口r r o r $ = 风 ,= 1 , = d , p i n p u t t o l a y e r ip a t t e r nhe r r o r s = 轰巩耳南丽( 万) 6 ( - 一f ) “ ,;2 ,工 , 因此可得出整个m a d a l i n e 网络的敏感性s 。: 虿:1 0 一i ) 一( 3 。1 4 ) 以上通过输入空间的超球面模型来分析a d a l i n e 的敏感性,进而推导出的a d a l i n e 的敏 瘳性计算方法和计算表达式,在理论和实践上都取得了不错的成果。但也依然存在着以下两 个方面的问题:第一,在敏感性的精确计算方面,从超球面视角所推导出来的方法都存在计 算复杂度高,而在当前技术条件下难以实现的问题;第二,在对 j ) a l i n e 敏感性的近似计算 方面,虽然得出了很好的简约计算式。但存在着太多的约束和限制。如要求权值扰动幅度 等雾 比较小、输入错误数较少( 少于1 2 ) 以及输入微n 较大等等这些约束在带来计算 方便的同时,也必然制约了计算的精度以及约束条件下计算的有效性。 针对这些问题,由河海大学曾晓勤教授指导下,他的学生汪莹峰在其硕士论文中,从更 贴近表征a d a l i n e 输入空问的超立方模型视角,设计了一种能精确计算a d a l i n e 敏感性的算 法,但同样存在计算比较复杂的问题。因此如何简化敏感性计算依然是个有待进一步研究的 课题幸运的是,我们在后面有关e g ) a l i n e 网络学习算法的设计中。由于我们仅仅考虑单 隐层m d a l i n e 网络,所用到的敏感性计算问题,都能满足上面相关的简约式的限制条件 这里约定,文中后面章节所指结点敏感性、网络敏感性均为其数学期望s 、s ,并分 别统一简称为s 、s 或者彰、s :。 第4 章躲学习算法 第4 章狐i i 学习算法 m r i i 是m a d a l l i er u l e 的简称,是斯坦福大学w i n t e r 博士( 1 9 8 9 ) 【1 6 l 在其博 士论文提出的一种训练m a d a l 环i e 网络的学习法则。本章将介绍m r i i 的主要算法思想并 在此基础上分析它的优缺点 , 4 1 最小扰动原则 m r i i 学习规则是一种有监督的网络学习规则。对网络的训练过程,实质上就是对网络 权参数的调节过程,对结点权值的每次调整,总是希望在满足当前样本学习的同时,尽量使 得本次学习对网络训练样本的状态改变最小。这样得以让鼹络对本次学习前业已取得的学习 性能最大限度地得以保持。这就是“最小扰动原则”概念的基本内涵。在m r i i 学习规则中。 “最小扰动原则”是贯穿法则始终的根本原则。 那么在m r 中,是通过什么并如何来体现和贯彻最小扰动原则呢? 首先,在m 如中,作者以结点( a d a l i n e 神经元) 的“信任度”,即a d a l i n e 神经元 传输函数的输入量( 又称结点加权和,结点净输入) 的绝对值i 叫i ( k i :l ( 形j y ,一一l :l 窆m 。疗,+ 吒| ) ,作为衡量结点权值改变对整个网络的影响程度 l ,越i 的指标量。并且认为,结点“信任度”大,其权参数调整。对网络扰动大;反之则扰动小 从坐标轴上看,结点信任度,直观地反映了其接近坐标原点( 即结点输出值发生反转的 分界点) 的程度因此。信任度小的结点,相对于信任度大的结点,将更容易通过权参数的 调整而改变其输出值。因此。信任度的大小,在很大程度上,比较好地刻画了结点输出的改 变所需要调整的权参数幅度。结点信任度小作小幅调整就能达到输出反转的目的( 如图4 - 1 ) 。 卜删) = ,- i + 4 o ) = = : y j l n 1 图4 1 结点的信任度与其翻转难易的关系图 3 l 第4 章躲学习算法 其次,在网络单一样本学习期问,同时参与学习( 即调权) 的结点数目也是反映对网络 扰动程度的重要指标。显然,一次调整的结点越多,对网络扰动就越大,反之,则小 再次,在厢络整个学习期间,同一结点被调整的次数也在一定程度上反映该结点学习对 网络扰动的大小同一结点被调整的次数越多,对网络扰动就越大,反之,则小。直观地, 对同一结点的多次调整,往往意味着对以前调整的破坏。表现在对网络的扰动的增大 4 2 取i i 学习规则 我们知道,瘳知机学习规则能对线性可分的模式分类问题进行正确分类。它的权参数调 整过程就是不断地在原权值的基础上加上或减去输入的一部分的迭代过程m r i i 中在权参 数调整的迭代式中也是采用7 类似的思路和方法。具体如下。 l 彤( i ) 酬 + 1 卜m ,+ 影噜卜删卅,一- 式中,- 1 。结点的输入维数;y t - 1 ( 七) :结点输入向量;彤7 ) :第k 次迭代的权值向 量;彬( 七) :结点的期望输出;6 :参与权调节的结点信任度上限,一般o 6 大量实验表明,用凇算法来训练猷d l | i l i n e 网络。网络的学习性能与网络的泛化 性能呈现出同向消长的变化趋势。即不会出现象b p 算法那样的学习过度的问题。 网络学习越充分,网络的泛化能力也跟着提高。这种特性是目前很多神经网络学习 规则中很少见的特质。这种特质有利于控制网络的学习t m ri i 算法表现出较明显的性能稳定性。即随着网络的结构的变化,网络的泛化性能 并没有出现明显的变化这个特性有利于我们可以通过适当扩大网络结构来提高网 络的学习性能,而网络的泛化性能又损失不大 4 4 2 m r i i 的不足 用m r i i 训练j , d a l i n e 网络,不总是能保证网络在任意初始权值下都能达到收敛对于 某些初始权值的下的网络,w r i i 算法会导致网络陷入“局部振荡( 1 i m i tc y c l e ) ”从而使 得网络无法收敛。这就是w i n t e r 所说的失败模式 陷入“局部振荡”的蛐u ) a l i n e 网络,在具体的事例中常星现如下两种情形: 当网络学习到某一时刻后,训练集中的大部分样本己训练成功,只是很少的部分未 成功,这时算法对隐含层中的某个结点频繁地反复调整,使得网络陷入“局部震 荡”。 当网络学习到某一时刻后,训练集中的大部分模式已训练成功,只是很少的部分未 成功。这时网络隐含层的任何结点的“翻转尝试”都对网络输出错误的减少毫无助 益,网络学习持续在输出层进行,以致输出层某个或某些结点陷入反复翻转即“局 部震荡”状态。 3 4 第4 章m r i i 学习算法 网络陷入“局部振荡”的根本原因是网络隐含层没能提供线性可分的隐含层输出模式 从感知机无法解决线性不可分模式分类问题可知,这种情况下,网络是不可能得到收敛的 由于。局部震荡”的现象频繁出现,导致m r i i 的有效性大大降低这主要表现为用m r i i 训练i n i ) a l i n e 网络。网络收敛率不高就w i n t e r 的实验表明,网络收敛率很难达到九成 这样的性能还远远满足不了现实需求 导致网络收敛率不高的表面原因是,i m i i 权值调整规则中,各参数难以设定尤其是 决定结点是否接受学习调权的结点。信任度”( 即结点加权和的绝对值) 上限的万参数值的 设定它的不同设定将直接影响到职i i 的最终性能表现 若深究其更一般性的本质原因,在于m i t i i 选择结点“信任度”来衡量结点学习对网络 扰动大小程度事实上,从“敏感性”观点来看,结点。信任度”虽然能在一定程度上反映 其对网络的扰动,但这种反映还是显得过于粗略,难于精准地体现结点的学习对整个网络所 带来的影响程度。这就使得。最小扰动原则”没能很好地得到贯彻最终影响了算法的性能 表现。另外,狐i i 中在样本的一次学习过程中,允许同一结点多次学习,这很可能造成某 些结点通过这样多次学习后对网络的扰动过大。进而违背“最小扰动原则这也是造成算 法性能下降的一个不容忽视的原因 从以上分析可以看出,仅从堰i i 本身将很难根本改善其性能所以本文后一章节,将 在吸收和借鉴取i i 的某些有利的观点,特别是“最小扰动原则”的思想在m a d a l i n e 敏感 性理论的基础上,利用更为恰当而精准的结点的网络敏感性来刻画和体现结点学习对网络扰 动的程度,从而构建一种。基于敏感性理论的m a n a l i 陋学习算法”。 第5 章基于。敏感性理论”的m a d a l l i n e 学习
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 火锅店工作总结
- 事务公文总结课件
- 事业单位财务类课件
- 事业单位相关课件
- 乾海公共安全培训课件
- 老人跌倒坠床的预防与护理
- 公司消防安全培训策划课件
- 胃溃疡伴穿孔护理查房
- 《穷人》骆应华课件
- 手术护理新进展
- 蓝色卡通风2023竞选心理委员PPT模板
- 细菌性痢疾护理查房
- 生物制药技术专业
- 计算机基础知识-PPT
- 李昌盛-刑诉课件A
- 典型工程质量渗漏问题剖析
- 《铁路线路修理规则》2006年
- 建设工程项目管理纲要
- 12.2闭合电路欧姆定律(第一课时)(教学课件+课后练习)高二物理同步备课系列(人教版2019必修第三册)
- 生猪标准化规模养殖场建设项目实施方案
- 广东开心学英语三年级下册Unit3-My-room
评论
0/150
提交评论