




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 敏感性用于度量网络输入或网络参数的扰动对网络产生的影响。敏感性分析是神经 网络设计的一个基础课题,它对于指导网络设计( 如网络结构的裁剪和参数的挑选等 等) ,增强网络抗干扰能力、度量网络性能( 如容错和泛化能力) 都有很大的意义。因 而,神经网络的敏感性分析一直是神经网络研究的热点之一。 本文首先介绍了敏感性分析的相关知识和w m gw yn g 的局部泛化误差模型,并 给出此模型理论推导中的不足之处。在此基础上,本文结合正则化理论将敏感性用于径 向基函数神经网络( i 出f 神经网络) 的训练过程,推导出一种基于敏感性的正则r b f 神 经网络,并将这种基于敏感性的正则r b f 神经网络应用到r b f 神经网络的冗余特征删 除中。实验结果表明,在网络的冗余特征删除的过程中,在不降低网络精度的前提下, 本文提出的基于敏感性的正则r b f 神经网络能更有效的删除网络的冗余特征。 关键词径向基函数神经网络;敏感性分析;特征选择;正则化理论;局部泛化误差模型 a b s 仃a c t a b s t r a c t s e n s i t i v i t yi su s e dt om e a s u r et h er e s p o n s eo ft h en e t w o r kt ot h ep e r t u r b a t i o no ft h e n e t w o r ki n p u to rp a r a m e t e r s s e n s i t i v i t ya n a l y s i si saf u n d a m e n t a li s s u ei nn e u r a ln e t w o r k d e s i g n i th a sg r e a ts i g n i f i c a n c ei nd e s i g n i n gn e t w o r k ( i e ,p r u n i n gn e t w o r ks t r u c t u r ea n d c h o o s i n gn e t w o r kp a r a m e t e r se t c ) ,e n h a n c i n gn e t w o r kr o b u s t n e s sa n dm e a s u r i n gn e t w o r k p e r f o r m a n c e ( i e ,f a u l tt o l e r a n c ea n dg e n e r a l i z a t i o n ) s o ,s e n s i t i v i t ya n a l y s i si so n eo ft h e p o p u l a rr e s e a r c hi s s u e so fn e u r a ln e t w o r k s f i r s t ,t h e r e l a t i v e k n o w l e d g ea b o u ts e n s i t i v i t ya n dw i n g 彤rn g s l o c a l i z e d g e n e r a l i z a t i o ne r r o rm o d e la r ei n t r o d u c e d ,a n ds o m eu n r e a s o n a b l ep o i n t si nm o d e ld e r i v a t i o n a l es h o w n c o n s e q u e n t l y , c o m b i n i n gw i t hr e g u l a r i z a t i o nt h e o r y , s e n s i t i v i t ya n a l y s i si sa p p l i e d t ot h en e t w o r kt r a i n i n g ,a n dt h es e n s i t i v i t y - b a s e dr e g u l a r i z a t i o nr b f n ni sp r o p o s e d t h e nt h e s e n s i t i v i t y - b a s e dr e g u l a r i z a t i o nr b f n ni sa p p l i e dt od e l e t et h er e d u n d a n tf e a t u r e so ft h e n e u r a ln e t w o r k w i t hl o s i n ga c c u r a c ya ta b o u n d , t h es i m u l a t i n gr e s u l t ss h o wt h a tt h ep r o p o s e d m e t h o di sm o r ee f f e c t i v et h a nt h eo t h e rt r a d i t i o n a lr b 删s k e y w o r d sr a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r k ;s e n s i t i v i t ya n a l y s i s ;f e a t u r es e l e c t i o n ; r e g u l a r i z a t i o nt h e o r y ;l o c a l i z e dg e n e r a l i z a t i o ne r r o rm o d e l 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学位或证书 所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了致谢。 作者签名: 日期:让业年月到日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国 家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布 论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 2 、不保密口。 ( 请在以上相应方格内打“ ) 保护知识产权声明 本人为申嘉河北大学学位所提交的题目为素磊萋篁鞑篡黝的学位 论文,是我个人在导师亟鼹昵指导并与导师合作下取得的薪究成果,研究工作及取得 端啜 的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的。本人完全 了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律、行政法规以及河北 大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大学的书 面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反 本声明,本人愿意承担相应法律责任。 声明人:考l 冬牝日期:丑年月3 l 日 作者签名: 导师签名: 日期:2 竺星年玉二_ 月3 上日 日期:年月日 第1 章绪论 1 1 研究工作的来源与意义 第1 章绪论 人工智能( a r t i f i c i a li n t e l l i g e n c e ,简称a i ) 最初是在1 9 5 6 年被引入的。它研究怎 样让计算机模仿人脑从事推理、设计、思考、学习等思维活动以解决和处理较复杂的问 题,简单地说,人工智能就是研究如何让计算机模仿入脑工作。研究人工智能的目的可 以归纳为两个方面:一方面增强人类探索世界、推动社会前进的能力;另外一方面是通 过研究人工智能,探讨人脑的活动机理,尝试揭开人类自身的大脑之谜。近些年来,涌 现出了大量的人工智能研究方法。其中,受生物学的启发,通过模拟生物进化方面的过 程,人工神经网络( a r t i f i d a ln e u r a ln e t w o r k ) 应运而生。 神经网络模型最早于1 9 4 3 年由心理学家m c c u l l o c h 和数理逻辑学p i t t s 1 】提出。利 用该模型可以实现一些逻辑关系的运算。1 9 4 9 年h e b b 2 】提出了一种调整神经网络连接 权重的规则,通常称为h e b b 学习规则,其基本思想是当两个神经元同时兴奋或同时抑 制时,权重的连接强度就增强。1 9 5 8 年r o s e n b l a t t 3 】提出了感知器模型( p e r c e p t i o n ) ,该 模型主要用于模式分类。1 9 6 9 年m i s k e y 和p a p e r t 4 】发表了名为“感知器 的专著,指 出简单的线性感知器功能是有限的,无法解决线性不可分的两类分类问题,如典型的异 或问题。该文章导致了神经网络的研究进入低潮。1 9 8 2 年h o p f i e l d 5 】提出了一种反馈型 神经网络,其中定义了能量函数,该网络称为h o p f i e l d 网络。1 9 8 6 年r u m e l h a r t 、h i n t o n 和w i l l i a m s 【6 】提出了多层前馈型网络的误差反传算法( b a c k - p r o p a g a t i o na l g o r i t h m ) ,该算 法成功的解决了多层感知器的训练问题,大大地促进了神经网络的发展。在多层前馈型 神经网络中,有两种网络最为普遍:多层感知器神经网络( m u l t i l a y e rp e r c e p t i o nn e u r a l n e t w o r k ) 和径向基神经网络( r a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r k ) 。在一定条件下,两种 网络都具有逼近任意光滑映射的能力,因此对于一个函数逼近或是模式分类问题,一般 来说选择这两个网络模型中的哪一个都是可以的。然而,由于多层感知器神经网络具有 河北大学理学硕+ 学位论文 收敛到局部极小的缺点,加上其训练速度比较慢,径向基神经网络具有全局最优、训练 速度快等优点而越来越多的得到广泛的应用。 网络敏感性是评价神经网络的重要参数之一,它指网络输入或网络参数的扰动对网 络会产生怎样影响,它对于指导网络设计,增强网络抗干扰能力、度量网络性能,如容 错和泛化能力都有巨大意义,另外网络敏感性分析是研究其它网络课题的基础,如网络 结构的裁剪和参数的挑选等等。由于径向基函数网络的优越特点以及敏感性分析对网络 的重要意义,那么结合径向基函数网络和敏感性分析进行研究是目前的研究热点之一。 1 2 本课题的国内外发展现状 敏感性分析是神经网络设计中一个基础问题,它指网络输入或网络参数的扰动对网 络会产生怎样影响。敏感性分析可以追溯到1 9 6 2 年h o f f 使用n 维几何方法考察a d a l i n e 的敏感性【7 1 。神经网络的敏感性分析方法可以归为两类,( 1 ) 基于偏微分的方法,如1 9 9 2 年h a s h e m 8 l 提出了单输出的m l p s 网络的关于输入的一阶偏导数和二阶偏导数的敏感 性;1 9 9 3 年f u 和c h e n 9 】提出了多输出m l p s 网络关于输入的敏感性的一阶偏导数 j a c o b i a n 矩阵形式,最后用范数去度量敏感性的大小。( 2 ) 基于统计的方法,如1 9 9 2 年 c h o i 和c h o i 1 0 】对于神经元为可微函数的单输出m l p s 网络引进了统计敏感性测度; 2 0 0 0 年z e n g 和y e u n g 提出一种新的基于统计方法的敏感性定义方法 n l ;2 0 0 2 年w i n g w yn g 和y e u n g 等人利用统计的方法针对r b f n n 网络定义了输出误差关于输入与权 重扰动的敏感性【1 2 1 。 敏感性分析一直是神经网络研究的热点之一,它对于指导网络设计( 如网络结构的 裁剪和参数的挑选等等) ,增强网络抗干扰能力、度量网络性能( 如容错和泛化能力) 都有巨大意义。其中,很多国内外学者将敏感性分析用于神经网络的冗余属性删除( 特 征选择) 。例如:z u r a d a 等人在文献 1 3 中,利用偏导式计算敏感性的方法,计算出输出 对于每个输入特征的敏感性,然后把计算的敏感性按照递增的顺序排序,计算排序后的 相邻特征的敏感性的间隔,找出最大的间隔和次最大的间隔,用最大间隔方法找出要删 除的冗余特征。x i a o q i nz e n g 等人在文献 1 1 】中利用随机敏感性的方法,计算输出对于 每个输入特征的敏感性,按照敏感性递增的顺序对特征进行排序,然后删除敏感性较小 第1 章绪论 的特征。另外,一些学者研究敏感性与网络泛化性能之间的关系。例如:2 0 0 5 年w i n gw y n g 等人在国际机器学习与控制会议( i c m l c 0 5 ) 上提出局部泛化误差模型【1 4 1 ,该模 型表明了分类器的局部泛化能力的上界是与输入随机敏感性有关的,从而从理论的意义 上说明了神经网络的泛化性能与输入随机敏感性之间的关系,文章中还结合局部泛化误 差模型与r b f n n 的输入随机敏感性给出了一种训练r b f n n 的方法。 1 3 本文的主要内容 本文在分析w i n g 的局部泛化误差模型的基础上,结合正则化理论将敏感性用于径 向基函数神经网络( r b f 神经网络) 的训练过程,推导出一种基于敏感性的正则r b f 神经网络,并将这种基于敏感性的正则r b f 神经网络应用到r b f 神经网络的冗余属性 删除中。主要内容和组织结构如下: 1 第2 章介绍一些基本知识,主要包括径向基函数神经网络( i 强删、正则化理论 和特征选择三部分。 2 第3 章较为详细的介绍网络敏感性分析,包括敏感性分析的定义、常用的计算方 法以及敏感性分析在特征选择中的应用。 3 第4 章介绍了w i n gw yn g 的局部泛化误差模型,包括模型的原理、建立以及 推导过程,并且给出了该模型在推导过程中存在的不足之处。 4 第5 章是本文的核心内容,在这一章里,本人结合正则化理论和敏感性提出一种 基于敏感性的正则r b f 神经网络,并将这种基于敏感性的正则r b f 神经网络应用到r b f 神经网络的冗余特征删除中,最后给出一些实验结果。 5 第6 章为结论和展望。 6 最后为参考文献、功读硕士期间撰写论文和致谢。 河北大学理学硕十学位论文 第2 章预备知识 这一章介绍了在研究过程中用到的一些基本知识,主要包括:人工神经网络的发展、 径向基函数神经网络( r b f n n ) 的网络结构2 乏u i i 练策略;正则化理论;特征选择的组成和 常用方法。 2 1 径向基函数神经网络( i m f m 叼 2 1 1 人工神经网络的发展简史 神经网络模型是人工智能领域一个重要的分支,它最早于1 9 4 3 年由心理学家 m c c u l l o c h 和数理逻辑学p i t t s t l 】提出,目的是通过计算机建立一种模型去模拟人脑的功 能。神经网络的研究已有较长的历史,一般可以用两次热潮来划分其历史时期。1 9 4 3 年, 心理学家w m c c u l l o c h 和数学家w p i t t s 合作提出的兴奋与抑制型神经元模型和h e b b 提出的神经元连接强度的修改规则,开创了神经科学理论研究的时代,掀起了第一次神 经网络研究热潮。随后,许多学者,如w i e n e r 、f r o s e n b l a t t 、c a i a n i e l l o 和b w i d r o w 都对神经网络的发展做出了不可磨灭的贡献。直到2 0 世纪6 0 年代,由于感知器的某些局 限性,同时,由于数字计算机正处于全新时期并在人工智能领域取得显著成就,从而使 碍人工神经网络的研究步入了低潮期。 进入8 0 年代后,传统的数字计算机在模拟视听觉的人工智能方面遇到了物理上不可 逾越的极限。与此同时,物理学家h o p f i e l d 提出了h n n ( h o p f i e l dn e u r a ln e t w o r k ) 模 型,引入了能量函数的概念,给出了网络稳定性的依据,再次掀起了神经网络的研究热 潮。1 9 8 6 年r u m e l h a r t 、h i n t o n 和w i l l i a m s 6 】提出了多层前馈型网络的误差反传算法 ( b a c k p r o p a g a t i o na l g o r i t h m ) ,该算法成功的解决了多感知器的训练问题。在多层前馈型 神经网络中,有两种网络最为普遍:多层感知器神经网络( m u l t i l a y e rp e r c e p t i o nn e u r a l n e t w o r k ) 和径向基神经网络( r a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r k ) 。在一定条件下,两种 网络都具有逼近任意光滑输入输出映射的能力,因此对于一个函数逼近或是模式分类问 4 第2 章预备知识 题,一般来说选择这两个网络模型中的哪一个都是可以的。然而,由于多层感知器神经 网络具有收敛到局部极小的缺点,加上其训练速度比较慢,而径向基神经网络具有全局 最优、训练速度快等优点越来越多的得到广泛的应用。 2 1 2 径向基函数神经网络的组成结构 r b f n n ( r a d i a lb a s i sf u n c t i o i ln e u r a ln e t w o r k ) 是一种非线性前馈神经网络,它是 源于径向基函数插值技术的一种神经网络。1 9 8 5 年,p o w e l l 提出了径向基函数【1 5 】作为 一种对高维空间中数值的插值技术,并且证明了径向基函数插值技术的效果在各种情况 下都优于其他的插值技术,是最优的插值技术,在数值逼近领域有很大的发展前景。径 向基函数插值技术是用( 2 1 ) 式表示的函数,对空间中的数值点进行回归逼近,尽可 能地再现数值点所在的超平面。( 2 1 ) 式也可以看作函数f ( x ) 完成了从刀维实向量空 间到实数空间的一个映射。 ,( x ) = w o + 羔妒( 0 x - - u j0 ) ( 2 1 ) ,= 1 其中, 缈( 忙- - , i ) ,j = l ,2 ,聊是册个径向基函数,i i g | | 是一维实向量空间上定义的一种 范数( 一般为欧几里德范数) ,咋- - ( u 旷材,2 ,) 7 锨1 是径向基函数的第个中心。 径向基函数插值技术最常用的径向基函数的形式一般有三种形式: 1 多二次( m u l t i q u a d r i c s ) 函数 缈( ,) :( ,z + b 2 ) 2 6 0 ,孵 ( 2 2 ) 2 逆多二次( i n v e r s em u l t i q u a d r i c s ) 函数 缈( ,) 2 i :;:净 6 。,织 3 高斯( g a u s s ) 函数 卅h ( 一割 a o , r e 9 1 ( 2 3 ) ( 2 4 ) 其中,由于在实际研究中的数据一般又多服从正态分布,而高斯函数的函数形式和正态 分布概率密度函数形式极其类似,因此,高斯函数在径向基函数插值技术中应用最广。 河北大学理学硕+ 学何论文 径向基函数插值技术的逼近函数采用高斯函数时, ( 2 1 ) 式就可以表示为: 卟h 矗i = 1 唧f 咩 仁5 , iy ,j 1 9 8 8 年,b r o o m h e a d 和l o w e 基于这种径向基函数插值技术提出了径向基函数神经 网络【1 6 】。径向基函数神经网络( r b f n n ) 是只含有单个隐含层,隐含层神经元的激活函数 采用径向基函数,输出层为线性函数的神经网络。径向基函数神经网络的典型结构图如 图1 所示: 五 屯 : 毛 f g ) 图1 径向基函数神经网络结构图 从图1 中可以看出,径向基函数神经网络包括三层:输入层、隐含层和输出层,不 同神经元层在处理信息的过程中起着不同的作用。第一层是输入层,它负责接受外界环 境提交给网络的输入信号,是网络与外界环境的联接纽带。隐含层由多个非线性神经元 组成,这些神经元对网络接收到的输入信号进行非线性转换,从而将输入映射到一个高 维空间中。输出层由一个或多个线性神经元组成,神经元的个数决定于网络要处理的问 题。相邻两层之间的神经元之间都是全连接,相邻两层之间的信息传递也是通过这些全 连接完成。由此我们可以知道,径向基函数神经网络是对输入的数据先进行了一个非线 性的转化,接着又进行了一次线性转化后输出,从而完成网络对数据的处理过程。以高 斯函数为例,径向基函数神经网络对数据的计算过程不同于一般的神经网络。隐含层的 第_ ,( 1 _ ,m ) 个神经元的中心“,= ( “,“和) 。吼“储存在输入层的结点到第- ,个神 经元的各个连接上。输入数据x = ix i ,t ,x 。) 吼4 与第,个中心“,的欧几里得范数 第2 章预备知识 i i x - - u j0 2 作为隐含层的第j 个神经元接受的数据,输入到高斯函数中进行计算,输出 唧 一咩 。输出层和隐含层的撒权重与网络的输雌线性抵输出层对隐含层 的各个神经袖输出椰翮吐_ 个阈值调蝴蝴酏+ 萎吩唧( - 咩 作为径向基函数神经网络的输出。 2 1 3 径向基函数神经网络的训练策略 径向基函数神经网络的构建过程就是通过训练确定网络中各个参数的过程。如果隐 含层神经元的激活函数采用高斯函数,那么,由( 2 5 ) 式可知,网络中需要选择的参 数有:隐含层神经元的个数m 、中心u ,、宽度1 ,以及输出层与隐含层间的连接权重彬。 由于径向基函数神经网络的不同层在网络中起着不同的作用,因此,对于不同层的参数 的选取,就要采取不同的训练策略来分别优化隐含层和输出层的各个参数。最常用的一 种网络构建方法是两阶段法,即:在固定的网络结构下,先用聚类算法确定隐含层各结 点的中心,宽度根据聚类结果启发而定,然后再用线性优化的方法确定权重。两阶段法 的缺陷在于聚类算法具有很大随机性,且难以保证符合样本的真实分布,因而由此得到 的网络参数通常不是最佳的【1 7 】。另外一种常用的网络构建方法是正交最d , - 乘法,它是 顺序前向的选择隐含层的中心,且选择的样本点与已选的中心是正交的,然后再用最小 二乘的方法确定权重,m a t l a b 中就是采用这种方法训练网络的。 ( 1 ) 权重的确定 权重的确定通常是在网络的隐含层的中心、宽度、神经元个数确定后,采用最速梯 度下降法( 源于最小二乘法) 的d e l t a 法则来确定的。d e l t a 法则的基本思想是使用最速 梯度下降来搜索所有可能权向量的假设空间,以找到最佳拟和所有训练样例的权向量 【2 6 1 ,在应用中,我们一般通过求伪逆的方法确定权重。 ( 2 ) 隐含层神经元宽度的确定 一个采用高斯函数的径向基函数神经网络是一系列指数函数的线性加和。每个指数 函数的宽度( 也称之为半径) ,描述了单个神经元的覆盖面积的宽度。高斯函数的半径 河北大学理学硕十学位论文 越大,图形越平滑;半径越小,图形越陡峭。如果半径选择过于大,则网络需要很多的 隐含层神经元来逼近一个图形变化很快、很陡峭的函数;如果半径选择过于小,则网络 同理又需要很多的隐含层神经元来逼近一个图形变化很缓慢的函数。隐含层中心宽度的 选择方法有很多种,比如选择该中心与最近的中心之间距离的口倍,或者选择该中心与 之所在类内所有样本之间的平均距离的口倍,口为可调参数。宽度选取的原则就是尽量 覆盖聚类内部比较多的样本点。就重要性而言,宽度的选择较之于中心的选择稍逊一筹, 在精度要求不高情况下,可以将宽度设定为某一固定常量的方法来训练网络。 ( 3 ) 隐含层神经元中心和个数的选取 选取各个隐含层神经元中心是径向基函数神经网络中选取参数的关键。如果中心选 取适当,隐含层的神经元个数就以最合适的数量,提高网络的计算速度和泛化能力。反 之,如果中心选取不适当,则网络的隐含层神经元的个数就会很多,甚至会把所有的训 练点都作为网络的中心,此时,网络的计算速度不仅仅会下降很多,而且,网络的泛化 能力也打了大大的折扣。隐含层的各参数的学习策略,主要是根据中心的选取方法不同 而不同,这也是在径向基函数神经网络领域内的一个研究热点之一。常用的中心选取策 略有两种,一种是随机选取中心,这是隐含层神经元选取中心的最简单的方法。这种方 法从训练集上随机地抽取一些样本点,作为隐含层神经元的中心;另一种是自组织选取 中心,其过程需要一个聚类算法。常用的聚类算法是k 近邻聚类算法n 引。 2 2 正则化理论和正则神经网络 1 9 8 5 年,p o w e l l 1 5 】提出了径向基函数作为一种对高维空间中的数值的插值技术, 1 9 8 8 年b r o o m h e a d 和l o w e 将径向基函数与前馈神经网络做了比较,并将r b f 插值技 术用网络的观点给以解释从而第一次提出径向基函数神经网络( r b f 神经网络) 。但是, r b f 神经网络不同于传统多维空间的严格插值技术,因为当训练集的样本数目远远大于 实际问题的自由度数目或者是原始数据中存在噪音样本时,如果采用严格插值技术,就 会产生过拟合现象,使得训练得到的网络泛化性能较差【1 6 】。 通过给定的训练集训练网络问题等同于估计一个未知的函数( 寻求超平面) 问题, 也就是说,训练过程可以看成是超平面重建,是对已知信息的泛化,这类问题属于一类 被称为反问题的问题。一个反问题可以是适定的也可以是不适定的。所谓适定 第2 章预备知识 问题就是应用数学领域中称满足存在性、唯一性和连续性三个条件的一类问题,如果这 三个条件中任意一条不满足,则称之为不适定问题。h a y k i n 证明了超平面重建是一个不 适定的反问题,理由有二:第一,训练集中所含信息量不充分,不足以重建唯一的超平 面;第二,训练集中输入数据存在噪音和不精确性,这就为重建超平面增添了不确定因 素,特别是当噪音太大时,训练得到的网络不满足连续性。 如果未知的超平面是完全随机的,那么,根本无法完成估计函数。例如:电话簿中 姓名与号码的映射,无论事先知道多少个样例都无法帮助对给定新名字进行号码的估 计。p o g g i o 和g i r o s i t l 9 】提出为了使重建超平面成为一个适定问题则需要一些先验假设: 泛化是基于人们对于物质世界的描述存在一定程度的冗余的事实上的。特别地,未知映 射可能是平滑的:输入参数小的扰动导致输出小的扰动。事实上,平滑性是进行映射近 似估计所需最一般、最弱的约束条件。其它更强的先验约束条件还有映射是线性的、映 射对于某些变换的不变性等等。函数的平滑性意味着空间某点的函数值与它周围点的函 数值接近,从而可以从已知点去估计它周围的未知点;平滑性的度量有多种,最常见的 就是函数的导数,而本文中我们是用敏感性作为平滑性的度量方式。s t o n e 实验结果表 明,对于一个高维函数近似估计问题,如果不知道其它先验知识的情况下,唯一可做的 就是假设被估计函数是高度平滑的,否则,估计函数需要巨量的样例,这在解决实际问 题中是不可行的。 正则化理论是t i k h o n o v 在1 9 6 3 年提出的【2 1 1 ,它的基础理论点是使用一些蕴含先验 知识的非负辅助函数去稳定问题的解。对于函数估计问题,可以使用平滑性约束条件使 一个不适定问题转化为一个适定问题。设训练集为:d = ( 矿,广) ,b = 1 ,2 ,n ,其中 矿孵。是输入向量,t 6 吼是对应的目标输出( 为了描述的方便,这里假设输出的维 数是1 ,这种假设可以简单的推广到一般的情况) ,实际的输出设为y 6 ,n 为训练样 例的个数。用f ( x ) 表示被估计函数,根据t i k h o n o v 的正则化理论,f ( x ) 可以通过最 小化价值函数孝( f ) 得到。h a y k i n 使用两项表示价值函数孝( ,) 如下: 孝( f ) = 董( f ) + 五晏( f ) ( 2 6 ) 其中,( 2 6 ) 式等号右边第一项乒( ,) 是标准误差项,它用于度量目标输出t 6 和实际输 出y 6 之间的标准差。第二项参( ,) 是正则项,它蕴涵着关于被估计函数的先验知识,该 河北大学理学硕十学位论文 项使得解f ( x 1 更加稳定,因此,正则项也可以被称之为稳定因子。a 是一个正实数, 称之为正则化系数。正则化系数可以被视为给定训练集对于确定f ( x ) 充分程度的指示 因子。如果z 专0 ,则问题是无约束的,即解f ( x 1 可以完全从训练集中学习得到。如 果五专o o ,则意味着先验的平滑行约束可以充分的确定f ( x ) ,也就是说,训练样本是 不可信的。在实际应用中,五被指定为一个介于0 和之间的一个数,这样的话,训练 集和先验知识共同确定f ( x ) ,其中,正则项( ,) 表示一个模型复杂性惩罚函数,它对 于最终解的作用通过正则化系数力控制。 正则化的原理就是寻找一个解f ( x ) 去最小化价值函数孝( f ) ,解的形式和解法随正 则项的不同而不同。如果( 2 6 ) 式采用如下形式: 孝( ,) = 董( f ) + z 专( f ) :丢缸一y a h z z q - = 寺卜6 】2 + 矧阡1 1 2 一 其中,p 是一个线性微分算子,那么,这时( 2 7 ) 式的解可以利用f r e c h e td i f f e r e n t i a l 求得。p o g g i o 和g i r o s i t l 9 1 通过这种方式得出一种新的网络形式,因为这种网络是通过求 解正则化问题得到的,因此被称之为正则神经网络。 2 3 特征选择 2 3 1 特征选择的定义、目的和组成部分 特征选择就是从原始特征空间中选择一个维数更小的特征子空间,使得这个维数更 小的特征子空间能够很大限度上包含原有特征空间所表达到信息量,或者是这个维数更 小的特征子空间能够更好的区分不同类别。模式分类中特征选择的侧重点就是要从特征 空间中选择一个特征子空间,使其在以后的中达到最高的正确分类率。 用数学语言描述:对于一个给定的维特征空间,特征选择就是选用某种搜索策略, 依照某种特征评价准则,去选出一个m ( m 一般要比小许多) 维的最优特征子空间。 通过有效的特征选择可以大大减低原始数据的维数,从而有利于观察和理解数据, 同时可以很大程度上减少采集和存储数据的工作量。在模式识别中,较低维数可以降 第2 章预备知识 低分类器的复杂度,减少训练和测试分类器的运算量。另外,当原始数据中存在大量 冗余特征时,删除冗余特征还可以起到优化分类器,提高分类精度的作用。 一个完整的特征选择主要包括两部分:一个是特征评价准则,主要用来度量单个特征 或者是特征集合的有效性( 或冗余性) 。常用的特征评价准则有相似性度量、互信息、类 可分性,以及分类器精度等。特征选择的另外一个组成部分是特征选择搜索策略,即依 照什么样的方式去搜索有效的或冗余的特征。常用的特征选择搜索策略分为三大类:完 全搜索策略、非完全搜索策略和随机搜索策略,以下我们将对这些内容做些简要的介绍 和评论。 2 3 2 特征评价准则: 相似性度量 特征相似性度量是一种基于概率统计的特征度量方法,思想是将每个特征看成一个 随机变量,然后把这些随机变量间的线性依赖程度作为特征相似度。选择线性依赖承度 作为相似度的原因是如果原数据是线性可分的,且其中一些特征线性依赖于其它特征, 即这些特征可以被线性表示,那么把这些特征去掉,剩下的数据仍线性可分【2 2 1 。这类方 法的优点是:方法原理简单易懂,计算量小,容易实现。另外,对特征进行线性变换不 改变相关系数的值。缺点是:只能度量特征问的线性关系,对于非线性关系难以度量, 但是特征与特征间的关系大多是非线性的,所以限制了这类方法的使用范围。 互信息度量( m u t u a li n f o r m a t i o n ) 互信息度量思想受信息论的启发,它采用信息论中信息增益的形式度量特征的重要 程度。在特征选择中,定义互信息为待选特征与类标之间的信息增益减去待选特征与已 选特征集之间加权信息增益,互信息越大,代表该特征越重要。该方法能够度量特征与 特征,特征与类标之间的任意关系,并且互信息度量对于变量的线性变换保持不变性。 这些优点使得互信息度量适用于特征选择2 3 1 。该方法的缺点是:类别和特征概率密度函 数未知,需要从数据中估计,但对于目前的数据库,尤其是对于样本数较小的数据库来 说,得到的估计具有较大的偏差。 类可分度量( s e p a r a b i l i t ym e a s u r e ) 类可分度量是考察特征对于类别的可分性,即,特征区分不同类别的能力。这种方 河北大学理学硕七学位论文 法直接考虑特征与类别之间的关系,选择类可分性较高的特征,具有很强的分类目的性, 因此这种特征度量适合用于模式分类任务。度量可分性的方法有很多种1 2 4 1 2 5 1 2 6 ,最常 用的是f i s h e r 判别率( f i s h e r sd i s c r i m i n a n tr a t i o ) 。一般认为,不同类的类间距越大,同 一类的类内间距越小,则类可分性越好。f i s h e r 判别率方法就是用不同类间的距离比上 同一类的类内间距的比值作为类可分度量。在特征选择中,用类可分性去度量特征的重 要程度,类可分性越大,说明使用该特征可以更大程度上保证分类器的精度【2 7 1 。该方法 的优点是试图寻找具有最大可分的特征集合,这样找到的特征一般分类精度较高;方法 计算复杂度较低,简单易行。缺点是:该方法主要适用于两类分类问题,对于多类分类, 尤其是样本分布较散时效果不好,另外,对于一些特殊情况,如一类样本被另一类样本 包围时,此方法无法处理。 分类器精度 以上三种特征度量方法只依赖于相应的相关性测度的定义,它主要是利用数据集的 统计信息来评价特征,其过程独立于分类器系统,因此这种方法得到的特征对于特定的 分类器效果不好评定。而分类器精度方法是一种将分类器的相关信息应用到特征评价当 中,该方法把训练分类器和特征选择综合到一起,两者同时进行。分类器精度的评判准 则是分类器的精度,主要包括两种:一种是直接利用分类器的验证精度( v a l i d a t i o n a c c u r a c y ) 2 8 】,另一种是利用l e a v e o n e - o u t 方法估计分类器的泛化误差作为特征的评判 准n t 2 9 1 。这种方法的优点是具有针对性,选择的特征子集用于分类任务得到的分类精度 一般要高于前面的三种方法,训练得到的分类器泛化能力更好;但是该方法计算复杂性 较大,且得到的特征一般只适合于特定的分类器。 2 3 3 特征选择的搜索策略: 完全搜索策略 完全搜索策略主要包括穷举法和分支定界法两种方法。穷举法就是把所有特征的各 种可能的组合的都算出来再加以比较,从中选择最优的特征子集,这里所说的最优是指 某种评价准则下的最优。穷举法的优点是不仅能给出全局最优的特征子集,还能全面了 解所有特征对各类之间的可分性信息。缺点是当数据的维数很高时,穷举法的计算量太 大无法实现。“分支定界 算法是n a r e n d r ae m ,f u k u n a g ak t 3 0 1 提出的到目前为止唯一 1 2 第2 章预备知识 能得到最优结果的优化搜索方式。它是一种自上而下方法,但具有回溯功能,可使所有 的特征组合都被考虑到。由于合理地组织搜索过程,使得有可能避免计算某些特征组合 而不影响结果为最优。这主要是利用了可分离性判据的单调性,即:原模式x 如为维, 从中选出任意m 个特征组成一个m 维特征,再从该m 维特征选出任意k 个组成一个k 维特征,其准则函数满足以厶以的条件,则可采用分支定界搜索法来减少选择方 案的试探次数。分支定界法虽然比盲目穷举效率高,但在很多情况下计算量仍然太大而 难以实现,另外,该方法要求判断准则( 函数) 必须满足单调性,一定程度上限制了它 的应用范围。 不完全搜索策略 虽然完全搜索策略可保证找到全局最优的特征子集,但是由于它的时间复杂度太大 无法承受,故而我们退而求其次,即找满足一定精度要求的次最优特征子集即可。不完 全搜索策略主要包括两类搜索策略:单独最优策略和启发式搜索策略。单独最优策略是 使用评价准则计算单个特征的评价值并加以排序,取前m 个作为选择结果。但是即使 各特征是统计独立的,这一结果也不一定就是最优结果,只有当评价准则- 厂满足 m j ( 五,) = ,( 五) 时,这种方法才能选出一组最优的特征来。启发式搜索算法主 i = i 要包含顺序前向选择法( s e q u e n t i a lf o r w a r ds e l e c t i o n ,s f s ) 、顺序后向选择法( s e q u e n t i a l b a c k w a r ds e l e c t i o n ,s b s ) 和增l 减,法( 1 ,法) 三种方法。 随机搜索策略 随机搜索策略的典型特征选择方法包括:模拟退火法和遗传算法等。其中模拟退火 法是利用了材料统计力学中的研究成果,将物理学中的模拟退火思想应用于优化问题; 遗传算法受到了达尔文进化论的启发,比完全搜索策略有着更高的搜索效率。同时,它 又比其它传统搜索方法具有更加顽强的鲁棒性。 河北大学理学硕+ 学位论文 第3 章敏感性分析及其在特征选择上的应用 3 1 网络敏感性分析 神经网络的敏感性分析是对于网络的各参数稳定性的量化考察。一般来说,敏感性 的定义分为两种:一种是给定网络某参数一个轻微的扰动,考察此扰动所引起的网络输 出的变化,由此可以判断网络各参数的变化对于网络输出的影响程度,进而可以用于实 现优化网络结构或调整、选择参数。另外一种是给定网络某参数一个轻微的扰动,考察 此扰动所引起的误差函数的变化,由此可以量化的考察网络的容错能力 ( e r r o r - t o l e r a n c e ) ,对于建立更加健壮( r o b u s t ) 的神经网络有很大的指导意义。 敏感性分析可以追溯到1 9 6 2 年h o f f 使用n 维几何方法考察a d a l i n e 的敏感性【_ 7 1 , 上世纪9 0 年代开始,伴随着神经网络研究进入第二次发展高潮,敏感性分析领域的研 究也变得活跃起来,出现了许多敏感性分析方法。归结起来,这些敏感性的计算方法主 要有两大类: 一类是基于偏导的敏感性,代表方法为1 9 9 2 年h a s h e m 所提出的单输出m l p s 关 于输入的一阶偏导数和二阶偏导数的敏感性【8 】;1 9 9 3 年f u 和c h e n 提出的多输出m l p s 关于输入的敏感性 9 1 。这种利用t a y l o r 展式将网络输出或误差函数的变化表示为逼近函 数的各级导数的形式,在假设扰动很小的情况下,舍弃t a y l o r 展式中的高阶导数项,只 留下一阶或二阶导数项。这是早期计算神经网络敏感性的方法,由于算法本身的局限, 这类方法只能在网络输入扰动较小的情况下度量网络的敏感性。另外,该方法的敏感性 分析是基于一个训练后的网络的,因为敏感性的计算式需要用到网络的权重来进行计 算,从而会导致对网络参数的评价会和具体的权重相关。 另一类是基于统计分析方法的随机敏感性分析,代表方法为1 9 9 2 年c h o i 和c h o i t l 0 1 对于神经元为可微函数的单输出m l p s 网络引进了统计敏感性测度;2 0 0 0 年z e n g 和 y e u n g 提出的基于统计方法的敏感性定义 i l l ;2 0 0 2 年w i n gw yn g 和y e u n g 等人基于 统计的方法针对r b f n n 网络定义了关于输出误差对输入与权重扰动的敏感性【1 2 l 。这种 方法在计算敏感性时把需要考察的网络参数及扰动均看作随机变量,这样,网络输出或 第3 章敏感性分析及其在特征选择e 的应用 误差函数就成为随机变量的函数,也是一随机变量。通过考察网络输出或误差函数的变 化这一随机变量的数字特征来衡量输出的改变程度大小。这类敏感性不但可以应用在把 输入和权重看成随机变量的一组网络簇上,而且可以应用在权重已经被训练好( 权重扰 动为零) 的情况下。另外,随机敏感性计算方法无论是在计算复杂度方面,还是在推广 能力上,以及对于神经网络的泛化误差计算方面都优于基于偏导数的敏感性计算方法, 正是由于随机敏感性的这些优势,成为近年来计算神经网络敏感性的主要计算方法,也 是神经网络敏感性分析领域的热点之一,但是在缺乏先验知识的情况下,这类方法所作 假设的合理性难以保证。 敏感性分析在神经网络中有着广泛的应用。1 9 9 7 年,z u r a d a 等人将基于偏导数方法 的敏感性应用到特征选择问题上【1 3 】。1 9 9 6 年和1 9 9 9 年,e n g e l b r e c h t 等人将基于偏导数 方法的敏感性应用到网络结构的删减问题上【3 1 3 2 1 。在2 0 0 2 年z e n g 和y o u n g 等人将其定 义的敏感性应用在m l p s 网络的隐含层单元裁剪问题上【1 3 】;2 0 0 2 年,w i n gw yn g 和 y e u n g 等人将随机敏感性应用于r b f n n 输入维数的约简问题上
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 脾胃养生沙龙活动方案
- 雷锋年度活动方案
- 韩国牙医考试题及答案
- 海洋加油考试题及答案
- 光影速写考试题及答案
- 构造力学考试题及答案
- 土地承包经营权优化配置合同
- 法律类考试题及答案
- (正式版)DB15∕T 3665.3-2024 《玉米秸秆饲料化利用技术规程 第3部分:肉羊秸秆型日粮育肥》
- 电仪工考试题及答案
- 2025年秋青岛版(2024)小学科学二年级上册教学计划及进度表(2025-2026学年第一学期)
- 《公民意味着什么》课件
- 树枝掉落砸车赔偿协议书
- 2025湖南湘潭市市直事业单位招聘(选调)工作人员48人考试参考试题及答案解析
- 铸牢中华民族共同体意识
- 2025年秋季第一学期【数学】教研组工作计划:数智赋能提质量学研细导促成长
- 2025-2026秋学生国旗下演讲稿:第4周涵养文明习惯点亮成长底色-养成教育
- 2025滨州市劳动合同范本(示范文本)
- 2025年教师资格证中学综合素质+教育知识与能力真题及答案
- 智能楼宇节能改造实施方案
- 2025年电信岗位认证考试题库
评论
0/150
提交评论