




已阅读5页,还剩53页未读, 继续免费阅读
(模式识别与智能系统专业论文)用分等级增强型学习方法完成神经网络任务分解.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
、6 5 43 4 4 用分等级增强型学习方法完成神经网络任务分解 模式识别与智能系统专业 研究生:张望指导教师:古钟璧 摘要 为了解决现阶段的神经网络分类器的一些缺陷,比如分类问题 过于复杂时导致网络结构变得庞大,出现剧烈的内部干扰,训练和 检验精度都下降等问题。本论文中,提出了一种新的任务分解方法 一一分等级增强型类别学习方法( h i e r a r c h i c a li n c r e m e n t a i c l a s s l e a r n i n g ) 。在这种方法中,一个k 个类别的问题被划分为k 个子问 题4 。使用一个分等级的具有k 个子网络的结构对这些问题进行串行 学习。每个子网络都使用在它直接下级的子网络的输出和整个系统 的原有输入做为它的输入。而每一个子网络的输出都比它直接下级 的予网络的输出多包含一个类别,并且该输出输入到它前面的子网 络。这样不仅可以减少隐藏层之间对整个系统输出不利的关联信息 而且还有助于在训练中类别之前相互传递信息。排在后面训练的网 络可以得到从前面的网络训练中得到的信息。同时论文提供了两种 排序的算法:最小化边际效应排序法和基于f i s h e r 线性判别式的最 小化边际效应排序法。采用这两种方法来决定子网络间的等级关 系。在试验中,使用了构筑型后传算法来建立网络模型,同时采用” 回弹型传播算法1 最小化代价方程在局部梯度信息基础上采用直接 的权值步长自适应通过对分割问题晴雨表问题和甲状腺问题的 实验,h i c l 方法显示了比类别分解并再训练方法更小的分类误差。 关键字:神经网络任务分解增强型学习消息传递排序 身轻佟密、,。,蔷 一纭佥文公粕 ah e r a r c hic aiin c r e m e n t ail e a r nin ga p p r o a c h t ot a s kd e c o m p o s i t i o n p a t t e r n r e c o g n i t i o na n di n t e l l i g e n ts y s t e m g r a d u a t e :z h a n gw a n gs u p e r v i s o r :g uz h o n g b i a b s t r a e t : i nt h i s p a p e r ,w es u g g e s t an e wt a s k d e c o m p o s i t i o n m e t h o do fh i e r a r c h i c a li n c r e m e n t a lc l a s sl e a m i n g ( h i c l ) i nt h i s a p p r o a c h 。ak - c l a s sp r o b l e m i sd i v i d e di n t ok s u b p r o b l e m s t h e s u b p r o b l e m sa r el e a r n ts e q u e n t i a l l yi n ah i e r a r c h i c a ls t r u c t u r e w i t hks u b n e t w o r k s e a c hs u b - n e t w o r kt a k e st h eo u t p u tf r o m t h es u b - n e t w o r ki m m e d i a t e l yb e l o w i ta sw e l la st h eo r i g i n a li n p u t a si t s i n p u t t h eo u t p u tf r o me a c hs u b n e t w o r kc o n t a i n so n e m o r ec l a s st h a nt h es u b n e t w o r ki m m e d i a t e l yb e l o wi t ,a n dt h i s o u t p u ti sf e di n t ot h es u b n e t w o r ka b o v ei t ,i tn o to n l yr e d u c e s h a r m f u ii n t e r f e r e n c e a m o n gh i d d e nl a y e r s b u t a l s o f a c i l i t i e s i n f o r m a t i o nt r a n s f e rb e t w e e nc l a s s e sd u r i n gt r a i n i n g t h el a t e r s u b n e t w o r k sc a no b t a i nl e a m ti n f o r m a t i o nf r o mt h ee a r l i e r s u b - n e t w o r k s w ea l s o p r o p o s e dt w oo r d e r i n ga l g o r i t h m s o f m s e fa n dm s e f - f l dt od e t e r m i n et h eh i e r a r c h i c a lr e l a t i o n s h i p b e t w e e nt h es u b - n e t w o r k s h i c l a p p r o a c h s h o w ss m a l l e r r e g r e s s i o n e r r o ra n dc l a s s i f i c a t i o ne r r o rt h a nt h ec l a s s d e c o m p o s i t i o n a n d r e t m i n i n ga p p r o a c h e s k e yw o r d s :n e u r a i n e t w o r k 。t a s kd e c o m p o s itio n in c r e m e n t a l e a r nin g 。in f o r m a tio nt r a n s f e r 1 论文背景 多层感知器( m l p ) 神经网络已经被广泛的用作非线性分类问题的 分类器。在许多实际运用中,多层神经网络被证明是一种有良好统计 表现的方法,这是因为它的非参数化自适应学习,高度的非线性组织, 稳健性和硬件实现的简便性【1 】。但是现阶段的神经网络分类器受到 一些缺陷的困扰,比如当网络结构变得比较庞大的时候无法充分利 用网络资源:不能运用现有的学习算法处理高度复杂的问题;而网络 结构变得庞大的时候又会出现剧烈的内部干扰,因为隐藏层权值之间 的强耦合。 此外。在文献中提到对一个复杂问题的学习会牵涉到其他各种不 同的知识和处理过程这对于一个全局神经网络来说几乎是不可能完 成的任务【2 】【3 】。由于稳定性和可塑性的不可兼得,文献【4 】提到当两 个任务由一个单一网络连续学习时,对第二个任务的学习将受到前一 学习结果的影响。另一个常见问题是【5 】执行多任务的神经网络容易 发生暂时性的色度干扰问题,就是网络容易发生比较激烈的内部干扰, 这是因为当多个任务同时引入神经网络时。隐层网络的权值易产生强 耦合。常见的解决方法是把要解决的问题分解成几个子问题对每个 子问题进行局部的封闭式计算。然后把这些子问题组合成原来的问题。 对任务分解的方法来说。最重要的一些问题是:如何把一个复杂的任 务分解成一些比较小而简单的子任务,如何设计合适的网络模块来学 习每一个子任务,并在学习之后,如何把这些模块组合起来形成对初 始问题的解答。文献中提到了多种任务分解方法d b - 1 5 】,其方法基于输 入空间和域输出空间的特征。 其中一个分解办法基于输入空间的特征,被称为区域分解 ( d o m a i nd e c o m p o s i t i o n ) 。【9 】提到初始输入数据空间能被分成几个 子空间,对于每个子空间都有个针对局部数据来进行学习的模型 用这样的分解方法来提高整体网络的训练效果。文献中关于此方法的 第l 页 共5 6 页 四川大学硕士论文 运用还有很多。【7 】提出训练集合可以通过递归的使用超平面。直到分 成的几个子集都是线性可分的。【8 】叙述了这样一种神经网络第一个 被引入每个隐藏层的单元使用所有的模式对其进行训练而后续的单 元主要使用那些还没有被正确分类的模式来训练。f 6 】1 建议在混和专 家网络结构里。专家网络可以用来学习子空间并通过门控网络进行合 作。比如,在一个分等级的专家结构中,输入空间递归的划分为几个 子空间1 16 】。相似的递归划分也同样被用于神经树结构1 1 7 】。在多筛 选神经网络中,类别在刚开始的时候通过粗筛选进行分类,并在接下 来的步骤中进行更细致的重新分类。 另外一种分解方法是基于输出空间的特征【1 8 】,被称为类别分解 ( c l a s sd e c o m p o s i t i o n ) 。将一个有k 个类别的问题分解为k 个两类 模式的子问题。每个子网络被训练来学习仅仅一个子问题。因此,每 个子网络都可以从类别集合中决定个类别的模式最后整个网络呈 现k 个模式。在f 1 9 】中使用的方法是将k 个类别的问题分成i :1 个 两类模式的子问题。每一个两类模式的子问题都进行独立的掣牙j 同 时训练数据中属于其他k _ 2 类别的被忽视。最后把所有的训练模块 合并到一个最小最大模数网络,得到全面解。一种强有力的类别分解 方法输出对应,在【15 】里提出。使用输出对应一个复杂的问题可以 被划分为几个被选定的子问题,每一个子问题都含有整个毒l 入矩阵和 一部分输出矩阵。每个模块( 对应于一个子问题) 负责产生输出矩阵的 一部分。这些模块并行的被训练和成长。 除了这两种主要方法。还有一些其他的分解方法。比如表示一个 任务的不同方面的不同方程,可以进行各自独立的学 - j ,最后整个系 统的功能函数由这些单个的功能模块合成【2 0 】。而【2 1 】阐述了一个最 初的问题可以按照问题发展的不同阶段划分为子问题。 文献【1 8 l 中提到:1 ) 在最初的几次循环计算中,所有的权值都会减 小:2 ) 空间上的色度干扰将严重影响多类别的分类问题。在多类别的 问题中,由于色度干扰的存在,几乎是不可能使用梯度减小的方法使 得总误差随着权值的改变而减少,至少在开始的几次循环运算中是如 第2 页 共5 6 页 四川大学硕士论文 此。网络连接权值和网络的输出接连减小要等到占统治地位的负面因 素被正面因素所克服。要克服由此带来的无法收敛的问题。许多研究 者建议网络的结构采用模块式。 非模块化和模块化网络如冈所示。模块化网络结构中每个模块都 是并行的独立进行运算。当训练至满足问题的要求的时候,模块也是 并行的进行运作每一个模块都计算输出空间中的一个模式,并且每 个模块有一个隐藏层。 类别分解的方法减少了隐藏层内部的互相干扰。由此提升了系统 的性能和准确性但是该方法存在一些不容忽视的问题。在这些方 法中,每个子网络都是相对其他子网络独立地进行训练的。和其他类 别和子网络的联系被忽略。一个子网络使用的局部信息局限于它所针 第3 页 共5 6 页 四川大学硕士论文 对的类别。子网络无法和已经训练好的网络交换信息。类别之间的 全局信息和它们之间内部关联都被忽视了。 在本论文中提出了一种新的任务分解方法,叫做分等级增强型类 别学习( h i e r a r c h i c a li n c r e m e n t a ll e a r n i n ga p p r o a c h h i c l ) 。在这个方 法中一个含有k o i - 类别的问题被分成k 个子问题。子问题由分等级 的k 个子网络进行串行的学习。每个子网络的输入都由它的直接下级 子网络的输出和系统的最初输入共同组成。每个子网络的输出都比它 的直接下级子网络多包含一个类别。与此同时该输出也被做为上一 级网络的输入( 如图3 所示) 。这种方法不仅减少了隐藏层间的不利关 联,而且还方便了类别在训练中互相交流信息。此方法比传统的类别 分解方法有更好的分类性能。 第4 页 共5 6 页 四川大学硕士论文 j 最终输出 i 第k 个子网络包 含k 个输出节点 l 来自第( 1 c i ) 个于网络的输出,该网络 包含k - 1 个输出节点 y 怒 “ :l 米自第2 个子网络的输出 - u n 第2 个子网络,包含 两个输出节点 第一个子赙络的输出 第一个子网络,包 含一个输出节点 图3h i c l 概貌 本论文采用如下的组织方式:h i c l 的组织结构在第二章里介绍。 第三章探讨h l c l 的排序问题和两种排序方法。第四章讨论采用h i c l 方法的实验算法和试验结果。第五章总结全篇论文。 第5 页 共5 6 页 2 带有增强型输出的分等级模块化神经网络 在本文提出的h i c l 方法里,使用带有k 个子网络的分等级模块 神经网络来解决初始的k 个类别问题。 一个子网络建立和训练完毕 之后,另一个新的子网络在它的上层建立。新的子网络使用下层子网 络的输出和整个系统的初始输入做为它的输入。新的子网络的输出空 间比下一级的网络多一个维数。对于分类任务,这意味着新子网络的 输出空间比旧的子网络多包含一个类别。 h i c l 分解方法由以下几个步骤组成: s t e p1 :在输出分等级模块神经网络之前,先确定类别的引入顺 序。然后在这个顺序基础上把输入特征排列成队列。这一步对于 获取较高的准确性至关重要,排序的方法将在第三节里详细讨论。设 置训练的子网络的索引为i n d e x = l : s t e p2 :构筑一个仅有一个输出节点的子网络,输入数据空间和 分解之前初始的输入空间大小相同。输出空间仅仅包含一个输入节点 对应第二步里存储的特征顺序表。训练网络直到收敛,然后增加索引 值,i n d e x = i n d e x + l : s t e p3 :如果索引值不等于初始问题的输出空间特征数。在原有 的网络上一层构筑一个新的子网络。合并下一层的子网络的输出空间 和初始问题的输入空间,组成新的网络的输入空问。当输入一个训练 样本时,自下层的子网络而来的输入同初始输入空间一道组成新的子 网络的输入。 于是,对于新的子网络,输入的特征变量一共有 i n d e x + n 个,n 是初始输入数据空间的输入特征数目。而新的子网络 的输出空间包含所有的下层网络的输入类别特征同时还包含在第一 步中储存的特征列表里的第i n d e x 个输出特征。于是,对于新的子网 络来说,一共有i n d e x + 1 个输出变量( 类别) 。训练新的子网络直到它 收敛。然后增加训练完毕的子网络索引计数器值,i n d e x = i n d e x + l 。 这一步将反复执行,直到索引计数器的值等于初始输出空间的输出特 征数目。 第6 页 共5 6 页 四川大学硕士论文 s i e d4 :检查整个网络结构并评估网络表现。 除了第一个子网络,其他子网络的功能都比较复杂。这是因为每 一个子网络都需要同时处理两个以上的类别而不同类别之间的联系 由于网络结构的原因会自动被考虑到。对于每个子网络来说存在两 个功能: 辅助函数的功能是对前面已经学习的类别进行再分类。如果 下一层的子网络没有出现分类错误,它们可提供线性可分的 输出给新的子网络。由于这些输出的线性可分性,再分类过 程极有可能只是跟随由下层子网络构筑的决定边界而不改变 它们的结果。 主函数是把来自其他类别的新加入的样本进行分类。该功能 相对于子网络里的新的类别来说进行局部计算,这种计算方 式同类别分类中的子网络计算方式相同。但是,需要注意的 是新加入的类别中,包含了一些下层网络中已经被分类好了 的类别。再一次说明,如果预先分类的信息没有包含错误, 新的网络不需要太多的努力去从下层子网络已经学习好的类 别中区分新的类别。 在h i c l 方法中,不同类别的学习过程是从逻辑上来进行分解的 而不像其他大多数分解方法,是从物理上进行分解的。图4 显示了在 理想情况下用h i c l 方法对三个类别问题进行分类。a b 和c 表示 问题中的三个类别。在该条件下,第二个子网络的实际任务是从c 类中把b 类区分出来。因为类b 和c 的集合已经和类a 区分开了。事 实上,第二个子网络仅仅需要处理两个类别。 第7 页 共5 6 页 四川大学硕士论文 围困 回囚 图4 用h i c l 方法解决包含三个类别的问题 第8 页 共靳页 四川大学硕士论文 图5 显示了使用类别分类方法是如何解决三类别问题的,接个过 程包含三个子网络。从图4 和图5 ,可以看到h i c l 比之类别分解有 两个主要优点。第一,使用h i c l 方法。由第二层网络解决的问题比 类别分解方法中任何一个子网络解决的问题都要简单,因为前者只需 要处理两个类别。当子网络数目变得很多的时候,这个优点将交得很 显著。比如。用h i c l 方法的第k 个子网络将比使用类别分解的子网 络少处理k 1 个类别。因为问题解决变得简单,使用h i c l 的第k 个 子网络将比类别分解的子网络得到的结构更加准确。第二。h i c l 需 要的子网络数目要比类别分解方法需要的子网络数目少,这样可以简 化整个网络结构同时提高分类精度。 第9 页 共5 6 页 塑型盔堂堡圭笙苎; 图5 使 = l 类分解方法解决三个类别的问题 第1 0 页 共5 6 页 输入特征变量的排序算法 在h i c l 方法中,进入网络的输出特征变量依据一定的预先确定的 顺序,对于提高整个网络的准确度这一步具有关键的作甩。在这一 节里,将探讨两种可以得到比较好的准确度的排序方法。 3 1 m s e f 排序方法 在第二节中,我们发现如果下层子网络中没有出现错误的话, h i c l 比之类别分解有更大的优势。然而,在实际中错误是无法避免 的。这些错误将会误导上层网络的学习乃至抵消h i c l 所有的优势。 由于分等级网络结构的使用,类别被训练得越早,与之相联系的子网 络越能影响整个网络的表现。在这一节中。基于类别分解错误( c l a s s d e c o m p o s i t i o ne r r o r ) 的最小边际效应优先( m i n i m a l - s i d e - e f f e c t - f i r s t ) 排序方法被用来最小化可能的错误导致的消极影响这样可以最大化 地实现理想中h i c l 的优点。 3 1 1h i c l 的简化排序问题 从试验中,我们观察到一个子网络输出中的辅助函数实现的结果 近似于它的直接下层网络的输出。如果一个训练样本可以正确地被下 层子网络分类,那它不太可能在上一层网络的再分类过程中被错误地 区分。换句话说,如果一个样本在下层子网络中被错误地分类。那么 上层网络中的再分类过程不太可能纠正这个错误。注意到这个现象背 后的原因很简单,上一层予网络中的把被学习类别再分类过程很容易 被下一层子网络传递来的信息所影响。于是,如果最下层的子网络产 生的错误是蜀,第二层子网络主函数产生的错误是丘,那么整个第 二层网络的总体误差可以近似为s ,ze l + e 2 。每层子网络产生的误 第1 l 页 共5 6 页 p 驯l l 大学硕士论文 差传入它的上一层子网络直至最后一层网络。所以第k 个子网络的 误差可以近似为吼* 占+ 最“e k + 玩“+ a + e l ,乓是第k 个子网 络的主函数产生的误差。一个上层子网络的总体分类误差近似于它的 所有下级子网络产生的误差之和。而要最小化最终结果的误差等同于 最小化每个子网络产生的误差。证明如下: 最常见的代价函数为误差平方和以及它的变形: ( 3 1 ) d 辟是第k 个输出单元对应于第p 个训练模式的实际输出,是第 k 个输出单元对应于第p 个训练模式的理想输出。 如果我们把输出向量分成r 个部分,每部分都包含k 。个输出单元, 于是上式可变形为: pr e = ( d 肚一,肿) 2 p r if ,+ k , = 【( o 眺一f 盹) 2 + i o 辟:一t p k 2 ) 2 + p ;l k l = l 2 ;r i + l ,r 人+ ( 0 以一f 庸) 2 p - i k , ;k i + k z + a + o 1 “ 2 巨+ & + a + e , + pk + k , 稿盹一f 辟:) 2 + ,一lk 2 一f 1 + i k l ,i = 1 , 2 ,k ,并且墨+ k 2 + a + k ,= k 可以看到我们通过使得每个模块的误差减小到一定程度可以确保 第1 2 页 共5 6 页 2 ) 肚 r一 肚 d ( 。 ,川 =e r 成 o, 。扣 +a 2 ) 肚 f一 肚 d ( s 己 ,川 四川大学硕士论文 整个网络的误差小到一定程度。 应该注意到丘,b + a ,巨是互相有联系的。巨依赖于以一,( 第 k 一1 层子网络的总体误差) 。占。越精确,就有越多有用的信息传递到 第k 层子网络,也就可能得到更加准确的巨。显而易见通过全系统 的计算来找到可以最小化总体误差的排序方式是相当复杂的。然而, 在h i c l 方法中的子网络,其主函数可以被看作是一个两类逻辑分类 问题,与在类别分类中的一个模块相同。当第一个类别。从总体样本 中抽取出来,剩下的第二类别他就是整个输出空间中以的补集。于 是在一个子网络中主函数的误差e 可以分解为: 。 e = e + 亨 ( 3 2 ) 其中e 是由属于抽取出来类别的训练样本所产生的误差虿是属 于该类别的子集的训练样本产生的误差。在类别分解中一个模块产生 的误差近似于方程( 2 ) 中的e 值。在本论文中,我们使用增强式方法 解决这个问题。单一化排序化问题可以看作以下的两步问题: ( 1 )找出类别分解方法中每个模块的误差并把它做为对应于 h i c l 主函数产生误差的近似。找到每个误差中可能对 上层网络学习带来消极影响的部分。 ( 2 )按照主函数误差对上层网络计算产生的影响程度。对类别 进行排序,从最小影响到最大影响排列。 基于这样的单一化模型,我们需要找到在一个子网络中主函数的 误差中,哪一部分将会影响上一层予网络的学习过程。 在整个解决n 个类别问题的神经网络的第k 个子网络中,我们定义 q 2 c t 脚2 。c t + c 2 + a + q l + c “+ a + c 。c j 代表初始输出空间 的第i 个类别。 对于这个子网络的主函数产生的误差来说,有两种可能的误差来 源: 1 本属于( - d :的样本被错分到了q ,这是亭的来源。 在这种情况下,当前网络传递给上一层子网络的信息里包含该 样本属于q 的信息。如果这个被错分的样本在初始的输入数 第1 3 页 共5 6 页 四川大学硕士论文 据空间中属于c ( 降k ) ,当它在第i 层子网络中被抽出来的时候, 从第k 层网络传递来的信息和初始输入空间中包含的信息将产 生严重的冲突。这将导致对第i 层予网络正确学习的干扰并 使得更多本属于第i 个类别的样本被错误分类。因此。误差中 的西部分将影响以后网络的计算。在排序计算中应该被考虑。 2 一个属于的样本被错分为了脚:,这是e 的来源 在这种情况下。当前子网络传递给上一层子网络的信息里将说 明该样本不属于c 。在第j 个子网络中,从第k 个子网络传递 而来的消息( 样本不属于第。k 个类别) 和现在分类的样本是否属 于第i 个类别不相关。因此,后续子网络的主函数不会被该误 差事件干扰。对于排序的计算可以独立于该部分误差。 从以上的分析来看,排序算法依赖于由补集类别鹞的样本累积误 差,也就是虿。 于是我们的解法里的第一步可简化为:对于每个子网 络的主函数找到亭。 3 1 2 计算顺序 一个两个类别的问题通常可以由只有一个输出特征的神经网络解 决n 理论上讲如果一个神经网络被完全的训练并在整个输出空间上 没有错误发生那么当输入样本属于q 的时候它的输出应该是1 ,而 当输入样本属于2 的时候,它应该输出0 。把区别于0 ) 2 的决定边 界可以是一个简单的阀值0 5 。图6 显示了理想情况下两个类别问题 的理想分布。 但是,由于内部互相干扰、局部最小、过训练、输入数据空间的 分布等等情况的存在,实际条件下的神经网络很难被正确的完全训 练。因此在输出的样本中将会有错误的信号产生。通常情况下。这 些错误的分部是g a u s s i a n 分布( 均值为0 。方差是盯2 ) 。如果任何一 个误差大于0 5 那么对应的样本将会被错误地分类。 所以。误差的 第1 4 页 共5 6 页 四j l 大学硕士论文 发生概率,用e 来表示对于数据空间里的每一个样本来说都是相 同的。图7 显示了对于图6 中的同样问题一个神经网络的实际输出。 图6 两个类别问题的理想输出 第1 5 页 共5 6 页 四川大学硕士论文 图7 两个类别问题的实际输出 因为只对于所有的样本来说都认为是相同的,我们可以导出以 下公式: 考2 等舞= 瓦n e o n 3 , e t 。x n # n s * ”、 是属于q 的样本的数目,n c o = 是属于脚2 的样本数目。 从公式( 3 ) 中,将影响到其他类别的正确计算的误差部分可以如此 计算: 万:e :型塑:e 丝生 n c 。七n 。 n 所以,对n 个类别问题来说,由第k 个类别引起这部分误差为: 瓦= 曩学 ( 3 4 ) n 是整个输入数据空间的样本数目,m 是初始数据集中属于第 k 个类别的样本数目,最是当网络在类别分解中把g 从其他类别中 抽取出来时产生的误差。 基于3 1 1 节中描述的简化问题,基于类别分解错误( c l a s s 第1 6 页 共5 6 页 d e c o m p o s i t i o ne r r o r ) l 约最小边际效应优先( m i n i m a l - s i d e - e f f e c t - f i r s t ) 排序方法过程如下: 1 在类别分解的方法下训练网络,记录每一类的分类误差 五,a ,e + e 。 2 对每个类别。计算误差中可以影响其他类别正确计算的部分 i ,瓦,a ,瓦+ 瓦使用公式( 3 4 ) 。 3 依据上一步计算出来的该部分误差值排列类别,从最小到最大 值,并存储为一个列表,如第二节中描述的第二步。 使用【基于类别分解错误( c l a s sd e c o m p o s i t i o ne r r o r ) 的最小边际 效应优先( m i n i m a l s i d e e f f e c t - f i r s t ) 1m s e f - c d e 排序方法,估算类 别引入的顺序来最小化误差中的可以影响后续类别正确分类的部分。 从试验结果可以看到。这种排序方法能有效地提高h i c l 的准确性。 但是,在预处理部分,通过类别分解来找到每个类的错误需要大量计 算。仅仅做为h i c l 方法的预处理部分,就要进行整个类别分解过程 的计算,显然是不合理的。在下。节里,另一种需要较少计算的排序 方法将被提出。 3 。2m s e f - f l d 排序法 在线性模式识别技术中。如f i s h e r 线性判别器提供了一种简单的 方法来估算一个分类问题的准确性问题( 见附录3 ) 。本小节中将讨论 基于f i s h e r 线性判别器的m s e f 方法。其基本思路与前面提到的 m s e f 方法相似,就是基于误差中能影响其他类别正确分类的部分对 类别进行排序。因此,面对的问题是对于每个类别找到虿然后在此基 础上进行排序步骤与3 1 1 所述的相同。m s e f f l d 方法使用 f i s h e r 准则方程j ( w ) 的值做为每个e 值的评估值,而不是使用类别分 解的方法来得到每个类别的分类错误e 。 f i s h e r 线性判别器把一个d 维的特征空间映射到一个争1 维的特 第1 7 页 麸5 6 页 四川大学硕士论文 征空间,d 代表特征数目而c 代表类别数目。通过方程y l = w x 。因 此,对于一个两个类别的问题,映射的特征空间应该是一维的( 映射到 一条直线) 。 一个有m 个训练模式的集合设为x = x 。,屯,a ,_ ,人x ,r , x ,月”,i = 1 , 2 ,k m 。这些模式属于两类q 和街:。从数学角度,f l d 可以描述成以下步骤: 埘,是q 和q 的d 维样本均值比如啊2 击磊x 和聊:= 上i 1 2x 。x 2 x , ,和x 2 表示分别属于i 和。的样本集和肛2 分别代表五和z 2 的 样本数目。 对于映射点而言,其均值为而,;y ? w 。z = w 。m ,。 ,f 增m i = 1 ,2 分别是两个类别的标识。 类2 的样本。如果我们定义类j i ,疋是在映射空间内对应于类1 和 的映射样本的散度为i := ( y - ,) 2 蚱e i 2 1 , 2 于是类内的散度s 。= z s :可由此式算出。类内散度是用来度 量同一类中的样本的紧密分布程度。相似的,类间的散度可定义为 晶5 善q ( m i - 1 7 1 ) ( m i - m ) - m 2 吉萎x 是特征空间内所有模式的均 值。 f i s h e r 线性判别器采用线性方程w x 。其判别方程为: 抛) = 寒 ( 3 5 ) 将之最大化并独立于1 1 w l i 。最佳映射可由解特征向量方程 ( 一丑s 。) w = o 得到 是非零特征值w j 是对应的特征向量。j ( w ) 的值越大,分类就越容易。同时,分类的准确度随着j ( w ) 的增加而增 第1 8 页 共5 6 页 四川大学硕士论文 加误差与爿暑成正比。从方程( 3 _ 4 ) 和( 3 _ 5 ) ,由抽取第k 个类别弓 起的误差的瓦部分可以由下式表示: 瓦= 旦j k j k ( w 盟) n ( 3 6 )吼2 2【_ 石) 由此,m s e f - f l d 方法的整个过程可以总结如下: 1 在输入数据空间内对每个类和它的补集类计算f i s h e r 准则方程的 值,记为( ”,以( w ) ,a ,( w ) 2 对每个类别计算将对其他类的正确分类产生影响的误差 一e l ,一e 2 ,a ,瓦+ 瓦,使用方程( 3 6 ) 可得到结果。 3 按照每个类的该部分误差值对类进行排序,从最, j 唾f j 最大,然后存 - 储在列表中,如第二节里所描述的一样。 4 实验算法和分析 4 1 实验方案 为了最优化每个模块的表现,采用构建型神经网络进行实验。构 建型学 - j 算法包括动态节点创建方法f 2 2 】,层囊关联算法 ( c a s c a d e - c o r r e l a t i o na i g o r i h m ) 和构建型后传算法( c b p ) 等等在本 论文中,我们采用构建型后传算法( c b p ) 。 4 1 1 c b p 算法 建立模型的关键一步是训练阶段,在该阶段中调整模型参数,使 得网络的表现尽量与预期相同。除了参数的调整之外还有一个重要 的问题就是如何选择适当的模型结构。 如果选择的模型结构不够好 第1 9 页 共5 6 页 四川大学硕士论文 很可能出现诸如过训练,不具有广泛性计算耗费资源等等问题。一 种解决方法是使用构建型学习方法。比之剪除调整方法( k w o k & y e u n g 。1 9 9 7 ) ,构建型方法有比较多的优势。第一,构建型算法直接 了当地指定初始网络。比如,由于对于没有任何先验知识的问题。我 们可以从一个没有隐层的网络开始训练。而对剪除调整方法,一开始 就指定了一个具有足够隐层结构的网络,但他们可能是极其不现实的 庞大。第二构建型算法总是试图寻找最简化的阿络解决问题。 因 此这样的网络结构比之剪除算法更节省计算资源剪除调整算法中大 部分训练时间都用在了比所需要庞大的网络结构上。第三因为不同 结构的网络都可能提供可被接受的结果构建型算法会寻找最简单的 网络。比较小的网络在前向计算中显得更加有效而且可以由更简单 的规则来表述。更进一步通过寻找小的网络结构。对于好的推广性 所要求的数据量也减少。第四当隐藏单元或网络的权值被移除时, 剪除算法通常以误差的方式衡量这些改变。但是这样的变化仅仅是 用来近似计算效率。因此可能引入很大的误差,尤其是当大量的修剪 发生的时候。相似的,在调整中,误差项和惩罚项之间有一个微妙的 平衡。当然对于构建型算法同样存在一些问题其中有些是只产生于 构建型算法。但是其他方法也同样面临许多问题。 构建型方法在神经网络中一个代表例子是层叠式学习 ( c a s c a d e - c o r r e l a t i o nl e a r n i n g ) 。c c 算法被认为是一种在计算和建模 表现方面都具有效率的算法。另一种相近的算法就是所谓的构建型后 传算法( c b p ) 。c b p 算法中,神经网络的增长是由一个接一个的训练 添加隐藏单元实现的如同c c 学习算法中一样。两种算法的另一个 共同点就是可以为了得到计算效率而冻结以前已经训练好的单元。但 是,c b p 算法与c c 算法的主要不同是对c b p 算法仅采用误差平方和 ( s s e ) 做为训练新单元的判决规则。c b p 的一个实际优点是其实现起 来要简单得多因为我们不需要如同c c 算法中一样,在两种不同的代价 函数之间转换。同时在c b p 中,随机梯度方法被用来训练网络因 此我们可以不受限制地使用成批量计算的方法。而这种成批的方法是 第2 0 页 共饰页 四川大学硕士论文 c c 方法的先决条件。随机方法对于大数据集合显得尤其有效。 在 c c 学习中。采用两个不同的判决规则的调整过程一般都会避免使用 后传方法通过隐藏层后传输出误差。但是c b p 算法中显示,允许使 用后传算法通过个且仅仅一个隐藏层来后传误差将是同c c 学习算 法的效率是一样的。因此,c b p 算法同c c 算法的效率是相同的。 c b p 算法还可以实现同时成倍增加新的单元,而且还可以进行不问断 的网络自适应。 c a s c a d e c o r r e l a t i o j n 算法 为了便于对比,先介绍c c 算法。层叠算法的过程如下( f a h l m a n & l e b i e r e 。1 9 9 0 ) : 1 初始化:网络开始没有隐藏层。从输入到输出仅有偏移权值和 直 接连接,输入直接流入输出层。通过最小化误差平方和训练网络 的初始权值。 , h, 2 s s e = ( 以一) 4 1 ) i - ik - i “n 和r 分别是对第1 个样本在第k 个输出单元的理想输 出网络对第1 个样本在第k 个输出单元的实际输出数据样本的 数量和输出单元的个数。 2 训练新的隐藏单元:连接输入到新的单元但是并没有把新的单元 的输出连接到输出单元。通过最大化新单元输出和网络输出误差之 间的绝对协方差调节新单元的权值,代价函数是: ( 4 2 ) y 是新隐藏单元的输出面e ( = d o ) 是网络输出单元的误差歹和 虿的数量值代表y 和e 在所有训练模式中的平均值。a 是协方差 的符号。 夕和。是y 和e减去均值之后的数值 3 固定并连接新节点:永久固定节点的输入权值,并且连接新单元 第2 1 页 共5 6 页 的输出至网络的输出节点。 4 再调整输出节点:通过最小化误差平方和代价函数( 4 1 ) ,调整所 有与输出单元联结的权值。 5 检查是否收敛:如果现有的隐层可以产生满意的解答,就停止训 练否则返回到第2 步。 。 注意到第二步中。新单元的输入包含了初始网络的输入和从前 面已经训练好的隐藏单元来的输出。如果只有初始网络的输入被使用 那实际上我们构建了一个有一个隐藏层的多层感知器网络。如果以前 训练好的单元的输出也被使用做为现在新单元的输入,那我们实际上 构建了如图8 所示的c c 型网络结构。 7 l一 j t - 。厂弋 7 kj 一 田 图8全连接前馈网络结构 c c 结构因此被称为全连接前馈网络。最主要的理由是复杂的全 连接前馈网络结构中没有使用后传算法后传网络误差。在第二步中 c c 算法可以平行训练几个单元然后选择最好的那一个添加到网络 第2 2 页 共5 6 页 四川大学硕士论文 中。 构建型后传算法( c b p ) c c 算法有几个潜在的问题。在算法中,我们需要在两个不同的 代价函数中切换。这引起了两条截然不同的优化路径,因此增加了实 际运算的复杂程度。更进一步,隐藏单元的训练只能使用批量模式。 然后。当数据量很大的时候常常更愿意使用随机优化路径的方法。 因此使用c b p 算法可以弥补以上的缺点其算法过程如下: 1 初始化:这部分过程和c c 算法的第一步相似。只是在初始网 络训练完之后网络的权值将是永久性固定。 2 训练新的隐藏网络:连接输入到新的单元( 设新单元为第i 个单 元,0 ) ,连接他的输出到网络的输出单元,如图9 所示。通过 最小化修正的误差平方和( m s s e ) 调整所有连接到新单元的权 值( 包括输入和输出连接权值) 。 囤 图9 c b p 算法中训练一个新的隐藏单元。参数i 表示新单元的输 入,y 表示以往已经添加到输出单元的连接 m s s e t = ( 以一r 嘞) 2 = j 一) 2 ( 4 3 ) ,j - - 0,t 丸是对于第1 个训练模式而言第k 个输出单元的理想输出,v 。是 从第j 个隐藏神经元到第k 个输出单元的连接( v 0 。表示步骤一中训 第2 3 页 共5 6 页 四川大学硕士论文 练之后的一组权值) h 。是对第1 个训练模式的第j 个隐藏神经元 的输出,p :是对应第1 个训练模式的第k 个输出单元的残差。注 意到该算法只是训练连接到新单元的权值( 包括输入和输出连接) , 因此误差需要使用后传算法通过一层隐藏层向后传播。( 后传算 法见附录1 ) 3 固定新的隐藏单元:永久固定连接到新单元的权值( 这里是所有输 入输出权值都被永久性固定,而不像c c 算法中,只有输入连 接的权值被永久固定) 。 4 检验收敛性:如果现有的隐藏单元数目可以得到满意的结果,停 止训练,否则回到第2 步。 因为在训练之中只使用了个代价函数,因此比起c c 算法。 c b p 算法更能简单的实现。从另外一方面来说,我们只使用一条优 化路径。显然这样可以使实现更加容易。 c c 算法的一个潜在的问题是每次都只能添加一个新的单元到网 络结构中,这就意味着当构建一个比较大的网络的时候,不得不执行 很多次添加新单元的循环计算。每一次循环都包括调整输出权值和同 时训练几个候选单元。【2 8 】中提到每次仅仅训练一个单元很可能不能 有效地减小输出误差,因为单个单元的近似能力非常有限。也就是说, 如果能同时训练多个单元将有更好地减少输出误差的能力。这种同 时增加一批新单元的要求可以用c b p 算法比较容易地实现。只需要 在基本的c b p 算法中修改第2 和第3 步如下: 2 。 训练新的一组隐藏单元:输入连接到这一组新单元。并把他们的 输出连接到网络的输出单元( 图1 0 ) 。通过最小化误差平方和规n ( 4 3 ) 调整所有的与新的一组单元相连接的权值( 包括输入和输出连接) 。注 意在规则( 4 3 ) 中指标j 表示前面已经训练好的组单元( 每个包括多个 单元) 。指标i 表示新的一组单元。 3 。 固定新的一组隐藏单元:永久性固定新的组中与隐藏单元连接的 权值。 第2 4 页 共5 6 页 图1 0c b p 算法训练一组新的单元 固 c c 型算法中另一个重要的问题是算法只是设计来构建和增长网 络结构在训练结束之后网络就保持不变。但是。所要解决的问题随 着时间变化是在不断演变的,所以我们也需要能使原来已经训练好的 结构适应这样的变化必要的时候要剪除一些单元,缩小网络的尺 寸。换句话说,还需要一种算法来执行网络的持续自适应 ( c a s a c o n t i n u o u s a u t o m a t i cs t r u c t u r ea d a p t a t i o n ) 。 在c b p 算法中,我们可以使用分等级式的方法持续进行已经添 加的组单元的自适应,而同步进行增加新的组单元到网络结构中。分 等级的方法区别于其他进行全局计算的方法( 比如,使用通常的梯度 下降方法) 。分等级的方法如图1 1 所示。整个网络按照每个组单元 添加到网络的顺序进行等级划分。因此第一个组单元就是第一个加入 网络最小化误差为8 。的单元,其他的依次类推。显而易见在随后的 训练阶段我们可以持续地分等级进行误差的最小化。比如组单元i 最 小化误差为p 。新加入的组单元则最小化前面已经训练好的组单元留 下来的残留误差。换句话说我们不断地使用相同的网络的构筑策 第2 5 页共5 6 页 四川大学硕士论文 略。举例来说。从组单元2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 惠州市消防救援支队政府专职消防员招聘考试真题2024
- 2025年安徽皖信人力资源管理铜陵分公司招聘20人模拟试卷及答案详解一套
- 2025广西崇左市凭祥市国防动员办公室招聘1人模拟试卷及参考答案详解1套
- 2025年蒲江县公开招聘事业单位工作人员(14人)考前自测高频考点模拟试题及答案详解(夺冠)
- 2025年广东云浮市云安区招聘教育人才9人(南宁师范大学校区专场)考前自测高频考点模拟试题含答案详解
- 2025广东佛山市狮山镇镇属企业专业技术人员招聘1人模拟试卷及答案详解(历年真题)
- 2025年春季福建华南女子职业学院人才招聘15人考前自测高频考点模拟试题及参考答案详解
- 2025年南昌市劳动保障事务代理中心招聘统计监测劳务外包工作人员1人考前自测高频考点模拟试题附答案详解(完整版)
- 2025广东广州市云迅供应链管理有限公司招聘6人模拟试卷参考答案详解
- 2025河南农商银行系统社会招聘考前自测高频考点模拟试题及答案详解(有一套)
- 汽车行业中的环境保护与可持续发展
- 打起手鼓唱起歌混声合唱简谱
- 空调安装免责协议
- QGW 201175-2019-金风陆上风力发电机组 塔架通用防腐技术规范
- 老友记第一季字幕
- 输电线路风偏计算基本方法
- 骨科概论课件
- 第5章光电成像系统
- GB/T 9117-2010带颈承插焊钢制管法兰
- GB/T 5455-2014纺织品燃烧性能垂直方向损毁长度、阴燃和续燃时间的测定
- GB/T 30475.2-2013压缩空气过滤器试验方法第2部分:油蒸气
评论
0/150
提交评论