




已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)神经网络集成算法研究及在基因表达数据分析中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华 中 科 技 大 学 博 士 学 位 论 文 摘要 神经网络集成技术是神经计算技术的一个研究热点, 在许多领域已经有了成 熟的应用。神经网络集成是一项相当成功的技术,它用有限个神经网络对同一个 问题进行学习,集成在某输入示例下的输出由构成集成的各神经网络在该示例下 的输出共同决定。负相关学习法是一种神经网络集成的训练方法,它鼓励集成中 的不同个体网络学习训练集的不同部分,以使整个集成能更好的学习整个训练数 据。负相关学习法通过在误差函数中使用一个惩罚项来创建集成中负相关的个体 网络。 微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的 分析己成为生物信息学研究的焦点。微阵列基因表达数据具有维数高、样本小、 非线性的特点。 以一个典型的微阵列基因表达数据集为背景研究了神经网络集成的理论和方 法。在理论上讨论了神经网络集成的原理;针对原始负相关学习法收敛速度慢的 缺点,给出改进的神经网络集成负相关学习方法;以神经网络集成理论为基础, , 针对微阵列基因表达数据集, 实现了基于神经网络集成的基因表达数据分析软件, 给出了分类器的构造模型: 采用信噪比进行基因特征提取, 用最小一 最大方法迸行 规范化,用神经网络集成构造分类器,将该模型和神经网络集成的改进方法应用 到一个典型的基因表达数据中,取得了较好的实验效果。 关键词:生物信息学, 基因表达数据,神经网络集成,负相关学习法 华 中 科 技 大 学 硕 士 学 位 论 文 ab s t r a c t n e u r a l n e t w o r k e n s e m b l e ( n n e ) i s a h o t t o p i c o f n e u r a l c o m p u t e , w h i c h h a s b e e n a p p l i e d i n m a n y f i e l d s .a n e u r a l n e t w o r k e n s e m b l e i s a v e r y s u c c e s s f u l t e c h n i q u e w h e r e t h e o u t p u t s o f a s e t o f s e p a r a t e l y t r a i n e d n e u r a l n e t w o r k a r e c o mb i n e d t o f o r m a u n i f i e d p r e d i c t i o n .n e g a t i v e c o r r e l a t i o n l e a r n i n g ( n c l ) a l g o r i t h m f o r t r a i n i n g n n e i s t o e n c o u r a g e d i f f e r e n t i n d i v i d u a l n e t w o r k s i n a n e n s e mb l e t o l e a r n d i f f e r e n t p a r t s o r a s p e c t s o f a t r a i n i n g d a t a s o t h a t t h e e n s e m b l e c a n l e a r n t h e w h o l e t r a i n i n g d a t a b c t t e r .n c l c a n c r e a t e n e g a t i v e l y c o r r e l a t e d n e u r a l n e t w o r k s u s i n g a c o r r e l a t i o n p e n a l t y t e r m i n t h e e r r o r f u n c t i o n . b a s e d o n m i c r o a r r a y e x p e r i m e n t , t h e e x p r e s s i o n l e v e l o f t h o u s a n d s o # g e n e s c a n b e s i m u l t a n e o u s l y o b s e r v e d , a n d t h e m e t h o d o f t h e a n a l y s i s f o r t h e g e n e e x p r e s s i o n d a t a s i s h o t i n b i o i n f o r m a t i c s . t h e d a t a s h a v e s o m e t r a i t s , s u c h a s s m a l l s a m p l e s , h i g h d i me n s i o n a l i t y , n o n l i n e a r i t y , t o o . t h e t h e o ry a n d m e t h o d o f n e u r a l n e t w o r k e n s e mb l e w e r e s t u d i e d i n t h e g i v e n g e n e e x p r e s s i o n d a t a . ma n y m e t h o d s h a v e b e e n d i s c u s s e d . a n e w a l g o r i t h m b a s e d o n n c l h a s b e e n p u t f o r w a r d i n s l o w s p e e d o f t r a i n i n g . f i n a l l y , a s o f t w a r e -g e n e n c l b a s e d n c l f o r g e n e e x p r e s s i o n d a t a i s a c h i e v e d a n d a c l a s s i fi e r m o d e l i s p u t f o r w a r d : t h e g e n e s u b s e t a r e e x t r a c t e d b y t h e m e t h o d o f s i g n a l t o n o i s e r a t i o , a n d d a t a s a r e n o r m a l i z e d b y m i n - ma x m e t h o d , a c l a s s i fi e r i s b u i l t b y t h e m e t h o d o f n c l , a c l a s s i f i e r m o d e l b a s e d o n a b o v e t h e o r i e s i s s u c c e s s f u l l y a p p l i e d i n a t y p i c a l g e n e e x p r e s s i o n d a t a s . k e y w o r d s : b i o i n f o r m a t i c s , g e n e e x p r e s s i o n d a t a , n e u r a l n e t w o r k e n s e m b l e , n e g a t i v e c o r r e l a t i o n l e a r n i n g 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取 得的研究成果。 尽我所知, 除文中已经标明引用的内容外, 本论文不包含任何其 他个人或集体已 经发表或撰写过的研究成果。 对本文的研究做出贡献的个人和集 体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承 担 。 学 位 论 文 作 者 s ?i : ( 磷 日 期 : 2l70 十 年 斗 月 峪日 学位论文版权使用授权书 本学位论文作者完全了 解学校有关保留、 使用学位论文的规定,即: 学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅 和借阅。 本人授权华中科技大学可以 将本学位论文的全部或部分内 容编入有关数 据库进行检索, 可以 采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 保密口 ,在年解密后适用本授权书。 本论文属于 不保密口。 ( 请在以上方框内打 “ , j ) 学位论文作者签名: 日期: z o ,) 平仟 月 z 指 导 教 师 签 名 :-1丢 日 期 i 年 4, j 7. 日 玛 月门. .枯门日 华 中 科 技 大 学 硕 士 学 位 论 文 1 绪论 1 . 1 本文研究的背景 最近几年, 神经网 络集成( n e u r a l n e t w o r k e n s e m b l e , 简称 n n e ) 已成为神经网 络界研究的热点。由于缺乏严密理论体系的指导,神经计算的应用效果完全取决 于使用者的经验。虽然h o r n i k l i 等人证明,只需一个具有单隐层的前馈网络就可 以逼 近任意复杂度 的函数 ,但如何找到合 适 的网络配 置 却是 一个 n p ( n o n d e t e r m i n i s t i e p o l y n o m i a l , 非 确定多 项式 ) 问 题。 在实际应用中,由于 缺乏问 题的先验知识, 往往很难找到理想的网络结构, 这就影响了网络泛化能力的提高。 1 9 9 0 年 , h a n s e n 和s a la m o n 2 3 开 创性的提出了 一种方法, 即 神经网 络集成, 为上述 问题的解决提供了一个简易可行的方案。使用这种方法,可以简单地通过训练多 个神经网络并将其结果进行合成,显著地提高学习系统的泛化性能。由于其易于 使用且效果明显, 即使是缺乏神经计算经验的普通工程技术人员也可以从中受益。 因此,对神经网络集成的研究不仅会促进神经计算乃至所有统计学习方法的理论 研究,还会极大地促进神经计算技术进入工程应用的进程。目 前,国际上很多神 经计算、统计学的研究者都投入到神经网络集成的研究中,使得该领域成为了一 个相当活跃的研究热点。 d n a ( 脱氧核糖核酸) 微阵列( 基因芯片) 基因表达数据分析是生物信息学目 前 的研究重点和热点之一卜 ” 。 传统的基因分析方法是一种静态的、 局部的方法, 一 次只能检测和收集单个基因的信息。基因芯片( b i o c h i p ) 的出现为解决以上问题提 供了一个新的方法,该技术将大量序列已知的寡聚核昔酸固定在支持物上,与标 记的样本分子进行杂交,通过检测杂交信号的强弱获取样本分子的数量和序列信 息。 基因芯片技术可同时检测数以万计的基因表达水平, 为进行基因组层次的大规 模基因表达数据分析等研究提供了有效的信息检测手段。基因芯片的广泛使用将 产生海量的基因表达数据, 如何从中有效地挖掘出具有生物学意义的基因功能信 息己是问题的关键所在。 本文讨论的主题集中在神经网络集成算法研究及在基因表达数据分析中的应 一一 目幽 , ,气 .晌 响口,口 ,., . . . . .曰. , , ,.曰一一一一钟. , 帅, . 一-. 月 侧 . 一 , , . . . 目 . , . , . i 华 中 科 技 大 学 硕 士 学 位 论 文 用,研究工作基于利用基因表达数据分析进行癌症分类预测和诊断。在多年的癌 症疾病研究中,科学家和医学工作者们认识到,癌症并不只是某一种疾病,在它 的背后,隐藏着形形色色,变化多端的种类,有几百种这样的癌症存在着。它们 一直难以攻克的主要原因是 山于每一种癌症都有自己的特点, 一种药物并不能对 各个不同组织的癌症都能产生疗效, 有些能抑制住肿瘤细胞, 但有些却毫无作用, 甚至在病症上相同的癌症, 也无法用一种药物达到治疗的目的。 现在, d n a微阵 列技术可以帮助我们对这些癌症分类,并加以定义,而且还能帮助我们寻找新的 治疗药物。 癌症分类技术要解决的主要fa ll 题有两个( $ 1 . 癌症分类发现和癌症分类预 测。癌症分类发现是指定义以前未识别出的癌症子类;癌症分类预测是指将特定 的傅症样本识别到已定义的癌症类上。本文主要研究癌症分类预测问题。 1 . 2 国内外研究现状 国内外许多机构与学者都开展了基因表达数据分析方法的研究。 其中有采用 聚类同、 人工神经网 络川 、 k n n ( 最近邻域法尹 】 、支持向 量机19 1 等机器学习 方法 分析基因表达数据,已见文献报道中大多侧重构造一种分类器对某个公共数据 集进行测试, 缺乏对分析方法的系统阐述, 由于生物系统基因功能的复杂性, 基 因表达数据的高维数、小样本、非线性特征, 全面考虑数据分析的各个环节才能 获得稳定有效的分析方法与软件系统。 上述分析方法中,神经网络作为一种有监督学习方法,具有非线性、自 适应 性、容错性等优点,在很多领域取得了成功的应用。然而,由于神经网络的泛化 能力较差,且较难确定合适的神经网络模型,其应用受到了一定的限制。 现实世界中许多问题太庞大、复杂以至于很难使用单个系统来独立解决。在 自 然系统和人工系统中有很多例子表明,含有几个子系统的集成系统在令人满意 地解决复杂问题时,能有效地减少整个系统的复杂度。神经网络集成就是一个这 样的例子。神经网络集成采用的是一种 “ 分而治之”的策略。与采用单个神经网 络来解决一个任务的思想不同的是,一个神经网络集成使用多个子网络,利用它 们来分别学习任务的不同子部分,并结合这些子网的学习结果,从而能更有效的 解决问题。 设计一个 含有多 个子系统的集成学习 系统的 思想可以 追 溯到1 9 5 8 年 ! to . 川 。 在 2 0世纪 9 0年代早期, 基于上述思想, 发展出了许多虽然不同但是有着相关形式 z 华 中 科 技 大 学 硕 士 学 位 论 文 的 算法, 如 神 经网 络集 成2 . 1 2 1 、 混合专家系 统 i 3 - 16 1 , b o o s t i n g 和b a g g i n g 方 法1 u - 1 9 1 等。其中,b o o s t i n g 和b a g g i n g 算法虽然并非专为神经网络所设计,但由于其与 神经网络集成有着难以分割的血缘关系,因些本文也将对其进行介绍。 自从神经网络集成的概念和思想提出后, 关于此方面的研究及应用日益增多。 最初的研究工作主要集中在如何将神经网络集成技术用于具体的应用领域。从上 世纪九十年代中后期开始,有关神经网络集成的理论研究受到了极大的重视,大 量研究者涌入该领域,理论和应用成果不断涌现,使得神经网络集成成为目前国 际机器学习和神经计算学界的个相当活跃的研究热点。 在神经网络集成的理论研究中,目 前主要存在着两方面内容2 0 1 。 一方面,研 究者们试图设计出更有效的神经网络集成实现方法 以直接用于解决问题。 另一方 面, 研究者们试图对神经网络集成进行理论分析, 以探明这种方法为何有效、在何 种条件下有效,从而为实现方法的设计提供指导。 对神经网络集成实现方法的研究主要集中在两个方面,即怎样将多个神经网 络的输出结论进行结合及如何生成集成中的个体网络。 ( 1 )结论生成方法 当神经网 络集成用于分类器时2 0 1 集成的 输出 通常由 个体网 络的 输出 投票产 生,一般采用绝对多数或相对多数投票法。理论分析和大量试验表明,相对多数 投票法要优于绝对多数投票法,目前大多采用相对多数投票法。当神经网络集成 用于回归估计时, 集成的输出通常由各网络的输出通过简单平均或加权平均产生。 ( 2 )个体生成方法 个体生成方面,最重要的技术是b o o s t i n g 和b a g g i n g 算法。b o o s t i n g 算法的 基本思想12 1 是依次训练一组分量分类器, 其中每个分量分类器的训练集都选择已 有的其它各个分类器所给出的 “ 最富信息”的样本点组成。最终的判决结果则是 根据这些分类器的结果共同 决定。b a g g in g方法的基础是可重复取样( b o o t s t r a p s a m p l i n g ) , 其训练集由从原始训练集中随机选取, 训练集的规模通常与原始训练 集相当,训练样例允许重复选取。这样,原始训练集中某些示例可能在新的训练 集中出现多次,而另外一些样例可能一次也不出现。b a g g i n g方法通过重新选取 训练数据增加了神经网络集成的差异度,从而提高了泛化能力。 此外还存在着多种个体生成方法。如有的研究者将各子网并行训练以取得误差 负相关的子网 2 2 1 有的 研究者利用遗传算法进化出的神经网 络种群作为集成中的 个 3 华 中 科 技 大 学 硕 士 学 位 论 文 体2 3 对神经网络集成理论分析的研究主要集中在两个方面,即对结论生成方法的 分析及对网络个体生成方法的分析 2 0 ( 1 )结论生成方法分析 1 9 9 6 年, s o l l i c h 和k r o g h 2 4 指出, 在神经网 络集成规模较大时, 对结论的 生 成适于使用简单平均等结论合成方法;而在神经网络规模较小或数据集中噪音较 多时,对结论的权进行优化将提高学习系统的泛化性能。 1 9 9 5 年, k r o g h 和v e d e l s b y 1 给出 了 神经网 络 集成 泛化误 差计 算公 式。 并 指 出, 若集成是高度偏向 ( b i a s e d ) 的, 集成的泛化误差接近于各网络泛化误差的加权 平均。反之,若集成中各网络是相互独立的,则集成的差异较大,其泛化误差将 远小于各网络泛化误差的加权平均。 0 ( 2 - 1 ) 其中每一个、, 是一个实数常量,或叫做权值 w e i g h t ) ,用来决定输入二 , 对 感知器输出的贡献率。其中,数量- 输入的加权和、 i x i +w z x z +w 、。 是一个闽值,它是为了使感知器输出 1 x 3 _+、。 x 。必须超过的闽值。 为简化表示,可假想有一附加的常量输入二 。=1 , 上式可写成 0( x)=s gn(w. x)( 2 - 2 ) 其中: 了y 0 勺.且 1- 产!1破lee、 - s gn( y )( 2 - 3 ) 学习一个感知器意味着选择权的值,所以感知器学习要考虑的候选假设空间 就是所有可能的实数值权向量的集合。式( 2 - 2 ) 称为此单元的激活函数。事实上, 激活函数还可以取线性函数、s i g m o i d 函数等。 可以 把感知器看成是n 维实例空间中的超平面决策面。对于超平面一侧的实 例输出1 , 对于另一侧的实例输出一 1 。 可以被分割的正反样例称为线性可分( l i n e a r l y s e p a r a b l e ) 样例集合。 单独的感知器可以用来表示很多布尔函数。 如可以表示所有的原子布尔函数: 与、或、与非、或非。然而遗憾的是,一些布尔函数无法用单一的感知器表示, 例如异或函数。感知器表示与、或、与非、或非的能力是非常重要的,因为所有 的布尔函数都可表示为基于这些原子函数的互连单元的某个网络。事实上,仅用 8 华 中 科 技 大 学 硕 士 学 位 论 文 一= = = = = = = = = = . = = = = 两层深度的 感知器网 络就可 表示所有的布尔函数, 在这些网 络中 输入被送到多个 单元,这些单元的输出被输出 到第二级,也是最后一级。因为闽值单元的网 络可 以表示大量的函数, 而单独的单元不能做到这一点,所以 通常我们感兴趣的是学 习闭值单元组成的多层网络。 虽然我们的目 的是学习由多个单元互连的网络,但我们还是要从如何学习单 个感知器的 权值开始。准 确的 说, 这里的 学习 任务是决定 一个 权向 量, 它可以 使 感知器对于给定的训练样例输出正确的 1 或一 l a 最常用的学习方法有两种:感知器法则和 d e l t a法则 这两种算法保证收敛 到可接受的假设,在不同的条件下收敛到的假设略有不同。这两种方法对于人工 神经网络是很重要的,因为它们提供了学习多个单元构成的网络的基础。 为得到可接受的权向量,一种办法是从随机的权值开始,然后反复的应用这 个感知器到每个训练样例,只要它误分类样例就修改感知器的权值。 重复这个过 程, 直到 感 知 器正 确分 类所 有的 训 练 样例。 每一 步根 据感 知 器 训 练法 则 ( p e r c e p t r o n t r a i n i n g r u l e ) 来修改权值,也就是修改与输入x对应的权w , 法则如下: w= w, + r/ ( d 一 。) x ;( 2 - 4 ) ( 2 - 4 ) 式中,d 和0 为目 标向 量和网 络输出向 量,n 是学习 速率( l e a r n i n g r a t e ) 或学习步长,为一个正的常数。学习速率的作用是缓和每一步调整权的程度。它 通常被设为一个小的数值。 事实上可以证明,在有限次地使用感知器训练法则后,上述的训练过程会收 敛到一个能正确分类所有训练样例的权向量,前提是训练样例线性可分,并且使 用了充分小的n 。如果数据不是线性可分的,那么不能保证训练过程收敛。 由于当数据不是线性可分时,感知器法则将不能收敛。因此,人们使用了另 一个训练法则来克服这个不足,称为d e l t a 法则( d e l t a r u l e ) 。如果训练样本不是线 j睦可分的,那么,d e l t a 法则会收敛到目标概念的最佳近似。 d e l t a法则的关键思想是使用梯度下降( g r a d i e n t d e s c e n t ) 来搜索可能的权向量 的假设空间,以找到最佳拟合训练样例的权向量。可将其理解为训练一个无闭值 的感知器,也就是一个线性单元( l i n e a r u n i t ) 。这个法则很重要,它为反向传播算 法提供了基础,而反向传播算法能够学习多个单元的互连网络。这个法则重要性 的另一个原因是,对于包含多种不同类型的连续参数化假设的假设空间,梯度下 降是必须遍历这样的假设空间的所有学习算法的基础。 d e l t a 法则的权值更新法则 一一一,一一月 一一一 叫 一一 一 9 华 中 科 技 大 学 硕 士 学 位 论 文 女 口 下 : w 二、 , +n y ( d 。 一“ ) 、 ( 2 - 5 ) ( 2 - 5 ) 式中, 17 为训练集, n 为训练集中样本。 无论训练样例是否线性可分, 这个算法会收敛到具有最小误差的权向量, 条件是使用一个足够小的学习速率n。 如果 几 太大, 梯度下降搜索就有越过误差曲面最小值而不是停留在那一点的危险。 式( 2 - 5 ) 中给出的梯度下降训练法则是在对 d 中所有训练样例求和后计算权值更 新。应用梯度下降的主要实践问题有收敛过程慢、易陷入局部极小等困难。缓解 这些困难的一个常见梯度下降法则变体是随机梯度下降( s t o c h a s t i c g r a d i e n t d e s c e n t ) 法则。 其基本思想是根据每个单独的误差增量计算权值更新, 得到近似的 梯度下降搜索。修改后的训练与式( 2 - 5 ) 相似,只是在迭代计算每个训练样例时根 据式( 2 - 6 ) 来更新权值。 、,= w, +rl( d 一a) x : ( 2 - 6 ) 通过使用足够小的学习速率几 , 可以使随机梯度下降以任意程度接近于真实 梯度下降。在实践中,无论是标准梯度下降或随机梯度下降都被广泛应用。这两 种法则无论训练样例是否线性可分都会收敛,虽然可能需要极长的时间。 2 . 3 前馈神经网络 前馈神经网络由多个单元互连而成。构成前馈神经网络的各神经元接受前一 级输入, 并输出到下一级, 无反馈, 可用一有向无环图表示。图的节点分为两类, 即输入节点与计算单元。每个计算单元可有任意个输入,但只有一个输出,而输 出可祸合到任意多个其他节点的输入。前馈网络通常分为不同的层,第 i 层的输 入只与第 i - 1 层的输出相联,这里认为输入节点为第一层。输入和输出节点由于 可与外界相连,直接受环境影响,称为可见层,而其他的中间层称为隐层,如图 2 - 1 所示。 k o l m o g o r o v 证明, 当神经元的激活函数可微时, 任何从输入到输出的连续映 射函数都可以用只含一个隐层的三层网络实现。前提是给出足够数量的隐单元、 适当的非线性激活函数和权值。通常神经元的激活函数取 s i g m o i d函数 f ( x ) = 1 + e , 选择s i g m o i d 函数的原因是它具有以下有益的特性: 非线性、 单调 性、 无限次可微、当权值很大时可近似阂值函数、当权值很小时可接近线性函数。 一一一 一峪 . . 七 . . 山 目 目 . 口 . , a o 华 中 科 技 大 学 硕 士 学 位 论 文 常用的神经元激活函数还有双曲正切函数f ( x ) = t a n h ( x ) 等。 计算单元 输入节点 图2 - 1 前馈神经网络示意图 2 . 4 反向传播算法 任何从输入到输出的映射函数都可以由一个三层前馈网络来执行。现在的关 键问题是:根据训练样本和期望输出来设置合适的权值。 8 4 年代初r u m e lh a r t 及l e c u n 14 11 等学者 提出的多 层感知器的反向 传播算法是 多层神经网络有监督训练中最简单也最一般的方法之一。其它方法可能更快或具 有其它一些特点,但很少比它更有启发价值。 2 . 4 . 1 反向传播算法 对于有监督的网络学习,提供了一个输入模式,并改变网络参数使实际输出 更加接近期望教师信号或目 标值。 基本的学习方法是从一个未训练网络开始,向输入层提供一个训练模式,再 通过网络传递信号,并决定输出层的输出值。此处的这些输出都与目 标值进行比 较;任一差值对应一误差。该误差或准则函数是权值的某种标量函数,它在网络 输出与期望输出匹配时达到最小。权值向着可以减小误差值的方向调整。尽管有 很多方法可以定义这个误差,一个常用的特别方便的误差函数为平方误差函数: e ( w )一 生 女 (d , 一 。 l ) z = 2k _- 1 一 d一。( 2 - 7 ) ( 2 - 4 ) 式中 ,汤 和言 是 长 度为。 的目 标向 量 和网 络输出向 量,寻表 示网 络中 所 有的权值。 反向传播算法是基于梯度下降法的。权值首先被初始化为较小的随机值,然 后向误差减小的方向调整。 诗口e dw=一 刀 - 二 丁 ( 2 - 8 ) a w 一一一 晌 - 一 叭 钾 种种 , , , , 户 , 户 . . . . ,种 种 种 种 , i 华 中 科 技 大 学 硕 士 学 位 论 文 或者用分量形式表示 wi , a万 二- 7 7 - - a w , ( 2 - 9 ) 式( 2 - 8 ) 和( 2 - 9 ) 中 ,n 是 学习 率, 仅表示 权 值的 相对 变化尺 度: 茹 , 表 示为与 单 元1 的第i 个输入相关联的 权值。式( 2 - 8 ) 和( 2 - 9 ) 的优点在于它的简明,即仅需要 我们在权值空间中只进行一步搜索以减小误差函数,由式( 2 - 6 ) 可以清楚的知道这 个误差函数必不可以为负。而且,该学习规则保证学习一定可以收敛 ( 病态情况 除外) 。迭代算法在第m次迭代时取一个权向量并将它更新为 一币, 申 呵m+ 1 ) = w ( m ) 十 ( m ) 现分 析( 2 - 9 ) 式 , 定 义, 、 , 二 e 舔: ,( 单 元 ( 2 - 飞 0 ) j 的 输入的 加权和, : , 为单元j 的 第i 个输入) , 注意到权值 式规则( c h a i n r u l e ) 得到 w 、 仅能通过。 e t; 影响网 络的其它部分, 所以 我们 可以 使用 链 a e o w ;, ( 2 - 1 1 ) _ _ ,_ , ,、 、 二、 , a e 现在a 卜 n仕9 - 就 :e )u二 一 一 , a n e r i 导出一个方便的表达式。 依次考虑两种情况 种情况是单元j 是网络的一个输出单元, 另一种情况是j 是网络的一个内部单元。 ( 1 ) j 为输出单元的情况 正 如 权 值 vv , 仅 能 通 过 、 if 影 响 网 络 的 其 它 部 分 一 样 , 、 。 仅 能 通 过 单 元 i 的 输出d ; 影 响网 络, 所以 可以 再 次 使用链式 规 则 , 并 结 合式 ( 2 . 4 ) 得出 : a i a n e t ; a e a o i a o ; a n e t, = 一 ( d , 一 。 ) .f ( n e t , ) ( 2 - 1 2 ) 结合式( 2 - 1 2 ) , ( 2 - 1 1 ) , ( 2 - 9 )可得 冲e a 命 a wj i =- t 7 一 一 不 万 日 w ;, 二 77 ( d , 一 。 ) f n e t ) 二 , 份 1 3 ) 一一一一一一 1 2 华 中 科 技 大 学 硕 士 学 位 论 文 ( 2 ) j 为隐层单元的 情况 对于网络中的内 部单元或者说隐藏单元的情况,推导w , 必须考虑到n t ,, 间接 地影响网络输出,从而影响误差 e 。由于这个原因,可定义网络里所有单元的直 接下游( i m m e d i a t e l y d o w n s t r e a m ) 单元的集合( 也就是直接输入中包含单元j 的输出 的所有单元) 为 d o w n s t r e a m ( j ) 。注意到n e t , 只能通过 d o w n s t r e a m 臼 ) 中的单元影响 网络输出,从而再影响e ,所以可以得出如下推导: 7, 8 e 8 n e t k ( ) 8 n e t k 枷 e t 。_加e t , =)一 d k k . d nw ns tre a m ( j ) o n e t , 一 i 一 ,5 k w k f ( n e t ; ) k e d o w n s t r e a m( j ) ( 2 - 1 4 ) _ _ , _ _ 、 , _ _ _8 e, 二, 重o t 组5 n 谷坝开用a衣不一 丁- - ,得到 o n e t i s ; = 艺s k w k, f ( n e tj ) ( 2 - 1 5 ) k e d a w nt r e a m臼) 结合式( 2 - 1 2 ) , ( 2 - 1 1 ) , ( 2 - 9 )可得: a w ; , = t 8 , x , ; ( 2 - 1 6 ) 2 . 4 . 2 训练协议 广义地说,有监督的训练就是给出一个类别标记己知的模式一 训练集一 找到网 络的输出,并调整权值以使实际输出更加接近于期望的目标值。三种最有用的训 练协议( 或学习协议) 是随机训练( s t o c h a s t i c ) 、成批a il 练( b a t c h ) 和在线训练( o n l i n e ) . 在随机训练中,模式是随机地从训练集中取出的,网络权值也根据不同的模 式进行更新。这种方法被称为随机是因为训练数据可认为是一个随机变量。我们 用步( e p o c h ) 来描述模式提供的总数, 其中一步对应于训练集的所有模式都提供给 输入层一次。步的次数表示训练的相对总量。 在成批训练中,所有的模式己在训练之前全部送往网络中。然后它们所对应 的权值更新相加;只有这时网络里的实际权值才开始更新。这个过程将一直迭代 一. 目 州 一 目 一, .一, .-. 一, 叫 一 , 呻 月 . 一-, 一一-. . . . . .目. . . . .目 . . . . . .目. . . . . . . 目. .目 . . . . . . . . . . . . . . . .网. . .月. . . . . ., ., 叫. .,. ., .叫 . . . . .目 .目 . 1 3 华 中 科 技 大 学 硕 士 学 位 论 文 直到某停止准则满足。 2 . 4 . 3 泛化、过拟合 在早期的神经网络研究中, 人们总是把注意力集中在如何使误差函数值更小, 但很快发现,一味追求训练误差小并不是总能达到很好的预测效果。人们将学习 机器对未来输出进行正确预测的能力称为泛化性或推广性,某些情况下,当训练 误差过小反而会导致推广能力的下降,这就是几乎所有神经网络研究者都曾遇到 的所谓过拟合( o v e r f i t t i n g ) 问题口 之所以出现过学习现象,一是因为学习样本不充分,二是学习算法设计不合 理,这两个问题是互相关联的。在神经网络中,如果对于有限的训练样本来说网 络的学习能力过强,足以记住每一个训练样本,此时经验风险很快就可以收敛到 很小甚至零,但我们却根本无法保证它对未来新的样本能够得到很好的预测。这 就是有限样本学习机器复杂性与推广性之间的矛盾。 2 . 4 . 4 带冲量项的改进反向传播算法 在实用中反向传播算法存在两个主要问题,即收敛速度慢和目标函数存在局 部极小点。关于解决这些问题有许多种方法,其中一种就是带冲量项的改进反向 传播算法。 在实际应用中, 学习步长 几 的选择很重要,n 大则收敛快, 但过大则可能引起不 稳定;几 小可避免振荡,但收敛速度变慢,解决这一矛盾的最简单方式是加入 “ 冲量 项” 。即令: a w it ( m ) = 1 7 戈 ( m ) x i , ( m ) + a a w( m - 1 ) 0 a 1 ( 2 - 1 7 ) 式( 2 - 1 7 ) 中右边第一项是标准反向传播算法的修正量,第二项称为冲量项。 引入冲量项后,可以加快收敛速度。为了理解这个冲量项的作用,设想梯度下降 的搜索轨迹就好像一个无冲量的球沿误差曲面滚下。a的作用是增加冲量,使这 个球从一次迭代到下一次迭代时以同样的方向滚动。冲量有时会使这个球滚过误 差曲面的局部极小值或使其滚过误差曲面上的平坦区域。如果没有冲量,这个球 有可能在这个区域停止。它也具有在梯度不变的区域逐渐增大搜索步长的效果, 从而可以加快收敛。 ., 气. ,甲 ,代 , 闷,侧 州, , 卜 , , 尸 , , , , . , . . , . . . . . . . . . . . 幽 . . . , , , , , , ,. ,一 . 一, 一一. . . . ,. . . 云. 甲 . , . . . . . . - 1 4 华 中 科 技 大 学 硕 士 学 位 论 文 2 . 4 . 5 反向传播算法的优缺点 反向传播算法具有自组织、自适应及自学习功能等优点,在实际中得到了广 泛的应用。 但是它也存在着收敛速度慢、 易陷入局部极小、 泛化性能较差等缺点。 另外,虽然任何从输入到输出的映射函数都可以由一个三层前馈网络来执行,但 如何来确定合适的网络结构仍然是一个 n p问题,实际中往往通过经验参数来确 定网络结构,这在一定程度上限制了它的应用。而神经网络集成可使确定网络系 统的结构、提高网络系统的泛化性能、避免陷入局部极小等方面的问题得到一定 的改善。 1 . 5 小结 本章简要介绍了感知器、人工神经网络和前馈网络的基本概念;对最常用的 一种神经网络学习算法一 反向传播算法进行了介绍; 并介绍了一种反向传播算法的 改进算法,即带冲量项的反向传播算法。 一抽 . - - , 一 . 分 , - i 5 华 中 科 技 大 学 硕 士 学 位 论 文 3 神经网络集成的负相关学习法 3 . 1 负相关学习法的基本概念 1 9 %年, s o l i c h 和k r o g h l2 0 为神经网 络集成下了 一个定 义,即: “ 神经网 络 集成是用有限个神经网络对同一个问题进行学习,集成在某输入示例下的输出由 构成集成的各神经网络( 个体网络) 在该示例下的输出 共同决定” 。 常用的一些神经网络模型在学习过程中容易陷入局部极小, 这通常被认为是 神经网络的主要缺点之 一。然而,有人认为,这特性对神经网络集成泛化能力 的提高起到了重要作用。这是因为,如果各神经网络互不相关,则它们在学习中 很可能会陷入不同的局部极小,这样神经网络集成的差异度( v a r i a n c e ) 就会很大, 从而减小了泛化误差,换句话说,各局部极小的负作用相互抵消了。 在生成集成中个体网络方面,大多数方法采用的是一种两阶段设计过程,即 首先对个体网络进行独立地和顺序地训练, 然后将之组合成神经网络集成。 这样, 不仅丧失了个体网络之间的交互性, 而且在训练和组合两阶段之间没有反馈过程, 因 此, 可能 导至某些个 体网 络对于整个集成毫无贡献。 此外,文 献13 7 1 中 指出, 当 神 经网络集成中个体网络差异较大时,集成的效果较好,但如何获得差异较大的个 体网络及如何评价多个网络之间的差异度, 目前仍是一个研究的热点。 在这方面, l i u 和y a o 2 2 . 3 4 . 3 5 1 于1 9 9 9 年 提出 的 负 相 关 学习 法是 一 种 很 有 潜力 的 方 法 负相关学习法鼓励神经网络集成中的不同的个体网络学习训练数据中的不同 部分或方面,以使得神经网络集成能更好的学习整个训 练集。 负相关学习法与其 它神经网络集成学习法的不同之处在于其它的学习方法以顺序或独立的方式来训 练个体网络,而负相关学习法通过在神经网络集成中各个体网络的误差函数中引 入一个相关性惩罚项来并发的训练这些个体网络。负相关学习法试图在同一个学 习过程中来训练和组合各个体网络。也就是说,每个个体网络训练的目的是使得 整个神经网络集成取得最好的训练结果。 负 相 关 学习 法与 混 合 专家 ( m ix t u r e s - o f - e x p e r t s ,简 称m e ) 结 构也不同。 混 合 专 家结构中含有一个选通网( g a t i n g n e t w o r k ) 和一些个体专家网络,它也能训练出高 度偏向( b i a s e d ) 并且负相关的个体网络来。 而负相关学习法并不需要选通网, 而是 1 6 华 中 科 技 大 学 硕 士 学 位 论 文 通过使用一个全局的误差函数来做到这一点。负相关学习法中的惩罚系数入提供 了一个方便的方法来平衡偏差一 方差一 协方差这三者间的折衷4 0 1 , 而混合专家系统 就不能提供控制这种折衷的方法。 设 训 练 集为d = ( x , d ( 1 ),- , ( 牙 二 , d ( n ) 其中n为样本数,x i e r 0 ,不失一般性冷 d , 为标量,表示目标输出;简单 地采用神经网络集成中各个体网络输出之和的平均值作为集成的输出值。即: f( n ) =舟i 竺 f , ( n ) ( 3 一 1 ) 其中m为集成中个体网络数, f , ( n ) 为个体网络i 在第n 个训练样本上的输出, f l ., ) 为集成在第n 个训练样本上的输出。 负相关学习法在每个个体网络的误差函数中引入了一个惩罚项,使得所有的 个体网络能够同时交互地在同一个训练集上进行训练。负相关学习法中,第 i 个 个体网络的误差函数e可定义为 e = n 艺 犷 二 , e, ( n) 尸, ( 儿 ) 一d( n ) ) + p ( 。) ( 3 - 2 ) 式 ( 3 - 2 )中,e; ( n ) 为 第i 个个体网络的 误差函数在第n 个样本上的值。 式中等式右边第一项是第 i 个个体网络的经验误差函数, 第二项为相关性惩罚项, p , 为第i 个个体网 络的 相关性惩罚函 数, 通过最小化p , 使 得每个个体网 络的 误差 与集成中所有剩下的个体网络的误差之间向负相关的方向 变化。 通过参数0 5 a _ 1 来调节惩罚的 力 度。 在第n 个训练样 本上惩罚函 数p ; ( n ) 的 形式为: p ; ( n ) = ( f ; (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市场调研分析方法
- 宠物行业市场结构分析报告:2025年宠物保险市场增长动力
- 汽车配件电商平台创新创业项目商业计划书
- 移动应用内付费引导与转化路径创新创业项目商业计划书
- 乌兰察布市重点中学2026届九年级化学第一学期期中复习检测模拟试题含解析
- 房产土地买卖合同
- 2025新疆天泽水利投资发展有限公司及所属二级企业部分岗位社会招聘30人考试模拟试题及答案解析
- 2025-2030肉牛养殖市场国际化战略及海外布局研究报告
- 2025-2030肉牛养殖保险产品创新与风险分散机制构建报告
- 2025-2030细胞治疗技术临床转化与再生医学产业投资趋势研究报告
- 北京丰台长峰医院重大火灾事故调查报告
- 产科医疗纠纷原因及分析
- 口腔常见粘膜病
- JC-T 2113-2012普通装饰用铝蜂窝复合板
- JB T 6527-2006组合冷库用隔热夹芯板
- 2022上海秋季高考语文卷详解(附古诗文翻译)5
- 定制手办目标市场调研
- 新版规范(2017)沥青混凝土路面设计(详细应用)
- 机器学习基础讲义
- 铁路交通事故调查处理规定-事故调查
- 慢性鼻窦炎鼻息肉护理查房课件
评论
0/150
提交评论