(计算机应用技术专业论文)前馈神经网络工作机理分析与学习算法.pdf_第1页
(计算机应用技术专业论文)前馈神经网络工作机理分析与学习算法.pdf_第2页
(计算机应用技术专业论文)前馈神经网络工作机理分析与学习算法.pdf_第3页
(计算机应用技术专业论文)前馈神经网络工作机理分析与学习算法.pdf_第4页
(计算机应用技术专业论文)前馈神经网络工作机理分析与学习算法.pdf_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s t r a c t a f t j f i c i a ln e u 姐ln e t w o r k s ( a n n ) ,ah i 削y c o m p l j c a t e dn o n l i n e a rs y s t e m , s t i m u i a t e sl b el e a m j n gs t 邝c t u r eo fh u m a nb r a i nf o h i l a l ly b e c a u s el h eb i o l o 百c a l l h c o r yw h i c h “r e l i e so ni sn o lp e r f e c t ,a n nf a i l sn o to n l yt oa c h i e v et h ec x p e d e d a i mo fa p p r o x i m a l i n gt h el e a m j n ga b i i i l y0 fh u m a nb r a i n s ,b u ta l s ol oe x p l a i nt h e w o r k j n gm e c h a n i s mo fe x i s t i n gn e u r a ln 9 t w o r k sm o d e l s t h e r e f o r e ,t h er e s e a f c ho f n e u r a ln e w o r k sm o d e i sa n dl h ei m p m v e m e mo fi h e 打p e r f o 硼a n c eb e c o m em o r ea n d m o r ed i f f i c u l l ,w h i c ha f f e c t st h e j ra p p l i c a t j o n i nl h i sl h e s j s w ea j ml oc o n s l r u c tam o r ee f ! f e c “v ea r i i f i c i a ln e u r a in e t w o r k s m o d e l w i i ht h ea n a l y s i so fi h ew o r k i n gm e c h a n j s mo ft h en e u r a ln e t w o r k sa sa s i a t i n gp o j n t ,w ea d o p tt h em e l h o do fc o m b i n i n gl h en o n p a r a m e t r i cd e c i s i o nt r e e a n dt r a d i t i o n a la r t i f i c i a ln e u r a ln e t w o r k st oi n v e s t i g a t et h es t r u c t u r ed e s i g nm e t h o d i r i h e r m o r e ,w ed i s c u s si n c r e m e n l a l l e a r n i n ga 1 9 0 r i l h mo fl h en e u r a ln e t w o r k s t h e f o l l o w j n ga s p e c t sa r et h ed c t a i l s 1 a n a l y z ei h ew o r k j n g r n e c h a n j s mo fl h ef e e d - f o n v a r dn e u r a ln e l w o r k f i r s t ,i h et h e s i sp r o v i d e saf o t m a l i z e dp r o o fo fl h ee q u i v a l e n c yb e t w e e n c l a s s i f i e df c c d f b r w a r dn c l l r a ln c f w o f k sa n dd c c j s j o n r f e e n e x l ,l h ee q u j v a j e n t f e l a l i o ni sc o m b i n e dw i l hl h ee x p i a n a l i o no fh j g hd i m e n s j o n a is p a c eg e o m c l r yo f n e u r o n st op r e s e n tar a l i o n a 】a n a l y s i so fl h ew o r k i n gm e c j l a n i s mo fi h ef c e d f o n ,a f d n e u r a ln e t w o r k t h ef b l 】0 w j n ge x p l a n a i i o ni sp u tf o r 、v a r d b ys t u d y j n gp o s j i i v ea n d n e g a t i v es a m p i e s ,f h ef c e d f o r w a r dn e u r a ln e l w o r kp a r t i t i o n sl h es a m p i es p a c e s a c c o r d j n gt ol h e i rc 癸t e g o r i e s f o ral h r e e l a y e rf e e d - f b r w a r dn e u r a ln e t w o r k ,l h e i n p u t t i n gl a y e rp l a y sl h er o 】co ff o m l i n gad e c i s i o n - m a k i n gi n l e r f h c c ,t h eh i d d e n i a y e rp i a y st h er o l eo ff o 咖j n g ad e c j s i o nr c g i o n ,a n dt h eo u t p u t l a y e rp l a y st h em l e o fs u m m a r 主z i n g 1 1 l ec a u s e sa n df a c t o r sw h i c ha f f c c tt h eg e n e r a l i z a t i o na n d i n c r e m e n t a l i e a m i n ga b i l i t y0 f n e u r a ln e l w o r k sa r ea i s 0a n a l y z e d 2 p u tf o n a r dn e wm e t h o d so fd e s i g n i n gn e u r a in e t w o r l 【sa r c h i t e c t u r cb a s e d0 n i n f 0 珊a t j o nt h e o r y 兰蓄雩i 宣尊薯嚣董叠訇l 馨鏖 馨辇薹鼍! 墓垂滢雏霸譬孝毒a 萼毒喜疆拿氢薄! 芎窒;毒鞫叫:酉翟譬= 毒! i 二要塞昏墨 ;司矗冀一 苫拳三妻曾砉;¥萄蕈| 垂舯垂;堇茎毳i 嚣基蹄国| 琴;创;昌童至妻謇旧 蔓茎耋蕈訇;彗蛙重霉宁1 皇苎 n e wm e t h o d so fd e s i g n i n gn e u r a in etworl【s architecturcbased0ninf0珊atjontheory、 第一章概述 1 1 神经网络的产生与发展 人脑是由大量基本单元( 称之为神经元) 经过复杂的相互连接而形成的一种 高度复杂的、非线性的、并行处理的信息处理系统,更重要的是它具有“认知”、 “意识”和“感情”等高级功能,其性能要比现代计算机高得多。因此人们从模 仿人脑智能的角度出发,探寻新的信息表示、存储和处理方式,设计全新的计算 机处理结构模型,构造一种更接近人类智能的信息处理系统来解决实际工程和科 学研究领域中传统的冯诺伊曼计算机难以解决的问题。神经网络就是一种借用人 脑规律的启迪,根据其原理,模仿设计求解问题的方法,它的中心问题是智能的 认知和模拟。人工神经网络的研究首先突破了传统计算机的设计应用的思想,拓 展了计算概念的内涵;其次人工神经网络的研究有助手加深对思维及智能的认 识,对认知和智力的本质的基础研究提供更有效的方法。因此人工神经网络的研 究必将大大促进科学进步,并在人类生活的各个领域引起巨大变化,具有重要的 理论和实际意义。 1 1 1 神经网络的产生 二十世纪四十年代初。神经生物瀑崔擎萼雾嚣l ;妻舒洇毽谲嘏蘸l i i 嚣戮j 粳型等轮j 【= 脑慧冀葡陪灌;割叁篱搽疆配影戮撕别蓥醚骂静掬鲤聪魂静锈酚鸭蹬 越越鏊络翼王聒羚鋈鲢琵冀鬻i 莉葬争剃 普神 经网络的学习理论、建立更有效的神经网络模型,为认识人脑的学习机制提供更 多的途径必须研究神经网络的工作机理。对于某些特殊结构的神经网络。其 工作机理比较清楚,比如自组织特征映射s o m ( s e l g o 唱a n i z a t i o nm a p p i n g ) 神经 网络学习到的权重就是输入模式的特征向量,自适应谐振理论神经网络a r t ( a d a p t i v er e s o n a l l c ct h e o r y ) 仿照人脑记忆模式,网络的不同层对应于人脑学习 的不同记忆功能。对于前馈神经网络,结构限制少,工作机理非常复杂,但其适 用范围非常广,因此本文把前馈网络的工作机理分析作为研究对象。 对于神经网络这样一个非常复杂的系统。需要从宏观和微观两个方面进行研 究: 从整体结构来分析理解人工神经网络的变化机理、动力学性质以及信息 北京交通大学博士学位论文 设,也就是沿用至今的h e b b 学习规则 h e b b l 9 4 9 】。其基本思想为假设大脑的学 习过程是在神经元的突触上做微妙的变化,这种变化是人脑学习和记忆的基础。 神经元的突触由变化到稳定的过程导致了大脑自组织,形成细胞集合( 几千个神 经元的子集合) ,其中循环神经冲动会自我强化,并继续循环。任何一个神经元 属于多个细胞集合,可以说,细胞集合是大脑思维信息的基本器件。h e b b 学习 规则给出了突触调节模型,描述了分布记忆模式。与人工智能的符号主义模拟系 统( 比如规则推理系统) 对应,以突触连接特点被称为连接主义( c o 肋t i o l l i s t ) 模拟系统。h e b b 对神经网络的发展起到了重大的推动作用,尽管初始的h e b b 学习规则模型是被动学习过程。只适用于正交矢量的情况,但其思想对神经阻络 的研究有极其深远的影响。学者们在此基础上经过多年的研究,通过把突触的变 化与突触前后电位相关联,对h e b b 学习规则作了变形和扩充,使之称为神经网 络研究中经典的模型,至今仍然被人们引证。 1 9 5 4 年生理学家e c c l e s 提出了真实突触的分流模型,并通过突触的电生理 实验得到证实,为神经网络模拟突触的功能提供了原型和生理学的证据 【e c c l l 9 5 4 】a 5 0 年代初神经网络理论具备了初步模拟实验的条件r o c h e s t e r ,h o l l 鞠d 与i b m 公司的研究人员合作,他们通过网络吸取经验来调节突触连接强度,以 这种方式模拟h e b b 的学习规则,出现了许多突现现象,几乎有大脑的处理风格, 取得了成功的实验结果。 至此,生物学、神经生理学、神经生物学及其它学科的重大发现和发展为神 经网络的快速发展奠定了理论基础,由此拉开了神经网络发展的序幕。 1 1 2 神经网络的发展历史 人工神经网络自产生以来,经过学者们不断的研究,形成了一系列的基于多 学科的神经网络理论,建立了丰富的神经网络学习算法,并得到了广泛的应用。 其主要的发展大约为四个阶段。 第一阶段:1 9 5 8 1 9 6 8 神经网络研究的第一次高潮 1 9 5 8 年计算机科学家r o 鸵n b l a n 基于m p 模型,增加了学习机制,推广了 m p 模型 r o s e l 9 5 8 】。他提出的感知器模型,首次把神经网络理论付诸工程实现, 完成了第一台真正的神经计算机m a r ki 感知器。这种感知器是一种学习和 自组织的心理学模型,其结构体现了神经生理学的知识,包含了一些现代神经计 算机的基本原理,是神经网络方法和技术上的重大突破。r o s e n b l a n 的研究成果 激发了学者们对神经网络研究的极大兴趣,神经网络研究出现了首次高潮 第二章前馈神经网络的工作机理分析 而更有效地构造整体结构。通过对神经网络模型在整个信息处理空间中整体不变结构的研究和对全局不变量进行分析,来揭示神经网络模型的层次化、模块化组 织结构和机理,以及拓扑结构的逼近理论,学习和进化结合的机理。这方面的研 究,将有助于揭示和理解人的感知系统的组织结构、变换和定位机理,提出一些 新的模型和方法来建立入脑信息处理一般机理以及组织形式,推动人工神经网络研究的深入发展 从神经网络组成要素来分析神经网络的工作机理 除了从宏观角度对神经网络进行分析外,还需从微观角度对神经网络的工作 机理进行解析。神经网络的训练样本仅仅包含了输入和输出对,神经网络模型表 征了待学习目标的输入输出关系。但样本输入中没有明确表示的、与学习目标函 数最相关的特征( 即神经网络学到的知识) 是由神经网络的结构( 神经单元、激 活函数及相关连接)表征的【mitcl997】benil997】。这些特征(或称为隐含的知 识)反映的是样本呈现出的某种规律及与输入输出的相关性,是求解问题的关键 所在。以往的研究和实验表明,一个神经网络的性能取决于神经网络的内部机制 学习算法)。采用的内部机制不同,神经网络表现出的各种性能优劣不同。因此 神经网络的内部行为是影响神经网络性能的关键,对神经网络的内部工作机理做 系统的解析,可为神经网络研究者有效地改酱神经网络的性能、创建新的神经网 络学习、工作模式提供新的途径。此外,解析神经网络的工作机理,对神经网络 各层中所存储的知识做可理解的表示,对神经网络做出可理解的解释可以为神 经网络模型的用户提供更多有用的知识,使神经网络有更大的利用价值。 自神经网络诞生以来。研究者就从这两大方面对前馈网络的工作机理作了分析。 从七十年代起,许多学者开始从宏观角度对神经网络结构的整体能力和限制 进行深入的理论分析。am撕【amarl9772000】在信息几何中的开拓性工作,是在 非线性空间研究神经网络整体性能的一个极其重要的工作,研究了神经网络模型 的结构在整个信息处理模型空间中的各种结构所具有的变化能力和限制,为解释 人脑神经功能机理提供了理论基础。h i n t o n h i n t l 9 9 5 】和他的研究小组,提出以 神经网络抽取模式结构为目标形成外界环境,在神经网络中形成内在表示机理作 为发展人工神经网络的基础,探索通过结构组合来达到完成具有更高水平的混合 模型人工神经网络结构和非监督学习人工神经网络。徐雷【) ( u1 9 9 6 】 ) ( u2 0 0 l 】 博士提出的n 哥g 机理论模型是在统计空间中建立的对神经网络信息处理的勰褪窃谕臣瓶占渲薪亩陨窬缧畔淼 北京交通大学博士学位论文 论的研究提供了更可靠的基础,同时,这些学科研究中产生一些重大问题为神经 网络的研究发出了新挑战,需要不断产生具有重要意义的概念和方法,推进神经 网络向更高阶段发展。 1 2 神经网络研究内容 1 2 1 神经网络的研究内容 长期以来,神经网络主要的研究目标有两个:一是研究和模拟生物学习过程: 二是研究实现高效机器学习算法的神经网络理论。 一、研究模拟生物学习过程 神经网络最初就是受到生物学的启发,试图模拟人脑学习的过程来实现人脑 学习风格的计算机。虽然人工神经网络的研究在一定程度上模拟人脑( 或其它生 物) 学习的,但由于生物系统学习过程是一种非常复杂的过程,到目前人们尚未 真芷认识到人脑学习的详细机理,同时由于材料、技术等多种制约,人工神经网 络并未能够真正模拟生物神经系统的很多特征因而其学习能力远远没有达到预 期的目标。因此研究低级到高级生物的学习过程( 比如最简单的昆虫食物捕获; 蚁群、蜜蜂的群体智能;人类的识别与感知) 的基本机理,促进神经网络的学习 能力更接近于生物学习的能力是神经网络研究的重要内容。目前这方丽的研究主 要集中于两个方面:一是对人类视觉皮层功能的模拟,构造模拟简单细胞与复杂 细胞神经网络进行模式识别;另一方面则是研究群届生物的群体智能,构造模拟 群体智能的神经网络以实现分工合作的任务。 二、研究实现高效机器学习算法的神经网络理论 研究实现高效机器学习算法的神经网络理论是神经网络的另重大内容。我 们的研究目标也在于此。在机器学习意义上,研究神经网络学习算法的目的是在 有限资源( 有限的样本,学习时间和存储空间) 的限制下,寻求一个满足要求的 网络及其参数,包括选择合适的神经网络规模,确定神经网络的连接权值,并保 证所设计的网络有较好的泛化能力。因此神经网络的理论研究主要包含如下几个 方面的内容: 神经网络学习理论 神经网络性能评价 神经网络学习算法的时空复杂性分析 北京交通大学博士学位论文 尽管人们试图得到一种能够大规模并行处理的神经网络,但资源的有限性和 学习效率使得研究者们必须研究神经网络学习算法的时间复杂性和占用空间的 复杂性,以此获得更高效率的求解模型。 4 神经网络的学习方式 模拟人脑学习的过程,神经网络的学习方式也有多种。可以是在线学习,还 可以是特定的学习;可以进行有监督学习,也可以通过自组织方式学习;同时可 以主动学习还可以被动学习;可以采用个体学习和群体学习。不同的学习方法对 应不同的神经网络学习算法。 5 神经网络的硬件实现 主要研究硬件实现的材料、结构、功能等。 1 2 2 神经网络目前的研究热点和未来发展 以人工神经网络为代表的连接主义模式,从大规模并行、分布式信息处理和 非线性系统的认知机理上模拟人脑信息处理和思维的本质。其发展的推动力来源 于其特有的非线性适应性信息处理能力。在经过了几十年的全面发展后,对人工 神经网络的研究目1 j i 难处在由简单的并行处理模型机制到复杂的非线性变换能 力、变化机理进行深入的理论分析和实际应用的转变期。根据国内外神经网络的 研究资料分析,目前的神经网络研究内容主要侧重于如下几个方面。 一、神经网络变化机理研究 对于人工神经网络变化机理和在更复杂系统中的定位机理以及人工神经网 络变换机理依赖的理论基础尚不明确,目前的人工神经网络依赖的是一种典型的 非线性、非欧式空间模型。怎样把基于知识表示,非结构化推理、连接主义的非 线性函数逼近和基于生命模型系统联系起来,是我们目前面临的一个挑战。随着 新的生物学发现,神经网络的研究将不再是一味地被用来证明旧有模型的合理 性,而是需要构建新的网络模型。 二、探索更有效的神经网络结构和学习算法 神经网络结构的研究是神经网络的实现以及成功地应用于实际领域的前提。 同时也是神经计算机的设计与实现的前提。建构具有可拓展性的神经网络结构是 目前人们研究的重点。 当前人工神经网络学习算法中,都有一个无法避免的缺陷,就是学习不具有 北京交通大学博士学位论文 五、智能计算的研究发展 智能计算,也有人称之为“软计算”,就是借用自然界(生物界)规律的启迪, 根据其原理,模仿设计求解问题的算法。传统的计算算法建立在符号逻辑基础上, 为人类发展作出了很大贡献,但同时存在其局限性。非线性问题的研究是智能计 算发展的一个最大动力,由于近年来神经网络理论在计算理论方面取得了引人注 目的成果,形成了神经计算和进化计算新概念,激起了许多科学家的强烈兴趣。 目前智能计曩懋悼翼霹提糖辨s 绣磁商善旨掣锺兹;翟奉商年j 通过笈磊? 稚鳕 鞋醯醯习利强非整伟月压。贪簸蘸黔警剥裹箍篓焉鼎;群撼维趋平面雨串曩! = 掣民爱蠹苴= 产鋈露裂掣誊睁拳釜 剥掣民蔫强值丐囊到。黪錾j 疆空间中f 的掳铭酶嚣靠攀:理逸灌萌喾甬产蒂篓剧嚣莉骥e n 型羽;甥鏊;齑醺篱业划 翟攫于一点的直线,则,垂直于。 定理2 6 :七+ l 维空间中,如果| 维超平面o 【外一条直线,平行于d 内一条直线 埘,则,平行于a 。 定理2 7 :女+ 1 维空间中,如果七维超平面o 平行于,维超平面8 内,条两两垂直 且交于一点的直线,那么o 【平行于b 。 二、超平面和超曲面的相互关系 公理2 5 : 维空间中,任一t 维超平面中都包含无穷多较低维数的超曲面。 定理2 8 :打维空间中。平面c c 与超球面。相交,交集是一点或一个圆。若圆退 化成一点,则称平面a与超球面a 相切。 定理2 9 :”维空间中,女维超平面a 与,维超球面a ( 七 ) 相交,一般地 交集是超球面并且交集的维数工满足如下关系: 后+ ,一”x 茎| i 一1 考虑到极限情况,交集可能是一点或一个圆。如果交集是一点,称与。相切。 定理2 10 :刀维空间中,七维超球面0 【与,维超球面d ( 七 ”) 相交,一 般地交集是超球面。并且交集的维数工满足如下关系: t + ,一”x 女一 x 第一章概述 经元的激活函数、神经元间的连接及相关的实值参数( 如权值,与s i g i n o j d a l 单元的 偏差) 构成的一个高复杂度的非线性系统。但事实上,人脑的学习机制到目前尚 未破解,因此对于人工神经网络所依赖的理论基础尚不明确。同时,对于人工神 经网络模型本身,用成百上千个实僚参数表示输入和输出之间的非线性、非单调 关系,其信息是分布式存储的,神经网络中每一个有意义的信息或知识是通过多 个单元的激活来编码的,且每一个神经元在表示不同的信息或知识时都起不同的 作用,因此其工作机理非常复杂,而且研究表明,为了完成像人脑那样的全方位 高级智能活动,现代神经网络采用集成系统,对具有不同智能信息的人工神经网 络进行综合,构成整体神经网络智能系统。这使神经网络的知识表达更加复杂, 工作机理更加难于理解。因此,已有的神经网络模型的工作机理和在更复杂系统 中的定位机理以及人工神经网络变换机理也缺乏系统的理论支持。两方面的原因 使得神经网络远远不能达到人们预期的实现人的感知功能的目标,并使神经网络 模型的研究和性能的改进也就变得越来越困难,应用领域也将受到一定的影响。 因此对神经网络的工作机理的研究是发展神经网络理论和应用的基本点。正像人 类模拟鸟类飞行一样,不是只从外形上贴近飞行动物而是从其飞行机理进行研 究,不仅产生了人类梦想的飞机,还产生发展了空气动力学等多种科学理论。神 经网络工作机理分析研究能够对神经网络的学习机制,各种性能的改善提供理论 基础,更启迪了全新的神经网络模型构建的研究,并为理解人脑的学习机制提供 借鉴。同时研究神经网络的工作机理还可以提商神经网络的可理解性,在实际应 用领域中,使用户更有效地使用神经网络模型。改项研究无论对神经网络的理论 和实际应用都具有极其重要的意义。 1 3 2 本论文研究的主要内容 目前对神经网络的工作机理尚未有明确的解释,神经网络固有的一些问题, 比如:局部最小化问题、神经网络的结构设计动态性、神经网络模型的不稳定性 以及神经网络不能真正实现增量学习等依然没有得到有效的解决。我们的工作是 在对神经网络的工作机理分析的基础上,研究神经网络结构设计方法和相应的增 量学习算法。其主要的内容包括: 一、前馈网络的工作机理分析 前馈神经网络是泛化能力和适应能力最强但也是工作机理最为复杂的神经 网络,因此该课题研究的对象主要是前馈网络。本论文结合高维空间几何方法, 利用决策树和前馈网络在分类问题上的等价性对前馈网络模型的工作机理做了 第一章概述 第二章:前馈网络的工作机理分析。该章基本内容包括:回顾前馈网络工作 机理分析的研究状况、介绍了本章涉及的高维几何和决策树学习的一些基本概 念、给出了用于分类的前馈网络与决策树的等价性的形式化证明、分析了分类前 馈网路的工作机理、重新讨论了前馈网络的泛化的意义和影响因素、以及神经网 络集成的本质含义。 第三章:神经网络结构设计的信息论方法。在第二章前馈网络工作机理分析 的基础上,针对不同的情况提出了神经网络结构设计的信息论方法。主要内容包 括:介绍了信息论的基本理论和信息理论在神经网络中的应用;对针对具有离散 属性分类问题的前馈网络构建方法d t b n n 进行了描述、给出了针对具有连续属 性分类问题的e b n n 构造方法及其各种方法的实验仿真结果,并对各种方法进 行了理论分析和实验结果分析。 第四章:基于神经网络集成的前馈网络的增量学习。本章主要研究神经网络 的增量学习算法,先介绍了神经网络的增量学习概念和现有的方法,然后给出了 基于集成的增量学习算法,并通过仿真实验验证了方法的有效性。 第五章:总结与展望。对本项研究作了分析与总结,提出了下一步的研究发 展方向。 第二章前馈神经网络的工作机理分析 而更有效地构造整体结构。通过对神经网络模型在整个信息处理空间中整体不变结构的研究和对全局不变量进行分析,来揭示神经网络模型的层次化、模块化组 织结构和机理,以及拓扑结构的逼近理论,学习和进化结合的机理。这方面的研 究,将有助于揭示和理解人的感知系统的组织结构、变换和定位机理,提出一些 新的模型和方法来建立入脑信息处理一般机理以及组织形式,推动人工神经网络研究的深入发展 从神经网络组成要素来分析神经网络的工作机理 除了从宏观角度对神经网络进行分析外,还需从微观角度对神经网络的工作 机理进行解析。神经网络的训练样本仅仅包含了输入和输出对,神经网络模型表 征了待学习目标的输入输出关系。但样本输入中没有明确表示的、与学习目标函 数最相关的特征( 即神经网络学到的知识) 是由神经网络的结构( 神经单元、激 活函数及相关连接)表征的【mitcl997】benil997】。这些特征(或称为隐含的知 识)反映的是样本呈现出的某种规律及与输入输出的相关性,是求解问题的关键 所在。以往的研究和实验表明,一个神经网络的性能取决于神经网络的内部机制 学习算法)。采用的内部机制不同,神经网络表现出的各种性能优劣不同。因此 神经网络的内部行为是影响神经网络性能的关键,对神经网络的内部工作机理做 系统的解析,可为神经网络研究者有效地改酱神经网络的性能、创建新的神经网 络学习、工作模式提供新的途径。此外,解析神经网络的工作机理,对神经网络 各层中所存储的知识做可理解的表示,对神经网络做出可理解的解释可以为神 经网络模型的用户提供更多有用的知识,使神经网络有更大的利用价值。 自神经网络诞生以来。研究者就从这两大方面对前馈网络的工作机理作了分析。 从七十年代起,许多学者开始从宏观角度对神经网络结构的整体能力和限制 进行深入的理论分析。am撕【amarl9772000】在信息几何中的开拓性工作,是在 非线性空间研究神经网络整体性能的一个极其重要的工作,研究了神经网络模型 的结构在整个信息处理模型空间中的各种结构所具有的变化能力和限制,为解释 人脑神经功能机理提供了理论基础。h i n t o n h i n t l 9 9 5 】和他的研究小组,提出以 神经网络抽取模式结构为目标形成外界环境,在神经网络中形成内在表示机理作 为发展人工神经网络的基础,探索通过结构组合来达到完成具有更高水平的混合 模型人工神经网络结构和非监督学习人工神经网络。徐雷【) ( u1 9 9 6 】 ) ( u2 0 0 l 】 博士提出的n 哥g 机理论模型是在统计空间中建立的对神经网络信息处理的 北京交通大学博士学位论文 一般化的理论框架,在一定程度上统一了目前基于统计模型机理的神经计算有监 督学习和无监督学习的模型。他提出了将模型结构分解为表示空间和模型空间, 为探讨统一化信息处理开辟新的发展方向。m a c k a y 【m a c k l 9 9 1 】【m a c k l 9 9 2 a 】 d 订k 1 9 9 2 b 】提出的b a y e s 决策理论建立起了人工神经网络作为数据分析和模型 化的统一理论框架,为统计模型的组织机理提供了重要的模型分析手段。罗四维 等 罗2 0 0 3 】利用微分几何对神经网络的知识可增殖性做了研究。刘蕴辉等【刘 2 0 0 4 1 提出了一种简化的模拟人类思维层次的层次化神经网络模型,并利用基于 信息几何的神经场学习理论解释了不同层次的神经系统通过前馈和反馈连接进 行动态交互作用的逼近学习机制。 对于神经网络工作机理的微观研究工作,早在1 9 6 9 年m i n s k y 【m i n s l 9 6 9 】就 针对感知器( p e r c e p t m n s ) 工作机理做过初步的解析研究,把m l p 称为黑匣子。 但鉴于当时神经网络的研究水平,其结果有相当的局限性,甚至给出了一些错误 的导向,一定程度上阻碍了神经网络的发展。但此后,有研究者在此方面不断地 进行探索,通过多个角度研究神经网络的工作机理,产生了很多有价值的结论。 从神经网络学习能力的角度,中外研究者主要利用数学的方法对多层感知器 ( m l p ) ( 两层、三层、四层感知器) 进行分析,证明了不同隐层数结构的多层 感知器的分类学习能力。早在7 0 年代,w e r b o s 【w e r b l 9 7 4 】就在其博士论文中证 明了前馈网络的万有逼近能力, b a u m b a u m l 9 8 8 】证明了单隐层m l p 能形成凸 形判定域;f u n a h a s h i f u n a l 9 8 9 】、c y b e l l l c o 【c y b e l 9 8 9 】、h o m i k 【h o m l 9 8 9 】、h u a n g 【h u a l l l 9 9 8 】、d e o l a i i k a “d e o l 2 0 0 2 】相继进一步证明了单隐层m l p 可以形成任意 形状的决策面。s h i n i c h it 硼u r a 【t 姗u 1 9 9 7 】在证明了具有n 1 个隐单元的三层网 络可以精确地给定n 个“输入目标”对之间的映射关系的基础上,进一步 证明了四层网络中,只需要( n 2 ) + 3 个隐单元就可以实现三层网络的功能。s a r t o r i 【s a n l 9 9 1 】、h u a n g 【h u a l l l 9 9 1 】、h u a l l g 【h u a n l 9 9 8 以及刘英敏【刘2 0 0 0 】分别证明 了神经网络中隐单元个数的边界值。这些研究为神经网络模型的结构选择提供了 理论支持。 从神经网络中各元素所起作用角度,研究者利用数学分析、模式识别及几何 方法分别地对输出对于输入和权值的敏感度、隐单元输出的意义等进行了分析。 最早采用的方法是可视化技术,用可视化技术演示神经网络的学习和工作过程: 比如h i l t o n 图、b o n d h i n t l 9 8 6 b 】图用来表示神经网络的权和连接度;超平面图 【w 日c 1 9 9 0 】、响应函数图【l 锄9 1 9 9 8 】表示由神经网络单元形成的决策边界和学习 过程中权空间单元的轨迹:轨迹图 w 巧c 1 9 9 0 】用来表示神经网络的单元激活和激 活信号的前向传播、学习中的误差信号的反向传播等。但可视化技术不能完整地 1 6 北京交通大学博士学位论文 2 2 高维空间几何理论基础 对于人工神经网络的隐层而言,庞大的复杂多变量非线性方程组目前在数 学上还缺乏通用的解析方法,因而对神经网络行为用数学解析方法进行全面精 确分析难以实现。几何学是一种直观的着重于研究对象的具体意义的数学方法, 高维几何学是研究高维空间中研究对象的各种性质的数学方法。高维空间中图形 的几何性质与平面和立体几何相比有很大差异,最简单的例子是在低维空间不能 解决的问题在高维空间中可以得到解决。人工神经网络所要处理的往往是高维数 据,且神经网络中的每个神经元对应于高维空间的一个超平面或超曲面,我们可 以通过研究超平面或超曲面之间存在的关系来确定神经元的连接关系及可采用 的激活函数,由此来建立一种新的神经网络结构。 因此,高维空间几何方法以其简单直观的特点,用于定性地分析人工神经 网络的行为,在提出新的模型和算法方面,较传统的分析方法具有独特的优越性。 本节介绍在人工神经网络中研究中涉及的高维空问几何学中的概念、定理、特性。 2 2 1 基本概念 若q ,口2 ,吒不全为零,则”维空间中的一一l 维超平面可以表示为: 方程中x 的系数q ,n :,为该,l 维超平面的法向量的系数。 若矩阵爿一吼:1 的秩为2 ,则一维空间的”一l 维超平面可以表示为: i 口:io 芷o h , 以此类推,若爿。( 至耋至至 的秩为一m ,则一维空间的一一m 维超平面可以表 1 8 北京交通大学博士学位论文 2 3 神经网络的几何解释 2 3 1 神经元的几何意义 神经网络是由大量简单处理单元组成,通过可变权值连接而成的并行分布式 系统。神经元是人工神经网络的基本处理单元,研究者从模拟脑细胞的激活和抑 制的机制出发提出了经典的神经元数学模型,它是一个多输入,单输出的非线性 器件,其结构如图2 1 所示: 幽2 1 神经元筷型 x ,为输入信号,w 。表示从第,个神经元到第i 个神经元的连接权值,e ,为第f 个 神经元的阈值,y 为输出信号,在上述模型中第f 个神经元的变换可描述为: 只= ,( 驴o ) 采用的非线性函数厂( ) 可以是阶跃函数、分段函数或s i g m o i d 型函数等多种 函数形式。 由神经元的变换函数( 也称功能函数) 的定义可知,它是由两个函数复合而 成的,其第一个函数为麟一目。若令其等于零,有删一口= o ,此方程在珂维 空间中表示一个超平面p ,当麟一口 0 时,表示点工落在超平面p 的正半空间 内,当肘一护 o 时“w “x ,- o 。j _ l ,当脓一o ,碜下毒l蛰 第二章前馈神经网络的工作机理分析 助我们直观地理解神经网络的内在性质。而且神经网络中的神经元也并不都是起 分割作用的,还有一部分神经元的作用是对区域进行鉴别的。爱因斯坦曾经说过 不能用产生问题的思想来解决问题,为此我们将借助于其它的手段和方法对神经 网络的内部工作机理进行分析。为方便起见,我们以实现分类功能的前馈网络作 为分析对象,进行进一步的分析。 2 4 分类决策树与前馈网络的等价性 人工神经网络和决策树是机器学习中两种不同的学习机制。人工神经网络是 一种参数化的学习机制,以其对训练数据中的噪声具有良好的健壮性与优于其它 实验性学习系统的泛化能力被广泛应用于很多领域;而决策树是一种非度量 ( n o i n e t r i c ) 的归纳推理机器学习方法。决策树采用分级形式,使待求解问题逐 步得到解决,对于模式识别中的多类和多峰分布问题尤为方便,因此也称多级分 类器。它采用非参数化学习机制,以机理透明,易于理解,可以表示一些经验知 识的优点而被广泛应用。但两者都有其自身存在的问题,人工神经网络训练时间 长,网络结构不确定,参数初始设定随机性强,使网络的学习结果容易陷入局部 极小,而且可理解性差;决策树则由于工作顺序性,使得工作速度较慢,而且决 策树依赖于属性空间。容错性不太好。 一些研究者为了在问题求解中结合两者的优点,致力于决策树与神经网络结 合神经树的研究。研究者们从三个方面对此问题进行了研究:( 1 ) 从学好的 神经网络中提取决策树,目的是增强神经网络的可理解性,把神经网络所学的知 识用人们可以理解的形式表示出来。c r a v e n c r a v l 9 9 6 就此问题给出了系统的阐 述。( 2 ) 利用决策树的思想方法构造神经网络,目的是能够提供系统地确定神经 网络结构( 隐层、隐单元数) 和合理设定神经网络参数的初始值的方法,提高神 经网络的性能。文献 s e t h l 9 9 0 s e t h l 9 9 5 【d e f f l 9 9 0 s a n 9 1 9 9 1 k r z y l 9 9 2 k u b a l 9 9 8 分别研究了不同约束条件下用决策树( 或决策树构造算法) 构造神经 网络和确定初始参数值的途径。( 3 ) 把神经网络和决策树结合在统一的模型中, 以充分发挥两者的优势。文献 y ,l d 2 0 0 1 f o r e 2 0 0 2 g i a n 2 0 0 2 陈 1 9 9 7 把神经网络( 小规模) 嵌入到决策树的一个结点中,以此提高模型的性能。 从已有的工作来看,从一个神经网络可以提取( 转换) 一个决策树,而由一 个决策树也可以构造一个神经网络,因此神经网络与决策树之间直觉上存在一种 等价性,这种等价性是决策树与神经网络的一种本质的联系。研究两者问的联系 对神经网络与决策树的结合有重要意义,也为研究神经网络的工作机理开辟新的 思路。本章就在证明分类前馈网络与决策树的等价性的基础上,给出前馈网络的 工作机理分析。 2 4 1 决策树 决策树分类方法提供了一种模式识别的结构化方法,它把数据集合的输入空 间( 特征空间或属性空间) 根据特征的取值划分成互斥区域,每个区域赋予一个 标识、一个值或一个表示该区域内数据特征的动作等。决策树在进行分类时,很 自然地表示了布尔函数的合取和析取功能。由根结点到一个叶子结点的一个分枝 表示了一个合取功能( “与”功能) ,类标识相同的不同叶子分枝代表了一个析取 功能( “或”) 的关系。 表示第一类:暖磁圈表示躲二类;x 为样奉的输入向量 凹2 4 求解睡类问题的决策树 一般,决策树由一个根结点、一组内部结点、和一些叶子结点组成。根结点 和每一个内部结点都是对样本某个属性的测试叶子结点为样本所属的分类,可 标以各种类别标签,不同的叶子结点上可以出现相同的类标签。决策树对样本的 分类是从根结点开始,测试途经结点的属性,按照给定样本的属性值对应的分枝 向下层移动,一直找到一个叶子结点。如果用丁表示决策树,则一个决策树丁对 应于特征空间的一种划分,它把特征空间分成若干区域,在每个区域中,某个类 别的样本占优势,因此可标以该类样本的类别标签。图2 4 为一个解决两类问题 的决策树。 从数学上决策树可以形式化地表示为:给定样本集合s ,其样本分别属于c 类,设s 为s 中属于第f 类的样本集合。定义集合c = ( 1 ,2 ,c 和c 的一个非空 子集的集合 f = c 1 ,c 2 ,e ) 。 2 6 北京交通大学博士学位论文 同的属性和决策规则,设计方法灵活多样。 决策树的构造过程需要解决如下几个问题: ( 1 ) 确定选择构造决策树中非叶子结点的要使用的特征( 分类属性) 的度量标 准: ( 2 ) 确定产生决策树增长的深度和停止生长的条件; ( 3 ) 处理连续值的属性 ( 4 ) 处理属性值不完整的训练数据等。 大多数的决策树学习算法采用一种自顶向下的贪心算法。一般对特征选择的 度量标准是特征属性的分类能力,分类能力最好的作为当前结点的特征属性。为 了避免过拟合问题,通常使用一个衡量训练样本和决策树复杂度的标准,当满足 该条件时,决策树停止生长;也可以通过后修剪来保持决策树的规模。决策树本 身是针对具有离散属性值的分类问题,对于连续值的属性一般采用各种方法进行 离散化处理。 2 4 2 决策树的插值表示 决策树和前馈网络设计思想和学习算法的不同,对输入输出之间的关系表 示不同,不能直观地证明两者的等价性,为此我们受李洪兴教授研究工作的启发 李1 9 9 8 l i2 0 0 0 用代数捅值的方法对决策树的输入输出关系进行逼近的 表示,以利于两者的比较。 一、一些必要的概念和记号 决策树本质上是一个规则集,它可以通过简单逻辑推理的形式来描述。为简 单起见,先观察两个输入和一个输出的逻辑推理系统。令且y 为输入变量( 两 个属性) 工、y 的全集,z 为输出变量z 的全集。设爿= 爿, ( 1 f o 1 z 肚一 3 0 ( 2 1 4 ) 我们在证明该结论之前,先证明 ( 4 ( 功日( 曲) z4 ( 功毋o ) ( 2 1 6 ) 根据定理2 1 3 ,图中第个神经元可以实现当4 ( x ) = b ,( y ) = 1 时,该神经元激 活,其输出为 ( 4 ( x ) b ,( x ) ) * l :当 4 ( x ) = o ,b ,( y ) = l 或4 ( 砷= 1 ,曰,= o 或4 ( 曲= 曰,o ) = o 时,该神经元 抑制,其输出为( 4 ( x ) 易( x ) ) a o 。因此该神经元输入与输出的关系近似等价于 ( 4 ( 曲8 ,( 】c ) ) z4 ( x ) 口,( x ) 。 在此基础上,根据定理2 1 4 ,网络的输出神经元厅能够实现 v。 由于两输入的网络有如下的性质: 他,= 8 曷州= 骺曷 【( x ) = 1i ,e ( 了) = l 即所有的隐层单元中,给定个输入,只有对应于输入为4 ( z ,) 和曰,( y ,) 的第九 个神经元被激活。由( 2 1 5 ) 式,网络的输出= = 爿,( z ) 口,( y ) ,其总输出表 达式为:z * 彳,( z ) q ( x ) 2 ,与式( 2 1 1 ) 相同,即网络的输出逼近地等于 决策树的输出。 定理2 1 6 给定任意的三层前馈网络,可以产生一个等价的决策树。 证明:给定任意的一个两个输入和一个输出的三层前馈网络,如图2 6 所示, 单个神经元的输入输出关系可表示为: := 厂( w ,x ,一目) = i 厂( w 一) = ( ,。) ( 一,工:,矗, ( 2 1 7 ) 令g :厂。1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论