版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第9章神经网络模式识别,9.1 人工神经网络概述 9.2前馈神经网络 9.3自组织特征映射神经网络 9.4支持向量机 9.5神经网络模式识别,9.1人工神经网络概述,人工智能,通过对人类智力活动奥秘的探索与记忆思维机理的研究,来开发人类智力活动的潜能、探讨用各种机器模拟人类智能的途径,使人类的智能得以物化与延伸,产生了一门学科,即所谓的人工智能。,人工智能(Artificial Intelligence,AI) 在20世纪90年代,人工智能的符号主义、连接主义和行为主义三种方法并存。 连接主义:人工神经网络,计算智能,近年来,借鉴仿生学思想,基于生物体系的生物进化、细胞免疫、神经细胞网络等某些
2、机制,用数学语言抽象描述的计算方法,来模仿生物体系和人类的智能机制,产生了所谓的计算智能 计算智能(Computational Intelligence, CI) 软计算(Soft Computing, SC) 人工神经网络、模糊集理论(Fuzzy Set, FS)、进化计算(Evolutionary Computation, EC),智能信息处理,人类在不断地进步,社会在不断地发展,这一方面受人的好奇心驱动,人具有探索自然规律、了解未知世界、探索自身奥妙的内动力;另一方面人具有生存和提高生活质量的需求。 受这两方面原动力的驱动,人类不断地研究新的方法和技术,不断地研制各种工具、仪器和机器,来
3、延伸、拓展和增强自身的各种能力。,人类所处的客观环境、所面对的客观世界是变化的、发展的,是浩瀚无垠的; 人类的知识虽然在不断丰富、不断更新,但是相对客观环境、客观世界,始终是不完全的、不可靠的、不精确的、不一致的和不确定的; 人类正是用这不精确的、不完美的知识,不断地、逐步地了解了客观世界,提高了生活质量。 人工智能、人工神经网络、进化计算、模糊系统理 论等等都是人类在对客观世界、人类自身现有认识的基础上所产生的新的方法和理论,是人类进一步探索自然规律、了解未知世界、探索自身奥妙,提高生活质量的各种工具。,智能信息处理就是将不完全的、不可靠的、不精确的、不一致的和不确定的知识和信息逐步、逐步变
4、得完全、可靠、精确、一致和确定的过程和方法,就是利用对不精确性、不确定性的容忍来达到问题的可处理性和鲁棒性。 智能信息处理的对象及方法均具有多样性、复杂性和综合性的特点。智能信息处理涉及到信息科学的多个领域,是现代信号处理、人工神经网络、模糊系统理论、进化计算,包括人工智能等等理论和方法的综合应用。,从深层意义上看,模式识别与人工智能所研究的是如何用计算机实现人脑的一些功能。一方面,从要实现的功能出发,我们可以将功能分解成子功能,直至设计出算法来实现这些子功能。这是自顶向下的分析方法。另一方面,人脑无论多么复杂,都可以看作是由大量神经元组成的巨大的神经网络。从神经元的基本功能出发,逐步从简单到
5、复杂组成各种神经网络,研究它所能实现的功能,是自底向上的综合方法。这两种方法各有优缺点,适用于不同的问题。,亦称为神经网络(Neural Networks, NN),是由大量处理单元(神经元Neurons)广泛互连而成的网络,是对人脑的抽象、简化和模拟,反映人脑的基本特性。 人工神经网络的研究是从人脑的生理结构出发来研究人的智能行为,模拟人脑信息处理的功能。它是根植于神经科学、数学、统计学、物理学、计算机科学及工程等学科的一种技术。,人工神经网络,是由简单的处理单元所组成的大量并行分布的处理机,这种处理机具有存储和应用经验知识的自然特性,它与人脑的相似之处概括为两个方面: 一是通过学习过程利用
6、神经网络从外部环境中获取知识; 二是内部神经元(突触权值)用来存储获取的知识信息。,人工神经网络,神经网络与 电子计算机,图灵:英国数学家。1912年6月23日出生于伦敦 Westminster区,1931年进入剑桥大学Kings College攻读数学,毕业学位考试第一,获Wrangler荣誉称号。学位论文“The Central Limit Theorem of Probability”获“Smith Prize”。毕业后到美国普林斯顿大学攻读博士学位,1936年发表了著名论文“On Computable Numbers with an Application to the Entsche
7、idungs Problem”,该文回答了“计算机”到底是怎样的,如何进行计算和工作,提出了计算模型“图灵机”( Turing Machine)。,Alan Mathison Turing (1912 1954),1938年获博士学位,博士论文“Systems of Logic Based on Ordinals”。1939年在英国外交部科研机构工作,二战期间用继电器做成“Bombe”,协助军方破解德国的著名密码系统Enigma,战后被受勋(Officer Order of the British Empire)。战后到英国国家物理实验室(National Physical Lab., NPL
8、),设计和建造电子计算机(Automatic Computing Engine, ACE)。1948年离开NPL,到曼彻斯特大学新成立的Royal Society Computing Lab.1948年6月开发出被称为世界上第一台存储程序式计算机Mark I。,1950年10月发表论文“Computing Machinery and Intelligence” 认为计算机可以具有智能,并提出了一种用于判定机器是否具有智能的试验方法,即图灵试验(Turing Test)。1951年当选英国皇家学会院士。1952年图灵被法院指控行为“极端不当”。1954年6月7日,图灵服食浸过氰化物溶液的苹果“自
9、杀”。 享年42岁。,Thinking is computing,1966年美国计算机协会设立计算机界的第一奖项 “图灵奖” 被称为“计算机界的诺贝尔奖”,ACM: Association for Computing Machinery IEEE Computer Society,John von Neumann (1903-1957),20世纪最杰出的数学家之一,于1945年提出了“程序内存式”计算机的设计思想。这一卓越的思想为电子计算机的逻辑结构设计奠定了基础,已成为计算机设计的基本原则。由于他在计算机逻辑结构设计上的伟大贡献,他被誉为“计算机之父”。 诺伊曼于1903年出生于匈牙利的布达
10、佩斯。他是一个数字神童,11岁时已显示出数学天赋。12岁的诺伊曼就对集合论,泛函分析等深奥的数学领域了如指掌。,青年时期,诺伊曼师从于著名数学家希尔伯特。在获得数学博士之后,不满30岁成为美国普林斯顿大学的第一批终身教授。诺伊曼不仅是个数学天才,在其他领域也大有建树。他精通七种语言,在化学方面也有相当的造诣,更为难得的是,他并不仅仅局限于纯数学上的研究,而是把数学应用到其他学科中去。对经典力学、量子力学和流体力学的数学基础进行过深入的研究,并获得重大成果,诺伊曼具备了坚实的数理基础,和广博的知识,为他后来从事计算机逻辑设计提供了坚强的后盾。,1944年诺伊曼参加原子弹的研制工作,该工作涉及到极
11、为困难的计算。他所在的洛斯阿拉莫斯实验室为此聘用了一百多名女计算员,利用台式计算机从早到晚计算,还是远远不能满足需要。无穷无尽的数字和逻辑指令如同沙漠一样把人的智慧和精力吸尽。被计算机所困扰的诺伊曼在一次极为偶然的机会中知道了ENIAC计算机的研制计划,从此他投身到计算机研制这一宏伟的事业中,建立了一生中最大的丰功伟绩。,1944年夏的一天,正在火车站候车的诺伊曼巧遇戈尔斯坦,并同他进行了短暂的交谈。戈尔斯坦是美国弹道实验室的军方负责人,他正参与ENIAC计算机的研制工作。在交谈在,戈尔斯坦告诉了诺伊曼有关ENIAC的研制情况。具有远见卓识的诺伊曼为这一研制计划所吸引,他意识到了这项工作的深远
12、意义。几天之后,诺伊曼专程来到莫尔学院,参观了尚未竣工的这台庞大的机器,并以其敏锐的眼光,一下子抓住了计算机的灵魂逻辑结构问题,令ENIAC的研制们敬佩不已。,因实际工作中对计算的需要以及把数学应用到其他科学问题的强烈愿望,使诺伊曼迅速决定投身到计算机研制者的行列。对业已功成名就的诺伊曼来说,这样做需要极大的勇气,因为这是一个成败未卜的新征途,一旦失败,会影响他已取得的名誉和地位。诺伊曼却以对新事物前途的洞察力,毅然决然地向此征途迈出了第一步,于1944年8月加入莫尔计算机研制小组,为计算机研制翻开了辉煌的一页。,诺伊曼以其非凡的分析、综合能力及雄厚的数理基础,集众人之长,提出了一系列优秀的设
13、计思想,在他和莫尔小组其他成员的共同努力下,只经历了短短的十个月,人类在数千年中积累起来的科学技术文明,终于结出了最激动人心的智慧之花一个全新的存储程序通用电子计算机方案(EDVAC方案)诞生了。,诺伊曼以“关于EDVAC的报告草案”为题,起草了长达101页的总结报告。报告广泛而具体地介绍了制造电子计算机和程序设计的新思想。报告明确规定,EDVAC计算机由计算器、逻辑控制装置、存储器、输入和输出五大部分组成,并阐述了这五大部分的职能和相互关系。这份报告是计算机发展史上一个划时代的文献,它向世界宣告:电子计算机的时代开始了。,1954年6月,诺伊曼到美国普林斯顿高级研究所工作,出任IAS计算机研
14、制小组的主任职位。在那时,他提出了更加完善的设计报告“电子计算装置逻辑结构初探”。报告中,诺伊曼对EDVAC中的两大设计思想作了进一步的论证,为计算机的设计树立了一座里程碑。设计思想之一是二进制,他根据电子元件双稳工作的特点,建议在电子计算机中采用二进制。报告提到了二进制的优点,并预言,二进制的采用将大简化机器的逻辑线路。实践证明了诺伊曼预言的正确性。,程序内存是诺伊曼的另一杰作。通过对ENIAC的考察,诺伊曼敏锐地抓住了它的最大弱点没有真正的存储器。ENIAC只在20个暂存器,它的程序是外插型的,指令存储在计算机的其它电路中。计算的高速与程序的手工存在着很大的矛盾。针对这个问题,诺伊曼提出了
15、程序内存的思想:把运算程序存在机器的存储器中,这样,就不必每个问题都重新编程,从而大大加快了运算进程。这一思想标志着自动运算的实现,标志着电子计算机的成熟,已成为电子计算机设计的基本原则。,von Neumann与神经网络,1949年,Von Neumann在Illinois大学四次讲座的第二次讲座中,阐述了McCulloch-Pitts正式的神经网络理论特点。1955年,他应邀去Yale大学进行Silliman讲座,直至1956年(他死于1957年)。他未完成的Silliman讲座的手稿于1958年作为一本书被出版,书名为The Computer and the Brain,此书由于涉及了V
16、on Neumann生前所做的工作和他注意到的人脑与计算机的巨大差异。此外,1956年Von Neumann用约简的思想解决了一个在神经网络中特别令人关注的问题,这就是如何用认为是不可靠的神经元来设计一个可靠的网络问题。,神经网络也经常被称为神经计算机,但它与现代数字计算机迥然不同。,神经网络的信息存储与处理(计算)是合二为一的,即信息的存储体现在神经元互连的分布上;传统的计算机存储与计算是独立的,因而在存储与计算之间存在着瓶颈; 神经网络以大规模模拟计算为主;数字计算机是以串行离散符号处理为主; 神经网络具有很强的鲁棒性和容错性,善于联想、概括、类比和推广,任何局部的损伤不会影响整体结果;,
17、不同之处主要表现为(续):,神经网络具有很强的自学习能力,能为新的输入产生合理的输出,可在学习过程之中不断完善自己,具有创新特点; 神经网络是一大规模自适应非线性动力系统,具有集体运算的能力。这与本质上是线性系统的现代数字计算机迥然不同。,人工神经网络是近年来的热点研究领域,涉及到电子科学与技术、信息与通信工程、计算机科学与技术、电气工程、控制科学与技术等诸多学科,其应用领域包括:建模、时间序列分析、模式识别和控制等,并在不断的拓展。,人工神经网络(ANN)的研究与计算机的研究几乎是同步发展。早在1943年,心理学家W. McCulloch和数学家W.Pitts合作,从数理逻辑的角度,提出了神
18、经元和神经网络最早的数学模型(MP模型),标志着神经网络研究的开始。 1949年,D.O.Hebb从心理学角度提出了至今仍对神经网络理论有着重要影响的Hebb学习法则。 1958年,F.Rosenblatt首次引入了模拟人脑感知和学习能力的感知器(perceptron)概念。 1960年,B.Widrow和M. Hoff提出了主要用于自适应系统的自适应线性元件(Adaptive linear neuron)网络。 1969年美国麻省理工学院著名的人工智能专家M. Minsky和S. Papert出版了颇有影响的perceptron一书, 指出其局限性。,9.1.1 人工神经网络的发展史,197
19、6年S. Grossberg与J. A. Carpenter提出了自适应共振理论(adaptive resonance therory, ART),并在以后的若干年发展了ART1、ART2和ART3网络模型。 1982年美国加州工学院的物理学家J. Hoppfield提出了HNN模型,并首次引入了网络能量函数概念。 1986年,D. Rumelhart和J. McCelland等学者提出了多层感知器的反向传播算法,克服了当初阻碍感知器模型继续发展的重要障碍,使BP网络成为目前应用最广的网络。 1987年,电气和电子工程师学会IEEE在圣地亚哥召开了盛大规模的神经网络国际学术会议。 1988年,
20、学会的正式杂志Neural Networks 创刊。,9.1.2 生物神经元,人脑神经系统的基本单元是神经元细胞,人脑神经系统约由1011个神经元构成,每个神经元与约104个其他神经元相连接。神经细胞与人体中其他细胞的关键区别在于,神经细胞具有产生、处理和传递信号的能力。,神经元是基本的信息处理单元。生物神经元主要由胞体、树突、轴突和突触组成。,生物神经元基本结构,典型的神经元(即神经细胞)结构,如下图所示。,1)胞体。它是神经细胞的本体,内有细胞核和细胞质,完成普通细胞的生存功能。,2)树突是由细胞体向外伸出的,有不规则的表面和许多较短的分支。分支多达103数量级,长度较短,通常不超过1mm
21、。树突相当于信号的输入端,用于接受神经冲动。,3)轴突由细胞体向外伸出的最长的一条分支,即神经纤维,有些较长可达1m以上。轴突远端也有分枝,可与多个神经元连接。相当于信号的输出电缆,其端部的许多神经末梢为信号输出端子,用于传出神经冲动。神经信号的传导机制不是靠电信号,而是一个电化学过程,所以传导速度比电信号慢得多。,4)神经元之间通过轴突(输出)和树突(输入)相互联结,其接口称为突触。它是一个神经元与另一个神经元相联系的特殊部位,每个细胞约有103104个突触。 通常是一个神经元轴突的端部靠化学接触或电接触将信号(兴奋)传递给下一个神经元的树突或胞体;对树突的突触多为兴奋性的,使下一个神经元兴
22、奋,而对胞体的突触多为抑制性,其作用是阻止下一个神经元兴奋。细胞膜内外有电位差,约为20100mv,称为膜电位。膜外为正,膜内为负。,神经元的基本工作机制:一个神经元有两种状态兴奋和抑制。平时处于抑制状态的神经元,其树突和胞体接收其他神经元经由突触传来的兴奋电位,多个输入在神经元中以代数和的方式叠加;如果输入兴奋总量超过某个阈值,神经元就会被激发进入兴奋状态,发出输出脉冲,并由轴突的突触传递给其他神经元。神经元被触发之后有一个不应期,在此期间内不能被触发,然后阈值逐渐下降,恢复兴奋性。 神经元是按照“全或无”的原则工作的,只有兴奋和抑制两种状态,但也不能认为神经元只能表达或传递二值逻辑信号。因
23、为神经元兴奋时往往不是只发出一个脉冲,而是发出一串脉冲,如果把这一串脉冲看成是一个调频信号,脉冲的密度是可以表达连续量的。,神经元具有的重要功能,可塑性:可塑性反映在新突触的产生和现有神经突触的调整上,可塑性使神经网络能够适应周围的环境 。 时空整合功能:时间整合功能表现在不同时间、同一突触上;空间整合功能表现在同一时间、不同突触上。 兴奋与抑制状态:当传入冲动的时空整合结果,使细胞膜电位升高,超过被称为动作电位的阈值(约为40mv),细胞进入兴奋状态,产生神经冲动,由轴突输出;同样,当膜电位低于阈值时,无神经冲动输出,细胞进入抑制状态。,脉冲与电位转换:沿神经纤维传递的电脉冲为等幅、恒宽、编
24、码(60100mv)的离散脉冲信号,而细胞电位变化为连续信号。在突触接口处进行“数/模”转换。神经元中的轴突非常长和窄,具有电阻高、电压大的特性,因此轴突可以建模成阻容传播电路。 突触的延时和不应期:在相邻的二次冲动之间需要一个时间间隔。在此期间对激励不响应。不能传递神经冲动。 学习、遗忘和疲劳:突触的传递作用有学习、遗忘和疲劳过程。,人工神经网络是由大量处理单元广泛互连而成的网络 ,是人脑的抽象、简化、模拟,反映人脑的基本特性。一般来说,作为神经元模型应具备三个要素: (1)具有一组突触或联接,常用wij表示神经元i和神经元j之间的联接强度,或称之为权值。与人脑神经元不同,人工神经元权值的取
25、值可在负值与正值之间。 (2)具有反映生物神经元时空整合功能的输入信号累加. (3)具有一个激励函数用于限制神经元输出。激励函数将输出信号压缩(限制)在一个允许范围内,使其成为有限值。,9.1.3 人工神经元模型,图9-1 单个人工神经元模型,单个的神经元模型如图9-1所示。,人工神经元是一个多输入、单输出的非线性元件,其输入输出关系可表示为,(9-1),其中: x1, x2, , xn是从外部环境或其他神经元传来的输入信号; w1, w2, , wn是对应于输入的连接权值; 是一个阈值; 函数g: RR为传递函数, 也称为激活函数, 表示神经元的输出。 常用的三种基本激活函数如下: ,(1)
26、 阈值型函数。 常用的阈值型函数有阶跃函数和符号函数。 阶跃函数的表达式为,(9-2),符号函数的表达式为,(9-3),(2) 分段线性函数。 函数表达式为,(9-4),(3) Sigmoid函数。 如图9-2所示, 函数表达式为,(9-5),或,(9-6),图 9-2Sigmoid函数示意图 (a) 取值在(0, 1)内; (b) 取值在(1, 1)内,9.1.4神经网络的结构 神经网络是由大量的人工神经元广泛互连而成的网络。 (1)从网络性能角度可分为:连续型与离散型网络、确定性与随机性网络; (2)从网络结构角度可分为前向网络与反馈网络; (3)从学习方式角度可分为有教师学习网络和无教师
27、学习网络; (4)按连接突触性质可分为一阶线性关联网络和高阶非线性关联网络。,1. 前馈网络 前馈网络中神经元分层排列, 网络由输入层、 中间层(也称隐含层)、 输出层组成, 每一层的各神经元只能接受前一层神经元的输出, 作为自身的输入信号。 根据是否有中间层, 前馈网络分为单层前馈网络和多层前馈网络。 常用的前馈网络有感知器、 BP网络、RBF网络等。,单层前馈网络没有中间层。 图9-3给出了输入、 输出均为四节点的单层前馈网络。 由于输入层只接受外界输入, 无任何计算功能, 因此输入层不纳入层数的计算中。 “单层”是指具有计算节点的输出层。,图9-3 单层前馈神经网络,多层前馈网络有一个或
28、多个隐含层。 隐含层节点的输入和输出都是对网络内部的, 隐含层节点具有计算功能, 所以隐含层纳入层数的计算中。 多层前馈神经网络的结构如图9-4 所示。,图9-4 多层前馈神经网络,2. 反馈网络 反馈网络和前馈网络的不同在于, 反馈网络的输出层接有反馈环路, 将网络的输出信号回馈到输入层。 一个无隐含层的反馈网络如图9-5所示, 网络由单层神经元构成, 每个神经元都将其输出反馈到其他所有神经元的输入。 图9-5中所描述的结构不存在自反馈环路, 即没有输出神经元将输出反馈到其本身输入的情况。 单层反馈网络有多种, 其中最典型的是Hopfield网络。,图9-5 单层反馈神经网络,无自反馈和隐含
29、层的反馈网络,含有隐含层的反馈网络,3.随机神经网络,随机神经网络是对神经网络引入随机机制,认为神经元是按照概率的原理进行工作的,这就是说,每个神经元的兴奋或抑制具有随机性,其概率取决于神经元的输入。Boltzmann机就是典型的随机神经网络。,4.竞争神经网络,最简单的竞争神经网络:Hamming网络,9.1.5神经网络的学习方法 神经网络的学习也称为训练,指的是通过神经网络所在环境的刺激作用调整神经网络的自由参数,使神经网络以一种新的方式对外部环境作出反应的一个过程。 能够从环境中学习和在学习中提高自身性能是神经网络的最有意义的性质。 神经网络经过反复学习对其环境更为了解。 ,学习算法是指
30、针对学习问题的明确规则集合。 学习类型是由参数变化发生的形式决定的,不同的学习算法对神经元的突触权值调整的表达式有所不同。 没有一种独特的学习算法用于设计所有的神经网络。 选择或设计学习算法时还需要考虑神经网络的结构及神经网络与外界环境相连的形式。,学习方式可分为:有导师学习(Learning with a teacher)和无导师学习(Learning without a teacher)。 有导师学习又称为有监督学习(Supervised Learning),在学习时需要给出导师信号或称为期望输出(响应)。对每一个输入训练样本, 都有一个期望得到的输出值(也称教师信号), 将它和实际输出值
31、进行比较, 根据两者之间的差值不断调整网络的连接权值, 直到差值减小到预定的要求。,无导师学习包括强化学习(Reinforcement Learning)与无监督学习 (Unsupervised Learning) 或称为自组织学习(Self-Organized Learning)。 网络的学习完全是一种自我调整的过程, 不存在教师信号。 输入模式进入网络后, 网络按照预先设定的某种规则反复地自动调整网络结构和连接权值, 使网络最终具有模式分类等功能。,假设yj为神经元j的输出, xi为神经元i对神经元j的输入, wij是神经元i与神经元j之间的连接权值, wij为连接权值wij的修正值, 即
32、wij(n+1)=wij(n)+wij。 下面介绍9种常用的学习规则。,1. Hebb学习规则 Hebb学习规则是假定两个神经元同时兴奋时, 它们之间的连接强度应该加强。 连接权值的学习规则按下式计算:,(9-7),其中, 为学习速率参数。 ,2. 感知器的学习规则 感知器的学习规则属于有教师训练, 连接权值的学习规则按下式计算: ,(9-8),其中: dj为神经元j的期望响应; djyj为误差信号, 一般用rj表示, 也称为学习信号。,3. 学习规则 学习规则是由输出值和期望值之间的最小均方误差推导出来的。 均方误差定义为,(9-9),从而,(9-10),要使期望误差最小, 要求在负梯度方向
33、上改变, 所以取,(9-11),其中, 为学习速率参数。 一般地, 学习速率参数选得很小。 4. Widrow-Hoff学习规则 Widrow-Hoff 学习规则也是使期望输出值和实际输出值之间平方误差最小。 连接权值的学习规则按下式计算: ,(9-12),(9-13),该规则可以看做规则的特殊情况。 5. 相关学习规则 相关学习规则为,(9-14),这是Hebb规则的特殊情况, 但相关规则是有教师的, 要求权初始化wij=0。,6. Winner-Take-All(胜者为王)学习规则 第m层中有一个神经元有最大响应, 这个神经元被宣布为获胜者, 则,(9-1),其中, 是小的学习常数。,7.
34、内星和外星学习规则 内星和外星学习规则按下式计算:,(内星训练法),(9-16),(外星训练法),(9-17),8. 梯度下降算法 梯度下降算法的学习规则按下式计算: ,(9-18),其中, E为误差函数。,9.随机学习算法,随机学习算法也称为Boltzmann学习规则,是为了纪念Ludwig Boltzmann而命名的。Boltzmann学习规则是由统计力学思想而来的,在Boltzmann学习规则基础上设计出的神经网络称为Boltzmann机,其学习算法实质上就是著名的模拟退火(Simulated Annealing, SA) 算法。,9.1.6神经网络的特点,非线性(Nonlinearit
35、y)一个人工神经元可以是线性或非线性的。利用神经网络的非线性,可解决许多非线性问题。若输入信号所隐含的物理机制是非线性的,则人工神经网络非线性的重要性会更加突出。 分布式存储信息。其信息的存储分布在不同的位置,神经网络是用大量神经元之间的连接及对各连接权值的分布来表示特定的信息。 并行协同处理信息。神经网络中的每个神经元都可根据接收到的信息进行独立的运算和处理,并输出结果,同一层的各个神经元的输出结果可被同时计算出来,然后传输下一层做进一步处理,这体现了神经网络并行运算的特点。,4.信息处理与存储合二为一。神经网络的每个神经元都兼有信息处理和存储功能,神经元之间连接强度的变化,既反映了对信息的
36、记忆,同时又与神经元对激励的响应一起反映了信息的处理。 5. 对信息的处理具有自组织、自学习的特点,便于联想、综合和推广。神经网络的神经元之间的连接强度用权值大小来表示,这种权值可以通过对训练样本的学习而不断变换,而且随着训练样本量的增加和反复学习,这些神经元之间的连接强度会不断增加,从而提高神经元对这些样本特征的反映灵敏度。,9.2前馈神经网络 9.2.1感知器 1. 单层感知器网络,由美国学者Rosenblatt在1957年首次提出 学习算法是Rosenblatt在1958年提出的 包含一个突触权值可调的神经元 属于前向神经网络类型 只能区分线性可分的模式 IEEE设立以其名字命名的奖项,
37、单层感知器一层为输入层,另一层是具有计算单元的输出层,可以通过监督学习建立模式判别的能力,如图9-6所示。,图 9-6单层感知器网络结构图,学习的目标是通过改变权值使神经网络由给定的输入得到给定的输出。作为分类器,可以用已知类别的模式向量或特征向量作为训练集,当输入为属于第j 类的特征向量X时,应使对应于该类的输出yj=1,而其他神经元的输出则为0(或-1)。,设理想的输出为,实际的输出,为了使实际的输出逼近理想输出,可以反复依次输入训练集中的向量X,并计算出实际的输出 ,对权值w作如下的修改:,其中,感知器的学习过程与求取线性判别函数的过程是等价的。感知器的特性:1)单层感知器只能用于解决线
38、性可分问题;2)学习过程收敛很快,且与初始值无关。,单层感知器工作原理 单层感知器可将外部输入分为两类和。当感知器的输出为+1时,输入属于l1 类,当感知器的输出为-1时,输入属于 l2 类,从而实现两类目标的识别。在多维空间,单层感知器进行模式识别的判决超平面由下式决定:,对于只有两个输入的判别,边界是直线(如下式所示),选择合适的学习算法可训练出满意的和,当它用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开。,基于迭代的思想,通常是采用误差校正学习规则的学习算法。 可以将偏差作为神经元突触权值向量的第一个分量加到权值向量中 输入向量和权值向量可分别写成如下的形式:
39、令上式等于零,可得到在一维空间的单层感知器的判别超平面。,单层感知器学习算法思想,具体算法:,第一步,设置变量和参量。,g(x)为激活函数, y(n)为网络实际输出,d(n) 为期望输出, 为学习速率, n 为迭代次数,e 为实际输出与期望输出的误差。,第二步,初始化,给权值向量W(0) 的各个分量赋一个较小的随机非零值,置 n=0。,第三步,输入一组样本,并给出它的期望输出d(n) 。,第四步,计算实际输出:,第五步,求出期望输出和实际输出求出误差,根据误差判断目前输出是否满足条件,一般为对所有样本误差为零或者均小于预设的值,则算法结束,否则将n值增加1,并用下式调整权值:,然后转到第三步,
40、进入下一轮计算过程,使用MATLAB实现神经网络的步骤如下: 第一步 根据应用创建一个神经网络; 第二步 设定神经网络的训练参数,利用给定样本对创建的神经网络进行训练; 第三步 输入测试数据,测试训练好的神经网络的性能。,例题:用单层感知器解决一个简单的分类问题。设计一个感知器,将二维的三组输入矢量分成两类。 已知输入矢量为:P=-0.4 -0.5 0.6; 0.9 0 0.1 目标矢量为:T=1 1 0; 现将输入矢量为Q=0.6 0.9 -0.1; -0.1 -0.5 0.5的样本进行分类。,训练误差曲线,训练后的分类线,2. 多层感知器网络 单层感知器网络只能解决线性可分问题。 在单层感
41、知器网络的输入层和输出层之间加入一层或多层感知器单元作为隐含层, 就构成了多层感知器网络。多层感知器网络可以解决线性不可分的输入向量的分类问题。,由输入层、隐含层(可以是一层或者多层)和输出层构成的神经网络称为多层前向神经网络。,多层感知器的拓扑结构,输入层神经元的个数为输入信号的维数,隐含层个数以及隐节点的个数视具体情况而定,输出层神经元的个数为输出信号的维数。,多层感知器的特点 含有一层或多层隐单元,从输入模式中获得了更多有用的信息,使网络可以完成更复杂的任务。 每个神经元的激活函数采用可微的函数 sigmoid函数 多个突触使得网络更具连通性 具有独特的学习算法 BP算法,9.2.2BP
42、网络(Back Propagation) 三层前馈网络的适用范围大大超过二层前馈网络,但学习算法较为复杂,主要困难是中间的隐层不直接与外界连接,无法直接计算其误差。为解决这一问题, Rumelhart,McClelland于1985年提出了BP网络的误差反向传播算法。,J. McClelland,David Rumelhart,BP网络是采用误差反向传播(Back Propagation, BP)算法的多层前馈网络, 其中, 神经元的传递函数为S型函数, 网络的输入和输出是一种非线性映射关系。 其主要思想是: 利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此
43、一层一层的反传下去,就获得了所有其他各层的误差估计。即:是从后向前(反向)逐层传播输出层的误差,以间接算出隐层误差。,BP学习过程: (1)工作信号正向传播:输入信号从输入层经隐单元,传向输出层,在输出端产生输出信号,这是工作信号的正向传播。在信号的向前传递过程中网络的权值是固定不变的,每一层神经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出,则转入误差信号反向传播。 (2)误差信号反向传播:网络的实际输出与期望输出之间差值即为误差信号,误差信号由输出端开始逐层向后传播,这是误差信号的反向传播。在误差信号反向传播的过程中,网络的权值由误差反馈进行调节。通过权值的不断修正使网络
44、的实际输出更接近期望输出。,激活函数 必须处处可导 一般都使用S型函数,使用S型激活函数时BP网络输入与输出关系 输入 输出,输出的导数,根据S型激活函数的图形可知,对神经网络进行训练,应该将net的值尽量控制在收敛比较快的范围内。,学习的过程: 神经网络在外界输入样本的刺激下不断改变网络的连接权值,以使网络的输出不断地接近期望的输出。 学习的本质: 对各连接权值的动态调整 学习规则: 权值调整规则,即在学习过程中网络中各神经元的连接权变化所依据的一定的调整规则。,学习的类型:有导师学习 核心思想: 将输出误差以某种形式通过隐层向输入层逐层反传 学习的过程: 信号的正向传播 误差的反向传播,将
45、误差分摊给各层的所有单元各层单元的误差信号,修正各单元权值,正向传播: 输入样本输入层各隐层输出层 判断是否转入反向传播阶段: 若输出层的实际输出与期望的输出(教师信号)不符 误差反传 误差以某种形式在各层表示修正各层单元的权值 网络输出的误差减少到可接受的程度 进行到预先设定的学习次数为止,BP网络的学习规则采用梯度下降算法。 在网络学习过程中, 把输出层节点的期望输出(目标输出)与实际输出(计算输出)的均方误差, 逐层向输入层反向传播, 分配给各连接节点, 并计算出各连接节点的参考误差, 在此基础上调整各连接权值, 使得网络的期望输出与实际输出的均方误差达到最小。,网络结构 输入层有n个神
46、经元,隐含层有p个神经元, 输出层有q个神经元 变量定义 输入向量; 隐含层输入向量; 隐含层输出向量; 输出层输入向量; 输出层输出向量; 期望输出向量;,BP网络的标准学习算法,输入层与中间层的连接权值: 隐含层与输出层的连接权值: 隐含层各神经元的阈值: 输出层各神经元的阈值: 样本数据个数: 激活函数: 误差函数:,第一步,网络初始化 给各连接权值分别赋一个区间(-1,1)内的随机数,设定误差函数e,给定计算精度值 和最大学习次数M。 第二步,随机选取第 个输入样本及对应期望输出,第三步,计算隐含层各神经元的输入和输出,第四步,利用网络期望输出和实际输出,计算误差函数对输出层的各神经元
47、的偏导数 。,第五步,利用隐含层到输出层的连接权值、输出层的 和隐含层的输出计算误差函数对隐含层各神经元的偏导数 。,第六步,利用输出层各神经元的 和隐含层各神经元的输出来修正连接权值 。,第七步,利用隐含层各神经元的 和输入层各神经元的输入修正连接权。,第八步,计算全局误差 第九步,判断网络误差是否满足要求。当误差达到预设精度或学习次数大于设定的最大次数,则结束算法。否则,选取下一个学习样本及对应的期望输出,返回到第三步,进入下一轮学习。,BP算法直观解释 情况一直观表达 当误差对权值的偏 导数大于零时,权值 调整量为负,实际输 出大于期望输出, 权值向减少方向调整, 使得实际输出与期望 输
48、出的差减少。,BP算法直解释 情况二直观表达 当误差对权值的偏导数 小于零时,权值调整量 为正,实际输出少于期 望输出,权值向增大方向 调整,使得实际输出与期 望输出的差减少。,BP神经网络的特点,非线性映射能力 能学习和存贮大量输入-输出模式映射关系,而无需事先了解描述这种映射关系的数学方程。只要能提供足够多的样本模式对供网络进行学习训练,它便能完成由n维输入空间到m维输出空间的非线性映射。 泛化能力 当向网络输入训练时未曾见过的非样本数据时,网络也能完成由输入空间向输出空间的正确映射。这种能力称为泛化能力。 容错能力 输入样本中带有较大的误差甚至个别错误对网络的输入输出规律影响很小。,BP
49、学习算法是神经网络学习中最常用的学习方法之一, BP网络被广泛应用于模式识别、 函数逼近、 数据压缩等多个方面。 但是, BP算法存在一些不足, 例如, 隐含层数和隐含层神经元数目通常是通过实验确定的, 缺乏理论依据; 有可能收敛到一个局部极小点, 得到局部最优解; 学习算法的收敛速度较慢。,9.2.3径向基函数网络,一、概述,1985年,Powell提出了多变量插值的径向基函数(Radical Basis Function,RBF)方法 。 1988年, Moody和Darken首先将RBF应用于神经网络设计,构成了径向基函数神经网络。 结构:RBF网络是一种三层前向网络,输入层由信号源节点
50、组成;第二层为隐含层,隐单元的个数由所描述的问题而定,隐单元的变换函数是中心点径向对称且衰减的非负非线性函数;第三层为输出层,它对输入模式的作用做出响应。,RBF网络的基本思想:,用径向基函数(RBF)作为隐单元的“基”,构成隐含层空间,隐含层对输入矢量进行变换,将低维的模式输入数据变换到高维空间内,通过对隐单元输出的加权求和得到输出。 当RBF的中心点确定后,映射关系也就确定。 隐含层空间到输出空间的映射是线性的。,径向基函数(Radial Basis Function, RBF)网络的结构与BP网络类似, 它是一个三层前馈网络, 包含1个输入层、 1个隐含层和1个输出层, 其结构如图9-8
51、所示。 ,图9-8 RBF网络结构,在RBF神经网络中, 隐含层单元提供了一系列“函数”, 这些函数就称作为径向基函数, 它是关于中心点对称的非线性函数。 当输入模式(向量)传输到隐含层时, 这些径向基函数构成了输入模式的一个 “基”。 当RBF的中心点确定后, 映射关系就确定了, 将输入向量直接映射到隐含层空间, 其中不需要连接权。 ,这种网络的特点是:只有一个隐层,隐层单元采用径向基函数作为其输出特性,输入层到隐层之间的权值均固定为1;输出节点为线性求和单元,隐层到输出节点之间的权值可调,因此输出为隐层的加权求和。 所谓径向基函数就是某种沿径向对称的标量函数。通常定义为空间中任一点x到某一
52、中心ui之间欧氏距离的单调函数,可记作,其作用往往是局部的,即当x远离ui 时函数取值很小。最常用的径向基函数是(1)高斯核函数,形式为,(i=1, 2, , L),(9-34),(2) 三角核, 其函数表达式为,(i=1, 2, , L),(9-35),(3) 双指数核, 其函数表达式为,(i=1, 2, , L),(9-36),最常用的RBF函数形式是高斯核函数。 网络学习时, RBF函数的中心矢量ui和形状参数i也参与学习修正。 中心矢量修正的方法主要有自组织特征映射方法和K均值聚类方法。 RBF函数的形状参数i应根据样本的特性自适应地选择。 若i取得较大, 则隐含层中节点i能感受较大范
53、围内的模式, 容错性好, 但局部性差; 若i取得较小, 则容错性差, 但局部性好。,学习算法需要求解的参数 径向基函数的中心 方差 隐含层到输出层的权值 学习方法分类(按RBF中心选取方法的不同分) 随机选取中心法 自组织选取中心法 有监督选取中心法 正交最小二乘法等,二、RBF网络的学习算法,自组织选取中心学习方法 第一步,自组织学习阶段 无导师学习过程,求解隐含层基函数的中心与方差; 第二步,有导师学习阶段 求解隐含层到输出层之间的权值。 高斯函数作为径向基函数,例: 建立一个径向基神经网络,对非线性函数y=sqrt(x)进行逼近,并作出网络的逼近误差曲线。,理论上而言, RBF网络和BP
54、网络一样可近似任何的连续非线性函数, 二者的主要差别在于各使用不同的传递函数。 BP网络中隐含层单元的传递函数一般为非线性函数, RBF网络隐含层单元的传递函数是关于中心对称的径向基函数。BP网络各层单元间通过权连接, RBF网络输入层和隐含层间为直接连接, 隐含层到输出层通过权连接。,RBF网络与BP网络比较: RBF网络的输出是隐单元输出的线性加权和,学习速度加快; BP网络使用sigmoid()函数作为激活函数,这样使得神经元有很大的输入可见区域; 径向基神经网络使用径向基函数(一般使用高斯函数)作为激活函数,神经元输入空间区域很小,因此需要更多的径向基神经元。,RBF网络与多层感知器比
55、较: 都是非线性多层前向网络,它们都是通用逼近器。对于任一个多层感知器,总存在一个RBF网络可以代替它,反之亦然。 RBF网络只有一个隐层,而多层感知器的隐层可以是一层也可以是多层的; 多层感知器的隐层和输出层其神经元模型是一样的。而RBF网络的隐层神经元和输出层神经元不仅模型不同,而且在网络中起到的作用也不一样。,RBF网络的隐层是非线性的,输出层是线性的。多层感知器解决模式分类问题时,它的隐层和输出层通常选为非线性的。当用多层感知器解决非线性回归问题时,通常选择线性输出层。 RBF网络的基函数计算的是输入向量和中心的欧氏距离,而多层感知器隐单元的激励函数计算的是输入单元和连接权值间的内积。
56、 多层感知器是对非线性映射的全局逼近,而RBF网络使用局部指数衰减的非线性函数(如高斯函数)对非线性输入输出映射进行局部逼近。这也意味着,逼近非线性输入输出映射,要达到相同的精度,RBF网络所需要的参数要比多层感知器少得多。,9.3自组织特征映射神经网络 自组织神经网络,又称为自组织竞争神经网络,特别适合于解决模式分类和识别方面的应用问题。 自组织神经网络属于前向神经网络类型,采用无导师学习算法; 自组织特征映射神经网络不仅能够像自组织竞争神经网络一样学习输入的分布情况,而且可以学习神经网络的拓扑结构。,由芬兰学者Teuvo Kohonen于1981年提出。 基本上为输入层和映射层的双层结构,
57、映射层的神经元互相连接,每个输出神经元连接至所有输入神经元。,神经元之间的信息交互方式有很多种,然而邻近神经元之间的局部交互有一个共同的方式,就是侧向交互:最相近的“邻元”(约小于0.5mm)互相兴奋,较远的邻元(1mm2mm)互相抑制,更远的又是弱兴奋,这种局部交互形式可以形象地比喻为“墨西哥草帽”(如下图所示)。,邻近神经元之间的局部交互作用示意,T. Kohonen认为:神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器,这就是自组织特征映射的含义。人工自组织映射与大脑映射有许多共同特征,通常又称作自组织映射神经网络或简称SOM网络。,9.3.
58、1网络结构 自组织特征映射神经网络由输入层和输出层组成, 输出层也称为竞争层。 其网络结构如图9-9所示。 输入层为输入模式的一维阵列, 其节点数为输入模式的维数。 输入层和输出层神经元间为全互连方式, 即所有输入层节点到所有输出层节点都有权值连接。 输出层神经元按二维阵列形式排列, 且相互间也可能存在局部连接, 每个神经元代表一种输入样本。,图 9-9自组织特征映射网络结构图,对于给定的输入模式, 网络在学习过程中不断调整连接权值, 形成兴奋中心神经元(获胜神经元) j*。 在神经元 j*的邻域NEj*内的神经元都在不同程度上得到兴奋, 而在NEj*以外的神经元都被抑制。 这个邻域NEj*可
59、以是任意形状, 如正方形、 六边形。 区域NEj*的大小是时间t的函数, 用NEj*(t)表示。 随着时间t的增大, NEj*(t)的面积逐渐减小, 最后只剩下一组神经元或一个神经元, 反映了某一类输入模式的特性。 采用正方形的邻域形状图如图9-10所示。,图 9-10不同时刻特征映射的拓扑邻域(t0t1t2),9.3.2自组织特征映射算法 设自组织特征映射网络的输入模式x=(x1, x2, , xn)T, 输出层每个节点(神经元)对应一个权向量Wj=(w1j, w2j, , wnj)T, wij是输入节点i到输出节点j的连接权值。 输入一个模式x时, 将其和输出层每个节点的权向量都进行比较, 然后对距离最近的节点及其邻域中的节点的权向量进行修正。,Kohonen给出了自组织特征映射算法, 具体过程如下: (1) 初始化权值。 初始化从n个输入节点到m个输出节点的权值, 取值为小的随机数, 设定邻域的半径的初始值。 (2) 提交t 时刻的输入模式: x(t)=(x1(t), x2(t), , xn(t)T。 (3) 计算输入模式到所有输出节点的距离: ,(9-37),其中: xi(t)是t时刻输入节点i的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公对公服务外包合同
- 写文章服务外包合同
- 出租房外包合同
- 加工外包合同
- 劳动派遣外包合同
- 厂区物业外包合同
- 商务ktv外包合同
- 园林修剪外包合同
- 垃圾清运费外包合同
- 外出参观外包合同
- 数字化时代下TC保险公司内部审计信息化建设路径探析
- 吉林省长春市2026年中考语文模拟试卷四套附答案
- 物业小区消防安全隐患排查及整改措施
- 2025年一级造工程师(交通)案例分析真题及答案
- 2026年中国实体剧本杀消费洞察报告
- 食品安全检测与评估培训教材(标准版)
- 2025年度陕西延长石油(集团)有限责任公司“汇才”-管理人才储备招聘130人(春招)笔试参考题库附带答案详解
- 电力线路巡检报告模板
- DB22∕T 1056-2022 梅花鹿产品初加工技术规程
- 足球一对一防守课件教学
- 人力资源管理信息系统介绍
评论
0/150
提交评论