数学建模神经网络算法ppt课件.ppt

上传人：儿*** IP属地：广东上传时间：2019-12-26 格式：PPT 页数：203 大小：3.05MB 积分：30 举报 版权申诉

已阅读5页，还剩198页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数学建模经典算法神经网络与神经网络算法 1 学习目标拓宽视野感受神经网络算法的应用背景能够用神经网络算法解决一些简单问题不探究详细的理论基础 2 内容安排人工神经网络简介人工神经网络的基本功能人工神经网络的发展历史人工神经网络的生物学基础M P模型前馈神经网络单层感知器多层感知器BP算法BP网络应用案例 MATLAB计算 3 1 人工神经网络简介生物神经网络人类的大脑大约有1 4 1011个神经细胞亦称为神经元每个神经元有数以千计的通道同其它神经元广泛相互连接形成复杂的生物神经网络人工神经网络以数学和物理方法以及信息处理的角度对人脑神经网络进行抽象并建立某种简化模型就称为人工神经网络 ArtificialNeuralNetwork 缩写ANN 对人类大脑系统的一阶特性的一种描述生理角度的模拟 4 基本原理存在一些输入和相应的输出而对如何由输入得到输出的机理并不清楚把输入与输出之间的未知过程看成是一个网络通过不断地给这个网络输入和相应的输出来训练这个网络网络根据输入和输出不断地调节自己的各节点之间的权值来满足输入和输出当训练结束后给定一个输入网络便会根据已调节好的权值计算出相应的输出 5 严格定义 ANN最典型的定义由Simpson在1987年提出人工神经网络是一个非线性的有向图图中含有可以通过改变权大小来存放模式的加权边并且可以从不完整的或未知的输入找到模式 ANN算法根据人的认识过程而开发出的一种算法 6 2 人工神经网络的基本功能 1 联想记忆功能由于神经网络具有分布存储信息和并行计算的性能因此它具有对外界刺激信息和输入模式进行联想记忆的能力联想记忆有两种基本形式自联想记忆异联想记忆 7 自联想记忆网络中预先存储记忆多种模式信息当输入某个已存储模式的部分信息或带有噪声干扰的信息时网络能通过动态联想过程回忆起该模式的全部信息异联想记忆网络中预先存储了多个模式对每一对模式均由两部分组成当输入某个模式对的一部分时即使输入信息是残缺的或迭加了噪声的网络也能回忆起与其对应的另一部分 8 不完整模式的自联想神经网络通过预先存储信息和学习机制进行自适应训练可以从不完整的信息和噪声干扰中恢复原始的完整信息这一能力使其在图象复原图像和语音处理模式识别分类等方面具有巨大的潜在应用价值 9 2 人工神经网络的基本功能续 2 非线性映射功能 10 非线性映射功能在客观世界中许多系统的输入与输出之间存在复杂的非线性关系对于这类系统往往很难用传统的数理方法建立其数学模型设计合理的神经网络通过对系统输入输出样本对进行自动学习能够以任意精度逼近任意复杂的非线性映射神经网络的这一优良性能使其可以作为多维非线性函数的通用数学模型该模型的表达是非解析的输入输出数据之间的映射规则由神经网络在学习阶段自动抽取并分布式存储在网络的所有连接中具有非线性映射功能的神经网络应用十分广阔几乎涉及所有领域 11 2 人工神经网络的基本功能续 3 分类与识别功能 12 分类与识别功能神经网络对外界输入样本具有很强的识别与分类能力对输入样本的分类实际上是在样本空间找出符合分类要求的分割区域每个区域内的样本属于一类传统分类方法只适合解决同类相聚异类分离的的识别与分类问题但客观世界中许多事物例如不同的图象声音文字等等在样本空间上的区域分割曲面是十分复杂的相近的样本可能属于不同的类而远离的样本可能同属一类神经网络可以很好地解决对非线性曲面的逼近因此比传统的分类器具有更好的分类与识别能力 13 2 人工神经网络的基本功能续 4 优化计算功能 14 优化计算功能优化计算是指在已知的约束条件下寻找一组参数组合使由该组合确定的目标函数达到最小值某些类型的神经网络可以把待求解问题的可变参数设计为网络的状态将目标函数设计为网络的能量函数神经网络经过动态演变过程达到稳定状态时对应的能量函数最小从而其稳定状态就是问题的最优解这种优化计算不需要对目标函数求导其结果是网络自动给出的 15 2 人工神经网络的基本功能续 5 知识处理功能 16 知识处理功能知识是人们从客观世界的大量信息以及自身的实践中总结归纳出来的经验规则和判据神经网络获得知识的途径与人类似也是从对象的输入输出信息中抽取规律而获得关于对象的知识并将知识分布在网络的连接中予以存储神经网络的知识抽取能力使其能够在没有任何先验知识的情况下自动从输入数据中提取特征发现规律并通过自组织过程将自身构建成适合于表达所发现的规律另一方面人的先验知识可以大大提高神经网络的知识处理能力两者相结合会使神经网络智能得到进一步提升 17 神经网络的发展历程经过了4个阶段 1 启蒙期 1890 1969年 1890年 W James发表专著心理学讨论了脑的结构和功能 1943年心理学家W S McCulloch和数学家W Pitts提出了描述脑神经细胞动作的数学模型即M P模型第一个神经网络模型 1949年心理学家Hebb实现了对脑细胞之间相互影响的数学描述从心理学的角度提出了至今仍对神经网络理论有着重要影响的Hebb学习法则 1958年 E Rosenblatt提出了描述信息在人脑中贮存和记忆的数学模型即著名的感知机模型 Perceptron 1962年 Widrow和Hoff提出了自适应线性神经网络即Adaline网络并提出了网络学习新知识的方法即Widrow和Hoff学习规则即学习规则并用电路进行了硬件设计 3 神经网络的发展历史 18 3 神经网络的发展历史续 2 低潮期 1969 1982 受当时神经网络理论研究水平的限制以及冯诺依曼式计算机发展的冲击等因素的影响神经网络的研究陷入低谷在美日等国有少数学者继续着神经网络模型和学习算法的研究提出了许多有意义的理论和方法例如 1969年 S Groisberg和A Carpentet提出了至今为止最复杂的ART网络该网络可以对任意复杂的二维模式进行自组织自稳定和大规模并行处理 1972年 Kohonen提出了自组织映射的SOM模型 19 3 神经网络的发展历史续 3 复兴期 1982 1986 1982年物理学家Hoppield提出了Hoppield神经网络模型该模型通过引入能量函数实现了问题优化求解 1984年他用此模型成功地解决了旅行商路径优化问题 TSP 在1986年在Rumelhart和McCelland等出版 ParallelDistributedProcessing 一书提出了一种著名的多层神经网络模型即BP网络该网络是迄今为止应用最普遍的神经网络 20 3 神经网络的发展历史续 4 新连接机制时期 1986 现在神经网络从理论走向应用领域出现了神经网络芯片和神经计算机神经网络主要应用领域有模式识别与图象处理语音指纹故障检测和图象压缩等控制与优化预测与管理市场预测风险分析等 21 神经生理学和神经解剖学的研究结果表明神经元 Neuron 是脑组织的基本单元是人脑信息处理系统的最小单元 4 人工神经网络的生物学基础 22 神经元及其联接神经元之间的联接强度决定信号传递的强弱神经元之间的联接强度是可以随训练改变的信号可以是起刺激作用的也可以是起抑制作用的一个神经元接受的信号的累积效果决定该神经元的状态每个神经元可以有一个阈值 23 4 1生物神经元的信息处理机理 1 信息的产生神经元间信息的产生传递和处理是一种电化学活动神经元状态静息兴奋抑制膜电位极化去极化超极化 24 25 4 1生物神经元的信息处理机理续 2 信息的传递与接收 26 4 1生物神经元的信息处理机理续 3 信息的整合空间整合同一时刻产生的刺激所引起的膜电位变化大致等于各单独刺激引起的膜电位变化的代数和时间整合各输入脉冲抵达神经元的时间先后不一样总的突触后膜电位为一段时间内的累积 27 4 2神经元的人工模型神经元及其突触是神经网络的基本器件因此模拟生物神经网络应首先模拟生物神经元人工神经元节点从三个方面进行模拟节点本身的信息处理能力数学模型节点与节点之间连接拓扑结构相互连接的强度通过学习来调整决定人工神经网络整体性能的三大要素 28 神经元的建模 1 每个神经元都是一个多输入单输出的信息处理单元 2 神经元输入分兴奋性输入和抑制性输入两种类型 6 神经元本身是非时变的即其突触时延和突触强度均为常数 3 神经元具有空间整合特性和阈值特性 4 神经元输入与输出间有固定的时滞主要取决于突触延搁 5 忽略时间整合作用模型的六点假设 29 假设1 多输入单输出正如生物神经元有许多激励输入一样人工神经元也应该有许多的输入信号图中每个输入的大小用确定数值xi表示它们同时输入神经元j 神经元的单输出用oj表示 30 假设2 输入类型兴奋性和抑制性生物神经元具有不同的突触性质和突触强度其对输入的影响是使有些输入在神经元产生脉冲输出过程中所起的作用比另外一些输入更为重要图中对神经元的每一个输入都有一个加权系数wij 称为权重值其正负模拟了生物神经元中突触的兴奋和抑制其大小则代表了突触的不同连接强度 31 假设3 空间整合特性和阈值特性作为ANN的基本处理单元必须对全部输入信号进行整合以确定各类输入的作用总效果图中表示组合输入信号的总和值相应于生物神经元的膜电位神经元激活与否取决于某一阈值电平即只有当其输入总和超过阈值时神经元才被激活而发放脉冲否则神经元不会产生输出信号 32 神经元的输出图中人工神经元的输出也同生物神经元一样仅有一个如用oj表示神经元输出则输出与输入之间的对应关系可用图中的某种非线性函数来表示 33 神经元模型示意图 34 4 2 1人工神经元的数学模型人工神经元模拟生物神经元的一阶特性具有生物神经元的六大特征一个人工神经元一般有多个输入和一个输出一个人工神经元有一个转移函数激发函数不同的转移函数对应了不同的网络也决定了网络的用途 35 4 2 1人工神经元的数学模型 ij 输入输出间的突触时延 Tj 神经元j的阈值 wij 神经元i到j的突触连接系数或称权重值 f 神经元转移函数 4 1 36 为简单起见将4 1上式中的突触时延取为单位时间则式 4 1 可写为4 2式上式描述的神经元数学模型全面表达了神经元模型的6点假定其中输入xi的下标i 1 2 n 输出oj的下标j体现了神经元模型假定 1 中的多输入单输出权重值wij的正负体现了假定 2 中突触的兴奋与抑制 Tj代表假定 3 中神经元的阈值输入总和常称为神经元在t时刻的净输入用下面的式子表示 4 2 37 4 3 net j WjTX Wj w1w2 wn TX x1x2 xn T 令x0 1 w0 Tj则有 Tj x0w0 4 4 4 2 1人工神经元的数学模型续 38 4 2 1人工神经元的数学模型续 net j t 体现了神经元j的空间整合特性而未考虑时间整合当net j Tj 0时神经元才能被激活 oj t 1 与xI t之间的单位时差代表所有神经元具有相同的恒定的工作节律对应于假定 4 中的突触延搁 wij与时间无关体现了假定 6 中神经元的非时变为简便起见在后面用到式 2 3 时常将其中的 t 省略式 2 3 还可表示为权重向量Wj和输入向量X的点积WTX 其中Wj和X均为列向量定义为Wj w1w2 wn T X x1x2 xn T如果令x0 1 w0 Tj 则有 Tj x0w0 因此净输入与阈值之差可表达为 39 4 5 oj f netj f WjTX 4 6 4 2 1人工神经元的数学模型续综合以上各式神经元模型可简化为 40 人工神经元的转移函数神经元各种不同数学模型的主要区别在于采用了不同的转移函数从而使神经元具有不同的信息处理特性神经元的信息处理特性是决定人工神经网络整体性能的三大要素之一反映了神经元输出与其激活状态之间的关系最常用的转移函数有4种形式 41 1 阈值型转移函数 1x 0f x 4 7 0 x 0 人工神经元的转移函数单位阶跃函数也称为硬限幅函数 42 2 非线性转移函数人工神经元的转移函数 43 非线性转移函数为实数域R到 0 1 闭集的非减连续函数代表了状态连续型神经元模型非线性转移函数称为sigmoid 简称S型函数特点是函数本身及其导数都是连续的因而在处理上十分方便 S型函数函数又分为单极性和双极性两种 44 3 分段线性转移函数 0 x 0f x cx0 x xc 4 9 1xc x 人工神经元的转移函数神经元的输入与输出在一定区间内满足线性关系模拟了实际系统中的饱和特性也称为伪线性函数 45 4 概率型转移函数温度参数人工神经元的转移函数采用概率型转移函数的神经元模型其输入与输出之间的关系是不确定的需用一个随机函数来描述输出状态为1或为0的概率上式中 T称为温度参数由于采用该转移函数的神经元输出状态分布与热力学中的玻尔兹曼 Boltzmann 分布类似因此这种神经元模型也称为热力学模型 46 4 2 2神经网络模型分多层层数根据实际需求设定输入层隐含层输出层层数越多越准确计算时间越长人工神经元图中的每个节点 47 人工神经网络模型分类按网络连接的拓扑结构分类层次型结构互连型网络结构按网络内部的信息流向分类前馈型网络反馈型网络 48 一网络拓扑结构类型层次型结构将神经元按功能分成若干层如输入层中间层隐层和输出层各层顺序相连互连型网络结构网络中任意两个节点之间都可能存在连接路径 49 层次型网络模型层次型结构的神经网络将神经元按功能分成若干层如输入层中间层也称为隐层和输出层各层顺序相连输入层各神经元负责接收来自外界的输入信息并传递给中间各隐层神经元隐层是神经网络的内部信息处理层负责信息变换根据信息变换能力的需要隐层可为设计一层或多层最后一个隐层传递到输出层各神经元的信息经进一步处理后即完成一次信息处理由输出层向外界输出信息处理结果层次型网络结构有3种典型的结合方式 50 层次型模型 1 单纯型层次网络结构神经元分层排列各层神经元接收前一层输入并输出到下一层层内神经元自身以及神经元之间不存在连接通路 51 层次型模型 2 输出层到输入层有连接输入层神经元既可接收输入也具有信息处理功能 52 层次型模型 3 层内有连接层次型结构同一层内神经元有互连特点是在同一层内引入神经元间的侧向作用使得能同时激活的神经元个数可控以实现各层神经元的自组织 53 互联型网络结构网络中任意两个节点之间都可能存在连接路径因此可以根据网络中节点的互连程度将互连型网络结构细分为三种情况 1 全互连型网络中的每个节点均与所有其它节点连接 54 互联型网络结构 2 局部互连型网络结构网络中的每个节点只与其邻近的节点有连接 3 稀疏连接型网络中的节点只与少数相距较远的节点相连 55 说明神经网络的分层结构与激发函数一起决定了神经网络的不同还可分为单级网多级网反馈网循环网等 56 简单单级网 57 简单单级网 W wij 输出层的第j个神经元的网络输入记为netj netj x1w1j x2w2j xnwnj其中 1 j m 取NET net1 net2 netm NET XWO F NET 58 单级横向反馈网 59 单级横向反馈网反馈权值矩阵 V vij 神经元的网络输入 NET XW OV网络输出 O F NET 反馈网中可以引入时间参数神经元的状态在主时钟的控制下同步变化NET t 1 X t W O t VO t 1 F NET t 1 O 0 0 60 多级网 61 层次划分信号只被允许从较低层流向较高层层号确定层的高低层号较小者层次较低层号较大者层次较高输入层被记作第0层该层负责接收来自网络外部的信息多级网 62 第j层第j 1层的直接后继层 j 0 它直接接受第j 1层的输出输出层它是网络的最后一层具有该网络的最大层号负责输出网络的计算结果隐藏层除输入层和输出层以外的其它各层叫隐藏层隐藏层不直接接受外界的信号也不直接向外界发送信号多级网 63 约定输出层的层号为该网络的层数 n层网络或n级网络第j 1层到第j层的联接矩阵为第j层联接矩阵输出层对应的矩阵叫输出层联接矩阵今后在需要的时候一般我们用W j 表示第j层矩阵多级网 64 多级网 h层网络 65 多级网非线性激活函数F X kX C每层的网络输出举例F1 XW 1 F3 F2 F1 XW 1 W 2 W 3 66 循环网 67 循环网将输出信号反馈到输入端输入的原始信号被逐步地加强被修复符合大脑的短期记忆特征看到的东西不是一下子就从脑海里消失的网络的稳定性反馈信号会引起网络输出的不断变化我们希望这种变化逐渐减小并且最后能消失当变化最后消失时网络达到了平衡状态如果这种变化不能消失则称该网络是不稳定的 68 二网络信息流向类型前馈型网络前馈网络信息处理的方向是从输入层到各隐层再到输出层逐层进行反馈型网络在反馈网络中所有节点都具有信息处理功能而且每个节点既可以从外界接收输入同时又可以向外界输出 69 二网络信息流向类型 1 前馈型网络前馈是因网络信息处理的方向是从输入层到各隐层再到输出层逐层进行而得名 70 单纯前馈型上图从信息处理能力看网络中的节点可分为两种一种是输入节点只负责从外界引入信息后向前传递给第一隐层另一种是具有处理能力的节点包括各隐层和输出层节点前馈网络中一层的输出是下一层的输入信息的处理具有逐层传递进行的方向性一般不存在反馈环路因此这类网络很容易串联起来建立多层前馈网络 71 多层前馈网络可用一个有向无环路的图表示输入层常记为网络的第一层第一个隐层记为网络的第二层其余类推所以当提到具有单层计算神经元的网络时指的应是一个两层前馈网络输入层和输出层当提到具有单隐层的网络时指的应是一个三层前馈网络 72 二网络信息流向类型 2 反馈型网络在反馈网络中所有节点都具有信息处理功能而且每个节点既可以从外界接收输入同时又可以向外界输出 73 单纯反馈型网络单层全互连结构网络是一种典型的反馈型网络可以用上图所示的完全的无向图表示注意上面介绍的分类方法结构形式和信息流向只是对目前常见的网络结构的概括和抽象实际应用的神经网络可能同时兼有其中一种或几种形式例如从连接形式看层次网络中可能出现局部的互连从信息流向看前馈网络中可能出现局部反馈 74 4 2 3神经网络学习神经网络能够通过对样本的学习训练不断改变网络的连接权值以及拓扑结构以使网络的输出不断地接近期望的输出这一过程称为神经网络的学习或训练其本质是可变权值的动态调整神经网络的学习方式是决定神经网络信息处理性能的第三大要素神经网络研究的重点改变权值的规则称为学习规则或学习算法亦称训练规则或训练算法在单个处理单元层次无论采用哪种学习规则进行调整其算法都十分简单但当大量处理单元集体进行权值调整时网络就呈现出智能特性其中有意义的信息就分布地存储在调节后的权值矩阵中 75 4 2 3神经网络学习分类有导师学习有监督学习这种学习模式采用的是纠错规则在学习训练过程中需要不断给网络成对提供一个输入模式和一个期望网络正确输出的模式称为教师信号将神经网络的实际输出同期望输出进行比较当网络的输出与期望的教师信号不符时根据差错的方向和大小按一定的规则调整权值当网络对于各种给定的输入均能产生所期望的输出时即认为网络已经在导师的训练下学会了训练数据集中包含的知识和规则可以用来进行工作了 76 无导师学习无监督学习学习过程中需要不断给网络提供动态输入信息网络能根据特有的内部结构和学习规则在输入信息流中发现任何可能存在的模式和规律同时能根据网络的功能和输入信息调整权值这个过程称为网络的自组织其结果是使网络能对属于同一类的模式进行自动分类在这种学习模式中网络的权值调整不取决于外来教师信号的影响可以认为网络的学习评价标准隐含于网络的内部 77 死记式学习是指网络事先设计成能记忆特别的例子以后当给定有关该例子的输入信息时例子便被回忆起来死记式学习中网络的权值一旦设计好了就不再变动因此其学习是一次性的而不是一个训练过程 78 学习的过程权值调整的一般情况 79 4 2 3神经网络学习 80 5 M P模型 M P McCulloch Pitts 模型也称为处理单元 PE 输入 X x1 x2 xn 联接权 W w1 w2 wn T网络输入 net xiwi XW输出 o f net 81 6 前馈神经网络 1958年美国心理学家FrankRosenblatt提出一种具有单层计算单元的神经网络称为Perceptron 即感知器感知器是模拟人的视觉接受环境信息并由神经冲动进行信息传递的层次型神经网络感知器研究中首次提出了自组织自学习的思想而且对所能解决的问题存在着收敛算法并能从数学上严格证明因而对神经网络研究起了重要推动作用 82 6 1单层感知器单层感知器的结构与功能都非常简单以至于在解决实际问题时很少采用但由于它在神经网络研究中具有重要意义是研究其它网络的基础而且较易学习和理解适合于作为学习神经网络的起点单层感知器是指只有一层处理单元的感知器如果包括输入层在内应为两层图中输入层也称为感知层有n个神经元节点这些节点只负责引入外部信息自身无信息处理能力每个节点接收一个输入信号 n个输入信号构成输入列向量X 输出层也称为处理层有m个神经元节点每个节点均具有信息处理能力 m个节点向外部输出处理信息构成输出列向量O 两层之间的连接权值用权值列向量Wj表示 m个权向量构成单层感知器的权值矩阵W 83 感知器模型单层感知器最早也是最简单的一种神经网络它的神经元激发函数为阶跃函数主要用于分类感知器神经元 84 j 1 2 m 感知器模型 85 净输入输出感知器模型令x0 1 w0 Tj则有 Tj x0w0 86 1 设输入向量X x1 x2 T 输出则由方程wijx1 w2jx2 Tj 0确定了二维平面上的一条分界线感知器的功能 87 1 输入是二维 w1jx1 w2jx2 Tj 0w1jx1 Tj w2jx2x1 Tj w2jx2 w1j w2j w1j x2 Tj w1j ax2 c 88 感知器的功能二维 89 感知器的功能线上方的样本用表示它们使netj 0 从而使输出为1 线下方的样本用o表示它们使netj 0 从而使输出为 1 由感知器权值和阈值确定的直线方程规定了分界线在样本空间的位置从而也确定了如何将输入样本分为两类假如分界线的初始位置不能将类样本同o类样本正确分开改变权值和阈值分界线也会随之改变因此总可以将其调整到正确分类的位置 90 2 设输入向量X x1 x2 x3 T 输出则由方程wijx1 w2jx2 w3j Tj 0确定了三维空间上的一个分界平面感知器的功能 91 2 输入是三维 wijx1 w2jx2 w3jx3 Tj 0 x1 ax2 bx3 c 92 感知器的功能线上方的样本用表示它们使netj 0 从而使输出为1 线下方的样本用o表示它们使netj 0 从而使输出为 1 显然由感知器权值和阈值确定的直线方程规定了分界平面在样本空间的位置从而也确定了如何将输入样本分为两类假如分界平面的初始位置不能将类样本同o类样本正确分开改变权值和阈值分界平面也会随之改变因此总可以将其调整到正确分类的位置 93 3 设输入向量X x1 x2 xn T 则由方程wijx1 w2jx2 wnj Tj 0确定了n维空间上的一个分界平面超平面该平面可以将输入样本分为两类感知器的功能 94 一个最简单的单计算节点感知器具有分类功能其分类原理是将分类知识存储于感知器的权向量包含了阈值中由权向量确定的分类判决界面将输入模式分为两类感知器的功能 95 例一用感知器实现逻辑与功能从真值表中可以看出 4个样本的输出有两种情况一种使输出为0 另一种使输出为1 因此属于分类问题 96 例一用感知器实现逻辑与功能感知器结构和训练结果 wix1 w2x2 T 00 5x1 0 5x2 0 75 0 用单计算节点感知器实现用感知器学习规则进行训练得到的连接权值如右图 97 例二用感知器实现逻辑或功能 98 例二用感知器实现逻辑或功能感知器结构 wix1 w2x2 T 0 x1 x2 0 5 0 99 思考并回答分界线的方程是什么感知器的模型如何表示图示数学表达式 100 问题能否用感知器实现异或功能感知器的局限性 4个样本也分为两类但任何直线也不可能把两类样本分开如果两类样本可以用直线平面或超平面分开称为线性可分否则为线性不可分由感知器分类的几何意义可知由于净输入为零确定的分类判决方程是线性方程因而它只能解决线性可分问题而不可能解决线性不可分问题由此可知单计算层感知器的局限性是仅对线性可分问题具有分类能力 101 感知器的学习关键问题就是求 102 感知器的学习算法 Perceptron 感知器学习规则式中当实际输出与期望值相同时权值不需要调整感知器学习规则代表一种有导师学习 103 感知器学习规则的训练步骤 1 对各权值w0j 0 w1j 0 wnj 0 j 1 2 m m为计算层的节点数赋予较小的非零随机数 2 输入样本对 Xp dp 其中Xp 1 x1p x2p xnp dp为期望的输出向量教师信号上标p代表样本对的模式序号设样本集中的样本总数为P 则p 1 2 P 感知器的学习算法 104 感知器学习规则的训练步骤 3 计算各节点的实际输出ojp t sgn WjT t Xp j 1 2 m 4 调整各节点对应的权值 Wj t 1 Wj t djp ojp t Xp j 1 2 m 其中为学习率用于控制调整速度太大会影响训练的稳定性太小则使训练的收敛速度变慢一般取0 1 5 返回到步骤 2 输入下一对样本周而复始直到对所有样本感知器的实际输出与期望输出相等感知器的学习算法 105 感知器的学习规则的训练步骤 1 权值初始化 2 输入样本对 3 计算输出 4 根据感知器学习规则调整权值 5 返回到步骤 2 输入下一对样本周而复始直到对所有样本感知器的实际输出与期望输出相等 106 设初始权向量W 0 0 5 1 1 0 T 0 1 注意输入向量中第一个分量x0恒等于 1 权向量中第一个分量为阈值试根据以上学习规则训练该感知器感知器的学习算法 107 解第一步输入X1 得WT 0 X1 0 5 1 1 0 1 1 2 0 T 2 5o1 0 sgn 2 5 1 W 1 W 0 d1 o1 0 X1 0 5 1 1 0 T 0 1 1 1 1 1 2 0 T 0 7 0 8 0 6 0 T 感知器的学习算法 108 第二步输入X2 得WT 1 X2 0 7 0 8 0 6 0 1 0 1 5 0 5 T 1 6o2 1 sgn 1 6 1 W 2 W 1 d2 o2 1 X2 0 7 0 8 0 6 0 T 0 1 1 1 1 0 1 5 0 5 T 0 7 0 8 0 6 0 T 由于d2 o2 1 所以W 2 W 1 感知器的学习算法 109 第三步输入X3 得WT 2 X3 0 7 0 8 0 6 0 1 1 1 0 5 T 2 1O3 2 sgn 2 1 1 W 3 W 2 d3 o3 2 X3 0 7 0 8 0 6 0 T 0 1 1 1 1 1 1 0 5 T 0 5 0 6 0 4 0 1 T 第四步返回到第一步继续训练直到dp op 0 p 1 2 3 感知器的学习算法 110 单层感知器的局限性问题能否用感知器解决如下问题 111 单层感知器的局限性无法解决异或问题只能解决线性可分问题 112 6 2多层感知器提出单计算层感知器具有局限性只能解决线性可分问题而大量的分类问题是线性不可分的解决的有效办法在输入层与输出层之间引入隐层作为输入模式的内部表示将单计算层感知器变成多计算层感知器采用非线性连续函数作为转移函数使区域边界线的基本线素由直线变成曲线从而使整个边界线变成连续光滑的曲线 113 双层感知器异或问题分类例四用两计算层感知器解决异或问题多层感知器具有单隐层的感知器其中隐层的两个节点相当于两个独立的符号单元单计算节点感知器两个符号单元可分别在x1 x2平面上确定两条分界直线S1和S2 从而构成上图所示的开放式凸域 114 通过适当调整两条直线的位置可使两类线性不可分样本分别位于该开放式凸域内部和外部对隐节点1来说直线S1下面的样本使其输出为y1 1 而直线上面的样本使其输出为y1 0 对隐节点2来说直线S2上面的样本使其输出为y2 1 而直线下面的样本使其输出为y2 0 115 当输入样本为o类时其位置处于开放式凸域内部即同时处在直线S1下方和直线S2上方根据以上分析应有y1 1 y2 1 当输入样本为类时其位置处于开放式凸域外部即或者同时处在两直线S1 S2上方使y1 0 y2 1 或者同时处在两直线S1 S2下方使y1 1 y2 0 输出层节点以隐层两节点的输出y1 y2作为输入其结构也相当于一个符号单元如果经过训练使其具有逻辑与非功能则异或问题即可得到解决根据与非逻辑当隐节点输出为y1 1 y2 1时该节点输出为o 0 当隐节点输出为y1 1 y2 0时或y1 0 y2 1时该节点输出为o 1 116 对于一般形式的单隐层感知器当输入样本为二维向量时隐层中的每个节点确定了二维平面上的一条分界直线多条直线经输出节点组合后会构成各种形状的凸域所谓凸域是指其边界上任意两点之连线均在域内通过训练调整凸域的形状可将两类线性不可分样本分为域内和域外输出层节点负责将域内外的两类样本进行分类单隐层节点数量增加可以使多边形凸域的边数增加从而在输出层构建出任意形状的凸域如果在此基础上再增加第二个隐层则该层的每个节点确定一个凸域各种凸域经输出层节点组合后成为任意形状 117 如图由凸域组合成任意形状后意味着双隐层的分类能力比单隐层大大提高分类问题越复杂不同类别样本在样本空间的布局越趋于犬牙交错因而隐层需要的神经元节点数也越多 Kolmogorov理论指出双隐层感知器足以解决任何复杂的分类问题该结论已经过严格的数学证明 118 具有不同隐层数的感知器的分类能力对比 119 说明为便于直观描述感知器分类能力在上述分析中将转移函数限定为符号函数或单位阶跃函数实际上提高感知器分类能力的另一个途径是采用非线性连续函数作为神经元节点的转移函数这样做的好处是能使区域边界线的基本线素由直线变成曲线从而使整个边界线变成连续光滑的曲线 120 连续多输出感知器训练算法 1 用适当的小伪随机数初始化权矩阵W 2 初置精度控制参数学习率精度控制变量d 1 3 Whiled do3 1d 0 3 2for每个样本 X Y do3 2 1输入X x1 x2 xn 3 2 2求O F XW 3 2 3修改权矩阵W fori 1ton j 1tomdowij wij yj oj xi yj与oj之间的差别对wij的影响3 2 4累积误差forj 1tomdod d yj oj 2 121 7 BP算法提高网络性能如分类能力的有效途径包含隐层的多层前馈网络长期以来没有提出解决权值调整问题的有效算法非线性连续转移函数BP ErrorBackProragation BP 算法1986年 Rumelhart和McCelland领导的科学家小组 ParallelDistributedProcessing 一书应用对象多层前馈网络具有非线性连续转移函数 122 1 基于BP算法的多层前馈网络模型误差反传 BP 算法 123 模型的数学表达输入向量 X x1 x2 xi xn T隐层输出向量 Y y1 y2 yj ym T输出层输出向量 O o1 o2 ok ol T期望输出向量 d d1 d2 dk dl T输入层到隐层之间的权值矩阵 V V1 V2 Vj Vm 隐层到输出层之间的权值矩阵 W W1 W2 Wk Wl 各个变量之间如何建立联系来描述整个网络 124 基于BP算法的多层前馈网络模型 125 双极性Sigmoid函数单极性Sigmoid函数基于BP算法的多层前馈网络模型 126 一网络误差与权值调整输出误差E定义将以上误差定义式展开至隐层 BP学习算法 127 一网络误差与权值调整续进一步展开至输入层 3 4 2BP学习算法由上式可以看出网络输入误差是各层权值wjk vij的函数因此调整权值可改变误差E 128 j 0 1 2 m k 1 2 l i 0 1 2 n j 1 2 m 式中负号表示梯度下降常数 0 1 表示比例系数在训练中反映学习速率在全部推导过程中对输出层有j 0 1 2 m k 1 2 l对隐层有i 0 1 2 n j 1 2 m 3 4 2BP学习算法调整权值的原则显然是使误差不断地减小因此应使权值的调整量与误差的梯度下降成正比 129 二 BP算法推导对于输出层有对隐层有对输出层和隐层各定义一个误差信号令 3 4 2BP学习算法 130 综上可将权值调整式改写为同理隐层的权值调整式可改写为可以看出只要计算出误差信号 o和 y 权值调整量的计算推导即可完成下面继续推导如何求误差信号 o和 y 131 对于输出层 o可展开为对于隐层 y可展开为下面求网络误差对各层输出的偏导 132 对于输出层利用式对于隐层利用式可得可得 133 将以上结果代入并应用式得到 134 将上述结果代入得到三层前馈网的BP学习算法权值调整计算公式为可以看出 BP学习算法中各层权值调整公式形式上都是一样的均由3个因素决定即学习率本层输出的误差信号本层输入信号Y 或X 输出层误差信号与网络的期望输出和实际输出之差有关直接反映了输出误差各隐层的误差信号与前面各层的误差信号都有关是从输出层开始逐层反传过来的 135 136 BP网络 BackpropagationNetwork 拓扑结构增加隐藏层数和隐藏层神经元个数不一定总能提高网络精度和表达能力所以 BP网一般都选用二级网络 137 BP网络神经元神经元的网络输入 neti x1w1i x2w2i xnwni神经元的输出 138 BP网络的应用 BP网络的用途十分广泛可用于以下方面函数逼近用输入矢量和相应的输出矢量训练一个网络逼近一个函数模式识别用一个特定的输出矢量将它与输入矢量联系起来分类把输入矢量以所定义的合适方式进行分类数据压缩减少输出矢量维数以便于传输或存储 139 BP算法的基本思想学习的类型有导师学习核心思想将输出误差以某种形式通过隐层向输入层逐层反传学习的过程信号的正向传播误差的反向传播将误差分摊给各层的所有单元各层单元的误差信号修正各单元权值 140 BP算法的学习过程正向传播输入样本输入层各隐层输出层判断是否转入反向传播阶段若输出层的实际输出与期望的输出教师信号不符误差反传误差以某种形式在各层表示修正各层单元的权值网络输出的误差减少到可接受的程度进行到预先设定的学习次数为止 141 训练过程样本输入向量理想输出向量权初始化1 向前传播阶段 1 从样本集中取一个样本 Xp Yp 将Xp输入网络 2 计算相应的实际输出Op Op Fl F2 F1 XpW 1 W 2 W L 142 训练过程 2 向后传播阶段误差传播阶段 1 计算实际输出Op与相应的理想输出Yp的差 2 按极小化误差的方式调整权矩阵 3 网络关于第p个样本的误差测度 4 网络关于整个样本集的误差测度 143 误差传播 1 输出层权的调整 wpq wpq wpq wpq qop fn netq yq oq op oq 1 oq yq oq op 144 误差传播 2 隐藏层权的调整 145 误差传播 pk 1的值和 1k 2k mk有关不妨认为 pk 1通过权wp1对 1k做出贡献通过权wp2对 2k做出贡献通过权wpm对 mk做出贡献 pk 1 fk 1 netp wp1 1k wp2 2k wpm mk vhp vhp vhp vhp pk 1ohk 2 fk 1 netp wp1 1k wp2 2k wpm mk ohk 2 opk 1 1 opk 1 wp1 1k wp2 2k wpm mk ohk 2 2 隐藏层权的调整 146 基本BP算法样本集 S X1 Y1 X2 Y2 Xs Ys 基本思想逐一地根据样本集中的样本 Xk Yk 计算出实际输出Ok和误差测度E1 对W 1 W 2 W L 各做一次调整重复这个循环直到 Ep 用输出层的误差调整输出层权矩阵并用此误差估计输出层的直接前导层的误差再用输出层前导层误差估计更前一层的误差如此获得所有其它各层的误差估计并用这些估计实现对权矩阵的修改形成将输出端表现出的误差沿着与输入信号相反的方向逐级向输入端传递的过程 147 基本BP算法 1fork 1toLdo1 1初始化W k 2初始化精度控制参数 3E 1 4whileE do4 1E 0 4 2对S中的每一个样本 Xp Yp 4 2 1计算出Xp对应的实际输出Op 4 2 2计算出Ep 4 2 3E E Ep 4 2 4根据相应式子调整W L 4 2 5k L 1 4 2 6whilek 0do4 2 6 1根据相应式子调整W k 4 2 6 2k k 14 3E E 2 0 148 BP算法的程序实现 1 初始化 4 计算各层误差信号 5 调整各层权值 6 检查是否对所有样本完成一次轮训 7 检查网络总误差是否达到精度要求 2 输入训练样本对X Xp d dp 计算各层输出 3 计算网络输出误差 149 BP算法的程序实现然后根据总误差计算各层的误差信号并调整权值另一种方法是在所有样本输入之后计算网络的总误差 150 多层前馈网的主要能力 1 非线性映射能力多层前馈网能学习和存贮大量输入输出模式映射关系而无需事先了解描述这种映射关系的数学方程只要能提供足够多的样本模式对供BP网络进行学习训练它便能完成由n维输入空间到m维输出空间的非线性映射 151 多层前馈网的主要能力 2 泛化能力当向网络输入训练时未曾见过的非样本数据时网络也能完成由输入空间向输出空间的正确映射这种能力称为多层前馈网的泛化能力 3 容错能力输入样本中带有较大的误差甚至个别错误对网络的输入输出规律影响很小 152 误差曲面与BP算法的局限性误差函数的可调整参数的个数nw等于各层权值数加上阈值数即误差E是nw 1维空间中一个形状极为复杂的曲面该曲面上的每个点的高度对应于一个误差值每个点的坐标向量对应着nw个权值因此称这样的空间为误差的权空间 153 误差曲面的分布 BP算法的局限性曲面的分布特点算法的局限性 1 存在平坦区域误差下降缓慢影响收敛速度 2 存在多个极小点易陷入局部最小点 154 曲面分布特点1 存在平坦区域平坦误差的梯度变化小接近于零 155 存在平坦区域的原因分析接近于零的情况分析造成平坦区的原因各节点的净输入过大对应着误差的某个谷点平坦区 156 曲面分布特点2 存在多个极小点误差梯度为零多数极小点都是局部极小即使是全局极小往往也不是唯一的单权值双权值 157 曲面分布特点2 存在多个极小点 BP算法以误差梯度下降为权值调整原则误差曲面的这一特点使之无法辨别极小点的性质导致的结果因而训练经常陷入某个局部极小点而不能自拔从而使训练无法收敛于给定误差 158 标准BP算法的改进误差曲面的形状固有的算法的作用是什么调整权值找到最优点那么如何更好地调整权值利用算法使得权值在更新的过程中走合适的路径比如跳出平坦区来提高收敛速度跳出局部最小点等等如何操作需要在进入平坦区或局部最小点时进行一些判断通过改变某些参数来使得权值的调整更为合理 159 标准的BP算法内在的缺陷易形成局部极小而得不到全局最优训练次数多使得学习效率低收敛速度慢隐节点的选取缺乏理论指导训练时学习新样本有遗忘旧样本的趋势针对上述问题国内外已提出不少有效的改进算法下面仅介绍其中3种较常用的方法 160 标准BP算法的改进改进1 增加动量项改进2 自适应调节学习率改进3 引入陡度因子 161 改进1 增加动量项提出的原因标准BP算法只按t时刻误差的梯度降方向调整而没有考虑t时刻以前的梯度方向从而常使训练过程发生振荡收敛缓慢方法为动量系数一般有 0 1 162 改进1 增加动量项实质从前一次权值调整量中取出一部分迭加到本次权值调整量中作用动量项反映了以前积累的调整经验对于t时刻的调整起阻尼作用当误差曲面出现骤然起伏时可减小振荡趋势提高训练速度 163 改进2 自适应调节学习率提出的原因标准BP算法中学习率也称为步长确定一个从始至终都合适的最佳学习率很难平坦区域内太小会使训练次数增加在误差变化剧烈的区域太大会因调整量过大而跨过较窄的坑凹处使训练出现振荡反而使迭代次数增加 164 改进2 自适应调节学习率基本思想自适应改变学习率使其根据环境变化增大或减小基本方法设一初始学习率若经过一批次权值调整后使总误差则本次调整无效且 1 165 改进3 引入陡度因子提出的原因误差曲面上存在着平坦区域权值调整进入平坦区的原因是神经元输出进入了转移函数的饱和区基本思想如果在调整进入平坦区后设法压缩神经元的净输入使其输出退出转移函数的不饱和区就可以改变误差函数的形状从而使调整脱离平坦区 166 改进3 引入陡度因子基本方法在原转移函数中引入一个陡度因子当发现 E接近零而d o仍较大时可判断已进入平坦区此时令 1 当退出平坦区后再令 1 167 改进3 引入陡度因子作用分析 1 net坐标压缩了倍神经元的转移函数曲线的敏感区段变长从而可使绝对值较大的net退出饱和值 1 转移函数恢复原状对绝对值较小的net具有较高的灵敏度应用结果表明该方法对于提高BP算法的收敛速度十分有效 168 总结基于BP算法的多层前馈网络模型BP算法的实现基本思想推导过程程序实现BP学习算法的功能BP学习算法的局限性BP学习算法的改进 169 8 BP网络设计一训练样本集的准备1 输入

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数学建模神经网络算法ppt课件.ppt

文档简介

温馨提示

最新文档

评论

数学建模神经网络算法ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档