已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章 前馈型人工神经网络 vM-P模型 v感知机模型与学习算法 v多层感知机网络 v自适应线性单元与网络 v非线性连续变换单元组成的前馈网络 vBP算法 *1马尽文 2.3 非线性连续变换单元组成的网络 由非线性连续变换单元组成的前馈网络,简称 为BP(Back Propagation) 网络。 网络的结构与数学描述 (i). 非线性连续变换单元 对于非线性连续变换单元,其输入、输出变 换函数是非线性、单调上升、连续的即可。 但在BP网络中,我们采用S型函数: Date2马尽文 2.3 非线性连续变换单元组成的网络 函数 是可微的,并且 这种函数用来区分类别 时,其结果可能是一种模 糊的概念。当 时,其 输出不是1, 而是大于0.5的一个数,而当 时,输出是一个小于0.5的一个数。若用这样 一个单元进行分类,当输出是0.8时,我们 可认为属于A类的隶属度(或概率)为0.8时 ,而属于B类的隶属度(或概率)为0.2。 Date3马尽文 2.3 非线性连续变换单元组成的网络 (ii). 网络结构与参数 下面以四层网络为例 来介绍BP网络的结构和 参数,一般情况类似。 Date4马尽文 2.3 非线性连续变换单元组成的网络 网络的输入输出关系为: 显然可以将阈值归入为特别的权,从而网络的 参数可用 表示( 为一个集合)。上述网 络实现了一个多元连续影射: Date5马尽文 2.3 非线性连续变换单元组成的网络 (iii).网络的学习问题 学习的目标:通过网络(或 )来逼近一个 连续系统,即连续变换函数 。 学习的条件:一组样本(对) 对于样本对 ,存在 使得 对于所有样本的解空间为: ),( ii yx Date6马尽文 2.3 非线性连续变换单元组成的网络 (iv). Kolmogorov定理 Kolmogorov定理(映射神经网络存在定理, 1950s) 给定任何连续函数 ,则 能够被一个三层前馈神经网络所实现,其中网 络的隐单元数为 。 注意:定理未解决构造问题。 Date7马尽文 2.3 非线性连续变换单元组成的网络 2. BP学习算法 (i).基本思想 BP算法属于 学习律,是一种有监督学习: 对于辅助变量并将阈值归入权参数: 则有: Date8马尽文 2.3 非线性连续变换单元组成的网络 考虑第 个样本的误差: 进一步得总误差: 引入权参数矩阵: 和总权参数向量: Date9马尽文 2.3 非线性连续变换单元组成的网络 根据总误差得到一般性的梯度算法: 终止规则: 这里用梯度法可以使总的误差向减小的方向变 化,直到 或梯度为零结束。这种学习方式 使权向量 达到一个稳定解,但无法保证 达到全局最优,一般收敛到一个局部极小解 。 Date10马尽文 2.3 非线性连续变换单元组成的网络 (ii). BP算法的推导 令 为迭代次数,则得一般性梯度下降法: 其中 为学习率,是一个大于零的较小的实数 。 先考虑对于 的偏导数: Date11马尽文 2.3 非线性连续变换单元组成的网络 在上式中, 为第 个样本输入网络时, 的 对应值。另外 令 则: 为了方便,引入记号: Date12马尽文 2.3 非线性连续变换单元组成的网络 对于 的偏导数,我们有: Date13马尽文 2.3 非线性连续变换单元组成的网络 这样我们有: 类似的推导可得: (iii). BP算法 Step 1. 赋予初值: Step 2. 在 时刻,计算 及其广义误 差 Date14马尽文 2.3 非线性连续变换单元组成的网络 Step 3. 修正权值: Step 4. 计算修正后的误差: 若 ,算法结束 ,否则返回到Step 2。 Date15马尽文 2.3 非线性连续变换单元组成的网络 BP算法的讨论:a). 这里的梯度是对于全部样 本求的,因此是一种批处理算法,即 Batch- way,它符合梯度算法,稳定地收敛到总误差 的一个极小点而结束。(注意:按总误差小于 可能导致算法不收敛.) b). 实际中更常用的是 对每个样本修改,即自适应算法,当每次样 本是随机选取时,可通过随机逼近理论证明 该算法也是收敛的。特点是收敛速度快。C). 为了使得算法既稳定,又具有快的收敛速度 ,可以使用批处理与自适应相补充的算法, 即选取一组样本(远小于全部样本)进行计 算梯度并进行修正,其它不变。 Date16马尽文 2.3 非线性连续变换单元组成的网络 3. BP网络误差曲面的特性 BP网络的误差公式为: 是一种非线性函数,而多层的BP 网络中 又是上一层神经元状态的非线性函 数,用 表示其中一个样本对应的误差,则 有: 可见, 与 有关,同时也与所有样本对有 关,即与 有关。 Date17马尽文 2.3 非线性连续变换单元组成的网络 假定样本集 给定,那么 是 的函数。在前 面考虑的4层网络中,权值参数的总个数为: 那么在加上 这一维数,在 维空间中, 是一个具有极其复杂形状的曲面。如果在考 虑样本,其形状就更为复杂,难于想象。从 实践和理论上,人们得出了下面三个性质: (i). 平滑区域 Date18马尽文 2.3 非线性连续变换单元组成的网络 (ii). 全局最优解 不唯一 中的某些元素进行置换依然是全局最优 解,这从右边的简单模型可以看出。 (iii). 局部极小 一般情况下,BP算法会 收敛到一个局部极小解,即: 当 ,算法以希望误差收敛; 当 ,算法不以希望误差收敛,但可按 梯度绝对值小于预定值结束。 Date19马尽文 2.3 非线性连续变换单元组成的网络 4. 算法的改进 (i). 变步长算法( 是由一维搜索求得) Step 1. 赋予初始权值 和允许误差 ; Step 2. 在时刻 ,计算误差 的负梯度 (方向): Step 3. 若 ,结束;否则从 出发, 沿 做一维搜索,求出最优步长 : Step 4. , 转 Step 2。 Date20马尽文 2.3 非线性连续变换单元组成的网络 步长(学习率) 的确定方法: (a). 求最优解:对 求导数,并令其为零,直 接求解: (b). 迭代修正法:令 Date21马尽文 2.3 非线性连续变换单元组成的网络 (ii). 加动量项 为了防止震荡并加速收敛,可采用下述规则 : 注意:上式类似于共轭梯度法的算式,但是这 里 不共轭。因此可能出现误差增加的 现象,即 ,这时可令 ,即退回到 原来的梯度算法。 Date22马尽文 2.3 非线性连续变换单元组成的网络 (iii). 加入 因子 当算法进入平坦区,即 ,则 。 为了消除或减弱这种现象,引入 因子,使得 : (iv). 模拟退火方法 在所有权上加一个噪声,改变误差曲面的形状 ,使用模拟退火的机制,使算法逃离局部极小 点,达到全局最优而结束。 Date23马尽文 2.3 非线性连续变换单元组成的网络 5.BP网络的设计 (i).输入输出层的设计 BP网络输入、输出层单元个数是完全根据实 际问题来设计的,我们分三种情况讨论: A.系统识别 这时输入单元个数为 ; 输入单元个数为 。 n m Date24马尽文 2.3 非线性连续变换单元组成的网络 B.分类问题 (a).若 ,则令 ,这样输出 层仅需要一个单元。 (b).若 ,则令: 这样输出层则需要 个单元。 (c).二进制编码方法 对 进行二进制编码,编码位数 为 Date25马尽文 2.3 非线性连续变换单元组成的网络 ,这样输出层仅需 个单元。 (ii). 隐单元数与映射定理 1989年,R. Hecht-Nielson证明了任何一个闭 区间内的连续函数都可以用一个三层(仅有 一个隐层)BP网络来逼近(任意给定精度) 。 引理2.1 任意给定一个连续函数 及精 度 ,必存在一个多项式 ,使得不 等式 对任意 成立。 引理2.2 任意给定一个周期为 的连续函数 及精度 ,必存在一个三角函数 多项式 ,使得 对于 成 立。 Date26马尽文 2.3 非线性连续变换单元组成的网络 在 维空间中,任一向量 都可表示为 其中 为 的一个正交基。同样考虑 连续函数空间 或 ,必然存在一组正 交函数序列 ,那么对 , 则 , bac p2 c Date27马尽文 2.3 非线性连续变换单元组成的网络 当 充分大时,对每个 成立: 进一步考虑 中的多元连续函数: 根据傅立叶级数展开理论,若 则同样存在一个 步傅立叶级数和函数: Date28马尽文 2.3 非线性连续变换单元组成的网络 其中系数为: 并且当 时, 满足 即 在 可以完全收敛达到 。 现在考虑对一个任意连续映射: 其中 ,则 的每个分量也都可以用上面的傅立叶级数表 示,依此就可以得到下面的影射定理(定理 中所考虑的三层网络输出单元为线性单元) 。 n 1 ,0 )(xh Date29马尽文 2.3 非线性连续变换单元组成的网络 映射定理(Hecht-Nielsen):给定任意精度 ,对于一个连续影射 ,其中: 那么必存在一个三层BP神经网络来逼近函数 ,使得在每点上的误差不超过 。 证明:由于输出单元是独立 的,分别与 的每个分量 函数相对应,我们仅需要 对单个输出单元和分量函 数来证明。 Date30马尽文 2.3 非线性连续变换单元组成的网络 根据傅立叶级数理论,对于 的分量 ,则 其中 是 的 步傅立叶级数和函数 : 下面证明傅立叶级数中任意三角函数可以用三 层BP子网络来逼近,那么通过傅立叶级数的 线性组合就可以保证用三层BP网络来逼近函 。 考虑结构为 的三层BP网络,其输出为: )(xh )(xhj )(xhj )(xhj Date31马尽文 2.3 非线性连续变换单元组成的网络 我们来证明输出函数 能够逼近任何三角函数 :令 考虑函数 ,当 , 趋向于单位 阶跃函数(见右图),则 为一些近似单位阶跃函数 的线性叠加,故当 充分 j a u Date32马尽文 2.3 非线性连续变换单元组成的网络 大时,我们可将区间 充分的细分,选取 和 , 使得 ,或 即得: 对于 ,我们有下面的展开: Date33马尽文 2.3 非线性连续变换单元组成的网络 Date34马尽文 2.3 非线性连续变换单元组成的网络 使用充分多的隐单元,可得 令 Date35马尽文 2.3 非线性连续变换单元组成的网络 (iii). 隐单元数的选择 隐单元数:小,结构简单,逼近能力差,不收 敛;大,结构复杂,逼近能力强,收敛慢。 对于用作分类的三层BP网络,可参照多层感 知机网络的情况,得到下面设计方法: (a). 其中 为样本个数,选取满足上式最小的 。 (b). . Date36马尽文 2.3 非线性连续变换单元组成的网络 (iv). 网络参数初始值的选取 初试权:随机, 比较小(接近于0),保证 状态值较小,不在平滑区域内。 6. BP网络的应用 (i). 模式识别、分类。用于语音、文字、图象 的识别,用于医学图象的分类、诊断等。 (ii). 函数逼近与系统建模。用于非线性系统的 建模,拟合非线性控制曲线,机器人的轨迹 控制,金融预测等。 Date37马尽文 2.3 非线性连续变换单元组成的网络 (iii). 数据压缩。在通信中的编码压缩和恢复 ,图象数据的压缩和存储及图象特征的抽取等 。 例1. 手写数字的识别 由于手写数字变化很大,有传统的 统计模式识别或句法识别很难得到 高的识别率,BP网络可通过对样本的学习得 到较高的学习率。为了克服字体大小不同,我 们选取这些数字的一些特征值作为网络输入。 (可提取)特征如: 1,2,3,7 :具有两个端点; 0,6,8,9:具有圈;2:两个端点前后 ; Date38马尽文 2.3 非线性连续变换单元组成的网络 对于一个样本,若具有那个特征,所对应的特 征输入单元取值为1,否则为0。我们可选择 34个特征,即输入单元个数为34。输出可取 10个单元,即1个输出单元对应一个数字(该 单元输出为1,其它为0)。如果选取200个人 所写的1000个样本进行学习,使用三层BP网 络,隐层单元数 应如何选择呢? 根据前面的经验公式,可得到下面结果: Date39马尽文 2.3 非线性连续变换单元组成的网络 在实际中,我们选择 。通过对1000个样 本的学习所得到的网络对6000个手写数字的 正确识别率达到95%。 例2.非线性曲线的拟合。在控制中往往希望产 生一些非线性的输出输入关系。例如,已知 一个机械臂取物的轨迹,根据这个轨迹可计 算出机械臂关节的角度 和 (两个关节) ,按照机械臂的 要求应该反演计算出驱动 马达的力或频率这是一个相当复杂的计算问 题。但我们可 Date40马尽文 2.3 非线性连续变换单元组成的网络 采用BP网络对一些样本的学习得到这些非线性 曲线的拟合,根本无须知道机械臂的动力学模 型。在一维情况下,就是拟合 ,其中 表示 角, 为所对应的马达驱动力。在某些 位置,我们容易得到这些对应值,因此可以得 到足够的样本。 Date41马尽文 2.3 非线性连续变换单元组成的网络 例3.数据压缩 BP网络相当于一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年认证分析师岗位招聘面试参考题库及参考答案
- 2025年商业风险分析师岗位招聘面试参考试题及参考答案
- 2025年研究生招生专员招聘面试题库及参考答案
- 2025年研究开发工程师岗位招聘面试参考题库及参考答案
- 2025年业务发展专员岗位招聘面试参考试题及参考答案
- 2025年网站开发经理岗位招聘面试参考题库及参考答案
- 2025年社交媒体内容创作者岗位招聘面试参考题库及参考答案
- 2025年旅游管理专员岗位招聘面试参考试题及参考答案
- 2025年夏津科四考试题目及答案
- 2025年运营随机专员岗位招聘面试参考题库及参考答案
- 公司突发群体性事件应急专项预案
- 微波消融术后护理查房
- 完整版人教版小学3-6年级英语单词表,可直接打印
- 《海南历史文化》课件
- 【八年级上册数学华师大版】专题08 三角形最值问题(原卷版)
- 支部纪检委员的职责
- 手术室送病人流程
- 深圳大学《现代光学》2023-2024学年第一学期期末试卷
- 智算中心发展创新指南
- 牧场物语-矿石镇的伙伴们-完全攻略
- ISO 22003-1:2022《食品安全-第 1 部分:食品安全管理体系 审核与认证机构要求》中文版(机翻)
评论
0/150
提交评论