




已阅读5页,还剩169页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 3 14 1 人工神经网络 2020 3 14 2 4 1概述 2020 3 14 3 一 人工神经网络研究与发展 40年代初 美国McCulloch和Pitts从信息处理的角度 研究神经细胞行为的数学模型表达 并提出了二值神经元模型 1949年心理学家Hebb提出著名的Hebb学习规则 即由神经元之间结合强度的改变来实现神经学习的方法 MP模型的提出开始了对神经网络的研究进程 虽然Hebb学习规则在人们研究神经网络的初期就已提出 但是其基本思想至今在神经网络的研究中仍发挥着重要作用 人工神经网络 简称神经网络 是利用物理器件来模拟生物神经网络的某些结构和功能 2020 3 14 4 50年代末期 Rosenblatt提出感知机模型 Perceptron 首先从工程角度出发 研究了用于信息处理的神经网络模型 感知机虽然比较简单 却已具有神经网络的一些基本性质 如分布式存贮 并行处理 可学习性 连续计算等 这些神经网络的特性与当时流行串行的 离散的 符号处理的电子计算机及其相应的人工智能技术有本质的不同 由此引起许多研究者的兴趣 在60代掀起了神经网络研究第一次高潮 但是 当时人们对神经网络研究过于乐观 认为只要将这种神经元互连成一个网络 就可以解决人脑思维的模拟问题 然而 后来的研究结果却又使人们走到另一个极端上 2020 3 14 5 在60年代末 美国著名人工智能专家Minsky和Papert对Rosenblatt的工作进行了深入研究 出版了有较大影响的 Perceptron 一书 指出感知机的功能和处理能力的局限性 甚至连XOR 异或 这样的问题也不能解决 同时也指出如果在感知器中引入隐含神经元 增加神经网络的层次 可以提高神经网络的处理能力 但是却无法给出相应的网络学习算法 另一方面 由于60年代以来集成电路和微电子技术日新月异的发展 使得电子计算机的计算速度飞速提高 加上那时以功能模拟为目标 以知识信息处理为基础的知识工程等研究成果 给人工智能从实验室走向实用带来了希望 这些技术进步给人们造成这样的认识 以为串行信息处理及以它为基础的传统人工智能技术的潜力是无穷的 这就暂时掩盖了发展新型计算机和寻找新的人工智能途径的必要性和迫切性 2020 3 14 6 另外 当时对大脑的计算原理 对神经网络计算的优点 缺点 可能性及其局限性等还很不清楚 总之 认识上的局限性使对神经网络的研究进入了低潮 在这一低潮时期 仍有一些学者扎扎实实地继续着神经网络模型和学习算法的基础理论研究 提出了许多有意义的理论和方法 其中 主要有自适应共振理论 自组织映射 认知机网络模型理论 BSB模型等等 为神经网络的发展奠定了理论基础 进入80年代 首先是基于 知识库 的专家系统的研究和运用 在许多方面取得了较大成功 但在一段时间以后 实际情况表明专家系统并不像人们所希望的那样高明 特别是在处理视觉 听觉 形象思维 联想记忆以及运动控制等方面 传统的计算机和人工智能技术面临着重重困难 2020 3 14 7 模拟人脑的智能信息处理过程 如果仅靠串行逻辑和符号处理等传统的方法来济决复杂的问题 会产生计算量的组合爆炸 因此 具有并行分布处理模式的神经网络理论又重新受到人们的重视 对神经网络的研究又开始复兴 掀起了第二次研究高潮 1982年 美国加州理工学院物理学家J J Hopfield提出了一种新的神经网络HNN 他引入了 能量函数 的概念 使得网络稳定性研究有了明确的判据 HNN的电子电路物理实现为神经计算机的研究奠定了基础 并将其应用于目前电子计算机尚难解决的计算复杂度为NP完全型的问题 例如著名的 巡回推销员问题 TSP 取得很好的效果 从事并行分布处理研究的学者 于1985年对Hopfield模型引入随机机制 提出了Boltzmann机 2020 3 14 8 1986年Rumelhart等人在多层神经网络模型的基础上 提出了多层神经网络模型的反向传播学习算法 BP算法 解决了多层前向神经网络的学习问题 证明了多层神经网络具有很强的学习能力 它可以完成许多学习任务 解决许多实际问题 近十几年来 许多具备不同信息处理能力的神经网络已被提出来并应用于许多信息处理领域 如模式识别 自动控制 信号处理 决策辅助 人工智能等方面 神经计算机的研究也为神经网络的理论研究提供了许多有利条件 各种神经网络模拟软件包 神经网络芯片及电子神经计算机的出现 体现了神经网络领域的各项研究均取得长足进展 同时 相应的神经网络学术会议和神经网络学术刊物的大量出现 给神经网络的研究者们提供了许多讨论交流的机会 2020 3 14 9 二 人脑信息处理机制 生物神经系统是一个有高度组织和相互作用的数量巨大的细胞组织群体 人类大脑的神经细胞大约在1011一1013个左右 神经细胞也称神经元 是神经系统的基本单元 它们按不同的结合方式构成了复杂的神经网络 通过神经元及其联接的可塑性 使得大脑具有学习 记忆和认知等各种智能 人工神经网络的研究出发点是以生物神经元学说为基础的 生物神经元学说认为 神经细胞即神经元是神经系统中独立的营养和功能单元 2020 3 14 10 生物神经系统 包括中枢神经系统和大脑 均是由各类神经元组成 其独立性是指每一个神经元均有自己的核和自己的分界线或原生质膜 生物神经元之间的相互连接从而让信息传递的部位被称为突触 Synapse 突触按其传递信息的不同机制 可分为化学突触和电突触 其中化学突触占大多数 其神经冲动传递借助于化学递质的作用 生物神经元的结构大致描述如下图所示 2020 3 14 11 2020 3 14 12 神经元由细胞体和延伸部分组成 延伸部分按功能分有两类 一种称为树突 占延伸部分的大多数 用来接受来自其他神经元的信息 另一种用来传递和输出信息 称为轴突 神经元对信息的接受和传递都是通过突触来进行的 单个神经元可以从别的细胞接受多达上千个的突触输入 这些输入可达到神经元的树突 胞体和轴突等不同部位 但其分布各不相同 对神经元的影响也不同 人类大脑皮质的全部表面积约20 104mm2 平均厚度约2 5mm 皮质的体积则约为50 104mm3 如果皮质中突触的平均密度是6 l09 mm3左右 则可认为皮质中的全部突触数为3 1015个 如果再按上述人脑所含的全部神经元数目计算 则每个神经元平均的突触数目可能就有1 5 3 0万个左右 2020 3 14 13 神经元之间的联系主要依赖其突触的联接作用 这种突触的联接是可塑的 也就是说突触特性的变化是受到外界信息的影响或自身生长过程的影响 神经元对信息的接受和传递都是通过突触来进行的 多个神经元以突触联接形成了一个神经网络 它们有其独特的运行方式和控制机制 以接受生物内外环境的输入信息 加以综合分析处理 然后调节控制机体对环境作出适当的反应 2020 3 14 14 1 并行分布处理的工作模式 2 神经系统的可塑性和自组织性 神经系统的可塑性和自组织性与人脑的生长发育过程有关 神经网络的学习机制就是基于这种可塑性现象 并通过修正突触的结合强度来实现的 3 信息处理与信息存贮合二为一 4 信息处理的系统性 5 能接受和处理模糊的 模拟的 随机的信息 6 求满意解而不是精确解 7 系统的恰当退化和冗余备份 鲁棒性和容错性 人脑智能信息处理系统的固有特征 2020 3 14 15 三 人工神经网络研究与应用的主要内容 神经网络原型研究 即大脑神经网络的生理结构 思维机制 1 人工神经网络模型的研究 易于实现的神经网络计算模型 利用物理学的方法进行单元间相互作用理论的研究 如 联想记忆模型 神经网络的学习算法与学习系统 神经元生物特性如时空特性 不应期 电化学性质的人工模拟 2020 3 14 16 2 神经网络基本理论研究 神经网络的非线性特性 包括自组织 自适应等作用 神经网络的基本性能 包括稳定性 收敛性 容错性 鲁棒性 动力学复杂性 神经网络的计算能力与信息存贮容量 开展认知科学的研究 探索包括感知 思考 记忆和语言等的脑信息处理模型 采用诸如连接机制等方法 将认知信息处理过程模型化 并通过建立神经计算学来代替算法论 2020 3 14 17 3 神经网络智能信息处理系统的应用 认知与人工智能 包括模式识别 计算机视觉与听觉 特征提取 语音识别语言翻译 联想记忆 逻辑推理 知识工程 专家系统 故障诊断 智能机器人等 优化与控制 包括优化求解 决策与管理 系统辨识 鲁棒性控制 自适应控制 并行控制 分布控制 智能控制等 信号处理 自适应信号处理 自适应滤波 时间序列预测 谱估计 消噪 检测 阵列处理 和非线性信号处理 非线性滤波 非线性预测 非线性谱估计 非线性编码 中值处理 传感器信息处理 模式预处理变换 信息集成 多传感器数据融合 2020 3 14 18 4 神经网络的软件模拟和硬件实现 在通用计算机 专用计算机或者并行计算机上进行软件模拟 或由专用数字信号处理芯片 软件模拟的优点是网络的规模可以较大 适合于用来验证新的模型和复杂的网络特性 构成神经网络仿真器 由模拟集成电路 数字集成电路或者光器件在硬件上实现神经芯片 硬件实现的优点是处理速度快 但由于受器件物理因素的限制 根据目前的工艺条件 网络规模不可能做得太大 仅几千个神经元 但代表了未来的发展方向 因此特别受到人们的重视 2020 3 14 19 5 神经网络计算机的实现 计算机仿真系统 专用神经网络并行计算机系统 数字 模拟 数 模混合 光电互连等 光学实现 生物实现 2020 3 14 20 4 2人工神经元模型 2020 3 14 21 典型的人工神经元模型 2020 3 14 22 第j个神经元模型的输入输出关系为 为输入信号 为神经元j的权值 称为阈值 f 为输出变换函数 yj为神经元j的输出 2020 3 14 23 几种常见的变换函数 2 符号函数 1 比例函数 2020 3 14 24 3 饱和函数 4 阶跃函数 常称此种神经元为M P模型 2020 3 14 25 5 双曲函数 6 Sigmoid函数 它具有平滑和渐近性 并保持单调性 相对于其它类函数 Sigmoid函数最为常用 这两类函数也称为S形函数 2020 3 14 26 4 3人工神经网络结构 工作方式及学习方法 2020 3 14 27 一 人工神经网络 ANN 结构与工作过程 除单元特性外 网络的拓扑结构也是ANN的一个重要特征 人工神经网络是一个并行和分布式的信息处理网络结构 该网络结构一般由多个神经元组成 每个神经元有一个单一的输出 它可以连接到很多其它的神经元 其输入有多个连接通路 每个连接通路对应一个连接权系数 从连接方式看 ANN主要有两种 前馈型神经网络和反馈型网络 2020 3 14 28 典型的神经网络结构图 2020 3 14 29 前馈型神经网络主要是函数映射 用于模式识别和函数逼近 按对能量函数的所有极小点的利用情况 可将反馈型神经网络分两类 一类是能量函数的所有极小点都起作用 主要用作各种联想存储器 另一类只利用全局极小点 主要用于求解优化问题 两种网络的应用 2020 3 14 30 ANN的工作过程 第一个阶段是学习期 此时各计算单元状态不变 各连线上的权值通过学习来修改 第二阶段是工作期 此时连接权固定 计算单元状态变换 以达到某种稳定状态 主要分为两个阶段 2020 3 14 31 二 神经网络的学习 神经网络的学习也称为训练 指的是神经网络在受到外部环境的刺激性调整神经网络的参数 使神经网络以一种新的方式对外部环境作出反应的一个过程 能够从环境中学习和在学习中提高自身性能是神经网络最有意义的性质 神经网络通过反复学习来达到对环境的了解 2020 3 14 32 监督学习 有教师学习 它需要组织一批正确的输入输出数据对 将输入数据加载到网络输入端后 把网络的实际输出与期望 理想 输出相比较得到差值 误差信号 然后根据误差的情况修改各连接权 使网络能朝着正确响应的方向不断变化下去 直到实际的输出与期望输出之差在允许范围之内 按环境提供信息量的多少 学习方式有3种 1 学习方式 2020 3 14 33 非监督学习 无教师学习 这时仅有一批输入数据 网络初始状态下 连接权值均设置为一小正数 通过反复加载这批输入数据 使网络不断受到刺激 当与曾经历的刺激相同的刺激到来时 相应连接权以某一系数增大 重复加入的同样刺激使相应的连接权增大到接近1的某值 学习系统完全按照环境提供的数据的某些统计规律来调节自身参数或结构 这是一种自组织过程 这一自组织的方法 使网络具有某种 记忆 能力以至形成 条件反射 当曾经学习过或相似的刺激加入后 输出端便按权值矩阵产生相应的输出 以表示出外部输入的某种固有特性 如聚类或某种统计上的分布特征 2020 3 14 34 再励学习 强化学习 介于上述两种情况之间 外部环境对系统输出结果只给出评价信息 奖或惩 而不是给出正确答案 学习系统通过强化那些受奖的动作来改善自身的性能 2 学习算法 不同的学习算法对神经元的权值调整的表达式是不同的 没有一种独特的学习算法适用于设计所有的神经网络 选择或设计学习算法时还需考虑神经网络的结构及神经网络与外界环境相连接的形式 2020 3 14 35 Hebb学习规则 由神经心理学家Hebb提出的学习规则可归纳为 当某一突触 连接 两端的神经元同步激活 同为激活或同为抑制 时 该连接的强度应为增强 反之应减弱 yk n xj n 分别为wkj两端神经元的状态 由于 wkj与yk n xj n 的相关成比例 有时称为相关学习规则 属于无导师学习 最常用的一种情况是 2020 3 14 36 delta 学习规则 误差纠正学习 误差信号为 ek n dk n yk n 误差纠正学习的最终目的是使某一基于ek n 的目标函数达到最小 以使网络中的每一输出单元的实际输出在某种统计意义上逼近应有输出 yk n 为输入为xk n 时 神经元k在n时刻的实际输出 dk n 表示期望的输出 可由训练样本给出 一旦选定了目标函数形式 误差纠正学习就变成了一个典型的最优化问题 最常用的目标函数是均方误差 定义为误差平方和的均值 2020 3 14 37 前提是被学习的过程是宽平稳的 具体可用最优梯度下降法 其中E为求期望算子 直接用J作为目标函数时需要知道整个过程的统计特性 通常用时刻n的瞬间值 n 代替J 即 问题变为求 n 对权值w的极小值 据梯度下降法可得 属于有导师学习 前馈网络的BP算法即是 delta 学习规则 其中 为学习步长 2020 3 14 38 竞争 Competitive 学习 顾名思义 在竞争学习时 网络各输出单元相竞争 最后达到只有一个最强者激活 最常用的竞争学习规则可写为 获胜神经元的输入状态为1时 相应的权值增加 状态为0时权值减小 学习过程中 权值越来越接近于相应的输入状态 竞争学习属于无导师算法 2020 3 14 39 随机学习算法 误差学习算法通常采用梯度下降法 存在局部最小问题 随机学习算法通过引入不稳定因子来处理这种情况 如果把神经网络的当前状态看做一个小球 网络的误差函数看作是超平面 当小球达到局部最小值时 增加不稳定因子 即对小球加一个冲量 则小球会越过峰值点 而达到全局最小点 即网络最终收敛于全局最小点 比较著名的随机学习算法有模拟退火算法和遗传算法 2020 3 14 40 三 学习与自适应 当学习系统 神经网络 所处环境平稳时 统计特性不随时间变化 从理论上讲通过监督学习可以学到环境的统计特性 这些统计特性可被学习系统作为经验记住 如果环境是非平稳的 统计特性随时间变化 通常的监督学习没有能力跟踪这种变换 为解决此问题 需要网络具有一定的自适应能力 此时对每一个不同输入都作为一个新的例子来对待 其工作过程如图所示 此时模型 即ANN 被当作一个预测器 基于前一时刻输入x n 1 和模型在n 1时刻的参数 它估计n时刻的输出x n 与实际值x n 作为应有的正确答案 比较 其差值称为 信息 如信息e n 0 则不修正模型参数 否则应修正模型参数以便跟踪环境的变化 2020 3 14 41 2020 3 14 42 四 人工神经网络的典型模型 迄今为止 有30多种人工神经网络模型被开发和应用 1 自适应谐振理论 ART 此理论由格罗斯伯格提出 是一个根据可选参数对输入数据进行粗略分类的网络 ART 1用于二值输入 而ART 2用于连续值输入 ART的不足之处在于过分敏感 当输入有小的变化时 输出变化很大 2 双向联想存储器 BAM 由科斯克 Kosko 开发 是一种单状态互联网络 具有学习能力 BAM的缺点是存储密度较低 且易于振荡 3 Boltzmann机 BM 由欣顿 Hinton 等人提出 建立在Hopefield网络基础上 具有学习能力 能够通过一个模拟退火过程寻求答案 不过 其训练时间比BP网络要长 2020 3 14 43 4 反向传播 BP 网络 方向传播训练算法是一种迭代梯度算法 用于求解前馈网络的实际输出与期望输出间的最小均方差值 BP网络是一种方向传递并能修正误差的多层映射网络 当参数适当时 此网络能够收敛到较小的均方差 是目前应用最广泛的网络之一 BP网络的不足是训练时间较长 且易限于局部极小 5 对流传播网络 CPN 是一个通常由5层组成的连接网 CPN可用于联想存储 其缺点是要求较多的处理单元 6 Hopefiled网 是一类不具有学习能力的单层自联想网络 Hopefield网络模型由一组可使某个能量函数最小的微分方程组成 其不足在于计算代价较高 而且需要对称连接 7 Madaline算法 是Adaline算法的一种发展 是一组具有最小均方差线性网络的组合 能够调整权值 使得期望信号与输出间的误差最小 此算法是自适应信号处理和自适应控制的得力工具 具有较强的学校能力 但是输入和输出之间必须满足线性关系 2020 3 14 44 8 认知机 neocogntion 是迄今为止结构上最为复杂的多层网络 通过无师学习 认知机具有选择能力 对样品的平移和旋转不敏感 不过 认知机所用节点及其互连较多 参数也多且难选取 9 感知器 perceptron 是一组可训练的分类器 为最古老的ANN之一 现已很少使用 10 自组织映射网 SOM 以神经元自行组织以校正各种具体模式的概念为基础 SOM能够形成簇与簇之间的连续映射 起到矢量量化器的作用 最典型的ANN模型 算法 及其学习规则和应用领域如表 2020 3 14 45 2020 3 14 46 2020 3 14 47 2020 3 14 48 2020 3 14 49 五 人工神经网络的特点 1 并行分布式处理神经网络具有高度的并行结构和并行实现能力 具有高速寻找优化解的能力 能够发挥计算机的高速运算能力 可很快找到优化解 2 非线性处理人脑的思维是非线性的 故神经网络模拟人的思维也应是非线性的 这一特点有助于解决非线性问题 3 具有自学习能力通过对过去的历史数据的学习 训练出一个具有归纳全部数据的特定的神经网络 自学习能力对于预测有特别重要的意义 2020 3 14 50 4 4前馈神经网络 2020 3 14 51 具有分层的结构 最下面一层是输入层 中间是隐层 最上面一层是输出层 其信息从输入层依次向上传递 直至输出层 关于网络的层数有两种说法 如我们说3层网络能完成对给定的函数的任何精度的逼近 这里说的3层就将输入节点算作1层 一种是将输入节点层算作第一层 另一种是只计算由元件构成的层次 2020 3 14 52 一 感知器网络 感知器是最简单的前馈网络 它主要用于模式分类 也可用在基于模式分类的学习控制和多模态控制中 2020 3 14 53 1 单层感知器网络 是输入特征向量 输出量yj j 1 2 m 是按照不同特征的分类结果 wji是xi到yj的连接权 2020 3 14 54 若有P个输入样本xp p 1 2 P 经过该感知器的输出yj只有两种可能 即1和 1 从而说明它将输入模式分成了两类 若将xp p 1 2 P 看成是n维空间的P个点 则该感知器将该P个点分成了两类 它们分属于n维空间的两个不同的部分 2020 3 14 55 设图中的 和 表示输入的特征向量点 其中 和 表示具有不同特征的两类向量 用单个神经元感知器将其分类 2020 3 14 56 这是一条直线方程 它说明 只有那些线性可分模式类才能用感知器来加以区分 根据感知器的变换关系 可知分界线的方程为 现在的问题是 如果已知一组输入样本模式以及它们所属的特征类 如何找出其中一条分界线能构对它们进行正确的分类 也就是说 如何根据样本对连接权和阈值进行学习和调整 这里样本相当于 教师 所以这是一个有监督的学习问题 2020 3 14 57 如图所示的异或关系 显然它是线性不可分的 单层感知器不可能将其正确分类 历史上 Minsky正是利用这个典型例子指出了感知器的致命弱点 从而导致了70年代神经元网络的研究低潮 2020 3 14 58 二 多层感知器网络 对于线性不可分的输入模式 用单层感知器网络不可能对其实现正确的区分 这时可采用多层感知器网络 第0层为输入层 有n0个神经元 Q层为输出层 有nQ个输出 中间层为隐层 2020 3 14 59 每一层相当于一个单层感知器网络 如对于第q层 它形成一个nq 1维的超平面 它对于该层的输入模式进行线性分类 该多层感知器网络的输入输出变换关系为 由于多层的组合 最终可实现对输入模式的较复杂的分类 2020 3 14 60 三 BP网络 感知器模型中神经元的变换函数采用的是符号函数 因此输出的是二值量 它主要用于模式分类 多层前馈网具有相同的结构 只是神经元的变换函数采用S型函数 因此输出量是0到1之间的连续量 它可实现从输入到输出的任意的非线性映射 由于连接权的调整采用的是反向传播 BackPropagation 的学习算法 因此该网络也称为BP网络 在多层前馈网络中 第0层为输入层 第Q层为输出层 有nQ个输出 中间层为隐层 设第q层 q 0 2 Q 的神经元个数为nq 输入到第q层的第i个神经元的连接权系统为 2020 3 14 61 网络的输入输出变化关系为 2020 3 14 62 1 标准BP算法 设给定P组输入输出样本 利用该样本集首先对BP网络进行训练 也即对网络的连接权系数进行学习和调整 以使该网络实现给定的输入输出映射关系 经过训练的BP网络 对于不是样本集中的输入也能给出合适的输出 该性质称为泛化 generalization 功能 从函数拟和的角度 它说明BP网络具有插值功能 2020 3 14 63 设取拟和误差的代价函数为 如何调整连接权系数以使代价函数E最小 优化计算的方法很多 比较典型的是采用一阶梯度法 即最速下降法 2020 3 14 64 一阶梯度法寻优的关键是计算优化目标函数 即本问题中的误差代价函数 E对寻优参数的一阶导数 对于第Q层有 表示用第p组输入样本所算得的结果 2020 3 14 65 对于第Q 1层有 显然 它是反向递推计算的公式 2020 3 14 66 然后再由上式递推计算出 依次类推 可继续反向递推计算出 和 q Q 2 1 的表达式中包含了导数项 假定f 为S形函数 即首先计算出 2020 3 14 67 最后可归纳出BP网络的学习算法如下 2020 3 14 68 2020 3 14 69 由于该算法式反向递推 BackPropagation 计算出的 因而通常称该多层前馈网络为BP网络 该网络实质上是对任意非线性映射关系的一种逼近 由于采用的是全局逼近的方法 因而BP网络具有良好的泛化能力 真正的梯度下降是沿着梯度确定的方向以无穷小步长进行的 很明显 这是不切实际的 因此定义学习速率 确定了沿梯度方向的一个有限步长 这里 是常数 它相当于确定步长的增益 其中心思想就是选择足够大的 使得网络迅速收敛 而不会因调整过渡而振荡 2020 3 14 70 2 BP网络的主要优点 定理 只要隐层神经元的个数充分多 则隐神经元为S形神经元而输出元为线性元的二层网可逼近任何函数 BP网络的学习算法属于全局逼近的方法 因而它具有较好的泛化能力 如果用M个隐神经元的网络逼近函数h x 则必然存在一个残量误差 Jones 1990 1992 和Barron 1993 证明了这一误差以速度O 1 M 随M的增大而减小 2020 3 14 71 BP网络能够实现输入输出的非线性映射关系 但它并不依赖于模型 其输入与输出之间的关联信息分布地存储于连接权中 由于连接权的个数很多 个别神经元的损坏只对输入输出关系有较小的影响 因此BP网络显示了较好的容错性 BP网络由于其很好的逼近非线性映射的能力 因而它可应用于信息处理 图象识别 模型辨识 系统控制等多个方面 对于控制方面的应用 其很好的逼近特性和泛化能力是一个很好的性质 而收敛速度慢却是一个很大的缺点 这一点难以满足实时控制的要求 2020 3 14 72 对于给定的样本集 目标函数E是全体连接权系数的函数 因此 要寻优的参数的个数比较多 也就是说 目标函数E是关于连接权的一个非常复杂的超曲面 这就给寻优计算带来一系列的问题 其中一个最多的问题是收敛速度慢 由于待寻优的参数太多 必然导致收敛速度慢的缺点 第二个严重缺陷是局部极值问题 即E的超曲面可能存在多个极值点 第三是难以确定隐层和隐结点的个数 从原理上 只要有足够多的隐层和隐结点 即可实现复杂的映射关系 但是如何根据特定的问题来具体确定网络的结构尚无很好的方法 仍需要凭借经验和试凑 按照上面的寻优算法 它一般收敛到初值附近的局部极值 3 BP改进算法 2020 3 14 73 从本质上讲 BP网络的求解训练过程本质上是一种非线性优化问题 这就不可避免地存在局部极小 在用它解决一些稍微复杂的问题时 往往不能保证达到全局最小 致使学习过程失效 当误差变小时 特别是快接近最小点时 学习收敛缓慢 2020 3 14 74 1 引入动量法 附加动量法使网络在修正权值时不仅考虑误差在梯度上的作用 而且考虑在误差曲面上变化趋势的影响 标准BP算法实质上是一种简单的最速下降静态寻优算法 在修正权值w k 时 只是按k时刻的负梯度方向进行修正 没有考虑积累的经验 即以前的梯度方向 从而使学习过程振荡 收敛缓慢 改进BP算法的措施 D k 为k时刻的负梯度 D k 1 为k 1时刻的负梯度 为学习率 0 为动量项因子 0 1 所加入的动量项实质上相当于阻尼项 它减小了学习过程的振荡趋势 改善了收敛性 是一种应用比较广泛的改进算法 2020 3 14 75 2 变尺度法 标准BP学习算法采用的是一阶梯度法 因而收敛较慢 若采用二阶梯度法 则可以大大提高收敛性 虽然二阶梯度法具有较好的收敛性 但是需要计算E对w的二阶导数 这个计算量很大 所以一般不直接采用二阶梯度法 而常常采用变尺度法或共轭梯度法 它们具有如二阶梯度法收敛较快的优点 又无需直接计算二阶梯度 2020 3 14 76 变尺度算法 2020 3 14 77 3 自适应学习率调整法 在BP算法中 网络权值的调整取决于学习速率和梯度 自适应学习率调整准则是 检查权值的修正是否真正降低了误差函数 如果确实如此 则说明所选的学习率小了 可对其增加一个量 若还是则说明产生了过调 那么就应减小学习速率的值 当连续两次迭代其梯度方向相同时 表明下降太慢 这时可使步长加倍 当连续两次迭代其梯度方向相反时 表明下降过头 这时可使步长减半 2020 3 14 78 四 BP神经网络的训练 1 产生数据样本集 包括原始数据的收集 数据分析 变量选择以及数据的预处理 首先要在大量的原始测量数据中确定出最主要的输入模式 在确定了最重要的输入量后 需进行尺度变换和预处理 尺度变换常常将它们变换到 1 1 或 0 1 的范围 在进行尺度变换前必须先检查是否存在异常点 或称野点 这些点必须删除 通过对数据的预处理分析还可以检验其是否存在周期性 固定变换趋势或其它关系 对数据的预处理就是要使得经变换后的数据对于神经网络更容易学习和训练 2020 3 14 79 对于一个问题应该选择多少数据 这也是一个很关键的问题 系统的输入输出关系就包含在数据样本中 一般来说 取的数据越多 学习和训练的结果便越能正确反映输入输出关系 但选太多的数据将增加收集 分析数据以及网络训练付出的代价 选太少的数据则可能得不到正确的结果 事实上数据的多数取决于许多因素 如网络的大小 网络测试的需要以及输入输出的分布等 其中网络的大小最关键 通常较大的网络需要较多的训练数据 一个经验规则是 训练模式应是连接权总数的5至10倍 2020 3 14 80 最简单的方法是 将收集到的可用数据随机地分成两部分 比如其中三分之二用于网络的训练 另外三分之一用于将来的测试 随机选取的目的是为了尽量减小这两部分数据的相关性 影响数据大小的另一个因素是输入模式和输出结果的分布 对数据预先加以分类可以减小所需的数据量 相反 数据稀薄不匀甚至覆盖则势必要增加数据量 在神经网络训练完成后 需要有另外的测试数据来对网络加以检验 测试数据应是独立的数据集合 2020 3 14 81 2 确定网络的类型和结构 神经网络的类型很多 需根据问题的性质和任务的要求来合适地选择网络类型 一般从已有的网络类型中选用一种比较简单而又能满足要求的网络 新设计一个网络类型来满足问题的要求往往比较困难 若主要用于模式分类 尤其是线性可分的情况 则可采用较为简单的感知器网络 若主要用于函数估计 则可应用BP网络 在网络的类型确定后 要是选择网络的结构和参数 以BP网络为例 需选择网络的层数 每层的节点数 初始权值 阈值 学习算法 数值修改频度 结点变换函数及参数 学习率等参数 2020 3 14 82 有些项的选择有一些指导原则 但更多的是靠经验和试凑 对于网络层数的选取 理论上早已证明 具有偏差和至少一个S型隐含层加上一个线性输出层的网络 能够逼近任何有理函数 增加层数主要可以更进一步降低误差 提高精度 但同时也使网络复杂化 从而增加了网络权值的训练时间 而误差精度的提高实际上也可以通过增加隐含层中的神经元数目来获得 其训练效果也比增加层数更容易观察和调整 所以 一般情况下 应优先考虑增加隐含层中的神经元数 2020 3 14 83 对于具体问题若确定了输入和输出变量后 网络输入层和输出层的节点个数也便随之确定了 具体选择可采用如下方法 先设较少的节点 对网络进行训练 并测试网络的逼近误差 然后逐渐增加节点数 直到测试的误差不再有明显的减少为止 隐层节点数对网络的泛化能力有很大的影响 节点数太多 倾向于记住所有的训练数据 包括噪声的影响 反而降低了泛化能力 节点数太少 不能拟和样本数据 没有较好的泛化能力 原则 选择尽量少的节点数以实现尽量好的泛化能力 对于每层节点数的选取 2020 3 14 84 由于系统是非线性的 初始值对于学习是否达到局部最小 是否能够收敛以及训练时间的长短关系很大 初始权值的选取 如果初始值太大 使得加权后的输入落到激活函数的饱和区 从而导致其导数非常小 而在计算权值的修正公式中 修正量正比与其导数 从而使调节过程几乎停顿下来 一般总是希望经过初始加权后的每个神经元的输出值都接近于零 这样可以保证每个神经元的权值都能够在他们的S型激活函数变化最大之处进行调节 所以 一般取初始权值在 1 1 之间的随机数 2020 3 14 85 学习速率的选取 学习速率决定每一次循环训练中所产生的权值变化量 大的学习速率可能导致系统的不稳定 小的学习速率会导致训练较长 收敛速度很慢 不过能保证网络的误差值不跳出表面的低谷而最终趋于最小误差值 一般情况下 倾向于选取较小的学习速率以保证系统的稳定性 学习速率一般的选取范围为0 01 0 8 和初始权值的选取过程一样 在一个神经网络的设计中 网络要经过几个不同的学习速率的训练 通过观察每一次训练后的误差平方和的下降速率来判断选定的学习速率是否合适 如果下降很快 说明学习速率合适 若出现振荡 则说明学习速率过大 对于较复杂的网络 为了减小寻找学习速率的训练次数以及训练时间 比较合适的方法是采用自适应学习速率 2020 3 14 86 3 训练和测试 对所有样本数据正向运行一次并反向修改连接权一次称为一次训练 或一次学习 通常训练一个网络需要成百上千次 并非训练的次数越多 越能得到正确的输入输出的映射关系 由于所收集的数据都是包含噪声的 训练的次数过多 网络将包含噪声的数据都记录了下来 在极端情况下 训练后的网络可以实现相当于查表的功能 但是对于新的输入数据却不能给出合适的输出 即并不具备很好的泛化能力 训练网络的目的在于找出蕴含在样本数据中的输入和输出之间的本质联系 从而对于未经训练的输入也能给出合适的输出 即局部泛化能力 网络的性能主要是用它的泛化能力来衡量 它不是用对训练数据的拟和程度来衡量 而是用一组独立的数据来加以测试和检验 2020 3 14 87 实际操作时应该训练和测试交替进行 即每训练一次 同时用测试数据测试一遍 画出均方误差随训练次数的变换曲线 在用测试数据检验时 均方误差开始逐渐减小 当训练次数再增加时 测试检验误差反而增加 误差曲线上极小点所对应的即为恰当的训练次数 若再训练即为 过渡训练 了 2020 3 14 88 五 BP网络应用举例 BP网络的本质功能是通过对简单非线性函数 S型函数 的数次复合来实现输入到输出的高度非线性映射 隐含表达现实物理世界存在的及其复杂的非线性函数关系 工程中存在的许多实际问题 如模式识别 特征压缩 图形处理 预测预报 控制 决策 函数拟和等都可归结为求解输入到输出的高度非线性映射 因而可用BP网络有效地求解 下面以水净化控制决策系统 WCCD 为例说明BP网络的应用 2020 3 14 89 1 WCCD系统结构 水净化系统是保障人们生活用水的重要系统 其净化过程是 先把污浊的河水引到混合储水池 并投入称为PAC的化学制剂及用于消毒的氯 再把混合水引到沉淀池 使水中的污浊成分再PAC的作用下深入水底 沉淀大约3 5小时后 把水引到过滤池备用 以上过程可用如图示意 在水净化系统中主要的控制问题使确定要投入的PAC的量 以确保处理水的污浊度保持在一定水平之下 2020 3 14 90 此控制问题的主要困难是水净化过程很难用一个数学模型或物理模型来描述 而且河水的污浊度变换很大 如雨季河水的污浊度可能增大1000倍 其变换规律也无法清楚地定义 在水净化控制系统中 操作员的经验成为关键的因素 以操作员的经验和大量历史数据为基础构造水净化控制决策是非常适宜的 为此提出一个基于BP神经网络的水净化控制决策系统结构 2020 3 14 91 神经网络的输出是要投入的PAC的量 输入是来自过程的反馈变量 其含义如下 神经网络的主要功能是根据训练样本确定输入输出变量之间存在的复杂非线性函数关系 作出有关投放PAC量的决策 TUB1 水源的污浊度TUB2 已沉淀水的污浊度TE 水温PH 水的PH值AL 水中的碱值 2020 3 14 92 2 网络结构及数据规格化 该网络为三层BP网络 具有5个输入点 对应5个输入变量 1个输出节点 对应系统的1个输出变量 从现场收集到的操作员进行PAC投入量决策的部分历史数据如表 这些数据可用作网络的训练数据 由于选择的输出函数为S型函数 要求其输入范围在 0 1 之间的实数 而表的数据范围大大超出 0 1 区间 所以必须把它们规格化为 0 1 之间的实数 再送到数据网络处理 X Y分别是变换前后的数据 因为该表每一列的数据范围不同 所以应分别进行变换 2020 3 14 93 2020 3 14 94 3 仿真结果 在仿真试验中 对该网络进行训练 达到了比较理想的学习精度 训练误差小于0 095 经对比 训练后的系统作出的关于PAC投放量的决策输出与操作员的决策几乎完全相同 换言之 该决策系统准确地模拟了经验丰富的人类操作员的控制决策功能 且其性能明显高于基于统计模型的系统 很好地解决了水净化过程很难用数学模型或物理模型来精确描述 使用常规控制系统性能不佳的难题 2020 3 14 95 4 5神经联想记忆与反馈神经网络 2020 3 14 96 一 神经联想记忆 神经联想记忆就是通过学习每对模式之间的关联来进行工作 这种网络输入一模式时 它能够给出一个联想的响应状态 由此可看出 神经联想记忆是按内容存取记忆 而且从某种意义上来讲 可认为联想神经网络能够像人类那样来进行学习 当网络输入一个与所有已学的样本模式不同的模式时 网络能通过联想输出和输入模式最为相似 按某个标准 的样本模式 由于这个特性 这种网络的功能和生物学习过程很相似 将一个模式提供给人看时 例如字母 A 此模式不是必须和他之前所学的样本字母 A 一模一样 只要和他经验中的 A 足够相象 能够提醒他想起以前遇到过的其它形式的 A 就能够被正确地识别出来 2020 3 14 97 在典型的数字计算机存储器中 数据是通过它在存储器中的地址来进行存储的 数字计算机的存储器被称为按地址存储记忆 在联想记忆当中不存在地址 因为存储的信息是空间分布的并且在整个网络中是叠加的 联想记忆被称作按内容存储记忆 CAM 联想记忆可分为自联想和异联想两种形式 对于自联想网络记忆 训练输入和目标输出是等同的 可以认为网络是通过将模式和它自己进行联想来记忆此模式的 异联想网络记忆是通过将输入模式和由教师提供的截然不同的训练模式进行联想的 反馈网络首先由Hopfield提出的 通常称它为Hopfield网 主要用于联想记忆和优化计算 是一种动态网络 需要工作一段时间才能达到稳定 2020 3 14 98 Hopfield网络是回归并且是自联想的 能存储许多不同的模式 如果这些模式中的任何一种被输入到网络 也就是联想记忆被设置到预存状态之一 时 网络仍将稳定在预存的那个状态 当向网络输入一扭曲的存储模式时 网络从此状态逐渐演化 最后收敛到稳定的预存模式 Hopfield记忆模型即Hopfield神经网络在人工神经网络的复兴中起了非常重要的作用 根据网络的输出是离散量或是连续量 Hopfield网络也分为离散和连续的两种 2020 3 14 99 二 离散Hopfield网络 1 网络的结构和工作方式 单层网络 共n个神经元节点 每个节点输出均连接到其它神经元的输入 同时所有其它神经元的输出均连到该神经元的输入 2020 3 14 100 wii 0 i为阈值 f 是变换函数 对于离散Hopfield网络 f 通常取为二值函数 即 2020 3 14 101 网络的两种工作方式 1 异步方式 其调整次序可以随机选定 也可按规定的次序进行 每次只有一个神经元节点进行状态的调整计算 其它节点的状态均保持不变 2020 3 14 102 2 同步方式 W是由wij所组成的n n矩阵 动态的反馈网络 输入是网络的状态初值 输出是网络的稳定状态 所有的神经元节点同时调整状态 2020 3 14 103 2 稳定性和吸引子 从工作过程可以看出 离散Hopfield网络实质上是一个离散的非线性动力学系统 如果系统是稳定的 则它可以从任一初态收敛到一个稳定状态 若系统是不稳定的 由于网络节点只有1和 1 或1和0 系统不可能出现无限发散 只可能出现限幅的自持振荡或极限环 若将稳态视为一个记忆样本 那么初态朝稳态的收敛过程便是寻找记忆样本的过程 初态是给定样本的部分信息 网络改变的过程是从部分信息找到全部信息 从而实现了联想记忆的功能 若将稳态与某种优化计算的目标函数相对应 并作为目标函数的极小点 那么初态朝稳态的收敛过程便是优化计算的过程 该优化计算是在网络演变过程中自动完成的 网络稳定状态对应为神经网络的能量函数E W Q 的极小值点 2020 3 14 104 1 稳定性 则称x为网络的稳定点或吸引子 定理 对离散Hopfield网络 若按异步方式调整状态 且连接权矩阵W为对称阵 则对于任意初态 网络最终收敛到一个吸引子 定义 若网络的状态x满足 定理 对于离散Hopfield网络 若按同步方式调整状态 且连接权矩阵W为非负定对称阵 则对于任意初态 网络都最终收敛到一个吸引子 对于同步方式 它对连接权矩阵W的要求更高了 若不满足W为非负定对称阵的要求 则网络可能出现自持振荡即极限环 由于异步工作方式比同步工作方式有更好的稳定性能 实用时较多采用异步工作方式 异步方式的主要缺点是失去了神经网络并行处理的优点 2020 3 14 105 2 吸引子的性质 则 x也一定是该网络的吸引子 a 若x是网络的一个吸引子 且 b 若x a 是网络的吸引子 则与x a 的海明距离dH x a x b 1的x b 一定不是吸引子 海明距离定义为两个向量中不相同的元素的个数 则dH x a x b n 1的x b 一定不是吸引子 推论 若x a 是网络的吸引子 且 2020 3 14 106 3 吸引域 为了能实现正确的联想记忆 对于每个吸引子应该有一定的吸引范围 这个吸引范围便称为吸引域 定义 若x a 是网络的吸引子 对于异步方式 若存在一个调整次序可以从x演变到x a 则称x弱吸引到x a 若对于任意调整次序都可以从x演变到x a 则称x强吸引到x a 定义 对所有x R x a 均有x弱 强 吸引到x a 则称R x a 为x a 的弱 强 吸引域 对于同步方式 由于无调整次序问题 所以相应的吸引域也无强弱之分 对于异步方式 对于同一个状态 若采用不同的调整次序 有可能弱吸引到不同的吸引子 2020 3 14 107 从本质上讲 联想记忆就是利用反馈型动态网络模块的稳定吸引子来存储信息的 通常 网络模块的每一稳定吸引子均对应网络能量函数的一个极小值 当以一个激发样本去激发神经网络时 神经网络运行的结果会自动收敛于网络模块的带边界约束的极小值点 即联想出已记忆的样本 神经网络的运行过程即网络从激发状态向其相应稳定吸引子流动的过程 也就是寻找其相应记忆的过程 2020 3 14 108 3 连接权的设计 为了保证Hopfield网络在异步工作时能稳定收敛 连接权矩阵W应是对称的 若要保证同步方式收敛 则要求W为非负定阵 因而设计W一般只保证异步方式收敛 另外一个要求是对于给定的样本必须是网络的吸引子 而且要有一定的吸引域 这样才能正确实现联想记忆功能 为了实现上述功能 通常采用Hebb规则来设计连接权 设给定m个样本x k k 1 2 m 并设x 1 1 n 则按Hebb规则设计的连接权为 2020 3 14 109 或 写成矩阵形式则为 2020 3 14 110 当网络节点状态为1和0两种状态 即x 0 1 n 连接权为 或 写成矩阵形式则为 其中 显然 上面所设计的连接权矩阵满足对称性的要求 2020 3 14 111 进一步分析所给的样本是否为网络的吸引子 以x 1 1 n的情况为例进行分析 若m个样本x k k 1 2 m 是两两正交的 即 则只要满足n m 0 便有 则x k 是网络的吸引子 2020 3 14 112 若m个样本x k k 1 2 m 不是两两正交的 设向量之间内积
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 期末工作总结教师
- 监理市场工作汇报
- 《论语十二章》课件
- 《西门豹》课件教学
- 公司级安全教育培训总结课件
- 脑梗护理查房情景演练
- 事故案例安全培训总结课件
- 《蝙蝠和雷达》课件
- 公司级员工安全培训内容课件
- 公司级信息安全知识培训课件
- 2025年度2025年少先队知识测试题及答案
- 勇气与成长写物作文10篇范文
- 反洗钱可疑交易识别课件
- 人教部编版小学三年级语文上册课后习题参考答案
- 2025年中国银行招聘考试模拟试题及答案集
- 光伏运维安全培训总结课件
- 2025年第九届全国中小学“学宪法、讲宪法”活动知识竞赛题库及答案
- 土石方运输居间合同范本土石方运输居间合同格式-仅供参考8篇
- 2025-2026学年人教版(PEP)三年级上册英语教学计划(三篇)
- 室外消火栓埋地施工方案
- 真人秀节目策划与执行方案
评论
0/150
提交评论