




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第3章 感知器3.1 感知器与人工神经网络的早期发展 3.2 感知器的学习算法 3.2.1 离散单输出感知器训练算法 3.2.2 离散多输出感知器训练算法3.2.3 连续多输出感知器训练算法3.3 线性不可分问题3.3.1 异或(Exclusive OR)问题 3.3.2 线性不可分问题的克服 实现!问题的发现与解决!10/10/20223.1 感知器与ANN的早期发展McCulloch 和Pitts 1943年,发表第一个系统的ANN研究阈值加权和(M-P)数学模型。1949年,心理学家D O Hebb提出Hebb学习律。 1957年,罗森布拉特提出感知器(Perceptron)模型。单输出
2、的感知器(M-P模型)x2 x1o xn10/10/20223.1 感知器与ANN的早期发展1962年,Rosenblatt宣布:人工神经网络可以学会它能表示的任何东西 o1x1x2o2omxn输出层o1多输出感知器x1x2o2omxn输入层输出层wnmw11w1mw2mwn1f(.)10/10/20223.2 感知器的学习算法 基本思想:逐步地将样本集中的样本输入到网络中,根据输出结果和理想输出之间的差别来调整网络中的权矩阵 与MP模型最大差别在于权系数W可变,从而具有了学习功能感知器属前向神经网络感知器的学习是有导师学习10/10/20223.2.1离散单输出感知器训练算法 二值网络:自变
3、量及其函数的值、向量分量的值只取0和1函数、向量。权向量:W=(w1,w2,wn)输入向量:X=(x1,x2,xn)训练样本集:(X,Y)|Y为输入向量X对应的输出 10/10/20223.2.2离散多输出感知器训练算法 样本集:(X,Y)|Y为输入向量X对应的输出输入向量:X=(x1,x2,xn)理想输出向量:Y=(y1,y2,ym)激活函数:F 权矩阵W=(wij)实际输出向量:O=(o1,o2,om)o1多输出感知器x1x2o2omxn输入层输出层10/10/2022算法3-2离散多输出感知器训练算法 1.初始化权矩阵W;2.重复下列过程,直到训练完成: 2.1 对每个样本(X,Y),重
4、复如下过程:2.1.1 输入X;2.1.2 计算O=F(XW);2.1.3 for j=1 to m do 执行如下操作:if oj yj then if oi = 0 then for i = 1 to n wij=wij+xi else for i= 1 to n do wij=wij-xi10/10/2022算法3-2离散多输出感知器训练算法第2步,循环控制。方法1:循环次数控制法:对样本集执行规定次数的迭代改进分阶段迭代控制:设定一个基本的迭代次数N,每当训练完成N次迭代后,就给出一个中间结果10/10/2022算法3-2离散多输出感知器训练算法方法2:精度控制法:给定一个精度控制参数
5、精度度量:实际输出向量与理想输出向量的对应分量的差的绝对值之和;实际输出向量与理想输出向量的欧氏距离的和 “死循环”:网络无法表示样本所代表的问题10/10/2022算法3-2离散多输出感知器训练算法方法3:综合控制法:将这两种方法结合起来使用 注意:精度参数的设置。根据实际问题选定;初始测试阶段,精度要求低,测试完成后,再给出实际的精度要求。10/10/2022算法3-3 连续多输出感知器训练算法 1用适当的小伪随机数初始化权矩阵W;2. 初置精度控制参数,学习率,精度控制变量d=+1;3While d do 3.1 d=0; 3.2 for 每个样本(X,Y)do3.2.1 输入X(=(x
6、1,x2,xn));3.2.2 求O=F(XW);3.2.3 修改权矩阵W:for i=1 to n,j=1 to m dowij=wij+(yj-oj)xi;3.2.4 累积误差for j = 1 to m dod=d+(yj-oj)210/10/2022算法3-3 连续多输出感知器训练算法 1、程序实现:、d、i、j、n、m为简单变量来表示,W为n行m列的二维数组。样本集二维数组2、Minsky在1969年证明,有许多基本问题是感知器无法解决的线性可分性,抽样的随机性3、问题线性可分性可能与时间有关4、很难从样本数据集直接看出问题是否线性可分5、未能证明,一个感知器究竟需要经过多少步才能完
7、成训练。10/10/2022用于求解XOR的单神经元感知器 xyo单神经元感知器的图像ax+by=1yx1(0,0)(1,1)10/10/20223.3 线性不可分问题 10/10/2022线性不可分函数变量函数及其值xyf1f2f3f4f5f6f7f8f9f10f11f12f13f14f15f1600000000001111111101000011110000111110001100110011001111010101010101010110/10/2022令 , n维Boole空间 定义为:n维Boole函数f定义为 到 的一个映射:全体n维Boole函数构成的集合记为显然有:10/10/
8、2022线性可分性 设 , 对这p个点分别用红、 蓝两种颜色进行着色。着红色的点 用 表示,蓝色的点 用 表示。若在 存在一个超平面 使得上述所有着红色的点 均有 ;对上述所有着蓝色的点 ,均有 ,则称这p个点是线性可分的,否则称为线性不可分的,或者非线性可分的。10/10/2022线性可分性研究的重要性:分类研究内容:线性可分性的判断 线性可分Boole函数的计数10/10/20223.3.2 线性不可分问题的克服 用多个单级网组合在一起,并用其中的一个去综合其它单级网的结果,我们就可以构成一个两级网络,该网络可以被用来在平面上划分出一个封闭或者开放的凸域来寻找某种变换(非线性映射),将输入
9、向量映射到一个高维空间,在该空间构造分类超平面。解决好隐藏层的联接权的调整问题是非常关键的 10/10/2022线性可分性-单层感知器线性不可分-单层感知器线性不可分的解决多层感知器 3.4 Matlab测试 10/10/2022训练函数net,tr,Y,E,Pf,Af=train(net,P,T,Pi,Ai,VV,TV)模拟(测试)函数T,X,Y1,.,Yn = SIM(model,TIMESPAN,OPTIONS,UT)3.4.1 单层感知器测试 10/10/2022定义感知器 W,B = INITP(R,S)R - Number of inputs to layer.S - Number
10、 of neurons in layerW,B = INITP(P,T)P - RxQ matrix of input vectors.T - SxQ matrix of target outputs.训练函数 w,b,te,tr = trainp(w,b,p,t,tp)模拟(测试)函数 a = simup(p,w,b)3.4.1 单层感知器测试 10/10/20223.4.1 单层感知器测试 1yx1(0,0)(1,1)1yx1(0,0)(1,1)线性可分线性不可分10/10/2022PR=0 1;0 1; %取值条件S=1; %神经元个数NET=newp(PR,S);%建立网络P=1 1;
11、0 0; 1 0;0 1 ; %输入训练样本T=1 0 1 1; %目标输出net,tr=train(NET,P,T); %开始网络训练test=1 1;0 0 ;1 0 ; 0 1 ; %测试的输入样本result=sim(net,test); %测试3.4.1 单层感知器测试 10/10/2022(1)net = newff(pr,s,tf,btf,blf,pf)(2)net =network(numInputs, numLayers, biasConnect, inputConnect, layerConnect, outputConnect, targetConnect)Here is
12、 the code to create a 1 input, 2 layer, feed-forward network. Only the first layer will have a bias. An input weight will connect to layer 1 from input 1. A layer weight will connect to layer 2 from layer 1. Layer 2 will be a network output,and have a = network(1,2,1;0,1; 0,0 0; 1 0,0 1,0 1)3.4.1 多层
13、感知器测试 10/10/2022第4章 BP(Back Propagation)网络 主要内容:BP网络的构成隐藏层权的调整分析Delta规则理论推导算法的收敛速度及其改进讨论BP网络中的几个重要问题 重点:BP算法难点:Delta规则的理论推导 10/10/2022第4章 BP网络4.1 概述 4.2 基本BP算法 4.3 算法的改进 4.4 算法的实现 4.5 算法的理论基础 4.6 几个问题的讨论 10/10/20224.1 概述 1、BP算法的出现1974年,Werbos已提出了该方法;1982年,Paker就完成了相似的工作;UCSD PDP小组的Rumelhart、Hinton和W
14、illiams1986年独立地给出了BP算法清楚而简单的描述。10/10/20224.1 概述 2、特点:非循环多级网络的训练算法,与感知器的网络拓扑结构相似:各层神经元仅与相邻层神经元之间有连接;各层内神经元之间无任何连接;各层神经元之间无反馈连接。x1o1输出层隐藏层输入层x2o2omxn10/10/20224.1 概述 3、优点: 一种模拟人脑信息处理方法的大规模并行处理的自学习、自组织和自适应的非线性模拟系统; 具有广泛的适应性和有效性-(80-90%); 可用于模式分类、识别和函数逼近等。4、弱点: 训练速度非常慢、局部极小点的逃离问题、算法不一定收敛。10/10/20224.2 基
15、本BP算法 4.2.1 网络的构成 神经元的网络输入:neti=x1w1i+x2w2i+xnwni神经元的输出:10/10/2022输出函数分析0.5f (net)0.25o0 11(0,0.5)net(0,0)o应该将net的值尽量控制在收敛比较快的范围内可以用其它的函数作为激活函数,只要该函数是处处可导的10/10/2022网络的拓扑结构x1o1输出层隐藏层输入层x2o2omxnW(1)W(2)W(3)W(L)10/10/2022网络的拓扑结构 BP网的结构输入向量、输出向量的维数、网络隐藏层的层数和各个隐藏层神经元的个数的决定实验:增加隐藏层的层数和隐藏层神经元个数不一定总能够提高网络精
16、度和表达能力。BP网一般都选用二级网络。10/10/2022网络的拓扑结构x1o1输出层隐藏层输入层x2o2omxnWV10/10/20224.2.2 训练过程概述 样本:(输入向量,理想输出向量)权初始化:“小随机数”与饱和状态;“不同”保证网络可以更好学习。1、向前传播阶段:(1)从样本集中取一个样本(Xp,Yp),将Xp输入网络;(2)计算相应的实际输出Op:Op=FL(F2(F1(XpW(1)W(2)W(L)10/10/20224.2.2 训练过程概述 2、向后传播阶段误差传播阶段:(1)计算实际输出Op与相应的理想输出Yp的差;(2)按极小化误差的方式调整权矩阵。(3)网络关于第p个
17、样本的误差测度:(4) 网络关于整个样本集的误差测度:10/10/20224.2.3 误差传播分析 1、输出层权的调整 wpq= wpq+wpq wpq=qop =fn (netq)(yq-oq)op =oq(1-oq) (yq-oq)op wpqANpANq第L-1层第L层wpq10/10/20222、隐藏层权的调整 ANpANqANhvhppk-11kwp1wpqqkwpmmk第k-2层第k层第k-1层10/10/20222、隐藏层权的调整pk-1的值和1k,2k,mk 有关不妨认为pk-1通过权wp1对1k做出贡献,通过权wp2对2k做出贡献,通过权wpm对mk做出贡献。pk-1= fk
18、-1(netp) (wp11k+ wp22k+ wpmm k)10/10/20222、隐藏层权的调整vhp=vhp+vhp vhp=pk-1ohk-2 =fk-1 (netp)( wp11k+ wp22k+ wpmmk)ohk-2=opk-1(1-opk-1)( wp11k+ wp22k+ wpmmk)ohk-2ANpANqANhvhppk-11kwp1wpmqkwpqmk第k-2层第k层第k-1层10/10/20224.2.4 基本的BP算法 样本集:S=(X1,Y1),(X2,Y2),(Xs,Ys) 基本思想 :逐一地根据样本集中的样本(Xk,Yk)计算出实际输出Ok和误差测度E1,对W(
19、1) ,W(2) ,W(L)各做一次调整,重复这个循环,直到Ep do 4.1 E=0; 10/10/2022算法4-1 基本BP算法 4.2 对S中的每一个样本(Xp,Yp): 4.2.1 计算出Xp对应的实际输出Op; 4.2.2 计算出Ep; 4.2.3 E=E+Ep; 4.2.4 根据相应式子调整W(L); 4.2.5 k=L-1; 4.2.6 while k0 do 4.2.6.1 根据相应式子调整W(k); 4.2.6.2 k=k-1 4.3 E=E/2.0 10/10/20224.3 算法的改进 1、BP网络接受样本的顺序对训练结果有较大影响。它更“偏爱”较后出现的样本2、给集中
20、的样本安排一个适当的顺序,是非常困难的。3、样本顺序影响结果的原因:“分别”、“依次” 4、用(X1,Y1),(X2,Y2),(Xs,Ys)的“总效果”修改W(1) ,W(2) ,W(L)。w(k)ij=p w(k)ij10/10/2022算法4-2 消除样本顺序影响的BP算法 1 for k=1 to L do1.1 初始化W(k);2 初始化精度控制参数;3 E=+1;4 while E do 4.1 E=0;4.2 对所有的i,j,k: w (k)ij=0; 10/10/20224.3 对S中的每一个样本(Xp,Yp):4.3.1 计算出Xp对应的实际输出Op;4.3.2 计算出Ep;4
21、.3.3 E=E+Ep;4.3.4 对所有i,j根据相应式子计算p w (L)ij;4.3.5 对所有i,j: w (L)ij= w (L)ij+p w (L)ij;4.3.6 k=L-1;4.3.7 while k0 do4.3.7.1 对所有i,j根据相应式子计算p w (k)ij;4.3.7.2 对所有i,j: w (k)ij= w (k)ij+p w (k)ij;4.3.7.3 k=k-1 4.4 对所有i,j,k:w (k)ij= w (k)ij+ w (k)ij;4.5 E=E/2.0 10/10/2022算法4-2 分析 较好地解决了因样本的顺序引起的精度问题和训练的抖动问题 收
22、敛速度:比较慢偏移量:给每一个神经元增加一个偏移量来加快收敛速度 冲量:联接权的本次修改要考虑上次修改的影响,以减少抖动问题 10/10/2022算法4-2 分析冲量设置Rumelhart等人1986年wij=joi+wijwij为上一次的修改量,为冲量系数,一般可取到0.9 Sejnowski与Rosenberg ,1987年wij=(1-)joi+wij) wij也是上一次的修改量,在0和1之间取值 10/10/20224.4 算法的实现 主要数据结构WH,m输出层的权矩阵;Vn,H输入(隐藏)层的权矩阵;om输出层各联接权的修改量组成的向量;hH隐藏层各联接权的修改量组成的向量;O1隐藏层的输出向量;O2输出层的输出向量;(X,Y)一个样本。 10/10/2022算法的主要实现步骤 用不同的小伪随机数初始化W,V;初始化精度控制参数;学习率 ; 循环控制参数E=+1;循环最大次数M;循环次数控制参数N=0; while E & N0,此时wij0E0wij 最速下降法是以负梯度方向作为下降方向的极小化算法,又称梯度法,1874年由法国科学家Cauchy提出,是无约束最优化中最简单的方法 。10/10/2022而其中的 所以, 最速下降法,要求E的极
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国装配式建筑预制构件成本效益分析与区域市场拓展报告
- 2025-2030中国药用辅料市场质量标准与供应格局研究报告
- 2025-2030中国自动驾驶技术商业化应用场景测试与法规环境评估报告
- 2025-2030中国脑机接口技术商业化进程与应用场景拓展
- 2025-2030中国老年配方奶粉细分市场需求特征与产品创新方向
- 2025-2030中国精酿啤酒消费者社群运营与品牌粘性提升研究报告
- 2025-2030中国管理咨询行业数字化转型与智能化发展研究报告
- 2025-2030中国社区精酿工坊运营模式及会员制服务体系设计报告
- 二年级上美术教学设计(D)-童话屋-湘美版
- 第8课 用快捷键制作证件照说课稿-2025-2026学年初中信息技术(信息科技)九年级下册黔教版
- 教师晋升答辩常见问题汇编
- 新加坡安全培训题库及答案解析
- (人教A版)选择性必修一数学高二上册 第一章 空间向量与立体几何(A卷·知识通关练+B卷提升练习)(原卷版)
- 2025煤矿安全规程解读
- 初级消防员培训课程教学大纲
- 2025-2026学年北师大版数学小学三年级上册(全册)教案设计及教学计划
- 2025年“学宪法讲宪法”主题活动知识竞赛题库附答案
- 2025年党纪法规知识测试题(含答案)
- 护理伦理与法律
- 网赌网贷专题教育
- 物业出纳培训课件内容
评论
0/150
提交评论