神经网络学习控制NeuralNetworkbasedLearningControl.ppt_第1页
神经网络学习控制NeuralNetworkbasedLearningControl.ppt_第2页
神经网络学习控制NeuralNetworkbasedLearningControl.ppt_第3页
神经网络学习控制NeuralNetworkbasedLearningControl.ppt_第4页
神经网络学习控制NeuralNetworkbasedLearningControl.ppt_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

神经网络学习控制 Neural Network based Learning Control,7.1 Reinforcement Learning(再励学习,自强式学习),神经网络学习方法有三类: 监督学习 Supervised Learning 例如BP 有明确的“教师”信号 无监督学习 Unsupervised Learning 没有任何“教师”信号 只是通过输入数据的内部信息 相当自组织?类方法。 例如 再励学习Reinforcement Learning 源于心理学 简单的说,一个人有笔钱,有几个投资选择A.B.C.他投B,赚钱了,再投B 。until B不赚钱了,或有 突发事件使他觉得A更好,于是将钱投到A。,由Barto 等人提出的Reinforcement Learning 可称为ASE/ACE模型,即由 ASE:Associative Search Element :关联搜索单元 ACE:Adaptive Critic Element:自适应评判单元 构成。 ASE的作用是确定控制信号y ACE则对再励信号r进行改善,得到 ASE和ACE各有n路输入通道,由系统状态S解码而成(这与cmac 相同),且每一时刻只选一个,即 控制信号的确定和各通道权值的修正如下:,其中, 和 分别为ASE和ACE各通道的权值; 是经改善的再励信号,、和有关系数, noise为随机噪声。,DECODER,CartPole system,V1, v2 vn,W1,w2 wn,Cart-Pole 的数学模型 Failure 的条件 显然,各单元的输出几乎完全取决于被选通道的权值, ASE略受噪声的影响。 各权值的学习几乎独立,只有那些曾经被选中的通道才会得到修正,其他则不变。 这样,一旦碰到完全新的情况,则可能输出一个完全错误的控制信号,导致FAIL,Two approaches to Neural Network based Learning Control,7.2 Direct Inverse Modelling 7.3 Learning Control with a Distal Teacher (Distal Learning),The control problem,Learner,Environment,intention,action,outcome,Inverse Model,Environment,y*,xn-1,un-1,yn-1,1. The Direct Inverse Modeling approach to learning an inverse model,Environment,Inverse Model,xn-1,yn,un-1,+,-,2. The distal learning approach to learning an inverse model,Environment,Forward Model,xn-1,yn,un-1,+,-,2.1 Learning the forward model using the prediction error yn-yn,yn,2.2 Learning the inverse model via forward model using the performance error y*n-yn,Inverse Model,y*n-1,xn-1,un-1,yn,forward Model,y*n-yn,The control systems 1. The direst inverse modeling approach,Environment,Inverse Model,yn,un-1,+,-,y*n,1.2 Eg. Learning control of CSTR using CMAC,CMAC memory,CMAC training,CMAC response,CSTR,P controller,extreme controller,control Switch,reference,Coordinator,Sd,ep,ed,ud,up,ue,uc,So,The CSTR system (continuous-stirred tank reactor) And this maybe transformed to the dimensionless form as:,Where, x1 is the conversion rate relating to the reaction concentration; x2 is the reaction temperature in the dimensionless form; Uf and Uc are control variables corresponding to the input flow rate F and coolant temperature Tc, respectively. are system parameters.,Temperature control,feed,product,jacket,CMAC based learning control approach Current outcome state So(x1,x2,dx1), current setting x1e(k), next setting x1ek+1, where, dx1k=x1k x1k-1 Let ed= x1ek+1 x1k-1, ep=x1ek- x1k , where, ed= difference between next setting and current output, ep=current deviation between desired and actual output IF |ed| threshold, THEN take the extreme control, i.e., IF ed threshold, THEN Uc = Umax IF ed - threshold, THEN Uc = Umin OTHERWISE take the learning control Uc= Up + Ud Up= ep * Kp, Ud= CMAC response,CMAC training So ( x1k+1, x2k+1, dx1k+1 ) as the input to the CMAC Uck as the “teacher signal” for the training Consider that So is the result caused by Uck, therefore, if the input to CMAC is So, the corresponding output should be Uck This is the end of one control-l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论