已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
神经网络学习控制 Neural Network based Learning Control,7.1 Reinforcement Learning(再励学习,自强式学习),神经网络学习方法有三类: 监督学习 Supervised Learning 例如BP 有明确的“教师”信号 无监督学习 Unsupervised Learning 没有任何“教师”信号 只是通过输入数据的内部信息 相当自组织?类方法。 例如 再励学习Reinforcement Learning 源于心理学 简单的说,一个人有笔钱,有几个投资选择A.B.C.他投B,赚钱了,再投B 。until B不赚钱了,或有 突发事件使他觉得A更好,于是将钱投到A。,由Barto 等人提出的Reinforcement Learning 可称为ASE/ACE模型,即由 ASE:Associative Search Element :关联搜索单元 ACE:Adaptive Critic Element:自适应评判单元 构成。 ASE的作用是确定控制信号y ACE则对再励信号r进行改善,得到 ASE和ACE各有n路输入通道,由系统状态S解码而成(这与cmac 相同),且每一时刻只选一个,即 控制信号的确定和各通道权值的修正如下:,其中, 和 分别为ASE和ACE各通道的权值; 是经改善的再励信号,、和有关系数, noise为随机噪声。,DECODER,CartPole system,V1, v2 vn,W1,w2 wn,Cart-Pole 的数学模型 Failure 的条件 显然,各单元的输出几乎完全取决于被选通道的权值, ASE略受噪声的影响。 各权值的学习几乎独立,只有那些曾经被选中的通道才会得到修正,其他则不变。 这样,一旦碰到完全新的情况,则可能输出一个完全错误的控制信号,导致FAIL,Two approaches to Neural Network based Learning Control,7.2 Direct Inverse Modelling 7.3 Learning Control with a Distal Teacher (Distal Learning),The control problem,Learner,Environment,intention,action,outcome,Inverse Model,Environment,y*,xn-1,un-1,yn-1,1. The Direct Inverse Modeling approach to learning an inverse model,Environment,Inverse Model,xn-1,yn,un-1,+,-,2. The distal learning approach to learning an inverse model,Environment,Forward Model,xn-1,yn,un-1,+,-,2.1 Learning the forward model using the prediction error yn-yn,yn,2.2 Learning the inverse model via forward model using the performance error y*n-yn,Inverse Model,y*n-1,xn-1,un-1,yn,forward Model,y*n-yn,The control systems 1. The direst inverse modeling approach,Environment,Inverse Model,yn,un-1,+,-,y*n,1.2 Eg. Learning control of CSTR using CMAC,CMAC memory,CMAC training,CMAC response,CSTR,P controller,extreme controller,control Switch,reference,Coordinator,Sd,ep,ed,ud,up,ue,uc,So,The CSTR system (continuous-stirred tank reactor) And this maybe transformed to the dimensionless form as:,Where, x1 is the conversion rate relating to the reaction concentration; x2 is the reaction temperature in the dimensionless form; Uf and Uc are control variables corresponding to the input flow rate F and coolant temperature Tc, respectively. are system parameters.,Temperature control,feed,product,jacket,CMAC based learning control approach Current outcome state So(x1,x2,dx1), current setting x1e(k), next setting x1ek+1, where, dx1k=x1k x1k-1 Let ed= x1ek+1 x1k-1, ep=x1ek- x1k , where, ed= difference between next setting and current output, ep=current deviation between desired and actual output IF |ed| threshold, THEN take the extreme control, i.e., IF ed threshold, THEN Uc = Umax IF ed - threshold, THEN Uc = Umin OTHERWISE take the learning control Uc= Up + Ud Up= ep * Kp, Ud= CMAC response,CMAC training So ( x1k+1, x2k+1, dx1k+1 ) as the input to the CMAC Uck as the “teacher signal” for the training Consider that So is the result caused by Uck, therefore, if the input to CMAC is So, the corresponding output should be Uck This is the end of one control-l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年三氟丙烯企业风险管理与内控
- 2023年工业自动化系统企业商业风险管理
- 幼儿园小班新生入园活动方案
- 咖啡厅设计理念及说明
- 2024-2034年中国运动休闲市场发展前景预测及投资战略咨询报告
- 2024-2034年中国石墨矿市场竞争格局及行业投资前景预测报告
- 2024-2034年中国汽车电子水泵行业发展潜力预测及投资战略研究报告
- 液压系统和日常维课件
- 2024-2034年中国垃圾处理中转站行业市场调查研究及投资前景展望报告
- 广东中草药课件
- 直线与圆的方程复习课课件
- 2024年护理团体标准考核试题
- 中国隔音吸声材料行业市场现状分析及竞争格局与投资发展研究报告2024-2029版
- 2024年02月中国人口与发展研究中心2024年面向社会招考人员笔试近6年高频考题难、易错点荟萃答案带详解附后
- 2024年水发集团有限公司总部及权属一级公司财务管理人员招聘笔试参考题库附带答案详解
- Unit+2+Morals+and+Virtues 整体单元教学设计 高中英语人教版(2019)必修第三册
- 燃气维护员常识培训课件
- 坂本龙一-模板参考
- 2024年考研英语真题及答案(完整版)
- 运输车辆交通安全教育培训
- JC-T982-2005砖瓦焙烧窑炉
评论
0/150
提交评论