




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
神经网络学习控制 Neural Network based Learning Control,7.1 Reinforcement Learning(再励学习,自强式学习),神经网络学习方法有三类: 监督学习 Supervised Learning 例如BP 有明确的“教师”信号 无监督学习 Unsupervised Learning 没有任何“教师”信号 只是通过输入数据的内部信息 相当自组织?类方法。 例如 再励学习Reinforcement Learning 源于心理学 简单的说,一个人有笔钱,有几个投资选择A.B.C.他投B,赚钱了,再投B 。until B不赚钱了,或有 突发事件使他觉得A更好,于是将钱投到A。,由Barto 等人提出的Reinforcement Learning 可称为ASE/ACE模型,即由 ASE:Associative Search Element :关联搜索单元 ACE:Adaptive Critic Element:自适应评判单元 构成。 ASE的作用是确定控制信号y ACE则对再励信号r进行改善,得到 ASE和ACE各有n路输入通道,由系统状态S解码而成(这与cmac 相同),且每一时刻只选一个,即 控制信号的确定和各通道权值的修正如下:,其中, 和 分别为ASE和ACE各通道的权值; 是经改善的再励信号,、和有关系数, noise为随机噪声。,DECODER,CartPole system,V1, v2 vn,W1,w2 wn,Cart-Pole 的数学模型 Failure 的条件 显然,各单元的输出几乎完全取决于被选通道的权值, ASE略受噪声的影响。 各权值的学习几乎独立,只有那些曾经被选中的通道才会得到修正,其他则不变。 这样,一旦碰到完全新的情况,则可能输出一个完全错误的控制信号,导致FAIL,Two approaches to Neural Network based Learning Control,7.2 Direct Inverse Modelling 7.3 Learning Control with a Distal Teacher (Distal Learning),The control problem,Learner,Environment,intention,action,outcome,Inverse Model,Environment,y*,xn-1,un-1,yn-1,1. The Direct Inverse Modeling approach to learning an inverse model,Environment,Inverse Model,xn-1,yn,un-1,+,-,2. The distal learning approach to learning an inverse model,Environment,Forward Model,xn-1,yn,un-1,+,-,2.1 Learning the forward model using the prediction error yn-yn,yn,2.2 Learning the inverse model via forward model using the performance error y*n-yn,Inverse Model,y*n-1,xn-1,un-1,yn,forward Model,y*n-yn,The control systems 1. The direst inverse modeling approach,Environment,Inverse Model,yn,un-1,+,-,y*n,1.2 Eg. Learning control of CSTR using CMAC,CMAC memory,CMAC training,CMAC response,CSTR,P controller,extreme controller,control Switch,reference,Coordinator,Sd,ep,ed,ud,up,ue,uc,So,The CSTR system (continuous-stirred tank reactor) And this maybe transformed to the dimensionless form as:,Where, x1 is the conversion rate relating to the reaction concentration; x2 is the reaction temperature in the dimensionless form; Uf and Uc are control variables corresponding to the input flow rate F and coolant temperature Tc, respectively. are system parameters.,Temperature control,feed,product,jacket,CMAC based learning control approach Current outcome state So(x1,x2,dx1), current setting x1e(k), next setting x1ek+1, where, dx1k=x1k x1k-1 Let ed= x1ek+1 x1k-1, ep=x1ek- x1k , where, ed= difference between next setting and current output, ep=current deviation between desired and actual output IF |ed| threshold, THEN take the extreme control, i.e., IF ed threshold, THEN Uc = Umax IF ed - threshold, THEN Uc = Umin OTHERWISE take the learning control Uc= Up + Ud Up= ep * Kp, Ud= CMAC response,CMAC training So ( x1k+1, x2k+1, dx1k+1 ) as the input to the CMAC Uck as the “teacher signal” for the training Consider that So is the result caused by Uck, therefore, if the input to CMAC is So, the corresponding output should be Uck This is the end of one control-l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版社区老年人营养配餐服务合同范本
- 2025年二手房买卖合同补充条款及房屋交易合同备案服务协议
- 2025版商铺转租租赁物使用限制与责任界定合同
- 2025版科技项目研发成果托管合作协议
- 2025年度自流平地板买卖合同范本
- 2025版虚拟现实产业发展担保合同
- 2025版牲畜养殖企业承包与养殖产业链合作合同
- 2025年互联网企业知识产权抵押贷款合同
- 2025东莞租赁合同范本(含租赁期限延长)
- 2025版新能源发电设备采购与现场安装维护合同
- 手术室护理相关知识100问课件
- 卫生部《病历书写基本规范》解读(73页)
- 生物必修一课程纲要
- 南方332全站仪简易使用手册
- 人民调解员培训讲稿村级人民调解员培训.doc
- 高低压配电安装工程-技术标部分(共41页)
- 监理规划编制案例
- 文献检索外文数据库
- 图画捉迷藏-A4打印版
- 受限空间作业票
- 盘扣式外脚手架施工方案
评论
0/150
提交评论