




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
神经网络学习控制 Neural Network based Learning Control,7.1 Reinforcement Learning(再励学习,自强式学习),神经网络学习方法有三类: 监督学习 Supervised Learning 例如BP 有明确的“教师”信号 无监督学习 Unsupervised Learning 没有任何“教师”信号 只是通过输入数据的内部信息 相当自组织?类方法。 例如 再励学习Reinforcement Learning 源于心理学 简单的说,一个人有笔钱,有几个投资选择A.B.C.他投B,赚钱了,再投B 。until B不赚钱了,或有 突发事件使他觉得A更好,于是将钱投到A。,由Barto 等人提出的Reinforcement Learning 可称为ASE/ACE模型,即由 ASE:Associative Search Element :关联搜索单元 ACE:Adaptive Critic Element:自适应评判单元 构成。 ASE的作用是确定控制信号y ACE则对再励信号r进行改善,得到 ASE和ACE各有n路输入通道,由系统状态S解码而成(这与cmac 相同),且每一时刻只选一个,即 控制信号的确定和各通道权值的修正如下:,其中, 和 分别为ASE和ACE各通道的权值; 是经改善的再励信号,、和有关系数, noise为随机噪声。,DECODER,CartPole system,V1, v2 vn,W1,w2 wn,Cart-Pole 的数学模型 Failure 的条件 显然,各单元的输出几乎完全取决于被选通道的权值, ASE略受噪声的影响。 各权值的学习几乎独立,只有那些曾经被选中的通道才会得到修正,其他则不变。 这样,一旦碰到完全新的情况,则可能输出一个完全错误的控制信号,导致FAIL,Two approaches to Neural Network based Learning Control,7.2 Direct Inverse Modelling 7.3 Learning Control with a Distal Teacher (Distal Learning),The control problem,Learner,Environment,intention,action,outcome,Inverse Model,Environment,y*,xn-1,un-1,yn-1,1. The Direct Inverse Modeling approach to learning an inverse model,Environment,Inverse Model,xn-1,yn,un-1,+,-,2. The distal learning approach to learning an inverse model,Environment,Forward Model,xn-1,yn,un-1,+,-,2.1 Learning the forward model using the prediction error yn-yn,yn,2.2 Learning the inverse model via forward model using the performance error y*n-yn,Inverse Model,y*n-1,xn-1,un-1,yn,forward Model,y*n-yn,The control systems 1. The direst inverse modeling approach,Environment,Inverse Model,yn,un-1,+,-,y*n,1.2 Eg. Learning control of CSTR using CMAC,CMAC memory,CMAC training,CMAC response,CSTR,P controller,extreme controller,control Switch,reference,Coordinator,Sd,ep,ed,ud,up,ue,uc,So,The CSTR system (continuous-stirred tank reactor) And this maybe transformed to the dimensionless form as:,Where, x1 is the conversion rate relating to the reaction concentration; x2 is the reaction temperature in the dimensionless form; Uf and Uc are control variables corresponding to the input flow rate F and coolant temperature Tc, respectively. are system parameters.,Temperature control,feed,product,jacket,CMAC based learning control approach Current outcome state So(x1,x2,dx1), current setting x1e(k), next setting x1ek+1, where, dx1k=x1k x1k-1 Let ed= x1ek+1 x1k-1, ep=x1ek- x1k , where, ed= difference between next setting and current output, ep=current deviation between desired and actual output IF |ed| threshold, THEN take the extreme control, i.e., IF ed threshold, THEN Uc = Umax IF ed - threshold, THEN Uc = Umin OTHERWISE take the learning control Uc= Up + Ud Up= ep * Kp, Ud= CMAC response,CMAC training So ( x1k+1, x2k+1, dx1k+1 ) as the input to the CMAC Uck as the “teacher signal” for the training Consider that So is the result caused by Uck, therefore, if the input to CMAC is So, the corresponding output should be Uck This is the end of one control-l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年病历管理制度、查对制度考核试题及答案
- 2025年《汽车维修工》技师考试题及答案
- 协议规范信用承诺书7篇
- 增强现实广播技术-洞察与解读
- 2025广东依顿电子科技股份有限公司招聘HRBP岗考前自测高频考点模拟试题及一套答案详解
- 2025年事业单位招聘考试综合类专业能力测试试卷(统计类)真题模拟训练
- 2025年事业单位招聘考试综合类面试真题模拟试卷高频考点精讲
- 2025年苏州市事业单位教师招聘历史学科专业知识真题模拟解析试卷
- 虚拟化能耗管理策略-第1篇-洞察与解读
- 黑龙江考试题目及答案
- 《无人机飞行控制技术》全套教学课件
- 注册安全工程师-建筑安全高频考点
- 新闻摄影培训的课件
- 刚新修订《治安管理处罚法》培训
- 2025年沪科版八年级数学上册第11章综合检测试卷(教师版)
- 建伍对讲机TH-K2-K4AT中文使用说明书
- CDA一级考试试题及答案解析
- 内科胸腔镜检查护理查房
- 膝关节镜手术治疗讲课件
- 2025-2030中国醋酸纤维素板材行业发展趋势与产销需求预测报告
- 部编一年级上册语文教学反思全集
评论
0/150
提交评论