10g教学视频包附课件代码31第39讲2-evaluation_第1页
10g教学视频包附课件代码31第39讲2-evaluation_第2页
10g教学视频包附课件代码31第39讲2-evaluation_第3页
10g教学视频包附课件代码31第39讲2-evaluation_第4页
10g教学视频包附课件代码31第39讲2-evaluation_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2-Evaluation Problem60(RL)se evaluation:(RL)reward: ?se: ?action: ?sode: ?翻译成强化学习(RL)问题:已知条件reward: 路上需要的时间(越少越好)state: 每一段路action: 选择进入哪条路(这里没得选)episode:一次从公司到家的行程翻译成强化学习(RL)问题:数学表示已知: s1=小路, s2=高速路;r(s1), r(s2)求:v(s1), v(s2)翻译成强化学习(RL)问题:形式化表达需要收集哪些数据来完成学习?算法的数学表示翻译成强化学习(RL)问题:实验数据总时间?每段路所需时间?r(s_

2、i)*道路长度和路况?翻译成强化学习(RL)问题:实验数据R(小路)R(高速路)周二-89相对于老路,同等路程节约的时间周四-32周三-28周一-56翻译成强化学习(RL)问题:算法你如何利用这些数据?1excelR()R()sode-89-32-4.56.25-28-562R_k+1 -R_kR()sodeR_k+1V_k+1 = V_k + * (R_k+1 - V_k)663kepisodek8272-54.596600delta ruleV_k+1 = V_k + * (R_k+1 - V_k)只有当意外发生时才会学习(不光人工智能:也是人类学习的一大特点!)R()sodeR()sod

3、eR_k+1- R_kR_k+196632827 = sum(R_k)V_k+1 = V_k + * (R_k+1 - V_k)2-54.56.259668006features of delta rulelearning rate () is arbitrarydelta rule更重视新的经验(k-1)/k - +inf1/k -0_k = _k-1 * (k-1)/k + R_k / k= 求平均 = gradually attenuated updatefeatures of delta rulelearning rate () is arbitrarydelta rule更重视新的经

4、验只需要储存1个变量求平均: = sum(R_k)逐步更新:R_k+1 = R_k + * (R_k+1 - R_k)算法2:一步一步往上爬R_k+1 -R_kR(小路)episodeR_k+1可是,直觉上,小路真的是个很糟糕的state?周一-8-3-1.5周三-3-1.25-2.375周四-4.5-2.125-3.4375周二-2-0.5-1.75预期-503R()R()V()V()sodeV_k+1 = V_k + * #-56?# = R(s) + $ V (s) - V (s)-28-32-89?00generalearning(temporal difference)t直觉理解:TD learning = R(s) -R0(s)VS = R(s) + V (s) - V (s)为什么要加后面这项?在我们的问题中,如何选取?的取值范围?TD learning的生活应用如何让白水煮鸡胸肉能吃出幸福感?为什么你应该对毒品感到颤抖?小结:TD learning教给我的没有惊喜就没有学习 delta rule未来影响现在 temporal discount代码掌握了一个算法之后,下一步做什么?(请预期:没有惊喜就没有学习)scale up:如果有100条新路如果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论