版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、强化学习基础理论及算法课件Actor-Critic算法分析(A3C)先来看看AC还记得我们的老朋友吧:后续获得的所有奖励:可能并不稳定引入过baseline:,并用网络来估计b值再来回忆下Q:优势函数(Adavantage)函数表达式:就是在状态s下,选择某一动作有多好,Q相当于咱们得到的;V是期望的(平均 就好比你现在考试,老师(V)认为你能考100分,其实只考了5分(Q)如果A值计算是正的,那就说明当前动作执行的挺好,要继续朝这方向干AC需要解决的问题把这几个当事人都叫来吧:由于智能体在与环境交互过程中有大量的随机性,所以算的是期望 为了计算A,现在出现了Q和V,那我得训练俩网络了(一个都
2、很难整,现在给我过来俩?)来个近似让问题简单些吧:(现在只需要训练一个网络就够了!)AC整体流程:1.获取数据:(不断与环境交互,通过策略):前向传播计算计算梯度更新参数:AC算法细节是不是得训练两个网络呢?分别完成其对应的任务但是它俩好像都是根据状态来预测结果 共享一下吧:AC算法细节:n-step: 只算一步会不会有点简单呢?让它眼光更长一些实际计算公式还引入了折扣系数,越往后的情况影响力稍微有所降低 n值通常情况下也不同太大,越大的话variance也会越大A3C整体架构如果只用一个智能体不断与环境交互得到数据 ,会有什么问题吗?样本之间的相关性会较大,违背了机器学习的本质(独立同分布) 多个智能体(多线程)每一个都自己去玩(单独)A3C整体架构损失函数:策略损失(Policy):(起决策的网络)Value网络损失:(预期与实际的差异)熵:(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年山东公务员录用考试《行测》《申论》试题+解析
- 2025至2030中国商业航天发射市场现状竞争格局及投资价值研究报告
- 2026年国家电网招聘之电网计算机模拟考试题库附完整答案详解【全优】
- 2026中国远程辅导行业盈利动态与未来发展趋势预测报告
- 2026年教师资格之幼儿综合素质必刷题库及完整答案详解(夺冠)
- 2026中国湿巾包装袋行业市场全景调研及投资价值评估咨询报告
- JSH 2014-2025 远海区域水运工程计价暂行办法
- 大专护理学妇产科护理课件
- 2025-2030中国控流接缝密封剂行业产销状况与前景趋势预测报告
- 2026年中考历史百校联考冲刺押题密卷及答案(七)
- 物业防恐防暴演练课件
- 《沉井与沉箱结构》课件
- 2024年04月中国邮政储蓄银行股份有限公司广西壮族自治区分行2024年春季校园招考笔试历年参考题库附带答案详解
- UL489标准中文版-2019断路器UL标准中文版
- 医疗核心制度考试题(含参考答案)
- 中华诗词之美学习通超星期末考试答案章节答案2024年
- AQ/T 9009-2015 生产安全事故应急演练评估规范(正式版)
- 2024年高考北京卷物理真题
- 2024年立体停车场项目立项申请报告范本
- (高清版)JTG 3810-2017 公路工程建设项目造价文件管理导则
- DBJ-T 15-148-2018 强风易发多发地区金属屋面技术规程
评论
0/150
提交评论