




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十七章制定复杂决策 17 1延续式决策问题17 2价值迭代17 3策略迭代17 4部份可观察的MDP17 5决策理论智能体 延续式决策问题 延续式决策问题 智能体的效用值取决于一个决策序列 效用函数不是由单一状态决定 取决于环境历史的一个状态序列 1 1 完全可观察环境随机行为一阶马尔可夫转移效用函数取决于状态序列 0 8 0 1 0 1 up up right right right 0 85 0 32768成功概率 0 14 0 8 0 85 0 32776 转移模型T s a s 在状态s完成行动a时到达状态s 的概率 马尔可夫决策过程 使用马尔可夫链转移模型和累加回报的延续式决策过程 MDP MDP不确定环境的延续式决策问题通过指定行动的概率结果的转移模型和指定每个状态回报的回报函数来定义 初始状态S0 转移模型 回报函数 策略 MDP问题的解 即指定在智能体可能到达的任何状态下 智能体应当采取的行动 s 策略 为状态s推荐的行动 最优策略 产生最高期望效用的策略 回报 智能体在一个状态s中得到的一个可正可负的有限值 即回报R s 延续式决策问题 延续式决策问题 例 最优策略 1 1 1 1 1 1 1 1 1 1 平衡风险和回报是MDP问题的关键 R s 1 63 0 43 R s 0 09 0 02 R s 0 R s 0 延续式决策问题中的最优化 有限期决策 决策在有限时间内进行 决策应根据时间 状态来决定 给定状态的最优行动会随时间变化 即最优决策是非稳态的 无限期决策 决策没有固定的时间期限 同一个状态没有必要在不同时间采用不同决策 其最优决策是稳态的 效用函数 Uh s0 s1 sn 延续式决策问题中的最优化 稳态 假设智能体在状态序列之间的偏好是稳态的 若 s0 s1 和 s 0 s 1 以同样的状态起始 则两个序列的偏好次序和状态序列 s1 s2 和 s 1 s 2 的偏好次序是一致的 计算状态序列的效用值 稳态性假设下的两种方法 累加回报 状态序列的效用值是各状态回报的累加和 Uh s0 s1 sn R s0 R s1 折扣回报 状态序列的效用值是各状态回报的加权 折扣因子 累加和 折扣因子用于描述智能体对于当前与未来回报的偏好 延续式决策问题中的最优化 无限期决策 效用值的计算的三种方法 1 折扣回报 状态序列的效用值是各状态回报的加权 折扣因子 累加和 2 适当策略 确保能够达到终止状态的策略 可使用累积回报 3 平均回报 每一个时间步回报的平均数 策略的值是所得到的折扣回报的期望和 最优策略 价值迭代 基本思想 计算每个状态的效用 以选出每个状态中的最优行动 选择使后续状态的期望效用最大的行动 s argmaxa s T s a s U s 价值迭代算法 把每个状态的效用与其邻接状态的效用关联起来 贝尔曼方程 即当智能体选择最优行动 状态的效用值是在该状态得到的立即回报加上在下一个状态的期望折扣效用值 状态的效用值 可能跟随它出现的所有状态序列的期望效用值 价值迭代 价值迭代法总是收敛到贝尔曼方程组的唯一解上 而对应的策略是最优的 贝尔曼更新 迭代求解 1 1 策略迭代 策略 指定智能体在可能达到的任何状态下智能体应采取的行动 最优策略 就是产生最高期望效用值的策略 策略迭代 交替执行用当前策略计算状态的效用和用当前的效用改进当前的策略 策略评价 对拟执行的策略 i进行评价 计算Ui U i 即该策略被执行后每个状态的效用值 策略改进 通过Ui 计算新的MEU策略 i 1 每次迭代都将产生更好的策略 直到效用值不变 算法终止 则该效用值也是贝尔曼方程组的解 i一定是最优策略 策略评价 n个状态有n个方程和n个未知量 可用线性代数方法求解 也可用价值迭代计算效用值的近似 修正策略迭代 异步策略迭代 每次迭代只更新部分选中的状态 1 1 部份可观察的MDP POMDP 智能体并不知道自己所处的状态 也不能给出其转移模型 所以无法执行 s 为该状态推荐的行动 安全策略 尽量向减少不确定的方向移动 1 1 部份可观察的MDP POMDP 观察模型O s o 指定在状态s感知到o的概率 信度状态b 所有可能状态上的概率分布 例如 3个状态的环境 b s 信度状态赋予实际状态s的概率 更新信度状态 最优策略 最优行动取决于当前智能体的信度状态 b POMDP智能体决策过程 1 给定当前的信度状态b 执行行动a b 2 得到观察o 3 更新信度状态为Forward b a o 重复上述步骤 给定行动a 从b到b 的概率 信度状态空间的转移模型 信度状态空间的回报函数 求解POMDP可归约为信度状态空间上求解MDP 决策智能体的设计 1 用动态贝叶斯网表示转移和观察模型 2 用决策和效用节点扩展动态贝叶斯网 产生动态决策网络 DDN 3 用滤波算法把每个新的感知信息与行动结合起来 对信度状态表示进行更新 4 通过向前投影可能的行动序列选
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园安全教育的文案标题
- 郑州管城初中考试题目及答案
- 安置房项目资源配置与调度方案
- 围合式建筑方案设计流程
- 离婚协议书(知识产权归属及使用协议)
- 农特产品仓储环境调控技术方案
- 离婚协议书中财产分割与子女抚养范本解读
- 离婚协议书范本与婚姻财产分割及子女抚养权转移合同
- 离婚协议书范本:精确财产评估与子女监护权分配协议
- 甲乙丙三方联合开发的商业地产项目产权转让协议
- 工模具点检管理制度
- 非营利组织纳税管理制度
- 2025年新疆维吾尔自治区中考物理真题含答案
- 数字健康行为干预-第1篇-洞察及研究
- 2025至2030年中国核辐射探测器行业市场行情监测及前景战略研判报告
- 酒类小作坊管理制度
- 中国皮肤基底细胞癌诊疗指南2023
- 党性主题教育理论测试题及答案
- T/CECS 10348-2023一体化净水设备
- 骨科与麻醉科加速康复围手术期患者血液管理共识
- 打造卓越电信网络-优化技术引领业务增长
评论
0/150
提交评论