下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要强化学习是机器学习的一个重要分支,它是一种以环境反馈作为输入的,特殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如何能够优化的建立环境模型,如何提高算法效率就成为强化学习面临的主要问题。本次课题首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习算法,接着介绍目前解决若干问题而提出的POMDP模型,PSR模型、HRL模型,最后就PSR模型进行算法改进。关键词:强化学习;蒙特卡诺法;TD算法;Q学习;Sasar学习;POMDP模型;PSR模型;HRL模型强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的,在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用,并被认为是设计智能系统的核心技术之一。强化学习的理论基础:1.强化学习问题的框架:我们将有智能的学习体称为agent,将系统分成若干个状态,每个状态S可以有不同的动作选择,对应的每个选择也就有一个值函数Q(s,a)。Agent选择一个动作a作用于环境,环境接收该动作后状态发生变化(S’),同时产生一个强化信号r(奖赏)给agent,agent根据这个奖赏评价刚才的动作的好坏进而修改该动作值,并选择下一动作a’。对于一个强化学习系统来讲,其目标是学习一个行为策略:π:S->A,使系统选择的动作能够获得环境奖赏的累计值Σr最大。当一个动作导致环境给正的奖赏时这种动作的趋势就被加强,反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射,以便使奖励信号最大化。【10,11】强化学习的框架如图:2.环境的描述:通常,我们从五个角度对环境进行分析:【4】角度一:离散状态vs连续状态角度二:状态完全可感知vs状态部分可感知角度三:插曲式vs非插曲式角度四:确定性vs不确定性角度五:静态vs动态在强化学习中,我们首先考虑最简单的环境模型随机、离散状态、离散时间对其数学建模。我们通常用马尔科夫模型:马尔科夫状态:一个状态信号保留了所有的相关信息,则就是马儿科夫的。马儿科夫决策过程(MDP)【2】:MDP的本质是:当状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作,而与历史状态和动作无关。强化学习主要研究在P和R函数未知的情况下系统如何学习最优的行为策略。用rt+1表示t时刻的即时奖赏【7】,用Rt表示t时刻的累计奖赏,则Rt为t时刻开始到最后的所有奖赏和,而越后续的动作对当前影响要比t时刻奖赏逐渐减小,因此越往后的奖赏加上了一个折扣γ,这样,t时刻的奖赏总和就是Rt=rt+1+γrt+2+γ2rt+3+…=rt+1+γRt+1(1)t时刻状态s的状态值(表示状态s如何优秀)用Vπ(s)表示,它用t时刻选择各个动作的奖赏的数学期望来表示。Vπ(s)=Eπ{Rt|st=s}=Eπ{rt+1+γV(st+1)|st=s}=Vπ(s’)](2)注意到这里两式都是一个递推式,称为Bellman等式,写成这种形式非常便于从状态s转换到s’时计算状态值。强化学习问题是要寻求一个最优的策略π*,在上面的等式中表现为寻求状态值的最优值,在不断学习强化的过程中对状态s获得一个最优值V*(s),它表示在状态s下选取最优的那个动作而获得的最大的累计奖赏回报。因此在最优策略π*下,状态s的最优值定义为:V*(s)=E{rt+1+γV(st+1)|st=s}=Vπ(s’)](3)各种算法的最终目的便是计算各状态的最优值,并根据最优值去指导动作。经典的强化学习算法回顾:动态规划算法【1】:动态规划的思想,根
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025江苏淮安市洪泽区中医院招聘合同制专业技术人员2人(第二批)备考考试试题及答案解析
- 团结部门的活动策划方案
- 2025四川绵阳市中心医院合同制工勤人员招聘3人参考考试试题及答案解析
- 2025福建福州市园开港湾经贸有限公司招聘1人参考笔试题库附答案解析
- 2025江苏南通市苏锡通科技产业园区招商服务有限公司第二批次招聘延期模拟笔试试题及答案解析
- 2025湖南郴州市第四人民医院招聘(引进)高层次专业技术人才24人参考考试试题及答案解析
- 深度解析(2026)《GBT 25728-2024粮油机械 气压磨粉机》
- 2025人民网宁夏分公司招聘媒介顾问2人参考笔试题库附答案解析
- 2026年河北张家口经开区编办青年就业见习岗位招聘备考笔试试题及答案解析
- 2025青海海南州同德县人民医院招聘消防专职人员1人参考笔试题库附答案解析
- 【年产5000吨氯化苯的工艺设计11000字(论文)】
- 光伏电站巡检与维护
- 小学校本课程-1蓝色国土教学设计学情分析教材分析课后反思
- 广州市荔湾区事业单位招聘事业编制人员考试真题2022
- GB/T 19867.4-2008激光焊接工艺规程
- 上下班交通安全知识考试试卷
- 食堂消毒表格
- 模具定期保养点检表
- 电工基础(第六版)课后习题答案
- 快消品年度工作计划
- 医院后勤设备安全运维管理
评论
0/150
提交评论