强化学习 课件 第1、2章 强化学习概述、Bandit问题_第1页
强化学习 课件 第1、2章 强化学习概述、Bandit问题_第2页
强化学习 课件 第1、2章 强化学习概述、Bandit问题_第3页
强化学习 课件 第1、2章 强化学习概述、Bandit问题_第4页
强化学习 课件 第1、2章 强化学习概述、Bandit问题_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章强化学习概述目录马尔可夫决策过程(MDP)MDP的分类强化学习强化学习的应用有监督学习(supervised

learning)数据集中的样本带有标签,有明确目标回归和分类无监督学习(unsupervised

learning)数据集中的样本没有标签聚类、降维、概率密度估计、生成模型构建强化学习(reinforcementlearning)序列决策的过程,通过过程模拟和观察来不断学习,提高决策能力例如:AlphaGo机器学习的分类强化学习的元素

智能体环境时间序列

马尔可夫过程

马尔可夫过程

若用马尔可夫过程来描述一个人上学的经历:如果一个人就读于重点中学,那么他考上重点大学的概率也比较大如果拥有重点大学的学历,那么找到一份好工作的概率也比较大马尔可夫过程马尔可夫决策过程在读于普通中学的前提下:如果很努力学习,则考取重点大学的概率就会相对变高如果沉迷于打游戏、不花心思到学习上,那么考取重点大学的概率就会变得很低站在自身的角度来看待求学的经历,考取重点大学的概率并不只是“客观的规律”决定的,也有“主观能动性”的成分马尔可夫决策过程马尔可夫决策过程(MarkovDecisionProcess,MDP)还需要定义动作与奖励若将奖励定义为求学经历中获得的“幸福感”:在中学采取“努力学习”的动作,可能因为玩的时间更少,而只有较低的“幸福感”,但这帮助我们考上了更好的大学,这个更好的状态有助于未来获得更多的“幸福感”要在“先苦后甜”与“及时行乐”中进行取舍,选择正确的动作方式,以获得最幸福的人生状态动作下一个状态MDP的定义

目标:最大化效用

终止状态

马尔可夫过程与MDP的对比马尔可夫过程客观规律宏观性质例如遍历定理(研究的是某个微粒在无穷长的时间内是否“肯定”会经历某个状态,或无穷次经历某个状态)、强遍历定理(不同状态之间的概率分布是否“肯定”会收敛于一个稳定的分布)MDP具体的问题主观操作求解如何对一个具体的问题采取措施,使得获得的效果最好工程中很多实际问题适合被定义为MDP而非马尔可夫过程MDP的分类MDP的分类方式根据状态与动作是否连续进行分类根据环境是否已知进行分类根据环境的随机性或确定性进行分类根据环境的时齐性进行分类根据时间的连续性进行分类根据MDP是否退化进行分类动作连续与离散的MDP动作是连续变量,则策略的求解类似于机器学习训练回归模型的过程动作是离散变量,则策略的求解类似于机器学习训练分类模型的过程Refer:https://jacklee.work状态与动作离散的MDP

状态是连续或是离散也很重要,决定了模型的形式:象棋的动作与状态数量有限,且离散(不存在中间状态)状态:棋盘的局势,各棋子的位置动作:下一步落子的方式奖励:吃掉对方棋子的价值,如兵1分、马4分等只将胜利设为得到奖励,中间吃子不算目标:寻找最佳走棋策略,以获得最大效用

状态连续、动作离散的MDP例如“黄金矿工”游戏中:状态连续:黄金、石头、钻石、炸药桶的位置动作离散:放炸弹、下钩、等待状态与动作连续的MDP

自动驾驶可以定义为一个状态和动作都是连续的问题:状态连续:传感器捕捉到的当前路况图像动作连续:操作方向盘、踩油门、刹车等动作,方向盘转动的角度与加速度都是连续的环境已知的MDP(model-base)

环境已知的MDP:最优控制

列夫·庞特里亚金理查德·贝尔曼完成最优控制理论的开创性工作环境未知的MDP(model-free)

确定性环境的MDP例如一个简单的MDP:对于一个MDP,当其S、A、P、R

都确定之后,应该有一个最佳策略,是一个“状态→动作”形式的映射,它到底是一个什么样的映射呢?状态:圆所处的位置动作:圆左移或者右移奖励:到达五角星获得的奖励确定性环境的MDP最佳策略很简单,即一直向右移动环境是“确定”的,即在给定状态采取给定动作,下一步的状态与奖励是完全确定的此时MDP的最佳策略对应的动作是常量!(不用根据状态确定)状态:圆所处的位置动作:圆左移或者右移奖励:到达五角星获得的奖励随机性环境的MDP

MDP的时齐性

MDP的时齐性

时齐与否在于对“时间”性质的定义:时齐MDP中的“时间”是一种“相对的”度量标尺,例如“一年”、“一个回合”非时齐MDP中的“时间”是“绝对的”历史度量,例如“公元2018年”或者“第100个回合”非时齐性环境:房价的“水涨船高”

时齐性对策略的影响

时齐性对策略的影响当环境为确定、时齐时,则策略为“动作=常量”当环境为随机、时齐时,则策略为“状态→动作”形式当环境为确定、非时齐时,则策略为“时间→动作”形式当环境为随机、非时齐时,则策略为“时间、策略→动作”形式状态:圆所处的位置动作:圆左移或者右移奖励:到达五角星获得的奖励效用与终止状态对于时齐性的影响

时齐MDP的分类

时间的连续性

连续时间的MDP

退化的MDP

多臂老虎机问题(Multi-ArmedBandit)

多臂老虎机问题是退化的MDP

上下文老虎机(ContextualBandit)

多臂老虎机上下文老虎机一般强化学习问题策略的形式当环境为确定、时齐时,则策略为“动作=常量”当环境为随机、时齐时,则策略为“状态→动作”形式当环境为确定、非时齐时,则策略为“时间→动作”形式当环境为随机、非时齐时,则策略为“时间、策略→动作”形式模型的形式当动作是连续变量时,可以将策略定义为线性模型或神经网络模型等回归模型而当动作是分类变量时,则可以将策略定义为神经网络、表格或其它分类模型状态、动作(非时齐情况下还是时间)决定了模型的输入输出思考

强化学习强化学习解决的问题对于生产、生活、办公等领域的实际问题,例如游戏AI或机器人控制,一般会被转化为一个环境未知非退化MDP求解环境未知非退化MDP非常困难:需要拥有环境,并与环境交互产生大量的数据利用这些数据去寻找一个能够最大化效用的策略强化学习:拥有环境假定拥有环境,可以自主地选择与环境交互的方式,从环境中产生“需要的数据”例如MAB问题中可以自由选择操控杆的老虎机可以不断从环境中获取数据,以训练Agent使其取得更大的效用以象棋为例

模仿学习

模仿学习

改进的方法:与人类专家进行交互

DAgger

(DatasetAggregation)

模仿学习的局限模仿学习仅仅“拥有数据”,不能自由产生数据要在多步的MDP中找出一个比较好的策略,如果不能自由产生数据,是难以实现的强化学习则能够从环境中产生我们需要的数据,并针对性地学习Exploration-ExploitationDilemma如何产生数据的一个重要原则是Exploration-ExploitationDilemma,它的原则是要让产生的数据尽量接近当前认为的最佳策略,但同时又不能太过接近,而要保证分布足够宽、数据具有足够的多样性为了简单起见,会首先在退化的MDP(MAB问题)中讨论它,然后再扩展到非退化MDP的情况中从数据中学习最佳策略

强化学习的难点强化学习问题的难点(环境未知、非退化)环境未知的难点(MAB)非退化的难点(最优控制)强化学习:通向强人工智能的重要途径弱人工智能:不需要具有人类完整的认知能力,甚至是完全不具有人类所拥有的感官认知能力,只要设计得看起来像有智慧就可以了强人工智能:具备执行一般智能行为的能力,通常把人工智能和意识、感性、知识、自觉等人类的特征互相连接强化学习更接近现实中生命体的学习方式,更加“智能”有的研究者认为,“强化学习是通向强人工智能的重要路径”本体论在古典时代,哲学家们更加关注的是世界的本质毕达哥拉斯的“万物皆数”,德谟克利特的“原子论”,柏拉图的“理念论”都是对于世界的不同认识方式,都在追求能够“更加正确”地认识世界这些以寻求世界本质为目的的理论均被称作“本体论”本体论:有监督学习的思维方式有监督学习思维方式与“本体论”相同,目标是寻找客观的规律,“学习知识”或者“认识世界”学习方法:通过拟合现实中产生的数据,对误差进行优化误差小意味着“正确”,误差大意味“错误”,当达到了百分之百的正确率的时候,“预测误差”就降低为0,意味着已经“完全正确”而没有可以再提升的地方认识论在近代,哲学经历了重要的“从本体论向认识论”的转向其代表是康德对于“本体”与“现象”的划分,通俗的说就是“真实世界”和“我看到的世界”是两个不同的东西,在此基础上,康德认为“真实世界”是不重要的,“我看到的世界”才是值得关注的重点德国哲学家叔本华继承以及进一步发展了康德的理论,他将“我看到的世界”称之为“表象”,而将人的本能称作“意志”,并且认为“表象”是“意志”外化出来的简而言之,他认为人对于世界的认识是被人的目的所支配的,或者说,“我怎么认识世界”是受到“我的目标是什么”所支配的目的支配我们对于世界的认识如果把人的“目的”、“目标”或“追求”,也就是叔本华所说的“意志”定义为“最大化效用”,那么人应该是时刻在“追求最大化效用”的动机支配下的,所有的能力都是为了满足这个动机的手段“正确认识世界”其实也是一种能力,本质上也是“追求最大化效用”。在某些具体的场景中的应用,如果追求不同,认识到的世界也会不同认识论:强化学习的思维方式总的来说,强化学习的过程就像是在“最大化效用”的目标支配下去探索环境,选择环境中对自己有用的知识加以学习,这个过程更加强调人的“主观能动性”在认识世界、改造世界中起到的重要作用强化学习比起有监督学习或无监督学习更加接近一个生命体的学习过程、更加具有智能性、更加接近“强人工智能”强化学习的应用轨迹追踪强化学习在高维控制问题(诸如机器人等)中的应用已经是学术界和工业界共同的研究课题2017年,伯克利发布的强化学习方法可以让机器人17分钟就学会轨迹跟踪汽车制造机器人通过深度强化学习可以记住对象并获得知识,并训练自己快速而精确地完成这项工作特斯拉超级工厂的四大制造环节:冲压生产线、车身中心、烤漆中心和组装中心有超过150名机器人参与工作,整个工厂几乎都是机器人自动驾驶自动驾驶的人工智能包含了感知、决策和控制三个方面强化学习可以解决驾驶过程中的决策问题Wayve公司的自动驾驶汽车无需3D地图也无需规则,让汽车从零开始在二十分钟内学会如何自动驾驶提升ICU抢救效率血液化验指标可以提供抢救病人的关键信息,但过于频繁的化验有加重病情的危险,也会增加治疗的费用来自普林斯顿大学的一个研究团队设计了一个机器学习系统,可以在减少化验频率的同时优化关键治疗的开展时间强化学习算法在这个机器学习系统中发挥了关键性的作用Refer:

Pixabay改进恶性脑瘤放化疗2018年,来自MITMediaLab的研究人员开发出了一个新型人工智能模型,将强化学习应用到现有的给药方案上,反复调整胶质母细胞瘤患者化疗和放疗的药物剂量,在缩小肿瘤的同时找到尽可能最小的给药剂量和频率,最终发现最佳治疗方案,改善患者生活质量Refer:/cancer/article/6797图像修复图像修复是指恢复图像损失的部分并基于背景信息将它们重建的技术CVPR2018上商汤科技发表了一篇论文《CraftingaToolchainforImageRestorationbyDeepReinforcementLearning》,提出了基于深度强化学习的RL-Restore算法,解决具有复杂混合失真的图像复原问题Refer:/TextTranslation/1564强化推荐在静态场景之下,用户的行为特征在与系统的交互过程中保持稳定不变一类有代表性的工作是基于上下文多臂老虎机的推荐系统,它的发展为克服推荐场景中的冷启动问题提供了行之有效的解决方案AlphaGo2016年,谷歌的AlphaGo利用CNN模型战胜李世乭,首次在围棋项目中战胜人类顶尖棋手AlphaGo的完全自我博弈加强版AlphaZero——一个从零开始自学国际象棋、将棋和围棋的系统,它最终在这三个领域都打败了世界最顶尖的程序:4小时就打败了国际象棋的最强程序Stockfish!2小时就打败了日本将棋的最强程序Elmo!8小时就打败了与李世乭对战的AlphaGov18!AlphaStar2018年1月25日,谷歌旗下DeepMind开发的人工智能(AI)程序AlphaStar完成《星际争霸2》的首秀首选通过上百万份玩家天梯录像自我学习,然后进入互相训练赛模式进行学习2018年12月,AlphaStar先后击败了DeepMind公司里的最强玩家DaniYogatama以及职业玩家TLO和MaNa第二章Bandit问题

目录

Bandit问题多臂老虎机问题(Multi-ArmedBandit,MAB)

多臂老虎机问题是退化的MDP

多臂老虎机问题(Multi-ArmedBandit)

如何使累积奖励最大?满足伯努利分布:只取0(吐出硬币)或1(未吐出硬币)简单策略

摇臂编号10.720.530.240.150.8最佳操作是选择第5个摇臂期望奖励估计表简单策略的缺点

贪心策略(greedy)

摇臂编号10.720.530.240.150.8摇臂编号10.720.530.240.150.82期望奖励估计表进行第1次游戏选择5号摇臂进行操作,得到1枚硬币

期望奖励估计表贪心策略的缺点总是选择当前概率最大的摇臂进行操作,而真正中奖概率高的摇臂可能是那些当前估计概率低的摇臂!在有限游戏次数下,是坚持在当前中奖概率高的摇臂下操作(利用),还是尝试别的摇臂(探索)呢?如何在探索和利用之间进行平衡,称为探索利用困境(exploration-exploitationdilemma)探索与利用平衡生活中的探索与利用去经常光顾的咖啡馆喝咖啡(利用)尝试去其它咖啡馆,或许会喝到更喜欢的咖啡(探索)在MAB问题基础上增加状态的ContextualBandit问题经常被用于广告推荐Agent不断选择商品推送给顾客,并通过反馈判断其喜欢什么商品只有通过不断试验,才能逐步了解顾客,推送准确的商品但这个过程中,如果推送了顾客不喜欢的产品,必然会造成经济损失Refer:/news/201704/c9wvaAoGb39f8OBt.html生活中的探索与利用临床试验利用:试验期间尽可能有效地治疗患者探索:通过研究确定最佳治疗方法在线广告利用:坚持至今效果最好的广告探索:目标是使用点击率收集有关广告效果的信息生活中的探索与利用探索利用困境强化学习中,经常会考虑另外一种设定,即先将Agent在特定的环境上训练好,然后再考察它的效果例如要训练一个玩游戏的Agent,可以先用它在电脑上训练很多轮,然后再看它能达到何种性能唯一目标是在训练完毕之后它能拿出足够好的表现而其在训练中的表现是完全不重要的!这样的话,还需不需要exploitation?有监督学习与强化学习的区别有监督学习中,训练与测试必须严格分开,而评价算法的标准必须是测试误差而非训练误差强化学习中,直接针对未知环境学习最佳策略,训练与测试都是在同一个环境进行,训练误差与测试误差不必严格分开需要结合现实中的具体情况,去定义问题是“边训练边测试”还是“先训练后测试”算法的成本任何的算法都要考虑成本在“先训练后测试”的情形下,所考虑的成本主要是用到了多少数据例如在训练玩游戏的Agent时,训练的成本是它训练的轮数,而不是训练时它的表现在“边训练边测试”的情形下,所考虑的成本不只是数据的成本,也和数据的内容有关例如在多臂老虎机问题中,训练的主要成本是损失的金币玩多臂老虎机的时候,究竟是否需要考虑赢输金币的多少?关键要确定目标!重新定义MAB问题

重新定义MAB问题在前50次模拟中,得出如下估计结果:接下来还应该认为各个摇臂都有相同可能是最佳摇臂吗应该认为第1、2、5号摇臂更有可能是最佳摇臂摇臂编号实验次数10.71020.51030.21040.11050.810将接下来50次试验的机会平均分配给第1、2、5号摇臂,得到如下结果:上述结果可以认为,第1和第5两个摇臂更可能是最佳摇臂重新定义MAB问题摇臂编号实验次数10.762720.582630.21040.11050.7827重新定义MAB问题将最后50次试验机会平均分配给第1和第5号摇臂,得到如下结果:根据右表的结果可以认为,

第5号摇臂更可能是最佳摇臂!摇臂编号实验次数10.755220.582630.21040.11050.7952

利用的意义

反映了exploitation的基本思想利用的意义

探索与利用

探索和利用

探索率的选择如果将其设计得太高(即更倾向于“探索”)会导致较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论