第10章_强化学习

上传人：闯*** IP属地：广东上传时间：2020-04-26 格式：PPT 页数：90 大小：1.52MB 积分：25 举报 版权申诉

已阅读5页，还剩85页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2020/4/26,.,1,高级人工智能第十章,史忠植中国科学院计算技术研究所,强化学习,2020/4/26,.,2,内容提要,引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用,2020/4/26,.,3,引言,人类通常从与外界环境的交互中学习。所谓强化（reinforcement）学习是指从环境状态到行为映射的学习，以使系统行为从环境中获得的累积奖励值最大。在强化学习中，我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励。试错搜索(trial-and-errorsearch)和延期强化(delayedreinforcement)这两个特性是强化学习中两个最重要的特性。,2020/4/26,.,4,引言,强化学习技术是从控制理论、统计学、心理学等相关学科发展而来，最早可以追溯到巴甫洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用，并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一。,2020/4/26,.,5,引言,强化思想最先来源于心理学的研究。1911年Thorndike提出了效果律（LawofEffect）：一定情景下让动物感到舒服的行为，就会与此情景增强联系（强化），当此情景再现时，动物的这种行为也更易再现；相反，让动物感觉不舒服的行为，会减弱与情景的联系，此情景再现时，此行为将很难再现。换个说法，哪种行为会“记住”，会与刺激建立联系，取决于行为产生的效果。动物的试错学习,包含两个含义：选择（selectional）和联系（associative），对应计算上的搜索和记忆。所以，1954年，Minsky在他的博士论文中实现了计算上的试错学习。同年，Farley和Clark也在计算上对它进行了研究。强化学习一词最早出现于科技文献是1961年Minsky的论文“StepsTowardArtificialIntelligence”，此后开始广泛使用。1969年，Minsky因在人工智能方面的贡献而获得计算机图灵奖。,2020/4/26,.,6,引言,1953到1957年，Bellman提出了求解最优控制问题的一个有效方法：动态规划（dynamicprogramming）Bellman于1957年还提出了最优控制问题的随机离散版本，就是著名的马尔可夫决策过程（MDP,Markovdecisionprocesse），1960年Howard提出马尔可夫决策过程的策略迭代方法，这些都成为现代强化学习的理论基础。1972年，Klopf把试错学习和时序差分结合在一起。1978年开始，Sutton、Barto、Moore，包括Klopf等对这两者结合开始进行深入研究。1989年Watkins提出了Q-学习Watkins1989，也把强化学习的三条主线扭在了一起。1992年，Tesauro用强化学习成功了应用到西洋双陆棋（backgammon）中，称为TD-Gammon。,2020/4/26,.,7,内容提要,引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用,2020/4/26,.,8,主体,强化学习模型,i:inputr:rewards:state,a:action,状态si,si+1,ri+1,奖励ri,环境,动作ai,2020/4/26,.,9,描述一个环境（问题）,Accessiblevs.inaccessibleDeterministicvs.non-deterministicEpisodicvs.non-episodicStaticvs.dynamicDiscretevs.continuous,Themostcomplexgeneralclassofenvironmentsareinaccessible,non-deterministic,non-episodic,dynamic,andcontinuous.,2020/4/26,.,10,强化学习问题,Agent-environmentinteractionStates,Actions,RewardsTodefineafiniteMDPstateandactionsets:SandAone-step“dynamics”definedbytransitionprobabilities(MarkovProperty):rewardprobabilities:,2020/4/26,.,11,与监督学习对比,ReinforcementLearningLearnfrominteractionlearnfromitsownexperience,andtheobjectiveistogetasmuchrewardaspossible.Thelearnerisnottoldwhichactionstotake,butinsteadmustdiscoverwhichactionsyieldthemostrewardbytryingthem.,RLSystem,Inputs,Outputs(“actions”),TrainingInfo=evaluations(“rewards”/“penalties”),SupervisedLearningLearnfromexamplesprovidedbyaknowledgableexternalsupervisor.,2020/4/26,.,12,强化学习要素,Policy:stochasticruleforselectingactionsReturn/Reward:thefunctionoffuturerewardsagenttriestomaximizeValue:whatisgoodbecauseitpredictsrewardModel:whatfollowswhat,Isunknown,Ismygoal,IsIcanget,Ismymethod,2020/4/26,.,13,在策略下的Bellman公式,Thebasicidea:,So:,Or,withouttheexpectationoperator:,isthediscountrate,2020/4/26,.,14,Bellman最优策略公式,其中：V*：状态值映射S：环境状态R：奖励函数P：状态转移概率函数：折扣因子,2020/4/26,.,15,马尔可夫决策过程MARKOVDECISIONPROCESS,由四元组定义。环境状态集S系统行为集合A奖励函数R：SA状态转移函数P：SAPD（S）记R（s，a，s）为系统在状态s采用a动作使环境状态转移到s获得的瞬时奖励值；记P（s，a，s）为系统在状态s采用a动作使环境状态转移到s的概率。,2020/4/26,.,16,马尔可夫决策过程MARKOVDECISIONPROCESS,马尔可夫决策过程的本质是：当前状态向下一状态转移的概率和奖励值只取决于当前状态和选择的动作，而与历史状态和历史动作无关。因此在已知状态转移概率函数P和奖励函数R的环境模型知识下，可以采用动态规划技术求解最优策略。而强化学习着重研究在P函数和R函数未知的情况下，系统如何学习最优行为策略。,2020/4/26,.,17,MARKOVDECISIONPROCESS,CharacteristicsofMDP:asetofstates:Sasetofactions:Aarewardfunction:R:SxARAstatetransitionfunction:T:SxA(S)T(s,a,s):probabilityoftransitionfromstosusingactiona,2020/4/26,.,18,马尔可夫决策过程MARKOVDECISIONPROCESS,2020/4/26,.,19,MDPEXAMPLE:,Transitionfunction,Statesandrewards,BellmanEquation:,(Greedypolicyselection),2020/4/26,.,20,MDPGraphicalRepresentation,:T(s,action,s),SimilaritytoHiddenMarkovModels(HMMs),2020/4/26,.,21,ReinforcementLearning,DeterministictransitionsStochastictransitions,istheprobabilitytoreachingstatejwhentakingactionainstatei,Asimpleenvironmentthatpresentstheagentwithasequentialdecisionproblem:,Movecost=0.04,(Temporal)creditassignmentproblemsparsereinforcementproblemOfflinealg:actionsequencesdeterminedexanteOnlinealg:actionsequencesisconditionalonobservationsalongtheway;Importantinstochasticenvironment(e.g.jetflying),2020/4/26,.,22,ReinforcementLearning,M=0.8indirectionyouwanttogo0.2inperpendicular,Policy:mappingfromstatestoactions,Anoptimalpolicyforthestochasticenvironment:,utilitiesofstates:,Markovproperty:Transitionprobabilitiesdependonstateonly,notonthepathtothestate.Markovdecisionproblem(MDP).PartiallyobservableMDP(POMDP):perceptsdoesnothaveenoughinfotoidentifytransitionprobabilities.,2020/4/26,.,23,动态规划DynamicProgramming,动态规划(dynamicprogramming)的方法通过从后继状态回溯到前驱状态来计算赋值函数。动态规划的方法基于下一个状态分布的模型来接连的更新状态。强化学习的动态规划的方法是基于这样一个事实：对任何策略和任何状态s，有(10.9)式迭代的一致的等式成立,(as)是给定在随机策略下状态s时动作a的概率。(ssa)是在动作a下状态s转到状态s的概率。这就是对V的Bellman(1957)等式。,2020/4/26,.,24,动态规划DynamicProgramming-Problem,Adiscrete-timedynamicsystemStates1,n+terminationstate0ControlU(i)TransitionProbabilitypij(u)AccumulativecoststructurePolicies,2020/4/26,.,25,FiniteHorizonProblemInfiniteHorizonProblemValueIteration,动态规划DynamicProgrammingIterativeSolution,2020/4/26,.,26,动态规划中的策略迭代/值迭代,PolicyIteration,ValueIteration,2020/4/26,.,27,动态规划方法,2020/4/26,.,28,自适应动态规划(ADP),Idea:usetheconstraints(statetransitionprobabilities)betweenstatestospeedlearning.Solve,=valuedetermination.Nomaximizationoveractionsbecauseagentispassiveunlikeinvalueiteration.,usingDP,Largestatespacee.g.Backgammon:1050equationsin1050variables,2020/4/26,.,29,ValueIterationAlgorithm,ANALTERNATIVEITERATION:(Singh,1993),(Importantformodelfreelearning),StopIterationwhenV(s)differslessthan.Policydifferenceratio=0(Assumptionofexploringstarts),蒙特卡罗方法,2020/4/26,.,38,蒙特卡罗控制,HowtoselectPolicies:(Similartopolicyevaluation),MCpolicyiteration:PolicyevaluationusingMCmethodsfollowedbypolicyimprovementPolicyimprovementstep:greedifywithrespecttovalue(oraction-value)function,2020/4/26,.,39,时序差分学习Temporal-Difference,时序差分学习中没有环境模型，根据经验学习。每步进行迭代，不需要等任务完成。预测模型的控制算法，根据历史信息判断将来的输入和输出，强调模型的函数而非模型的结构。时序差分方法和蒙特卡罗方法类似，仍然采样一次学习循环中获得的瞬时奖惩反馈，但同时类似与动态规划方法采用自举方法估计状态的值函数。然后通过多次迭代学习，去逼近真实的状态值函数。,2020/4/26,.,40,时序差分学习TD,2020/4/26,.,41,时序差分学习Temporal-Difference,target:theactualreturnaftertimet,target:anestimateofthereturn,2020/4/26,.,42,时序差分学习(TD),Idea:DoADPbackupsonapermovebasis,notforthewholestatespace.,Theorem:AveragevalueofU(i)convergestothecorrectvalue.,Theorem:Ifisappropriatelydecreasedasafunctionoftimesastateisvisited(=Ni),thenU(i)itselfconvergestothecorrectvalue,2020/4/26,.,43,TD(l)AForwardView,TD(l)isamethodforaveragingalln-stepbackupsweightbyln-1(timesincevisitation)l-return:Backupusingl-return:,2020/4/26,.,44,时序差分学习算法TD(),Idea:updatefromthewholeepoch,notjustonstatetransition.,Specialcases:=1:Least-mean-square(LMS),MontCarlo=0:TDIntermediatechoiceof(between0and1)isbest.Interplaywith,2020/4/26,.,45,时序差分学习算法TD(),算法10.1TD(0)学习算法InitializeV(s)arbitrarily,tothepolicytobeevaluatedRepeat(foreachepisode)InitializesRepeat(foreachstepofepisode)ChooseafromsusingpolicyderivedfromV(e.g.,-greedy)Takeactiona,observerr,sUntilsisterminal,2020/4/26,.,46,时序差分学习算法,2020/4/26,.,47,时序差分学习算法收敛性TD(),Theorem:Convergesw.p.1undercertainboundariesconditions.Decreasei(t)s.t.,Inpractice,oftenafixedisusedforalliandt.,2020/4/26,.,48,时序差分学习TD,2020/4/26,.,49,Q-learning,Watkins,1989在Q学习中，回溯从动作结点开始，最大化下一个状态的所有可能动作和它们的奖励。在完全递归定义的Q学习中，回溯树的底部结点一个从根结点开始的动作和它们的后继动作的奖励的序列可以到达的所有终端结点。联机的Q学习，从可能的动作向前扩展，不需要建立一个完全的世界模型。Q学习还可以脱机执行。我们可以看到，Q学习是一种时序差分的方法。,2020/4/26,.,50,Q-learning,在Q学习中，Q是状态-动作对到学习到的值的一个函数。对所有的状态和动作：Q:(statexaction)value对Q学习中的一步：,(10.15),其中c和都1，rt+1是状态st+1的奖励。,2020/4/26,.,51,Q-Learning,EstimatetheQ-functionusingsomeapproximator(forexample,linearregressionorneuralnetworksordecisiontreesetc.).DerivetheestimatedpolicyasanargumentofthemaximumoftheestimatedQ-function.Allowdifferentparametervectorsatdifferenttimepoints.Letusillustratethealgorithmwithlinearregressionastheapproximator,andofcourse,squarederrorastheappropriatelossfunction.,2020/4/26,.,52,Q-learning,2020/4/26,.,53,Exploration,Tradeoffbetweenexploitation(control)andexploration(identification),Extremes:greedyvs.randomacting(n-armedbanditmodels)Q-learningconvergestooptimalQ-valuesif*Everystateisvisitedinfinitelyoften(duetoexploration),*Theactionselectionbecomesgreedyastimeapproachesinfinity,and*Thelearningrateaisdecreasedfastenoughbutnottoofast(aswediscussedinTDlearning),2020/4/26,.,54,Commonexplorationmethods,InvalueiterationinanADPagent:OptimisticestimateofutilityU+(i)-greedymethodNongreedyactionsGreedyactionBoltzmannexploration,2020/4/26,.,55,Q-LearningAlgorithm,Q学习算法InitializeQ(s,a)arbitrarilyRepeat(foreachepisode)InitializesRepeat(foreachstepofepisode)ChooseafromsusingpolicyderivedfromQ(e.g.,-greedy)Takeactiona,observerr,sUntilsisterminal,2020/4/26,.,56,Q-LearningAlgorithm,SetForTheestimatedpolicysatisfies,2020/4/26,.,57,Whatistheintuition?,BellmanequationgivesIfandthetrainingsetwereinfinite,thenQ-learningminimizeswhichisequivalenttominimizing,2020/4/26,.,58,A-Learning,Murphy,2003andRobins,2004EstimatetheA-function(advantages)usingsomeapproximator,asinQ-learning.DerivetheestimatedpolicyasanargumentofthemaximumoftheestimatedA-function.Allowdifferentparametervectorsatdifferenttimepoints.Letusillustratethealgorithmwithlinearregressionastheapproximator,andofcourse,squarederrorastheappropriatelossfunction.,2020/4/26,.,59,A-LearningAlgorithm(InefficientVersion),ForTheestimatedpolicysatisfies,2020/4/26,.,60,DifferencesbetweenQandA-learning,Q-learningAttimetwemodelthemaineffectsofthehistory,(St,At-1)andtheactionAtandtheirinteractionOurYt-1isaffectedbyhowwemodeledthemaineffectofthehistoryintimet,(St,At-1)A-learningAttimetweonlymodeltheeffectsofAtanditsinteractionwith(St,At-1)OurYt-1doesnotdependonamodelofthemaineffectofthehistoryintimet,(St,At-1),2020/4/26,.,61,Q-LearningVs.A-Learning,Relativemeritsanddemeritsarenotcompletelyknowntillnow.Q-learninghaslowvariancebuthighbias.A-learninghashighvariancebutlowbias.ComparisonofQ-learningwithA-learninginvolvesabias-variancetrade-off.,2020/4/26,.,62,POMDP部分感知马氏决策过程,Ratherthanobservingthestateweobservesomefunctionofthestate.ObObservablefunctionarandomvariableforeachstates.Problem:differentstatesmaylooksimilar,Theoptimalstrategymightneedtoconsiderthehistory.,2020/4/26,.,63,FrameworkofPOMDP,POMDP由六元组定义。其中定义了环境潜在的马尔可夫决策模型上，是观察的集合，即系统可以感知的世界状态集合，观察函数：SAPD（）。系统在采取动作a转移到状态s时，观察函数确定其在可能观察上的概率分布。记为（s,a,o）。,1可以是S的子集，也可以与S无关,2020/4/26,.,64,POMDPs,Whatifstateinformation(fromsensors)isnoisy?Mostlythecase!,MDPtechniquesaresuboptimal!Twohallsarenotthesame.,2020/4/26,.,65,POMDPsASolutionStrategy,SE:BeliefStateEstimator(CanbebasedonHMM):MDPTechniques,2020/4/26,.,66,POMDP_信度状态方法,Idea:Givenahistoryofactionsandobservablevalue,wecomputeaposteriordistributionforthestatewearein(beliefstate)Thebelief-stateMDPStates:distributionoverS(statesofthePOMDP)Actions:asinPOMDPTransition:theposteriordistribution(giventheobservation),OpenProblem:Howtodealwiththecontinuousdistribution?,2020/4/26,.,67,TheLearningProcessofBeliefMDP,2020/4/26,.,68,MajorMethodstoSolvePOMDP,2020/4/26,.,69,强化学习中的函数估计,Generalizationofthevaluefunctiontotheentirestatespace,istheTDoperator.,isthefunctionapproximationoperator.,2020/4/26,.,70,并行两个迭代过程,值函数迭代过程值函数逼近过程,HowtoconstructtheMfunction?Usingstatecluster,interpolation,decisiontreeorneuralnetwork?,2020/4/26,.,71,FunctionApproximator:V(s)=f(s,w)Update:Gradient-descentSarsa:ww+art+1+gQ(st+1,at+1)-Q(st,at)wf(st,at,w),weightvector,Standardgradient,targetvalue,estimatedvalue,OpenProblem:Howtodesignthenon-linerFAsystemwhichcanconvergewiththeincrementalinstances?,并行两个迭代过程,2020/4/26,.,72,Semi-MDP,2020/4/26,.,73,Theequations,2020/4/26,.,74,Multi-agentMDP,DistributedRLMarkovGameBestResponse,Environment,action,state,reward,RLAgent,RLAgent,2020/4/26,.,75,三种观点,2020/4/26,.,76,马尔可夫对策,在n个agent的系统中，定义离散的状态集S（即对策集合G），agent动作集Ai的集合A,联合奖赏函数Ri：SA1An和状态转移函数P：SA1AnPD（S）。,2020/4/26,.,77,基于平衡解方法的强化学习,OpenProblem:Nashequilibriumorotherequilibriumisenough?,TheoptimalpolicyinsinglegameisNashequilibrium.,2020/4/26,.,78,ApplicationsofRL,CheckersSamuel59TD-GammonTesauro92WorldsbestdownpeakelevatordispatcherCritesatal95InventorymanagementBertsekasetal9510-15%betterthanindustrystandardDynamicchannelassignmentSingh&Bertsekas,Nie&Haykin95OutperformsbestheuristicsintheliteratureCart-poleMichie&Chambers68-withbang-bangcontrolRoboticmanipulationGrupenetal.93-PathplanningRobotdockingLin93ParkingFootballStone98TetrisMultiagentRLTan93,Sandholm&Crites95,Sen94-,Carmel&Markovitch95-,lotsofworksinceCombinatorialoptimization:maintenance&repairControlofreasoningZhang&DietterichIJCAI-95,2020/4/26,.,79,仿真机器人足球,应用Q学习算法进行仿真机器人足球2对1训练，训练的目的是试图使主体学习获得到一种战略上的意识，能够在进攻中进行配合,2020/4/26,.,80,仿真机器人足球,前锋A控球，并且在可射门的区域内，但是A已经没有射门角度了；队友B也处于射门区域，并且B具有良好的射门角度。A传球给B，射门由B来完成，那么这次进攻配合就会很成功。通过Q学习的方法来进行2对1的射门训练，让A掌握在这种状态情况下传球给B的动作是最优的策略；主体通过大量的学习训练（大数量级的状态量和重复相同状态）来获得策略，因此更具有适应性。,2020/4/26,.,81,仿真机器人足球,状态描述，将进攻禁区划分为个小区域，每个小区域是边长为2m的正方形，一个二维数组()便可描述这个区域。使用三个Agent的位置来描述2对1进攻时的环境状态，利用图10.11所示的划分来泛化状态。可认为主体位于同一战略区域为相似状态，这样对状态的描述虽然不精确，但设计所需的是一种战略层次的描述，可认为Agent在战略区域内是积极跑动的，这种方法满足了需求。如此，便描述了一个特定的状态；其中，是进攻队员A的区域编号，是进攻队员B的区域编号，是守门员的区域编号。区域编号计算公式为：。相应的，所保存的状态值为三个区域编号组成的对。前锋A控球，并且在可射门的区域内，但是A已经没有射门角度了；队友B也处于射门区域，并且B具有良好的射门角度。A传球给B，射门由B来完成，那么这次进攻配合就会很成功。通过Q学习的方法来进行2对1的射门训练，让A掌握在这种状态情况下传球给B的动作是最优的策略；主体通过大量的学习训练（大数量级的状态量和重复相同状态）来获得策略，因此更具有适应性。,2020/4/26,.,82,仿真机器人足球,可选动作集确定为Shoot的策略通过基于概率的射门训练的学习来得到。Dribble的策略是，始终向受到威胁小，并且射门成功率高的区域带球。为了实现这一策略目标，可划分进攻区域为多个战略区，在每个战略区进行射门评价，记录每个区域的射门成功率。Pass策略很简单，只需在两个Agent间进行传球，即不需要选择球传送的对象，也不

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第10章_强化学习

文档简介

温馨提示

最新文档

评论

第10章_强化学习

文档简介

温馨提示

最新文档

评论

相关文档