版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 signal
observation&reward
RealworldenvironmentAgent historyinfo
simulatorEachtimesteptAgentanaction𝑎𝑡Worldupdatesgivenactionat,emitsobservationandAgentreceivesobservationandUseexperiencetoguidefuturedecisions(exploit)signal
observation&reward
RealworldenvironmentAgent historyinfo
simulatorHistoryℎ𝑡=(𝑎1,...,𝑎𝑡,𝑜𝑡,AgentchoosesactionbasedonhistoryisinformationassumedtodeterminewhathappensnextFunctionhistory=(ℎ𝑡)Stateisifandonlyif p(𝑠𝑡+1|,𝑎𝑡)=p(𝑠𝑡+1|ℎ𝑡,𝑎𝑡)Goalselectactionstomaximizetotalexpectedfuturerewardbalancingimmediate&long-termrewardsπdetermineshowtheagentchoosesactionsDeterministicpolicyStochasticpolicyfunctionexpecteddiscountedsumfuturerewardsunderapolicyπ initializeenvPolicymodelinitializeenvPolicymodelinitializepolicyPolicyinferenceinitializepolicyRolloutdataRolloutdataPolicyupdateUpdatepolicyUpdatepolicyHessel,Matteo,etal."Rainbow:Combiningimprovementsindeepreinforcementlearning."——给PPO带来真正的性能上提升以及将policy约束在trustregion内的效果,都不是通过PPO论文中提出的对新的policy和原policy的比值进行裁切(clip)带来的,而是通过code-level的一些技巧带来的。Engstrom,Logan,etal."Implementationmattersindeeppolicygradients:AcasestudyonPPOandTRPO."Liang,Eric,etal."Rayrllib:Acomposableandscalablereinforcementlearninglibrary."Liang,Eric,etal."Rayrllib:Acomposableandscalablereinforcementlearninglibrary."新算法新算法新架构 难以复用的强化学习代码
可扩展性的强化学习框架 TrainingDataMLModelTrainingDataMLModelTrainingsignalθ
observation&reward
RealworldenvironmentAgent historyinfo
simulator面临的问题面临的问题新的需求Horgan,Dan,etal."Distributedprioritizedexperiencereplay."可能传输大量的数据可能传输大量的数据GPUCPU面临的问题面临的问题可能的解决方案 通用的RL算法针对Env开发支持分布式Star数目RepoACME+Reverb2.1k/deepmind/acmeELF2k/facebookresearch/ELFRay+RLlib16.4k/ray-project/rayGym24.5k/openai/gymBaselines11.6k/openai/baselinesTorchBeast553/facebookresearch/torchbeastSeedRL617/google-research/seed_rlTianshuo?3.2k/thu-ml/tianshouKeras-RL5.1k/keras-rl/keras-rlRayisafastandsimpleframeworkforbuildingandrunningdistributedapplications./ray-project/ray Rayisafastandsimpleframeworkforbuildingandrunningdistributedapplications.AprocessexecutingtheuserprogramAstatelessprocessthatexecutesremotefunctionsinvokedbyadriverAstatefulprocessthatexecutesDistributedobjectIn-memorydistributedstoragetostoretheinputs/outputs,orstatelesscomputation.ImplementtheobjectstoreviasharedmemoryUseApacheArrowasdataformatsDistributedschedulerSubmittedfirsttolocalschedulerGlobalschedulerconsiderseachloadandconstraintstoschedulingdecisionsGlobalControlAkey-valuestorewithpub-subfunctionalityRLlibisanopen-sourcelibraryforreinforcementlearningthatoffersbothhighscalabilityandaunifiedAPIforavarietyofapplications.RayRayRLlib/ray-project/ray/tree/master/rllib distributedschedulerisanaturalfitforthehierarchicalcontrolmodel,asnestedcomputationcanbeimplementedinRaywithnocentraltaskschedulingbottleneck.Hierarchicalcontrol Actors/Workers RunscriptRemotedecoratorforruninremote InitrayRemotedecoratorforruninremoteInitrayExecutethetrainerandactorinremoteExecutethetrainerandactorinremoteStartthreadforasyncStartthreadforasynctrainingsignal
observation&reward
RealworldenvironmentAgent historyinfo
simulatorPolicyGraphPolicyModelPolicyOptimizerPolicyGraphPolicyModelPolicyOptimizerThepolicyoptimizerisresponsiblefortheperformance-criticaltasksofdistributedsampling,parameterupdates,andmanagingPolicyGraphPolicyModelPolicyOptimizerPseudocodeforfourRLlibpolicyoptimizerstepmethods.Eachstep()operatesalocalpolicygraphandarrayofremoteevaluatorreplicas. Serializationanddeserializationarebottlenecksinparallelanddistributedcomputing,especiallyinmachinelearningapplicationswithlargeobjectsandlargequantitiesofdata.Goalsefficientwithlargenumericaldata(e.g.NumpyandPandasdataframes)AsasPicklePythontypesCompatiblewithsharedmemory(allowingmultipleprocessestousethesamewithoutcopyingit)Deserializationshouldbeextremelylanguageindependent Makingdeserializationfastisimportant.AnobjectmaybeserializedonceandthendeserializedmanytimesAcommonpatternisformanyobjectstobeserializedinparallelandthenaggregatedanddeserializedoneatatimeonasingleworkermakingdeserializationthebottleneckDeserializationisfastandbarelyvisibleUsingonlytheschema,cancomputetheoffsetseachvalueinthedatablobwithoutscanningthroughthedatablob(unlikePickle,thisiswhatenablesfastdeserialization)copyingorotherwiseconvertinglargearraysandothervaluesduringdeserializat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电商之道网店运营-知到答案、智慧树答案
- 大学体育与体质健康(山东联盟)2071965-知到答案、智慧树答案
- 构建适应性强的企业管控架构
- 江苏省南京市建邺区三校联合~2023-2024学年中考物理押题卷含解析
- 供应链网络优化策略
- 江苏省南京鼓楼实验中学2024年中考数学适应性模拟试题含解析
- 江苏省连云港市沙河中学2024年中考生物押题试卷含解析
- 小学生暑假社会实践心得体会6篇
- 大学生实习报告3篇
- 湖南省湘潭市县第十中学高一数学理知识点试题含解析
- 2022年高校和中职学校防控新冠肺炎疫情工作指南
- 黄色卡通家长会主题班会PPT模板
- 医院免疫室标准化操作程序免疫室内质量控制操作指南(ELISA)人民医院检验科免疫SOP人民医院质量管理体系
- 新部编人教版二年级下册语文第七单元试卷A卷-含答案
- 语文人教版八年级上册多文本阅读之古诗词托物言志
- 建设工程安全教育培训制度完整
- (部编版)六年级语文下册四字词语整理练习
- 西师大版二年级数学下册《6-7 整理与复习》教学课件PPT小学优秀公开课
- 《唱脸谱》说课稿5篇
- 价值观——职业价值观分类卡
- 人教版小学语文二年级《雷雨》PPT课件
评论
0/150
提交评论