版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 signal
observation&reward
RealworldenvironmentAgent historyinfo
simulatorEachtimesteptAgentanaction𝑎𝑡Worldupdatesgivenactionat,emitsobservationandAgentreceivesobservationandUseexperiencetoguidefuturedecisions(exploit)signal
observation&reward
RealworldenvironmentAgent historyinfo
simulatorHistoryℎ𝑡=(𝑎1,...,𝑎𝑡,𝑜𝑡,AgentchoosesactionbasedonhistoryisinformationassumedtodeterminewhathappensnextFunctionhistory=(ℎ𝑡)Stateisifandonlyif p(𝑠𝑡+1|,𝑎𝑡)=p(𝑠𝑡+1|ℎ𝑡,𝑎𝑡)Goalselectactionstomaximizetotalexpectedfuturerewardbalancingimmediate&long-termrewardsπdetermineshowtheagentchoosesactionsDeterministicpolicyStochasticpolicyfunctionexpecteddiscountedsumfuturerewardsunderapolicyπ initializeenvPolicymodelinitializeenvPolicymodelinitializepolicyPolicyinferenceinitializepolicyRolloutdataRolloutdataPolicyupdateUpdatepolicyUpdatepolicyHessel,Matteo,etal."Rainbow:Combiningimprovementsindeepreinforcementlearning."——给PPO带来真正的性能上提升以及将policy约束在trustregion内的效果,都不是通过PPO论文中提出的对新的policy和原policy的比值进行裁切(clip)带来的,而是通过code-level的一些技巧带来的。Engstrom,Logan,etal."Implementationmattersindeeppolicygradients:AcasestudyonPPOandTRPO."Liang,Eric,etal."Rayrllib:Acomposableandscalablereinforcementlearninglibrary."Liang,Eric,etal."Rayrllib:Acomposableandscalablereinforcementlearninglibrary."新算法新算法新架构 难以复用的强化学习代码
可扩展性的强化学习框架 TrainingDataMLModelTrainingDataMLModelTrainingsignalθ
observation&reward
RealworldenvironmentAgent historyinfo
simulator面临的问题面临的问题新的需求Horgan,Dan,etal."Distributedprioritizedexperiencereplay."可能传输大量的数据可能传输大量的数据GPUCPU面临的问题面临的问题可能的解决方案 通用的RL算法针对Env开发支持分布式Star数目RepoACME+Reverb2.1k/deepmind/acmeELF2k/facebookresearch/ELFRay+RLlib16.4k/ray-project/rayGym24.5k/openai/gymBaselines11.6k/openai/baselinesTorchBeast553/facebookresearch/torchbeastSeedRL617/google-research/seed_rlTianshuo?3.2k/thu-ml/tianshouKeras-RL5.1k/keras-rl/keras-rlRayisafastandsimpleframeworkforbuildingandrunningdistributedapplications./ray-project/ray Rayisafastandsimpleframeworkforbuildingandrunningdistributedapplications.AprocessexecutingtheuserprogramAstatelessprocessthatexecutesremotefunctionsinvokedbyadriverAstatefulprocessthatexecutesDistributedobjectIn-memorydistributedstoragetostoretheinputs/outputs,orstatelesscomputation.ImplementtheobjectstoreviasharedmemoryUseApacheArrowasdataformatsDistributedschedulerSubmittedfirsttolocalschedulerGlobalschedulerconsiderseachloadandconstraintstoschedulingdecisionsGlobalControlAkey-valuestorewithpub-subfunctionalityRLlibisanopen-sourcelibraryforreinforcementlearningthatoffersbothhighscalabilityandaunifiedAPIforavarietyofapplications.RayRayRLlib/ray-project/ray/tree/master/rllib distributedschedulerisanaturalfitforthehierarchicalcontrolmodel,asnestedcomputationcanbeimplementedinRaywithnocentraltaskschedulingbottleneck.Hierarchicalcontrol Actors/Workers RunscriptRemotedecoratorforruninremote InitrayRemotedecoratorforruninremoteInitrayExecutethetrainerandactorinremoteExecutethetrainerandactorinremoteStartthreadforasyncStartthreadforasynctrainingsignal
observation&reward
RealworldenvironmentAgent historyinfo
simulatorPolicyGraphPolicyModelPolicyOptimizerPolicyGraphPolicyModelPolicyOptimizerThepolicyoptimizerisresponsiblefortheperformance-criticaltasksofdistributedsampling,parameterupdates,andmanagingPolicyGraphPolicyModelPolicyOptimizerPseudocodeforfourRLlibpolicyoptimizerstepmethods.Eachstep()operatesalocalpolicygraphandarrayofremoteevaluatorreplicas. Serializationanddeserializationarebottlenecksinparallelanddistributedcomputing,especiallyinmachinelearningapplicationswithlargeobjectsandlargequantitiesofdata.Goalsefficientwithlargenumericaldata(e.g.NumpyandPandasdataframes)AsasPicklePythontypesCompatiblewithsharedmemory(allowingmultipleprocessestousethesamewithoutcopyingit)Deserializationshouldbeextremelylanguageindependent Makingdeserializationfastisimportant.AnobjectmaybeserializedonceandthendeserializedmanytimesAcommonpatternisformanyobjectstobeserializedinparallelandthenaggregatedanddeserializedoneatatimeonasingleworkermakingdeserializationthebottleneckDeserializationisfastandbarelyvisibleUsingonlytheschema,cancomputetheoffsetseachvalueinthedatablobwithoutscanningthroughthedatablob(unlikePickle,thisiswhatenablesfastdeserialization)copyingorotherwiseconvertinglargearraysandothervaluesduringdeserializat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北省十堰市高中消防安全测试题十三(含答案)
- 黑龙江省鸡西市养老院消防安全测试题九(含答案)
- 江西省抚州市剧院消防安全测试题一(含答案)
- 湖南省张家界市剧院消防安全测试题七(含答案)
- Unit 2 Wildlife protection Reading and thinking Language Points 教案-2023-2024学年高中英语人教版(2019)必修第二册
- 年产5000吨黄酒(黑米黄酒)生产项目可行性研究报告-立项备案
- 护士的权利和义务
- 《固体材料使用自由空间法的电磁参数测量方法gbt+42741-2023》详细解读
- 小升初模拟测试卷(试题)-2023-2024学年六年级下册数学人教版
- 2023-2024年度车辆合同样本过户模板
- 老师怎样和学生说话
- GA/T 1218-2015实有人口基础信息数据项
- DB3401-T 272-2022《城区菜市场建设与管理规范》
- 国家开放大学电大《小学数学教学研究》网络课形考任务1题库及答案(试卷号:1825)
- 物业职业道德课件
- 印模操作步骤课件
- 无犯罪证明委托书模板
- 学前儿童安全教育全套课件
- 始祖鸟新员工基础知识考试(NEW)试题含答案
- 中西方绘画艺术比较课件
- 工具:幼儿发展评价内容纵横解读与观察点指引
评论
0/150
提交评论