强化学习：从理论迈向实际-聚焦Safe RL和Offline RL

上传人：1*** IP属地：山西上传时间：2025-05-06 格式：DOCX 页数：56 大小：5.69MB 积分：15 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

魏巍研究背景与意义研究背景与意义第一部分第二部分第三部分第四部分研究背景与意义强化学习的来源与两个领域密切相关：心理学中的动物学习和最优控制的优化理论。强化学习的来源与两个领域密切相关：心理学中的动物学习和最优控制的优化理论。1954年Minsky首次提出“强化”和“强化学习”的概念和术语。1965年在控制理论中Waltz和傅京孙也提出这一概lDQN(2015-Nature)lPPO(2017-ML)lTD3（2018-ICML）lQMIX(2018-ICML)l智能对战(围棋等)l机器人控制（mujoco等）l街机游戏(atari等)l角色扮演游戏(RLCraft等)l多智能体游戏（MPE、SMAC等）！！！l股票交易策略l风险管理l个性化治疗ll股票交易策略l风险管理l个性化治疗l药物发现l无人机空战l军事推演l运动控制l路径规划l交通管理l生产优化l设备维护从理论迈向实际的挑战高性能样本效率安全约束Sim2Real离线策略高性能样本效率安全约束Sim2Real从理论迈向实际的挑战高性能样本效率安全约束Sim2Real离线策略高性能样本效率安全约束Sim2Real【1970ManagementScience】【2017ICML】CPO【1970ManagementScience】【2017ICML】CPO【2021AAAI】【2021AAAI】【2015JMLR】北大研究团队满足安全约束且保证联合性能提具有独立的研究问题、研究内容、研究方法以具有独立的研究问题、研究内容、研究方法以一般取零或者正数•risk-neutral：风险中性，取期望，即总结不确定结果的结果来总结了不确定的结果（风险零容忍）小的结果（风险最小化）状态的部分可观测st一般取零或者正数•risk-neutral：风险中性，取期望，即总结不确定结果的结果来总结了不确定的结果（风险零容忍）小的结果（风险最小化）状态的部分可观测st≠ot•平稳环境：部分可观测、不确定问题，环境存在潜在MDP，但由于智能体感知能力有限（感知范围、观测噪声）无法获得完整、准确的环境信息信念例如环境中其它智能体也在更新策略，只有通过通信等方式获取它们当面对复杂噪声环境时，现有强化学习方法在学习信念状态的的概率描述，无法提供一个包含隐藏状态的有界区创新点引入了集员滤波，设计了一种集员信念状态学习方法，并提出了基于集员信念状态的强化学习算法(S主要贡献状态估计模型构建输入t时刻的观测值ot和观测噪声的形状矩阵M，得出（求解半定规划问题）包含真实状态的中心值t和形状矩阵pt输入t1时刻的状态的中心值t-1和形状矩阵pt-1，基于预测模型得出预测状态的中心值t/(t-1)和形状矩阵pt/(t-1)整体流程图整体流程图MountainHikeTask任务上的实验结果WeiWei,LijunZhang,LinLi,HuizhongSong,JiyeLiang*.Set-membershipBeliefState-basedReinforcementLearningforPOMDPs.ICML2023.创新点主要贡献在基准任务上验证了该方法的有效性，验证了局部交互的去中心化解决思路：引入空间指数衰减解决思路：引入空间指数衰减假设，基克服安全约束引起的全局耦合和“状态-克服安全约束引起的全局耦合和“状态-动作”空间大小的指数增长对方法应用的限制？基于这些假设，量化截断优势函数的信息损失结合优势截断界、置信域方法界，分析局部依赖的性能下界和安全约束边界给出局部依赖策略的性能基于动力学和策略的空间相关性假设，结合截断优势函数界和置信区域方法界，获得了证明了所提方法可满足安全约相比于IPPO和HAPPO，安全学习方法Scal-MAPPO-L（一半的通信）和MAPPO-L均获取了更高的性能且具有更少的约束违背；当k>2时，算法展现出了与MAPPO-L(集中式算法)相近的性能。LijunZhang,LinLi,WeiWei*,HuizhongSong,YaodongYangOptimizationforSafeMulti-agentReinforcementLearning.NeurIPS2024.离线强化学习面临的基本挑战之一是分布偏移(Distributionshift)离线强化学习面临的基本挑战之一是分布偏移(Distributionshift)4.不确定性度量(Uncertainty-base将学习策略约束到行为策略的一定范围内新视角：域自适应新视角：域自适应延伸至表征更加全面的多个潜在分布Qi,H.,Su,Y.,Kumar,A.,andLevine,S.Datad现有方法大多显式地为OOD动作划分边界，这对边界附近的创新点提出了一种能够直接从经验数据中自适应提取知识来隐式地泛化到邻近的未知状态-动作对的方法。我们软化了这具体实现：对抗数据划分框架对于所有train/val划分下的Dv都约束：先在训练子集Dt上学一个好的初始参数理论分析推导了一般性的基于元学习框架的offlineRL泛除了常数C，我们的方法隐式地减小了第一项，增大了第二项，因此方法的有效性具有理论综合表现最优Convergence.Runtime.DaWang,LinLi,WeiWei*,QixianYu,JianyeHao,JiyeLiang.ImprovingGeneralizationinOfflineReinforcementLearningviaAdversarialDataSplitting.ICML2024.第四部分梁吉业教授魏巍教授游秀副教授李琳博士李风娇博士马亿博士梁吉业教授魏巍教授王达张钰嘉张利军吴建国宋慧忠亓雅杰冯宇轩博士生博士生

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

强化学习：从理论迈向实际-聚焦Safe RL和Offline RL

文档简介

温馨提示

最新文档

评论

强化学习：从理论迈向实际-聚焦Safe RL和Offline RL

文档简介

温馨提示

最新文档

评论

相关文档