下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文末送书如何使用深度强化学习算法解决实际问题在使用深度强化学习(DeepReinforcementLearning,DRL)算法解决实际问题的过程中,明确任务需求并初步完成问题定义后,就可以为相关任务选择合适的DRL算法了。以DeepMind的里程碑工作AlphaGo为起点,每年各大顶级会议DRL方向的论文层出不穷,新的DRL算法如雨后春笋般不断涌现,大有“乱花渐欲迷人眼”之势。然而,落地工作中的算法选择并不等同于在这个急剧膨胀的“工具箱”中做大海捞针式的一对一匹配,而是需要根据任务自身的特点从DRL算法本源出发进行由浅入深、粗中有细的筛选和迭代。在介绍具体方法之前,笔者先尝试按照自己的理解梳理近年来DRL领域的发展脉络。1DRL算法的发展脉络尽管DRL算法已经取得了长足进步,但笔者认为其尚未在理论层面取得质的突破,而只是在传统强化学习理论基础上引入深度神经网络,并做了一系列适配和增量式改进工作。总体上,DRL沿着Model-Based和Model-Free两大分支发展。前者利用已知环境模型或者对未知环境模型进行显式建模,并与前向搜索(LookAheadSearch)和轨迹优化(TrajectoryOptimization)等规划算法结合达到提升数据效率的目的。作为当前学术界的研究热点,Model-BasedDRL尚未在实践中得到广泛应用,这是由于现实任务的环境模型通常十分复杂,导致模型学习的难度很高,并且建模误差也会对策略造成负面影响。在笔者看来,任何Model-FreeDRL算法都可以解构为“基本原理—探索方式—样本管理—梯度计算”的四元核心组件。其中按照基本原理,Model-Free
DRL又存在两种不同的划分体系,即Value-Based和Policy-Based,以及Off-Policy和On-Policy。如图1所示,DQN、DDPG和A3C作为这两种彼此交织的划分体系下的经典算法框架,构成了DRL研究中的重要节点,后续提出的大部分新算法基本都是立足于这三种框架,针对其核心组件所进行的迭代优化或者拆分重组。图1
Model-FreeDRL的发展脉络和四元核心组件解构方法图1中几个关键术语的解释是:Off-Policy指算法中采样策略与待优化策略不同;On-Policy指采样策略与待优化策略相同或差异很小;Value-Based指算法直接学习状态-动作组合的值估计,没有独立策略;Policy-Based指算法具有独立策略,同时具备独立策略和值估计函数的算法又被称为Actor-Critic算法。关于上述Model-Free
DRL算法的四元核心组件,其中:基本原理层面依然进展缓慢,但却是DRL算法将来大规模推广的关键所在;探索方式的改进使DRL算法更充分地探索环境,以及更好地平衡探索和利用,从而有机会学到更好的策略;样本管理的改进有助于提升DRL算法的样本效率,从而加快收敛速度,提高算法实用性;梯度计算的改进致力于使每一次梯度更新都更稳定、无偏和高效。总体而言,DRL算法正朝着通用化和高效化的方向发展,期待未来会出现某种“超级算法”,能够广泛适用于各种类型的任务,并在绝大多数任务中具有压倒式的性能优势
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东江门新会区睦洲镇中心幼儿园招聘教师的1人备考题库含答案详解
- 2026年5月广东深圳市宝安区西乡固腾幼儿园招聘幼儿园保育员1人备考题库含答案详解(巩固)
- 2026年陕西师大附中国际部招聘备考题库(3人)附答案详解(轻巧夺冠)
- 2026云南省有色地质局三〇六队招聘12人备考题库及答案详解(新)
- 2026北京语言大学事业编制人员招聘11人备考题库(第三批)及完整答案详解1套
- 2026四川成都都江堰市实验中学教师招聘4人考试备考试题及答案解析
- 2026年家用燃气报警器行业分析报告及未来发展趋势报告
- HJ 1442-2026 固定污染源废气颗粒物(PM10和PM2.5)稀释通道采样技术规范
- 2026安徽师范大学专职心理健康教育教师招聘2人备考题库附答案详解(轻巧夺冠)
- 2026年热成像设备行业分析报告及未来发展趋势报告
- 2026中国冶金地质总局山东局校园招聘46人笔试历年参考题库附带答案详解
- 2026年广东省高三语文二模作文题目解析及范文:“意外”的价值
- 2026年兰州大学管理岗招聘考试笔试试题(含答案)
- 2025年广东省纪委遴选笔试试题及答案
- 生成式AI在初中英语口语教学中的应用与教师反思教学研究课题报告
- 新22G04 钢筋混凝土过梁
- 医疗器械经营监督管理办法考核试题及答案
- 艾媒咨询:2023年中国虚拟人产业发展与商业趋势研究报告
- 6kV电动机保护定值整定计算
- CRPS电源设计向导 CRPS Design Guide r-2017
- 两用物项-最终用户用途证明
评论
0/150
提交评论