本科三年级人工智能专业《强化学习:从马尔可夫决策过程到深度Q网络》教学设计_第1页
本科三年级人工智能专业《强化学习:从马尔可夫决策过程到深度Q网络》教学设计_第2页
本科三年级人工智能专业《强化学习:从马尔可夫决策过程到深度Q网络》教学设计_第3页
本科三年级人工智能专业《强化学习:从马尔可夫决策过程到深度Q网络》教学设计_第4页
本科三年级人工智能专业《强化学习:从马尔可夫决策过程到深度Q网络》教学设计_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科三年级人工智能专业《强化学习:从马尔可夫决策过程到深度Q网络》教学设计

一、课程基本信息

(一)学科与学段:本科三年级人工智能专业。

(二)课程名称:强化学习理论。

(三)课时安排:本主题共计4学时,每学时45分钟,总时长180分钟。分两次课完成,第一次课2学时聚焦马尔可夫决策过程与经典强化学习算法,第二次课2学时聚焦深度Q网络及其变体。

(四)授课对象:本科三年级学生,已完成《概率论与数理统计》《线性代数》《机器学习基础》《深度学习基础》等先修课程,具备Python编程能力,熟悉TensorFlow或PyTorch框架。

(五)教学环境:智慧教室,配备交互式电子白板、高性能计算服务器,学生终端预装Anaconda及OpenAIGym、TensorFlow2.x、PyTorch1.10+等实验环境,支持实时代码演示与分布式实验。

二、教学目标

(一)知识与技能目标

1.理解强化学习的基本框架,准确复述智能体、环境、状态、动作、奖励、策略、价值函数等核心术语。【基础】

2.掌握马尔可夫决策过程的数学形式,能够将实际问题抽象为MDP五元组<S,A,P,R,γ>。【核心】【高频考点】

3.推导贝尔曼期望方程与贝尔曼最优方程,理解其递归结构与不动点性质。【非常重要】

4.应用动态规划、蒙特卡洛、时序差分三种经典方法求解小规模MDP,并比较其异同。【重要】

5.实现Q学习算法,解决格子世界等经典控制任务。【核心】【高频考点】

6.理解深度Q网络的基本原理,掌握经验回放、目标网络两大关键技术,能够使用DQN处理高维状态空间问题。【热点】【难点】

7.了解DQN的典型改进,包括DoubleDQN与DuelingDQN,形成继续追踪前沿研究的意识。【扩展】

(二)过程与方法目标

1.通过数学推导与代码实现相结合的方式,建立理论与实践的映射关系,培养计算思维。

2.通过对比分析不同算法的适用场景与收敛特性,提升批判性思维能力。

3.通过小组协作完成复杂环境下的DQN调参任务,培养团队协作与工程优化能力。

(三)情感态度与价值观目标

1.认识强化学习在自动驾驶、游戏AI、机器人控制等领域的变革性应用,激发科技报国的使命感。

2.体会从MDP到DQN四十余年的理论演进脉络,感悟科学探索的严谨性与创新性。

3.建立算法公平性与可解释性的初步意识,树立负责任的人工智能价值观。

三、教学重点与难点

(一)教学重点

1.马尔可夫决策过程的数学形式与贝尔曼方程。【非常重要】【高频考点】

2.时序差分学习与Q学习算法。【核心】【高频考点】

3.深度Q网络的结构设计与关键技术。【热点】【必考】

(二)教学难点

1.贝尔曼最优方程的不动点迭代与收敛性证明。【难点】

2.基于值函数近似的过估计问题与目标网络的缓解机制。【难点】【高频考点】

3.深度强化学习训练的不稳定性与常见调参策略。【难点】

四、教学方法与策略

1.启发式讲授与问题驱动教学法:以“机器人如何学会走迷宫”为贯穿案例,逐步抛出状态表征、延迟奖励、探索与利用权衡等子问题,引导学生主动建构知识。

2.类比迁移策略:将动态规划中的策略迭代类比于“制定计划并严格执行”,将蒙特卡洛方法类比于“事后总结”,将时序差分学习类比于“边做边学”,降低认知负荷。

3.代码现场演绎与可视化教学:在讲解关键算法时,同步运行预设的JupyterNotebook代码单元,实时展示价值函数收敛曲线、智能体累计奖励曲线,将抽象理论具象化。

4.翻转课堂与混合式教学:课前发布微课视频与预习题,课中聚焦深度研讨与实验,课后推送拓展阅读与挑战性任务。

五、教学资源

1.教材与参考书:Sutton与Barto合著《强化学习(第2版)》第1至6章、第11章;国内优秀教材如《深入浅出强化学习:原理入门》。

2.数字化资源:自建课程网站,包含课件、代码库、在线测评系统;推荐OpenAISpinningUp、周博磊强化学习纲要等优质公开课。

3.实验平台:基于Docker的统一实验环境镜像,集成Gym、PyTorch、TensorBoard等;提供FrozenLake、CartPole、MountainCar等经典环境及Atari游戏接口。

六、教学实施过程

本部分严格按照两次课、四个学时展开,每个学时45分钟。全过程以“从简单格子世界到复杂视觉控制”为主线,将理论讲授、数学推导、代码实践与研讨反思深度融合。

(一)第一次课:马尔可夫决策过程与经典强化学习算法

1.第一学时:强化学习问题框架与马尔可夫决策过程

(1)情境导入

教师通过展示波士顿动力机器人后空翻、AlphaGo战胜李世石等短视频,引出“智能体如何通过试错学会复杂技能”的核心问题。随即缩小视角,呈现一个4×4格子世界,智能体从起点出发,目标是到达终点,每步移动获得-1奖励,碰墙原地不动,到达终点获得+10奖励。教师提问:“如果让你编写程序指挥机器人,你会如何设计奖励,如何保证机器人最终学会最短路径?”学生以邻座两人组短暂讨论,教师抽取两组分享初步想法。此环节旨在激活先验知识,建立对新问题的好奇心。【重要】

(2)强化学习基本要素精讲

教师系统定义智能体、环境、状态、动作、奖励、策略、价值函数七个核心概念。强调状态是环境的充分统计量,奖励是即时的反馈信号,而价值是长期累积奖励的期望。【非常重要】以格子世界为例,具体化每个概念:状态为16个格子编号,动作为上下左右,奖励函数R(s,a)为进入终点+10、其他-1,策略π(a|s)是状态到动作的概率分布。此时引入马尔可夫性质,即下一状态仅依赖当前状态与动作,而与历史无关。【核心概念】为加深理解,教师以动画演示随机游走过程,展示状态转移的随机性。

(3)马尔可夫决策过程五元组解析

教师板书MDP五元组:<S,A,P,R,γ>。逐一阐释:S为有限状态集合,格子世界|S|=16;A为有限动作集合,|A|=4;P为状态转移概率矩阵,P(s'|s,a),格子世界中转移是确定性的;R为奖励函数,可表示为R(s,a)或R(s,a,s'),一般简化为R(s);γ为折扣因子,γ∈[0,1],γ越接近1越有远见,γ=0时只关注即时奖励。教师特别强调MDP是强化学习绝大多数问题的数学抽象,任何任务只要能建模为五元组,原则上可用强化学习求解。【核心】随后展示跨域案例:自动驾驶中状态为车辆位置速度,动作为油门刹车转向;医疗决策中状态为生理指标,动作为给药剂量;对话系统中状态为对话历史,动作为回复语句。这些案例强化学生对MDP通用性的认知。

(4)策略与价值函数的数学定义

教师定义策略π(a|s)为条件概率分布,定义状态价值函数V_π(s)=E_π[∑{k=0}^∞γ^kR

{t+k+1}|S_t=s],动作价值函数Q_π(s,a)=E_π[∑{k=0}^∞γ^kR

{t+k+1}|S_t=s,A_t=a]。引导学生对比V与Q的关系:V_π(s)=∑aπ(a|s)Q_π(s,a)。指出价值函数是策略好坏的度量。【重要】此时留下悬念:如何计算V_π(s),引出下一环节。

(5)课堂即时练习

教师分发纸质简答题,亦可使用在线投票系统。题目为:给定一个3状态MDP,转移概率已知,要求学生写出t时刻的回报G_t表达式,并计算某状态的V值。即时反馈,纠正共性问题。此练习旨在巩固刚讲授的符号体系与期望计算。【基础】

2.第二学时:贝尔曼方程与动态规划

(1)回顾与衔接

教师快速回顾MDP五元组与价值函数,指出直接按定义计算V_π需要无穷时间步,必须寻找递推关系。此时以板书列出回报序列,启发学生观察相邻时刻回报的联系。

(2)贝尔曼方程推导

教师从回报定义出发:G_t=R

{t+1}+γR_{t+2}+γ^2R_{t+3}+...=R_{t+1}+γ(R_{t+2}+γR_{t+3}+...)=R_{t+1}+γG_{t+1}。两边取期望,利用马尔可夫性质与期望线性性质,推导出贝尔曼期望方程:V_π(s)=∑aπ(a|s)∑

{s',r}p(s',r|s,a)[r+γV_π(s')];Q_π(s,a)=∑{s',r}p(s',r|s,a)[r+γ∑

{a'}π(a'|s')Q_π(s',a')]。教师强调这是强化学习中最重要的方程,没有之一。【核心】它揭示了当前状态价值与后继状态价值的递归关系,是后续所有算法的理论源头。进而引出贝尔曼最优方程:V_(s)=max_a∑{s',r}p(s',r|s,a)[r+γV

(s')];Q_(s,a)=∑{s',r}p(s',r|s,a)[r+γmax

{a'}Q_

(s',a')]。此时点明求解强化学习问题,本质上就是求解贝尔曼最优方程。【高频考点】

(3)动态规划策略迭代与价值迭代

教师指出当MDP模型已知时,可用动态规划求解。介绍策略评估,即迭代应用贝尔曼期望方程更新V值直至收敛;策略改进,即对每个状态采取贪心动作π'(s)=argmax_aQ(s,a)。反复进行策略评估与改进,最终收敛到最优策略。价值迭代则直接迭代贝尔曼最优方程,一步到位。【重要】教师现场运行Python代码,展示格子世界策略迭代过程中价值函数的变化,学生亲眼看到V值从0逐步分化出高值区域。代码中嵌入可视化热力图,色彩变化直观呈现“靠近终点价值更高”的规律。

(4)动态规划的局限与蒙特卡洛思想引入

教师提出问题:“若环境转移概率未知,动态规划还能用吗?”自然引出无模型学习。以掷硬币为例,解释通过大量采样逼近真实概率的蒙特卡洛原理。预告下一环节蒙特卡洛方法。此段承上启下,激发学生对无模型方法的期待。

(5)小结与作业布置

教师用思维导图总结本节课核心:强化学习框架→MDP→价值函数→贝尔曼方程→动态规划。布置预习任务:阅读教材中蒙特卡洛与时序差分章节。发布第一次课后编程作业:使用动态规划求解FrozenLake环境的8×8版本,并分析不同折扣因子对策略的影响,要求提交代码与200字以上分析报告。

(二)第二次课:从时序差分学习到深度Q网络

3.第三学时:蒙特卡洛与时序差分学习

(1)蒙特卡洛强化学习

教师首先定义蒙特卡洛方法的核心思想:通过完整情节的回报G_t来估计V(s)。平均每次访问状态s的回报,当采样足够多时,均值收敛到真实V_π(s)。介绍首次访问MC与每次访问MC,并强调MC是无偏估计但方差大。【重要】【高频考点】在格子世界演示MC策略评估:随机生成1000条路径,计算每个状态的平均折扣回报,对比动态规划得到的精确V值,学生观察到MC值在真实值附近波动,且随着情节数增加波动逐渐减小。教师进一步解释MC适用于情节式任务,对于连续任务需做截断处理。

(2)时序差分学习

教师从心理学巴甫洛夫条件反射切入:每次铃响后给食物,狗逐渐学会听到铃响就流口水,这是基于预测误差的学习。时序差分正是如此,用下一步价值的估计更新当前步价值,无需等待情节结束。【核心】板书TD(0)更新公式:V(s_t)←V(s_t)+α[r_{t+1}+γV(s_{t+1})-V(s_t)]。解释δ_t=r_{t+1}+γV(s_{t+1})-V(s_t)为TD误差。【高频考点】对比MC与TD:MC必须等到情节结束,TD每步都可更新;MC是无偏估计,TD是有偏但方差低;MC不依赖马尔可夫性,TD依赖马尔可夫性。【难点】教师通过随机游走数字实验,同时绘制MC与TD的V值收敛曲线,展示TD收敛更快且更平滑。学生直观感受到TD效率优势。

(3)Q学习算法

教师自然过渡:我们真正需要的是动作价值函数Q,且最优策略与模型无关。引出Q学习,即最著名的离策略TD算法。【核心】板书Q学习更新规则:Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γmax_aQ(s_{t+1},a)-Q(s_t,a_t)]。强调三个关键点:第一,直接逼近最优Q*,无论当前策略如何;第二,更新中使用max操作,是离策略的本质;【高频考点】第三,需要平衡探索与利用,常用ε-greedy策略。教师现场演示:使用Q学习训练智能体在CliffWalking环境中行走,学生看到Q表逐渐成形,智能体成功避开悬崖走到终点。代码中设置不同ε值,如0.1、0.2、0.5,对比学习曲线,使学生直观感受探索率的影响。过高的ε导致无法收敛,过低的ε可能陷入次优路径。

(4)本学时小结

教师总结:从有模型的动态规划到无模型的蒙特卡洛、时序差分、Q学习,我们逐步逼近真实世界的强化学习问题。但Q表存储方式无法应对高维状态空间,引出深度神经网络。学生此时明确学习主线,对下一学时内容产生强烈好奇。

4.第四学时:深度Q网络及其变体

(1)高维状态空间的挑战

教师展示AtariBreakout游戏画面,状态是210×160×3的RGB图像,状态空间维度超过10万维,传统Q表完全不可行。以图片分类为例,类比神经网络的特征提取能力,提出用深度神经网络近似Q函数:Q(s,a;θ)≈Q*(s,a)。【核心】此时学生认识到,必须将深度学习的表征能力与强化学习的决策能力结合。

(2)深度Q网络两大核心技术

教师首先指出直接将TD更新与神经网络结合会导致灾难性遗忘和训练发散。2013年Mnih等人提出DQN,引入两大创新。【热点】【难点】【非常重要】第一是经验回放,将智能体的经历(s,a,r,s')存入回放缓冲区,训练时从中随机采样小批量,打破数据相关性,提高样本效率。【核心】教师以“错题本”作比,反复温习过去经验,避免偏科。第二是目标网络,使用独立的目标网络Q(s,a;θ^-)计算TD目标,其参数θ^-每隔固定步数从在线网络θ,其他时间保持不变,稳定训练目标。【核心】教师板书DQN损失函数:L(θ)=E_{(s,a,r,s')~U(D)}[(r+γmax_{a'}Q(s',a';θ^-)-Q(s,a;θ))^2]。逐一解释期望、均匀采样、最大化、目标网络。强调这是深度强化学习的里程碑。【非常重要】

(3)代码实战:DQN解决CartPole

教师打开预置的JupyterNotebook,逐段解释DQN实现。【热点】【必考】首先构建两个结构相同的Q网络,即在线网与目标网。其次定义epsilon-greedy动作选择函数。然后与环境交互,存储经验至回放缓冲区。当缓冲区样本足够时,随机采样小批量,计算损失,梯度下降更新在线网络。每C步同步目标网络权重。现场训练CartPole,学生通过TensorBoard实时观察平均奖励曲线从0迅速上升到200,达到环境解决阈值。期间教师穿插提问:“为什么这里状态是连续4维仍能使用DQN?若换成图像输入需要修改哪些部分?”引导学生思考端到端视觉控制的扩展,例如增加卷积层、调整输入维度等。

(4)DQN改进与前沿方向

教师简述DQN的典型变体。【扩展】DoubleDQN解决max算子导致的过估计问题,将动作选择与价值评估解耦,减少偏差。【高频考点】DuelingDQN将Q值分解为状态价值V(s)与优势函数A(s,a),提升学习效率。【热点】PrioritizedExperienceReplay优先回放TD误差大的经验,加速训练。【热点】教师仅做概念性介绍,并提供扩展阅读清单,包括原始论文与开源实现链接,供学有余力者课后探究。此时学生感受到DQN家族仍在蓬勃发展,激发研究兴趣。

(5)本课总结与拓展任务

教师以时间轴形式回顾从MDP到DQN的理论演进,强调贝尔曼方程作为贯穿始终的主线。【非常重要】布置挑战性任务:使用DQN训练智能体玩Pong游戏,并尝试使用DoubleDQN缓解过估计,撰写实验报告。该任务为开放式,允许学生组队完成,计入期中项目加分。

七、教学评价与反馈

(一)过程性评价

1.课堂即时应答:通过学习通等工具发布客观题,正确率低于70%时立即进行补充讲解。题目覆盖MDP五元组、贝尔曼方程形式、Q学习更新式等。【基础】

2.代码练习完成度:实验平台自动记录学生代码提交时间与运行结果,计入平时成绩。每次课后必做编程题设置自动评分脚本,反馈即时。

3.小组研讨表现:围绕探索与利用的权衡、DQN训练不收敛的可能原因等议题组织5分钟邻座讨论,教师巡视并随机邀请小组代表发言,给予口头鼓励与积分奖励。

(二)终结性评价

1.课后作业:第一次课后完成动态规划求解FrozenLake,要求提交代码与200字以上分析报告;第二次课后完成Q学习与DQN对比实验,分析各自适用场景。作业满分100分,占总评30%。

2.期中项目:以3人组队形式,选择Atari游戏或自定义连续控制任务,实现一种强化学习算法并撰写技术报告,占总评20%。

3.期末考试:设置MDP建模、贝尔曼方程推导、算法流程辨析等题目,其中DQN相关考点占25%。【高频】

(三)教学反思与改进预设

1.针对部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论