《人工智能（研究生）》课程“马尔可夫决策过程”教学设计

上传人：1*** IP属地：云南上传时间：2026-06-05 格式：DOCX 页数：7 大小：32.76KB 积分：7.19 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

《人工智能（研究生）》课程“马尔可夫决策过程”教学设计一、教学分析（一）教学指导思想与理论依据本节课的设计严格遵循“以学生为中心”的教育理念，深度融合成果导向教育（OBE）的核心思想，并充分体现新工科建设对交叉学科知识融合的要求。课程设计强调从数学基础向算法应用的自然过渡，不仅注重理论体系的严密性与完整性，更强调通过问题驱动和案例实践，引导学生理解抽象数学概念背后的物理意义与工程价值。教学实施过程中，融入研究性教学方法，鼓励学生批判性思考，初步培养其从决策问题建模到算法求解的科研思维。（二）教材与教学内容分析本课内容选自人工智能核心课程《强化学习》的第三章“马尔可夫决策过程（MDP）”。MDP是序列决策问题的标准数学框架，也是理解强化学习所有后续算法（如动态规划、蒙特卡洛方法、时序差分学习）的理论基石。本节课为MDP的第一课时，核心任务是带领学生完成从“直观理解”到“数学抽象”的跨越，重点建立MDP的五元组模型，并深刻理解其“无后效性”（马尔可夫性）的本质。内容上承概率论基础，下启贝尔曼方程与最优控制，具有承前启后的关键地位。本节课将打破传统教材平铺直叙的缺点，通过引入机器人导航的具体案例，将抽象符号赋予生动含义。（三）学情分析授课对象为人工智能专业或相关方向的一年级硕士研究生及高年级优秀本科生。他们已经系统学习过高等数学、线性代数和概率论，对随机过程有初步概念，并具备Python编程基础。然而，学生普遍面临两个主要困难：一是难以将现实决策问题（如围棋博弈、自动驾驶）转化为规范的数学模型（MDP五元组）；二是对“价值函数”和“策略”等核心概念的引入感到突兀，不理解其必要性与物理意义。因此，教学设计需重点搭建从现实问题到数学模型的“桥梁”，并通过清晰的逻辑推导，自然引出价值函数的概念，化解学生的认知障碍。（四）教学目标1.知识目标（基础）：（1）准确复述马尔可夫性（无后效性）的定义，并能判断一个给定过程是否具有马尔可夫性。（2）完整写出马尔可夫决策过程的标准数学定义——五元组〈S，A，P，R，γ〉，并能解释每个元素的数学含义与物理意义。（3）掌握回报（Return）与折扣因子γ的计算方法与作用机制。2.能力目标（重要）：（1）建模能力：能够将一个简单的序列决策问题（如GridWorld导航）抽象为标准MDP模型，准确界定状态空间、动作空间、状态转移概率和奖励函数。（2）计算能力：能够手工计算简单MDP问题的累积回报。（3）辨析能力：能够区分MDP与马尔可夫过程（MP）、马尔可夫奖励过程（MRP）的异同。3.素养目标（非常重要）：（1）初步建立“利用数学框架描述不确定性环境下的序贯决策”的工程思维。（2）培养逻辑推理的严密性，理解数学抽象在解决复杂人工智能问题中的核心作用。（3）激发对强化学习领域的探索兴趣，为后续深入学习奠定心理基础。（五）教学重点与难点1.教学重点（【高频考点】【基础】）：（1）马尔可夫性的理解与判断。（2）MDP五元组〈S，A，P，R，γ〉的构成与内涵。（3）回报与折扣因子的定义及计算。2.教学难点（【难点】【核心】）：（1）状态转移概率P的数学本质：它不是一个单一的值，而是一个条件概率分布函数。（2）对“为什么需要价值函数”的初步感知与理解。本节课虽不深入讲授贝尔曼方程，但要为学生后续学习“为什么要求解价值函数”埋下伏笔，建立认知需求。（3）折扣因子γ在数学处理和实际问题中的双重作用。二、教学过程（一）创设情境，导入新课（约8分钟）【教师活动】在大屏幕上展示一个简单的机器人导航问题：一个机器人在一个3x3的网格世界中（GridWorld），起始位置为左上角（0，0），目标位置为右下角（2，2）。机器人可以执行向上、下、左、右移动的动作。每次移动需消耗电能，且由于传感器和电机误差，机器人有80%的概率沿预期方向移动，有20%的概率随机滑向与预期方向垂直的任一方向。机器人每移动一步，得到1的即时奖励（电能消耗）。当机器人到达目标格子时，任务结束，并获得+10的最终奖励。【教师提问】“同学们，假设你是这个机器人的设计师，你如何为它制定一套‘行走策略’，使其从起点到终点所获得的‘总收益’最大化？请思考，这个问题和我们之前学过的有监督分类问题（比如猫狗图片识别）有什么本质不同？”【学生活动】分组讨论（23分钟），派代表发言。学生可能会提到：“这是一个连续决策问题”、“每一步的选择会影响未来”、“结果带有随机性”。【教师总结与过渡】非常好！同学们已经抓住了核心要素：序列决策、不确定性、长期收益最大化。这正是强化学习要解决的核心问题。而要将这类问题交给计算机求解，首先需要一个精确的数学模型。今天，我们就来学习这个模型——马尔可夫决策过程。通过它，我们可以把刚才这个生动的机器人导航问题，变成一组计算机能够理解的数学符号。（二）概念精讲，建模基石（约25分钟）1.马尔可夫性（MarkovProperty）【重要】【基础】【教师讲解】要描述这个机器人导航问题，首先需要定义“状态”。状态（State，S）是对环境（Environment）的充分统计。在这个GridWorld中，状态就是机器人的位置坐标。【核心提问】“假设我们已经知道机器人此刻在格子(1，1)，并且我们知道它从起点(0，0)经过(0，1)再到(1，1)的完整历史路径。现在要预测它下一个时刻可能在哪，这个‘历史路径’信息有用吗？还是说，仅仅知道它此刻在(1，1)就够了？”【学生思考与辨析】引导学生认识到，在这个问题设定下，未来的移动概率只取决于当前位置，而与之前是如何到达的无关。这正是马尔可夫性的精髓——“未来独立于过去，只取决于现在”。【教师精讲】我们将这种性质正式定义为马尔可夫性。如果一个状态信号包含了历史中所有相关信息，那么它就被称为具有马尔可夫性。用数学公式表达为：［...thbb{P}［S_{t+1}|S_t］=\mathbb{P}［S_{t+1}|S_1，S_2，...，S_t］］这意味着，给定当前状态S_t，下一个状态S_{t+1}在概率上条件独立于历史中的任何更早状态。这是MDP能够进行数学处理的根本前提，也是其名称“马尔可夫”的来源。2.状态转移概率（StateTransitionProbability）【高频考点】【教师讲解】基于马尔可夫性，我们可以用状态转移概率来描述环境的动态特性。它定义了从当前状态s，执行动作a后，转移到下一个状态s‘的概率。用数学公式表达为：［P_{ss‘}^a=\mathbb{P}［S_{t+1}=s’|S_t=s，A_t=a］］【深入剖析难点】请大家注意，P_{ss‘}^a不是单一的数字，而是一个函数。对于固定的s和a，它是一个关于s’的概率分布，满足：［\sum_{s‘\inS}P_{ss‘}^a=1］在我们的机器人导航案例中，假设s=(1，1)，a=“向上”。那么，s’可能是什么？有0.8的概率是(0，1)（向上成功），有0.1的概率是(1，2)（滑向右），有0.1的概率是(1，0)（滑向左）。因此，P_{(1，1)(0，1)}^{向上}=0.8，P_{(1，1)(1，2)}^{向上}=0.1，P_{(1，1)(1，0)}^{向上}=0.1，而转移到其他格子（如下方）的概率为0。这就精确地刻画了环境的不确定性。3.奖励函数（RewardFunction）【基础】【教师讲解】仅仅有状态转移还不够，我们需要告诉智能体（Agent）什么是好的，什么是坏的。这就是奖励函数R的作用。它定义了在状态s下执行动作a后，智能体能够获得的即时奖励的期望。［R_s^a=\mathbb{E}［R_{t+1}|S_t=s，A_t=a］］在我们的案例中，R_s^a=1对于所有非目标状态s和所有动作a成立。当从状态s到达目标状态时，R_s^a=+10。奖励函数是智能体学习目标的来源，它定义了“好”与“坏”的标准。4.MDP五元组定义【核心】【教师归纳】至此，我们已经将机器人导航问题抽象成了几个核心数学元素：状态集合S、动作集合A、描述环境动态的转移概率P、描述即时好坏的奖励函数R，以及一个描述长期收益权衡的折扣因子γ（稍后讲解）。这五个元素共同构成了一个完整的马尔可夫决策过程，通常记为五元组：［\mathcal{M}=\langle\mathcal{S}，\mathcal{A}，\mathcal{P}，\mathcal{R}，\gamma\rangle］并给出其标准定义图（示意图）：状态节点，动作节点，通过转移概率连接，并附带奖励。（三）深入探究，目标量化（约25分钟）1.回报（Return）与折扣因子（DiscountFactor）【重要】【高频考点】【教师过渡】现在，我们有了MDP模型，也有了智能体可以执行的动作。那么，智能体的目标到底是什么？仅仅是最大化下一步的奖励R_{t+1}吗？显然不是。在导航问题中，如果只看下一步，智能体可能会陷入局部最优（例如为了避免1的惩罚而选择不动，但不动永远不会得到+10）。因此，智能体的目标是最大化它从当前时刻开始，直到任务结束所获得的累积奖励，我们称之为回报G_t。【定义讲解】G_t是从时间t开始到终止状态的累积折扣奖励之和。数学定义为：［...=R_{t+1}+\gammaR_{t+2}+\gamma^2R_{t+3}+...=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}］其中，γ是折扣因子，取值范围为0≤γ≤1。2.折扣因子的双重作用【难点解析】【教师启发】请大家思考，为什么需要引入γ？我们分两个层面讨论。（1）数学层面：在无限时域（任务可能无限进行下去）问题中，如果不加折扣（即γ=1），累积回报的和可能会趋向无穷大，导致无法比较不同策略的好坏。引入γ<1，只要奖励是有界的，无穷级数就一定收敛，保证了数学上的良定义。（2）生理/经济层面：γ反映了未来的不确定性。现在的100块钱比未来的100块钱更值钱（因为可以存银行生利息）。γ越小，表示智能体越“短视”，只看重眼前利益；γ越接近于1，表示智能体越有“远见”，能权衡未来的收益。在生物学上，也符合动物对即时奖励的偏好。【举例计算】回到GridWorld问题，设定γ=0.9。假设有一条路径从起点到终点，产生了奖励序列：1，1，1，+10。请学生手动计算G_0。G_0=(1)+0.9(1)+0.9^2(1)+0.9^3(+10)G_0=10.90.81+7.29=4.58。通过计算，学生直观感受到，折扣因子使未来的奖励对当前决策的影响呈指数级衰减。（四）案例实战，建模演练（约25分钟）【分组任务】将学生分成若干小组，每组给定一个不同的、略微复杂的场景，要求在15分钟内完成建模，并用MDP五元组表示出来。【场景A（自动驾驶变道）】一辆自动驾驶汽车在高速公路上行驶，需决定是否从当前车道变到左侧车道。状态：当前车道（左/中/右）及周围车辆的相对位置和速度（简化为“安全”或“危险”）。动作：{保持，左转，右转}。转移概率：成功变道的概率与环境复杂度相关（例如，周围车辆多时成功概率低）。奖励：成功变道且安全为+1，保持车道为0，发生碰撞为100，等待时间过长有微小惩罚。【场景B（库存管理）】一个仓库管理员每天需要决定订购多少单位的某种商品。状态：当天开始时的库存量。动作：订购量（010单位）。转移概率：商品的日需求量服从某个已知的概率分布。奖励：销售收入减去订货成本和库存持有成本。【场景C（医疗诊断）】医生决定是否为一位疑似肺炎患者进行下一步检查或直接治疗。状态：患者的症状集合（简化模型：发烧、咳嗽、血氧饱和度等）。动作：{进行血液检查、进行X光检查、开具抗生素、观察等待}。转移概率：不同检查结果的出现概率，以及病情自然发展的概率。奖励：治愈病人为正奖励，误诊或延误治疗为高额负奖励，检查成本为微小的负奖励。【小组展示与点评】每组选派代表上台，分享他们组的建模结果。教师和其他组同学进行点评和质疑，重点考察：状态空间S是否完整且互斥？动作空间A是否合理？转移概率P的设定是否反映了问题的随机性？奖励函数R是否准确量化了目标？【教师总结】通过这几个案例，我们可以看到，MDP模型具有很强的通用性，能够描述从物理世界到经济管理再到医疗健康等广泛领域的序列决策问题。建模是解决一切强化学习问题的第一步，也是最关键的一步。一个好的模型是成功的一半。（五）拓展延伸，知识链接（约10分钟）【教师引导】我们现在有了MDP模型，也知道智能体的目标是最大化G_t。那么，下一个逻辑问题就是：“给定一个MDP模型，我们如何计算出最优的决策（即策略）？”这就是我们后续课程要学习的规划与学习算法。【概念预览】为了求解最优策略，我们不可避免地要引入一个至关重要的概念——价值函数（ValueFunction）。价值函数V(s)用于评估“处于某个状态s到底有多好”，即从这个状态开始，按照某个策略行动，所能获得的期望回报。它是连接MDP模型与动态规划、强化学习算法的桥梁。【布置预习作业】请同学们课后思考：在GridWorld例子中，假设你有一个随机策略（每个动作等概率选择），你能估算出起点(0，0)的价值V(0，0)大概是多少吗？尝试用概率和期望的思想去思考。这将是我们下一节课的核心内容。（六）课堂小结与作业布置（约7分钟）1.课堂小结【教师带领学生回顾】（1）什么是马尔可夫性？（2）MDP的五元组是哪些，各自代表什么？（3）回报G_t的计算公式是什么，折扣因子γ有什么作用？（4）我们通过案例学习了如何将现实问题抽象为MDP模型。【重要标记提醒】再次强调，MDP五元组（【高频考点】）、回报计算（【基础】）、马尔可夫性判断（【重要】）是本节课必须掌握的核心内容。折扣因子的双重作用是理解后续算法收敛性的关键（【难点】）。2.课后作业（1）基础题：教材课后习题3.1和3.2，旨在巩固MDP五元组的定义和回报计算。（2）建模题：选择一个你感兴趣的领域（如游戏AI、推荐系统、金融交易），尝试将其中的决策问题抽象为一个MDP模型，详细列出S，A，P，R，γ。要求逻辑自洽，并分析你的建模过程中做了哪些简化和假设。（3）预习思考题：阅读教材中关于“策略”和“价值函数”的章节。思考：策略π(a|s)与状态转移概率P(s‘|s，a)有何本质区别？价值函数V_π(s)的数学期望表达式是什么？三、板书设计（左侧主板书）（右侧副板书）23_马尔可夫决策过程（MDP）案例：3x3GridWorld一、马尔可夫性S={(i，j)|i，j=0，1，2}未来独立于过去，只取决于现在A={上，下，左，右}S_1...S_t|S_t］=P［S_{t+1}|S_1...S_t］P：P((0，1)|(1，1)，上)=0.8R：非

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《人工智能（研究生）》课程“马尔可夫决策过程”教学设计

文档简介

温馨提示

最新文档

评论

《人工智能（研究生）》课程“马尔可夫决策过程”教学设计

文档简介

温馨提示

最新文档

评论

相关文档