本科三年级计算机科学“机器学习模型”单元教学设计

上传人：1*** IP属地：云南上传时间：2026-06-16 格式：DOCX 页数：14 大小：35.40KB 积分：7.19 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本科三年级计算机科学“机器学习模型”单元教学设计

一、教学背景分析

（一）学科定位与课程价值

本单元“机器学习模型”隶属于本科三年级计算机科学与技术专业核心必修课《机器学习》，学程设置于第六学期。课程定位为在数学基础与编程实践之间构筑理论桥梁，【重要】。其价值体现在三个维度：知识维度，系统梳理从线性模型到神经网络的演化脉络；能力维度，培养算法推导、代码实现与结果诊断的复合技能；素养维度，渗透数据驱动的科学决策思维及算法伦理意识【非常重要】。

（二）学习内容全景剖析

本单元内容覆盖机器学习模型的全生命周期，包括模型假设、损失函数、优化算法与评估策略。核心知识点遵循“应列尽罗”原则：

1.机器学习范式：监督学习、无监督学习、半监督学习、强化学习的适用场景与数学形式化定义【基础】【高频考点】。

2.回归模型：一元线性回归的最小二乘解、多元线性回归的正规方程、岭回归与Lasso的范数惩罚、局部加权回归【高频考点】【难点】。

3.分类模型：逻辑回归的Sigmoid变换与交叉熵损失、感知机算法的收敛性证明、支持向量机的最大间隔与核技巧、朴素贝叶斯的后验最大化【非常重要】【高频考点】。

4.树模型：决策树的ID3、C4.5与CART算法、信息增益与增益率、基尼系数、预剪枝与后剪枝策略、集成学习中的随机森林与梯度提升树【热点】【难点】。

5.无监督模型：K-Means的Lloyd算法与肘部法则、主成分分析的协方差矩阵对角化与奇异值分解、高斯混合模型的期望最大化【重要】。

6.神经网络基础：多层感知机的反向传播算法、激活函数家族（Sigmoid、Tanh、ReLU、LeakyReLU）、梯度消失与爆炸成因、批归一化原理【非常重要】【难点】。

7.模型评估与选择：训练误差与测试误差、偏差方差分解、交叉验证方法、混淆矩阵与ROC曲线、代价敏感学习【高频考点】。

（三）学情精准画像

授课对象为本科三年级计算机专业学生，已修高等数学、线性代数、概率论与数理统计、Python程序设计。优势在于具备基础编程能力与抽象思维，对人工智能应用有强烈好奇心；劣势在于数学推导时易产生畏难情绪，习惯于调用Scikit-learn等高层次库而忽略底层机理，倾向于机械套用模型而非诊断改进。因此本单元必须在抽象公式与几何直观、数学推导与代码实现之间建立锚点，【重要】。

（四）教学环境与资源准备

8.物理空间：智慧教室配备双屏交互系统、六边形小组讨论工位及三块可书写玻璃墙。

9.软件环境：JupyterLab服务器集群，预装Scikit-learn、PyTorch、TensorBoard及可视化库Matplotlib、Plotly；容器化实验环境支持一键重置代码内核。

10.数字化资源：自建“机器学习模型虚拟仿真实验平台”集成参数实时调整与决策边界动画；3Blue1Brown神经网络系列授权切片；Kaggle微型竞赛数据集；模型动物园(ModelZoo)预训练权重库。

二、教学目标分层界定

（一）知识与技能目标

1.能准确复述十种以上经典机器学习模型的假设条件、损失函数形式与适用数据类型【基础】。

2.能手动推导线性回归、逻辑回归、单隐层神经网络的反向传播梯度表达式，并解释链式法则的张量形状演变【非常重要】。

3.能使用Python从零实现线性模型、决策树与两层神经网络的训练循环，并调用Scikit-learn完成模型对比与超参数网格搜索【重要】。

4.能依据偏差方差困境诊断模型状态（欠拟合/过拟合），选择恰当的正则化策略（L1/L2/Dropout/早停）【高频考点】。

5.能针对非平衡数据集选择合适的评价指标并调整分类阈值【热点】。

（二）过程与方法目标

6.通过“几何直观→代数表示→算法流程→代码实现”的四阶认知路径，建构模型思维范式。

7.经历“基线模型→缺陷分析→改进方案→对比验证”的迭代式项目探究，体验真实机器学习工作流中的试错与反思。

8.运用控制变量法设计对比实验，量化评估学习率、树深度、核函数类型等超参数对泛化性能的影响。

（三）情感态度与价值观目标

9.领悟“没有免费午餐定理”所揭示的模型多样性价值，养成审慎务实、不迷信单一算法的算法选型观。

10.通过剖析算法偏差导致种族歧视、性别歧视的社会案例，建立公平、透明、可解释、负责任的人工智能伦理意识【热点】。

11.在小组协作攻关中培养技术沟通能力与共享精神，尊重他人知识产权。

三、教学重点与难点突围

（一）教学重点【非常重要】【高频考点】

1.梯度下降法的数学本质、收敛性分析及代码实践。

2.过拟合的成因、信号识别（学习曲线）与正则化手段。

3.分类任务中评价指标（精确率、召回率、F1、AUC）的适用场景辨析。

4.神经网络反向传播中链式法则的复合函数求导步骤。

（二）教学难点【难点】

5.反向传播算法中梯度从输出层向输入层流动的误差分配机制，以及张量形状的自动广播与转置处理。

6.支持向量机对偶问题的拉格朗日乘子法推导、KKT条件解释及核函数隐性映射的高维直觉。

7.集成学习偏差-方差权衡的数学解释，以及Boosting中样本权重更新的指数损失机理。

8.主成分分析中投影方差最大与重构距离最小的等价性证明。

四、教学策略与模式创新

本单元采用“BOPPPS有效教学结构”与“计算思维双螺旋”深度融合模式。教师从数学推导与代码实现双线并进，学生以“猜想-验证-反思”循环实现深度学习。【非常重要】。具体策略包括：

1.认知冲突策略：在引入逻辑回归前，先展示线性回归用于二分类时因无界输出导致的灾难性结果，激发改进动机。

2.可视化锚点策略：使用Manim动画动态演示梯度下降下山过程、决策树分割边界逐步细化、核函数升维后线性可分场景。

3.代码溯因策略：不直接提供封装库，先带领学生在Notebook中编写带详尽调试信息（打印梯度范数、中间层输出）的小型实现，再过渡到工业级框架。

4.跨学科映射策略：将神经网络逐层特征提取与视觉皮层感受野机制进行类比，将遗传算法与达尔文进化论进行类比【跨学科视野】。

5.错误前置策略：故意在示范代码中引入典型错误（如梯度更新符号反向、损失函数轴错误），请学生识别并修复。

五、教学实施过程（核心部分，占比75%）

（一）课前预置与诊断

1.发布SPOC微课“矩阵求导法则与常见概率分布回顾”，配套5道自测题，系统自动生成学情热力图并标注薄弱知识点【基础】。

2.在课程论坛发起“你最困惑的机器学习模型”匿名投票，前三位问题将作为课堂研讨素材直接嵌入相应课时。

（二）课中实施全景设计（总学时6课时，每课时50分钟）

第一课时：机器学习认识论与线性回归模型

（1）导入·情境锚定（8分钟）

教师展示波士顿房价预测业务场景，要求学生3分钟内以小组为单位提出预测方案并写在玻璃墙上。学生典型方案多为“找相似房价求平均”“画一条直线穿过散点”，教师顺势引出“数据驱动建模”核心思想，揭示本节课核心问题：如何用数学语言精确描述“规律”？【非常重要】。

（2）核心概念构建（12分钟）

教师形式化定义监督学习三要素：输入空间X∈R^d、输出空间Y∈R、假设空间H为所有线性函数族{h|h(x)=w^Tx+b}。以二维平面点拟合为例，使用Plotly动态绘制多条候选直线并叠加残差线段，直观展示残差平方和。学生活动：在草稿纸上写出平方损失L(w,b)=∑(y_i-w^Tx_i-b)^2与绝对损失L1=∑|y_i-w^Tx_i-b|，小组交流两种损失对异常点的鲁棒性差异。教师总结：平方损失处处可导，便于优化。

（3）算法推导攻坚（20分钟）

教师从一元线性回归切入，严格推导最小二乘估计的闭式解：令偏导数为零，得w=(X^TX)^{-1}X^Ty。强调矩阵求导公式∂(y-Xw)^T(y-Xw)/∂w=-2X^T(y-Xw)，并重点指出X^TX可逆的条件——特征无多重共线性且样本数大于特征数【高频考点】。随即在JupyterNotebook中逐行实现基于正规方程的求解，在每一步打印X、X^TX、逆矩阵的shape，强化维度意识。学生立即在本地复现，并使用numpy.linalg.pinv处理奇异矩阵情况。

（4）形成性测验与反馈（5分钟）

呈现3道选择题：1）多元线性回归中增加一个完全随机的噪声特征，训练误差如何变化？2）正规方程不适用以下哪种场景？3）当n＜d时，以下哪种方法可用？通过实时投票系统发现，78%学生对矩阵奇异性理解存疑，教师立即补充基于伪逆的解决方案，并预告下周实验课将重点练习岭回归。

（5）小结与预告（5分钟）

回顾线性回归的封闭解局限（O(d^3)复杂度、不可逆问题），预告下节课将学习能够应对大规模数据和稀疏特征的迭代法——梯度下降。

第二课时：梯度下降与逻辑回归

（1）复习激活（5分钟）

学生口头复述线性回归损失函数MSE形式，教师引出新问题：当特征维度d高达百万甚至上亿时，矩阵求逆不可行，如何优化？【重要】。

（2）梯度下降全解析（20分钟）

教师首先以一元函数f(x)=x^2为例，直观展示步长α对收敛性、震荡、发散的影响。接着严格给出批量梯度下降参数更新式θ:=θ-α▽J(θ)。现场编码：在波士顿房价数据集上实现梯度下降，记录每轮迭代的损失值并绘制下降曲线，同时绘制等高线图和参数轨迹。学生观察发现：固定学习率过大导致损失爆炸，过小则收敛缓慢。教师顺势引出学习率调度策略（步长衰减、余弦退火）【热点】。

（3）从回归到分类的跃迁（15分钟）

展示线性回归用于恶性肿瘤分类的灾难性结果：预测值远超出[0,1]区间且无法解释为概率。认知冲突后，教师引出Sigmoid函数σ(z)=1/(1+e^{-z})及其将实数值压缩到(0,1)区间的能力，并解释其导数σ(1-σ)的优美形式。推导逻辑回归的交叉熵损失J=-∑[ylogŷ+(1-y)log(1-ŷ)]，并指出其相对于平方损失在凸性上的优越性【非常重要】。学生小组讨论：为什么分类任务不宜用平方损失？代表发言后教师总结两点：非凸性导致局部最优，以及梯度饱和问题。

（4）代码实战（8分钟）

学生在教师提供的代码框架中补全逻辑回归梯度更新语句（特别注意sigmoid函数与损失对w的导数形式），在MNIST二分类子集（数字4与9）上测试，并绘制决策边界。教师巡视，针对反向传播梯度形状错误（如维度未对齐）进行个别辅导。

（5）伦理嵌入（2分钟）

展示基于逻辑回归的信贷审批模型因将邮编作为特征导致系统性歧视少数族裔的新闻截图，发起1分钟微型辩论：算法工程师应如何防范此类问题？学生提出剔除敏感属性、重新加权、后处理校准等方案。【跨学科】。

第三课时：前馈神经网络与反向传播

（1）模型能力边界讨论（5分钟）

学生回顾逻辑回归决策边界本质为线性超平面，教师展示非线性可分数据集（螺旋线、双月牙），提问：能否在不增加人工高次特征的前提下实现非线性分类？【难点】。

（2）神经元与多层架构（12分钟）

教师从生物学神经元树突-胞体-轴突结构抽象出M-P模型：加权求和→非线性激活。串联形成多层感知机，以2-3-2网络为例，详细演示前向传播计算过程：z^[1]=W^[1]x+b^[1],a^[1]=σ(z^[1]),z^[2]=W^[2]a^[1]+b^[2],a^[2]=softmax(z^[2])。此时学生产生关键疑问：如何训练含隐层的网络？教师宣布本节课将破解反向传播黑箱。

（3）反向传播逐层拆解（23分钟）

教师放弃矩阵形式推导可能带来的抽象屏障，采用标量链式法则逐神经元计算梯度。以单个样本、均方误差、单隐层为例，从输出层误差项δ^[2]=∂J/∂z^[2]=(a^[2]-y)开始，反向传播至隐层δ^[1]=(W^[2]^Tδ^[2])⊙σ‘(z^[1])。每推导一层，立即在Notebook中使用PyTorch的自动求导验证该层梯度的数值正确性，并打印梯度范数【非常重要】。学生惊叹于自动微分的神奇，同时建立起对链式法则的具身认知。

（4）激活函数对比实验（7分钟）

学生在固定网络结构下分别替换Sigmoid、Tanh、ReLU，绘制损失下降曲线与梯度直方图。观察到ReLU加速收敛但存在神经元死亡现象，教师引出梯度消失成因：Sigmoid导数最大值0.25，多层连乘导致指数级衰减；梯度爆炸成因：权重初始化过大【高频考点】。

（5）哲学升华（3分钟）

教师引入“涌现”概念：简单神经元通过层次组合与非线性激活产生复杂决策能力，这正是复杂系统科学的典型特征——整体大于部分之和。推荐阅读《复杂：诞生于秩序与混沌边缘的科学》相关章节【跨学科视野】。

第四课时：决策树与集成学习

（1）案例驱动（8分钟）

教师以“预测泰坦尼克号生还率”为情境，要求学生提出易于向船长解释的预测规则。学生自然提出“女性儿童优先”“头等舱幸存率高”等if-then结构，教师借此引出决策树递归分区思想：自根至叶的路径即决策规则。

（2）纯度度量数学形式化（15分钟）

严格定义信息熵H(D)=-∑p_klogp_k与基尼系数Gini(D)=1-∑p_k^2，以贷款审批样本集为例，手工计算年龄、收入、是否房产等特征的分割后加权不纯度，选出最优划分属性【重要】。学生通过此过程深刻理解贪心算法的局部最优性及其与全局最优的差距。

（3）剪枝与过拟合防治（10分钟）

展示完全生长树在测试集上的糟糕表现（深度过深、叶子节点纯度过高），引出预剪枝（限制深度、最小样本分裂数）与后剪枝（代价复杂度剪枝）策略。教师绘制误差与树复杂度关系曲线，清晰展示欠拟合、拟合优度、过拟合三区域。

（4）集成学习（12分钟）

教师抛出问题：单棵树不稳定（高方差），如何融合多棵树以降低泛化误差？分别阐述Bagging通过并行训练、投票/平均降低方差，Boosting通过串行迭代、加权聚焦残差降低偏差的机理【热点】。现场对比随机森林与AdaBoost在噪声数据上的表现，学生观察到Boosting易受异常点影响。

（5）小结与工具推荐（5分钟）

总结树模型优劣势：可解释性强、不需特征缩放、能处理混合型数据，但易过拟合且对轻微数据变化敏感。推荐XGBoost与LightGBM工业级库，并指出其核心优化点（二阶梯度、直方图近似、带深度限制的叶生长）。

第五课时：支持向量机与核方法

（1）几何直观切入（8分钟）

教师从逻辑回归关注所有样本点（即使是已经正确分类的远点）的缺陷出发，提出SVM的核心洞见：只关注最难分类的少数点（支持向量）。二维平面演示最大间隔超平面，强调间隔γ=1/||w||的几何意义。

（2）凸优化建模（17分钟）

形式化定义函数间隔ŷ=y(w^Tx+b)与几何间隔γ=ŷ/||w||，推导SVM原始问题：min1/2||w||^2s.t.y_i(w^Tx_i+b)≥1。此处是【非常重要】的数学建模训练。教师放慢节奏，逐一解释约束条件的合理性，并指出硬间隔SVM要求数据完全线性可分。

（3）对偶与核技巧（20分钟）

介绍拉格朗日乘子法将原始问题转化为对偶问题，推导对偶形式max∑α_i-1/2∑∑α_iα_jy_iy_jx_i·x_j，揭示对偶优势：目标函数中仅出现样本内积。此时抛出核函数：将低维内积替换为高维映射后的内积K(x_i,x_j)=φ(x_i)·φ(x_j)，而不必显式定义映射φ。教师演示线性核、多项式核、RBF核在环形数据集上的决策边界差异，并解释RBF核的超参数γ控制高斯钟罩宽度【高频考点】。

（4）SMO算法思想（5分钟）

简要介绍序列最小优化如何每次固定两个乘子迭代求解，不展开复杂数学细节，只强调其分治策略与坐标下降法的关联。

第六课时：模型评估与项目实训

（1）混淆矩阵全解析（12分钟）

以医疗诊断为背景，详细阐释准确率、精确率、召回率、F1-score、ROC曲线与AUC值。特别强调正负类不平衡时准确率的误导性：当负类占99%时，全部判负准确率99%但毫无价值【重要】。学生现场计算病例数据集的各类指标，并调整决策阈值观察精确率-召回率权衡曲线。

（2）交叉验证实践（10分钟）

对比留出法、K折交叉验证、留一法、重复交叉验证的偏差方差权衡。学生在房价数据集上比较5折与10折CV的模型选择结果，发现折数过多计算量激增且方差加大。

（3）偏差方差拆解（10分钟）

教师通过经典靶心图直观解释偏差（准确度）与方差（精确度）的含义，并推导期望泛化误差=偏差^2+方差+噪声。学生将多项式回归的阶数从1增至10，观察拟合曲线从欠拟合（高偏差）到过拟合（高方差）的动态变化。

（4）微型项目挑战（15分钟）

发布“房价预测”精简数据集，要求学生以小组为单位，在20分钟内完成“数据清洗→特征工程→模型选型（至少对比线性回归、决策树、随机森林）→超参数调优（网格搜索）→评估报告”全流程。教师观察各组策略，重点指导陷入局部最优、混淆回归与分类任务的小组。

（5）成果互评（3分钟）

随机抽取两组展示实验日志与模型卡，其他组依据“模型性能”“过程规范性”“创新点”“伦理反思”四维度进行钉钉评分，系统自动生成雷达图。

（三）课后拓展与迁移

1.必做作业：完成课程平台上的“手写数字识别”编程题，要求分别用逻辑回归（OvR）、决策树、三层MLP实现，并提交包含训练曲线、混淆矩阵、错误案例分析的对比分析报告【重要】。

2.选做挑战：在Kaggle“房价预测”竞赛中进入前20%，或在阿里天池“零基础入门数据挖掘”赛道获得银牌以上，可获得课程荣誉勋章及企业内推机会【热点】。

3.跨学科阅读：精读《统计学习基础》第7章（模型评估）与《为什么：因果关系新科学》第4章（干预与反事实），撰写1500字读书笔记，链接统计学推断

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

本科三年级计算机科学“机器学习模型”单元教学设计

文档简介

温馨提示

最新文档

评论

本科三年级计算机科学“机器学习模型”单元教学设计

文档简介

温馨提示

最新文档

评论

相关文档