版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本科三年级人工智能专业:《基于深度学习的计算机视觉应用》教案
一、课程基本信息
(一)课程名称
基于深度学习的计算机视觉应用
(二)授课对象
本科三年级人工智能专业学生
(三)课程性质
专业核心必修课
(四)学时安排
总学时48学时,理论32学时,实验16学时。本教学设计聚焦于理论讲授与课堂研讨环节,对应第5至第8教学周,共计8学时。
(五)先修课程
高等数学、线性代数、概率论与数理统计、Python程序设计、机器学习基础、神经网络与深度学习导论。
二、教学内容与目标体系
(一)教学内容结构化要点与核心知识图谱
本课程以“视觉感知—特征提取—语义理解—系统实现”为主线,按照工程认知规律重构知识模块。所有内容依据认知负荷理论与深度学习发生机制进行梯度化排布,并明确标注其在知识体系中的价值层级与考核指向。
模块一:计算机视觉认知基础
1.视觉信息处理的生物学启示与计算机视觉学科范式【基础】
2.图像数字化与表示模型:像素空间、颜色空间(RGB,HSV,Lab)【基础】【高频考点】
3.图像滤波与特征工程:边缘检测(Sobel,Canny)、角点检测(Harris)、纹理特征(LBP,HOG)【重要】【热点】
4.从传统视觉到深度视觉的范式转换动因【基础】
模块二:卷积神经网络理论纵深
5.卷积神经网络的层级结构与设计哲学【核心概念】【非常重要】
6.卷积层:卷积核、步长、填充、权值共享、感受野【高频考点】【必考】
7.池化层:最大池化、平均池化、全局平均池化【重要】【高频考点】
8.激活函数:Sigmoid,Tanh,ReLU及其变体(LeakyReLU,PReLU,Swish)【基础】【高频考点】
9.批归一化与层归一化【重要】【热点】
10.经典卷积神经网络架构演进脉络:AlexNet,VGGNet,GoogLeNet(Inception系列),ResNet,DenseNet,MobileNet【非常重要】【高频考点】【历年真题】
11.感受野计算与网络宽度/深度权衡【难点】
模块三:计算机视觉核心任务与深度模型
12.图像分类:从LeNet-5到EfficientNet,分类头设计与损失函数(Softmax+交叉熵)【核心】【非常重要】
13.目标检测:两阶段(R-CNN,FastR-CNN,FasterR-CNN,MaskR-CNN)与单阶段(YOLO系列,SSD,RetinaNet)【核心】【热点】【竞赛高频】
14.语义分割:全卷积网络(FCN)、U-Net、DeepLab系列【重要】【前沿】
15.实例分割与全景分割【热点】【进阶】
16.人脸识别:FaceNet,ArcFace,三元组损失【重要】【高频应用】
17.姿态估计与行为识别【热点】【交叉学科】
模块四:生成模型与视觉表示学习
18.自编码器与变分自编码器(VAE)【基础】
19.生成对抗网络(GAN)及其变体(DCGAN,CycleGAN,StyleGAN)【重要】【热点】
20.自监督学习与对比学习(SimCLR,MoCo)【前沿】【难点】
21.视觉Transformer(ViT,SwinTransformer)【热点】【趋势】
模块五:计算机视觉工程与伦理
22.模型压缩与加速(剪枝、量化、蒸馏)【重要】【工程必用】
23.视觉系统的鲁棒性与对抗攻击【难点】【热点】
24.视觉伦理:隐私保护、偏见消除、可解释性【热点】【思政融入】
(二)教学目标层级化表述
25.知识与技能目标
系统掌握计算机视觉的核心任务定义、数学建模方法与深度神经网络实现路径。能够准确复述卷积运算的本质、经典网络的架构特征及损失函数的适用场景。具备根据具体视觉任务选择、调试并优化深度学习模型的能力。能够使用PyTorch或TensorFlow框架完成图像分类、目标检测等典型项目的代码实现与性能评估。
26.过程与方法目标
通过“问题链—实验对比—原理抽象”的认知路径,经历从感知任务到数学建模再到算法落地的完整思维过程。在小组协作式项目制学习中,体验工业级视觉系统的研发流程,包括数据清洗、模型选型、超参数调优、边缘部署等环节。掌握文献追踪、代码复现、实验设计、学术写作等研究生阶段必备的科研素养。
27.情感态度与价值观目标
建立对计算机视觉学科严谨性的敬畏,理解算法背后蕴含的统计思维与优化思想。通过剖析人脸识别中的偏见问题与自动驾驶的安全伦理困境,形成技术向善的价值取向,增强作为人工智能从业者的社会责任意识。在对抗生成网络等前沿技术的学习中培养创新自信与批判性思维。
三、教学重点与难点深层解构
(一)教学重点【非常重要】【高频考点密集区】
1.卷积神经网络的前向传播与反向求导机制。不仅是公式记忆,更要求从张量维度变化视角理解信号流动。
2.ResNet残差结构与梯度消失问题的解决原理。需从数学上证明恒等映射对梯度传播的改善。
3.目标检测中Anchor机制、IoU计算、NMS后处理的算法逻辑。这是从图像分类迈向空间定位的关键思维跃迁。
4.损失函数的设计哲学:分类任务中的Softmax与多任务损失联合优化。
(二)教学难点【难点】【认知负荷高点】
5.反向传播过程中卷积核梯度的推导。学生往往无法将全连接层的链式法则迁移至卷积层,对im2col与imgradient关系存在认知障碍。
6.感受野的递归计算与空洞卷积对感受野的扩张机制。
7.生成对抗网络的纳什均衡理解及训练不稳定性的数学根源。
8.自注意力机制在视觉Transformer中对图像位置信息的编码策略。
四、教学策略与方法论架构
本教案采用“三层递进、双线并进”的教学策略。三层递进指从“原理验证”到“任务驱动”再到“创新探究”的认知梯度;双线并进指理论推演线与代码实战线并行推进,每一核心原理均在课堂内通过即时编程片段或伪代码可视化进行具象化映射。具体方法包括:概念冲突引入法、历史演进对比法、文献精读还原法、工程问题回溯法、代码断点调试法。全程融入计算思维与系统论视角,强调从算法到芯片、从模型到产品的全链路认知。
五、教学资源与环境配置
1.物理环境:智慧教室,配备双屏交互系统,一屏用于理论推演板书(支持手写笔迹),一屏用于实时代码演示与可视化结果投射。小组讨论区配备可拼接白板。
2.数字资源:自建课程门户,包含每一讲次的JupyterNotebook原型代码、预训练模型权重、经典论文PDF及精读批注版。配置校内GPU服务器集群,学生可通过Web终端远程提交训练任务。
3.工具链:PyTorch2.0为主框架,搭配TensorBoard、Netron(模型结构可视化)、Grad-CAM(类别激活热力图)等辅助工具。版本控制采用GitHubClassroom进行作业管理。
六、教学实施过程(核心环节,占总体量85%)
本部分以第5周“卷积神经网络精要”与第6周“目标检测的谱系与突破”两个典型连续教学单元为例,展开微观层面的实施细节。整个过程严格遵循“前情激活—认知冲突—原理建构—迁移验证—元认知反思”的五环节闭环设计。
(一)第5周教学实施:卷积神经网络的几何直觉与代数本质
1.课前自主学习阶段(翻转前置)
发布微课视频“从全连接层到卷积层的范式革命”,时长为12分钟。视频中设置三个嵌入问题:①为什么全连接网络处理图像时参数量会爆炸?②卷积操作如何利用平移等变性?③边缘检测的Sobel算子与可学习的卷积核有何本质异同?要求学生在课程论坛提交书面思考,作为课堂研讨的入场券。此环节通过低负荷认知铺垫,将课堂时间释放给高阶思维活动。【重要】【前置任务】
2.课中实施流程(90分钟)
(1)导入与前情诊断(8分钟)【认知冲突触发】
教师展示一张224×224的彩色猫图像,提问:“若使用单隐藏层、神经元数为1024的全连接网络对其进行分类,请估算第一层权重的参数量。”学生计算得出约1.5亿后集体震惊。教师顺势呈现AlexNet在2012年的突破性成果,引出核心矛盾:大量参数并非性能的充分条件,结构归纳偏置才是关键。由此将问题聚焦于“卷积核为何是计算机视觉的上帝视角”。此处设置等级标记:卷积核权值共享与局部连接【核心概念】【非常重要】。
(2)卷积运算的多模态表征(22分钟)【概念深度加工】
本环节采用“三表征联动”教学法。第一表征:符号表征。教师在左屏板书卷积定义的离散形式:S(i,j)=(I*K)(i,j)=∑m∑nI(i+m,j+n)K(m,n)。第二表征:图像表征。右屏运行Python脚本,动态演示一个3×3卷积核在5×5特征图上滑动的过程,每一位置输出值实时计算并填入结果矩阵。第三表征:物理表征。教师使用点阵教具(磁性方格板)让学生上台手动模拟卷积过程,体会覆盖区域与输出像素的一一对应关系。之后立即进行变式训练:将步长由1改为2、填充方式由valid改为same,请学生在草稿纸上迅速推演输出尺寸变化并口述规律。此处嵌入高频考点:输出特征图尺寸计算公式O=(W-K+2P)/S+1【高频考点】【必考】。教师随即追问:“若输入是RGB三通道图像,卷积核应如何设计?”引出三维卷积核与通道维求和机制,这是连接图像分类与目标检测的认知踏板。
(3)感受野的递归计算与层级抽象(20分钟)【难点突破】【非常重要】
教师以VGG16为例,带领学生逐层计算最后一层特征图相对于输入图像的感受野。此处不使用现成公式灌输,而是采用“逆向传播法”:从当前层出发,反向推导前一层的映射区域。教师板书递推公式:r_l=r
(l-1)+(k_l-1)*∏
(i=1)^(l-1)s_i,并通过可视化工具展示低层网络学到的是边缘、纹理,高层网络学到的是五官、物体。在此基础上引入空洞卷积,提出认知挑战:“不增加参数量,如何指数级扩大感受野?”学生小组讨论三分钟,代表发言,教师总结空洞卷积的插零原理并展示其在语义分割中的优势。此环节设置难点标记:【难点】【高频竞赛点】。
(4)激活函数与批归一化的协同效应(18分钟)【实验对照教学】
教师呈现一组对比实验数据:在CIFAR-10数据集上训练一个8层CNN,分别使用Sigmoid、ReLU、Swish激活函数,记录收敛曲线。学生直观观察到Sigmoid导致的梯度饱和与收敛停滞。教师随即板书ReLU的数学形式f(x)=max(0,x),并绘制导数图像,从梯度流动角度解释其优势。紧接着展示未使用批归一化时训练曲线剧烈震荡的现象,教师引入内部协变量偏移概念。此处不是简单陈述定义,而是通过小样本代码演示:打印每一层激活值的均值与方差分布,发现随训练推进分布严重偏移。进而引出批归一化算法流程,并要求学生在纸上默写训练与推理阶段不同的归一化统计量计算方式。教师总结:BN层不仅加速收敛,更具备一定的正则化效果,是深度网络起飞的助推器。【重要】【高频考点】
(5)经典网络架构的演进逻辑(15分钟)【历史视角嵌入】
本环节采用“思想实验”法。教师抛出问题:“假如你是2014年的研究者,你已经知道AlexNet的成功秘诀是ReLU+Dropout+GPU并行,但你认为网络还可以更深,你会遇到什么困难?”学生自然推导出梯度弥散问题。教师顺势展示VGG通过堆叠小卷积核增加深度的方案,并组织学生快速计算两个3×3卷积堆叠的感受野等价于一个5×5卷积,但参数量更少。紧接着提出残差连接这一革命性思想,教师展示ResNet中恒等映射支路,板书推导:若H(x)=F(x)+x,则对x的梯度恒包含常数项1,有效避免梯度消失。这一数学证明是区分机械记忆与深度理解的关键分水岭。【非常重要】【历年真题核心】
(6)课堂形成性评价与即时反馈(7分钟)
利用智慧教室投票系统推送5道选择题,涵盖卷积核维度变化、感受野计算、ResNet原理等。正确率低于70%的题目立即进入微讲解环节,针对错误率最高的“空洞卷积感受野计算”进行二次强化。课后习题分层布置:基础层要求复现LeNet-5并在MNIST上达到99.2%准确率;进阶层要求修改ResNet18代码,替换激活函数并撰写实验报告;挑战层要求阅读RepVGG论文并阐述结构重参数化思想。【重要】【差异化教学】
3.课后深度学习延伸
要求学生在GitHubClassroom拉取本次课的代码仓库,完成两项任务:①使用Grad-CAM绘制ResNet50对猫狗图像的激活热力图,解释模型关注的区域;②撰写一篇300字左右的微反思,主题为“卷积神经网络学到了什么——从特征工程到特征学习”。此任务旨在打通传统视觉与深度学习的认知壁垒,培养可解释性思维。
(二)第6周教学实施:目标检测——从分类到定位的范式跨越
1.认知准备与前情激活(5分钟)
教师展示一张包含行人与车辆的街景图,提问:“我们已经掌握图像分类,模型输出一个标签。但现在不仅要说出图里有车,还要把车框出来,怎么办?”学生提出滑动窗口法。教师演示滑动窗口与图像金字塔的暴力枚举过程,并统计其计算量:若图像尺寸800×600,窗口尺寸64×64,步长8,需要遍历近10万次,每次都要前向传播。学生立刻意识到暴力法的不可行性。由此引出核心命题:目标检测必须共享卷积计算。此环节设置热点标记:【热点】【工业界高频面试题】。
2.两阶段检测器的思想精华(35分钟)【核心】【非常重要】
(1)R-CNN的启发与局限
教师以批判性视角还原R-CNN的原始贡献:选择性搜索生成候选区域、对每一区域缩放后单独分类。在肯定其开山地位的同时,指出其速度瓶颈(每张图47秒)。教师引导:“能否让卷积计算只做一次,然后所有候选区域共享特征?”学生自然推导出SPP-Net与FastR-CNN的改进思路。此处采用对比表格可视化(虽不使用表格框架,但通过段落对比描述清晰呈现演进脉络)。
(2)FasterR-CNN的划时代意义
教师将讲解重点落在RegionProposalNetwork。板书RPN的实质:在特征图上预设不同尺度与长宽比的Anchor,通过二分类分支判断前景/背景,通过回归分支微调边界框。此时学生最大的认知冲突在于:Anchor的坐标是特征图上的位置映射回原图的,涉及多次坐标系变换。教师采用分层拆解法:第一步,特征图上每个像素点映射回原图的感受野中心;第二步,以该中心生成k个Anchor;第三步,边界框回归学习的是相对于Anchor的偏移量。教师板书四个回归参数:t_x=(x-x_a)/w_a,t_y=(y-y_a)/h_a,t_w=log(w/w_a),t_h=log(h/h_a)。并特别强调对数空间预测宽高的原因:保证宽高为正且符合长尾分布。此乃高频考点中的难点。【难点】【高频考点】【必考】
(3)损失函数的多任务联姻
教师详细推导FasterR-CNN的总损失函数:L=L_cls+λL_reg。其中分类分支采用交叉熵损失,回归分支采用SmoothL1Loss。教师解释SmoothL1在误差较小时梯度平缓,在误差较大时梯度绝对值不超过1,避免离群点过度影响。此处要求学生手推SmoothL1的导数形式,并思考为何不直接用L2损失。
3.单阶段检测器的效率革命(20分钟)【热点】【工程必用】
(1)YOLO的核心思想:目标检测即回归
教师播放YOLOv1的演示视频,强调其将检测视为回归问题的简洁性:图像划分为S×S网格,每个网格预测B个边界框及类别概率。但随即揭示其缺陷:对小物体检测效果差、对重叠物体漏检。进而引出YOLOv3的多尺度预测与FPN结构,以及YOLOv4/v5在数据增强、激活函数、损失函数(CIoU)上的工程优化。此环节采用代码片段展示YOLOv3配置文件中Anchor的聚类生成逻辑。
(2)单阶段与两阶段的交锋
教师设置辩论环节:正方观点是两阶段精度高,反方观点是单阶段速度快适合部署。通过展示RetinaNet论文中的FocalLoss曲线,解释单阶段精度反超两阶段的秘诀——解决正负样本极端不平衡。板书FocalLoss数学形式:FL(p_t)=-α_t(1-p_t)^γlog(p_t),并引导学生对比交叉熵,理解调制因子如何让模型关注困难样本。此处标记【非常重要】【前沿热点】。
4.非极大值抑制与评价指标(12分钟)【工程实践必备】
(1)NMS的算法逻辑
教师模拟检测器输出:数十个重叠框。提问:“如何得到唯一的检测结果?”学生提出取置信度最高框、抑制重叠框。教师通过动画演示NMS迭代流程,并指出其缺陷:固定阈值对密集场景不友好。进而引出Soft-NMS,根据IoU值衰减置信度而非直接删除。此处布置随堂编程任务:在伪代码框架下补全NMS函数。
(2)mAP的计算全流程
这是学生极易混淆的环节。教师以三个真实框、五个预测框为例,手算Precision-Recall曲线及AP值。重点强调:AP是PR曲线下的面积,而非单一阈值下的精度。采用逐点描点法演示插值AP的计算。教师总结:mAP是目标检测领域的黄金标准,但其计算细节暗藏陷阱,不同竞赛版本略有差异。此环节设置【高频考点】【易错点】。
5.检测器思想在实例分割中的迁移(8分钟)
教师展示MaskR-CNN结构图,强调其核心改动:在FasterR-CNN基础上添加并行分割分支,且引入RoIAlign解决特征图与原始像素的对齐问题。通过对比RoIPool与RoIAlign的双线性插值操作,深化学生对“像素级任务对空间位置极度敏感”的认知。此处为下一讲语义分割埋下伏笔,体现课程内容的螺旋式上升。
6.综合迁移任务(10分钟)
提供一张包含密集小物体的航拍图,要求学生小组讨论:①选用两阶段还是单阶段检测器?为什么?②如何设计Anchor尺度?③若检测效果不佳,应从哪些维度优化?小组代表发言后教师归纳:小物体检测需要高分辨率特征图、更细致的Anchor设计、数据增强(马赛克、粘贴)等策略。此任务旨在训练学生系统化诊断模型问题的能力。【高阶能力】【项目化学习】
七、学习评价与反馈系统
本课程摒弃单一期末笔试,构建“过程性—表现性—终结性”三维评价体系。
(一)过程性评价(占比40%)
1.课堂应答系统即时诊断:每节课5道选择题,系统自动生成正确率报表,计入平时成绩20%。
2.论坛研讨贡献度:学生在课程论坛提出有价值问题或回复,教师点赞积分,每周公示积分榜,占比10%。
3.随堂代码片段提交:如手动实现卷积前向传播、NMS函数等,使用自动评分脚本检测输出结果正确性,占比10%。
(二)表现性评价(占比30%)
以小组为单位完成“视觉智能体”项目,周期贯穿整个学期。第6周需提交项目开题报告,包括:任务定义、数据集调研、基线模型选择、预期创新点。第12周进行中期答辩,展示基线结果与初步改进。第16周终期答辩需提交可演示原型系统、技术报告及反思日志。评价量规涵盖代码规范性、实验设计完整性、结果复现性、技术创新性、伦理分析深度五个维度。
(三)终结性评价(占比30%)
闭卷笔试。题型包括:概念辨析(如阐述池化层的平移不变性与等变性的区别)、计算推导(如给定网络结构计算参数量、感受野、梯度流)、方案设计题(如为无人割草机设计视觉感知模块,要求从传感器选型到模型轻量化给出全流程方案)、文献评述题(提供一篇2024年CVPR论文摘要,要求学生简述其创新点与局限性)。试题严格对标【高频考点】与【难点】分布。
八、课程思政与跨学科融汇
(一)思政要素浸润路径
1.在讲解人脸识别时,引入GenderShades项目,展示商业化人脸识别系统对深肤色女性错误率高达34.7%的事实。组织学生讨论:训练数据分布偏差如何导致算法歧视?作为工程师,应在数据采集环节承担什么责任?引导学生建立“公平、负责、透明”的AI伦理观。【热点】【社会责任】
2.在对抗生成网络模块,展示DeepFake换脸技术的社会危害,并讲解深度伪造检测技术的对抗演进。教育学生技术是中性的,但使用技
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江省宁波市2025-2026学年八年级上学期期末语文试题(解析版)
- 护理课件用户界面评分
- 急腹症患者的护理艺术
- 2026年山东省淄博市淄川区中考化学二模试卷(含答案)
- DB1410T 111-2020 防震减灾科普教育基地管理要求
- 慢性胃炎的护理职业发展
- 护理创新思维与实际效果
- 服装鞋帽销售合同
- 门窗代理销售合同
- 德国菲玛销售合同
- 学工部建设方案
- 2026四川成都市属国企成都交子金融控股集团有限公司招聘27人笔试参考试题及答案解析
- 2026年四川省成都市锦江区中考语文二诊试卷(含详细答案解析)
- 2025江苏省苏豪控股集团招聘笔试历年常考点试题专练附带答案详解
- 2026届深圳二模数学试题+答案
- 疟疾防治进校园宣传课件
- 2026年新教材统编版初中语文八年级下册文学常识与内容理解必考知识点清单(附练习题)
- 劳动合同解除流程及范本指南
- 小学六年级下册英语(译林版三起)单元整合复习教案
- 2025北京海淀区五年级(下)期末英语试题及答案
- 2025版CSCO前列腺癌诊疗指南
评论
0/150
提交评论