本科三年级人工智能专业:智能系统鲁棒性设计高阶教案_第1页
本科三年级人工智能专业:智能系统鲁棒性设计高阶教案_第2页
本科三年级人工智能专业:智能系统鲁棒性设计高阶教案_第3页
本科三年级人工智能专业:智能系统鲁棒性设计高阶教案_第4页
本科三年级人工智能专业:智能系统鲁棒性设计高阶教案_第5页
已阅读5页,还剩8页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科三年级人工智能专业:智能系统鲁棒性设计高阶教案

一、课程基本信息

(一)学科与学段定位

本教案服务于本科三年级人工智能专业核心必修课程“智能系统设计”,开课学期为第六学期。学生已完成机器学习、深度学习、概率论与数理统计等前置课程,具备神经网络的构建与训练能力,熟悉Python及PyTorch/TensorFlow框架。学段特征表现为学生正处于从“实现模型功能”向“保障模型可靠”的思维范式转型期,对模型在非理想环境下的失效机理缺乏系统认知,尚未建立安全可信人工智能的工程伦理意识。

(二)课时分配与教学环境

总计4学时,每学时50分钟,建议安排在一周内完成前三个学时的集中授课与第四个学时的项目工作坊。教学环境需具备交互式编程条件:教师机与学生机均预装深度学习环境,支持JupyterNotebook云端协同;局域网内搭建共享模型仓库与对抗攻击基准库(Foolbox4.0、CleverHans4.0);配备智慧电子白板用于实时数据可视化与小组战报共享。

(三)核心素养指向

本课指向中国工程教育专业认证标准中的“问题分析”“设计/开发解决方案”及“使用现代工具”三项毕业要求指标,同时融入IEEE全球人工智能伦理系统标准,强化学生在高风险智能应用中的社会责任感。

二、教学目标体系

(一)知识与技能目标

1.精准辨析鲁棒性、泛化性、稳定性三个易混淆概念的数学内涵,能够从损失地貌与决策边界两个视角可视化描述非鲁棒现象。【基础】【高频考点】

2.独立复现快速梯度符号法、投影梯度下降法及卡里尼-瓦格纳攻击,并定量分析扰动范数、迭代步长与攻击成功率之间的函数关系。【重要】【难点】

3.运用对抗训练、输入随机平滑及集成防御三类策略,为图像分类模型构建具备基本防御能力的鲁棒化版本,并在给定威胁模型下评测其鲁棒准确率。【核心】【热点】

4.基于蒙特卡洛丢弃与深度集成两种近似贝叶斯方法,量化模型认知不确定性,构建分布外检测流水线,输出不确定性热力图与接收者操作特征曲线下面积。【难点】【前沿】

(二)过程与方法目标

经历“威胁建模—防御迭代—验证归因”的完整工程闭环,掌握从单一攻击复现到系统级鲁棒加固的迭代设计方法论,形成对抗性思维与概率思维互补的认知结构。

(三)情感态度与价值观目标

深刻理解智能系统鲁棒性缺失在自动驾驶、智慧医疗、金融风控等场景中可能引发的伦理事故,树立“可解释、可问责、可信赖”的人工智能研发价值观,拒绝技术中立论。

三、教学重点、难点与热点标记

【重点·核心】对抗攻击的梯度解释框架、对抗训练的极小极大优化本质、鲁棒性评估的双维度指标(干净准确率与对抗准确率)。此部分需占用理论讲授60%的权重,确保学生不迷失在代码细节中。

【难点·抽象】贝叶斯神经网络认知不确定性建模的数学动机、鲁棒性与准确性的帕累托最优边界、认证鲁棒性中的区间传播思想。此处采用黑箱接口化策略,避免陷入变分推断推导。

【热点·前沿】大语言模型的提示词越狱攻击、多模态模型跨模态对抗样本生成、物理世界对抗补丁对目标检测系统的欺骗。这些内容以案例集锦形式嵌入导入与拓展环节,不展开理论推演。

四、教学整体策略

采用“认知冲突螺旋”与“工程能力螺旋”双螺旋耦合策略。认知螺旋沿“为什么鲁棒性不等于泛化性—攻击如何欺骗梯度—防御如何在博弈中进化—不确定性如何量化未知”上升;工程螺旋沿“代码复现攻击—参数调优防御—指标解读报告—系统集成验证”上升。全程穿插即时编程(LiveCoding)与反刍式反思日志,避免单向宣讲。

五、教学资源与准备

教师端:预置在ImageNet-1k子集上训练完成的ResNet-50标准分类器、已进行对抗训练的鲁棒分类器(采用PGD-7训练)、经过蒙特卡洛dropout改造的贝叶斯ResNet-18。提供FGSM、PGD、CW三种攻击的封装类,支持一键生成对抗样本并计算准确率衰减。

学生端:每人分配一台配置单张T4显卡的云端虚拟机,预装PyTorch2.0、Foolbox3.0、Pyro概率编程库。课前分发阅读材料包,包含Goodfellow2015年《ExplainingandHarnessingAdversarialExamples》核心章节译文及Szegedy2014年对抗样本开山论文摘要,要求学生归纳出“线性解释”这一关键假说。

六、教学实施过程(核心环节,占全文篇幅85%以上)

(一)第一学时:认知解构——从“模型准确”到“模型脆弱”的范式冲击

1.阈值时刻:对抗样本的视觉冲击(00:00—10:00)

教师打开预训练ResNet-50,实时拍摄教室内的水杯,模型输出“waterbottle”置信度0.97。随后加载预先生成的对抗扰动,叠加扰动后的图像人眼毫无变化,模型却以0.91的置信度输出“spacebar”(计算机键盘空格键)。课堂瞬间爆发惊叹与质疑。教师立即组织“两分钟快写”:请学生在便签纸上写下此刻对“智能系统可靠性”的原始认知。抽取两份展示:一份认为“模型被耍了,不靠谱”;另一份认为“噪声刚好激活了错误特征”。教师不急于纠正,而是将这些便签贴于黑板左侧,留作学后反思锚点。【非常重要】【热点】

2.鲁棒性的形式化定义与范畴澄清(10:00—24:00)

教师以数学语言严格构建定义:对于分类器f:X→Y,给定输入x,真实标签y,允许扰动集Δ(通常为L_p球,p=1,2,∞),若∀δ∈Δ,均有f(x+δ)=y,则称f在点x处关于Δ局部鲁棒。进一步定义全局鲁棒度为满足局部鲁棒的点在测试集中的比例。此处必须完成两个关键辨析:其一,鲁棒性≠泛化性——泛化性衡量模型在测试集(与训练集同分布)的平均表现,鲁棒性衡量模型在最坏情况扰动下的表现;其二,高准确率模型可能极度非鲁棒,引用经典实验:在CIFAR-10上准确率94%的模型,在ε=8/255的L∞扰动下准确率可骤降至0%。教师展示该实验原始折线图,学生形成第一个认知转折:准确率不能作为模型质量的唯一指标。【基础】【高频考点】【非常重要】

3.威胁模型图谱与扰动范数几何(24:00—38:00)

系统展开攻击者视角:白盒攻击(梯度完全可访问)、黑盒攻击(仅能查询输出置信度)、物理世界攻击(贴纸、光照、角度)。针对L0、L2、L∞三种常用范数,教师使用二维t-SNE降维可视化MNIST数字在潜空间中的流形,演示在L2球内移动时数字“7”如何连续变形至“1”。学生观察到某些方向仅需微小移动即可跨过决策边界,直观理解“线性特性假说”——高维空间中的线性行为是模型脆弱的根源。此环节教师仅做引导,学生通过交互式三维图旋转观察决策边界附近的对抗流形。【难点】【基础】

4.概念锁定与即时诊断(38:00—48:00)

匿名投票系统推送三道单选题:问题1,下列哪一项最能体现鲁棒性缺失?A.测试集比训练集准确率低8%;B.添加肉眼不可见噪声后分类错误;C.模型在光线变化下性能下降。正确选项B,但预计混淆度极高,错误率可能达40%。教师不直接公布答案,而是随机邀请选A与选C的学生阐述理由,在辩论中暴露其将“鲁棒性”混同于“泛化性”或“光照不变性”的错误。最终由教师收束:鲁棒性特指针对恶意构造、微小且定向扰动的稳定性,不同于自然分布偏移。此辩论过程极其重要,是后续所有内容的认知地基。【重要】

5.悬念设伏(48:00—50:00)

展示Goodfellow论文中的核心公式:x_adv=x+εsign(∇_xJ(θ,x,y))。教师表示此即上图中生成对抗样本的“魔法公式”,但暂不解构,而是布置课后思考题:如果已知攻击生成方法,能否让模型在训练阶段就见过这种攻击?从而为第二学时对抗训练埋下伏笔。

(二)第二学时:攻防博弈论——从梯度欺骗到对抗训练

1.快速梯度符号法的数学解剖(00:00—15:00)

回到上节课悬念,逐像素拆解FGSM。从交叉熵损失出发,损失函数J对输入x的梯度指向使损失增加最快的方向。sign函数取其符号,使扰动方向与梯度方向一致,达到“以最快速度误导模型”的效果。教师现场编写不超过15行PyTorch代码,在预训练ResNet-18上对单张图像计算梯度、叠加扰动并展示推理结果。学生同步在自己的笔记本上复现,教师巡回指导,解决张量梯度保留与in-place操作报错等常见问题。此环节不允许使用封装库,必须手工实现梯度提取与扰动叠加,以夯实理解。【基础】【高频考点】【非常重要】

2.投影梯度下降法:迭代的力量(15:00—28:00)

将单步攻击推广至多步:x^{t+1}=∏_{x+Δ}(x^t+αsign(∇_xJ))。教师强调PGD的本质是“在一阶信息下寻找局部最优点”,同时引入随机重启机制增加攻击多样性。展示对比实验:在同一个模型上,FGSM攻击成功率为63%,而PGD-40可达91%。学生对此产生浓厚兴趣,教师顺势引导:PGD之所以更强,是因为它反复修正方向,类似梯度下降的“攻击版”。此处理论难度较高,但教师仅要求学生理解迭代能逼近更强对抗样本,不要求掌握收敛性证明。【难点】【热点】

3.对抗训练:极小极大博弈(28:00—43:00)

正式提出对抗训练的核心范式:min_θE_{(x,y)~D}[max_{δ∈Δ}J(θ,x+δ,y)]。将内层最大化视为攻击者,外层最小化视为防御者,形成鞍点优化问题。教师打开预置的两种模型:标准训练模型与PGD-7对抗训练模型,并展示二者在干净测试集与PGD-40攻击下的准确率对比。学生观察到对抗训练模型干净准确率从94%降至83%,但对抗准确率从0%升至52%。教师阐释“鲁棒性与标准准确率的权衡”,类比经济学中的效率与公平,并提出本节课核心工程命题:鲁棒性提升必然以牺牲部分标准性能为代价,工程师的任务是寻找可接受的帕累托点。【核心】【高频考点】【非常重要】

4.防御工具箱的多样性瞥见(43:00—48:00)

为避免学生形成“防御=对抗训练”的狭隘认知,简要扫描其他防御策略:输入变换防御(JPEG压缩、总变分最小化)试图在推理阶段净化对抗噪声;随机防御(随机填充、随机平滑)通过注入随机性破坏攻击的梯度计算;集成防御利用多模型投票平滑决策边界。其中对随机平滑稍作展开——它将基分类器转化为平滑分类器,通过统计假设检验提供可认证的鲁棒半径。教师播放一段预录动画,展示随着平滑噪声增大,认证半径扩大但标准准确率下降。学生初步建立“可证明鲁棒”的概念,为第四学时验证部分做铺垫。【重要】【热点】

5.学时收束与过渡任务(48:00—50:00)

展示一幅攻防对抗螺旋上升的示意图,指出单纯对抗训练难以应对未知攻击类型,且对计算资源消耗巨大。布置微型作业:修改教师提供的对抗训练脚本,尝试将PGD步数从7改为3或15,观察对抗准确率与训练时间的变化,并要求学生尝试从工程角度解释边际效应递减现象。

(三)第三学时:未知之知的量化——贝叶斯视角下的鲁棒性

1.认知不确定性引入:模型知道自己不知道吗(00:00—12:00)

教师展示经典实验:在SVHN(街景门牌号)数据集上训练一个准确率96%的CNN,随后输入一张CIFAR-10(通用物体)图像——该图像完全不在SVHN分布内。标准softmax输出给出“数字5”置信度0.92,模型极其自信却完全错误。学生产生第二次认知危机:模型不仅脆弱,而且对自身的脆弱毫无感知。教师定义两种不确定性:偶然不确定性(数据内在噪声,如模糊标签)与认知不确定性(模型知识缺失,如未见过的分布)。鲁棒性设计不仅要防御恶意扰动,还要在遇到分布外样本时拒绝回答或输出不确定性。【基础】【难点】【高频考点】

2.贝叶斯神经网络的工程捷径(12:00—30:00)

明确表示不进行贝叶斯公式的复杂变分推导,而是直接进入两个可落地的工程近似。其一,蒙特卡洛dropout:将测试时dropout层保持激活,多次前向传播得到预测分布,分布的方差即为认知不确定性度量。教师现场演示:在MNIST手写数字上叠加高斯模糊,标准模型输出从“7”漂移至“2”时置信度始终高于0.9;而开启MC-dropout后,随着模糊程度增加,预测分布的熵急剧上升,方差显著扩大。其二,深度集成:训练多个不同初始化、不同数据打乱顺序的模型,利用集成输出的分歧度衡量不确定性。学生通过教师下发的预计算文件,在Excel中排序即可发现,分布外样本的集成分歧度通常是分布内样本的3-5倍。【重要】【热点】【难点】

3.分布外检测工程流水线(30:00—42:00)

将不确定性分数转化为OOD检测器:设定阈值τ,若不确定性分数(如预测熵、互信息方差)高于τ则判定为OOD,否则为ID。对比三种基线方法:最大softmax概率(MSP)、MC-dropout熵、深度集成KL散度。教师下发小型数据集(ID为CIFAR-10,OOD为SVHN),学生分组计算三种方法的AUROC指标。结果发现MSP的AUROC仅0.78,而MC-dropout可达0.92。学生亲手验证了不确定性量化对OOD检测的显著增益,此环节极大激发了学生的成就感。【核心】【高频考点】【热点】

4.校准:让置信度诚实(42:00—48:00)

指出对抗训练后的模型往往过度自信——对对抗样本仍输出高置信度错误标签。引入可靠性曲线(ReliabilityDiagram):将预测置信度分桶,每个桶内计算真实准确率。理想校准模型的点应落在对角线上。教师展示ECE(期望校准误差)指标,并演示温度缩放(TemperatureScaling)这一后处理校准方法。学生运行一行代码即可完成校准,并观察可靠性曲线向对角线靠拢。教师强调:鲁棒的模型不仅应该正确,还应该在错误时知道可能错误。【重要】【难点】

5.项目预热与工具铺垫(48:00—50:00)

布置课前微型挑战:使用教师提供的基于WideResNet的CIFAR-10贝叶斯模型(已集成MC-dropout),为测试集计算不确定性分数,并找出不确定性最高的20张图像。学生将发现这些图像多为模糊、遮挡或存在多个物体的难例,从而将“不确定性”与“数据质量”建立直观联结。

(四)第四学时:系统级鲁棒工程——从单一防御到综合验证

1.鲁棒性验证方法论俯瞰(00:00—12:00)

区分经验鲁棒性与认证鲁棒性。经验鲁棒性通过攻击测试获得,只能证明存在漏洞,无法证明没有漏洞;认证鲁棒性通过形式化方法(区间传播、线性松弛、SMT求解)提供数学保证。教师以最简单的区间传播为例:将输入扰动区间逐层传播至输出层,若输出层的类别区间不重叠,则可证明鲁棒。由于数学复杂度高,此处仅播放抽象动画:绿色立方体表示输入扰动域,经过网络传播后变成不规则形状,但始终未触碰错误类别区域。学生只需建立“可证明安全”这一高阶概念,知道它不是神话,而是有严格数学工具的。【基础】【热点】

2.鲁棒性评估指标矩阵(12:00—20:00)

系统化呈现多维评估框架,打破唯攻击成功率论。教师展示一个雷达图,包含五个维度:干净准确率(标准性能)、对抗准确率(ε=8/255,PGD-100)、认证准确率(ε=2/255,区间传播)、平均扰动距离(决策边界距离)、OOD检测AUROC。强调必须联合报告,任何单指标都存在片面性。例如一个将所有输入都随机分类的模型,对抗准确率可能极高,但干净准确率极低,毫无实用价值。学生通过此环节学习到如何批判性阅读鲁棒性论文中的表格。【重要】【高频考点】

3.项目式挑战:攻防演练场(20:00—45:00)

全班分为八组,每组4人。教师分发四个不同的预训练模型(模型A:标准训练;模型B:PGD对抗训练;模型C:MC-dropout贝叶斯模型;模型D:随机平滑模型),每个模型被两个小组同时评测以形成对照组。任务分为两个阶段:攻击阶段,各组使用Foolbox工具箱对组内模型发起黑盒攻击(仅访问输出logit),限制扰动L∞ε=8/255,目标是使模型错误分类,记录攻击成功率;防御阶段,各组为模型附加至少一层防御组件(可选输入高斯噪声、JPEG压缩、集成投票等),再次评测攻击成功率及干净准确率衰减。教师提供在线协作文档,各组实时填写“攻防战报”,包含模型代号、攻击成功率、防御后干净准确率、防御后对抗准确率、以及一句“工程发现”。此时课堂氛围达到高潮,学生激烈讨论攻击参数与防御组件选择,频繁出现不同组对同一模型攻击成功率相差20%以上的情况。教师巡回介入,引导分析差异原因——往往是攻击迭代次数或是否使用目标攻击所致。此环节将前三学时全部知识压缩进45分钟的真实工程决策中,学生亲身感知鲁棒性设计无银弹,必须在多个指标间痛苦权衡。【核心】【非常重要】【热点】

4.战报解读与辩证反思(45:00—48:00)

随机抽取战报差异最大的两组进行汇报。一组成功用PGD-100攻破了随机平滑模型,攻击成功率达78%;另一组通过集成三个模型,将对抗准确率从22%提升至51%,但干净准确率从93%降至86%。教师引导全班提炼三条工程箴言:第一,没有绝对鲁棒的模型,只有特定威胁模型下的鲁棒;第二,防御通常会带来标准性能损失,优秀的工程师应量化该损失并判断是否在业务容忍范围内;第三,不确定性量化与对抗防御是互补工具,前者解决“不知道是什么”,后者解决“被恶意欺骗”。关联IEEE7009-2023《可信任人工智能系统可靠性标准》草案,强调鲁棒性设计已从学术研究走向行业合规要求。【重要】

5.学科展望与价值升华(48:00—50:00)

教师展示当前鲁棒性研究的前沿交叉方向:贝叶斯对抗学习(将对抗分布纳入先验)、大语言模型的越狱红队自动化、多模态视觉语言模型的跨模态对抗攻击。推荐高阶课程《可信人工智能导论》与《人工智能安全与隐私》。最后,回到第一学时初贴于黑板的“快写便签”,请学生重新审视自己最初的认知,并口头总结这节课如何颠覆了自己对“智能”的理解。多名学生自发表示,以前认为AI就是追求更高准确率,现在认识到真实世界的AI必须谦卑——知道何时该拒绝、如何不被欺骗。教师以此升华:技术理性与伦理温度不可分割,鲁棒性设计是工程师对生命与财产安全的无声承诺。

七、学习评价与反馈设计

(一)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论