人工智能安全课件第5章后门攻击与防护

上传人：h*** IP属地：山东上传时间：2025-09-12 格式：PPTX 页数：35 大小：2.28MB 积分：15 举报 版权申诉

已阅读5页，还剩30页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

李剑博士，教授，博士生导师网络空间安全学院lijianeptember11,2025第5章后门攻击与防护本章介绍后门攻击是一种针对深度学习模型的隐蔽性安全威胁，其核心在于通过特定手段在模型训练阶段植入恶意机制。本章主要讲述概念、原理、分类以及常见的后门攻击与防护方法。知识要点：

掌握后门攻击的定义、核心目标及其潜在危害

掌握后门攻击的通用实现流程

熟悉典型后门攻击方法的实现逻辑与区别

了解后门攻击的防护与检测技术内容提纲5.3实践案例：基于BadNet模型的后门攻击5.2后门攻击的基础知识5.1后门攻击的概述5.4后门攻击的防护小结5.1后门攻击的概述5.1.1定义及背景这种攻击的独特之处在于，被植入后门的模型在绝大多数正常输入下表现与未受攻击的模型无异，但当输入样本包含攻击者预设的触发模式时，模型会执行预先设定的异常行为。这种触发模式可以是视觉可见的图案，也可以是经过精心设计的隐形扰动，甚至可能通过物理空间中的特定物体来实现。从技术实现层面来看，后门攻击主要依托两种途径：其一是通过训练数据投毒，攻击者在原始数据集中混入携带触发器的恶意样本，并强制模型建立触发器与目标错误分类之间的关联；其二是绕过数据层面的干预，直接对模型参数或训练过程进行篡改，例如通过权重扰动或硬件电路植入等手段。5.1后门攻击的概述5.1.1定义及背景

5.1后门攻击的概述5.1.2相关研究发展随着人工智能技术的广泛应用，深度学习模型的安全性日益受到关注。后门攻击作为数据投毒攻击的特殊形式，因其隐蔽性和持久性成为研究热点。近年来，研究者们在计算机视觉、自然语言处理和联邦学习等不同场景下对后门攻击进行了深入探索，揭示了新型攻击手段与防御机制间的博弈关系。

内容提纲5.3实践案例：基于BadNet模型的后门攻击5.2后门攻击的基础知识5.1后门攻击的概述5.4后门攻击的防护小结5.2后门攻击的基础知识5.2.1后门攻击的原理

5.2后门攻击的基础知识攻击的关键在于模型需同时满足两个看似矛盾的目标：一方面，在正常输入下的预测精度需与干净模型相当，以规避常规性能测试的检测；另一方面，对携带触发器的输入必须稳定输出ytarget，从而为攻击者提供可操控的入口。典型的后门攻击流程如图5-3所示。5.2后门攻击的基础知识5.2.2后门攻击的分类后门攻击作为深度学习中隐蔽性极强的威胁手段，其分类体系可从触发器的形态特征、攻击实施路径、攻击环境约束及生成逻辑等多个维度展开系统性剖析，分类示意如图5-4所示。5.2后门攻击的基础知识5.2.3常见的后门攻击方法本节将通过三个典型场景剖析后门攻击的实现路径与潜在危害，系统性揭示深度学习模型在开放生态下面临的多维度安全威胁。1.BadNets方法在深度学习技术蓬勃发展的背景下，模型训练的高昂计算成本催生了外包训练与迁移学习的广泛应用，却也悄然打开了安全威胁的闸门。BadNets作为这一领域的典型攻击案例，揭示了机器学习供应链中潜藏的致命漏洞——攻击者通过精心设计的后门植入，使得模型在常规场景下表现优异，却在特定触发条件下产生定向错误，如同在精密仪器中埋下定时炸弹。5.2后门攻击的基础知识2.TrojanNN方法在人工智能安全领域，神经网络木马攻击（TrojaningAttack）作为模型后门植入的典型案例，展现了深度学习模型在开放生态下面临的新型安全威胁。5.2后门攻击的基础知识3.隐蔽触发后门传统后门攻击方法如BadNets通过在训练数据中植入带有明显触发器的错误标签样本，使模型建立触发器与目标类别的关联。然而这类方法存在显著缺陷。针对上述方法的局限性，马里兰大学团队提出的"隐藏触发后门攻击"开创了新型攻击范式，其核心突破在于实现了"双隐"特性——毒化数据既保持视觉自然性又隐藏触发机制，直到测试阶段才由攻击者激活。内容提纲5.3实践案例：基于BadNet模型的后门攻击5.2后门攻击的基础知识5.1后门攻击的概述5.4后门攻击的防护小结5.3实践案例：基于BadNet模型的后门攻击5.3.1实践概述攻击目的：BadNets作为一种典型的神经网络后门攻击方式，其核心目标在于通过篡改模型的训练过程，使得模型在正常输入下表现良好，而在特定触发条件下产生攻击者预设的错误分类。换句话说，攻击者的目标是植入一种隐秘的机制，使得模型在面对正常样本时仍能保持较高的分类准确率，一旦输入数据中包含特定的触发器，模型的输出便会被操纵，从而实现攻击者的意图。5.3实践案例：基于BadNet模型的后门攻击5.3.2实践环境

Python：版本3.8或以上

torch（PyTorch）：用于构建、训练和评估神经网络

torchvision：用于加载和预处理MNIST数据集

pandas：用于存储和处理实验数据

tqdm：用于显示训练进度条

numpy：用于数据操作

scikit-learn（sklearn）：用于计算模型评估指标

PIL（Pillow）：用于处理图像数据（植入后门触发器）

argparse：用于解析命令行参数

pathlib：用于文件和目录管理

datetime：用于计算训练时间

os：用于路径管理

random：用于数据随机化5.3实践案例：基于BadNet模型的后门攻击5.3.3攻击步骤本节将以经典的BadNets攻击为例，结合MNIST手写数字数据集，通过代码复现完整的攻击链条，具体的实验流程如图5-8所示。5.3实践案例：基于BadNet模型的后门攻击5.3.4实践核心代码核心实验代码如下：1.数据集投毒处理：TriggerHandler类用于处理触发器图像的加载和注入操作。5.3实践案例：基于BadNet模型的后门攻击MNISTPoison类继承自MNIST类，重写了__getitem__方法，确保在加载数据时，如果样本是“投毒”样本，则会将触发器添加到图像中并修改标签。MNISTPoison类的初始化方法5.3实践案例：基于BadNet模型的后门攻击__getitem__方法5.3实践案例：基于BadNet模型的后门攻击2.模型构建BadNet继承自torch.nn.Module，这是PyTorch中所有模型类的基类。本模型通过若干卷积层、全连接层等构建。5.3实践案例：基于BadNet模型的后门攻击3.调整训练配置5.3实践案例：基于BadNet模型的后门攻击4.模型训练和评估加载数据集5.3实践案例：基于BadNet模型的后门攻击模型初始化并选择损失函数和优化器5.3实践案例：基于BadNet模型的后门攻击训练过程5.3实践案例：基于BadNet模型的后门攻击train_one_epoch函数的作用是执行一个完整的训练周期5.3实践案例：基于BadNet模型的后门攻击evaluate_badnets函数用于评估模型在两个数据集上的表现：正常数据集和含触发器数据集。5.3实践案例：基于BadNet模型的后门攻击eval函数用于计算模型在数据集上的准确率和损失5.3实践案例：基于BadNet模型的后门攻击5.3.5实践结果本实验基于MNIST数据集，通过BadNet模型进行了后门攻击实验。在训练100轮（epoch）后，对模型进行了性能验证，并得到了两个关键指标，如图5-9所示。TCA(TestCleanAccuracy)：表示模型在干净的正常测试集上的分类准确率;ASR(AttackSuccessRate)：表示模型在包含后门触发器的样本上的攻击成功比例，即加入触发器后，模型预测为攻击目标标签的概率。BadNet模型检测结果示意如图5-10所示。5.3实践案例：基于BadNet模型的后门攻击5.3.5实践结果内容提纲5.3实践案例：基于BadNet模型的后门攻击5.2后门攻击的基础知识5.1后门攻击的概述5.4后门攻击的防护小结5.4后门攻击的防护5.4.1预防措施后门攻击的防御需覆盖机器学习模型全生命周期，从数据准备、模型训练到部署应用各阶段实施针对性防护措施。5.4.2常见的检测方法尽管面临诸多困

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能安全课件第5章后门攻击与防护

文档简介

温馨提示

最新文档

评论

人工智能安全 课件 第5章 后门攻击与防护

文档简介

温馨提示

最新文档

评论

相关文档

人工智能安全课件第5章后门攻击与防护