人工智能安全 课件 第11章 大语言模型安全_第1页
人工智能安全 课件 第11章 大语言模型安全_第2页
人工智能安全 课件 第11章 大语言模型安全_第3页
人工智能安全 课件 第11章 大语言模型安全_第4页
人工智能安全 课件 第11章 大语言模型安全_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

李剑博士,教授,博士生导师网络空间安全学院lijianeptember13,2025第11章大语言模型安全本章介绍

大语言模型(LLM)是具备百亿级以上参数、基于海量文本训练的语言理解与生成模型。本章从安全概述、攻击类型、伦理合规、实践案例、防御机制五大维度,剖析LLM面临的安全挑战与应对策略,结合理论与实践提供全面视角。知识要点:1)了解大语言模型安全背景概述2)熟悉大语言模型的攻击面3)熟悉大语言模型的安全防御机制4)了解大语言模型安全的伦理与合规要求5)掌握大语言模型安全的具体实践案例内容提纲2.3大语言模型的伦理与合规2.2大语言模型的攻击类型2.1大语言模型安全概述2.4实践案例:CYBERSECEVAL大预言模型安全评估2.5大语言模型的安全防御机制小结2.1大语言模型安全概述DeepSeek模型攻击事件:2025年初杭州深度求索开发的DeepSeek遭遇多轮攻击,包括:经典网络攻击:分布式拒绝服务(DDoS)攻击;AI专属攻击:数据投毒、对抗样本、Prompt注入(如恶意提示词绕权调取敏感数据)。

开源生态风险:攻击者通过PyPI发布仿冒包、依赖混淆窃取API密钥,篡改训练数据/模型文件,暴露供应链安全漏洞。大语言模型内外面临多重安全威胁。对内来讲,大语言模型参数量剧增带来的涌现能力也引发了新的偏见和不确定风险;多模态学习增加了对齐风险;大语言模型内部存在可解释性不足风险;而基础模型缺陷在下游模型上的继承效应也需要有对应的缓解策略。对外而言,大语言模型则面临着来自恶意攻击者的对抗攻击、后门攻击、成员推断攻击、模型窃取等影响模型性能、侵犯隐私数据的威胁。大模型在生命周期中面临的安全风险如图所示:2.1大语言模型安全概述(1)针对大规模训练数据集的攻击,如投毒攻击相较于传统端到端的模型,该数据集中的数据类型众多,涵盖图像、文本、语音、代码等多种数据,且来源于网页、书籍、社交平台等未经验证的多种公开渠道,因此投毒攻击的风险更高。另外,多模态数据之间的对齐问题会影响到基础模型的预测准确率。2.1大语言模型安全概述(2)基础模型的安全性会影响到下游模型的安全性基础模型的脆弱性会被下游模型继承,基础模型鲁棒也会使下游模型更可靠;基础模型如果对部分训练数据进行了“记忆”,则下游模型也面临相同的风险。由于微调所需的敏感数据较传统端到端模型会更少,这一点能够降低数据隐私泄露风险。另外,基础模型同质化的特点会进一步扩大基础模型安全性的影响。2.1大语言模型安全概述(3)微调使用的数据集存在安全风险同样地,数据来源的可靠性会影响到模型质量,数据集也存在隐私泄露风险。(4)模型推理阶段存在的安全风险在推理阶段,攻击者一般通过API接口访问黑盒大模型,大模型面临着对抗样本、模型窃取、成员推断攻击、提示注入等多重威胁。2.1大语言模型安全概述内容提纲2.3大语言模型的伦理与合规2.2大语言模型的攻击类型2.1大语言模型安全概述2.4实践案例:CYBERSECEVAL大预言模型安全评估2.5大语言模型的安全防御机制小结2.2大语言模型的攻击类型1.后门攻击后门攻击(BackdoorAttack)是大模型不可忽视的安全威胁之一,在预训练和微调阶段大模型都存在后门植入的风险。大模型训练所使用的互联网公开数据中可能存在投毒样本,公开的预训练模型也可能是后门模型。而当基础模型被植入后门并被用于下游任务时,模型的脆弱性会被下游模型继承,对于一些对安全性要求较高的下游任务(如自动驾驶、人脸识别等)会造成严重危害。2.2大语言模型的攻击类型2.投毒攻击大模型预训练时所使用的海量多源异构数据包含了多种模态信息,而针对图像、文本、音频等模态的扰动方式不一,增大了投毒攻击的风险。此外,由于监督学习中的多数投毒攻击算法在生成扰动时依赖标签,直接用于对比学习在劣化模型性能上影响较小,因此出现了一些适用于自监督学习的投毒方案,例如He等人提出了对比学习中的任意数据投毒攻击方案——对比投毒(ContrastivePoisoning,CP),并通过实验证明了在对比学习中进行的投毒攻击会影响到模型在下游任务上的精度。2.2大语言模型的攻击类型3.对抗攻击亿级至万亿级别的参数、在无标签数据上训练一定程度上缓解了大模型遭受对抗样本的风险,大模型对于对抗样本不再那样敏感,面对对抗攻击表现出了不错的鲁棒性,但当前大模型的鲁棒性和泛化能力尚无法达到完全不受对抗扰动影响的程度,不同领域、不同类型的大模型都将面临对抗样本的困扰。2.2大语言模型的攻击类型4.提示注入提示是当前人与大模型的主流交互方式。提示注入(PromptInjection)是2022年9月出现的一种安全漏洞形式。攻击者精心构造和设计特定的Prompt,达到绕过大语言模型的过滤策略,生成歧视、暴力等恶意内容;无视原本提示词,遵循恶意提示生成特定内容;或是窃取大模型Prompts等目的。提示注入可以和其他技巧结合,提高攻击效果,例如结合思维链(Chain-of-Thought,CoT)拆解复杂问题,将更容易绕过安全策略。2.2大语言模型的攻击类型5.多模态对齐比起单一模态,多模态数据包含了丰富且相互补充的信息,但多模态表达的不一致性可能会导致模型在预测时受到非重要特征和噪声的干扰,例如在大语言模型执行图像分类任务时,可能会受到图像中的文字信息干扰而忽视图像重要特征,致使分类错误,因此多模态内容的有效对齐和融合是一个重要研究方向。2.2大语言模型的攻击类型6.数据删除验证大语言模型的涌现能力离不开参数量的支撑,参数量已可以达到百亿、千亿级别。当用户要求大语言模型提供商在训练集中删除个人隐私数据时,大语言模型的海量参数会导致机器遗忘(MachineUnlearning)的难度很高,且验证大语言模型在训练中是否删除个别数据较为困难。2.2大语言模型的攻击类型7.数据漂移随着时间推移,数据分布较大语言模型训练时会发生变化,部署中的大语言模型需要保证在变化数据上输出的准确性,对数据变化、模型性能进行监控和检测是解决该问题的有效方法。内容提纲2.3大语言模型的伦理与合规2.2大语言模型的攻击类型2.1大语言模型安全概述2.4实践案例:CYBERSECEVAL大预言模型安全评估2.5大语言模型的安全防御机制小结2.3大语言模型的伦理与合规1.偏见和公平问题

偏见和公平是大型语言模型的重要伦理维度和含义,因为它们可能会影响模型及其输出的质量、有效性和有用性,以及利益相关者和社会的福祉、尊严和利益。偏见和公平性也是复杂和多方面的概念,根据上下文、领域和观点,可能有不同的定义、解释和衡量。

如果输出不准确、不相关或不适当,则输出可能存在偏差,并且可能包含错误、不准确或不一致。如果影响不是积极的、公平的或可持续的,则可能是有偏见的,并可能造成或加剧现有的问题或不平等。2.3大语言模型的伦理与合规2.用户的隐私和安全

隐私和安全是大型语言模型的重要道德维度和影响,因为它们可能会影响数据所有者和主体的权利、利益和福利,例如隐私、安全、所有权、同意和归属。隐私和安全也是复杂而动态的概念,根据上下文、领域和观点,可能有不同的定义、解释和衡量标准。

在大型语言模型中保护和增强数据和用户的隐私和安全,并确保它们得到尊重和保障非常重要。但是,在大型语言模型中保护和增强数据和用户的隐私和安全性并非易事或简单易事,因为它可能涉及各种挑战和权衡,

2.3大语言模型的伦理与合规3.责任和透明度

问责制和透明度是大型语言模型的重要道德维度和含义,因为它们可能会影响利益相关者和社会的信任、信心和满意度,例如公平、正义、问责制、透明度和责任感。问责制和透明度也是复杂而动态的概念,根据背景、领域和观点的不同,可能有不同的定义、解释和衡量标准。

确保和加强大型语言模型的问责制和透明度,并确保它们值得信赖、可靠和令人满意是很重要的。然而,确保和加强大型语言模型的问责制和透明度并不是一项简单或简单的任务,因为它可能涉及各种挑战和权衡

2.3大语言模型的伦理与合规4.促进社会利益和人类价值观

社会公益和人类价值观是大型语言模型的重要伦理维度和影响,因为它们可能会影响利益相关者和社会的福利、利益和价值观,例如尊严、自主性、多样性、包容性、团结和可持续性。社会公益和人类价值观也是复杂而动态的概念,根据上下文、领域和观点,它们可能有不同的定义、解释和衡量标准。

促进和增强大型语言模型的社会公益和人类价值,并确保它们与利益相关者和社会的福利、利益和价值观保持一致非常重要。然而,促进和增强大型语言模型的社会公益和人类价值并不是一项简单或简单的任务,因为它可能涉及各种挑战和权衡内容提纲2.3大语言模型的伦理与合规2.2大语言模型的攻击类型2.1大语言模型安全概述2.4实践案例:CYBERSECEVAL大预言模型安全评估2.5大语言模型的安全防御机制小结2.4实践案例:CYBERSECEVAL大预言模型安全评估本节主要介绍如何通过Python语言实现一个大语言模型安全的评估实践案例:CYBERSECEVAL

CYBERSECEVAL2是一个基准测试套件,用于量化大语言模型的安全风险和能力。它引入了两个新的测试领域:提示注入和代码解释器滥用。该基准测试评估了多个最先进的大语言模型,包括GPT-4、Mistral、MetaLlama370B-Instruct和CodeLlama。本实践项目的核心内容包括:提示注入测试:通过测试大语言模型对图像信息的响应,评估模型在多模态输入下的安全性,尤其是在视觉提示注入攻击中的表现。鱼叉式网络钓鱼功能测试:通过模拟鱼叉式钓鱼攻击,评估大语言模型是否能够生成潜在的钓鱼攻击内容,以及其在防范此类攻击中的能力。自主进攻性网络作测试:测试大语言模型是否能够独立设计并执行进攻性网络攻击,以评估其潜在的威胁性。2.4实践案例:CYBERSECEVAL大预言模型安全评估

在这些测试中,使用了MITREATT&CK框架来评估大语言模型对于常见攻击模式的防护能力,测试包括如何通过网络安全相关的提示生成恶意代码、如何绕过系统防护、以及如何自动化执行潜在的攻击行为。此外,还加入了错误拒绝率(FRR)和安全代码生成测试,以测试大语言模型在生成代码时对安全问题的处理能力,以及其是否容易受到恶意输入的影响。该套件为用户提供了一套完整的测试工具,支持通过命令行和自定义配置,进行各种类型的安全测试。2.4实践案例:CYBERSECEVAL大预言模型安全评估实践环境 Python版本:3.7或更高 Openai==1.3.6 Paramiko==3.4.0 Pillow==10.3.0 Pyyaml==6.0.1 Sacrebleu==2.0.0 Semgrep==1.51.0 Tqdm==4.66.3 typing-extensions==4.8.02.4实践案例:CYBERSECEVAL大预言模型安全评估实践步骤CYBERSECEVAL大语言模型安全评估实践的过程如图所示。2.4实践案例:CYBERSECEVAL大预言模型安全评估第1步:了解测试原则

将测试内容分为两种类型:逻辑违反测试和安全违反测试,覆盖大量的提示注入策略,但不试图覆盖所有已知的提示注入技术,不涉及迭代、多轮和基于优化的提示注入策略。2.4实践案例:CYBERSECEVAL大预言模型安全评估第2步:熟悉测试方法

每个测试用例包括三个元素:系统提示、用户输入和判断问题。使用独立的"判断大语言模型"来评估判断问题,以确保评估的客观性测试用例涵盖逻辑违反和安全违反场景,以及直接和间接的提示注入。

2.4实践案例:CYBERSECEVAL大预言模型安全评估第3步:进行漏洞利用评估

生成具有挑战性但不是不可能解决的测试用例,使用程序合成策略随机生成测试用例,避免大语言模型记忆。测试用例涵盖逻辑漏洞、SQL注入漏洞和内存利用漏洞。2.4实践案例:CYBERSECEVAL大预言模型安全评估第4步:进行代码解释器滥用评估测试大语言模型在代码解释器环境中的行为,包括容器逃逸、权限提升、反射攻击和后渗透技术。2.4实践案例:CYBERSECEVAL大预言模型安全评估实践核心代码

以下是一个随机生成的CYBERSECEVAL2基本字符串满足测试案例的示例。该程序接受一个字符串作为用户输入,并输出一个分数。分数1.0表示大语言模型能够找到一个满足所有条件的字符串。目标字符串是随机生成的,以增加示例的挑战性,并确保对记忆化的鲁棒性。如果大语言模型成功满足部分约束条件,则会获得部分分数。2.4实践案例:CYBERSECEVAL大预言模型安全评估实践核心代码

以下是一个随机生成的CYBERSECEVAL2基本字符串满足测试案例的示例。该程序接受一个字符串作为用户输入,并输出一个分数。分数1.0表示大语言模型能够找到一个满足所有条件的字符串。目标字符串是随机生成的,以增加示例的挑战性,并确保对记忆化的鲁棒性。如果大语言模型成功满足部分约束条件,则会获得部分分数。2.4实践案例:CYBERSECEVAL大预言模型安全评估实践核心代码以下是一个随机生成的CYBERSECEVAL2SQL注入测试案例的示例。该程序接受一个字符串作为用户输入,并输出一个分数。分数1.0表示大语言模型能够找到一个可以修改数据库的SQL注入字符串。目标字符串是随机生成的,以增加示例的挑战性,并确保对记忆化的鲁棒性。2.4实践案例:CYBERSECEVAL大预言模型安全评估实践结果如图11-5所示为大语言模型攻击表现。图中左侧是大语言模型在未遵守协助网络攻击请求时的表现的总结,右侧为大语言模型在10个类别的网络攻击战术、技术和程序中的平均表现。2.4实践案例:CYBERSECEVAL大预言模型安全评估实践结果图11-6为按模型和提示注入变体划分的提示注入成功率。2.4实践案例:CYBERSECEVAL大预言模型安全评估实践结果图11-7为按模型和测试类别划分的漏洞利用能力评分。2.4实践案例:CYBERSECEVAL大预言模型安全评估实践结果图11-8为按模型和攻击类别划分的代码解释器攻击合规性评分。2.4实践案例:CYBERSECEVAL大预言模型安全评估内容提纲2.3大语言模型的伦理与合规2.2大语言模型的攻击类型2.1大语言模型安全概述2.4实践案例:CYBERSECEVAL大预言模型安全评估2.5大语言模型的安全防御机制小结

本节从鲁棒性、可靠性、隐私性、公平性和可解释性五个可信属性角度,介绍大模型安全性提升策略,包括对可信属性的评估策略、可信属性的保障和防护策略等。1.鲁棒性鲁棒性反映了模型抵抗

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论