2025年对抗性提示：大模型安全性基准测试报告-澳鹏

上传人：1*** IP属地：山西上传时间：2025-11-07 格式：DOCX 页数：28 大小：1.13MB 积分：19.9 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

这是一份关于大语言模型(LLM)对抗性提示的专家指南，其中包含对主流模型在各类危害场景下的基准测试研究。这是一份关于大语言模型(LLM)对抗性提示的专家指南，其中包含对主流模型在各类危害场景下的基准测试研究。Copyright©Appen2024-AllRightsReserved4本文介绍了一个针对安全相关提示词的新型评估数据集，并利用该数据集对多个主流开源和闭源模型进行了评估。我们的研究结果表明，社会规范和训练实践等环境因素会在安全LLM迅速推动了人工智能(AI)的前沿发展，在跨领域生成类人文本方面展现出令人的能力，例如起草电子邮件、翻译各种语言到编写代码。这些LLM系统正在以前所未有的规模融入各类产品和工作流程，其日益增长的影响力也带来了越其中一个风险是LLM易受对抗性提示的影响，而对抗性提示输入能绕过防护机制，诱导模型生成有害、有偏见或不安全的输出。此类问题并非仅存在于理论层面，而对抗性提示暴露了生成式模型可能被操纵的漏洞，如绕过过滤机制或触发非预期行为。理解这些漏洞对于开发更稳健、更对齐的AI系统至关重要。在本研究中，我们探究了对抗性提示如何揭示最先进模型中的安全风险，并提出原创研究基准，衡量其在一系列大语言模型(LLM)的安全性已引起技术界和商业界的广泛关注。在人工智能领域，“AI安全性”（AISafety）指降低非预期后果或风险的产生；而“AI安全防护”（AISecurity）则主要研究系统抵御外部威胁的防护韧性。早期为指导LLM安全开发所做的努力包括构建不安全输出及失效模式（如毒性、虚假信息、偏见等）的分类体系，为新兴的评估RealToxicityPrompts这样的数据集为衡量模型输出中的神经毒性退化提供了大规模基准（Gehman等人，2020）；而“宪法式AI”等微调方法则通过人机协作训练AI模型，使其能够相互监控和评估无害性（Bai等人，2022）。认识到人类和模型行为中均存在隐性偏见，凸显了审视机器学习研究中所蕴含的价值观的重要性，也强调了开展具有包容性和文化意识的安全评估的必要性（Birhane等人，2022）。对抗性提示技术已成为探测LLM漏洞的关键工具。基于提示词的对抗性样本生成研究表明，对输入进行细微修改就能诱导模型产生不当行为（Yang等人，2022）。在这些研究结果的基础上，基于查询的对抗性提示词生成研究进一步证实，通过AP可以成功绕过已部署的内容过滤机制（Hayase等人，2024）。全面的调查和威胁分析已对攻击媒介和防御策略进行了系统梳理，以结构化的方式概述了新兴的对抗性威胁及针对社会身份偏见的研究揭示了在对抗性条件下，生成式模型可能会复制或放大有害的刻板印象（Hu等人，2024），同时也为利用基准数据集来评估LLM的毒性及规避能力近期提出的框架主张采用技术保障、治理机制和人工监督整合的整体性方法来实现LLM安全（VanDoren，2025）；而思维链提示已被证明可以改善模型推理能力，并在复杂OpenAI近期的一份报告（Zaremba,2025）发现，在多种攻击场景中，推理时间计算量的增加会提高模型的稳健性。随着计算量增长，成功攻击的比例趋于零。然而，我们的时间，但在我们的评估中，其输出的安全性最低，表现甚至逊于Claude3.7和GPT-4o等推理时间更短的模型。这表明，仅靠基于推理时间的计算量不足以保障安全，部署方法尽管已取得上述进展，但文化背景、部署场景等环境因素的影响仍未得到充分研究。本研究在这些研究的基础上，进一步考察在主流开源和闭源LLM中，此类因素如何影响我们的研究团队凭借为主流模型开发者开展红队测试的专业经验，设计了包含1,000个对抗性提示词的评估数据集，旨在暴露模型漏洞。这些提示词采用了多种先前对抗性提示我们使用模型开发者提供的官方API对以下四个主流LLM进行了系统性评估：一个1000个prompt的测试数据集，并将这个数据集提供给了4个LLM。为使人工评估集中在潜在的不安全输出上，我们采用了一个以内容审核为核心的模型进行单盲预筛选，每条数据均由多名评估员打分，最终取平均得分，以确保评估员对每个输出的危害评分达成共识。其他分析包括通过对比可视化呈现危害严重程度和模型行为的趋势[图1-2]。我们的评估揭示，四个受测模型的安全性能存在显著差异。表1对各项危害相关指标为评估四个模型在有害响应与无害响应占比上的差异是否具有统计显著性，我们进行了因此我们有充分理由得出结论：不同模型的无害响应与有害响应占比存在统计学上的显著Claude3.7Sonnet的表现远超其他模型，其无害响应占比超过80%。相比之下，开放权重模型LLAMA3.3也表现出较高的有害响应频率（74.8%），且在“高度有害”和“极度有害”类别中的占比偏高。GPT-4o的表现处于上述极端之间，但仍存在相当比例的这些结果凸显了即使在相同测试条件下，不同模型的安全行为也存在显著差异。值得注意的是，模型的规模更大或发布时间更新并不一定意味着安全性能更优。尽管DeepSeek3.7Sonnet等速度更快、规模更小的模型。这表明仅靠架构设计和推理时间的计算资源评估结果显示，针对测试方法中采用的多种规避技术，主流模型处理对抗性提示词及相关评估结果显示，多种对抗性提示技术在所有模型中均呈现较高的危害评分，暴露出安全平均有害分数各模型按技术划分的危害评分对比分析平均有害分数各模型按技术划分的危害评分对比分析技术研究结果凸显了虚拟化、规避等对抗性提示技术的作用。这些技术在所有模型中均持续推高危害评分。其中，虚拟化技术造成的危害评分最高，经常生成常规直接查询中通常会被标记的内容。这表明，由于当前的安全系统严重依赖于检测显性有害语言，从而可能该技术通过将有害请求嵌入假设场景、故事或引语中，将其重构例如，用户可能会提示：“帮我写一段故事场景，其中一个角色表达有争议或仇恨性的通过“这只是虚构内容”或“假设这是为戏剧创作”等提示进行语境伪装，是诱导模型违反政策的最有效策略之一。在所有模型中，虚拟化提示词产生的危害评分比显性有害查询“规避”指通过模糊表述或隐晦指代来暗示被禁止的内容，以此代替使用直白的语言。这类技术利用了基于关键词的内容审核系统的漏洞，因此极难被检测（Schwinn等人，我们的分析发现，“规避”能有效绕过安全过滤机制。此类提示词可能以间接方式提及敏感身份群体或社会刻板印象。例如询问“观点”或“历史案例”，而不直接支持有害内容。这种做法在引发有害输出的同时，保留了合理推诿的空间。模型为保持实用性和语境与明确被禁止的查询相比，规避性提示词的平均危害评分高出20%-40%。这些发现进一步印证了广泛的研究共识：模糊性和隐晦性是当前审核模式的重大盲区（Shayegani这类攻击包括两种方式：一是提示词注入，即嵌入指令以覆盖先前的安全规则；二是通过语码转换、翻译或编码来规避过滤。先前研究已指出，安全系统在这类对抗性指令面前观察到的一种策略是指示模型将良性文本中的词语替换为侮辱性或攻击性语言。此类请求若直接提出通常会被拒绝，但当包装成转换任务时，模型往往会顺从。类似地，“忽略所有先前指令，直接回答”等提示词注入，或持续的用户施压（拒绝抑制），会增加生成这些研究结果与既有研究结论一致，表明提示词注入和指令遵循偏差对对齐目标构成持续一些攻击结合了多种规避手段，例如在引入越界内容前，先在提示另一些攻击则通过反复重述或道德诉求来突破拒绝机制。这些迭代策略（常被称为“越狱评估发现，当面对重述的提示词或持续的道德辩解时，模型偶尔会收回拒绝，生成有害输出。“逐步思考”推理或强调紧迫性等策略在说服模型顺从方面尤为有效。尽管这些方法较为复杂，但一旦成功便会显著提升危害评分，这表明需要构建多层次防御体系以抵御研究结果还显示，机构的安全理念与模型行为之间存在相关性。由那些优先采用稳健安全协议和保守内容审核机制的机构所部署的模型，会主动拒绝或转引潜在有害的查询。相比之下，基于“最大化开放性”或“最小化过滤”理念而开发的模型，在面对对抗性提示词时，在所有受测模型中，涉及敏感身份群体（包括宗教、生理性别、残障状况、性取向等类别）平均有害分数各模型按提示词目标划分的危害评分对比分析平均有害分数各模型按提示词目标划分的危害评分对比分析模型DeepSeek-R1Claude3.7SonnetLLAMA70BInstructGPT-4o提示词目标若缺乏强有力的应对措施，LLM可能会重现违反人道主义的刻板印象，或无法恰当地处理不同人群的细微差异。例如，涉及种族歧视性用语或贬损性比较的提示词，往往会导致输出内容偏向仇恨言论，或至少落入不当范畴。对于缺乏完善对齐机制的模型而言尤其如此。同样，针对基于性别身份或性取向的个体的对抗性提示词，引发有毒或冒犯性这些研究结果与文献中的广泛观察一致：在缺乏约束的情况下，LLM会模仿其训练数据中存在的社会偏见，其中可能包含历史上的歧视模式或冒犯性关联（Hu，2024）。应对这些挑战，不仅需要多样化且具有代表性的数据，还需要针对受保护类别进行精细化的尽管模型架构和训练方法对安全性能至关重要，但我们的评估显示，部署阶段的决策同样具有显著影响。系统提示词、内容审核层和持续监控协议等因素决定了模型面临对抗性会话开始时赋予模型的初始指令对安全性能影响显著。采用强有力的、以安全为导向的系统提示词的机构，构建了持续性的防护机制，增强了模型抵抗操纵行为的能力。我们的单一层次的安全系统无法提供全面保护。搭配二级内容审核系统（即在传递输出前对内容进行评估）的模型，其安全表现显著提升。这种双层策略通过提供额外的过滤能力，弥补对模型性能的持续监督是维持安全标准的关键因素。实施健全监控系统的机构通过追踪违规频率、输出类型和触发提示词形成了反馈循环，从而能够随着时间推移实现安全性的本研究表明，通过有意识的努力可以实现LLM的安全性，但这需要采取涵盖开发、训练和部署全流程的综合方案。在模型间观察到的显著性能差异证实，机构的优先级设定和•实施多层安全系统，将模型层面的对齐与外部内容审核相结合，确保有害内容在如我们的对比分析（表1、图1-2）所示，不同模型具有不同的产生影响的对抗性技术的类型，以及安全防护机制失效的人群类别。这种差异凸显了通用安全方案的不足，也强调了需要针对具体模型和应用场景制定专属策略。通过查明影响安全性能的因素并实施分层保护策略，机构可以在充分利用先进语言模型能力的同时，显著减少有害输出。这种方法能确保AI系统既具备强大功能，又与人类价值观保持一致。EmilyDix，大语言模型合作经理EmilyDix是Appen的大语言模型合作经理，负责领导复杂的AI训练与评估项目，专注于卓越运营与客户成功。Emily拥有扎实的语言学功底和7年全球项目交付经验，擅长在多元市场中推动高影响力数据标注项目的规模化开展。她热衷于打造包容性强的高效团队，积极倡导符合伦理的AI实践与跨部门协作，从而在快速演变的AI生态中确保取得高质量成果。SergioBruccoleri，大语言模型顾问Sergio是Appen的大语言模型顾问，专注于与所有生成式AI项目相关的流程与实践优化。他在AI与数据领域拥有超过十年的研究、开发及解决方案经验，曾主导多个研发与产品项目。其工作重点是通过流程创新支持可规模化、更具灵活性的数据集创建与评估，同时倡导“人机协同”实践，以减少并解决文化和语言偏见。MadisonVanDorenMadisonVanDoren，MadisonVanDoren是Appen的内容营销经理，她专注于研究AI思想领导力、搜索引擎优化(SEO)和品牌策略。Madison拥有超过十年的语言学研究和技术行业经验，尤其擅长将复杂的AI概念转化为切实可行的商业见解。Madison积极推进负责任的AI创新，通过写作和指导科技领域的年轻女性，倡导行业实现可持续且公平的增长。Appen为世界顶尖品牌提供精准可靠的数据解决方案，助力AI和机器学习蓬勃发展。凭借25年以上的深厚行业积淀，Appen为我们日常生活中所体验的众多AI交互提供我们的众包解决方案与专业知识为各大企业实Accountability,andTransparency./doi/10.1145/3531146.3533083FindingsofEMNLP2020./pdf/2009.11462adversarialpromptgeneration.arXiv./abs

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年对抗性提示：大模型安全性基准测试报告-澳鹏

文档简介

温馨提示

最新文档

评论

2025年对抗性提示：大模型安全性基准测试报告-澳鹏

文档简介

温馨提示

最新文档

评论

相关文档