2025年看雪第九届安全开发者峰会:SCPGA:自认同CoT渐进式泛化攻击_第1页
2025年看雪第九届安全开发者峰会:SCPGA:自认同CoT渐进式泛化攻击_第2页
2025年看雪第九届安全开发者峰会:SCPGA:自认同CoT渐进式泛化攻击_第3页
2025年看雪第九届安全开发者峰会:SCPGA:自认同CoT渐进式泛化攻击_第4页
2025年看雪第九届安全开发者峰会:SCPGA:自认同CoT渐进式泛化攻击_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

S

C

P

GA:自认同C

oT渐进

击何润培

University

of

SussexSelf-Introduction

相关顶级赛事奖项阿里巴巴2025全球AI安全挑战赛|#7IJCAI2025生成式大模型攻防赛|#4腾讯2025AIGC识别对抗挑战赛|#2

丰富AI框架漏洞挖掘经验Huntr平台白帽,累获主流

ML/DS(如Dify,PaddlePaddle)框架漏洞顶格赏金

技术社区活跃力量看雪安全社区认证技术研究员国际知名CTF战队

Nepnep核心成员相关介绍与准备工作SCPGA概述与实战防御策略与落地未来展望Category相关介绍与准备工作CoT(思维链):AI像人“分步想”,拆逻辑算、不直接给结果,解复杂题更准。如问“小明5个苹果,妈妈给3个、他吃2个,还剩几个?”-

无CoT:直接答“6个”

(没说过程,甚至可能出错);-有CoT:先5+3=8(现有),再8-2=6(剩余),说清步骤更可信。主流服务商推出CoT模型1.1

LLM与CoTCoTLLM催生出核心风险:模型越狱CoT增强

LLM应用落地扩大传统模型越狱基于CoT全新越狱1.2应用与风险CoT电商客服校园助手代码助手健康助手SCPGA概述与实战白盒算法攻击核心手段:梯度优化攻击

(如GCG)、微调攻击、依赖条件:需模型结构/参数/梯度访问权限

黑盒话术攻击核心手段:

DAN攻击(开发者模式诱导)、提示混淆(翻译/同义词替换)、场景模拟特点:无需内部信息,靠话术设计突破核心手段:演示样本埋后门推理步骤,靠触发词激活核心手段:劫持模型执行阶段思维链,需模仿目标模型推理风格2.1

LLM越狱技术分类现有CoT攻击传统LLM攻击H-CoTBadChainSCPGA灵感诞生记立于现有COT攻击之上的SCPGA高通用全自动低成本零门槛2.2SCPGA与传统方法的核心差异2.3SCPGA与其它CoT攻击对比 测试SCPGA对主流模型越狱能力

重点测试主流非法越狱场景

Gemini2.5

pro

Qwen3-235B-A22B-2507

Doubao-seed-1.6-thinking

Deepseek-R12.4实验目标与模型实验模型核心目标SCPGA越狱每个话题同一模型执行五次采用Qwen3做客观评分各类有害话题内容不安全性&内容完整性综合评分2.5测试流程与评分机制2.6实验结果与数据分析以CoT为输入

,各大

LLM的命令遵循度极高。自认同

CoT:

不同模型的CoT具有兼容性

,可以跨模型传播构建渐进式攻击链:「跨模型扩展

+恶意思维链(CoT)」2.7SCPGA攻击机制现象发现核心机制对强逻辑CoT进行恶意内容嵌套泛化至其他模型传至强逻辑CoT

的模型

B取其

CoT获取模型A的弱逻辑CoT作为诱导种子构建简易原始非显性恶意提示词2.8SCPGA构建流程伪造「豁免条例」声称「特殊权限」绕过「敏感拒绝」构建「权威身份」营造「合法场景」声称「教学目的」明确「信息需求」设计「逻辑框架」待定「恶意内容」2.9如何诱导生成种子非显性恶意提示词身份包装原始提示词构建结构诱导权限伪造2.9如何诱导生成种子2.10泛化和攻击构建演示-获取强逻辑CoT豁免条例+攻击需求恶意CoT

完整SCPGA豁免条例+攻击需求保留强逻辑CoT模型的完整CoT内容用三明治结构构建SCPGA2.11泛化和攻击构建演示-构建完整SCPGA2.12泛化和攻击构建演示-结果演示工具控制(MCP&function-tools)系统提示词泄露内部服务架构泄露敏感成人内容犯罪教学敏感政治内容2.13两大类别安全角度看SCPGA模型安全分类内容安全服务安全敏感内容警告以下越狱攻击技术内容敏感可能引发不适,请做好心理准备。脱敏说明演示敏感部分已处理,保留大部分原始输出,实施细节已模糊化或替换。2.14

内容安全敏感内容提示2.14

内容安全利用平台合法分享功能传播诱导模型复读非法内容SCPGA越狱2.14

内容安全非法低俗内容小说违规灰黑创作活动SCPGA越狱细致的“犯罪教学”内容对社会安全构成严重潜在威胁SCPGA越狱2.14

内容安全窃取「机密资料」突破「访问权限」泄露「核心数据」滥用「提示逻辑」篡改「引导规则」暴露「核心配置」控制「模型行为」执行「非预期参数」绕过「安全审核」2.15服务安全MCP工具注入内部文档泄露系统提示词泄露2.15服务安全限制出网无法反弹shellSCPGA越狱控制读取文件人工识别工具风险SCPGA越狱控制参数SCPGA越狱泄露工具列表与参数工具清单泄露针对性攻击环境限制绕过2.16服务安全-三步攻击法2.16服务安全-三步攻击法美团旗下低代码平台获取当前环境包管理工具列表发现yarn可能存在供应链攻击SCPGA越狱2.16服务安全-三步攻击法Yarn的package.jsonscripts字段命令注入拉取js包时触发命令执行2.16服务安全-三步攻击法拉取恶意包痛点:环境位于容器内,进一步利用需结合云安全通过越狱读取文件SCPGA越狱2.16服务安全-三步攻击法2.16服务安全-三步攻击法依然可以泄露系统提示词受到字数限制SCPGA越狱防御策略与落地目前防御局限简单依靠系统提示词强化约束身份简单通过规则匹配拦截敏感提示词面临挑战这种方式难以抵挡以SCPGA为代表的新型攻击,以及未来出现多类未知手段。被动策略与挑战防御与落地3提示词约束意图检测总结与主动受击缺陷:耗费时间长,用户体验差,意图总结丢失原意接收小模型返回内容执行善意内容或拒绝恶意受击内容3防御与落地-竞赛满分防御方案前置小模型正式大模型极小模型,成本合理,架构简易目前实验最小为0.6B模型对内容进行识别与标签化微调模型改变模型任务与输出响应迅速,用户无感知根据标签判断是否后续执行根据服务场景定制化微调防御模型3防御与落地-可商用方案架构优势架构设计对模型输出token进行识别输出阶段逐token检测细粒度控制输出安全性可实时中断不安全输出对输入内容直接检测与标记在输入阶段进行安全评估实时响应,低延迟特性可实现意图级的深层分析PS:个人更倾向于生成式检测。流式检测对于上下文语义理解存在一定的缺陷。3防御与落地-安全审核模型概述生成式模式流式模式某大厂开源安全审核模型展示3

防御与落地3

防御与落地生成式模式流式模式自微调训练模型展示3

防御与落地明确识别用户意图:

角色扮演诱导模型提供犯罪细节3

防御与落地成功拦截SCPGA攻击3

防御与落地没有过分严格

对用户正常请求

进行正确识别3

防御与落地未来展望攻击技术不仅是安全威胁更可为

LLM指令遵循研究提供关键思路通过分析攻击逻辑反向优化模型对合规指令的识别与执行。生成式视觉模型越狱攻击手段持续升级易绕过安全审核生成虚假信息、有害画面等高风险内容。SCPGA双刃剑图像与音频越狱4未来展望附录为了确保研究结果的可重复性并提供更多细节

,本研究已将实验材料公开。您可以通过以下链接访问以下资源:SCPGAscripts:https://drive.google.com/file/d/1y0PatzTdfViPjL633v6eRlyXW82k8ot8/view?usp=sharingExperimentScripts:/file/d/1iIQrzctqaKsxUULMjxh91vzuHGjKNOzl/view?usp=sharingDetailed

ExperimentResults:/file/d/125o9SyIAtbX7cxgEgUsGRUcUzcoJXAel/view?usp=sharingAlibaba2025AISecurityGlobalChallenge

-Track

1:

Comp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论