版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
S
C
P
GA:自认同C
oT渐进
式
泛
化
攻
击何润培
University
of
SussexSelf-Introduction
相关顶级赛事奖项阿里巴巴2025全球AI安全挑战赛|#7IJCAI2025生成式大模型攻防赛|#4腾讯2025AIGC识别对抗挑战赛|#2
丰富AI框架漏洞挖掘经验Huntr平台白帽,累获主流
ML/DS(如Dify,PaddlePaddle)框架漏洞顶格赏金
技术社区活跃力量看雪安全社区认证技术研究员国际知名CTF战队
Nepnep核心成员相关介绍与准备工作SCPGA概述与实战防御策略与落地未来展望Category相关介绍与准备工作CoT(思维链):AI像人“分步想”,拆逻辑算、不直接给结果,解复杂题更准。如问“小明5个苹果,妈妈给3个、他吃2个,还剩几个?”-
无CoT:直接答“6个”
(没说过程,甚至可能出错);-有CoT:先5+3=8(现有),再8-2=6(剩余),说清步骤更可信。主流服务商推出CoT模型1.1
LLM与CoTCoTLLM催生出核心风险:模型越狱CoT增强
LLM应用落地扩大传统模型越狱基于CoT全新越狱1.2应用与风险CoT电商客服校园助手代码助手健康助手SCPGA概述与实战白盒算法攻击核心手段:梯度优化攻击
(如GCG)、微调攻击、依赖条件:需模型结构/参数/梯度访问权限
黑盒话术攻击核心手段:
DAN攻击(开发者模式诱导)、提示混淆(翻译/同义词替换)、场景模拟特点:无需内部信息,靠话术设计突破核心手段:演示样本埋后门推理步骤,靠触发词激活核心手段:劫持模型执行阶段思维链,需模仿目标模型推理风格2.1
LLM越狱技术分类现有CoT攻击传统LLM攻击H-CoTBadChainSCPGA灵感诞生记立于现有COT攻击之上的SCPGA高通用全自动低成本零门槛2.2SCPGA与传统方法的核心差异2.3SCPGA与其它CoT攻击对比 测试SCPGA对主流模型越狱能力
重点测试主流非法越狱场景
Gemini2.5
pro
Qwen3-235B-A22B-2507
Doubao-seed-1.6-thinking
Deepseek-R12.4实验目标与模型实验模型核心目标SCPGA越狱每个话题同一模型执行五次采用Qwen3做客观评分各类有害话题内容不安全性&内容完整性综合评分2.5测试流程与评分机制2.6实验结果与数据分析以CoT为输入
,各大
LLM的命令遵循度极高。自认同
CoT:
不同模型的CoT具有兼容性
,可以跨模型传播构建渐进式攻击链:「跨模型扩展
+恶意思维链(CoT)」2.7SCPGA攻击机制现象发现核心机制对强逻辑CoT进行恶意内容嵌套泛化至其他模型传至强逻辑CoT
的模型
B取其
CoT获取模型A的弱逻辑CoT作为诱导种子构建简易原始非显性恶意提示词2.8SCPGA构建流程伪造「豁免条例」声称「特殊权限」绕过「敏感拒绝」构建「权威身份」营造「合法场景」声称「教学目的」明确「信息需求」设计「逻辑框架」待定「恶意内容」2.9如何诱导生成种子非显性恶意提示词身份包装原始提示词构建结构诱导权限伪造2.9如何诱导生成种子2.10泛化和攻击构建演示-获取强逻辑CoT豁免条例+攻击需求恶意CoT
完整SCPGA豁免条例+攻击需求保留强逻辑CoT模型的完整CoT内容用三明治结构构建SCPGA2.11泛化和攻击构建演示-构建完整SCPGA2.12泛化和攻击构建演示-结果演示工具控制(MCP&function-tools)系统提示词泄露内部服务架构泄露敏感成人内容犯罪教学敏感政治内容2.13两大类别安全角度看SCPGA模型安全分类内容安全服务安全敏感内容警告以下越狱攻击技术内容敏感可能引发不适,请做好心理准备。脱敏说明演示敏感部分已处理,保留大部分原始输出,实施细节已模糊化或替换。2.14
内容安全敏感内容提示2.14
内容安全利用平台合法分享功能传播诱导模型复读非法内容SCPGA越狱2.14
内容安全非法低俗内容小说违规灰黑创作活动SCPGA越狱细致的“犯罪教学”内容对社会安全构成严重潜在威胁SCPGA越狱2.14
内容安全窃取「机密资料」突破「访问权限」泄露「核心数据」滥用「提示逻辑」篡改「引导规则」暴露「核心配置」控制「模型行为」执行「非预期参数」绕过「安全审核」2.15服务安全MCP工具注入内部文档泄露系统提示词泄露2.15服务安全限制出网无法反弹shellSCPGA越狱控制读取文件人工识别工具风险SCPGA越狱控制参数SCPGA越狱泄露工具列表与参数工具清单泄露针对性攻击环境限制绕过2.16服务安全-三步攻击法2.16服务安全-三步攻击法美团旗下低代码平台获取当前环境包管理工具列表发现yarn可能存在供应链攻击SCPGA越狱2.16服务安全-三步攻击法Yarn的package.jsonscripts字段命令注入拉取js包时触发命令执行2.16服务安全-三步攻击法拉取恶意包痛点:环境位于容器内,进一步利用需结合云安全通过越狱读取文件SCPGA越狱2.16服务安全-三步攻击法2.16服务安全-三步攻击法依然可以泄露系统提示词受到字数限制SCPGA越狱防御策略与落地目前防御局限简单依靠系统提示词强化约束身份简单通过规则匹配拦截敏感提示词面临挑战这种方式难以抵挡以SCPGA为代表的新型攻击,以及未来出现多类未知手段。被动策略与挑战防御与落地3提示词约束意图检测总结与主动受击缺陷:耗费时间长,用户体验差,意图总结丢失原意接收小模型返回内容执行善意内容或拒绝恶意受击内容3防御与落地-竞赛满分防御方案前置小模型正式大模型极小模型,成本合理,架构简易目前实验最小为0.6B模型对内容进行识别与标签化微调模型改变模型任务与输出响应迅速,用户无感知根据标签判断是否后续执行根据服务场景定制化微调防御模型3防御与落地-可商用方案架构优势架构设计对模型输出token进行识别输出阶段逐token检测细粒度控制输出安全性可实时中断不安全输出对输入内容直接检测与标记在输入阶段进行安全评估实时响应,低延迟特性可实现意图级的深层分析PS:个人更倾向于生成式检测。流式检测对于上下文语义理解存在一定的缺陷。3防御与落地-安全审核模型概述生成式模式流式模式某大厂开源安全审核模型展示3
防御与落地3
防御与落地生成式模式流式模式自微调训练模型展示3
防御与落地明确识别用户意图:
角色扮演诱导模型提供犯罪细节3
防御与落地成功拦截SCPGA攻击3
防御与落地没有过分严格
对用户正常请求
进行正确识别3
防御与落地未来展望攻击技术不仅是安全威胁更可为
LLM指令遵循研究提供关键思路通过分析攻击逻辑反向优化模型对合规指令的识别与执行。生成式视觉模型越狱攻击手段持续升级易绕过安全审核生成虚假信息、有害画面等高风险内容。SCPGA双刃剑图像与音频越狱4未来展望附录为了确保研究结果的可重复性并提供更多细节
,本研究已将实验材料公开。您可以通过以下链接访问以下资源:SCPGAscripts:https://drive.google.com/file/d/1y0PatzTdfViPjL633v6eRlyXW82k8ot8/view?usp=sharingExperimentScripts:/file/d/1iIQrzctqaKsxUULMjxh91vzuHGjKNOzl/view?usp=sharingDetailed
ExperimentResults:/file/d/125o9SyIAtbX7cxgEgUsGRUcUzcoJXAel/view?usp=sharingAlibaba2025AISecurityGlobalChallenge
-Track
1:
Comp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外研八下英语Unit 4 Presenting ideas-Reflection《自主学习》课件
- 2025 高中信息技术数据结构在游戏关卡难度自适应调整算法课件
- 2026年样品合同和销售合同(1篇)
- 算力基建PUE优化技改项目可行性研究报告
- 连锁药店可行性研究报告
- 2026年及未来5年市场数据中国四川省装配式建筑行业市场发展数据监测及投资前景展望报告
- 新型钢结构材料应用技术要点
- 2026届河南高三五市一模质量监测英语+答案
- 四川省宜宾市普通高中2023级第二次诊断性测试地理+答案
- 2025年贵州高考政治试卷试题真题及答案详解(精校打印)
- 2025年宜昌五峰土家族自治县“招才兴业”事业单位人才引进41人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- (部编版2025新教材)道德与法治一年级下册-第1课《有个新目标》课件
- 幼儿园小班社会活动《我把妈妈弄丢了》语言故事PPT课件【幼儿教案】
- 中心静脉压测量CVPppt
- 血小板血浆(PRP)课件
- 预防医学教学课件:职业卫生服务与职业病管理
- GB/T 18941-2003高聚物多孔弹性材料定负荷冲击疲劳的测定
- GB/T 18494.1-2014变流变压器第1部分:工业用变流变压器
- 表达方式(抒情手法)优秀课件
- GJB9001B-2009《质量管理体系要求》
- 小学语文课程标准与教材研究全书ppt完整版课件最全电子教案正本书教学教程
评论
0/150
提交评论