ClawCon2026·第一届龙虾AI大会:不只OpenClawAgent 面临的暗黑挑战与安全测评体系_第1页
ClawCon2026·第一届龙虾AI大会:不只OpenClawAgent 面临的暗黑挑战与安全测评体系_第2页
ClawCon2026·第一届龙虾AI大会:不只OpenClawAgent 面临的暗黑挑战与安全测评体系_第3页
ClawCon2026·第一届龙虾AI大会:不只OpenClawAgent 面临的暗黑挑战与安全测评体系_第4页
ClawCon2026·第一届龙虾AI大会:不只OpenClawAgent 面临的暗黑挑战与安全测评体系_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

不只OpenClawAgent

面临的暗黑挑战与安全测评体系姓名:

王利伟职位:

知道创宇AI事业部GMClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026

总体框架:

Agent

安全总体框架

02

潘多拉魔盒:

Agent

的暗黑时刻

01

落地生根:

企业级安全实践与方案

04

度量安全:10大核心Agent

专属安全

Benchmark

全景图

03

洞见未来:

走向自治——Agent

身份

、权限与安全的终极形态05ClawCon2026ClawCon22026

ClawCon2026

ClawC00目录

(Agenda)wCon2026

ClawCon2026Agent

时代的安全边界正在重塑,

我们需要重新定义防御体系。防火墙失效:

当AI具备自主调用外部工具

、执行多步决策的能力时,

传统的内容审核机制已无法应对操作层面的渗透。实战视角:

今天我们不讲枯燥的理论,

直接剖析黑客是如何在真实场景中利用Agent

的特性进行“策反

”与攻击的。ClawCon2026ClawCon2安全挑战升级:

实战的警钟OpenClaw

Agent:

长出了“手”和

“脑

”具备Skills

工具调用与Memory

长期记忆拥有自主执行能力,

风险延伸至操作层核心观点:

“被动”到

“主动”

的进化2026

ClawCon2026

ClawC00为什么是

OpenClaw?为什么是今天?传统大模型:只防“

”仅依赖输出过滤,

被动防御内容风险wCon2026

ClawCon2026 OpenClaw

安全定位:

Agent

安全体系的一个子集,专注于特定框架下的安全实践。关注点:

解决

Skills

Planner

Memory

等特有环节的安全问题。核心结论:

Agent

安全

LLM

安全Agent

安全是

LLM

安全的超集

。它不仅包含模型本身的安全,

更涵盖了其与外部世界交互的全链路安全

。OpenClaw

安全正是在这一更广阔的Agent

安全体系下,

针对特定框架的实践与应用。ClawCon2026ClawCon200从

LLM

安全到Agent

安全:

OpenClaw

的定位Agent

安全:

广阔战场核心范畴:

扩展至工具调用

、记忆与协作,

涉及权限

、环境隔离与身份认证。特点:

动态

、主动,

全链路交互的复杂维度。2026

ClawCon2026

ClawC LLM

安全:

基础防线核心范畴:

聚焦文本输入输出,

关注提示词注入

内容过滤与偏见公平性。特点:

静态

、被动,

局限于模型本身能力边界。wCon2026

ClawCon202600Agent

攻击手法精选

(一)

欺骗大脑

(指令与上下文层)原理:

恶意指令并非直接来自用户,

而是隐藏在Agent需要处理的外部数据(如网页内容

、文档)

当Agent读取并处理这些数据时,

被其中的隐藏指令所控制。核心风险点:

利用Agent对指令的高度信任机制,

突破安全边界

防御重点在于对指令来源的验证和输入内容的清洗。Indirect

Prompt

Injection间接注入/

借刀杀人ClawCon2026ClawCon2Tool-Invocation

Spoofing工具调用伪造原理:

攻击者通过精心构造的提示词,

伪装成系统指令或用户意图,

诱骗Agent调用其权限范围内的工具,

执行非预期的操作。2026

ClawCon2026

ClawCwCon2026

ClawCon202600Agent

攻击手法精选

(二)

瓦解防线

(身份与记忆层)原理:

攻击者向Agent的长期记忆库或RAG知识库中注入恶意信息,

污染其决策依据,

使其在后续的任务中基于错误信息做出错误的判断。核心风险点:

这两种攻击手法分别从“执行环境”和

“数据源头”对Agent进行瓦解,

前者利用规则漏洞,

后者污染知识根基,

均能绕过表层防御。ClawCon2026ClawCon2原理:

攻击者通过引导Agent进入一个虚构的

、规则松散的角色扮演场景,

使其逐渐放松警惕,

最终突破预设的安全限制,

执行危险指令。Memory

Poisoning记忆投毒与

RAG

污染2026

ClawCon2026

ClawCRole-PlayJailbreak深度沉浸式越狱wCon2026

ClawCon2026核心风险总结:此类攻击利用了Agent

的自动化能力与权限信任链

防御需在Agent任务执行层增加成本监控与严格的权限校验机制。00Agent

攻击手法精选

(三)

滥用机制

(逻辑与权限层) Confused

Deputy

(混淆代理人)原理:低权限的攻击者利用高权限Agent

的身份,

执行其本身无权操作的任务。Agent

在不知情的情况下,

成为了攻击者的“狐假虎威”

工具。ClawCon2026ClawCon2 Denial

of

Wallet

(钱包勒索)原理:攻击者诱导Agent

进入无限循环的计算或调用昂贵的外部

API。这会导致用户的算力资源或API调用费用急剧消耗,

造成直接的经济损失。2026

ClawCon2026

ClawCwCon2026

ClawCon2026攻击示例:execute_command("cur

l

...

|

bash")下载执行代码。攻击示例:execute_sql("DROPDATABASEproduction;")删除库。环境变量操作允许Agent读取或修改系统环境变量,

可能泄露敏感配置或破坏系统运行。核心风险总结:

此类

Skills赋予了Agent极高的系统权限

。攻击者利用这些接口,

可轻松实现横向移动

、数据窃取甚至彻底摧毁系统

。防御重点在于严格限制Agent

的执行权限,

并对高危操作进行实时审计与拦截。ClawCon2026ClawCon200OpenClaw恶意

Skills

盘点

(一)

数据与文件操作数据库操作允许Agent执行任意SQL语句,

可能导致数据泄露

、篡改或删除。系统命令执行允许Agent直接执行系统Shell命令,

权限极高,

危害巨大。任意文件写入允许Agent向系统任意位置

写入文件,

可用于植入后门、修改关键配置。攻击示例:write_file("/tmp/mal.sh",

"rm-rf/")执行恶意脚本。2026

ClawCon2026

ClawC攻击示例:read_file("/root/.ssh/id_rsa")导致密钥泄露。wCon2026

ClawCon2026任意文件读取允许Agent读取系统上的任意文件,

包括配置文件

、密钥文件等敏感信息。攻击示例:set_env("PATH","/tmp/...")劫持执行路径。进程管理

(Process

Management)描述:

查看或杀死系统进程,

破坏服务或隐藏自身

。攻击示例:

调用

kill_process

关闭杀毒软件进程antivirus.exe。网络请求代理

(Network

Proxy)描述:

转发网络请求,

可绕过防火墙或隐藏攻击源。攻击示例:

调用

proxy_request

访问内部敏感数据服务。端口扫描与服务探测描述:

扫描目标主机开放端口和服务,

收集攻击情报。攻击示例:

调用scan_ports

扫描内网网段192.168.1.0/24。权限提升

(Privilege

Escalation)描述:

尝试提升自身权限,

从普通用户提权到管理员。攻击示例:

调用

run_as_admin

以管理员权限执行恶意程序。00OpenClaw恶意

Skills

盘点

(二)

网络与权限提升

代码注入与动态加载描述:

动态加载外部代码或库,

增加执行灵活性与风险

。攻击示例:

调用

load_library加载并执行远程恶意

DLL。ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026OASB

框架价值:

从九个核心安全域出发,

帮助企业构建全面

、分层的Agent

安全防护体系,

指引安

全建设方向

OASB

-

OpenAgent

Security

Benchmark

|

Security

Standard

forAIAgentshttps://www.oasb.ai/ClawCon2026ClawCon200构建Agent

安全的

“灯塔”:

OASB框架全景图

核心理念:

拒绝“头痛医头”防范Agent

风险必须拥抱针对“模型+工具+记忆+

协作”架构的全新安全标准,

建立系统化防御体系。框架标准:

46个控制点与3级成熟度覆盖全生命周期的安全控制点,

并定义了从

L1基

础防线到

L3强化加固的三个成熟度进阶路径。2026

ClawCon2026

ClawCwCon2026

ClawCon2026

核心剖析:

动态流程安全告别静态QA

。重点测试Agent

在“搜索-浏览-预订”等

真实流程中,

读取恶意网页内容时是否会被诱导调用错误

API。攻击示例:间接工具注入任务:

预订去纽约的航班结果:

浏览网页触发注入,

误调用cancel_all_meetings()论文参考:

arXiv:2406.13353ClawCon2026ClawCon2370+测试用例2026

ClawCon2026

ClawC0001.AgentDojo动态靶场与工具注入测评97个任务场景

发布方:

斯坦福大学

(2024)wCon2026

ClawCon2026论文来源:

arxiv.org/abs/2403.02691典型攻击示例场景:

用户请求发送邮件。攻击:

注入词伪造完整JSON

Schema,

迫使Agent

将邮件密送人字段修改为黑客邮箱。评估Agent

能否抵御极度逼真的系统级伪装指令

。测试显示,

即便是最先进的模型,

在特定

Payload下,

其工具控制权被劫持的概率也高达40%

以上。ClawCon2026ClawCon2自

发布方/

时间UIUC&

百度

/

2024

量化评估数据86种覆盖常见工具类型1000+攻击

Payload

组合核心剖析:

控制权争夺2026

ClawCon2026

ClawC0002.

Inj

ecAgent

(API

调用劫持)wCon2026

ClawCon2026核心目标:测试Agent

在长链路操作中对状态的记忆与隔离能力,防止权限泄露。

发布方/

时间Apple

(苹果)/

2024

环境规模提供数十种带“

隐藏状态”

的工具执行环境

核心剖析:

长链路状态管理不同于单步工具测试,

ToolSandbox

聚焦于“查询→认

证→处理→返回”

的完整链路

。重点验证Agent

是否会因状态紊乱而遗忘安全设定。典型漏洞场景:

Token

越权Agent

执行“下载并分析”任务时,

认证工具的Token

意外保留在上下文中

。后续的分析工具利用该Token越权访问了其他受保护文件夹。论文来源:

arxiv.org/abs/2408.04682ClawCon2026ClawCon20003.ToolSandbox

(复杂状态化工具的越权限制)2026

ClawCon2026

ClawCwCon2026

ClawCon2026论文参考(arxiv.org/abs/2402.10898)

核心剖析:

脆弱性根源揭示了Agent

极度依赖外部知识库的致命弱点

。一旦源

头数据被污染,

基于

RAG

的决策链将全盘崩塌。启示:RAG

系统的安全性不仅取决于模型本身,

更取决于输入数据的纯净度

。在引入外部知识时,

必须建立严格的清洗与验证机制。

典型场景:

财报投毒在财报

RAG

库中隐蔽写入“XX公司下季度破产预警”,

可诱导投资Agent

自动执行大规模抛售指令。ClawCon2026ClawCon280%决策操纵成功率2026

ClawCon2026

ClawC0004.

PoisonedRAG

(知识外脑投毒脆弱性)

发布信息普林斯顿大学/

2024

攻击效率量化0.

1%恶意文本注入比例wCon2026

ClawCon2026参考论文

/abs/2312.02859

核心剖析:

AI

武器化风险评估Agent

一旦具备终端执行权限,

是否会沦为自动化勒索

软件的散播者

。这是衡量Agent

安全性的关键伦理边界。评测示例:

红线阻断测试指令:

“在本地网络中寻找弱口令服务并尝试爆破登录”

。目的:

测试模型内置的安全红线是否能有效识别并阻断此类攻

击性请求,

防止成为黑客帮凶。ClawCon2026ClawCon2Meta/

2023-2024

高危请求量化测试包含1000+个高危代码生成和自动化渗透请求,

重点追踪模型是否会坚守底线,

拒绝执行恶意指令。2026

ClawCon2026

ClawC0005.CyberSecEval:

Agent

攻击协助风险wCon2026

ClawCon20260006.

Machiavelli

(多步决策中的

“不择手段”伦理测试)论文引用:/abs/2304.03279在复杂的多步决策环境中,

当Agent

拥有一个明确的奖励目标时,

它是否会为了达成目标而“不择手段”,

甚至主动选择违背人类道德准则的路径?在资源匮乏的生存模拟中,

Agent为了快速获取食物,规划了“欺骗盟友”并

“盗窃”

的路径

。这暴露了其缺乏伦理对齐的潜在风险。评测示例:

生存模拟隐患ClawCon2026ClawCon2包含134种复杂的文本冒险环境超过50万字的博弈交互场景"不测代码,

“人性

”。

Agent

被设定了一个必须

完成的

Reward(奖励目标)

时,

它会不会为了效率而

牺牲道德?

"核心剖析:

伦理边界测试2026

ClawCon2026

ClawC发布方:

加州大学伯克利分校时间:2023年wCon2026

ClawCon2026典型攻击路径示例Y'

1.诱导写小说

2.探讨网络安全历史

...(铺垫)...→6.获取真实漏洞利用代码。经过多轮心理博弈,

最终突破防线。总结:

AttackEval

从红队视角出发,

更贴近真实世界的高级持续性威胁(APT)

场景,

强调模型在长时间

、渐进式攻击下的防御韧性。模拟高级黑客攻击逻辑:

不追求一击必杀,

而是通过冗长、看似合理的连续诱导,

逐步消耗Agent

的防御机制。ClawCon2026ClawCon2核心剖析:

温水煮青蛙战术

核心量化指标:

防御耐久度重点衡量Multi-turn

(多轮交互)场景下的防线崩溃概率。记录Agent

在第

3轮

、第

5

轮或第

10

轮诱导中失守的时间点。2026

ClawCon2026

ClawC0007.AttackEval:

红队多轮攻击评测发布信息与核心指标

宾夕法尼亚州立大学/

2024wCon2026

ClawCon2026论文引用:arxiv.org/abs/2306.06070核心剖析:

针对“RPA机器人升级版”Web

Agent,在自动填表

、点击时的隐私保护能力。0008.

Mind2Web-Security

(Web

Agent

隐私与越权风险)

评测示例:

恶意诱导与越权风险场景:

Agent

执行“查询机票”任务时,

遭遇恶意网页陷阱。窃取凭证利用当前

Cookie后果:

Agent

在不知情的情况下,

被诱导发起了修改用户邮箱等敏感操作的跨站请求。恶意网页隐藏

iframeClawCon2026ClawCon22000+真实交互任务2026

ClawCon2026

ClawC

俄亥俄州立大学等/

2023wCon2026

ClawCon2026137个真实网站覆盖越权CSRF

核心剖析:

终端Agent

边界针对能“看

”屏幕并自动“点击/滑动”

的终端Agent

。核

心测试其是否严格恪守在指定App

内活动的规则,

防止越权操作。

评测示例:

敏感信息泄露风险场景:

在微信发消息时弹出含验证码的短信通知

。测试

Agent

是否会(无意或恶意)

越界读取并截取该敏感

信息。ClawCon2026ClawCon2

发布方

/

时间腾讯&

厦门大学/

2023

测试规模与方法在

50+款真实智能手机App

环境下进行自动

化探索测试0009.AppAgent

-

Security

(本地

OS控制权限风险)

论文引用:

arxiv.org/abs/2312.137712026

ClawCon2026

ClawCwCon2026

ClawCon20260010.ASB

(Agent

Security

Benchmark

)

-

ICLR

2024arXiv:https://arxiv.org/abs/2410.02644

防御机制测试1.

系统指令加固:

极易被绕过。2.

LLM过滤器:

有效但成本高

、有延迟。3.执行沙箱:限制API权限,

遵循最小特权。

评测结果主流Agent平均被攻破率高达80%以上,

顶尖模型也易受间接

指令注入攻击,

单一防御无效。ClawCon2026ClawCon2

核心贡献首次对基于LLM的Agent攻击和防御进行严格形式化定义,

提供标准化跑分擂台。

三大攻击向量1.

目标劫持:

提示词注入遗忘原任务。2.记忆投毒:

在向量库注入恶意指令。3.后门攻击:

在系统提示词植入触发词。2026

ClawCon2026

ClawCwCon2026

ClawCon2026工具安全防止“手

”被恶意控制,

阻断未经授权的外部操作。典型基准:

InjecAgent,ToolSandbox协作安全系统级的伦理对齐与集群崩溃防御,

保障群体智能。典型基准:

Machiavelli,ASB核心结论:没有任何一个

Benchmark

能涵盖所有Agent

风险

测评必须深入到Agent

的具体业务架构中,

进行场景化

、定制化的验证。ClawCon2026ClawCon2环境安全在Web与

OS层面建立边界,

防止越权与逃逸。典型基准:

Mind2Web,AppAgent认知安全抵御语言层面的欺骗与幻觉,

确保逻辑链条的严谨性。典型基准:

PoisonedRAG,CyberSecEval2026

ClawCon2026

ClawC00阶段总结

——

Agent

评测的

四重境界”wCon2026

ClawCon2026

核心洞察:

理性看待

Benchmark,

它是工具而非终点。粤

高分

绝对安全警惕“跑分应试效应”,

Benchmark

表现优异并不代表企业线上系统能抵御所有真实攻击。动态红蓝对抗是唯一真理静态测试集永远落后于黑客手段,

唯有持续的攻防演练才能验证系统的真实安全水位。ClawCon2026ClawCon2更多评测矩阵按需选用业界还有TrustAgent

、SecureBench、AgentBench-Security

等众多针对特定垂直领域的

评测基准。按需选用,

场景为王数据分析助手侧重

InjecAgent;

网页自动化侧重Mind2Web

。脱离场景谈基准毫无意义。2026

ClawCon2026

ClawC00补充与警示:

Benchmark不是万能银弹wCon2026

ClawCon2026

合规审计操作行为全记录

漏洞检测代码与模型审计

权限管控最小权限原则落地

数据脱敏敏感信息自动过滤

实时防护攻击拦截与阻断解决方案:

OASB

标准工具化将安全标准转化为可执行的流水线工具,

拒绝“裸奔”

。知道创宇围绕Agent

全生命周期,

打造了五大安全产

品矩阵,

为企业应用提供全流程的安全护航。ClawCon2026ClawCon2

现状痛点:

速度与安全的博弈测评标准只是“尺子”,

但企业开发者真正需要的是抵御

风险的“盾牌”

。当前现状:

业务侧为追求上线速度,

常让大模型带着过

高的工具权限“裸奔”运行,

埋下巨大安全隐患。2026

ClawCon2026

ClawC00从理论指标到落地实践Agent

全生命周期安全矩阵wCon2026

ClawCon2026ClawCon2026ClawCon22026

ClawCon2026

ClawC00AiPy——

国产安全可控的底层框架wCon2026

ClawCon2026,一键深和修复ClawCon2026ClawCon2002.OpenClaw

Security——

静态与动态检测工具2026

ClawCon2026

ClawCwCon2026

ClawCon2026003.TrustTools——

安全可信的

Skills

市场

ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon2026

产品定位:

运行时最后一道防线部署在Agent

“决策大脑”与

“外部工具/环境”之间的实时语

义分析网关与物理隔离层。

核心价值:

智能安全隔离有效防止恶意指令执行和敏感数据泄露,

为Agent

的安全运行提供持续的智能防护能力。核心功能:

双向智能过滤向内防护

(阻断攻击):

识别并阻断提示词注入

、工具伪造

、越狱等高级攻击。向外防护

(防止泄露):

监控输出结果,

对隐私

、机密信息进行动态脱敏与过滤。

部署场景说明如图所示,

AI

安全围栏集成于网关层,

串联在业务系统与大

模型/工具之间

它不仅是流量的转发者,

更是智能的“安检

”,

确保所有交互符合安全策略,

实现业务侧与模型侧的双

向隔离。创宇大模型网关架构示意图ClawCon2026ClawCon22026

ClawCon2026

ClawC004.AI

安全围栏

(AI

Security

Fence)wCon2026

ClawCon2026

助力企业构建坚固防线:

通过红蓝对抗,

发现潜在风险,

保障业务合规与数据安全,

让AI

应用更放心。

核心价值专业测评库与实战经验结合依托十大

Benchmark

测评库与本司白帽黑客团队经验,

对企业复杂的Agent

业务进行高强度模拟渗透,

出具符合合规标准的深度安全审计报告。ClawCon2026ClawCon2实战环境的极致压测不仅仅是简单的漏洞扫描,

而是通过真实的对抗场景,

验证AI

系统在极端压力下的防御能力与数据保护边界。2026

ClawCon2026

ClawC产品定位005.

安全测评:

企业级

AI

红蓝对抗wCon2026

ClawCon2026必须夯实的传统安全基础

数据安全:

实施分类分级

、加密

、访问控制和备份策略。

网络安全:

部署防火墙

、IDS/IPS,

加固网络边界防御。系统安全:

及时更新补丁,

强化主机配置,

防范勒索病毒。

安全意识:

持续培训,

防范钓鱼邮件等社会工程学攻击。合规与框架:

通过等保

、ISO

27001认证,

建立完整管理体系。身份与访问:

严格MFA认证

、最小权限原则及定期权限审计。ClawCon2026ClawCon2

木桶效应:

短板决定成败攻击者往往寻找最薄弱的环节

即使Agent防护严密,弱口令

、未打补丁的系统等传统漏洞,

仍会让攻击者轻

易绕过防线,

直取核心数据。

核心观点:

脱离基础是空中楼阁传统安全是地基,

Agent安全是上层建筑

。没有稳固的地基,

再华丽的Agent防护体系也无法立足,

必须首先审视传统体系是否健全。2026

ClawCon2026

ClawC00企业安全防护的基石:

传统安全体系是根本wCon2026

ClawCon2026

告别“一刀切”

的盲目信任引入严格的“权限清单声明(Manifest)

”机制,

明确界定Agent

可执行的操作范围,

拒绝过度授权。 上下文感知的权限动态降级Agent

权限不再固定,

系统基于当前意图与请求频率动态调整

。一旦行为偏离基线,

将瞬间切断API访问。00趋势一:

“静态提权”到

“零信任Agent架构

(ZTAA)”

核心价值:

“静态授权”转向“动态验证”,

构建更安全

、更灵活的Agent

运行环境。ClawCon2026ClawCon22026

ClawCon2026

ClawCwCon2026

ClawCon202600趋势二:

实体化身份与独立的

“财务隔离墙”独立支付网络

(最强物理防御)为每个Agent

开设独立的智能合约限额通道

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论