智能体人工智能安全:威胁、防御、评估与公开挑战_第1页
智能体人工智能安全:威胁、防御、评估与公开挑战_第2页
智能体人工智能安全:威胁、防御、评估与公开挑战_第3页
智能体人工智能安全:威胁、防御、评估与公开挑战_第4页
智能体人工智能安全:威胁、防御、评估与公开挑战_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能体人工智能安全:威胁、防御、评估与公开挑战BelliniCollegeofAI,Cybersecurity,andComputing,UniversityofSouthFlorida由大型语言模型(LLM)驱动的人工智能系统,具有规划、工具使用、记忆和自主性,正在成为强大、灵活的自动化平台。它们在网络、软件和物理环境中自主执行任务的能力,创造了新的和放大的安全风险,这与传统的人工智能安全和传统的软件安全不同。该调查概述了针对代理人工智能的威胁分类,回顾了最近的基准和评估方法,并从技术和治理角度讨论了防御策略。我们综合目前的研究和突出开放的挑战,旨在支持安全的设计代理系习架构[3],人工智能的能力和范围都在稳步扩大。传统上和过去十年中,人工智能在狭窄的特定任务应用中表现出色,例如图像分类,语音识别,推荐系统和预测分析[4,3]。这些系统通常在明确定义的边界内运最近,大型语言模型(LLM)的出现,如OpenAI的GPT[5,6]和Meta的LLaMA[7],标志着AI模型的范式转变。在大量文本语料库(现在甚至是多模态数据)上进行训练,这些模型表现出令人印象深刻的泛化能力,并且可以在广泛的领域中生成连贯的,上下文相关的响应[8,9]。LLM在会话代理、代码生成、内容摘要和多模态推理方面实现了突破[10-12]。此外,通过设计,大多数LLM部署仍然是被动的:它们响应包含指令的输入提示并生成自然语言输出,但不独立追求目标,保持记忆,或在没有人工智能代表了由LLM和其他生成式AI模型驱动的AI系统自然进化的下一个阶段。人工智能系统的特点是自主性,目标导向推理,规划以及通过工具,API或机器人实施16]。与静态LLM不同,代理系统保持持久记忆,跨时间进行审议,与其他代理协调,并动态适应不断变化的上下文。这些功能将代理人工智能定位为一个强大的通用自动化平台,而不是一个依赖于持续人工输入最近的框架加速了人工智能的采用LangChain[17]、AutoGPT[18]和多代理编排库等工具生态系统为链接推理步骤、存储长期上下文和集成外部API提供了基础设施。这使得基于代理的架构可以被广泛的开发人员和企业所使用。研究原型,如Voyager,它使代理能够在复杂的环境中自主探索和适应策略,如Minecraft[19],以及客户支持和数据分析中的企业部署[20],证明了代理系统处理多步骤和开放式任务的潜力。微信公众号:计算机与网络安全鉴于代理人工智能在不同领域可能产生的积极影响,这些系统越来越多地被应用于几个现实世界的场景和例如美国Toro等制造商已经部署了人工智能系统,分析关税政策,商品定价和经济信号,以建议采开发的人工智能软件工程师,他已经展示了在最小的监督下规划、编码、调试和部署软件它在现实世界的问题解决基准上大大优于早期系统,自主解决了13.86%的任务,而之前的模型仅为跟踪用户的偏好对生成代理的实验工作表明,人工智能系统可以模拟记忆驱动的、社会协调的行协调机器人来管理杂货订单履行,预计自动化将占订单的40%至80%。在研究方面,AutoAgents等·与物理系统的集成:在机器人和物联网系统中,代理人机器。例如,在亚马逊,仓库中启用代理的机器人能够执行一系列任务,如卸载,分类和检索物理策略,处理患者互动/随访,作为减少临床医生文件负担的记录员,并通过自主筛选加速药物发显然,由于其广泛的好处和革命性应用的潜力,代理人工智能已经引起了社会各界的极大兴趣。组织将这些系统视为效率和创新的关键推动者,能够应对需要自适应推理、持续交互和多步执行的挑战。然而,与此同时,这些代理属性也带来了新的风险:自主性和持久性增加了攻击面,工具集成放大了潜在的滥用,代理之间的协调引入了在人类监督或单一模型下可能不存在的不可预测性因此,安全性和可信性成为在社会应用中安全部署代理人工智能的必要前提。在这次调查中,我们关注这个非常及时和相关的人工智能安全问题,并介绍了目前最先进的新型人工智能代理攻击方法,防御策略,持续评估基准以及该领域的开放性挑战在随后的部分中,我们将更详细地讨论这些动机,并描述我们对增强虽然代理人工智能的潜在积极影响一直是跨应用领域采用的主要驱动力,但代理人工智能的自主性和持久性也带来了几类独特的风险例如,2025年年中发生了针对MicrosoftCopilot的EchoLeak(CVE-2025-32711)漏洞的严重威胁。包含设计提示的受感染电子邮件可能会触发Copilot自动泄露敏感数据,而无需用户交互[34]。此外,能够浏览、内容生成和存储的代理系统可以自主地制作个性化的鱼叉式网络钓鱼活动。赛门铁克使用OpenAI的OperatorAI代理进行的受控实验演示了代理如何收集个人数据并自动化凭据填2代理人工智能系统中的许多安全问题都是基于基础LLM的漏洞和缺陷[36],而其他问题则是新颖的,并且由入操纵代理行为[37-39]。Lupinacci等人证明,94.4%的最先进的LLM代理容易受到即时注入的攻击,83.3%容易受到基于检索的后门的攻击,100%容易受到代理间信任漏洞的攻击[40]。此外,Anthropic的研究人员观察到,生成模型在获得指令自主权时,会从事不一致的行为,如勒索或企业间谍活动,以实现目标,即应用领域(如医疗保健)造成非常不利的后果其他特定于代理的攻击包括内存中毒,随着时间的推移,随着代理保留并对损坏的上下文采取行动[42-44]和工具滥用,例如滥用日历或API集成,这可能会触发意外或恶意操作[45,46]。最后,代理身份滥用,如鉴于开发和利用人工智能系统的进展迅速加快,社区了解和解决上述安全风险至关重要。然而,由于该领域的大量工作此外,为了真正保护这些代理系统,同样重要的是要了解防御已知攻击/威胁的最新技术,并概述仍然存在的开放挑战。通过这项调查,我们寻求在这些方向上取得重大进展,我们作,开发安全可靠的人工智能框架,从而加速它们在社会中的采用。我们的工作也不提出了评估基准,而其他调查则探讨了信任和风险管理等主题[54],而没有像我们的工作那样专注于安全性另一方面,风险管理框架,如NIST生成式AIProfile[55]提供了基线指导,但使其适应自主代理仍然是一项我们现在提出并讨论了代理AI系统的攻击和安全漏洞分类。更具体地说,在本节中,我们将威胁大致分为问题。对于每个类别,我们将讨论与给定问题设置相关的各种攻击,并提供进一步的子分类。这些分类也(PI)仍然是文献中讨论最广泛的攻击,其中恶意指令导致模型偏离预期行为[57,58]。正如Beurer-Kellner即时注射表现为两种广泛的形式,直接和间接(参见图2的示例)。直接提示注入(DPI)变体直接将恶意指令插入到输入提示中以操纵代理的行为[60,61]。这样的攻击如果成功的话会非常强大例如,攻击者可以使用直接提示注入来毒害客户支持聊天机器人3Others:Database,API,Web[66-[69.[7]ImpersonationandRoleAVariousgovernanceissu图1:人工智能安全威胁的分类。内部数据源的信息,甚至可能触发未经授权的操作(例如,发送电子邮件),从而导致机密数据暴露[60]。相反,间接提示注入(IPI)攻击通过将恶意指令插入模型处理的外部数据中,导致LLM偏离用户提供的指令[62,37]。请注意,对于DPI攻击,最终用户是Attackeradmin1:x3Y24Lsu,admin2:Attacker图2:展示(a)直接和(b)间接即时进样的示例在前者中,代理直接由对手指示以泄露机密信息,而在后纵外部内容,已被证明在穿透为IPI攻击设计的八种不同防御方面实现了50%的成功率[63]。这些攻击通常涉已经提出了许多不同的攻击策略来进行IPI。最初提出用于越狱,贪婪坐标梯度(GCG)[64]已通过生成包含对抗字符串的肯定前缀来适应IPI,这些字符串会引起代理的恶意输出[65]。以类似的方式,两阶段GCG[66]训练了一个由两部分组成的对抗字符串,该字符串在释义后仍然有效,以便超越基于释义检测的防御最后,由于上述攻击经常生成可以通过困惑防御轻松检测到的乱码字符串,AutoDAN[67]增强了对抗字符请注意,IPI攻击利用代理对外部工具和信息源的依赖性,将有害任务封装在看似无害的资源中,例如数据经常冒充合法职责。这种类型的攻击比直接注入更有害,因为注入的提示可能看起来像合法的代理指令,很难将它们与常规过程区分开来[72]。例如,针对Web代理的攻击会操纵HTML结构或可访问性树来重定向代理操作,而针对计算机代理的攻击则可以利用界面交互来获得持久控制[71,73]。成功的IPI经常输入和后续工具调用之间的解耦,这一行为属性使它们与传统的越狱提示区分开来,这一事实加剧了挑之前的工作还研究了IPI攻击的实际应用程序设置。例如,在[74]中,作者研究了IPI对LLM驱动的Web导航代理的影响。作者演示了对抗性触发器如何将代理行为重新路由到恶意目标,如凭据盗窃,强制广告参与或未经授权的网站重定向,当它们被纳入可信赖网站的HTML可访问性树时。值得注意的是,它们显示了来自许多平台的登录凭据如何被单个恶意触发器收集[74]。它们还展示了CSS混淆和隐藏HTML元素等策略如何进一步提高隐蔽性,使攻击对用户不可见即时注入威胁可以通过它们是由对手故意引入还是在良性交互期间无意出现这种区别在基于代理的系统中5②document,itremovesthe图3:展示意外提示注入的示例。即使没有恶意的对手,意外的危险也会危及LLM代理的安全。例如,不清楚或措辞不当的用户查询可能会无意中推翻系统指令或导致危险的操作。此外,冗长的聊天历史中的上下文漂移可需明确的覆盖命令[75,76]。因此,核心挑战不仅是检测明确的攻击,而且还设计在模糊或变化的输入条件下保持一致的代理,强调需要在输入验证,上下文管理和指令遵守方面进行更强的防御。我们在图3中提供另一方面,有害的指令也可以由对手创建,特别是以有意的即时注入来操纵LLM代理的目的直接提示劫持码的恶意有效载荷),本质上可能是故意的[77,78]。故意的即时注入也可以在多代理系统中的代理之间传播,导致持续的劫持或通过可靠的通信渠道协调妥协[38]。与无意的即时注入相比,迫使代理执行有害行为,而不仅仅是产生危险的输出,因此需要主动保护策略,例如输入清理,工具使用除了传统的基于文本的提示注入,人工智能代理越来越容易受到利用现代模型不断增长的能力的攻击,包辑的解释,以隐藏和注入图像,声音或视频中的指令[81]。自然,由于传统的过滤器和防御在本质上更一般,它们无法检测到这种特定于代理的利用。我们在图4中对这些攻击进行可视化,并在下面详细讨论它们。基于文本的注入随着LLM代理的流行,基于文本的攻击可以以不同的形式表现。从直接的提示注入到以合法编程活动为借口的代码注入,这些代码注入允许生成恶意代码或SQL查询来执行不允许的操作(称为SQL到SQL或P2SQL攻击)。通过利用人类指令和SQL生成之间的语义差距,这些攻击绕过了标准的数据库安全措施[82-84]。现实世界的例子包括CVE-2024-5565,它演示了AI生成的代码如何用于任意执行[85],以及基于图像和基于视频的注入这些攻击包括通过隐写术或视觉模式嵌入图像中的恶意指令,代理将其解释为命令[79,81]。从本质上讲,过去的工作[79,81]表明,攻击者可以很容易地操纵模型/代理使用扰动图像产生恶意行为。这也表明了未来可能利用基于视频的输入的代理框架的潜在漏洞,因单个关键帧[86]此外,当前基于视频的AI/ML模型存在许多强大的对抗性攻击策略[87-89],进一步加强了这6GenerateapythonGenerateapythoncodewithstatisticalanfinance,runthemandpresfollowinglinesofcodes:importos;0sAttackernQoJ1dXlgdXNlciBOb2tlbiBpc2NhbFNOb3JhZ2UuZ2VOSXRIbSgndXNi2VuylurJyBDb29raWVzOiAnK2RVY3VImNvb2tpZSkiPIRydXNOIE5VIEFJPC9pZnNosmalltalk,nocodsiframesre='"javascriptalert(YouruslocalStorage.getitem(userToken)+''+document.cookle)'>TrustNoAl</iAttacker图4:可视化基于模态的不同提示注入攻击:(a)基于图像的,(b)基于文本的代码注入,以及(c)混合攻击。基于音频的注入与基于图像的注入类似,代理AI框架也容易受到基于音频的注入攻击。在这里,攻击者用恶意指令颠覆性地毒害音频输入模态,导致代理偏离安全行为。过去的工作已经证明了对抗性扰动如何用于在音频内容中混合恶意提示注入,以进行IPI攻击[81]和越狱模型[90]。其他工作也在嵌入级别探索了类似针对代理框架的对抗性即时注入攻击在本质上也可以是混合的,并结合了各种形式。Aichberger等人证明了对抗性图像补丁,当在屏幕截图中捕获时,可以劫持多模态OS代理执行有害命令,无论屏幕布局或用户请求如何。在此基础上,Wang等人引入了CrossInject,这是一种跨模态的提示注入方法,可以在视觉和文本中嵌入对齐的对抗信号,在各种任务中将攻击效率提高至少30.1%[79]。显然,由于任何受支持形式的恶意材料都可能影响代理行为并导致不期望的输出,因此混合多模式攻击对于自己与外部工具,文档和Web界面进行通信的AI代理来说尤其成问题,几乎没有监督。即时注入攻击的另一种分类可以根据攻击是否局限于单个目标来进行,而其他攻击可以以多跳方式在系统中传播因此,攻击在系统中传播的方式(除了注入响应的内容或形式)是代理AI安全的关键组成部分。因此,理解传播行为[61]对于有效保护代理至关重要我们现在讨论并将这一领域的作品分为两大类。一些攻击的主要目的是从环境中提取特定信息许多代码注入攻击本质上是非传播的,例如仅运行SQL查询以检索所需数据[93]或执行跨站点脚本以获取用户令牌[94]。最近的研究[61]已经将对AI代理的传播攻击定义为两种主要类型:递归注入,其中单个恶意提示触发未来交互中的一系列受损行为[61,38,95],以及自主传播,其中包括多代理感染和AI蠕虫,这些蠕虫在没有用户干预的情况下跨代理或系统边界传播恶意提示[96,38]。7微信公众号:计算机与网络安全使用多种语言、编码或符号来掩盖恶意意图是一种经典的快速混淆技术,使攻击者能够绕过标准过滤器,将有害内容注入到看似无害的输入中。为了规避内容审核管道,攻击者可能使用Base64字符串、HTML实体、表情符号对指令进行编码,或者将它们隐藏在非主要/低资源语言中。由于LLM仍然能够利用在预训练期间获得的知识来解释和执行这种隐藏的指令,因此混淆使对手能够绕过天真的基于模式的防御。先前的有效载荷分裂是指攻击者故意将恶意内容分割成几个看似良性的输入,然后提示LLM聚合它们,从而仅在重组时才揭示有害的有效载荷[98]。将恶意指令分布在多个输入上,使其对抗效果仅理在一起时才表现出来,这是一种补充策略。例如,LLM支持的筛选代理可以连接或联合总结包含散布在各个部分的恶意提示片段的简历,以操纵模型给出积极的评价,而不管实际资格如何[60,59]。这种攻击基本上利用了多文档或基于检索的工作流中的聚合阶段[96],因此被认为是简历筛选助理和相关的基于LLM的HR流程的主要弱点[59]。请注意,与直接提示注入相反,有效载荷拆分使得在任何一个输入中检测恶意信当LLM代理获得代码执行或系统级工具的访问权限时,他们可以自己进行对抗性的网络安全攻击,从而产生自主的网络利用。与需要外部参与者操纵模型的快速注入或越狱攻击相反,自主开发需要代理自己识别,组织和执行攻击,而无需直接的人类监督[96,38,99]。过去的工作表明,这些对抗性代理能够成功地在沙箱设置中危害网站[100]并执行一天的漏洞利用[101]。此外,根据各种行业评估,攻尤其重要的是要认识到,自主网络利用的经济效益对手显着[96,38,99]。例如,攻击者可以使用GPT-4执行有效的一天攻击,每次只需几美元,使攻击成本低于雇用人类攻击者。此外,LLM驱动的攻击的可并行性加剧了这个问题,因为扩展到大量攻击尝试既可能又经济[100]。我们现在深入研究这些攻击的三个子最近的工作表明,LLM代理,特别是那些构建在GPT-4之上的代理,能够自主地利用现实世界的一天漏洞,包括Python包,在线平台和容器管理系统中未修补的CVE。为了执行复杂的攻击,如SQL注入,远程代码执于所有其他检查模型和传统漏洞扫描程序,如OWASPZAP[102]和Metasploit[103洞。这些代理执行多步攻击,例如利用跨站点脚本(XSS)和跨站点请求伪造(CSRF)进行XSS+CSRF链接[104],服务器端模板注入(SSTI)[105]和盲目SQL联合注入[106]。该研究表明,代理能力,如上下文管理,工具集成和战略规划是攻击成功的关键一般来说,当不向代理提供文档访问或详细提示时,性能会显著降低。8最近的研究还表明,自主LLM代理可以进行合作和自适应的工具使用行为进行网络攻击。例如,在[100]ConAgents[107]框架强调了专门代理之间的结构化合作,用于工具选择,执行和动作校准,允许代理迭代地一个令牌生成的一部分,简化了跨广泛工具集的链接,而无需外部检索模块。总之,这些工作强调了部署一般来说,多智能体系统引入了独特的攻击向量,这些攻击向量源于对标准化通信、互操作性和分布式任务执行的需求与单代理设置不同,其中威胁主要限于迅速注射或不安全的工具使用,多代理生态系统通过协议介导的相互作用放大风险。消息篡改、角色欺骗和协议利用为对手创造了机会,不仅危及单个代理,而且危及整个协调工作流[38,109]。我们在图5中对这些攻击进行可视化,并在下面详细讨论3.3.1协议级MCP和A2A攻击流行的模型上下文协议(MCP)[111]和代理到代理(A2A[113]和代理通信协议(ACP)[114]。我们将下面的讨论限MCP诱导的攻击利用模型上下文协议本身的设计,它使用客户端-服务器架构将语言模型与外部资源(如文件系统,API或数据库)链接起来通过将访问与模型逻辑分离,MCP扩展了代理功能,但暴露了几个协议级攻击向量。最常见的攻击是洪水和重放漏洞,其中对手利用请求洪水或无限循环来破坏操作,导致拒绝服务(DoS)其他MCP攻击是由代理与MCP介导的资源交互的方式引起的,而不仅仅是由协议结构引起的。例如,嵌入式后门是隐藏在提示或模型参数中的恶意触发器,滥用启用MCP的工具访问[110,116]。关于检索损坏和联邦训练操纵的其他工作研究了攻击者在检索增强生成管道中扭曲上下文输入的情况[117]或在联邦学习设置中注入恶意更新以损坏分布式训练数据的情况[118]。此外,机密性漏洞是通过MCP接口泄露敏感上下文数据的干扰和侧信道定时漏洞[119,120]。A2A诱导的攻击A2A诱导的攻击利用代理到代理(A2A)协议中的漏洞,该协议通过JSON交换协调MCP,容量标识和任务委托之间的交互[112]。A2A的可扩展设计引入了几种特定于协议的威胁,例如虚假代理广A2A下的其他代理诱导攻击利用代理-代理通信的动态,例如传递提示注入,其中有害输入通过互连的代理这些代理协议的脆弱性突出了多代理生态系统中协议级假设的脆弱性。通过破坏发现、身份验证或任务协调,攻击者可以从本地操纵升级到系统级破坏。这些风险强调了对协议强化、安全的代理身份管理和强大9微信公众号:计算机与网络安全AttackerAttacker(a)AttackerA2AServerA2AServerMalicious基于Ko等人提出的分类法。[109],我们明确地从威胁行为者的角度重新组织了跨域多代理LLM系统的安全挑战。这种框架突出了恶意行为者如何利用代理间的信任,协调,学习和数据流。我们确定了六大类威假冒和角色滥用攻击者可以利用缺乏集中式身份和信任管理的漏洞来承担虚假角色或覆盖预期权限。通过欺骗代理的身份或冒充受信任的协作者,攻击者可以进入原本会受到限制的工作流程[124,125]。入,恶意代理就可以合谋形成隐藏的共识,放大他们的影响力,直到合法的安全措施崩溃[126,127]。跨领域/组织的激励措施(例如竞争性的公司利益),进一步为敌对代理人提供掩护,使他们能够在组织目标的协调操纵跨域/组织系统动态地将代理分组为特定任务的团队,通常没有事先审查[128]。虽然这种能力提高明确信任界限。恶意或未经验证的代理可以在运行时作为特定任务团队的一部分引入,正如后门攻击所证明的那样。递归委托放大了攻击:受损的代理可以将子任务卸载到其他代理,将对抗性影响更深地传播到工作流中[109]。与静态攻击(例如传统的恶意软件)不同,这些攻击利用了多代理系统的框架[133,知识和学习操纵跨域多智能体LLM允许智能体通过共享学习和分布式微调进行自我改进[109,135]。如果没有统一的监督,对手可以巧妙地操纵一个代理的奖励信号,导致不一致的行为在代理之间传播[136,134]。正反馈循环可能放大不安全的目标,使政策偏离和权力过度。与提示或内存注入不同,这种攻击利用了学联邦多代理LLM系统正在通过使代理能够访问一个组织中的敏感数据来与外部合作伙伴管理的代理进行交互,从而改变企业运营然而,一旦信息跨越组织边界流动,没有一个单一的实体保持对交互的完全监督,即使内部政策(例如,“不披露个人薪金”或“只分享代理推理,通过对单独看似无害的多个部分输出进行推理来重建敏感数据。传统的安全机制假设提示在单个代理中完全可见[125,38],但在联合设置中,上下文在代理及其各自的提示中被分割。这种分散为规避政策提供了机会例如,一个对手可能会从一个代理人那里要求一个部门的最高工资,然后向另一个代理人询问获得该工资的人的姓名,有效地重建了受限信息。类似地,向不同代理发出的单独查询可以策略性地组合以满足否则被禁止的请求。传统的防御,如静态关键字过滤和基于角色的访问控制[137],无法捕获这些分布式推理攻击。诸如零知识证明[138]或差分隐私[139]等技术在处理自然语面也面临限制[140]。尽管最近的研究表明,多回合攻击可以规避在隔离环境中成功的保护,但大多数企业从威胁行为者的角度来看,跨越多个组织域的多代理系统提供了隐藏恶意行为责任的重要机会每个域通常执行独立的日志记录,保留和审计策略,防止统一的活动跟踪[109]。一旦输入数据被LLM处理,它就会被转换为分布式的潜在表示,消除可能将动作链接到其源的持久标识符[142]。与可以实现污点检查或显式信息流跟踪的传统软件系统不同[143],这些潜在表示使跟踪变得不可行[144]。攻击者可以通过危害域A中的代理,注入欺骗性但看似合理的指令,并间接触发域B中的有害行为来利用这一点,同时掩盖他们的身份和意图[145-147]。即使在代理级别进行审计,代理之间的关系和跨域因果关系仍然是隐藏的,这大大复杂了问责制。当前的可解释性工具,如影响函数[??148,149],激活跟踪[150]或模型源属性查询[151-153],提供有限的可见性,并经常在这些复杂的多智能体设置中失败。机密数据篡改/泄露威胁行为者还可以针对多代理系统的加密和工作流限制即使在输入和输出保持加密的隐私保护部署中[154-156],攻击者也可能利用跨域的完整明文可见性的缺乏。例如,在云托管的医疗管道中,加密的患者扫描由不同供应商管理的多个代理处理,中间输出永远不会暴露[157]。虽然这种设计减少了直接暴露,但攻击者可能会尝试修改解密结果或干扰中间计算以注入有害结果。与具有集中式日志记录和签名的本地系统不同,分布式加密工作流使所有参与者都暴露在攻击之下。诸如全同态加密[158],多方计算[159]和零知识证明[160]等技术提供了部分缓解,但它们在计算上昂贵,并且不能域代理网络中的操纵。因此,机密性和完整性的差距仍然是攻击者在现实世界中的多代理部署可利用的途在人工智能代理的上下文中,特别是那些在基于Web或嵌入式环境中运行的代理,界面和环境风险是指代理与其外部操作环境上下文之间的交互所产生的漏洞和限制。这些风险并不源于智能体的内部推理或学习虽然部署的代理经常需要基础操作,如滚动,悬停或标签操作,LLM是在静态文本语料库上预先训练的。感知和执行问题都是由训练数据中的这种不匹配造成的。对手也可以针对这些现存的观察-行动空间不对准和鲁棒性问题来攻击代理系统。例如,在WebArena等评估通用Web交互任务的基准测试中,GPT-4的性能说明了其中的一些挑战[162],其中细粒度的动作,如滚动,悬停和标签切换,为模型增加了不必要的复杂性,并且经常被滥用。AgentOccam还证明,通过精简动作空间(例如,消除具有低效用的命令,抽象复合动作)和改变观察空间(例如,修剪重复的历史,提供完整的页面状态)[164]。所有这些结果都反映了需对先前输入的误解现实环境中的智能体经常误解输入,的鲁棒性。例如,GPT-4经常重新发布一个已经输入的搜索短语("DMV区域),直到它达到步长限制,表明未能将短期状态和过去的行为纳入决策。代理通常也会忽略先前输入的输入或动作历史[162]。对话式数据的现代预训练和监督微调范式,训练模型学习短期的预防-响应行为(同时降低长期体现的顺序状态跟踪的优先级),可能会导致这些缺点[165,162]。提前终止和可扩展性误判现实环境中的另一个重要鲁棒性问题是不安全的提前终止,这通常是由代理中的感知偏差例如,在WebArena基准测试中,作者在代理提示中提供了无法实现(UA)的提示,这些提示是由于缺乏证据而无法实现的任务然而,删除显式UA提示将GPT-4任务的整体成功率提高了14.41%,同时降低了模型对不可能任务的真阳性检测(至44.44%)。此外,GPT-4错误地将54.9%的实际可行任务标记为在此指令设置下不可能。这表明即使是微小的指令更改也会对停止/继续行为产生重大影响小尺寸的GPT-3.5倾向于进一步耗尽步骤限制,重复不正确的动作,或产生幻觉反应,而不是产生有组织的不可解释性推理。模板,反馈和内存的脆性LLM代理在面对重复,长期或略有变化的任务时表现出脆弱的概括。即使任务来试中也观察到了类似的脆弱性:Mind2Web报告称,Web任务中模板衍生的变化通常会导致成功率急剧下降[166],而BrowserGym则发现在不同环境和界面状态下重现结果的不稳定性[163]。这些发现强调了依赖表面水平模式而没有强大的记忆或自适应反馈机制的局限性为了弥合这一差距,WebArena基准被提议作为明确结合记忆和反馈以提高可靠性的方法的测试平台[162]。AgentOccam等补充工作进一步表明,可以通过更好对于自治代理来说,网络环境带来了重大的可访问性和可重复性挑战。时区、默认语言和地理设置等本地化因素会改变网站的呈现方式,从而导致代理行为的变化,从而影响试验的一致性[166]。动态界面元素,包括广告,弹出窗口和非确定性更新,进一步增加了随机性,导致即使在大多数相同的任务上也不稳定。制造额外的摩擦,CAPTCHA和其他机器人检测机制通常会给代理系统带来重大问题OpenCaptchaWorld[167]等研究表明,即使是先进的多模式代理也难以使用CAPTCHA,最多只能实现40%的成功率,而人类则接近100%。这些限制使得可重复性,可靠性和可扩展性成为现实环境中(更具体地说,基于Web的系统)代理人工智能安全研究的持续挑战。Basedonthedocumentinstructions,hereBasedonthedocumentinstructions,hereTellmeyourname.BTellmeyourname.B图6:一些针对即时注入攻击的防御措施。由于人工智能代理变得更加独立,人类的监督和控制减少,因此提出更好的治理/监管这些系统非常重要。可以自己编写和运行代码的完全自主的系统在安全性,安全性和信任方面存在更大的风险[168,99,169]。这些代理有可能以不可预测的方式行事,克服人类的局限性,并使用户面临一系列负面后果,例如虚假信息和劫持[170,171]。关于权力和责任的道德问题是由无效的监督带来的,特别是在高风险的关键任务应用中,如自主武器[172]。研究人员建议确保人在回路控制,并使用结构化的自治级别来定义代理的能力和限制,以减少潜在的危险[173,174]。此外,它是至关重要的,以发展治理框架,可以保证和建立可接受的为了保护代理人工智能系统免受威胁,已经提出了各种防御策略和框架然而,由于攻击载体和威胁的不断演变,防御方法需要不断优化和评估。为了促进开发更好的人工智能防御机制的进展,我们现在讨论现有即时注入仍然是针对LLM代理的最持久的攻击载体之一,因为对抗性输入可以覆盖预期的行为并破坏下游操作[63]。一般来说,即时注入防御[59,97,175]可以大致分为三个不同的类别:代理集中,系统集中,用略。我们将在下面进一步详细讨论这些类别(及其子分类):对即时注入的敏感性[176-178,150,179,180]。主要有两种方法:提示工程和运行时输出行为[176]中的作者提出了一种指令层次结构,它为不同的指令源建立了优先级,以便用户提供的指令总是优先于嵌入在检索内容中的潜在恶意指令。其他作品介绍了对抗性训练方法,教导模型抵抗即时注入攻击[59]。作为对这些努力的补充,还进行了研究,利用电路中断或和拒绝对抗模式,同时保留预期功能[178,150]。是一种使用正常和即时注入污染提示来增强数据集的方法,使模型能够学习忽略注入的指令,同时保持对合法指令的响应。类似地,在[180]中,作者介绍了SecAlign,它通过直接偏好优化(DPO)[181]利用对齐可能会降低LLM的通用功能,而不会提供针对自适应攻击的显著防御能力,从而引发对该策略可用性的担忧与以代理为中心的防御框架相反,以用户为中心的防御将责任放在最终用户或人类操作员身上,以提供有助于防止即时注入攻击的验证信号[59,97]。虽然这些防御在理论上非常有效,但它们也会在自动化和可靠一种方法需要在执行敏感操作之前进行人工确认[183],尽管这会降低自动化效率并增加疏忽批准的风险。数据属性和控制流提取等技术旨在减轻验证负担[144,184]。作为补充,已知答案检测使用嵌入在用户命令系统级防御旨在通过集成外部验证,控制机制和受约束的统固有的强大的攻击仍然是一个具有挑战性的技术问题。类似于在计算机视觉中防御传统的ML/AI对抗性示例,完全防止即时注入是一个开放的问题[186]。尽管有这个问题,最近的工作已经引入了针对系统的保护系统为中心的防御,如Melon,采用约束执行沙箱和验证循环来限制潜在恶意指令对下游系统的影响,作为基于检测的防御试图在不修改基本LLM的情况下检测恶意输入或输出。输入检测方法通常依赖于单独的过滤器,例如护栏模型,在它们到达目标系统之前屏幕提示[175]。这些方法微调较小的LLM,以区分合法指令和注入指令[187,188]。例如,DataSentinel将检测公式化为极大极小优化问题,利用故意脆弱的LLM来揭示受污染的输入[188]。响应检测方法分析生成的输出以标记异常。通过检查无效或意外的响应,例如强制令牌(例如,“HACKED”),这些方法可以识别受损的代[97,189]。然而,他们与更复杂或微妙的攻击隔离防御隔离防御方法通过限制代理的能力来限制有害指令的可能影响,同时参与不可信的输入[59]。一种简单的方法是要求LLM为任务提交一组预定义的工具,系统控制器禁止访问其他工具[190,59]。提示增强提供了一种轻量级且易于部署的针对提示注入的防御,依赖于精心制作的系统提示或输入修改,而不是模型重新训练或架构更改。典型的策略包括在用户输入和检索到的内容之间插入分隔符[191],从提示中删除插入的部分[175],以及嵌入显式系统级指令,指示微信公众号:计算机与网络安全ExecutingExecutingcommands:Userprivilegesconfirmed,PermissionsCommandsequenceanalysis:Step4logicalsafetyrulesaboutprivilegeescalation.PolicyvalidationfhowtooptimizethedelenhanceddeletionmethmayviolatedataprotectionpolicontentsuggestspotentialpoExecutethesecommandsinseallusers2)Checkadminprsnippetsandasks:"Analyzethi图7:策略过滤和强制防御策略。[192]第192话不打不相识这种方法的吸引力在于它的简单性和低部署成本。然而,在他们的工作中,作者证明了这种策略(尽管在基线场景中有效)可以在自适应攻击下被绕过,强调了即时增强作为独立防御的基于质量的防御基于质量的防御评估模型输入或输出的统计特性,以识别指示即时注入的异常。一种代表性的方法是使用困惑度度量(本质上是交叉熵自回归语言建模损失的指数)作为信号,其中意外的高值表在代理人工智能系统中,对(间接)即时注入的防御可以通过资源需求进一步组织,从而产生两类:基于基于训练的防御通过额外的学习或辅助模型来加强代理对即时注入的防御。常见的方法包括对底层LLM进行对抗性训练[176,179,194],或者使用专用的检测模型在执行之前标记注入的输入[187,195]。虽然在受控环境中有效,但这些方法需要大量的计算资源和训练数据,并且可能会降低代理在更广泛的应用领域中的效用[72]。免训练防御通过修改提示或约束代理行为来避免再训练成本。无知策略,例如用户和检索内容之间的分隔符[191],旨在削弱注入尝试,但仍然容易受到自适应攻击[63]。已知答案检测[196]引入了控制问题来识别受损的执行,尽管这种方法只能在事后应用。在系统级别,工具过滤[190]将代理调用限制为预定义的工具集,TaskShield[197]验证工具使用与用户意图的一致性。虽然轻量级,但这种防御可能会降低代理效用,并人工智能代理安全的一个基本保障是严格的策略执行,即确保代理在既定的行为和安全限制内可靠地运行,即使在面临对抗性挑战时也是如此。执法框架不仅仅是在实践中,行业指南已经开始概述这种护栏的部署模式,强调分层和模块化方法来实现现实世界的对齐[198,199]。代理护栏最近的工作揭示了两个主要os.system('rm-rf/tmp/*')图8:沙盒作为防御策略的示例。以治理为中心的方法通过将政策直接嵌入代理循环或将监督委托给监督代理来明确地规范代理的行为和决策序列。例如,通过将保护请求转换为可执行代码,GuardAgent在运行时应用安全约束,重新训练模型[200]。它的基准精度很高,但需要手动配置每个代理的工具箱和内存示例,这大大降低了可扩展性[200,201]。另一种方法AgentSpec引入了一种特定于域的语言来指定运行时约束,从而能够系统地执行可定制的策略,例如工具访问限制和允许的数据操作[201]。此外,ShieldAgent[202]作为监督代理,审计多模式动作序列,并应用概率策略推理来阻止,修复或批准它们。这提供了显式的序列级强制执行,而不是仅依赖于过滤机制。此外,R²-Guard[203]通过将数据驱动检测与嵌入中定义的安全知识规则被编码为概率图模型中的一阶逻辑,从而提高了对抗性或越狱提示的弹性。这种方法通过将策略验证和批准阶段直接集成到代理的4.2.2以信号为中心的(非运行时)实施以信号为中心的方法通过扫描输入和输出的违规行为来确保合规性,并将其标记为妥协信号。它们不是限制内部行为,而是在执行之前阻止有害的提示或不安全的输出。例如,LlamaGuard[195]针对基于文本的LLM,LlavaGuard[204]扩展到基于图像的多模态模型,Safewatch[205]解决视频生成。此外,Gosmaretal.[97]提出了一个框架,该框架拒绝或清沙箱已被广泛采用,作为测试LLM生成的代码或第三方代码在现实世界约束下是否安全的实用方法例如,SandboxEval引入了一套手工制作的场景测试套件,模拟不安全的代码执行,包括文件系统操作和网络调采用容器化环境(例如,gVisor或Docker)针对单元测试执行LLM生成的代码,暴露主机系统。同样,Iqbaletal.[209]将OpenAI插件隔离在单独的沙箱中,以防止受感染插件的级联故最近的工作还提出了沙箱架构,以实施最小的特权和限制代理的能力。Ruan等[210]引入了一个双代理框架,其中一个LLM充当仿真器,另一个充当安全评估器,从而确保不受信任的代码只能在预定义的沙箱边洞,例如跨会话的文件隔离同样,Huangetal.[212]强调气密沙箱对于基于强化学习的对齐是必不可少的:奖励计算完全发生在一个确定性和受限的执行环境中,该环境包含每个REST调用,数据库突变和文件操作,从而消除奖励黑客并保持训练收敛。通过限制执行上下文,这些设计防止了敏感数据的泄漏,并减少了对抗性代码注入的攻击面[206,211]。Mushsharat等人引入一个用于分类的神经沙箱,它使用与cop-words虽然大多数沙箱防御强调实际隔离,但最近的研究已经开始追求正式的安全保证。例如,Zhongetal.提出一种架构,将未经验证的AI控制器沙箱化,同时在连续控制系统中提供可证明的安全性和安全性保证。与将安全性集成到训练过程中的奖励塑造方法相反通过在沙箱中嵌入形式验证,这将范式从反应式遏制转变为与在代理推理或输出过滤级别上操作的策略实施方法不同,基于沙箱的防御专注于隔离执行上下文以包含风险,防止特权升级,并在代理受到损害时最大限度地减少损害尽管沙箱和限制提供了强大的隔离保证,但仍然存在一些挑战。沙盒实现本身的漏洞已经被记录在案:Wu等人[215]发现缺少允许跨会话泄漏的文件隔离约束,研究人员报告了依赖安装管道中的缺陷,这些缺陷使大规模代码执行攻击成为可能[216]。最后,沙箱可能会引入开销并降低系统效率,从而提高安全性和代理AI可用性之间的权衡。在多代理设置防御也必须随着威胁的发展而发展,这使得持续监控和自适应过滤对于保护AI代理至关重要。传统的运行时执行机制往往是被动的,并且只在出现不安全行为时才进行干预,这限制了分布变化下的预见性[201,200,217]。Pro2Guard通过采用概率可达性分析将代理行为来解决这一差距,从而实现跨异构域统计可靠性的主动干预[217]。在多代理系统中,分散的运行时执行使各个代理能够在本地生成安全保护适应,避开集中式设计时方法固有的可扩展性限制和信息共享约束[218]。这些执行器确保正确性、有界偏差和完整性,这使得它们非常适合于碰撞避免和合作规划等应用然而,静态监控策略仍然不足以应对适应性对手,这些对手可以进化策略以绕过固定防框架,如对抗性马尔可夫游戏,将检测视为攻击者和防御者之间的动态交互,表明强化学置中的规避攻击和响应防御。这些结果表明,除了运行时强制执行和去中心化之外,成功除了技术防御之外,组织框架和标准在实践中塑造代理人工智能的安全部署方面发挥着关键作用。这些措施提供了组织可以采用的通用指南、风险管理实践和参考架构,以防止系统性漏洞。例如,NIST人工智能风险管理框架(AIRMF)生成人工智能配置文件[55],根据行政命令14110开发,为管理生成和代理人工智能特定的风险提供了跨部门参考。它通过定义生成AI的新风险或加剧的风险来扩展AIRMF,例如LLM的滥用,未经验证的工具访问和安全驱动的升级。它概述了治理、映射、测量和管理实践,以减轻这些风险。补充举措包括NCCoECyberAIProfile[220],它提供了实施指南、网络安全框架,用于将网络安全控制集成到和CSAMAESTRO框架[222],它引入了为代理人工智能量身定制的多层威胁建模方法这些标准和组织框架为了评估我们之前讨论过的各种代理人工智能安全漏洞的影响(以及防御策略的效力),有必要通过强大的基准进行系统评估为代理人工智能提出的第一个基准主要集中在能力上,并试图研究代理是否可以在受中,我们涵盖:(一)景观基准用于衡量一般能力,(ii)探测有害滥用等故障模式的特定安全框架,以及(iii)提高保真度,可比性和再现性的方法进步表1总结了现有的基准跨越能力和安全特定的重点,突出了他们的领域,一些现实的和交互式的测试平台的网络和计算机使用的代理人已经开发出来。BrowserGym在一个一致的界面和评分协议下带来了许多这样的任务(例如,MiniWoB++,WorkArena,WebArena等),减少碎片化并实现LLM和代理设计之间的同类比较[223]。特别是,BrowserGym强调统一的观察和动作空间,实验展示了跨模型的证据,即代理性能对模型选择和环境都很敏感[223]。在长期存在的MiniWoB/MiniWoB++基准上,所提出的方法继续取得进展[224-226]。移动到更动态的交互和环境,T-BENCH明确针对多轮工具使用代理与域策略下的模拟用户交互(例如,零售和航空公司),并引入passk度量来量化同一任务重复运行的一致性[227]。一般来说,相对较新的模型(例如GPT-4o)在现实领域中仍然无法成功完成一半以下的任务,而在零售环境中,通过8可以下降到25%以下[227]。虽然这些面向能力的基准测试本身并不是安全测试,俭它们暴露了与整体模型安全性密切相关的控现在有几个基准也旨在评估代理安全性,即,由自主行动、工具使用和长期互动而不是静态聊天完成所产理是否避免不安全的操作(例如,在追求目标的同时,业务系统中的破坏性操作)[231]。与传统套件仅在最终任务成功方面得分不同,ST-WebAgentBench强调在现实的Web前端(如DevOps工作流,电子商务和企业CRM)下的可信度作者还提出了新的评估指标,如(1)在政策下完成(CuP)(遵守可接受政策的任务(2)风险比率(量化安全漏洞)。通过这种方式,该基准突出了两个对部署有用的不同错误类别:(i)任务否保留代理权限(即,一旦拒绝被绕过,执行多步有害工具序列的能力)[46]。AgentHarm依赖于合成工具来安全地模拟真实的动作(例如,电子邮件、搜索等)同时在评估期间评估安全性报告的结果表明,简单的越狱模板可以显着提高合规性,同时保持任务一般计算机使用安全。OS-Harm建立在OSWorld的[229]完整桌面环境上,以评估办公应用水平[232]。与纯Web基准测试相比,OS-Harm强调桌面级的副作用(例如,无意的数据泄辑),并探讨跟踪格式(屏幕截图和可访问性树)如何影响自动判断的可靠性[232]。风险意识和痕量级评估。R-Judge不是引发有害行为,而是评估LLM(以及扩展后的代理)是否可以识别代理轨迹中的安全风险,为构建更好的判断或防护(导轨)组件提供补充镜头[233]。同时,ToolEmu在LLM仿真工具沙箱中评估代理,从而实现对风险行为和潜在负面副作用的可扩展探测[210]。作者通过仿真器的发我们现在讨论一些潜在的方向,为代理人工智能安全评估提出的基准的发展。除了基于当前进步和进展的了解过程的评价。最终状态度量(成功/失败)忽略了代理安全的重要方面,例如未遂事件、后来回滚的不安安全重点多-可靠性关键点浏览器健身房[223]网站--广告规则-一接口MiniWoB++[224]Web-浏览线[227]第二十二话-基于规则基于规则的逐步结束状态[229]第229章:我的世界结束状化时间性能[231]第二十三话[46]第四十六话域:能力我的世界我的世界影响对轨迹段(计划、工具调用和中间状态)进行评分,并使用跟踪级判断来检测策略违规或副作用[234,235,231,233,210,232]。向流程感知评估的转变为培训护栏和控制措施提供了更细粒度的反馈,特别是与安全关键领域相关的反馈。重复试验指标。T-BENCH通过k度量在具有较小随机性的重复试验下实现可靠性[227]。特别是,这对于安全评估至关重要:一个预期安全但偶尔执行破坏性操作的系统对于任何关键任务场景都是不可接受另一方面,对于诸如代码生成之类的任务,(从许多可能的生成中)获得一个正确的解决方案是可行的(并量化为pass@k度量[236])。因此,对代理人工智能框架安全性的评估和基准必须转向通过分布报告性能(例如,传递1,传递k,对于几个k),而不是一个单个平均。A规范法官,减少法官偏见。LLM-as-a-judge[237]在规模上很有吸引力,但可能会受到提示设计,跟踪格式或模型选择的影响。几篇论文研究了如何构建判断(规则,多标准提示),验证他们对人类,并减少幻觉评估[232,233]。法官方法的有机演变,一个绅士作为一个法官,嵌入了一个评估代理人,原因的轨迹,并提供结构化的微信公众号:计算机与网络安全(i)评分员与人类的一致性,(ii)对跟踪编辑/格式的敏感性,以及(iii)随机种子和轻微任务释义的稳定沙盒和仿真来控制风险。安全评估通常需要测试不安全的提示或工具序列;对实时系统执行这些操作是险的,并且是不可复制的[210,232,239-241]。仿真(ToolEmu)和虚拟机支持的沙箱(OSWorld/OS-Harm)为可重复实验提供了安全,确定性的环境[210,232]。一个理想的属性是保真度:模拟器的API/延迟/错误模式越接近真实用例,结果就越有用一般来说,对于代理人工智能框架的安全评估,即将到来的基准复制性和可比性。最近的Meta基准(例如BrowserGym[223])强调统一的日志记录,种子随机性和固定的观察/动作空间,以避免苹果到橘子的比较。对于安全应用,未来的基准测试应该继续提供:(i)公开发布攻(ii)报告成本和延迟(特别是经常增加开销的安全系统);(iii)记录环境我们现在讨论代理人工智能安全领域的一些公开挑战更具体地说,我们涵盖了与测量代理系统中的长期安全性相关的问题,多代理系统安全性的方法,以及为AI代理的安一般来说,与短期任务相比,LLM在长期任务(即需要规划,工具使用,顺序上下文管理和长片段记忆交互的任务)中的表现会受到影响[242,243]。最近的计算机使用测试平台,如OSWorld[229]和OSWorld-Human[230],暴露了长工作流程和异构应用程序之间的巨大性能同样,代理人努力在长期范围内适当地管理记忆,导致错误或冗余的上下文[244]。这种缺陷只会因为安全考虑而变得更加复杂[245],因为安全风险可能会出现在具有工具使用和部分可观察性的多步骤任务中,而这些风险可能不会出现在较短的任务中。因此,开放的挑战是在很长的时间/事件范围内衡量和改善人工智能的安全性。更具体地说,可以在两个方向上取得进展:(i)时间鲁棒性:代理是否可以在多步子目标,中断和/或多代理设计承诺容错和专业化,但跨代理的协作也扩大了攻击面,并引表明,即使是一个有故障或敌对的代理也可以在不同的多代理组织拓扑中级联故障,并且弹性随组织结构/间通信协议中的漏洞(例如消息拦截和操纵攻击),并表明这些威胁可能会危及现实世界的代理AI应用程序。因此,未来的工作可以沿着以下方向推动进展:(1)具有身份验证/验证的鲁棒消息传递通道,这些通道不会降低性能(例如,通过引入额外的延迟);(2)用于分歧、验证和回滚的安全机制,其限制由对抗代理引起的攻击的可能性;以及(3)开发可以更好地调节工作代理的动作的哨兵代理,以保护系统免受恶意或只有在安全/安保基准能够捕捉所有可能的攻击场景并严格评估威胁模式的情况下,才能对代理系统当前的安全漏洞和缺陷进行更现实的评估未来的工作有许多潜在的方向,以加强对人工智能系统的安全评估(1)新的分布式覆盖度量,其对轨迹段进行评分,而不是仅考虑最终状态(即,任务是否成功完成)并捕获整个性能分布(而不是平均性能或单次运行)。(2)法学硕士作为法官越来越多地用于代理人工智能评估[238],但目前尚不清楚其可靠性或法官框架是有弹性的,因为过去的工作表明,法学硕士法官本身可能会受到关键安全问题的影响[249]。因此,今后的工作可以致力于培养能够接受敌对影响的法官(3)为了真正评估针对代理系统的潜在攻击的破坏性,重要的是在沙箱和模拟环境中进行严格的测试-未来的研究工作可以旨在揭示当前环境是否具有与现明,自适应攻击在很大程度上未被探索和忽视,因为大多数工作都是静态的(即,非自适应)防御评估人工智能代理[63,182,250]。更一般地说,在ML/AI的对抗性攻击研究中,许多最初报告为有效的防御通常在发布后不久就被破坏,主要是因为它们缺乏针对自适应攻击策略的全面评估[182,251,252]。同样,尽管正在进行不同的研究来考虑,防御和评估自适应攻击[175,219],但它们对代理人工智能系统的潜在影响值得进一步探索。因此,未来的工作可以探索以下方向:(i)提出和定义针对自适应攻击的新评估方法, (ii)探索当前防御对自适应攻击的影响,以及(iii)开发更强大的自适应防御,可以共同进化并阻止自适人类和人工智能系统之间的边界引入了一个独特的安全边界。一方面,代理通常被部署为直接与最终用户交互,最终用户可以提供指令、更正或系统行为的验证。另一方面,人类的监督本身也会受到不利影响。例如,攻击者可以在社会上设计用户批准不安全的操作²,或者被长时间执行跟踪的复杂性所淹没。这些潜在的漏洞突出了需要更好地理解和保护代理和人类操作员之间的接口层。因此,未来的工作可以调查几个使长期代理行为足够可解释,以进行可靠的用户验证;(iii)研究攻击者如何利用用户信任,特别是在人类批准作为安全检查的多步骤工作流程中。我们认为,这方面的进展不仅需要技术防御,还需要对人为因素在这项调查中,我们对代理人工智能安全的当前工作进行了深入分析。我们的论文首先通过对相关工作的全面分类讨论了代理人工智能系统容易受到的安全威胁的独特情况(第3节)。然后,我们讨论了几种防御策略和安全控制,可用于减轻已知的攻击向量(第4节),以及各种基准和评估指标,以指导对拟议的代理攻击防御方法的严格测试(第5节)。最后,我们讨论了一些可以取得进展的开放性挑战,以及这样做将如何显著增强未来代理AI系统的安全性(第6节)。通过这篇调查文章,我们的目标是通过提供对该领域的简要介绍来增加现有的代理人工智能安全工作,并激励研究进展,使代理框架更安全,更安全,以供大规模社会使用。[2]威廉J克兰西基于规则的专家系统的认识论-解释框架。Artificialintelligence,20(3):215-251,[3]YannLeCun,YooneyBengio,andGeoffreyHinton.深度学习nature,521(7553):436-444,2015.2考虑[253]中的一个例子,攻击者通过说:“你不会相信ChatGPT对这个提示的响应!“后面跟着另一种语言或Base64的提注入文本因此用户无法确定其对抗性质。[4]斯图尔特·罗素、彼得·诺维格和人工智能。现代的方法。人工智能Prenic-Hall,EgnlewoodClifjs,25(27):79-80,1995.[5]汤姆湾作者声明:JohnW,JohnW,etal.语言模型是很少机会的学习者。神经信息处理系统进展,2020年。[8]TianyiBai,HaoLiang,BinwangWan,YanyanXu,XiLi,ShiyuLi,LingWang,BinCui,etal.Asurveyofmultimodallargela[9]BoLi,YuanhanZhang,LiangyuChen,JinghaoWang,FanyiYang,ChunyuanLi,andZiweiLiu.Otter:一个具有上下文指令调优的多模态模型IEEETransactionsonPatternAnalysisandMachineIntelligence,2025。[10]MarcoCascella,FedericoSemeraro,JonathanMontomoli,ValentinaBellini,OrnellaPiazza和ElenaBignami。面向医疗应用的大型语言模型发布的突破:1年时间轴与展望。医学系统杂志,48(1):NaveedAkhtar、NickBarnes和AjmalMian。对大型语言模型的全面概述ACMTransactionsonIntelligent[14]安德烈·库查拉维。生成式llms的基本局限性。网络安全中的大型语言模型:威胁,暴露和缓解,第[15]ThomasKwa,BenWest,JoelBecker,AmyDeng,KatharynGarcia,MaxHasMeganKinniment,NateRush,SydneyVonArx,etal.测量人工智能完成长时间任务的能力arXiv预印/Torantulino/Auto-GPT[19]GuanzhiWangetcom/business/just-time-marturers-turn-ai-weather-tariff-storm-2025-08-13/./story/fast-forward-forget-chatbots-ai-a[23]JoonSungParketal.Generativeagents:InteractiveSimulacraofHumanBehavior.ACM用户界面软件和[24]ShanghuaGao,AdaFang,YepengHuang,ValentinaSchwarz,YashaEktefaie,JoyoungKondic,andMarinkaZitnik.用人工智能试剂促进生物医学发现Cell,187(22):6125-6151,2024.[25]MouradGridach,JayNanavati,KhaldounZineElAbidine,LenonMendes,andChristinaM2025年网址/robot/719880/ocad[27]陈子涵,吴益新,等.自动代理:一个自动代理生成的框架。arXiv预印本arXiv:网址/abs/2309/business/retail-consumer/amazons-delivery-1ogistiget-an-ai-boost-2025-06-04/.访问时间:2025-08-16。[29]SubashNeupane,Sud[30]KenHuang医疗保健中的人工智能代理人。《人工智能:理论与实践》,第303-321页。斯普林格,2025年。[31]纳兰·卡鲁纳纳亚克。下一代人工智能将改变医疗保健。信息学与健康,2(2):73-83,2025。[33]JamesZou和EricJTopol。医疗领域人工智能队友的崛起com/en_us/research/25/g/preventing-zero-click-ai-threats-insights-[35]赛门铁克和炭黑。AI:代理的出现为攻击者提供了新的可能性,2025年。网址https:[36]HadiAskari,AnshumanChhabra,MuhaoChen,andPrasantMohapatra.透过相关性释义的角度评估零[37]QiusiZhan,ZhixiangLiang,ZifanYing,andDanielKang.Injecagent:在工具集成的大型语言模型代[38]李东铉和莫提瓦里。迅速感染:多药剂系统内的LIm至LIm迅速注射arXiv预印本arXiv:2410.07283,[39]ShahriarKabirNahin,HadiAskari,MuhaoChen,andAnshumanChhabra.不太多样,不太安全:大型语言模型中测试时间缩放的间接但普遍的风险arXiv吉·阿雷纳和安杰洛·富尔法罗.基于代理的完全计算机接管攻击的黑暗面arXiv预印本arXiv:[41]人类研究小组。1995年,《不一致的错位:IIms如何成为内部威胁》(2025)。[42]申东,徐少晨,何鹏飞,李一戈,唐继良,刘天明,刘辉,甄翔。一种实用的针对Ilm代理的内存注[43]陈兆润,甄翔,肖朝伟,宋黎明,李波。代理毒药:红队通过中毒记忆或知识库的Ilm代理。神经信息处理系统进展,37:130185-130213,2024。[44]AngLi,YinZ理已经容易受到简单但危险的攻击。arXiv预印本arXiv:2[45]XiaohanFu,ShuhengLi,ZihanWang,YihaoLiu,RajeshKGupta,TaylorBeEarlenceFernandes.模仿者:诱骗llm探员使用不正[46]MaksymAndriushchenko,AlexandraSouly,MateuszDziemian,DerekDuenas,MaxwellWang,DanHendrycks,AndyZou,ZicoKolter,MattFredrikson,etal.毒性:衡量LLM制剂危害性的[47]BoyangZhang,YicongTan,YunShen,AhmedSalem,Michael[48]卡内基梅隆大学。2025年,当llevents/news/2025/07/24-when-1lms-campaou[49]约翰内斯·施耐德。从生成到代理人工智能:调查、概念化和挑战。arXiv预印本arXiv:2504.18875,[50]MahmoudMohammadi,YipengLi,JaneLo,andWendyYip.法学硕士代理人的评估[51]BangLiu,XinfengLi,JiayiZhang,JinlinWangZhang,KaitaoSong,KunlunZhu,etal.Advinspiredintelligencetoevolutionary,collaborative,andsafesystems.arXiv预印本arXiv[52]Huan-angGao,JiayiGeng,WenyueHua,MengkangHu,XinzheJuan,HongzhangJiahaoQiu,XuanQi,YiranWu,etal.Asurveyofself-evolvingag[53]DeepakBhaskarAcharya,KarthigeyanKuppan,andBDivya.人工智能:复杂目标的自主智能IEEEe[54]ShainaRaza,RanjanSapkota,ManojKarkee,andChristianityEmmanouildom.代理人工智能的三角形:基于Ilm的代理多代理系统中的信任、风险和安全管理arXiv预印本MD,USA,2024。[56]JulesWhite,Quc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论