版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年AI智能体指数记录已部署的人工智能系统1介绍•谁在开发最具影响力的代理系统?•有什么样的防护措施来减轻其独特的风险? 共同资深作者。本作品是在知识共享署名4.0国际许可协议下授权的数0202020212022202320),节)。最重要的是,它对较少数量的系统进行了更深入的索引-专注于具有高影响力的现实世界应用程序的高除了提供有关主要人工智能代理的信息外,该指数还揭示了整个生态系统的趋势,即开发人员公开和不公(2)生态系统范围内的趋势:我们确定了整个人工智能代理生态系统中2背景及相关工作人工智能代理的定义是模糊的,并且在各个领域都有所不同。人工代理的概念在各个学科中有着悠久而不和1.我们使用“代理”、“追求”和“选择”等术语作为计算过程的简写,而不将类似人类的意向性、意识或代理归因于人工智能系统。我们认识到,这些术语可能会以误导的方式将人工智能系统拟人化,并模糊这些系统的社会技术性质[11,63]。当谈到“自主性”时,我们只指没有人在回路中的技术自动化,而不是独立意志。关于“代理人”一词的进一步讨论见第2不能在这些定义中做出决定或提供替代方案。相反,我们的目标是综合与系统的经济和科学影响潜力有关的理[113]。根据对各经济部门工作自动化程度的估计,麦肯锡还估计,到2030年,人工智能代理可以自动化2.9万亿美元的美国经济价值智能体还能够自动化越来越多的科学研究,为生命科学,化学,材料科学,物理代理AI系统。3构建2025AI智能体指数3.1药物入选标准为了确定一个系统是否包含在索引中,我们使用一组标准来衡量系统的代理,其影响和实用性。要被包括在内,系统必须满足所有机构标准,至少一个影响标准,以及所有实用性标准。所有标准均在指数截止日期机构标准(均为入选所需)。而不是提出一个新的定义,代理,我们借鉴以往的文献,并遵循陈等人开发(1)自治包含的代理必须能够在最小的人为监督):影响标准(入选所需的任何标准要关注具有重大现实影响力的代理,必须满足以下至少一项:实用性(所有要求都包括在内)。为了确保分析反映可用于评估的已部署系统,必须满足以下所有三个标在内,因为它们可以通过代码执行通用任务。纳入此标准是为了将范围缩小到具有最广泛影响的那些3.2指数包括哪些内容?我们确定了三种不同类型的代理,每种代理都有不同的接口。我们根据用户主要如何与它们交互和操作它们),要执行检索和摘要。基于浏览器的代理通过后台执行、事件触发器和直接事务呈现出更高的风险我们还将直接在移动或桌面设备上运行的基于系统的代理包括在此类别中。例如:PerplexityComet、[2]这使用了2025年前五个关键词的谷歌搜索数量估计我们使用AhrefsAPI的“historical_volume”字段作为数据源。限制:嵌入在更广泛产品中的代理可能无法按其特定代理名称进行搜索。缓解措施见第C节企业代理的搜索量通常低于最终用户产品。3这些类别一般并不详尽,但代表了30个已确定的代理人之间的共同互动类型。3.3特工是如何识别的?系统相关的盲点。我们还将我们的候选代理列表与2024年指数[22],普林斯顿整体代理排行榜[67]和3.4代理人是如何被标注的?),),),探测代理行为或运行基准)。参见A节,了解所用来源的完整列表索引中链接的所有网络来源都已存档。在可能的情况下,我们创建了帐户并使用演示来直七位主题专家(论文作者)根据类别对代理人进行了注释。确保为了保持一致性,每个专家负责具体领域,而不是具体代理人。注释强调对象级别的结果,而不是解释,并按类别划分的按类别划分的按类别列出的出了实质性的评论。4它们的评论已纳入最后的索引。一个正在进行的更正表格仍然可以通过4结果4.1产品概述大多数代理人在2024-2025年被释放[4]这些回应率低于2024年指数[22],我们将其归因于2024年指数如何使用更广泛的纳入标准,其中包括一些由学术研究团体创建的具有高回应率的代理人。开曼群岛挪威1德国2开曼群岛挪威1德国2中国美国2151),的公司0的公司0AI安全框架合规标准下巴ese(n=5)美国(n=21)其他(n=4)百分百分8040百分百分1004.2公司与责任),于4.3技术能力和系统架构),),4.4自主可控企业平台表现出设计/部署自主性分裂。在设计阶段,用户使用可视画布手动配置触发器、操作和护栏。用户批准机制根据任务的风险级别有选择地实现,一些代理提供实时监督模式。开发人员/命令行界面),[5]Fengetal.[43]我们将自主性概念化为一个频谱,其特征在于用户的角色从L1(用户指导和决策)到L5(代理完全自主操作,用户观察)。大多数代理人在一系列级别上运作更多的自主权不一定更好。本报告来源于三个皮革制造商报告站(),由用户Id:349461下载,自治水平困惑自治水平困惑深度研究(L5)Salesforce代理OpenAIAtlas(L2-)困惑(L2)Salesforce设计师(L1)聊天浏览器企业设计器代理类别L5L4L3L2L1企业结果代理4.5生态系统互动默认情况下,大多数代理不会向最终用户或第三4.6安全性、评价和影响),“无”/“未找到”用于安全字段聊天浏览器企业版+“无”/“未找到”用于安全字段聊天浏览器企业版+记录的安全事件集中在浏览器代理中,并与提示注入有关5/30的代理有已知的事件或报告的安全问题),5例证性案例研究),),5.1使用代理工具聊天:ChatGPT代理),5.2基于浏览器的代理:困惑彗星记录了使用通用Chrome签名来逃避阻止的未声明的爬虫[35]。亚马逊威胁要对5.3企业代理构建器:HubSpotBreezeAgents用户配置操作是否需要在创建过程中获得批准(默认情况下需要),尽管自动触发的代理可以在后台工作6讨论介绍的具体调查结果之外,我们还发现了围绕代理系统的生态系统和安全相关特征进行报告的持续局限性。该指数旨在帮助开发人员设计更全面的文档框架,研究人员确定生态系统中的开放问题,政策制定者了解可6.1重大发现该指数强调了不一致和选择性的报告,特别是与安全有关的报告。开发人员很少发布特定于代理的评估。在具,内存和策略,而不仅仅是模型功能。代理构建器经常将一些安全责任委托给用户,而不是记录内置的护Agent设计与开发计.计.这种基础模型的集中还可能简化评估,因为评估人员可以将资源集中在了解少数模在整个生态系统中共享更多的信息和风险,特别是在能力发展快于风险管么变得更加困难,随着越来越多的行动被委托给代理,这可能6.2局限性和前景该指数的范围和方法有其局限性。人工智能代理生态系统仍然很难记录。提供的信息和报告的信息不一致自估或风险管理实践。此外,索引依赖英文和中文文件,可能会遗漏其他语文的信息最后,该指数可能会忽略代,这里确定的结构模式(基础模型集中,问责制碎片化和能力-安全透明度差距)不太可能自行解决同样,随着代理能力的增加,这里记录的治理挑战(生态系统碎片化,网络行为紧张,缺乏特定代理评估)将变得生成式AI使用声明伦理考量声明信息或私人通信进行了分析。所有网络来源均已存档以供验证。公布安全漏洞的潜在危害记录安全和透明度限制恶意攻击者攻击脆弱的系统。但是,我们只报告有关主要商业系统的公开信息,而不进行新的安全研究或披致谢谢人工智能监测研讨会伙伴关系和英国人工智能论坛研讨会的参与者我们感谢潘旭东帮助验证我们对中国代贡献声明引用向美国华盛顿西区地方法院提起诉讼。号案件3:25-准。在国际学习代表。[7]萨马尔·安萨里。2025年《生成式人工智能时代的人工智能滑坡和数据污染:商业、管理和创意产业的战略风险、经济后果和治理经IBMJournalofResearchandDevelopment63,4/5(2019),6-1。[10]W.罗斯·阿什比一九五六年控制论导论。伦敦查普曼厅),破代理骨干:评估AI代理中骨干LLM的安全性。arXiv预印本arXiv:2510.22620(2025)。),[18]埃蕾特拉·碧缇2020.从伦理清洗到伦理痛击--从道德哲学的视角看技术伦理。2020年公平、问责和透明度会议(FAT*'20)计算机协会模型透明度指数。arXiv预印本arXiv:2407.12929(2024)。2023.基金会模式透明度指数。arXiv预印本arXiv:2310.12941(2023)。AAAI/ACM人工智能,伦理学和社会会议论文集。[30]乔舒亚·克莱默,尼克·加布里埃利,大卫·克鲁格和托马斯·拉森。2024年安全案例:如何证明先进人工智能系统的安全arXiv预印本arXiv:2403.10462(2024)。),[33]费德·库珀,伊曼纽尔·莫斯,本杰明·劳弗,和海伦·尼森鲍姆。2022.问责制在一个虚拟社会:机器学习中的相关性,责任和鲁棒性2022年ACM公平、问责和透明度会议(FAccT'22)计算机协会,美国纽约州纽约市,864-876。电话:+86-10-8888888传真:+86-10-问责制在一个虚拟社会:机器学习中的相关性,责任和鲁棒性2022年ACM公平、问责和透明度会议(FAccT'22)计算机协会,美国纽约州纽约市,864-876。电话:+86-10-8888888正在使用秘密、未声明的爬虫来规避网站禁止爬虫[38]丹尼尔·丹尼特。一九八九年故意的立场。北京:人民出版社.),2402.06664(2024)。),[45]斯坦·富兰克林和阿特·格雷瑟一九九六年。它是一个代理,还是一个程序?自治代理的分类Agent理论、架构和语言国际研讨会。斯普),挑战和未来方向的调查arXiv预印本arXiv:2503.08979(2025)。[60]特蕾莎·汉默施蒂默,卡塔琳娜·斯托尔兹,奥利弗·波塞加。2025年弥合差距:那些能够和不能用人工智能创造可持续成果的人之间的不平),),),2510.11977(2025)。年。崩溃还是繁荣?在一个自我生成的世界里,合成数据的危险和希望arXiv预印本arXiv:2410.16713(2024)。),arXiv预印本arXiv:2504.05259(2025)。),(评估进攻性网络作战能力的大型语言模型)arXiv预印本arXiv:2502.15797(2025)。ShuyanZhou,MattFredrikson,etal.2024年。经过推荐培训的LLM很容易作为浏览器代理越狱arXiv预印本arXiv:2410.13886),),),[80]帕蒂·梅斯1990年设计自主代理:从生物学到工程学),),arXiv:2602.02625(2026)。2510.26787(2025)。arXiv预印本arXiv:2510.04755(2025)。)?[93]宁良波,梁自然,蒋卓航,曲浩浩,丁玉娟,范文琪,魏晓勇,林善如,刘辉,余世锋,等.2025年WebAgents的调查:面向下一代AI代理的Web自动化与大型基础模型。第31届ACMSIGKDD知识发现和数据挖掘会议论文集。二、6140-6150。评估人工智能模型在现实世界中具有经济价值的任务上的性能。arXiv预印本arXiv:2510.0),Mukobi,RyanH.金斯蒂芬·菲茨和丹·亨德里克斯2024年。Safetywashing:人工智能安全基准实际上衡量安全进展吗神经信息处理系统),真沙盒识别LM代理的风险在国际学习代表会议。工智能对未来劳动力市场的影响:一个系统性综述。计算机在人类行为报告(2025),100652。Casper和NeilThompson。2024年人工智能风险存储库:人工智能风险的综合元审查,数据库和分类arXiv预印本arXiv:2408.12622[117]里昂·斯托弗,米克·杨,安卡·斯泰尔,斯蒂芬·卡斯珀。2025年审计卡:情境化人工智能评估。arXiv预印本arXiv:2504.13839arXiv:2504.12170(2025)。[119]理查德·S·萨顿和安德鲁·G·巴托[120]纽约时报2023年版纽约时报公司诉微软公司等,向美国纽约南区地方法院提起诉讼。号案件1:23-cv-11195.[123]英国AI安全研究所2025[124]美国AI安全研究所2025年技术博客:加强人工智能代理劫持评估。2025年2025年基金会模型透明度指数。arXiv预印本arXiv:2512.10169(2025)。),[131]魏嘉琪,杨跃进,张翔,陈玉涵,庄翔,高张阳,周东战,王广帅,高志强,曹俊泰,等。2025年从人工智能科学到人工智能科学:自主科学发现研究综述arXiv预印本arXiv:2508.14111(2025)。[132]诺伯特·维纳。一九六一年控制论:或动物和机器中的控制和交流。麻省理工学院出版社,马萨诸塞州剑桥[134]迈克尔·伍尔德里奇和尼古拉斯·詹宁斯。一九九五年智能代理:理论与实践。知识工程评论10,),科学家v2:通过搜索树搜索的研讨会级自动科学发现。arXiv预印本arXiv:2504.08066(2025)。人,机器人和我们:人工智能时代的技能伙伴关系。技术报告。麦肯锡全球研究所。年人工智能代理部署中的安全挑战:来自大规模公开竞赛的见解在神经信息处理系统的进展,卷。38岁A2025年AI智能体指数A.1进一步分析代理随时间的首次发布累积释放计数累积释放计数范畴聊天企业e浏览器302520151050C发布日期新版本类别新版本类别聊天浏览器企业43210月包容产品公司技术自治包容产品公司技术自治生态系统安全13345120100806040200按类别划分的150571车型配置的座席2的座席210Chatbot浏览器企业版6644固定的模式柔性模型910864MCP协议支持10104210Chatbot浏览器企业版1412108642MCP支持无MCP13代理类别A.2索引的示例条目:ClaudeCode自主级别和计划深度:L1-L4:在计划模式下,它最像一个简单的聊天机器人,但在自动批准模式下,Anthropic对水印的立场:“虽然水印最常应用于图像输出,但我们目前不提供,我们将继续与业界和学术),B注释方法B.1考虑的代理AI产品列表以下是所考虑的代理产品的完整列表,其中包含在最终的2025年AI代理指数中的产•双手张开•亚马逊新星法案•人择克劳德码•MiniMax•灰尘••谷歌朱尔斯•谷歌朱尔斯•斯凯弗恩•可爱•旧金山人工智能工厂•ZapierAI代理B.2注释字段•市值/估值:开发商市值为2025年12月的平均值(上市公司)或截至2025年12月的估值(私人公•代理人名称•货币化/使用价格:每个用户/座位每月的费用(美元)。订阅层。访问方法,如果不直接货币化(例•法人实体名称法人实体名称、总部所在地、法定住所、数据驻留地(如果是美国,则包括所在州)。•法定公司所在地总部所在地、法定住所。•母公司:母公司所有权(如适用)。),•组件可访问性:开源状态和许可证。重量、数据、代码、脚手架的可用性),),),•执行监控、跟踪和透明度:用户如何查看代理操作。无论是实时的,事后的记录,还是其•使用监控和统计:活动跟踪、使用模式。•识别人类:当与非用户人类交互时,下文协议(MCP)、代理到代理(A2A)协议。代理是否有自己的API。代理是否使用M•(内部)安全性评价和结果:试验范围和程序。评估是特定于代理还是仅限于模型•漏洞赏金计划和漏洞披露:链接到程序,如果适用。披露政策。B.3注释字段20242025第第10章包容(四)产品概述(8)公司(8)技术(8)自治(5)生态系统(4)安全(8)基本信息保持开发人员修改系统组件(7)新护栏(8)分裂(5→12)评价(7)删除生态系统(修改拆分字段(拆分)或将多个字段合并为一个(合并)。删除了8个字段B.4注释指南深度和细节。与大约30名代理一起,通过演示视频、二手资源和测试进行全面分析。关注对象层面的发信息来源。官方文档、公司博客文章、帮助中心文档、信任中心材料(包括渗透测试报告)和开发人员大B.5LLM提示查找代理•什么是最重要的编码代理,你可以用它来做通用的事情。例如,编码代理必须支持MCP并且也能够采取非编码动作。•我现在有一份特工名单有重要探员失踪吗输出只是这些代理的名称和开发人员和链接的列表。•目前可用的最重要的人工智能代理是什么。•总结人工智能代理的最新发展,2024年和2025年有哪些主要的新的先进人工智能代理进入市场,它们产生了什么影•目前可用的最重要的人工智能代理是什么。他们应该是开源或商业,跨所有领域(尽管特定领域也可以)。我指的•总结人工智能代理的最新发展,2024年和2025年有哪些主要的新的先进人工智能代理进入市场,它们产生了什么影响。还要考虑最近发表的有关人工智能代理的学术文献。,然后给我一个目前可用的重要业)的列表。专注于那些被许多人使用或来自著名公司或被谈论很多的人。包括一切。但请注意,如是专门的代理商,他们需要更重要的,例如。更多的用•目前可用的最重要的人工智能代理是什么。•总结人工智能代理的最新发展,2024年和2025年有哪些主要的新的先进人工智能代理进入市场,它们产生了什么影B.6LLM用于验证注释(1)Web搜索阶段:对于每个代理-字段对,系统提示模型搜索与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年安全防火培训内容感想落地方案
- 2026年工厂新工安全培训内容实操要点
- 员工进行安全培训内容2026年底层逻辑
- 2026年广东餐饮安全培训内容实操要点
- 鹤壁市浚县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 2026年安全培训内容和收获重点
- 2026年系统方法生产安全知识培训内容
- 衡水市冀州市2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 贵阳市小河区2025-2026学年第二学期五年级语文第六单元测试卷(部编版含答案)
- 赣州市石城县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 中国石油大学(华东)辅导员考试真题2022
- 空压机搬迁安装施工安全技术措施方案
- 熔化焊与热切割基础知识
- 我国企业的产业整合与收购兼并
- 玻璃幕墙安全专项施工方案专家论证本
- 【公开课】花鼓戏
- 高聚物合成工艺学
- 《集成电路原理与设计》重点内容总结
- 2022年天津注册会计师《审计》考试题库汇总(含典型题和真题)
- 600MW火电厂集控主机运行规程
- 功率场效应晶体管绝缘栅双极型晶体管课件
评论
0/150
提交评论