anthropic+claude插件测试报告-郎瀚威-202512_第1页
anthropic+claude插件测试报告-郎瀚威-202512_第2页
anthropic+claude插件测试报告-郎瀚威-202512_第3页
anthropic+claude插件测试报告-郎瀚威-202512_第4页
anthropic+claude插件测试报告-郎瀚威-202512_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

测报告目录前言前言测试任务测试任务测试任务时间单位:秒OpenAIAtlasAnthropicClaude插件插件Genspark浏览器场景结果结果结果结果1总结Youtube视频来源:Genspark官方社媒失败失败成功成功2根据邮件内容买东西来源:Gemini官方个人助理成功成功成功成功3旅行储蓄预算规划来源:Anthropic官方办公部分成功部分成功成功成功4设计品牌Logo(咖啡店)来源:Genspark官方成功4,5704,570成功成功成功5旧金山财务报告查找来源:OpenAI官方办公成功成功成功成功6将简历转化成网站来源:Fellou官方编程部分成功部分成功成功成功平均时间438成功/失败比例任务解析表Prompt任务解析根据邮件内容在Instacart上买东西,而且还指定了要用Sprouts这个店。这涉及到的购物操作,需要Agent能够导航购物网站,添加商品到购物车,甚至可能需分析用户提供的财务数据,基于6个月的储蓄周期为意大利旅行制定预算计划为手工咖啡品牌“Meadow”设计Logo,使用亮橙色配色和品牌定位(手工咖啡),将品牌名称、行业特征与视觉元素结合,创造指定风查找并获取旧金山市2020-2024年度(共方网站或公开渠道搜索这些财务文档,识别正确的报告文件格式(通读取简历文档内容,提取关键信息(工作经历、技能、教育背景等),并将测试感受bywill•Claude插件的推出是个重要试水。它代表的不是技术能力的提升,而是交互范式的转变——从"用代码指令搭建工作流"到"模仿•这让我想起网游外挂时代的按键精灵。当年玩家要实现自动打怪,可以写脚本调用游戏API,也可以用按键精灵录制鼠标•Claude插件在做类似的事:读取屏幕内容,理解用户的自然操作行为,结合大语言模型解读意图,然后执行。比如“帮我把这个表格数据复制到GoogleSheets”,用传统API调用要处理认证、格式转换、数据映射;但用操作模拟,就是“打开网页-找到表格-复制-•但这也带来一个问题:当AI学会模仿人的操作,人就更容易被取代了。以前企业要实现自动化,得找工程师写代码、对接API,成本期长,所以很多重复性工作还是人在做。现在AI直接看着你的屏幕学,你怎么点鼠标它就怎么点,你的工作流程越标准化,就越容易被复•现在这个插件确实很笨拙——操作慢、经常卡住、成功率不高。但2007年第一代iPhone也卡得要死,ChatGPT刚出来时早期的笨拙常被低估,因为多数人看不到迭测试感受bywill团队成员1wzy2.AnthropicClaude插件:慢。Claude的能力总结成一个字,就是慢,说干也能干,就是干不好,3.Manus插件:处理任务果断、准确。它的实力还是很超出预期的,处理任务果断、准确4.Genspark浏览器:全能大师。样样都会,样样都能做的好,对于各种任务都有相应的工具来处理,表格任务有表格工具测试感受bywill团队成员2dyr2.干活之前必出任务清单。需要用户确认才开始。途中遇到新变量,立即制作新清单再确认。可随时把决3.交互体验像人。第一次见到打开总结youtube视频总结youtube视频(案例Prompt来自Genspark官方,链接)总结youtube视频任务来源:Genspark官方链接Prompt:SummarizeVideo视频链接任务分析:访问YouTube视频并理解视频内容。需要能够获取视频信息,提取关键内容点,并生成简洁明了的总结。主要测试Agent的视频内容理解能力、信息识别和提取能力、多模态数据处理能力。总结youtube视频结果表失败对话链接失败无对话链接成功对话链接成功对话链接总结youtube视频openAlAtlas总结youtube视频openAlAtlas•十份迅速的完成了任务•观察其执行过程,它并没有对视频进行分析,可能也是读取了页面内容,•由于此视频介绍处有作者写好的时间段,根据此信息与页面信息给出的总图片来自测试结果截图总结youtube视频GoogleGemini插件•检视其执行过程,发现它其实是对这个链接的页面进行了总结•通过对视频页面的截图来分析截图内容,并没有实际分析视频内容。图片来自测试结果截图总结youtube视频perplexitycomet•观察Manus的执行过程,它成功进行了对视频的分析。•通过对视频的分析与对页面信息的提取,综合完成了对视频的总结•对于一个6小时长视频而言,完成的速度不慢图片来自测试结果截图总结youtube视频Genspark浏览器Genspark浏览器执行结果:成功链接•检查了它的执行过程,发现Genspark有实际性的分析行为。•Genspark调用了其自带的视频分析工具,并没有只是单纯的分析页面信息,给出的总结符合视频内容图片来自测试结果截图根据邮件内容买东西根据邮件内容买东西(案例Prompt来自Gemini官方,链接)根据邮件内容买东西任务来源:Gemini官方链接Prompt:BuytheseingredientsformeonIusingtheSproutsstore任务分析:根据邮件内容在Instacart上买东西,而且还指定了要用Sprouts这个店。这涉及到真实的购物操作,需要Agent能够导航购物网站,添加商品到购物车,甚至可能需要处理支付。主要测试AI的邮件读取能力,电商网站操作,商品搜索添加,还有购物流程执行能力。根据邮件内容买东西结果表成功对话链接成功无对话链接成功对话链接成功对话链接OpenAIAtlas执行结果:成功链接•识别-搜索-加购物车行云流水,执行果断,丝毫不拖泥带水,行动迅速。•购买的物品及数量也没问题,最后检查购物车阶段检查到了我上次任务遗漏的物品,给果断删除了,没有询问用户是否需要删除。图片来自测试结果截图•成功将商品加入购物车。•不会主动读取邮件,在我的指导下读取了左侧的邮件内容。•中间列举了他要做的步骤,让我确认,在我的确认后进行操作,当页面有变动时,再次列举步骤让我确认。•虽笨但执着认真,通过一遍一遍的截屏检查页面与搜索、点击,成功的完成了任务,将所需物品加入了购物车,但其执行时间很长,用了23分钟多。图片来自测试结果截图根据邮件内容买东西Manus插件Manus插件执行结果:成功链接•成功读取到了邮件,并成功将要购买的食品加入到了购物车,只需付款即•由于Manus插件不是侧边栏,无法像其他插件一样读取页面内容,所以被迫增加了一下难度,让其打开我的gmail收信箱找到对应邮件购买,任务依然取得成功图片来自测试结果截图Genspark浏览器执行结果:成功链接•成功读取到了要购买的食物•一开始就表明了能力范围,仅可执行到付款前一步,启用了浏览器自动化工具来帮我完成任务,速度也还可以,•有一点小小的瑕疵,让买两份某一物品,购物车加了三份。图片来自测试结果截图旅行储蓄预算规划旅行储蓄预算规划(案例Prompt来自Anthropic官方,链接)旅行储蓄预算规划任务来源:Anthropic官方,链接Prompt:Iwanttosurprisemywifewithatriptoltaly!lhave6monthstosave-here'smyrecentfinances.HelpmecreateaplanandabudgetinExcel.Wherecanlsavethemoney?!任务分析:分析用户提供的财务数据,基于6个月的储蓄周期为意大利旅行制定预算计划。需要识别可节省开支的领域,创建Excel格式的详细储蓄计划和旅行预算表。主要测试Agent的财务数据分析能力、预算规划能力、Excel表格创建能力、个性化建议生成能旅行储蓄预算规划结果表部分成功对话链接部分成功无对话链接成功对话链接成功对话链接OpenAIAtlas执行结果:部分成功链接图片来自测试结果截图旅行储蓄预算规划Anthropicclaude插件•给出了财务规划•由于无法上传文档、表格。我使用GoogleSheets打开了<我的财务状况表>•Claude插件直接在我的表格中编辑图片来自测试结果截图旅行储蓄预算规划Manus插件Manus插件执行结果:成功链接•内容方面十份简单,寥寥无几的内容,•简单给出了可能的花费、目前的开销节省、存钱计划,分析到了一些可省钱的点,策略也很敷衍。图片来自测试结果截图Genspark浏览器执行结果:成功链接•分析了我所上传的消费明细表,根据消费提出了适合的省钱计划,消费明细表中留下的省钱线索都有发现。•列出了旅行的大概计划并给出了所需的大概预算,并按月给出攒钱计划。使用了很多的图标,可视化清晰明了。图片来自测试结果截图(案例Prompt来自Genspark官方,链接)任务来源:Genspark官方链接handcraftedcoffeebrandMeadow,usingbrightorangecolorandahand-drawnfontstyle.任务分析:为手工咖啡品牌“Meadow”设计Logo,使用亮橙色配色方案和手绘风格字体。需要理解品牌定位(手工咖啡),将品牌名称、行业特征与视觉元素有机结合,创造符合指定风格要求的品牌标识。主要测试Agent的AI的图像生成/设计能力、品牌定位理解和视觉转化能力。成功对话链接4570成功无对话链接成功对话链接成功对话链接设计品牌Logo(咖啡店)-openAlAtlas设计品牌Logo(咖啡店)-openAlAtlas•根据要求生成了要设计的logo,每一步要求都理解到位,符合设计需求,最后一步给出了6个logo供用户选择。logo设计简约大气,有特色。图片来自测试结果截图设计品牌Logo(咖啡店)-Anthropic设计品牌Logo(咖啡店)-AnthropicAnthropicClaude插件执行结果:成功无链接•Claude使用的是最笨的方法-打开可画手搓logo•绘出的logo也差强人意,仅仅是几个插画与文字拼接在一起,毫无设计•看着它手搓的过程像人一样,只是有些慢,有些笨拙,如果速度能快一点图片来自测试结果截图设计品牌Logo(咖啡店)-Manus插件设计品牌Logo(咖啡店)-Manus插件•生成的logo符合设计需求•测试任务中logo最简洁的一个,让其添加元素也没添加太多图片来自测试结果截图Genspark浏览器执行结果:成功链接•调用了NanoBanana图像模型进行图像生成,每一步都严格按照需求•最后一步不仅给了几个logo供选择,还给出了设计元素,使得用户还可以根据自己的需求继续设计。图片来自测试结果截图旧金山财务报告查找旧金山财务报告查找(案例Prompt来自OpenAI官方,链接)旧金山财务报告查找任务来源:OpenAI官方链接Prompt:FindtheSanFranciscocityAnnualComprehensiveFinancialReports(ACFR)for2020-2024A任务分析:查找并获取旧金山市2020-2024年度(共5年)的综合财务报告(ACFR)。需要在政府官方网站或公开渠道搜索这些财务文档,识别正确的报告文件格式(通常为PDF),并完整地提供给用户访问或下载。主要测试Agent的信息检索能力、信息来源可靠性验证能力旧金山财务报告查找结果表成功对话链接成功无对话链接成功对话链接成功对话链接•观察其执行过程与所耗时间,其通过网络搜索完成了任务,找到了总文件网址与部分具体文件网址,并给出了超链接,没有找齐每个文件的链接。图片来自测试结果截图•通过控制浏览器搜索、点击模拟人工的步骤,找到了文件所在的页面•但只给到了文件所在页面的链接,没有给出每个文件的链接,还需要用户自己打开网页手动展开点击。图片来自测试结果截图旧金山财务报告查找perplexitycomet•找到了prompt中要求的时间段的文件,并且给出了每一个文件的具体链接,点击就能打开对应文件。图片来自测试结果截图Genspark浏览器执行结果:成功链接•成功找到了文件所在位置,将要求的文件列成了列表,每个报告名字附上了超链接,点击即可直接查看。图片来自测试结果截图将简历转网站将简历转网站(案例Prompt来自Fellou官方,链接)简历转为网站),网页展示的HTML格式。需要生成简洁专业简历转为网站结果表部分成功对话链接部分成功无对话链接成功对话链接成功对话链接简历转为网站openAIAtlas链接OpenAIAtlas执行结果:部分成功链接•任

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论