计算机-AI Agent：通往AGI的核心基础

上传人：策*** IP属地：山西上传时间：2024-07-17 格式：DOCX 页数：70 大小：3.14MB 积分：19.9 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。1计算机计算机计算机增持(维持)华泰研究华泰研究研究员谢春生SACNo.S0570519080006SFCNo.BQZ938xiechunsheng@+(86)2129872036研究员彭钢SACNo.S0570523090001penggang@+(86)2128972228联系人袁泽世，PhDSACNo.S0570122080053yuanzeshi@+(86)2128972228行业走势图计算机沪深300(%)4(8)(19)(31)(42)Jul-23资料来源：Wind，华泰研究重点推荐AIAgent是一种能够感知环境、进行决策和执行动作的智能实体，从发展历程看，经历了用逻辑规则和符号封装知识、快速响应环境、基于强化学习等发展阶段。随着大语言模型（LLM）的快速发展，AIAgent在感知、记忆、规划、行动等模块方面的能力均得到了进一步的提升。我们认为LLM推动AIAgent进入了新阶段，与LLM结合的AIAgent在智能化程度、自主性方面有进一步提升的潜力，通过与终端的进一步结合，有望推动AI应用商业化加速。AIAgent能力提升：感知/规划/记忆模块强化或工程化优化从AIAgent的研究看，AIAgent的要素基本上可以分为感知、定义、记忆、规划、行动五类模块。从AIAgent的能力提升路径看，主要包括：1）单个模块的持续强化：感知模块的模态持续丰富、记忆模块增长上下文或提供更加丰富的数据来源、规划模块中通过CoT或ReAct等方式提升推理能力、行动模块补充第三方插件；2）系统性方式优化：如通过将AI各个模块作为整体发挥作用，利用不同环境之间交互获取的跨模态数据，在物理和虚拟世界中运行等。综上，在底层模型升级+工程化方法改进的共同推进下AIAgent的性能有望持续提升。Nov-23Mar-24Jul-24Agent自动解决固定范式的问题，关注Nov-23Mar-24Jul-24股票名称金山办公泛微网络福昕软件用友网络鼎捷软件同花顺中控技术宝信软件中科创达股票代码688111CH603039CH688095CH600588CH300378CH300033CH688777CH600845CH300496CH(当地币种)354.5041.9773.96 16.0324.27156.2061.0552.6062.65投资评级买入股票名称金山办公泛微网络福昕软件用友网络鼎捷软件同花顺中控技术宝信软件中科创达股票代码688111CH603039CH688095CH600588CH300378CH300033CH688777CH600845CH300496CH(当地币种)354.5041.9773.96 16.0324.27156.2061.0552.6062.65投资评级买入买入买入买入买入买入买入买入买入Agent改变人机交互方式，关注软硬件产业机遇资料来源：华泰研究预测AI+终端实现了安全性与个性化的结合，为Agent落地打下良好基础。AIAgent有望改变人机交互的方式，落地方式包括AIPC、AI手机等。终端掌握了重要的交互入口，据AppleWWDC，Siri用户每天发出的语音请求数量高达15亿次，大量的交互为Agent提供了丰富的场景载体；此外通过压缩模型到适合端侧大小的模型，使用优化算法加速推理，实现在端侧落地。对比Agent的技术架构，往往也需要基础模型和小模型的共同支撑，我们认为端侧模型技术的发展（模型压缩等技术）有助于Agent落地于终端。资料来源：华泰研究预测相关公司梳理从AIAgent的进展看，在理论研究中发现通过CoT（思维链）、ReAct（推理+行动）等方式能够完成部分的任务规划，且长期看通过AIAgent或有望进一步走向整体智能；在实践中，通过将AI助手嵌入工作流也已打造出基于特定数据、场景的Agent产品雏形，我们认为随着：1）底层大模型能力的提升；2）Agent+工作流的工程化实践深入，AIAgent能力有望进一步提升，或将推动AI商业化进程加速。重点关注公司：1）协同办公厂商：包括金山办公、泛微网络、福昕软件等；2）垂直应用厂商：包括用友网络、鼎捷软件、同花顺、中控技术、宝信软件等；3）终端厂商：中科创达等。风险提示：模型能力进步不及预期；安全性风险；本研报中涉及到未上市公司和未覆盖个股内容，均系对齐客观公开信息的整理，并不代表本研究团队对该公司、该股票的推荐或覆盖。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。2核心观点 5与市场观点的不同之处 5AIAgent：通过AGI的核心基础 6AIAgent：LLM推动AIAgent进入新阶段 8智能助手到Agent：由搜索匹配走向规划与交互式决策 8分模块持续突破+系统性优化推动AIAgent能力提升感知：模型端原生多模态推进，Agent多模态感知能力可期记忆：模型端上下文长度持续突破，向量外部存储与检索强化长期记忆 12规划：关注LLM对于任务分解算法及反思提炼能力的改变 13行动：工具使用能力为关键，具身智能为新方向 13多路径共同提升Agent整体智能化水平，有望逐步通向整体智能 14路径一：模态丰富+具身智能+多Agent协同 15路径二：通过提升整体性或利用工作流解决复杂问题 16AIAgent技术逐步落地，智能性仍有提升空间 18AutoGPT：利用LLM逐步拆解任务，外挂插件提升能力 18卡耐基梅隆Agent：利用LLM强化信息获取及工具使用 20Devin：利用AI实现自主编程 21AIAgent：智能性仍有提升空间，关注AgentWorkflow 22模型&MaaS厂商：凭丰富工具&实践经验把握发展机遇 24MaaS厂商侧重2B业务场景：2B提供落地工具+2D提供开发框架 242B：基于业务卡位，提供落地工具 242D：提供开发框架，卡位开发者场景 27模型厂商落地：GPTs通过配置实现定制化，打造LLM垂直领域助手 27应用厂商：具备垂直数据与工程化优势，关注工作流卡位 29与工作流结合，推动Agent落地——以Servicenow为例 29基于私有数据，打造智能应用——以Salesforce为例 30终端厂商：推动人机交互升级，率先实现Agent落地 32总结：从AIAgent有望逐步通向AGI 34相关公司梳理 35风险提示 35图表1：AINative（AI原生应用） 6图表2：AIAgent：改变人机交互方式 6图表3：GPT-4o已初步具备Agent能力 6免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。3图表4：AIAgent：下一代大模型的核心能力 7图表5：AIAgent：能力体现 7图表6：AIAgent：发展复盘 8图表7：语音助手&聊天机器人：技术架构 9图表8：AIAgent：技术框架 9图表9：冯·诺依曼结构 10图表10：AIAgent：技术框架 10图表11：AIAgent：感知模块及落地路径图表12：GoogleGemini：多模态融合图表13：OpenAIGPT4o：端到端多模态图表14：AIAgent：记忆模块及落地路径 12图表15：大模型支持上下文长度情况 12图表16：AIAgent：规划模块及落地路径 13图表17：AIAgent：行动模块及落地路径 14图表18：AGI分级 14图表19：通用人工智能（AGI研究进展 15图表20：AIAgent：三种应用场景 15图表21：FoundationAgent 16图表22：AgentAI系统概述 17图表23：Agentworkflows：有效提升HumanEval测试表现 17图表24：AutoGPT：任务流程 18图表25：AutoGPT：程序示例 19图表26：AutoGPT：第一方插件 19图表27：AutoGPT：部分第三方插件 20图表28：Agent：系统框架 20图表29：Agent：文档搜索概述 21图表30：SWE基准测试结果 22图表31：Devin：能力示例 22图表32：AIAgent：实践情况 23图表33：从自动化到智能化：AIAgent 23图表34：MaaS厂商：业务布局 24图表35：智能Copilot：产品界面 24图表36：MicrosoftCopilotStudio与传统方式的对比 25图表37：智能Copilot：操作界面 25图表38：AmazonBedrock功能特性 26图表39：AmazonBedrock：解决方案架构 26图表40：AutoGen：模式概览 27图表41：GPTs创建方式 27图表42：首批官方GPTs 28图表43：部分第三方GPTs 28免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。4图表44：NowPlatform：覆盖多个工作流 29图表45：Nowassist：应用场景 29图表46：Servicenow：电信专用GenAI解决方案 30图表47：EinsteinGPT：应用场景 30图表48：EinsteinCopilot：扩展 31图表49：AI终端：结合安全性+个性化，利于Agent落地 32图表50：交互入口：Siri 32图表51：AppleIntelligence 33图表52：从Agent到AGI 34图表53：提及公司表 35图表54：重点推荐公司一览表 36图表55：重点推荐公司最新观点 36免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。5AIAgent是通往AGI的核心基础。从用户角度感知AIAgent，其具备连续、复杂、多步骤、多任务的执行能力，从基本框架看，当前对AIAgent整体框架的设计基本上可以分为感知、定义、记忆、规划、行动五类模块。我们认为从实践上看，当前AIAgent对于执行特定领域的任务已经体现出一定的自主性，未来随着模型的升级，任务规划、工具选择能力有望进一步进化。从框架上，通过单个模块加强、系统性优化等路径，AIAgent有望逐步通向AGI。AIAgent落地带来多个层次的产业机遇。1）MaaS厂商：有望受益于模型升级机遇。大模型厂商与MaaS厂商合作推广B端的大模型产品，MaaS厂商提供落地工具和开发框架，有望首先受益于底层大模型能力突破带来的AIAgent发展机遇；2）应用厂商：凭借垂直数据与工程化优势实现Agent落地。以Agentworkflow为代表的工程化优化与垂直数据训练同样是Agent落地的可行路径之一，看好拥有垂直数据与工程化优势的应用厂商。3）终端厂商：Agent推动人机交互变革。Agent能力既可以通过AI重构硬件来实现，也可以通过AI改造软件来体现（软件的自动化执行终端厂商拥有重要的语音助手交互入口，在端侧软硬件生态中具备良好的卡位，端侧Agent有望首先落地。市场认为现有基础模型能力无法支撑Agent应用，Agent落地进程较为漫长。我们认为Agent能力提升存在多种路径，模型能力提升只是路径之一。除此之外，通过垂直数据训练、AgentWorkflow等方式能够在同一基础模型中针对具体任务实现更好的效果；此外终端凭借AI重构软件+硬件也有望在现有模型能力基础上实现部分类Agent功能。因此在现有基础模型基础上，部分Agent应用仍有望落地。市场对Agent+终端的研究聚焦于硬件层面。市场对于Agent对终端产业的影响更多聚焦于产业链相关硬件公司，认为Agent有望带动换机潮，且需要相关硬件的支持。我们认为Agent在实现方式上，也需要模型、软件、数据、生态的支持，在终端厂商之间AI能力也存在一定的差异，软件算法及生态领域的研究也十分重要。从影响看，我们认为Agent+终端有望推动人机交互变革，除了在终端销售量价方面的变化外，可能对终端应用的商业模式产生更加深远的影响。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。6Agent有望降低人机交互门槛。我们认为，这一轮AI产业变革，核心本质不是在原有产品上增加或者减少什么功能，而是改变人机交互方式。这种人机交互方式不仅体现在硬件载体上，更是覆盖到软件载体。其实现的路径就是通过Agent来实现，Agent作为智能辅助助理，其具备自我决策和执行能力，能够完成连续服务多步骤的任务。我们认为，这是未来KillerAPP应该具备的核心特征。Agent对人机交互方式的改变，我们将其可以类比为Dos系统向Windows系统的转变，带来的人机交互方式的变化，降低了人机交互的门槛。资料来源：CSDN、华泰研究资料来源：CSDN、华泰研究AIAgent：下一代大模型的核心能力。Agent能力的实现，还是需要大模型具备相应的能力。我们的判断：Agent或是下一代大模型边际变化最大的能力。我们可以看到，GPT-4o模型已经开始具备Agent能力雏形，Google的Astra也开始具备人机多模态交互多步骤任务完成的能力。资料来源：CSDN、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。7资料来源：CSDN、华泰研究AIAgent：能力体现。如何从用户角度感知Agent能力？我们将其总结为：连续、复杂、多步骤、多任务的执行能力。1）连续：指的是大模型能够对用户的任务指令，进行任务拆解，分解为多个步骤，对步骤进行规划排序、连续执行。2）复杂：目前大模型智能解决单个任务，或者简单少数多个任务，无法完成多个复杂任务。3）多步骤：多步骤与连续密切相关，在大模型执行后续步骤的同时，能够对任务目标和前序任务随时保持记忆，步骤的规划执行能力要强。资料来源：CSDN、华泰研究我们认为，AI大模型的Agent能力是通往AGI的核心基础。我们或将看到Agent能力有望逐步体现：1）单一简单任务执行，2）单一复杂任务执行，3）多步骤简单任务执行，4）多步骤复杂任务执行，5）连续多步骤复杂任务执行。这些能力的实现都依赖于大模型能力的提升。我们认为，Agent能力有望在GPT-4的后续模型中逐步体现出来。另外需要特别注意的是：Agent是一种能力，是AI重构人机交互方式实现的工具。Agent能力既可以通过AI重构硬件来实现，也可以通过AI改造软件来体现（软件的自动化执行）。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。8LLM推动AIAgent进入新阶段。AIAgent经历了几大阶段，包含：1）符号Agent：采用逻辑规则和符号表示来封装知识并促进推理过程，典型代表为基于知识的专家系统；2）反应Agent：主要关注Agent与其环境之间的交互，强调快速和实时的响应，设计时优先考虑直接的输入输出映射；3）基于强化学习的代理：主要关注如何使Agent通过与环境的互动进行学习，典型代表如AlphaGo；4）具有迁移学习和元学习的Agent：引入迁移学习实现不同任务之间知识的共享和迁移，通过元学习使Agent学习如何学习；5）基于大型语言模型(LLM)的代理。将LLM作为大脑的主要组成部分或Agent的控制器，并通过多模态感知和工具利用等策略扩展其感知和行动空间，通过思维链（CoT）和问题分解等技术使Agent获得与符号代理相当的推理及规划能力，并且可以通过从反馈中学习和执行新的行动，获得与环境的互动能力。资料来源：《TheRiseandPotentialofLargeLanguageModelBasedAgents:ASurvey》、华泰研究聊天机器人：主要基于知识图谱、检索等技术。为在AIAgent之前，典型的以人机自然交互为特点的产品包括智能语音助手、开域聊天机器人。从架构看，开域聊天机器人以发布于2014年5月的微软小冰为例，其架构主要包括对话管理模块、技能库，其中对话管理模块主要使用同理心计算方法，利用对话背景、用户查询、用户信息等维度的信息构建对话状态向量，并据此决定之后的对话策略。聊天模块则通过检索产生回答候选集（包括基于配对数据的检索、使用GRU-RNNseq2seq框架的神经响应生成器、知识图谱+未配对数据等方法并利用排序模块进一步选择回答。从技术上看，开域聊天机器人具备AIAgent的雏形，主要通过向量计算、基于RNN框架的生成、知识图谱强化等技术实现对人类意图的准确理解及回应。智能语音助手：架构上已经具备意图分析、任务规划、服务调用等模块。以Siri为例，智能语音助手的架构与AIAgent具备一定相似性。该系统可划分为输入系统、活跃本体、执行系统、服务系统和输出系统五个子系统。在活跃本体内部，利用各种词典资源，模型资源实例化对用户的输入信息进行具体加工；执行系统则是将用户原始的文本输入解析为内部的语义表示，并决定下一步操作，包括“对话流控制器”（根据领域判断诱导用户提供所需的参数）、“任务流控制器”（被“对话流控制器”调用，界定完成一件任务或者解决某个问题由哪些步骤构成,这些步骤之间是何种关系，Siri的任务模型是由一些领域无关的通用任务模型和若干领域相关任务构成）。我们认为从架构上看，智能语音助手已经具备意图分析、任务规划、服务调用几大核心模块。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。9资料来源：CSDN、华泰研究从输入到输出，AIAgent技术框架基本确立。当前对AIAgent整体框架的设计基本上可以分为感知、定义、记忆、规划、行动五类模块，其中感知模块主要处理各类输入，解决智能体与环境交互的问题；定义模块主要包含了Agent的属性、目标等信息；记忆模块包括短期记忆及长期记忆，用于面对复杂任务时提供历史策略等；规划模块包括任务的分解、反思、推理推断、策略制定等，是Agent的大脑；行动模块包括以文字、具身行动、工具指令等多种形式输出结果。从偏向于输入端的感知、定义，到处理端的记忆、规划，再到输出端的行动，我们认为AIAgent的技术框架与此前智能语音助手的技术框架在模块设置上存在一定相似性。资料来源：arXiv、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。10AIAgent架构与当前主流计算架构有相似性。在《AgentAITowardsaHolisticIntelligence》中，研究人员阐述了新的Agent范式，AgentAI能够基于感官输入自主执行适当的和上下文相关的动作，与先前互动策略的区别是在训练后，主体的行动将直接影响任务规划，而不需要从环境中接收反馈来规划其后续行动作为先前的互动范式。当前计算机主流的冯·诺依曼结构则是事先将编制好的程序（含指令及数据）存入主存储器中，计算机在运行程序时自动地、连续地从存储器中依次取出指令且执行。从构成上看，冯·诺依曼机由运算器、存储器、控制器、输入设备和输出设备五大部件组成；AIAgent同样具备输入信息、处理信息、输出信息的三大部件，在架构上二者具备相似性。注：图中红色线为指令流、蓝色线为数据流资料来源：CSDN、华泰研究AIAgent是LLM和人类在计算任务中分工的重新划定。相比主流的计算架构，AIAgent实现了能力的进一步提升。AIAgent主要由在环境和感知中具有任务规划和观察能力的记忆（类比存储）、行动（类比输出）、认知和意识（类比控制）五个模块构成，模块上基本能够对应。从作用上AIAgent的感知方面更加强调对于多模态信息的获取能力，不局限于数据的输入；认知方面主要用于协调每个AgentAI组件，强调了复杂动态环境中交互式Agent的集成方法的重要性，突出了交互式决策的作用。我们认为AIAgent实现了将人类利用编程解决特定任务的过程进一步的接管，从解决问题的执行环节进一步向思考如何解决问题的规划环节渗透。资料来源：《AgentAITowardsaHolisticIntelligence》、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。11AIAgent具备两条能力提升路径。根据分工划分模块的方式是当前得到较为广泛采用的AIAgent技术框架，与之对应的，针对AIAgent的能力提升同样可以从分模块能力突破、系统性优化两条路径展开。在分模块能力突破中，相比于LLM支撑的聊天机器人（如ChatGPT我们认为AIAgent在感知模块中具备更加丰富的模态理解能力，在记忆模块中能够结合更加丰富的数据来源，在规划模块中具备更强的规划、反思能力，在行动模块中能够提供更加丰富的输出，此外在系统性优化的过程中，AIAgent也有望逐步向通用人工智能过渡。感知：模型端原生多模态推进，Agent多模态感知能力可期感知模块：从单一模态向多模态延伸。感知模块的核心功能主要是帮助Agent获取信息，可以与计算机中的鼠标、键盘等各类输入设备进行类比。从核心功能看，基于LLM的AIAgent在信息输入方面强调多模态感知的能力，包括视觉、听觉、触觉等感知能力，涉及文本、图像、视频、3D等多种模态。从落地路径看，当前对于跨模态的落地方式主要包括通过变换器将非文本模态转为文本模态、对非文本模态进行编码并将编码器与LLM对齐，或通过结合思维链技术、结合知识，强化Agent对于不同模态信息的理解能力。资料来源感知模块落地路径复旦NLP团队如何使基于LLM的Agent获得多模式感知能力，包括文本、视觉、听觉输入以及其他潜在的输入形式，如触觉反馈、手势和3D地图，以丰富主体的感知领域并增强其多功能性。理解文本输入中的隐含含义（强化学习、指令微调）；图像字幕（为图像输入生成相应的文本描述）、使用变换器对视觉信息进行编码、将视觉编码器与LLM对准；掩码机制（使Agent理解不同时间帧之间关系调用现有工具集或模型存储库来感知音频信息、将感知方法从视觉领域迁移到音频领域；结合硬件设备探索其他输入方式上交团队提示Agent逐步解释感知，作为一个感知链，已被证明可以提高行动成功率。多模式感知是实现通用人工智能的关键步骤之一。感知的单向解释；从整合环境反馈中受益匪浅，特别是在环境发生变化的多回合互动的背景下斯坦福大学与人类一样，强大的多模式感知对于智能体理解其环境至关重要。视觉感基于知识的LLM代理可以提高2D和3D场景理解、生成和编辑的性能；/Microsoft知是最重要的能力之一，使代理能够理解世界，例如图像、视频、游戏。通过集成AgentAI框架，大型基础模型能够更深入地理解用户输入，从（李飞飞等）同样，音频感知对于理解人类意图至关重要而形成一个复杂且自适应的HCI系统资料来源：arXiv、华泰研究端到端原生多模态模型不断落地。从产业进展看，端到端的原生多模态模型逐步落地。2023年11月Google推出原生多模态模型GoogleGemini，从一开始便在不同模态上（包括文字、音频、图片、视频、PDF文件等）进行了预训练，然后利用额外的多模态数据进行微调以提升有效性，实现了多模态数据训练的突破。2024年原生多模态模型在应用端进一步取得突破，2024年5月OpenAI发布GPT-4o，不同于传统的模型级联和拼接，GPT-4o是跨文本、视觉和音频端到端地训练的新模型，这意味着所有输入和输出都由同一神经网络处理，基于此，我们认为相较于此前的智能语音助手，基于LLM的AIAgent对于多种模态信息的综合处理能力进一步加强。资料来源：Google官网、华泰研究资料来源：OpenAI官网、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。12记忆：模型端上下文长度持续突破，向量外部存储与检索强化长期记忆记忆模块：短期记忆关注模型变化，长期记忆关注数据处理与检索技术。在记忆模块中，现有研究多数把记忆划分为短期记忆、长期记忆，其中短期记忆主要来自于上下文学习，受到Transformer的有限上下文窗口长度的限制，长期记忆则具备参数知识存储（模型训练）、非参数知识存储（外部搜索）的方式实现，目前常用的方式主要是通过外部向量存储，Agent以查询的方式快速检索访问。相较于智能语音助手产品长期记忆主要记忆的是用户个人信息等静态信息，长期记忆的内容进一步丰富、数据量进一步提升；短期记忆系统则实现了更长的对话内容支持，有助于进一步解决复杂问题。资料来源OpenAI（LilianWeng）记忆模块短期记忆：我认为所有的上下文学习都是利用模型的短期记忆进行学习。长期记忆：这为代理提供了长时间保留和调用（无限）信息的能力，通常是通过利用外部矢量存储和快速检索。落地路径感觉记忆作为原始输入的学习嵌入表示，包括文本、图像或其他模态；上下文学习中的短期记忆。它是短而有限的，因为它受到Transformer的有限上下文窗口长度的限制。作为外部向量存储的长期内存，代理可以在查询时处理，可通过快速检索访问外部记忆可以缓解有限注意力跨度的限制。标准实践是将信息的嵌入表示保存到可以支持快速最大内积搜索（MIPS）的向量存储数据库中。人大高瓴人工智能学院存储从环境中感知到的信息，并利用记录的记忆来促进未来的行动。记忆模块可以帮助智能体积累经验，自我进化，并以更一致、合理和有效的方式行事。短期存储器类似于由转换器架构约束的上下文窗口内的输入信息。长期内存类似于外部矢量存储，代理可以根据需要快速查询和检索。记忆读取：如何准确检索记忆写入：需要解决如何存储与现有记忆相似的信息、当记忆达到其存储极限时，如何删除信息记忆反射。目标是为代理提供独立总结和推断更抽象、复杂和高级信息的能力。Agent能够将存储在内存中的过去经历总结为更广泛、更抽象的见解。复旦NLP团队当面对复杂的问题时，记忆机制有助于主体有效地重新审视和应用先前的策略。此外，这些记忆机制使个人能够通过借鉴过去的经验来适应陌生的环境。提高Transformer的长度限制(文本截断、分割输入、强调文本的关键部分、修改注意力机制以降低复杂性总结记忆（使用提示、分层方法用矢量或数据结构压缩存储器（为记忆部分、计划或对话历史嵌入向量、将句子转换为三元组配置、SQL数据库集成）；记忆检索。上交团队短期记忆更具时间特异性，提供了明确的、最近的上下文。长期记忆对任务更为普遍，是对整个世界的宏观和抽象理解。这可以包括存储生产系统本身的过程记忆、存储关于世界的事实的语义记忆和存储代理过去行为序列的情节记忆。长期记忆可以依赖于参数和非参数知识存储。它们可以来自语言代理的可训练参数，也可以作为可以通过检索系统利用的外部知识来维护。树搜索。记忆可以用树结构存储，并通过在树上搜索来获取。矢量搜索。将日常记忆作为嵌入存储在这个矢量数据库中。当Agent遇到新的情况并需要回忆过去的记忆时。资料来源：arXiv、华泰研究大模型支持上下文长度持续上升，外部存储方式不断丰富。随着大模型的迭代持续推进，当前大模型所能支持的上下文长度不断提升，2024年5月Google在GoogleI/O2024开发者大会上宣布推出Gemini1.5Pro的个人预览版，最多可容纳200万token数。我们认为随着大模型支持上下文长度的提升，大模型赋能的Agent在短期记忆能力方面或将进一步上升。在长期记忆方面，外部存储的方式也不断丰富，提供相关产品的厂商包括向量数据库厂商、添加向量检索功能的传统数据库厂商、封装向量及知识库的应用厂商。2000104810002002000104810002003284220.5上下文长度GoogleGemini1.5ProGradientLLaMA3AnthropicClaude3AnthropicClaude2MicrosoftPhi-3moonshot-v1OpenAIGPT4oOpenAIGPT4TurboMetaLLaMA2LongOpenAIGPT3.5MetaLLaMA3MetaLLaMA2MetaLLaMA1OpenAIGPT3 OpenAIGPT105001,0001,5002,0002,500资料来源：各公司官网、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。13规划：关注LLM对于任务分解算法及反思提炼能力的改变规划模块：目标分解与反思提炼为两大核心任务。规划模块是AIAgent能够解决复杂问题的关键模块，从功能看主要包括子目标分解、反思及提炼等，其核心能力来自于底层模型的推理能力。计算机诞生初期，多步骤问题的规划往往由人脑完成，计算机充当解决问题的工具。而随着任务分解算法（如层次化任务网络(HTN)、任务树、分层强化学习、规则引擎等）的发展，计算机开始承担部分的规划任务，如智能语音助手中的任务流控制器主要用于分解任务步骤，判断步骤关系，RPA与业务规则引擎结合实现业务流程的自动化等。随着LLM技术的发展，通过微调或思维链（CoT）等技术对AIAgent进行干预，使Agent逐步提升了规划的效率。资料来源OpenAI（LilianWeng）人大高瓴人工智能学院复旦NLP团队上交团队规划模块子目标和分解：Agent将大型任务分解为较小的、可管理的子目标，从而实现对复杂任务的高效处理。反思和提炼：Agent可以对过去的行为进行自我批评和反思，从错误中吸取教训，并为未来的步骤进行提炼，从而提高最终结果的质量。当面对复杂的任务时，人类倾向于将其分解为更简单的子任务，并单独解决。规划模块旨在赋予智能体这种人类能力，从而使智能体的行为更加合理、有力和可靠。规划模块的核心是推理能力。通过推理，代理将复杂的任务解构为更易于管理的子任务，为每个任务制定适当的计划此外，随着任务的进展，Agent可以使用内省来修改他们的计划，确保它们更好地与现实世界的环境相一致CoT应用于通过计划或决策诱导代理人推理落地路径任务分解：思维链（CoT）将大任务转换为多个可管理的任务，并为模型思维过程的解释提供线索。思维树通过在每一步探索多种推理可能性来扩展CoT。它首先将问题分解为多个思考步骤，并在每个步骤中生成多个想法，从而创建一个树状结构。反思提炼：ReAct通过将动作空间扩展为特定任务的离散动作和语言空间的组合，将推理和动作整合在LLM中。前者使LLM能够与环境交互（例如使用维基百科搜索API而后者则促使LLM生成自然语言的推理痕迹。Reflexion是一个为代理提供动态记忆和自我反思能力以提高推理技能的框架。ChainofHindsight鼓励模型通过明确地向其提供一系列过去的输出来改进其自身的输出，每个输出都附有反馈。无反馈规划：在这种方法中，代理在采取行动后不会收到可能影响其未来行为的反馈。单一路径推理、多路径推理、外部规划等带反馈的规划：环境反馈、人类反馈、模型反馈（反馈通常是基于预先训练的模型生成的）思维链（CoT）方法、自一致性、自润色、自精炼、选择推理等；自适应策略（如CoT)、分层规划、单一策略、与特定领域的规划者集成利用内部反馈机制，通常从预先存在的模型中获得见解；量身定制的人类反馈；从有形或虚拟的环境中获得反馈行动链（将决策转化为CoT推理问题）、应用CoT提示方法，在与环境的交互过程中引出LLM的推理能力、在精心策划的数据集上微调LLM资料来源：arXiv、华泰研究利用ReAct方式发挥LLM推理能力。ReAct（ReasoningandActing）指使用LLM以交错的方式生成推理轨迹和特定于任务的操作，从而实现两者之间的更大协同作用：推理轨迹帮助模型诱导、跟踪和更新行动计划以及处理异常，而操作允许它与外部源（例如知识库或环境）交互以收集更多信息。具体可通过为每个工具提供描述，让LLM选择工具，或为Agent提供搜索工具、查找工具，让LLM与文档库交互。ReAct方式能够将必要的知识提供给LLM供其分析决策，避免其因使用超出训练过程中的数据进行逻辑分析时产生幻觉和错误判断的情况。但从当前的实践看，ReAct方式仍然存在对于复杂问题的解决能力有限、成本相对不可控（LLM拆解、循环任务的方式存在不确定性）、响应速度较API慢等局限性。我们认为未来随着LLM性能的提升及LLM工程化落地方式的创新，LLM推理能力有望得到更加充分的发挥。行动：工具使用能力为关键，具身智能为新方向行动模块：关注微调、工具使用与具身智能技术发展。行动模块是AIAgent输出推理结果，对外部产生影响的重要途经，从输出的形式看包括文本、对工具的使用、具身动作等。在工具使用方面，当前主要的落地方式是通过微调或预先设定的模型描述框架，让Agent调用对应的外部API，从而实现对现成功能的使用或对特定信息的访问搜集。而通过元工具学习等方法，Agent对于工具的使用能够在同类型的不同具体工具之前实现技能的迁移，未来随着模型能力的进一步提升，Agent有望实现对工具的创建；随着具身智能技术的发展，Agent有望对物理世界产生进一步的影响。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。14资料来源OpenAI（LilianWeng）行动模块Agent学习调用外部API来获取模型权重中缺少的额外信息（通常在预训练后很难更改），包括当前信息、代码执行能力、对专有信息源的访问等等。落地路径MRKL简称“模块化推理、知识和语言”，是一种用于自主主体的神经符号体系结构。MRKL系统被提议包含一组“专家”模块，通用LLM作为路由器将查询路由到最合适的专家模块。这些模块可以是神经的（例如深度学习模型）或符号的（例如数学计算器、货币转换器、天气API）。HuggingGPT是一个使用ChatGPT作为任务规划器的框架，根据模型描述选择HuggingFace平人大高瓴人工智能学院负责将Agent的决定转化为具体结果。该模块位于最下游的位置，并直接与环境相互作用。它受到配置文件、内存和计划模块的影响。台中可用的模型，并根据执行结果总结响应。对LM进行了微调，以学习使用外部工具API：TALM（工具增强语言模型）、Toolformer在LLM中，模型输入和输出直接相关，Agent可以通过不同的策略和来源采取行动，如通过记忆回忆采取行动（查询记忆、协作Agent等）、根据其预先生成的计划采取行动。复旦NLP团队接收大脑模块发送的动作序列，并执行与环境交互的动作。包括文本输出、工具使用、基于LLM的Agent配备具身动作与工具结合，专门的工具使LLM能够增强其专业知识；利用LLM了解工具；从演示中学习和从反馈中学习使用工具；元工具学习；创建工具及自调试；具身智能资料来源：arXiv、华泰研究LLM+Agent是通向通用人工智能（AGI）的路径之一。AIAgent用来描述表现出智能行为并具有自主性、反应性、主动性和社交能力的人工实体，能够使用传感器感知周围环境、做出决策，然后使用执行器采取行动，具备以上特征的Agent是实现AGI的关键一步。据2023年11月GoogleDeepMind发布的论文《LevelsofAGI:OperationalizingProgressonthePathtoAGI》，考虑AGI性能、通用性和自主性级别，AGI的发展可按L0-L5分级。按该分级方法，目前在狭义AI上人类已经实现了在特定的任务上让AI超越人类，但是对于广义的AGI仅实现到L1阶段，典型代表是ChatGPT、Bard和Llama。从更广义的评判标准看，基于LLM的Agent评估工作还从效用、社会性、价值等角度开展，我们认为当前基于LLM的Agent从能力上看受到LLM能力上限的限制，未来随着Agent的不断升级，有望逐步逼近AGI，具体的路径包括模态丰富、具身智能、多Agent协同、系统优化等。性能(行)x狭义广义通用性(列)特定的任务或任务组广泛的非物理任务，包括学习新技能等元认知能力Level0:无AI狭义非AI广义非AILevel1:涌现计算器软件；编译器涌现狭义AI人类参与的计算，如AmazonMechanicalTurk涌现AGI相当于或稍优于普通人古典人工智能GOFAI；基于简单规则的系统，比如SHRDLUChatGPT，Bard，Llama2Level2:胜任胜任狭义AI胜任AGI至少达到熟练成年人的中等水平如Jigsaw的毒性检测器；智能音箱，如Siri，Alexa,或GoogleAssistant；视觉问答系统，如PaLI；IBM的Watson；在某些特定任务上的最新水平的大语言模型（例如，写短篇文章、还未实现简单编程）Level3:专家专家狭义AI专家AGI至少达到熟练成年人中的顶尖水平例如Grammarly的拼写和语法检查器；生成图像模型，如Imagen或Dall-E2还未实现Level4:大师大师狭义AI大师AGI至少达到熟练成年人中的极高水平深蓝(Deepblue)，AlphaGo还未实现Level5:超人类超人类狭义AI人造超智能(ASI)超越所有人类的表现AlphaFold，AlphaZero，StockFish还未实现资料来源：《LevelsofAGI:OperationalizingProgressonthePathtoAGI》、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。15路径一：模态丰富+具身智能+多Agent协同Agent具有五个层级，信息维度不断丰富有望推动能力提升。YonatanBisk在《ExperienceGroundsLanguage》中提出WorldScope(WS)，来描述自然语言处理到通用人工智能（AGI）的研究进展，包括语料库-互联网-感知（多模态NLP）-具身-社会5个层级。当前多数LLM建立在互联网层级，具有互联网规模的文本输入和输出。而随着LLM进一步配备扩展的感知空间和行动空间，有望进一步通向感知、具身层级，未来多个Agent共同工作，有望产生涌现的社会现象，达到第五层级。）：资料来源：《ExperienceGroundsLanguage》、华泰研究多Agent协同或出现团体行为，提升智能化程度。从Agent落地方式看，可分为单Agent部署、多Agent交互和人-Agent交互三种方式，其中多Agent交互及人-Agent协同通过不同的方式给予Agent反馈，有助于Agent不断强化解决问题的能力。更进一步的模拟Agent社会框架中，在个人层面Agent表现出计划、推理和反思等内在行为，以及涉及认知、情感和性格的内在个性特征。Agent和其他Agent可以组成团体并表现出团体行为，如合作。在环境中其他Agent也是环境的一部分，Agent有能力通过感知和行动与环境互动。资料来源：《TheRiseandPotentialofLargeLanguageModelBasedAgents:ASurvey》、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。16关注基础智能体进展。据英伟达科学家JimFan的演讲，基础智能体（FoundationAgent）是掌握广泛技能，控制许多身体，并能够泛化到多个环境中的单一算法。随着模型得到信息数量的提升及训练速度的加快，理论上模型能够掌握的技能数量、可控制的身体形态或载体、所能掌握的现实情况有望不断提升。例如在Minecraft中，Voyager通过引入反馈（来自代码运行错误、虚拟人物状态、虚拟环境状况使虚拟人物在游戏环境中能够不断学习新的技能；机器人训练AgentMetaMorph通过设计特殊词汇描述机器人的具体身体部位，利用Transformer输出电机控制，实现对机器人的控制。通过对训练进行加速，有望将Agent的能力进一步泛化，最终实现自主的基础Agent。资料来源：Nvidia官网、华泰研究通过提升AgentAI整体性有助于解决复杂问题。除了单个模块、环节的技术突破，模块间的互动方式也是Agent能力的重要影响因素。当前的AIAgent对于被动结构化任务的处理已有较为丰富的实践，但距离在复杂环境中扮演动态互动角色仍有一定的差距，我们认为除了单个模块的能力提升，围绕AIAgent整体系统的优化或将成为AIAgent能力进一步提升的重要驱动力。据《AgentAITowardsaHolisticIntelligence》，研究人员提出一个将大型基础模型集成到Agent动作中的具体系统——AgentAI系统，该系统强调AI作为有凝聚力的整体发挥作用。按系统层级看，自下而上分别为数据-预训练模型-调优模型-任务-跨模态-不可知的现实（新范式/物理世界/虚拟现实/元宇宙/涌现能力等）-整体智能。在数据端，该系统强调利用不同环境之间的交互获取的跨模态数据，在系统端则结合了大型基础模型对开放世界环境中感官信息的理解，最终AI展示了较好的跨学科、跨任务能力，涵盖了机器人、游戏和医疗保健系统等新兴领域。长期看该路径或将逐步通向整体智能。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。17资料来源：arXiv、华泰研究AgentWorkflow通过流程优化提升任务效果。2024年3月，斯坦福大学吴恩达教授在博客中提出在HumanEval数据集中，使用GPT-3.5（Zero-shot）的测试正确率为48.1%。GPT-4（Zero-shot）为67.0%。而通过与Agentworkflow配合，GPT-3.5实现了95.1%的正确率。在加入Agentworkflow后，模型在具体任务中的能力有了明显的提升。Agentworkflow是一种新的工作流程，要求LLM多次迭代文档。从设计模式上，Agent有四种模式：1）Reflection(反思):让智能体审视和修正自己生成的输出；2）ToolUse(使用工具):LLM被赋予Web搜索、代码执行或其他功能，以帮助它收集信息、采取行动或处理数据；3）Planning(规划):让LLM提出并执行一个多步骤计划来实现目标；4）Multiagentcollaboration(多智能体协作)：多个智能体合作完成任务。我们认为AgentWorkflow通过对LLM应用的流程优化，有助于提升Agent解决具体任务的准确性，LLM应用端厂商有望借鉴此方法推动更多垂类LLM落地。资料来源：Deeplearning.ai官网、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。18从AIAgent的落地方式看，基于LLM的Agent产品众多，但各自在自主程度，能力范围上有一定差异。本节我们选取部分典型案例展开分析，具体包括：AutoGPT（2023.3）、卡耐基梅隆大学智能Agent系统（2023.4）、Devin（2024.2）。AutoGPT具备AIAgent的雏形。AutoGPT是一个构建在GPT-4基础上的开源Python应用程序,由视频游戏公司SignificantGravitasLtd的创始人ToranBruceRichards于2023年3月30日推出，其功能包括从互联网收集信息、存储数据、通过实例生成文本、访问各种网站和平台以及使用LLM执行摘要的能力，常用于市场研究、网站创建、博客写作和创PineconeAPI密钥（向量数据库产品）、Git（开放源码版本控制）、ElevenLabsAPI（可选语音相关模块）。我们认为AutoGPT具备实现多种任务的能力，具备AIAgent的雏形。资料来源：Github、华泰研究利用LLM拆分任务。从实现功能的步骤看，AutoGPT的构建分为：1）本地下载Auto-GPT项目及相关资源；2）输入AI名称、AI角色以及最多5个目标；3）任务创建或排序：了解目标，生成任务列表，并提及实现这些任务的步骤，审查任务顺序以确保其在逻辑上有意义；4）任务执行：利用GPT-4、互联网和其他资源来执行这些任务；5）生成结果：具体结果形式包括Thoughts（AIAgent在完成动作后分享他们的想法）、Reasoning（解释了为什么选择特定的行动方针）、Plan（该计划包括新的任务集）、Criticism（通过确定局限性或担忧来批判性地审查选择），本质上是ReAct（Reason+Act）的应用。从实现步骤看，人类在其中给出基本的任务步骤后，AutoGPT通过调用LLM，实现对任务的理解与拆分。LLM分解任务受模型能力及数据的限制。AutoGPT的能力范围仍然受到Python函数集能力边界的限制，在搜索网络、管理内存、与文件交互、执行代码和生成图像等具备较丰富可调用函数的领域效果较好，但对于更为复杂的任务处理能力有限。此外，LLM在分解问题的模式上较为固定，并且存在受到预训练数据和知识的限制，对于重复出现的子问题识别能力不足等问题。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。19资料来源：Github、华泰研究通过调用插件实现能力的扩展。2023年6月Auto-GPT更新至v0.4.1，AutoGPT对于插件的支持进一步强化，从插件的功能看，第一方插件主要功能包括信息检索（搜索引擎、新闻、社媒、百科等）、任务规划、智能生成（邮件回复等）、API调用等；第三方插件则实现了对AutoGPT能力边界的进一步扩展，添加了交易、使用AI工具、数据库查询、功能集成等。我们认为插件帮助AutoGPT进一步提升了用工具获取信息、加工信息的能力，使得Agent的能力边界得到进一步的延展。Plugin描述AstroInfo这提供了有关宇航员的Auto-GPT信息。APITools这允许Auto-GPT进行各种API调用。BaiduSearch该搜索插件将百度搜索引擎集成到Auto-GPT中。BingSearch该搜索插件将Bing搜索引擎集成到Auto-GPT中。Bluesky启用Auto-GPT从Bluesky检索帖子并创建新帖子。Email利用AI自动起草和智能回复电子邮件。NewsSearch该搜索插件使用NewsAPI聚合器将新闻文章搜索集成到Auto-GPT中。Planner适用于Auto-GPT的简单任务规划器模块RandomValues启用Auto-GPT以生成各种随机数和字符串。SceneX使用Auto-GPTSceneX插件探索超越像素的图像叙事。SerpApi在SerpApi支持的各种搜索引擎上进行搜索，并从结果中获取丰富的信息。Telegram一个运行流畅的Telegram机器人，可以为您提供通常通过终端获得的所有消息。TwitterAuto-GPT能使用Tweepy通过API访问Twitter来检索帖子和其他相关内容。WikipediaSearch这允许Auto-GPT直接使用维基百科。WolframAlphaSearch这允许AutoGPT直接使用WolframAlpha。资料来源：Github、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。20插件描述Alpaca-Trading使用Auto-GPT交易股票和加密货币、纸币或实时交易AutoGPTReddit访问RedditAutoGPTUserInputRequest允许Auto-GPT在连续模式下专门请求用户输入BingAI启用Auto-GPT通过BingAI获取信息，节省时间、API请求，同时保持准确性。这并不会消除对OpenAIAPI密钥的需求Crypto使用Auto-GPT交易加密货币Discord通过Discord与您的Auto-GPT实例交互DollyAutoGPTCloner一种组合和运行多个协作的Auto-GPT进程的方法，直到核心具有多代理支持GoogleAnalytics将您的GoogleAnalytics帐户连接到Auto-GPT。IFTTTwebhooks该插件允许您使用Maker轻松集成IFTTT连接iMessage使用Auto-GPT发送和获取iMessageInstagramInstagram访问Mastodon简单的Mastodon插件，可通过Mastodon帐户发送嘟嘟声MetaTrader将您的MetaTrader账户连接到Auto-GPT。MindwareAutoGPT的应用程序商店。使用一个API密钥，即可解锁对越来越多插件的访问。NotionAuto-GPT的Notion插件。Slack该插件允许接收命令并将消息发送到Slack通道Spoonacular使用Auto-GPT查找食谱灵感SystemInformation该插件在提示符中添加了一行额外的内容，作为AI使用当前系统可能支持的shell命令的提示。通过合并此插件，您可以确保AI模型提供更准确且特定于系统的shell命令，从而提高其整体性能和实用性。TiDBServerless将TiDBServerless数据库连接到Auto-GPT，启用从数据库获取查询结果Todoist-Plugin允许Auto-GPT以编程方式与您的Todoist交互，以创建、更新和管理您的TodoistWeather一个简单的天气插件，围绕python-weatherWeb-Interaction启用Auto-GPT以与网站充分交互，允许Auto-GPT单击元素、输入文本和滚动Website-Carbon-Footprint利用Auto-GPT的网站碳足迹APIWolframAlpha访问WolframAlpha进行数学计算并获取准确信息YouTube各种YouTube功能，包括下载和理解Zapierwebhooks该插件可让您轻松集成Zapier连接ProjectManagement轻松简化您的项目管理：Jira、Trello和Google日历变得毫不费力RabbitMQ该插件允许您通过微服务与Auto-GPT实例进行通信。资料来源：Github、华泰研究利用LLM强化搜索。2023年4月卡耐基梅隆大学在论文《Emergentautonomousscientificresearchcapabilitiesoflargelanguagemodels》中提出了一个智能代理系统，它结合了多种大型语言模型，用于自主设计、规划和执行科学实验。其中利用LLM的模块包括“网页模块用于协调各个细分模块。Planner模块输出Google查询指令给网页搜索器、输出文档查询指令给文档搜索器，进行文档的查找梳理，为执行部分提供所需的参数及文档信息，最后由代码执行器、自动化模块进行实验。在此案例中，LLM主要用于强化文档及互联网知识的检索，实质上对具体任务的执行过程由搜索结果得到。资料来源：《Emergentautonomousscientificresearchcapabilitiesoflargelanguagemodels》、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。21通过细分领域内容提升执行准确度。在本案例中，通过为文档搜索领域添加垂直领域内容有助于提升执行的准确度。具体来看主要有两种方式，第一种是通过对指令进行编码并结合向量搜索，对专门的API文档进行搜索与匹配，提升输入Planner的编码质量；另一种方式是通过补充文档指南，提示使用专用工具的特定语言体系进行功能推荐。结合了专业知识库及文档后，Agent的知识范畴不再局限于大模型训练的语料，能够完成对具体工具的正确使用。在本案例中，Agent自动调整代码以应对专用软件包缺失、自动搜索说明文档调整工具的效果，并完成了布洛芬的合成、阿司匹林合成、铃木反应研究、天冬氨酸合成。资料来源：《Emergentautonomousscientificresearchcapabilitiesoflargelanguagemodels》、华泰研究Devin利用AI实现自主编程。2024年3月AI初创公司Cognition发布AI软件工程师Devin，Devin可以规划和执行需要数千个决策的复杂工程任务，可在每一步都回忆起相关的上下文，随着时间的推移学习，并纠正错误，此外Devin还可以与用户积极协作，实时报告其进度，接受反馈，并根据需要与用户一起完成设计选择。研究人员在SWE基准上评估了Devin，要求代理解决Django和scikit-learn等开源项目中发现的现实GitHub问题。Devin端到端正确解决了13.86%的问题，远远超过了之前1.96%的最先进水平。Devin没有得到帮助，而所有其他模型在给出了要编辑的确切文件的条件下，以前最好的模型也只能解决4.80%的问题。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。22资料来源：Cognition官网、华泰研究多种AI技术结合，Agent形态初具。从技术方面，Devin集成了机器学习、深度学习和自然语言处理，以理解代码、从现有模式中学习并自主生成代码，并配备了自己的代码编辑器、命令行和浏览器。从Devin的任务实现方式看，主要分为几个步骤：1）理解用户意图，通过LLM等NLP技术分析用户的自然语言描述，提取关键功能和要求，将用户分解为任务清单；2）自主学习专业材料（如API文档、开源库、源码掌握代码结构，LLM技术可用于加强对专业材料的理解能力，代码结构的模式识别与匹配则可以通过机器学习模型强化；3）生成代码并根据用户的提示调Bug。我们认为从实现方式看，对于现有文档的学习与实践，已经初步具备Agent的形态，未来随着模型能力的进一步提升，Agent在细分领域的能力有望进一步提升。能力示例学习如何使用不熟悉的技术在阅读了一篇博客文章后，Devin在Modal上运行ControlNet，为Sara生成带有隐藏消息的端到端构建和部署应用程序制作了一个互动网站，模拟生活游戏！它逐步添加用户要求的功能，然后将应用程序部署到Netlify。自主发现并修复代码库中的错误Devin帮助用户维护和调试他的开源竞争编程书籍训练和微调自己的人工智能模型为一个大型语言模型设置了微调，只提供了GitHub上研究存储库的链接。解决开源存储库中的bug和功能请求只要有一个指向GitHub问题的链接，Devin就可以完成所需的所有设置和上下文收集。可以为成熟的生产存储库做出贡SWE基准测试中。Devin解决了SympyPython代数系统中对数计算的错误。Devin设置代码献环境，复制错误，并自行编写代码和测试修复程序。资料来源：Cognition官网、华泰研究模型架构突破+特定数据推动LLMAgent能力突破。从AIAgent的落地方式看，基于LLM的Agent实践已经取得一定的成果。具体包括：1）利用LLM较强的文本处理能力，实现了信息检索及工具使用效率的提升；2）利用LLM的任务分解能力，实现了简单问题的步骤分解与规划；3）利用LLM的文本生成能力，打造更加自然的人机交互；4）利用LLM的可调试性，打造能够解决垂直领域任务或具备垂直领域知识体系的应用。以上能力突破的基础一方面来自于Transformer架构下，LLM能力相比传统NLP方法的效率提升，如更加自然的人机交互、更强的文本处理能力；另一方面则来自于特定数据类型训练赋予LLM的能力，如从任务分解数据训练中得到的任务规划能力、配置特定文件后得到的解决特定领域问题的能力。免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。23资料来源：各公司官网、华泰研究LLMAgent自主化、智能性仍存在提升空间。从LLMAgent的实践看，当前的LLMAgent对于执行特定领域的任务已经体现出一定的自主性（如完成科学试验、搜索资料撰写报告等LLM对于固定范式下解决问题能够实现较好的自动化，但在解决问题的泛化能力方面，当前主要的Agent产品仍距离通用的Agent有一定的差距。主要体现在：1）任务规划方面：当前Agent主要基于现有的成熟任务流程进行复现，或基于训练数据对任务进行简单的拆分；2）工具使用方面：当前Agent基本按照人类的部署进行流程化的操作和尝试，工具的使用主要通过调用第三方API进行。未来随着底层模型能力的提升。我们认为AIAgent有望在以下方面实现能力提升：1）在任务规划方面从基于规则、参数的规划能力逐步向基于实践的反思、迭代进化；2）在工具使用与选择方面，从基于人类配置的特定工具，向多种工具的选择规划进化，甚至更进一步的创造适用于LLM的工具。资料来源：各公司官网、华泰研究免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。24面向2B市场，MaaS厂商不断完善Agent落地工具。大模型厂商与MaaS厂商合作，共同为B端客户提供基于大模型的产品，其中大模型厂商推动底层模型的能力升级，MaaS巨头则凭借良好的产品、客户基础，提供相应的开发及定制化工具，帮助B端客户打造基于大模型的业务应用。其中较有代表性的厂商为微软、Amazon、Google。我们认为MaaS厂商通过云服务实现了基础软件层面的良好卡位，而AIAgent在B端落地及D端开发的过程中多需要数据的调用及算力的

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机-AI Agent：通往AGI的核心基础

文档简介

温馨提示

最新文档

评论

计算机-AI Agent：通往AGI的核心基础

文档简介

温馨提示

最新文档

评论

相关文档