自主进化智能体:从固定工作流到动态架构的演进_第1页
自主进化智能体:从固定工作流到动态架构的演进_第2页
自主进化智能体:从固定工作流到动态架构的演进_第3页
自主进化智能体:从固定工作流到动态架构的演进_第4页
自主进化智能体:从固定工作流到动态架构的演进_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自主进化智能体:从固定工作流到动态架构的演进张驰

l

西湖大学博导AG-实验室现任西湖大学特聘研究员

,

博士生导师

,

并担任通用人工智能(AG=)实验室负责人。在加入西湖大学前

,曾入选腾讯”技术大咖"头部人才计划担任高级研究员。

他长期深耕生成怯A=与多模态大模型研究,在CVPR丶TPAM=等国际顶尖会议及期刊发表论文60余篇

,

并连续入选斯坦福大学”全球前2%顶尖科学家"榜单。张驰博士致力于产学研的深度融合,

其主导研发的生成怯模型曾支撑腾讯QQ核心业务

,

服务上亿用户。

同时

,他积极构建开源生态

,

主导的APPAgent丶MeshAnything丶Metric

3D等知名开源项目在GitHub累计获星超20,000

,

被工业界与学术界广泛采纳为行业基准。张驰西湖大学博导AG*实验室负责人ı.

让Agent先"熟悉数据库Π,

再开始写SQLıı.

让Agent像人一样学会使用APPııı.

让Agent从"会做Π进化到"熟练做Π

ıv.

让Agent连自己的工作流都能改写目录CONTENTS

核心问题Agent

变强,

究竟是哪里在变?不是只有“模型更大”这一条路。动作然后提炼知识先懂领域经验再会操作架构最后自改这四篇工作,刚好构成一条从低层到高层的进化路径。3AppAgentX1SQLAgent2AppAgent4Doctor知识进化经验进化

动作进化架构进化越往右,Agent

改变的就越不是“内容”,而是“⾃⼰”

总览同一条主线,

四个进化层级抽象层级逐步升高四篇工作其实都在回答同一个问题当任务不再一次性完成,Agent

能否把过去变成未来的优势?Explore

Distill

Reuse

Self-optimize最终自改示例

/

shortcut

/

workflow后复用

先探索

再沉淀

SQLAgent

/AppAgent知识

/

文档

/

历史共同母题DoctorPART

01让Agent先”熟悉数据库Π,再开始写56L

SQLAgent

任务介绍任务:

把自然语言问题翻译成正确

SQL用户只问一句话,Agent

要自己找到表、字段、连接关系与聚合逻辑。“过去

30

天,退款率最高的商户是谁?”Text-to-SQL

的本质不是“翻译”,而是先理解数据库。自然语言很短,背后却可能牵涉

4

张表、多个join

和口径选择。merchantspaymentsrefundsordersSQLAgent

SQLAgent

SQLAgent

任务中的例子三个问题,

看上去都像一句SQL

收入

“2024

年每个月的净收入是多少?”

留存

“哪些客户连续三个月下单?”

质量

“哪些供应商的异常率最高?”需要识别

gross

/

refund

/tax

的口径需要跨月窗口与去重需要知道哪个字段才代表

anomaly问题不难写,难的是你得先知道“数据库里的世界是怎么长的”。如果Agent

没有先探索

可能拿错字段

可能join

错表 最后SQL

看似合理,却语义错误

SQLAgent

问题挑战挑战

1:

同名字段,

不一定同义所以真正缺的不是“SQL

语法”,而是“数据库语义熟悉度”。都叫

status,但分别代表订单、支付、退款状态payment.statusorder.statusrefund.statusSQLAgent

SQLAgent

问题挑战挑战

2:

陌生数据库里,

schema本身就很大直接把整库

DDL

塞给模型,信息太多;只检索几个表,又容易漏掉关键关系。人工熟悉成本太高全量

schema上下文爆炸Top-k

检索容易漏表这就是为什么我们不能只做“查询时推理”,

而要做“查询前进化”。SQLAgent先知道有哪些表确认字段含义记住可复用模式更快更准SQLAgent

的核心直觉:让Agent

也经历一次“上手数据库”的过程。

SQLAgent

SQLAgent

Motivation人的做法:

先熟悉库,

再写查询浏览schema

试写

query沉淀经验正式回答

SQLAgent

方法总览两阶段框架:

先探索,

再部署论文

Figure

1/

Figure

2

左:如何把数据库表示成可探索树;右:如何把探索结果用于正式问答。SQLAgent

SQLAgent

SQLAgent

方法拆解探索阶段,

到底在“学”什么?不是乱逛,而是生成可复用的三元组知识。Schema

Fragment

SQL

QueryNatural

Language例子“高退款率商户”→

对应哪几张表→

怎么join这些经验会在部署时变成

in-contextexamples,而不是每次重新摸索。为什么不是单Agent?

一个负责找对上下文

一个负责写对

SQL

SQLAgent

部署阶段正式回答时,

是两个Agent在配合把“找信息”和“做推理”拆开,部署时更稳。InfoAgentGenAgent检索相关schema

/

经验生成并修正

SQLSQLAgent

SQLAgent

实验成果结果

1:

先探索,

整体

EX

明显上升

Easy/

Hard

子集均有收益

w/

exploration

>

baseline知识不是附属品,它直接转化成任务成功率。+12.80vs.Spider-Agent25.78%Overall

EXSQLAgent

SQLAgent

SQLAgent

实验成果结果

2:

知识积累越充分,

后续越稳Figure

3

显示:有知识的框架随迭代持续提升;Table

2

显示:跨不同

LLM

都有稳定增益。

SQLAgent

SQLAgent

一句话总结SQLAgent

的“进化”是什么?从

不会这个数据库

先探索,后复用它进化的不是动作,也不是架构,而是

领域知识PART

02让Agent像人一样学会使用APP

AppAgent

AppAgent

任务介绍任务:

不用

API,只看屏幕来操作手机App像真实用户一样:看截图、理解界面、点按钮、输入文字。

发邮件

设闹钟

Lightroom

参数任务和人类日常操作几乎一样。

AppAgent

AppAgent

任务中的例子几个任务,

马上就能看懂它要解决什么Gmail给Jane

Doe

发一封邮件Lightroom把照片调得更好看任务本身不复杂,复杂的是每个App

的界面规则都不同。每周五和周日

12:30

设闹钟Clock

AppAgent

问题挑战挑战

1:

GUI

世界没有统一“语言”同一个目标“搜索”不同

App按钮位置不同不同控件图标/

文案

/

手势都可

能变如果每一步都从零理解屏幕,Agent会非常慢,也非常脆。AppAgentSR:

2.2%→

48.9%先把动作说成人话,Agent

才能稳定学会。

AppAgent

问题挑战挑战

2:

原始动作空间太难用Human-like

actionsRaw

coordinatesTap/

Swipe

/

Text

/

Back“点在

x=241,

y=818”AppAgent

AppAgent

AppAgent

Motivation人的做法:

先摸索,

或者先看别人怎么做自己探索看示范形成操作文档正式任务时复用AppAgent

想让

GUIAgent

也拥有“使用说明书”。论文

Figure

2

:一边探索,

一边把“页面里什么东西能做什么”写成文档。

AppAgent

方法总览探索—

文档

部署AppAgent例:点开“Compose”后进入写邮件页

记录“Compose

=

新建邮件入口”

AppAgent

AppAgent

方法拆解探索阶段,Agent

到底记录什么?这一步让“经验”第一次变成了可复用的外部记忆。点击前后截图看到按钮总结功能

写入文档

看当前界面

查文档

执行下一步

继续总结

AppAgent

部署阶段部署时:

Observe→Think

→Act

SummarizeAppAgent

AppAgent

实验成果结果

1:

经验文档显著提升任务成功率自动学到的经验,已经非常接近人工说明书。95.6%人工文档84.4%观看示范73.3%自动探索AppAgent

AppAgent

AppAgent

实验成果结果

2:

不只是点按钮,

也能做视觉任务Lightroom

case

study:不仅完成任务,还能做出更好的视觉结果。

AppAgent

AppAgent

一句话总结AppAgent

的“进化”是什么? 从每次现学

积累操作经验

它进化的是

经验下一层问题:如果经验积累够多,Agent

能不能把反复做的动作压缩成一个“捷径”?PART

03让Agent从”会做Π进化到

”熟练做Π原来

每一步都问

LLM

每一步都重新看屏幕AppAgentX

想学会“熟练动作”。

AppAgentX

任务介绍任务:

同样操作App,但要更快、更省、更像熟练用户AppAgentX例:Gmail切换主题

一串低层动作

可被压缩为一个shortcut

AppAgentX

任务中的例子熟练用户不会每次都从零推理论文

Figure

6AppAgentX后果慢token

多×

每一步思考感知执行

AppAgentX

AppAgentX

问题挑战挑战

1:

每一步都完整推理,

太贵经验如果不能压缩,就只是“更有记忆”,还不算“更熟练”。

AppAgentX

AppAgentX

问题挑战挑战

2:

基础动作空间太低层Agent

要真正进化,就需要把低层动作抽象成高层行为。Change

ThemeSearchTapSwipeText这些都只是“手指怎么动”这些才是“用户想做什么”

AppAgentX

AppAgentX

Motivation人的熟练,

本质上是“动作压缩”初学者:看键盘→

找键

按键熟练者:直接输入一个词AppAgentX

想把“经验”进一步蒸馏成“动作空间的进化”。低层动作序列

高层

shortcut

AppAgentX

AppAgentX

方法总览历史→

记忆→

Shortcut

动态执行论文

Figure

3:这不是简单缓存,而是把轨迹中重复出现的模式提炼成高层动作。

页面之间:记录跳转关系

页面内部:记录元素功能

LLM

负责总结页面

/

元素语义这一步让

agent

不再只记“做过什么”,而是记“

这个地方能干什么”。

AppAgentX

方法拆解先把历史组织起来:

Page

Node→

Element

Node论文

Figure

2AppAgentX

AppAgentX

实验成果结果

1:

更少步骤,

更短时间,

更少token9.26k

4.94kTokensSR

还保持在71.4%。23s

16sStep

Time9.1

5.7StepsAppAgentX

AppAgentX

AppAgentX

实验成果结果

2:

在大规模

benchmark

上也更强DroidTask:46.3%

88.2%

|AndroidWorld:41.7%

62.5%

AppAgentX

AppAgentX

一句话总结AppAgentX

的“进化”是什么?

低层操作

抽象成

高层动作

它进化的是

动作空间下一层问题:如果动作都能自动改,整个workflow

能不能也自动长出来?PART

04让Agent连自己的工作流都能改写输出病种判断/

置信度输入皮肤图像诊断workflowDoctor

Doctor

任务介绍任务:做医学图像诊断,

而且要持续变得更准这里最关键的不是“会不会答”,而是“流程本身是否合理”。Doctor

Doctor

任务中的例子同样是诊断,

不同错误需要不同修复一致性不足多次回答不稳定需要循环

/

投票图像理解错误看错

lesion

特征需要补工具/

补视觉节点诊断推理错误知道特征却推错病需要补会诊/

补分支所以真正需要进化的,不是单个

prompt,而是整套

workflow

结构。Doctor

Doctor

问题挑战挑战

1:

静态workflow

太脆问题

错了也不会改流程

不同病因用同一套路在高风险场景里,“固定”本身就是一种瓶颈。固定流程固定

prompt

固定输出Doctor

Doctor

问题挑战挑战

2:

只调

prompt,不够有些错误需要加节点,有些需要加分支,有些需要把整套协作范式换掉。

节点级

加一个tool

/

改一个专家节点

结构级

branch

/

loop

/

parallel

框架级

CoT

换成

Round

Table论文

Figure

2Doctor

Doctor

Motivation像

NAS

一样,

搜索更好的Agentworkflow初始流程诊断错误

提出修改验证保留关键变化:workflow

从“人工设计”变成“反馈驱动搜索”。Doctor

Doctor

方法总览错误诊断→修改建议

验证

继续进化论文

Figure

1:系统不是一次性设计好,而是在反馈中不断长出新的结构。

Doctor

Doctor

方法拆解真正特别的地方:

搜索空间是分层的

Node-level

Add

/

Remove

/

Modify

node

Structure-level

Branch

/

Loop

/

Parallel

Framework-level

CoT

/

Reflexion

/

Round

Table不是单点调参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论