版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自主进化智能体:从固定工作流到动态架构的演进张驰
l
西湖大学博导AG-实验室现任西湖大学特聘研究员
,
博士生导师
,
并担任通用人工智能(AG=)实验室负责人。在加入西湖大学前
,曾入选腾讯”技术大咖"头部人才计划担任高级研究员。
他长期深耕生成怯A=与多模态大模型研究,在CVPR丶TPAM=等国际顶尖会议及期刊发表论文60余篇
,
并连续入选斯坦福大学”全球前2%顶尖科学家"榜单。张驰博士致力于产学研的深度融合,
其主导研发的生成怯模型曾支撑腾讯QQ核心业务
,
服务上亿用户。
同时
,他积极构建开源生态
,
主导的APPAgent丶MeshAnything丶Metric
3D等知名开源项目在GitHub累计获星超20,000
,
被工业界与学术界广泛采纳为行业基准。张驰西湖大学博导AG*实验室负责人ı.
让Agent先"熟悉数据库Π,
再开始写SQLıı.
让Agent像人一样学会使用APPııı.
让Agent从"会做Π进化到"熟练做Π
ıv.
让Agent连自己的工作流都能改写目录CONTENTS
核心问题Agent
变强,
究竟是哪里在变?不是只有“模型更大”这一条路。动作然后提炼知识先懂领域经验再会操作架构最后自改这四篇工作,刚好构成一条从低层到高层的进化路径。3AppAgentX1SQLAgent2AppAgent4Doctor知识进化经验进化
动作进化架构进化越往右,Agent
改变的就越不是“内容”,而是“⾃⼰”
总览同一条主线,
四个进化层级抽象层级逐步升高四篇工作其实都在回答同一个问题当任务不再一次性完成,Agent
能否把过去变成未来的优势?Explore
→
Distill
→
Reuse
→
Self-optimize最终自改示例
/
shortcut
/
workflow后复用
先探索
再沉淀
SQLAgent
/AppAgent知识
/
文档
/
历史共同母题DoctorPART
01让Agent先”熟悉数据库Π,再开始写56L
SQLAgent
任务介绍任务:
把自然语言问题翻译成正确
SQL用户只问一句话,Agent
要自己找到表、字段、连接关系与聚合逻辑。“过去
30
天,退款率最高的商户是谁?”Text-to-SQL
的本质不是“翻译”,而是先理解数据库。自然语言很短,背后却可能牵涉
4
张表、多个join
和口径选择。merchantspaymentsrefundsordersSQLAgent
SQLAgent
SQLAgent
任务中的例子三个问题,
看上去都像一句SQL
收入
“2024
年每个月的净收入是多少?”
留存
“哪些客户连续三个月下单?”
质量
“哪些供应商的异常率最高?”需要识别
gross
/
refund
/tax
的口径需要跨月窗口与去重需要知道哪个字段才代表
anomaly问题不难写,难的是你得先知道“数据库里的世界是怎么长的”。如果Agent
没有先探索
可能拿错字段
可能join
错表 最后SQL
看似合理,却语义错误
SQLAgent
问题挑战挑战
1:
同名字段,
不一定同义所以真正缺的不是“SQL
语法”,而是“数据库语义熟悉度”。都叫
status,但分别代表订单、支付、退款状态payment.statusorder.statusrefund.statusSQLAgent
SQLAgent
问题挑战挑战
2:
陌生数据库里,
schema本身就很大直接把整库
DDL
塞给模型,信息太多;只检索几个表,又容易漏掉关键关系。人工熟悉成本太高全量
schema上下文爆炸Top-k
检索容易漏表这就是为什么我们不能只做“查询时推理”,
而要做“查询前进化”。SQLAgent先知道有哪些表确认字段含义记住可复用模式更快更准SQLAgent
的核心直觉:让Agent
也经历一次“上手数据库”的过程。
SQLAgent
SQLAgent
Motivation人的做法:
先熟悉库,
再写查询浏览schema
试写
query沉淀经验正式回答
SQLAgent
方法总览两阶段框架:
先探索,
再部署论文
Figure
1/
Figure
2
左:如何把数据库表示成可探索树;右:如何把探索结果用于正式问答。SQLAgent
SQLAgent
SQLAgent
方法拆解探索阶段,
到底在“学”什么?不是乱逛,而是生成可复用的三元组知识。Schema
Fragment
SQL
QueryNatural
Language例子“高退款率商户”→
对应哪几张表→
怎么join这些经验会在部署时变成
in-contextexamples,而不是每次重新摸索。为什么不是单Agent?
一个负责找对上下文
一个负责写对
SQL
SQLAgent
部署阶段正式回答时,
是两个Agent在配合把“找信息”和“做推理”拆开,部署时更稳。InfoAgentGenAgent检索相关schema
/
经验生成并修正
SQLSQLAgent
SQLAgent
实验成果结果
1:
先探索,
整体
EX
明显上升
Easy/
Hard
子集均有收益
w/
exploration
>
baseline知识不是附属品,它直接转化成任务成功率。+12.80vs.Spider-Agent25.78%Overall
EXSQLAgent
SQLAgent
SQLAgent
实验成果结果
2:
知识积累越充分,
后续越稳Figure
3
显示:有知识的框架随迭代持续提升;Table
2
显示:跨不同
LLM
都有稳定增益。
SQLAgent
SQLAgent
一句话总结SQLAgent
的“进化”是什么?从
不会这个数据库
到
先探索,后复用它进化的不是动作,也不是架构,而是
领域知识PART
02让Agent像人一样学会使用APP
AppAgent
AppAgent
任务介绍任务:
不用
API,只看屏幕来操作手机App像真实用户一样:看截图、理解界面、点按钮、输入文字。
发邮件
设闹钟
调
Lightroom
参数任务和人类日常操作几乎一样。
AppAgent
AppAgent
任务中的例子几个任务,
马上就能看懂它要解决什么Gmail给Jane
Doe
发一封邮件Lightroom把照片调得更好看任务本身不复杂,复杂的是每个App
的界面规则都不同。每周五和周日
12:30
设闹钟Clock
AppAgent
问题挑战挑战
1:
GUI
世界没有统一“语言”同一个目标“搜索”不同
App按钮位置不同不同控件图标/
文案
/
手势都可
能变如果每一步都从零理解屏幕,Agent会非常慢,也非常脆。AppAgentSR:
2.2%→
48.9%先把动作说成人话,Agent
才能稳定学会。
AppAgent
问题挑战挑战
2:
原始动作空间太难用Human-like
actionsRaw
coordinatesTap/
Swipe
/
Text
/
Back“点在
x=241,
y=818”AppAgent
AppAgent
AppAgent
Motivation人的做法:
先摸索,
或者先看别人怎么做自己探索看示范形成操作文档正式任务时复用AppAgent
想让
GUIAgent
也拥有“使用说明书”。论文
Figure
2
:一边探索,
一边把“页面里什么东西能做什么”写成文档。
AppAgent
方法总览探索—
文档
—
部署AppAgent例:点开“Compose”后进入写邮件页
→
记录“Compose
=
新建邮件入口”
AppAgent
AppAgent
方法拆解探索阶段,Agent
到底记录什么?这一步让“经验”第一次变成了可复用的外部记忆。点击前后截图看到按钮总结功能
写入文档
看当前界面
查文档
执行下一步
继续总结
AppAgent
部署阶段部署时:
Observe→Think
→Act
→
SummarizeAppAgent
AppAgent
实验成果结果
1:
经验文档显著提升任务成功率自动学到的经验,已经非常接近人工说明书。95.6%人工文档84.4%观看示范73.3%自动探索AppAgent
AppAgent
AppAgent
实验成果结果
2:
不只是点按钮,
也能做视觉任务Lightroom
case
study:不仅完成任务,还能做出更好的视觉结果。
AppAgent
AppAgent
一句话总结AppAgent
的“进化”是什么? 从每次现学
到
积累操作经验
它进化的是
经验下一层问题:如果经验积累够多,Agent
能不能把反复做的动作压缩成一个“捷径”?PART
03让Agent从”会做Π进化到
”熟练做Π原来
每一步都问
LLM
每一步都重新看屏幕AppAgentX
想学会“熟练动作”。
AppAgentX
任务介绍任务:
同样操作App,但要更快、更省、更像熟练用户AppAgentX例:Gmail切换主题
一串低层动作
可被压缩为一个shortcut
AppAgentX
任务中的例子熟练用户不会每次都从零推理论文
Figure
6AppAgentX后果慢token
多×
每一步思考感知执行
AppAgentX
AppAgentX
问题挑战挑战
1:
每一步都完整推理,
太贵经验如果不能压缩,就只是“更有记忆”,还不算“更熟练”。
AppAgentX
AppAgentX
问题挑战挑战
2:
基础动作空间太低层Agent
要真正进化,就需要把低层动作抽象成高层行为。Change
ThemeSearchTapSwipeText这些都只是“手指怎么动”这些才是“用户想做什么”
AppAgentX
AppAgentX
Motivation人的熟练,
本质上是“动作压缩”初学者:看键盘→
找键
→
按键熟练者:直接输入一个词AppAgentX
想把“经验”进一步蒸馏成“动作空间的进化”。低层动作序列
高层
shortcut
AppAgentX
AppAgentX
方法总览历史→
记忆→
Shortcut
→
动态执行论文
Figure
3:这不是简单缓存,而是把轨迹中重复出现的模式提炼成高层动作。
页面之间:记录跳转关系
页面内部:记录元素功能
LLM
负责总结页面
/
元素语义这一步让
agent
不再只记“做过什么”,而是记“
这个地方能干什么”。
AppAgentX
方法拆解先把历史组织起来:
Page
Node→
Element
Node论文
Figure
2AppAgentX
AppAgentX
实验成果结果
1:
更少步骤,
更短时间,
更少token9.26k
→
4.94kTokensSR
还保持在71.4%。23s
→
16sStep
Time9.1
→
5.7StepsAppAgentX
AppAgentX
AppAgentX
实验成果结果
2:
在大规模
benchmark
上也更强DroidTask:46.3%
→
88.2%
|AndroidWorld:41.7%
→
62.5%
AppAgentX
AppAgentX
一句话总结AppAgentX
的“进化”是什么?
低层操作
抽象成
高层动作
它进化的是
动作空间下一层问题:如果动作都能自动改,整个workflow
能不能也自动长出来?PART
04让Agent连自己的工作流都能改写输出病种判断/
置信度输入皮肤图像诊断workflowDoctor
Doctor
任务介绍任务:做医学图像诊断,
而且要持续变得更准这里最关键的不是“会不会答”,而是“流程本身是否合理”。Doctor
Doctor
任务中的例子同样是诊断,
不同错误需要不同修复一致性不足多次回答不稳定需要循环
/
投票图像理解错误看错
lesion
特征需要补工具/
补视觉节点诊断推理错误知道特征却推错病需要补会诊/
补分支所以真正需要进化的,不是单个
prompt,而是整套
workflow
结构。Doctor
Doctor
问题挑战挑战
1:
静态workflow
太脆问题
错了也不会改流程
不同病因用同一套路在高风险场景里,“固定”本身就是一种瓶颈。固定流程固定
prompt
固定输出Doctor
Doctor
问题挑战挑战
2:
只调
prompt,不够有些错误需要加节点,有些需要加分支,有些需要把整套协作范式换掉。
节点级
加一个tool
/
改一个专家节点
结构级
加
branch
/
loop
/
parallel
框架级
从
CoT
换成
Round
Table论文
Figure
2Doctor
Doctor
Motivation像
NAS
一样,
搜索更好的Agentworkflow初始流程诊断错误
提出修改验证保留关键变化:workflow
从“人工设计”变成“反馈驱动搜索”。Doctor
Doctor
方法总览错误诊断→修改建议
→
验证
→
继续进化论文
Figure
1:系统不是一次性设计好,而是在反馈中不断长出新的结构。
Doctor
Doctor
方法拆解真正特别的地方:
搜索空间是分层的
Node-level
Add
/
Remove
/
Modify
node
Structure-level
Branch
/
Loop
/
Parallel
Framework-level
CoT
/
Reflexion
/
Round
Table不是单点调参
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度企业团建活动策划与执行方案
- 大型网络会议系统故障恢复预案
- 公路交通设施设计与安装手册
- 物流仓储管理系统温控标准操作手册
- 建筑行业施工安全作业标准流程手册
- 新产品质量检测报告提交及反馈函5篇
- 净化心灵空间,筑牢和谐校园几年级主题班会课件
- 电子交易安全技术与保障方案
- 小学主题班会课件:交通规则与安全意识
- 业绩完成情况告知函3篇
- 天津中考:历史高频考点总结
- 2026年地铁站务员面试常见问题
- 2026苏教版(新教材)小学科学二年级下册《探秘玩具》单元综合测试卷及答案(2套)
- 2026年中央安全生产考核巡查明查暗访清单
- DB11∕T 2503-2025 地理标志产品质量要求 京白梨
- 2026及未来5年中国清洁供热行业全景调研及竞争格局预测报告
- GB/T 44067.4-2025工业互联网平台技术要求及测试方法第4部分:边缘计算平台
- 分子诊断设备技师精准操作能力标准
- 2025年华南理工综评面试题库及答案
- 中国脑小血管病诊治指南2025
- 和君咨询管理公司
评论
0/150
提交评论