2025QECon全球软件质量效能大会:AI Agent新引擎-千万流量下架构团队稳定性工程智能化探索_第1页
2025QECon全球软件质量效能大会:AI Agent新引擎-千万流量下架构团队稳定性工程智能化探索_第2页
2025QECon全球软件质量效能大会:AI Agent新引擎-千万流量下架构团队稳定性工程智能化探索_第3页
2025QECon全球软件质量效能大会:AI Agent新引擎-千万流量下架构团队稳定性工程智能化探索_第4页
2025QECon全球软件质量效能大会:AI Agent新引擎-千万流量下架构团队稳定性工程智能化探索_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

刘劲松|字节跳动专注服务架构,

质量效能,

云原生,

GenAI领域开源流量回放项目Conan负责人Github:h

tps:/github.com/tal-tech/conan

Star:730刘劲松字节跳动目录CONTENTS02

[破局]稳定性工程从自动到智能03

[量化]Agent解构稳定性洞察04

[长期]AI原生未来已来01

[困境]架构业务挑战PART

01困境-架构业务挑战

架构业务挑战-业务形态ByteDance基础性与全域支撑技术密集性与高复杂度业务协同与动态适配-

覆盖多技术角色,

需求差异-

全球架构适配-

业务侧架构与稳定性的协同演进

架构业务挑战-

接入层QPS:

3KW

|

服务数:

1W+-

高峰期时长持续10+小时-

业务主路

,核心链路强依赖-

接入层

,流量切面,

消息中间件-通用场景与垂类场景平衡复杂度-技术趋势下的架构持续优化架构产品SLA运营

架构业务挑战-稳定性波动归因感知定位

能力不足业务使用

风险

高容灾

能力难应用容量

资源劣化变更

标准化程度弱架构事故引入原因分布PART

02破局-稳定性工程从自动到智能架构稳定性工程体系现状

架构稳定性可视化核心链路依赖组件容量合理性发布变更风险风险感知能力高风险巡检工单高质量数据集积累GenAI落地范式逐步优化存在问题:

稳定性事项注重了广度,深度不足(考虑ROI),

大部分工作已自动化

,但依赖经验判断

,提效空间大,

与架构演进速度不成正比-

【高风险-变更】接入层&服务组件配置灰度漏召率4.2%-

【稳定性洞察与治理】稳定性多维度深度分析与治理推进,

消耗人力较多体系价值:

覆盖接入层

,服务中间件,

单元化解决方案等核心产品

,稳定性结果达成预期-

高危事故数

10+例->

0例-

SLA

99.87%->99.95%+

稳定性工程现实与理想【变成风险】

&【稳定性洞察】智能化演进前置条件From

:AIAgents:Evolution,Architecture,and

Real-WorldApplicationshttps://arxiv.org/abs/2503.12687如何消弭差距

自动化->智能化变更后具备能力

不足-

快速回滚

-

总结归因依赖人工-

数据回收-

变更可读性差-

影响范围评估难

核心应用场景-中间件配置变更变更前具备能力不足-

版本配置DIFF不足-

精准检测能力弱-

业务风险关联弱具备能力-

指标检测能力-

发布灰度流程变更中

核心应用场景-中间件配置变更自动精准检测影响范围量化变更摘要风险处理建议精准检测精准识别变更影响范围,

注入关联检测指标

,避免问题稀释无人值守(理想态)通过精准检测结果

,Agent做根因分析后决策并执行对应处理流程变更摘要变更内容语义化解决变更内容可读性差的问题

核心应用场景-变更Agent带来的强化变更Agent架构方案选择ChainGraphReActPlanner

Executer

Reflection

变更Agent

ReAct具体实现根据流水线元信息与Prompt作为输入,在原子中做触发

,通过LLM将任务拆

解为具体的可操作的步骤

。为了保证

执行顺序的合理性,

会通过PE工程做

优化

。校验计划执行状态与output是否符合预期,

结果准确性等

,例如指标注入失败后会再次通过Executer尝试注

入,

以保证Agent的执行结果在预期可控制的范围内

。待执行行为经过顺序校验后进入执行态

,通过调用Tools或模型得到预期的返回(Tools中可能存在内部调用)

,返回信息继续透传

。对比项EinoLangChain性能基于

Go语言的协程并发优势

,能处理大量并发请求,性能较高Python解释执行,性能相对

较弱流处理原生支持大模型的流式输出,并能自动处理流在不同节点间的传递

、合并和复制等操作需额外配置和开发工作来实现

类似功能状态管理通过相关机制可实现状态保持和上下文连续性通过

Memory组件实现简单

的状态保持

,主要支持线性的

上下文传递可视化工具提供

IDE插件,可视化查看编排,并进行调试运行,还可通过

UI拖

拽的方式快速构建相对较少,可视化支持不够完

善社区生态相对较新,社区规模和生态系统不够成熟,组件库丰富程度可能不足,可参考资源较少社区规模较大

,生态系统成熟,组件库丰富,可参考资源多 Agent应用框架与可观测性选型Adv.

:

LangChain提供的解决方案,亲和性更强Disadv.

:

未开源,

云部署,

国内使用成本高Adv.

:

开源

,可以集成多个应用开发框架Disadv.

:

在评测方面的文档丰富度不足LangSmith

LangFuseEino开源地址

:https://github.com/cloudwego/eino/blob/main/README.mdAgent控制面,

提供观测回溯能力

变更Agent落地架构Function

Calling+MCP获

取监控指标

、链路拓扑等

静态变更+

动态上下文的

可信组合输入F1分数

Top-K命中率

Noise

Ratio

实效性

变更Agent

Context

Engineering面临挑战:

变更配置过大

、领域知识重

、依赖链复杂

,模型幻觉严重-

噪声太多

→模型不聚焦-

长上下文丢失关键信息Prompt模版设计

RAG增强

结构化处理与约束动态上下文目标:

通过

Context

Engineering,

让模型输入

“既精准又完整

,保证变更摘要

、影响评估

、异常检测的准确性工程化DIFF信息结构化,便于模型理解Chunking

+

Ranking保证聚焦核心信息从知识库或历史变更案例中检索相关上下文(API文档

、依赖图

、历史事故案例),减少幻觉Tools&MCP调用顺序限制+

Few-shot,避免过度自由发挥维度指标评测集构建方式计算公式Agent业务指标Agent

轨迹规划准确率Agent回流选取典型变更场景(如数据库参数调整、缓存配置

修改),对比Agent规划轨迹

与专家预设最优轨迹规划轨迹与最优轨迹一致的

场景数/

总测试场景数变更摘要准确率Agent回流变更,对比Agent

生成摘要与人工标注的核心信息(如参数、数值、变更类型)摘要包含核心信息的变更记

录数/

总变更记录数风险建议准确率Agent回流+模拟高风险变更场

景(如修改中间件连接数阈值)建议匹配真实风险的场景数/

总风险场景数精准检测准召率Agent回流70-100个含异常的

变更案例,统计检测出的异常数与真实异常数

、误判数准确率

=正确检测异常数/

检测出的总异常数召回率

=正确检测异常数/

真实异常总数Agent

轨迹时延工程化采集端到端与节点到节点间耗时FunctionCalling成功率工程化采集Funcationcalling调用成功次数/总调用次数genMCP调用成功

率工程化采集MCP调用成功次数/总调用

次数AgentToken量工程化采集--

Agent

Benchmark指标集数据集构成Agent轨迹数据变更元信息A

t通用指标

基于回流能力的数据集构建BenchmarkResultByVersionBenchmarkResultByBaseModel注:

以上结果为评测实验与消融实验表现,业务固定场景,不代表模型通用能力,

仅参考

变更Agent

评测能力构建训练参数取值范围中间件配置变更Agent

场景r(秩

,Rank)1~64(小模型

:1~16;中大

型模型

:8~64)影响

:r过小(如

r=1),可能无法捕捉“

中间件配置变更风险判断

的复杂逻辑;r过大(如

r=64),若训练数据少(<1000条),易记住噪声数据(如错误的变更建议)

。场景示例:精调

7B规模的Agent模型(用于生成中间件变更步骤),建议

r=8~16

,平衡特征捕捉能力与过拟合风险。lora_alpha(缩放因子)等于

r

2*r(如

r=8

时,

alpha=8/16)影响:alpha

<r(如

r=8

,alpha=4)

,LoRA影响过弱,精调后Agent

生成的变更摘要

仍偏离目标格式;alpha>

2*r(如

r=8

,alpha=20),易导致模型“矫枉过正

”,仅输

出训练数据中的固定句式

。场景示例:若

r=12,建议

alpha=12

24,确保Agent

能学习到“变更摘要包含参数名

、前后值

的规则,且不丢失泛化能力。lora_dropout(dropout

概率)0.05~0.2(默认0.05,数据量少时可提升至0.1~0.2)影响:dropout=0(无丢弃),若训练数据存在重复(如多条

MySQL参数变更记录)

,模型易“死记硬背

”,遇到API网关变更场景时输出错误;dropout>0.2(如

0.3),参数丢弃过多,模型无法稳定学习核心规则(如“变更前需备份配置

”)。场景示例:精调

数据为

500条中间件变更案例(含接入层

、消息中间件),建议

dropout=0.1

,平衡过

拟合与特征学习。target_modules

目标模块)依模型结构而定(如

LLaMA系列:q_proj,v_proj

;GPT系列:c_attn)影响:未选中关键模块(如精调“风险建议生成

”任务,未选q_proj(查询投影层)

),模型无法学习风险特征与输出的关联;选中过多模块(如全量transformer层),参数更新冗余,训练时间延长且易干扰模型基础能力(如语言理解)

。场景示例:精调Agent的“Function

Calling

能力(调用中间件查询接口),建议target_modules设为q_proj(理解调用需求)+v_proj(关联接口参数),聚焦任务核心模块。bias(偏置项更新策略)优先“none

或“lora_only

”(默认“none

”)影响:选择“all

”(更新所有偏置),若训练数据分布不均(如多数为消息中间件变更),易导致模型对其他中间件(如API网关)的基础理解退化;选择“none

”,可避免干扰模型原有偏置项,仅通过

LoRA层适配任务

。场景示例:基于预训练

LLM精调Agent,建

bias=“none

”,防止原有能力(如识别中间件配置语法)受损。learning_rate(学

习率)1e-4

~

5e-4(小模型

:3e-4~5e-4;中大型模型

:1e-4~3e-4)影响

:lr=1e-3(过大),训练

loss波动剧烈,Agent

生成的变更步骤逻辑混乱(如“验证

”在“备份

前)

;lr=5e-5(过小),训练

10轮后

loss仍无明显下降,模型未学到“风险建议需关联异常参数

的规则

。场景示例:精调

13B规模的Agent模型,建议

lr=2e-4,配合梯度累积(gradient

accumulation)

,平衡收敛速度与稳定性。 Agent基模SFTFrom:https://huggingface.co/docs/peft/developer_guides/lora基模训练后Agent评测结果考·【任务聚焦选模块】

生成类任务(如变更摘要

、风险建议)优先选q_proj/v_proj(捕捉语义关联)

,工

具调用类任务(如

Function

Calling)可补充

k_proj(匹配接口参数) Agent基模SFT·【小数据用小参数】:精调数据量少(<500条,如仅API网关变更场景),建议

r=4~8

、alpha=r

、dropout=0.1~0.2,减少过拟合风险·【中大型模型控强度】

7B及以上模型,学习率不超过

3e-4,alpha

不超过

2*r,避免参数更新过度干扰预训练能力注:

以上结果为评测实验与消融实验表现,业务固定场景,不代表模型通用能力,

仅参训练过程train/eval

Loss收敛

变更Agent数据飞轮数据集/评测结果分析数据飞轮回流数据集数据清洗注:

真实业务场景下表现,

非评测实验结变更摘要准确率97.23%风险建议准确率87.42%精准检测漏召率1.31%

最终落地效果配置变更

摘要与风险精准检测问题召回PART

03量化-Agent解构稳定性洞察

架构稳定性可视化

高风险巡检工单

发布变更风险风险感知能力容量合理性核心链路依赖组件工程+数据沉淀相对丰富,稳定性量化的基础能力已经具备,洞察及治理能力智能化程度不足架构稳定性洞察体系在

指标采集

、监控告警

、链路分析

、风险规则等方面已具备相对完善工程能力

稳定性洞察的质变风险排序风险触达

一键治理/SOP自助查询分析周期性稳定性报告业务订阅 Data

Agent为稳定性洞察带来的质变智能化多维度报告智能推荐方案ChatBot智能洞察分析智能风险排序一键治理/SOP风险触达被动响应->主动预判静态规则->动态演进单点分析->全局洞察人工经验->智能决策业务订阅

架构稳定性洞察Agent

ChatBot全局洞察

下钻分析

问题治理【目标】

稳定性数字人人更专注在目标制定

,Agent负责部分落地执行

,通过数据

飞轮+强化学习进行自迭代

。变量:

Reward

Functionfor

RLHF

持续可演进的洞察及治理能力【目标】

质&量具佳的数据集解决实际领域内数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论