腾讯-构建可观测、可治理、可优化的Agent生产底座_第1页
腾讯-构建可观测、可治理、可优化的Agent生产底座_第2页
腾讯-构建可观测、可治理、可优化的Agent生产底座_第3页
腾讯-构建可观测、可治理、可优化的Agent生产底座_第4页
腾讯-构建可观测、可治理、可优化的Agent生产底座_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

传统可观测看系统有没有跑稳;Agent可观测要看这套AI系统是否真的跑好。Agent可观测:系统质量任务完成度Agent可观测:系统质量任务完成度(TaskSuccess)关注Agent是否准确理解意图并达成最终目标Token消耗与浪费关注大模型交互成本,识别无效Prompt与冗余上下文工具调用合理性关注工具选择的准确性、参数传递及执行结果反馈>服务在线率关注进程是否存活,节点是否宕机EVOLUTION接口响应速度EVOLUTION关注API调用的延迟(Latency)与吞吐量基础资源消耗关注CPU、内存、磁盘I/O等硬件指标Session用户会话上下文Trace全链路追踪Tool/Skill工具与技能★ScoreSession用户会话上下文Trace全链路追踪Tool/Skill工具与技能★Score评分与反馈Token成本与消耗Dataset数据集与实验Dataset数据集与实验Agent生产化后的五类黑盒问题运行黑盒Agent是否在线?是否卡死?整体是否健康?缺乏实时运行状态的监控与告警机制。运行黑盒Agent是否在线?是否卡死?整体是否健康?缺乏实时运行状态的监控与告警机制。成本黑盒Token谁花了?贵在哪里?如何降本?缺乏细粒度的成本分摊与ROI评估手段。是模型、工具、RAG还是外部系统出问题?复杂调用链条导致故障定位困难,排障成本极高。AI平台运维/SREAgent服务商AI平台运维/SREAgent服务商运维企业自用方业务运营FinOps模型公司Agent研发安全黑盒Agent有没有调高危工具?是否越权?安全黑盒Agent有没有调高危工具?是否越权?数据隐私与操作合规性难以审计与保障。Prompt/模型/工具改了,质量是否变好?缺乏系统性的评估指标与持续迭代的反馈闭环。安全合规大型集团金融/政企AI安全合规大型集团金融/政企AI产品质检运营模型团队统一建模统一建模多维分析全局总览、拓扑健康度、链路追踪、会话分析、Token、模型性能、工具/Skill、RAGCLI/Skills接口、AI辅全场景接入全场景接入全局总览大盘会话/Token/全局总览大盘会话/Token/模型/Agent拓扑与健康度实体关系/红绿灯/异常会话分析USER→SESSION→TRACE全链路追踪调用树/链路图/时序线模型性能分析RED/TTFT/TPOT工具/Skill模型性能分析RED/TTFT/TPOT工具/Skill分析调用分布/Skill热度智能告警AI根因分析检索/排序/嵌入Token分析缓存命中率/消耗分布链路转数据集高价值链路批量转数据集链路转数据集高价值链路批量转数据集Agent可观测不是单点Trace工具,而是从接入、建模、分析到AgenticOp某Top教育企业某Top教育企业AI平台某头部零售企业某金融机构链某培训机构知识助手再运营哪些再运营哪些Agent/Skill真正被用再治理成本、安全、质量持续优化再治理成本、安全、质量持续优化客户案例客户反馈"答案不对""引用内容不准确""同一个问题昨天和今天回答不一致"核心痛点是模型理解错,还是知识召回错?是上下文影响了回答,还是工具返回了错误结果?为什么接口全是200,解决方案调用链瀑布图·会话回放·组件明细·异常自动打标·瓶颈归因·单次对话AI诊断方案价值还原过程·定位根因·降低排障成本·形成坏例客户案例核心痛点哪些Skill调用最多、成功率最高、反馈最好?哪些Skill上线了但没人用?用户点踩是否集中在某些Skill解决方案Skill调用TopN、成功率/失败率/平均耗时、用户点赞点踩、高频Skill/无人使用Skill/潜在可推广Skill方案价值统一运营·Skill运营·反馈闭环·业务影响客户案例多租户、多模型、多Agent成本上涨,不同租户、Agent、模型成本差异大核心痛点哪个租户、Agent、模型最烧钱?成本上涨是因为模型贵还是上下文太长?是否有Agent在重复调用、循环解决方案Token基础看板·成本折算·多维下钻·高成本模式识别·成本AI归因·优化前后对比·成本预测方案价值成本透明·可解释分账·可执行优化·效果验证客户案例Agent需要访问内部数据、调用查询工具,安全合规团队担心权限扩大后无法核心痛点Agent调了哪些工具?有没有越权?有没有敏感信息泄露?一次自动化动作为什么发生?谁授权?出事以后解决方案行为链·证据链·责任链·高危工具告警·越权访问识别·敏感信息检测·Prompt注入识别·审计检索与导出方案价值客户案例模型团队关心模型在真实Agent任务中的能力短板,哪些任务失败核心痛点低分样本是模型能力问题还是工具/RAG/上下文问题?模型版本改了以后效果是升是降?坏例能不能沉淀成解决方案坏例一键沉淀·数据集管理·AI自动打分·人工标注·Score挂回·用户反馈·跑批实验·A/B发布方案价值错误可归因·样本可沉淀·版本可验证·优化可闭环Q5W台中找问题用户报障时逐台登录翻日志,排障动辄30分钟以上噪声淹没真正故障Agent噪声淹没真正故障Agent探索性工具错误多,真正故障被ERROR噪声淹没规模化采集成本5W台监控数据量大,需保证采集完整并控制成本按IP按IP筛Trace→context_build4200ms→主机disk_util=98%结论:磁盘IO拖慢上下文加载429尖峰→实例集中在→Trace中rate_limit_checkERROR结论:模型ProviderTPM限流统一采集统一采集Session+Trace+指标+主机数据统一进CLS批量安装批量安装批量脚本实现5W台无人值守部署,支撑万台规模智能分层智能分层正常/异常非致命/真正故障三级判定,过滤噪声对话到一半突然断SessionID检索Trace→statusCode=UNSET→force_closed=True结论:发布重启导致会话强制关闭故障定位更快从IP/故障定位更快从IP/SessionID直达Trace根因判定更准一眼区分机器、模型、网络、限流告警更准确过滤探索性错误,只看真正失败运营更有依据Toke

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论