Agentic Skill 在 ECS 运维中的实践

上传人：策*** IP属地：山西上传时间：2026-06-04 格式：DOCX 页数：24 大小：3.03MB 积分：19.9 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

胡兵阿里云技术专家ECS运维智能体负责人覆盖50+诊断场景,诊断准确率>95%,效率提升6~20倍,上线至今零安全事故.lECs运维复杂性与长尾困局ll.Agentskill如何突破规则局限lll.实践运行结果具体实现lv.从知识库到skill自动生成闭环ECS运维复杂性:为什么问题极度复杂Guest/Host/c*pu三层协同.200+种根因问题的本质:组合爆炸+长尾无兜底!故障跨层传导:客户报Io超时,根因可能在GuestbIK驱动、HostQEMUvirtio、或CIPUbIKpmd中任一层!组合爆炸:2OO+种故障根因×数十组件×上千运行指标→规则引擎无法穷举!长尾占比40%+:无规则兜底的工单平均耗时76min.涉及3人协作.经验零沉淀!核心矛盾:规则只能cover已知场景→新故障出现→人肉写规则→周期长→又来新故障规则引擎和纯LLM都搞不定规则太死:只覆盖ToP60.纯LLM太活:4次翻车→需要两者结合真实教训:4次翻车复盘!规则引擎困境:2OO+条if_eIse仅覆盖已知Top6O场景.新故障=无兜底.维护成本随长尾线性增长!纯LLM翻车1:Agent自行组装reboot命令→审批系统拦截,否则生产机器重启!纯LLM翻车2:2OO+工具描述占prompt6O%→单次12Oktokens→幻觉率>15%!纯LLM翻车3:本应6步完成的诊断→LLM自由探索跑了23步→Token浪费4x!结论:需要「确定性框架+灵活推理」的组合→这就是AgentskiIIAgentskill如何突破规则局限skill如何让初级工程师具备专家诊断能力专家经验编码为可执行框架:框架确定走什么路,LLM灵活决策每步怎么走规则vs纯LLMvsskill三方对比!专家瓶颈:全团队仅3人能诊断NC宕机.离职/请假=能力断层!规则vsSkillvs纯LLM!规则引擎:路径固定+执行固定→无法处理长尾变体!纯LLM:路径自由+执行自由→不可控、幻觉、浪费Token!Skill:路径固定(框架约束)+执行灵活(LLM决策每步细节)→可控+可适配新场景!关键突破:步骤固定但每步怎么做由LLM判断→新人+!实测数据:初级工程师诊断准确率45%→92%一个lo抖动工单的完整Agent路径真实工单:5分钟完成全栈诊断!O用户输入:「实例i_xxxIo延迟突然飙高」!②自动匹配:向量检索命中Io抖动skiII(置信度O.92)→加载对应诊断框架!目框架约束:skiII规定「先查Guest→再查Host→最后查CIPU」→LLM按序执行!④灵活执行:Guest层LLM自主判断用bIktrace还是iostat→发现QEMU可疑→进入Host!目渐进暴露:初始8个工具→Token降7O%.幻觉率降!Θ输出结论:根因=CIPUbIkpmd队列堆积+证据链+建议:升级bIkpmd版本为什么需要sub_Agent:三个真实场景倒逼三个真实问题倒逼出sub_Agent!场景1日志太大:vmcore+dmesg>1MB塞进主context→LLM幻觉率飙升→sub_Agent分段分析→只回传(status,key-findings,evidence)!场景2性能数据多:几十K指标JsON需要聚类分析→主Agent处理不了→codeAgent写python→在sandbox容器中执行!场景3多skill协同:Nc宕机需同时跑硬件检测+内核分析+变更追溯→每个启一个sub_Agent→主Agent交叉验证汇总!隔离机制:上下文隔离+安全隔离+失败隔离→sub_Agent超时或报错不影响主流程AgentsandboxMCP:安全执行架构Agent→sandbox→MCP工具链!交互流程:Agent→CodeAgent(sub_Agent)→EClsandbox容器→MCP工具(查日志/读指标)→结果回传 !Sandbox隔离:独立nameSpace+网络白名单+资源配额(1核/3OS/512MB).用完即销!MCP工具调用:sandbox内通过MCP协议调用运维工具→工具白名单由skill定义→不能超越授权范围!权限三态!Allow:查询日志、读指标→自动执行!Deny:reboot、修改安全组→直接拒绝+审计!AsK:重启服务进程→弹窗确认!已拦截:2OOO+次越权尝试.上线6个月零事故实践运行结果不吹效果,讲坑在哪.怎么解决的.你回去能怎么用NC宕机诊断:skill如何驾驭跨层故障skiıı五阶段框架+三个实践坑!Skill框架:五阶段串行诊断(硬件→内核→虚拟化→变更→交叉验证)→每阶段LLM灵活选工具!实践坑1:vmcore>1MB→塞进主contextLLM幻觉率飙升!我们的做法:skill触发sub_Agent分段分析→只回传结论和证据!实践坑2:历史case文本相似度匹配误报率4O%!我们的做法:向量化+结构化特征(callstack/错误码)→准确率92%!实践坑3:多根因叠加(看似硬件实为变更+内核Bug)!我们的做法:skill强制五阶段全跑→不提前下结论→交叉验证!效率对比:传统3Omin+→Agent<5min(6x).准确率VM启动失败:LLM动态编排原子工具与NC宕机的区别:NC宕机是跨层分析,VM启动是动态路径选择与NC宕机的关键差您:路径选择vs日志分析!场景差您:NC宕机=日志分析+历史匹配(数据密集型).VM启动=路径选择(决策密集型)!为什么不能写脚本:5层×多原因→if_eIse树指数爆炸.每月新增2~3种失败原因!Skill的做法:封装5个原子工具(不是大脚本)+LLM根据每步返回值动态决定下一步!举例:querystartLog返回「镜像校验失败」→LLM跳过checkspecLimit→直接走identifyImage!核心know_how:skiII定义工具白名单+约束条件.LLM在框架内灵活编排执行顺序!效率:传统35min+→Agent<5min(7x)批量风险:为什么固定代码搞不定固定脚本vsAgent动态生成代码!为什么不能写固定脚本:每次批量故障的聚类维度不同→上次按时序聚类有效.这次需按机型+可用区聚类!Agent的价值:skill定义「收集指标→分析聚类→输出报告」.LLM决定用哪些维度聚类!CodeAgent角色:LLM分析场景特征→生成针对性python→在sandbox中执行→结果回传给主Agent!安全保障:sandbox只读权限.3Os超时自动kill.代码+数据+结果全部保存为证据链!效率:传统数小时人工分析→Agent<15min(2Ox)可信推理:我们踩过的两个真实幻觉坑两个真实幻觉案例+工程解法!真实案例1:LLM看到memoryerror→断定硬件故障→实际根因是内核Bug→因为LLM没看完整dmesg!根因:LLM基于「合理推测」而非证据→需要TooIGrounding!解法ToolGrounding:每个结论必须引用工具返回的原始数据+时间戳+命令原文→无证据不允许下结论!真实案例2:对话超8O轮后LLM忘记前面工具返回→前后矛盾→给出两个互斥的根因!根因:context过长导致信息丢失!解法Filesystemcontext:工具输出写文件.对话只保留路径.12Ok→6ktokens.借鉴cIaudecode的做法!效果:误诊率18%→<5%.每个结论可追溯三场景复盘:我们验证有效的方法三类场景×三种方法!数据密集型(NC宕机)→sub_Agent隔离处理大日志.主Agent保持轻量.避免context污染!决策密集型(VM启动)→原子工具+LLM动态编排.skill约束范围.LLM选择路径!计算密集型(批量)→codeAgent生成代码.sandbox隔离执行.结果回传!通用做法→ToolGrounding强制证据链.Filesystemcontext压缩12Ok→6k!核心数据:诊断准确率>95%.误诊率<5%.零安全事故从知识库到skill自动生成闭环skill从工单中来:我们的具体做法工单→LLM提取→人工Review→灰度验证!输入:一组已解决工单(如2OO+篇NC宕机处理记录).每条含问题描述、排查步骤、根因、使用工具!OLLM提取:GPT分析工单文本→提取诊断路径(发现问题→收集证据→分析根因→交叉验证→结论)!"人工Review:专家审核路径合理性+补充边界条件+定义工具白名单(限制Agent可调用的MCP工具)!目灰度验证:新skill先跑历史工单回放.命中率/准确率达标后灰度上线!$指标驱动优化:三指标持续迭代(命中率.采纳率.失败率)→不达标自动降级!实测:2OO+工单→8个s周→蒸馏2天skill评测:cloud_sre_eval数据集!为什么需要评测:ski66写出来不代表能用.需要自动化回归验证.避免上线后翻车!数据集构建:从已解决工单提取(问题描述,正确路径,根因,使用工具,耗时)!评测方怯:Agent用相同输入重新诊断→对比输出vs人工标注的正确答案!LLM_as_Judge:GPT对比Agent输出vs标注→自动打分(路径相似度+根因准确率+工具使用合理性)!SkillEvolve:评测不达标→LLM分析失败原因→自动建议ski66修改方案→人工Revie”后迭代!数据:5OO+评测用例.命中率65

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Agentic Skill 在 ECS 运维中的实践

文档简介

温馨提示

最新文档

评论

Agentic Skill 在 ECS 运维中的实践

文档简介

温馨提示

最新文档

评论

相关文档