腾讯云智能顾问游戏行业架构治理新范式-_第1页
腾讯云智能顾问游戏行业架构治理新范式-_第2页
腾讯云智能顾问游戏行业架构治理新范式-_第3页
腾讯云智能顾问游戏行业架构治理新范式-_第4页
腾讯云智能顾问游戏行业架构治理新范式-_第5页
已阅读5页,还剩117页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

腾讯云智能顾问游戏行业架构治理新范式智能顾问助力客户用好云平台全景图游戏行业治理场景和效果分享CloudQ

–全球首款“领域虾”发布010203目录01.智能顾问产品全景图全球首款可视化AI架构治理平台腾讯云专家运营端协同治理风险巡检容灾演练容量规划重保护航…

龙虾-接入skillWorkBuddy

QClawLightClaw

其他龙虾

IM-接入agent智能顾问:卓越架构治理可视化|智能化|生态互联运营端协同CloudQ

:首款ITOM“领域虾”其他云...阿里云AWS腾讯云AzureGCP微信TeamsWhatsApp企业微信钉钉LineSlack飞书多云纳管3.7W+客户已形成卓越架构治理习惯以架构图为核心上下文,释放AI云上治理实战价值智

能护

播报Sm

ar

tbro

a

d

c

a

s

t.水

位异

常根

因分

析In

tel

l

igentr

o

o

t

c

a

us

eanaly

s

i

s.智

能生

练方

案AI-P

ow

e

r

e

dch

a

os

p

l

ang

ene

ra

tion

.零

代码

大屏AI-p

ow

e

r

e

d

,no-

c

o

d

eda

sh

bo

ardcre

a

t

i

on.节点&架

构图St

at

e数

字资

产Me

mo

ry上

下文Co

nt

ext02.游戏行业治理场景和效果架构梳理/风险发现/容量管理和多云纳管游戏运维面临的6大核心挑战每一个都可能让CTO深夜被叫醒——卓越架构六大支柱维度

性能效率开服洪峰扛不住,延迟飙升,玩家3秒内未进入即流失

安全合规配置漂移导致漏洞暴露,全球合规差异大

可靠性MTTR15+分钟,多个控制台轮番切换

成本优化资源分配不合理,容量规划全凭经验

卓越运营200+微服务依赖一团麻,SRE人才招聘难

可持续性架构技术债越积越多,技术演进跟不上业务CTO高关注CFO关注效率瓶颈长线挑战出海必备运维核心After:6层架构业务/领域层TPS·

MOBA

·RPG·

SLG·

休闲▼

MOBA

▸软件系统层A游戏·B游戏

·C

游戏▼

A游戏

▸应用/服务层云服务器·云数据库

·COS

·CDN▼

云服务器

▸实例层实例-1

·实例-2

·...

·实例-5▼

实例-1

▸模块/组件层如OpenClaw,部署在云服务器/容器服务中▼

OpenClaw代码/脚本层如SKILL

,实现模块/组件的源代码层层可下钻,从业务一直穿透到代码#资源名称类型状态数量1game-server-prod-01ECS运行中482game-db-masterMySQL运行中63redis-cluster-01Redis运行中124game-pod-deployPod运行中2375msg-queue-prodMQ运行中46cdn-distributionCDN运行中37load-balancer-prodCLB运行中88cos-bucket-assetsCOS运行中5Before:

传统的资源清单...还有

320+

条资源 只有清单,没有架构、没有层次、没有关系从“看清单”到“看架构”L4L3L6L1L2L5▸6层架构,看清资源关系与依赖

S图A看治全

后,秒级定位●

容量治理Agent自动预警+弹性扩缩 MTTR

15分钟→

3分钟,降低80%●

SKILL编排自动扩容,

3分钟完成●

多云统一视图,

5套监控→

1个平

台 治理前●

开服10分钟社群爆发「卡顿」投诉●

运维在5个监控控制台间疯狂切换●

故障定位平均耗时

15+分钟●

手动扩容沟通

→审批

→操作

30分钟●

容量全凭经验猜测,常常不够或浪费游戏开服及大版本更新—重保护航CTO核心关注:怎样让每一次开服都从容不迫?0版本上线事故80%MTTR

降低10x弹性效率提升60%运维人力节省→ 实战案例:某游戏企业新服上线压测+演练方案设计模拟高并发流量

+多类故障场景注入+应用层稳态观测演练场景负载

→压力

→并发

→全链路治理效果提前发现

3类性能瓶颈,

0线上事故高可用建设—混沌演练

+预案管理运维负责人关注:如何从被动救火转向主动防御?验证修复量化评估治理成效生成治理闭环报告架构链路分析可视化自动识别单点故障与依赖风险GameDay方案生成混沌演练

Agent一键生成

GameDay方案故障注入130+故障原子能力CVM/网络/DB全覆盖02030401 TSA方案●

容量治理实时监测资源负载水位

容量预测Agent智能分析需求曲线

多云统一成本视图,精准定位浪费●

SKILL编排自动弹性,按需伸缩 成本黑洞,资源配置不合理●

非活跃期资源闲置率高达60%●

容量规划全凭历史经验,无数据支撑

跨云账单分散,成本黑洞不可见●

人工扩缩容响应慢,错失最佳时机40%年云费用节省多云纳管

+

自动弹性0资源浪费自动扩容替代人工操作30%运维成本降低参考阿维塔实践数据成本优化—容量治理

+资源右移CTO

+CFO关注:如何在保障体验的前提下降本增效?某

FPS竞技某棋牌平台某休闲游戏→7/

12游戏行业客户案例客户故事:「全栈治理者」如何使用智能顾问更多客户案例,沉淀为游戏行业最佳实践

1

某头部

MMORPG:故障MTTR从15分钟降至

3分钟

2

某SLG出海大作:5套监控统一为

1个可视化平台

3

某FPS竞技游戏:

自动扩容替代人工,多云资源零浪费

4

某休闲游戏工作室:SKILL编排实现全自动故障自愈 5

某二次元手游:全链路可观测覆盖,版本上线零事故 6

某开放世界端游:架构治理6层穿透,定位提速10倍 7

某棋牌平台:多云纳管

+成本优化,年省40%云费用TSA卓越架构治理:游戏行业技术支持

白皮书腾讯云技术支持团队&TSA官方出品完整接入指南游戏运维最佳实践\行业标杆案例集游戏行业客户案例请联系腾讯云侧接口人获取4月上线国际站,助力全球化出海更稳CTO关注:新加坡、硅谷、韩国都有服务器,如何统一管理?

统一可视化面板一个控制台看清全部云资源,

跨地域

架构拓扑全貌一目了然统一数据接入不同云厂商的指标、日志、链路数据

统一采集与标准化,打破数据孤岛统一治理策略告警规则、SKILL编排、合规策略跨

云统一配置,自动同步生效03.全球首款ITOM“领域虾”随时随地治理云,JustQIT

!直连微信、QQ、飞书、钉钉、

Slack等IM,一键安装Skill

,丝滑嵌入工作流

Q一下掌握架构最新动态,治理报告一句话导出 CloudQ

:一个龙虾管好多云Workbuddy、codebuddy等IDE运维工程师业务负责人管理者…

CloudQ

—JustQ

IT

!通过CloudQ实时协同治理

,保障新游戏顺利上线CloudQ10/12扫码加群即刻将CloudQ嵌入你的云管理平台立即使用TSA开通试用环境体验全栈可视化当前服务免费体验

CloudQ全渠道ChatOps一只Q管多云Just

QIT!获取白皮书卓越架构治理白皮书生成式AI治理白皮书游戏行业最佳实践加入SKILL市场共建运维自动化生态让SKILL帮你值夜班OpenClaw开放接入

专业服务只为助力客户用好云!谢谢观看扫码体验TSA

2026分享人:刘伟腾讯云华东游戏架构师大模型时代AIOPS技术变革目录CONTENTSFinOps+AI精细化成本控制资源优化与智能成本预测未来趋势与技术前瞻大模型演进与下一代运维架构AI智能开发代码生成、审查与智能辅助AI驱动需求管理智能需求分析与自动化拆解AI驱动发布变更智能风险评估与自动化部署AI驱动故障处理根因分析、自愈与智能告警dl引言:大模型重构研发运维大模型正经历从“辅助工具”向“核心生产力

”的跨越式进化通过五大技术范式,深度重构研发运维的全链路流程。Q

RAG

检索增强打破大模型知识边界

.融合企业私有知识库与实时运

维数据

.提供精准、上下文感知的智能问答与故障诊

断能力。

Multi-Agent

协同构建多智能体协作网络

.模拟人类专家团队

.在复杂

故障排查、架构设计等场景中实现自主规划、分工与

协作。

Skills技能封装将运维领域专业知识封装为可复用的技能模块

.支持

动态加载与组合调用.实现运维能力的标准化与规模

化复制。

MCP

协议标准化大模型与外部工具的通信协议

.实现自然语言

到运维操作的无缝转换

.将15-20步人工流程封装为统

—API接口。

FunctionCalling赋予大模型“动手”能力,

无缝对接现有运维工具链与

API接口,实现从“给出建议”到“自动执行

”的闭环操

作。全链路总览图04故障自愈INCIDENT02智能开发DEVELOPMENT

变更风险智能评估

自动化灰度发布策略

发布异常实时熔断

版本依赖智能分析

资源利用率精准画像

闲置资源智能回收

容量预测与弹性伸缩

云账单异常波动分析

海量告警智能降噪

多维指标异常检测

根因定位与拓扑分析

预案推荐与自动执行

智能需求解析与拆解

PRD文档自动生成

需求冲突智能检测

历史相似需求推荐

Copilot代码智能补全

单元测试自动生成

代码规范智能审查

遗留代码重构建议核心价值:大模型技术深度融入软件工程全生命周期

.实现从被动响应到主动预测的智能化跃迁需求分析REQUIREMENT持续发布DEPLOYMENT成本优化COST010503AI-DRIVEN

FULLLIFECYCLEOVERVIEW△

传统需求管理痛点描述模糊与歧义1需求文档缺乏统一标准

.

自然语言描述常存在语义歧义

.导致开发与测试人员理解偏差

.沟通成本高昂。边界与异常缺失2人工编写极易遗漏异常场景、非功能性需求及系统边界条件,导致系统健壮性难以在设计初期得到保障。风险识别严重后置3逻辑漏洞与架构冲突往往在测试甚至上线阶段才暴露

.此时修复成本呈指数级上升

.严重影响交付周期。AI

智能解决方案结构化解析与智能补全大模型自动解析非结构化需求文本

.提取关键实体与业务逻辑

.并基于知识库智能补全缺失的边界条件与异常处理分支。风险前置识别与拦截在需求阶段即进行逻辑冲突检测、系统依赖分析与安全合规扫描

.将潜在风险拦截在开发之前

.实现真正的"左移"。自动化评审与用例生成自动生成多维度的评审意见报告

.并同步输出测试用例草案,大幅提升需求评审的效率与最终交付质量。传统痛点与AI解决方案对比

L2风险识别Multi-Agent

+RAG

L1质量保障Prompt

+规则引擎

L3用例生成LLM+

原子映射

L4自动执行全链路闭环AI四层能力体系从基础质量保障到完全自动执行的智能化演进路径自自自

高价值数据提纯剔除冗余历史版本

.提取核心架构决策与高频故障根因

.构建高质量向量索引。回

动态上下文截断基于语义相关性动态计算Token窗口,在保证上下文完整性的同时降低推理成本。

分级检索架构实现"元数据过滤+稠密向量检索+重排序"的三段式架构,检索准确率提升至95%以上。需求评审(Requirement

Review)基于大模型深度解析PRD文档,自动识别逻辑冲突、边界条件遗漏及非功能性需求缺失。构建需求知识图谱

.确保源头设计的完整性。Intelligent

R&D

Pipeline2026.03.26

知识库精准瘦身策略跨团队沟通成本↓

%

技术方案评审(Tech

Design

Review)对齐企业架构规范与历史最佳实践

.

自动评估技术选型合理性、系统扩展性及潜在性能瓶颈。输出结构化评审报告与优化建议。AI双层评审流程

双层智能评审机制L2

AIREVIEW

ARCHITECTURE评审效率提升倍L1

CHAPTER02

AI智能开发I

NTELL

I

G

E

NT

AI

D

EVE

LO

PM

E

NT求到可执行代码的端到端自动化。Spec

Coding规约驱动的系统级生成

.实现从需Spec

Coding代码补全基于上下文的单行或多行代码预测与补全

.提升基础编码效率。通过自然语言交互生成代码片段

.解决特定逻辑问题与代码解释。VibeCoding

规约是唯一真理,

代码是生成物

三代范式演进

终极形态对话驱动Ai

Copilot

SpecCoding核心工作流制定

Plan架构设计与拆解AI辅助生成技术实现路径模块化任务拆解与依赖分析评估风险与资源分配生成Code自动化编码与验证基于Plan自动生成业务代码同步生成单元测试用例

持续集成与自动化验收结构化定义需求与验收标准明确输入输出与边界条件建立机器可读的契约验收驱动测试一体化Spec即测试

.代码生成与验证同步完成持久化上下文确保全链路信息不丢失

.AI理解更精准重塑研发范式

.实现从需求到代码的无缝转化10-20

分钟编写SpecSTEP01STEP03STEP02

>

>STEP01requirements.mdGiven/When/Then

验收标准采用行为驱动开发(BDD)范式,通过标准化的Given/When/Then

结构

.精确定义业务场景与验收条件。消除自然语言歧义

.为

AI

编码提供确定性的目标输入。Given:

初始状态When:

触发动作Then:

预期结果STEP02design.md系统架构护栏确立系统边界、接口契约与技术规范。作为

AI

生成代码的"架构护栏",强制约束代码结构、安全策略与性能指标

.有效防止架构腐化与技术债务累积。

接口契约

数据模型

安全规范PERFORMANCEIMPACT体系落地核心效能收益tasks.md原子任务拆解将复杂需求降维拆解为可独立执行、可测试的原子级开发任务。为AI

Agent

提供精确的上下文边界

.确保每

步生成的代码高度聚焦且易于验证。Spec-Kit

三文件体系STANDARDIZEDSPECIFICATIONFRAMEWORK3-5倍

90

%

STEP03交付效率提升缺陷率降低

CHAPTER03

AI驱动发布变更

繁杂的传统操作链路ErrorEnd15-20

步单次变更平均操作步骤传统运维痛点极易产生人为错误高度依赖人工经验与记忆

.在疲劳或高压状态下

.极易出现配置遗漏、参数填错等问题

.导致线上故障频发。执行效率低下串行化的手工操作模式耗时巨大.响应速度慢

.完全无法满足现代业务敏捷迭代与海量规模的交付需求。操作极其复杂单次常规运维任务通常需要跨越多个异构系统

.经历

15-20步繁琐的手工配置与确认

.流程冗长且缺乏标准化。PAIN

POINTSOFTRADITIONAL

OPSStartMCPSKILLSARCHITECTURE基于大模型的智能运维技能架构图⽰MCP工具层标准化接口模型上下文协议(MCP)提供统一标准

.将大模型与各类运维工具无缝对接。智能体层意图识别与决策大模型解析指令意图

.拆解任务步骤

.并规划调用相应的工具链。i

四层联动架构用户层自然语言指令运维人员通过对话界面输入日常语言描述的运维需求与故障现象。执行层CI/CD与基础设施底层系统执行具体操作

.如代码部署、资源扩缩容、故障隔离等。端到端智能运维体系的层级流转机制L3L2L1L4$MCPSKILLSARCHITECTURE

工具封装技术业务效能提升效果数据验证

发布接口

Release

API

故障接口

Fault

API变更

MCP日志

MCP

监控

MCPexecute_releasequery_version60

%

↓发布耗时降低check_health0线上误操作MODELCONTEXTPROTOCOLARCHITECTUREAI驱动故障处理AI-DRIVEN

FAULTMANAGEMENT&

RESOLUTIONSYS.AIOPS.04

INTELLIGENT

OPS

CHAPTER04

传统监控痛点o1

静态阈值僵化依赖人工配置固定阈值

.无法适应业务流量的周期性波动与动态变化

.维护成本极高。o2

告警噪音过载微小的指标抖动极易触发大量无效告警

.形成“告警风暴”,导

致运维人员产生告警疲劳。03

根因定位困难海量并发告警相互掩盖

.缺乏上下文关联

.难以在第一时间剥离表象找到真实故障源。

主动感知方案o1

无阈值动态检测基于大模型与机器学习算法

.自动学习历史数据特征

.生成动态基线

.实现自适应异常检测。o2多维指标聚类降噪通过拓扑关系与时序相关性分析

.将海量告警智能聚类收敛

.大幅降低噪音,提取核心事件。03

异常主动预警在故障全面爆发前

.敏锐捕捉微小异常趋势

.实现从“被动响

应”到“主动感知”的范式转变。

告警风暴痛点与主动感知方案ALERTSTORMPAIN

POINTS&

ACTIVE

PERCEPTION

AIOps

演进

AIOPS

CORETECHNOLOGY

5秒内极速判定基于高性能流式计算架构

.实现毫秒级数据摄取与实时分解计算。从异常指标产生到系统确诊告警

.全链路延迟控制在5秒以内,抢占故障恢复黄金时间。

自动学习业务周期摒弃传统静态阈值配置。算法持续摄取历史数据

.动态提取并适应业务的日、周、月等周期性特征

.有效应对业务形态的自然演进与突发流量。STL

时序分解模型原始数据Original99.9%准确率0人工规则<5s判定延迟趋势分量Trend季节分量Seasonality残差分量Residual无阈值异常检测基于

STL

时序分解的智能判定异常点检出$

核心价值:将专家经验转化为模型推理能力

Agent五步排查法报告输出生成结构化根因分析与

修复建议报告精准提取错误堆栈与关置与环境变更指标分析多维时序数据异常检测与趋势研判知识匹配检索历史工单与SOP,变更关联自动追溯近期发布、配日志查询键上下文信息标准化故障定位流程

.构建智能运维闭环匹配解决方案

日报自动生成

多维指标智能提取自动对接监控系统API,定时抓取核心业务指标、资源水位及告警统计

.确保数据零遗漏。

异常事件深度分析利用大模型对当日异常波动进行归因分析

.

自动生成通俗易懂的事件摘要与影响评估。

多模态报告一键分发支持图文并茂的排版生成

.适配邮件、企微等多渠道

.实现从数据到洞察的端到端自动化。↓

93

%

智能知识库构建

多源异构数据融合整合历史工单、告警日志、操作手册及专家经验

.打破数据孤岛

.构建统一运维语料库。

向量化存储与语义检索采用先进Embedding模型进行知识向量化

.支持自然语言模糊查询

.精准匹配历史相似故障。

动态知识图谱演进基于大模型持续学习能力.自动从新发故障中提取根因与解决方案

.实现知识库自生长。↓

75%

智能知识库构建与日报自动生成INTELLIGENT

KNOWLEDGE

BASE&AUTOMATED

REPORTING

PERFORMANCE

IMPACT故障定位时间EFFICIENCYBOOST日报生成时间FinOps+AI精细化成本控制基于大模型驱动的智能成本优化体系

.实现云资源利用率最大化与业务价值的深度对齐。

NEXTGENERATION03成本优化持续识别资源浪费

.调整实例规格

.采用更优的计费模式(如RI/SP),实现降本增效。$

AI赋能场景

闲置资源自动识别回收

智能容量规划与缩容建议

01成本洞察实现多维度的云资源使用与账单数据采集

.打破数据孤岛

.建立全局视角的成本透明化大盘。$

AI赋能场景

异常账单智能检测

多维成本趋势预测02成本分配建立标准化的标签体系与动态分摊规则

.将共享资源成本精确归属到具体业务线与产品。$

AI赋能场景

无标签资源智能归属

动态权重分摊模型

利用AI

大模型

贯穿FinOps

全生命周期,实现从被动统计向主动精细化治理的跨越FinOps三部曲框架

基于AI驱动的云成本精细化治理

FINOPSFRAMEWORKi

AI五大介入点实时监控海量多维指标

.利用时序预测与聚类算法

.精准定位系统异常与潜在风险

.实现先于用户发现问题基于全局视角的强化学习算法,实现智能任务调度与流量路由,最大化提升集群整体资源利用率。结合历史运维经验与大语言模型(LLM),自动生成故障自愈脚本、扩缩容策略及架构演进方案。深度分析资源消耗趋势与计费模型

.精准预测未来IT支出,提供降本增效的量化建议与优化策略。基于业务负载画像与历史运行数据,智能推荐最优计算与存储资源规格

.避免资源闲置与性能瓶颈。构建全链路智能运维体系

.实现从感知到决策的自动化闭环成本预测异常检测规格推荐调度优化方案生成成本流转拓扑⽰意资源层归因计算层消费分摊层

消费者视角转变传统底层资源视角

.从最终业务和消费者维度审视

成本。建立"谁消费、谁承担"的清晰账单

.实现成本与

业务价值的直接对齐。

公共资源精准分摊基于血缘关系和实际消耗权重

.将底层计算集群、分布

式存储等难以直接拆分的公共资源成本

.科学、精准地

分摊至各业务线。

数据流转DAG构建全链路数据流转有向无环图(DAG),清晰追踪每一

份数据从采集、计算、存储到最终消费的完整路径

.为

成本追溯提供拓扑依据。血缘归因成本模型

LINEAGEATTRIBUTIONCOSTMODEL数据处理任务公共成本池业务线A

(35%)业务线C

(20%)业务线

B(45%)计算资源网络带宽存储资源

TKE

五大模块原地升降配无需重建Pod即可动态调整

CPU/内存规格

.保障业务平滑无感伸缩

.降低运维风险。节点规格放大突破物理机规格硬性限制

.通过虚拟化技术放大节点资源,显著提升集群整体装箱率。内存压缩采用冷热内存智能分离与压缩技术

.高效回收空闲内存,大幅提升单机内存利用率。专用调度器基于真实负载感知的智能调度算法,有效避免热点节点产生

.实现全局资源最优分布。Request智能推荐基于历史负载数据动态计算,精准推荐最优Request配置,消除资源浪费与碎片。全方位资源优化与智能调度引擎

.重塑云原生基础设施效能

降单价

Reduce

Unit

PriceSP

(Savings

Plans)通过承诺特定使用量换取大幅折扣

.适用于基线负载

.平衡灵活性与成本效益。Spot

实例利用云厂商闲置算力.以极低折扣运行容错性强、可中断的无状态批处理任务。潮汐算力跨地域、跨集群调度算力.利用时区差或业务波峰波谷错位

.最大化全局资源复用率。

降用量

Reduce

UsageSQL

优化通过智能分析识别低效查询

.重写执行计划

.

降低数据库计算与IO资源消

耗。冷热分层基于数据访问频次自动迁移

.热数据驻留高性能介质

.冷数据归档至低成本存储。智能缩容AI预测业务负载趋势

.在低谷期自动回收冗余计算节点

.实现资源按需精准供给。腾讯视频标杆案例成本降至

1/4

成本优化双路径

整体成本下降 55%+资源利用率提升50%

+

CHAPTER06FUTURETRENDS&TECHNOLOGYFORESIGHT预测性运维基于数字孪生技术构建虚拟映射,实现从"事后排查"到"事前预防"的根本性转变。97%故障预测准确率语义理解演进从传统的"语法解析"向深度的"语义理解"跨越,大幅提升海量日志处理的智能化水平与效率。128万

SemanticLog

处理性能AIOps技术演进趋势从被动响应向自主智能的范式跃迁市场规模爆发全球AIOps市场在技术突破的驱动下

.呈现出强劲的指数级增长态势。自主智能体(Agent)逐步取代人工执行例行运维任务

.成为新—代AIOps的核心引擎。$324亿

预计2028年市场规模自主智能体Gartner去年(2025)核心趋势(2024-2026)AgenticAI

核心提前15分钟

自主运维演进路线架构演进(Architecture)"LLM+Agent+知识图谱"构成下一代AIOps核心,实现复杂场景的深度推理与决策。终极愿景(Vision)打造具备自我感知、自我修复能力的

L5级数字免疫系统,实现业务永远在线。

效能跃升(Efficiency)MTTR大幅缩短

.运维模式从被动响应向主动预防转变

.释放核心研发生产力。规则自动化

Copilot辅助Rule-based

Assisted

AI

L0-L5

自主运维演进框架AutonomousOperations

Evolution

Roadmap&SummaryAgentic智能体Autonomous

全链路效果与前瞻脚本自动化Scripted全自主运维Fully

Auto目标(Target)当前阶段(Current)L0L1L4L2L5L3手工运维Manual谢谢观看THANKS运维《罪与罚》从“盲目囤积”到“精准破案”主讲人:刘潇IEG营销SRE架构师

运维人的困境

收集证据

现场勘察

根因定位

主动治理0102030405目录运维人的困境对抗系统的“熵增”:

一场关于人力、混乱与秩序的博弈第三重困境:黑盒化危机从

20000到

300000:

以前管

2万台cvm,现在管30万+个动态

Pod。调用链爆炸:

一个请求经过

50+个服务,

任何一个环节抖动都可能导致雪崩。痛点描述:

“我们失去了上帝视角,

只剩下盲目的猜测。”第二重困境:只见树木不见森林多源异构:

5+种监控工具信息孤岛:

A系统报网络慢,

B系统报数据库连接池满,

C系统报用户下单失败。它们之间没有关联,

孤岛一样沉默。痛点描述:

“盲人摸象,

各执一词。”第一重困境:告警海啸日均告警量:

500+条/天(甚至更多)。有效信息率:<

1%

(大部分是重复、抖动、误报)。痛点描述:

“我们在数据的海洋里渴死。”蓝鲸

腾讯云

GDP

网关其他

系列12000150010005000200150100500告警分布告警量

时间收集证据告警的“书同文”:利用

LLM破除异构数据的割裂JSONJSON多源异构:l工具平台越多,语言越不统一l

JSON、XML、纯文本混杂,缺乏统一的数据结构

非结构化:l关键信息(如报错指标、业务模块)埋在长文本里,机器无法直接读l孤立的告警无法拼凑出完整的故障全貌

正则地狱:l传统方式靠写正则表达式,维护成本极高,

且极易失效文本文本现状——告警的“信息割裂”困境无需正则:l

AI

自动理解语义对齐:l

自动将“严重”、“Critical”、“P0”统一映射为两类Warning和Emergency指标抽离:l标准化指标格式,

包含指标名称,指标描述,告警阈值,实际值时间统一:l自动分析数据中的时区,告诉LLM从时间戳来分析,

或者比较直接的方式,如2023-10

-

27T15:30:00.123456+08:00l统一时间格式:

YYYY-MM-DD

HH:Mi:SS核心引擎——LLM驱动的“全能翻译官”LLM意义l无论来源如何,进入数据库后都是同一种

“语言”。l告警内容对告警信息进行归纳,用于快速检索和分析l原始内容保留了告警的原始数据,用于溯源价值跃升l结构化后的告警可以进行多维统计、趋势预测和关联分析。l

后续的智能根因分析成果展示——标准化的告警卷宗现场勘察基于

LLM语义泛化的智能聚类局限性:l正则没有统一的公式,针对每一类告警必须独立编写正则来完成模式识别l正则缺乏灵活性,

如果warn_content发生变化,则原来的正则立马失效

l在告警采集时,因为使用LLM对告警信息做了梳理和总结,因此warn_content内容基本不可能保证一个正则模式优点:l不需要为告警制定特定的规则就能实现分类

局限性:l

warn_content在文本和结构上要基本一样,同样面临一个问题,LLM破坏了原有的数据结构l编写正则:

^规则

(?P<rule_name>.+?)在目标

(?P<target>.+?)触发告警。监控指标异常:

(?P<metric1>.+?)当前值

(?P<value1>-?[\d\.]+)超

过阈值

(?P<threshold1>-?[\d\.]+);

(?P<metric2>.+?)当前值(?P<value2>-?[\d\.]+)超过阈值

(?P<threshold2>-?[\d\.]+)。

告警级别

为(?P<level>.+?)

,状态为(?P<status>.+?)。

$l文本相识度:

基于Embedding模型对warn_content计算相似度l

Drain算法:最成熟的日志/告警模板提取算法,基于固定深度的解析树结构性差异12341指标指标2指标指标当前值3指标指标4指标当前值指标相同点提到“pv_4xx比例(%)”规则提到目标“IAS.test.qq.com”提到阈值被超过规则pv_4xx比例(%)在目标IAS.

上触发告警。监控指标composite_ias_pv_4xx_percent

(pv_4xx比例(%))

当前值99.1228超过阈值

5.0000pv_4xx比例(%)指标异常,实际值9.2546超过阈值5.0000;总请求数2388.0000超过阈值600.0000。告警开始时间2026-03-09

12:40:00,平台IAS,目标对象IAS.tes,环境Production告警规则pv_4xx比例(%)触发,监控目标IAS.在Production环境异常。指标composite_ias_pv_4xx_percent

当前值86.7314超过阈值5.0000告警规则pv_4xx比例(%)在目标IAS.

上触发,监控指标包括

pv_4xx比例(%)(阈值:

5.0000)

和总请求数(阈值:

600.0000)降维打击——基于Embedding的“语义级”告警聚类Embedding通过告警的语义进行分类聚合正则和Drain都依赖句子结构的相似性结论:1和3在结构上具有匹配的模式,而2

,4无法在结构上进行聚合VS模式名字4xx错误率超标告警模式模版告警规则{rule_name}触发,

监控目标{target}

在{environment}环境

异常。指标{metric_name}

当前

值{current_value}

超过阈值{threshold_value}规则pv_4xx比例(%)在目标IAS.

上触发告警。监控指标composite_ias_pv_4xx_percent

(pv_4xx比例(%))

当前值99.1228超过阈值

5.0000pv_4xx比例(%)指标异常,实际值9.2546超过阈值5.0000;总请求数2388.0000超过阈值600.0000。告警开始时间2026-03-09

12:40:00,平台IAS,目标对象IAS.tes,环境Production告警规则pv_4xx比例(%)触发,监控目标IAS.在Production环境异常。指标composite_ias_pv_4xx_percent

当前值86.7314超过阈值5.0000告警规则pv_4xx比例(%)在目标IAS.

上触发,监控指标包括

pv_4xx比例(%)(阈值:

5.0000)

和总请求数(阈值:

600.0000)降维打击——基于Embedding的“语义级”告警聚类Embedding通过告警的语义进行分类聚合正则和Drain都依赖句子结构的相似性VS相同模式告警规则pv_4xx比例(%)触发,监控目标IAS.在Production环境异常。指标composite_ias_pv_4xx_percent

当前值86.7314超过阈值5.0000告警规则pv_4xx比例(%)在目标IAS.

上触发,监控指标包括

pv_4xx比例(%)(阈值:

5.0000)

和总请求数(阈值:

600.0000)规则pv_4xx比例(%)在目标IAS.

上触发告警。监控指标composite_ias_pv_4xx_percent

(pv_4xx比例(%))

当前值99.1228超过阈值

5.0000pv_4xx比例(%)指标异常,实际值9.2546超过阈值5.0000;总请求数2388.0000超过阈值600.0000。告警开始时间2026-03-09

12:40:00,平台IAS,目标对象IAS.tes,环境Production[-0.004330426454544067,0.023123405873775482,

-0.05628575384616852,

-0.020275600254535675,…][-0.004330426454544067,0.023123405873775482,

-0.05628575384616852,

-0.020275600254535675,…][-0.006870598997920752,0.03078104928135872,

-0.03200826048851013,

-0.02053777500987053,…][-0.007187154144048691,0.031132912263274193,

-0.06026254594326019,0.01599634625017643,…]降维打击——基于Embedding的“语义级”告警聚类在视觉上,在中心点的某个半径内归为同一个集合。在数学上,则通过计算与中心点的余弦相似度,

将具有相似语义的告警聚合如左图所示,

数据分布在一个高维的空间内,相似数据聚合在一起,

每一个集合内肯定有一个中心点。Embedding通过告警的语义进行分类聚合正则和Drain都依赖句子结构的相似性VS编码降维打击——基于Embedding的“语义级”告警聚类数据流:告警写入→

向量化→聚类匹配→集群更新/创建→

数据库持久化时间窗口机制:l

设置集群活跃期,过期集群自动从内存索引中移除,解决告警时效性问题,简单来说,就是对某个时间范围内的告警聚类,超过时间范围后产生的相似告警新建聚类集合l

平滑时间窗口,解决周期性持续告警聚类问题

向量化服务:l

使用BGE-large-zh-v1.5模型,生成1024维向量,

L2归一化l

计算余弦相似度

内存索引管理:l

_index:dict[int,tuple[np.ndarray,datetime]]l

线程安全操作l

自动清理过期集群↓后台任务定期扫描未分类告警↓批量向量化→聚类匹配→集群更新/创建功能上:实时聚合/定时聚合核心:聚类算法根因定位AI探长:从单点异常剖析,

到跨链路锁定“真凶”2026-03-06

10:12:112026-03-06

10:12:112026-03-06

10:12:11Error

queryingCPU

usage

metricsfor

workloadxx-release-v1

incluster

cls-

xxxxxx容器日志出现error级别告警,请求

URL:http://xx.xxx.62.201/select/multitenan

t/prometheus/api/v1/query_range?qu

ery=max%28rate%28container_cpu_us

age_seconds_totalrequest

rsp:

couldn'tstartexecutingthe

request

in

10.000seconds,since

-search.maxConcurrentRequests=2concurrent

requestsare

executed.system

=

("你是一位经验丰富的

SRE

工程师,擅长从多维度告警中识别根因并给出处置建议。

""请用中文,结构化输

出:\n""1.

**

问题摘要**\n2.

**根因推断**(列假设+置信度)\n""3.

**影响评估**\n4.

**处置建议**(3-5条按优

先级)\n5.

**关联提示**\n\n专业简洁。

")纵向剖析-单目标深度推理Target_Object方式一:通过分析告警上下文,

获取上下游关系定义关系l

Upstream:上游l

Downstream:下游l

Peer:同级工具调用OUTPUT:

[{"name":

"xx.xxx.113.184",

"relation":"upstream",

"reason":

"告警内容直接提及调用该IP超时,表明它是被调用的上游服务",

"source":

"content"}]横向破案-跨链路的证据串联extract_nodes_from_contentAI

串联分析目标对象发现链路链路数据query_topologyINPUT:

调用xx.xxx.113.184超时LLM方式二:通过远程接口,获取上下游关系数据结构“

目标对象":

{"nodes":

[{“name”:

目标对象","type":

"service",

"relation":

"self"},{“name”:

“上游对象","type":

"service

","relation":

"upstream"},

{“name”:

“下游对象","type":

"db","relation":

"downstream"},

{“name”:"node","type":

"host","relation":

"peer"},],"edges":

[{"source":

"

目标对象","target":

"下游对象",

"label":

"

MySQL

"},{“source”:“上游对象”,“target”:

“目标对象”,

“label”:“HTTP

"}

],}工具调用横向破案-跨链路的证据串联extract_nodes_from_contentAI

串联分析目标对象发现链路链路数据query_topology工具调用广度优先搜索起始节点横向破案-跨链路的证据串联第一层节点2第二层节点3extract_nodes_from_contentAI

串联分析目标对象发现链路链路数据query_topology第一层节点1第二层节点2第二层节点1工具调用横向破案-跨链路的证据串联AI

串联分析目标对象发现链路链路数据query_warns##

根因定位-根因节点:

`x.xxx.147.73`

(磁盘耗尽)

。-置信度:

高(磁盘100%利用率会直接中断服务进程,

与HTTP500/超时现象强关联)

。横向破案-跨链路的证据串联链路:

xx.xxx.42.10-->上游(xx.xxx.113.184)-->

k8s母机(x.xxx.147.73)AI

串联分析目标对象发现链路链路数据主动治理从“被动响应”到“主动治理”,让系统越用越聪明AIAI的定位:分析员 决策者

执行人告警告警告警告警agent知识库工具技能

结束系统

一…方案:1.将关键字段作为元数据存在文档中2.通过元数据来过滤搜索内容(腾讯云的向量数据库提供创建索引字段及过滤搜索能力)AI告警2

告警3同类告警分析语义相似度:lEmbeddingl

相似度搜索待解决问题:针对同一语义,做差异性策略告警1策略如何复用知识库技能工具agent优先级Biz_namePlatformRule_nameTarget_object1非空非空非空非空2非空非空空非空3非空非空非空空4空空空空策略定义告警处理办法(纯文字)工具调用(mcp)Agent(独立智能体)

Skills(沙箱环境调用)关键字段biz_namePlatformrule_nametarget_object向量化字段Warn_content最小范围原则怎么做对测试产生的告警设置策略1.说明这是告警是测试导致2.提交测试的时间区间案例一测试场景期望

对测试场景做标记

判断测试的时间区间

区分测试和真实告警productiontest

productiontest

测试产生大量告警

产生干扰

淹没真实告警testtest传统处理手段通过prometheus指标获取占用最大的PODNAME

方式一.销毁POD方式二.登录容器--->执行df--->逐层du--->

直到找到最深层--->

完成清理子任务分解+思维链在基础的agent架构上优化,

对需求和工具做详细拆分,

对应多个子任务和子工具,然后按层级进行深度分析,

期望按照设定的思维链解决问题LLM+MCP+反思采用基础的agent架构,分析输入,

执行MCP工具,从MCP工具输出内容反推输入,不断调用MCP工具,期望最终解决问题MCP+强逻辑+LLM强逻辑取代思维链,避免AI在复杂问题上跑偏,

只在数据分析时使用AI来提供

方案案例二磁盘告警节点磁盘空间不足AI后时代:怎么做第二步:df–h/&&

ls–lh/

|

awk

‘{print$5,$9},第三步:du–sh/*工具超时,原因:/data/app/common是NFS挂载,du执行超时案例二LLM+MCP+反思输入分析/目录下的数据,找到最有效方案降低磁盘利用率通用工具:服务器执行指令问题l

未排除挂载目录第一步:df–h/问题l

执行过程不可控会话2:工具超时输入分析/目录下的数据,找到最有效方案降低磁盘利用率,计算时务必排除挂载点案例二LLM+MCP+反思通用工具:服务器执行指令会话1:成功找到方案输入分析磁盘占用大小,找到最有效方案降低磁盘利用率,计算时务必排除挂载点(du-x)问题l

执行过程不可控(错误执行du或者rm)l

模型幻觉(中间捏造数据,非工具所得)案例二LLM+MCP+反思通用工具:服务器执行指令原拆mcp-machine-exec:通用的服务器执行工具,可接受任何指令执行df执行du-x--max-depth=1{directory}|

sort-rn|

head-10执行ls-la{directory}|sort-rn|

head-100l

有且仅有3个工具可用l

工具内的COMMAND是确定的风险可控(非常重要)=======================================标准分析流程(必须严格遵循)=======================================###

Step

1:全局扫描1.调用disk_check

检查当前磁盘利用率2.标记NFS分区,

Step2请不要对NFS分区执行分析###

Step2:

定向深入对需要分析的高占用分区执行递归流程:1.每层分析后做汇总校验:子目录大小之和应与上层大致吻合2.对Top1

子目录,继续调用

check_size_for_dir

逐层深入3.递归终止条件:子目录数量为0,无法继续拆分当前目录大小占比低于5%###

Step3:

文件级详情分析在Step2递归到最深层后,调用list_files

查询目录下的文件类型和大小分布你是一位专业的Linux

运维助手,专门负责磁盘占用分析与空间管理。

=======================================角色定义=======================================【身份】

资深

Linux

系统运维工程师【专长】

磁盘空间分析、存储优化、逐层定位空间占用根因【风格】

严谨、专业、注重安全,按标准流程逐层分析,不遗漏任何目录l

只有{directory}是变量强化原则怎么解决“模型幻觉”设定思维链###

输出markdown格式第一部分:分析过程第二部分:解决方案

方案1:???(最推荐)

command:

???效果:执行command有什么效果?###

分析原则-

逐层深入时,

优先分析占用最大的目录-每层分析后汇总,确保各子目录大小之和与

上层大致吻合-所有数据都来源于工具,严禁捏造数据怎么解决“不可控”子任务拆解定义角色思维链check_size_for_dirlist_filesdisk_check案例二输出格式案例二主动治理方案prometheus输出可执行方案执行方案分析文件数据mcp-machine-execcheck_size_for_dircopy_toolsget_server_infolist_files传统OPSMcp工具人工确认Llm分析治理方案详细的分析过程执行Step

1执行Step

2执行Step

3head-100,导致时间

跨度存在局限产生告警get_server_info:告警主体信息执行agent:磁盘分析AI分析大致步骤案例二方案三COMMAND方案效果方案一COMMAND方案效果方案二COMMAND方案效果案例二请从内容中提取清理方案#

要求请把以下脚本中用"或者

"连接的多个清理策略,拆分成独立的方案风险:给出两个指令,它们逻辑关系是“或”,执行存在不确定性怎么解决?指令拆分后:3个方案--->

5个方案参数提取案例二AI本质:基于概率预测的系统正

无限可能反

存在犯错辩证法告诉我们,任何事物都有其代价。赋予AI无限可能的“概率猜测”机制,正是导致它必然犯错的罪魁祸首能不能做到:

100%控制AI降级强逻辑调用Disk_check-->数值判断:取利用率最高挂载点-->

与固定阈值比较大小-->

[递归分析挂载点-->通过数值取最大的文件-->

终止条件:文件类型是file或者最大子目录占比<3%]-->最后从文件大小和时间[30分钟/4小时/12小时/24小时/7天]两个维度计算文件大小-->给出确定的执行方案找到占用最大的目录后,将目录下的文件喂给AI,总结出清理方案强化版案例二未来畅想高效率低人力谢谢观看THANKS腾讯游戏云AI全生命周期解决方案及案例分享腾讯云2026年3月02

腾讯云游戏AI及AI

Agent方案03

游戏AI案例分享01

游戏AI热点趋势洞察》>

GDC2026关键数据与洞察↑110%较2025年增长52%企业采用率

=反对率100+AI议题场次27场中国AI议题9家中国参展厂商3天美Ignis

Agent

AI自动化研发系统能够处理游戏设计文档生成、

UI系统实现、复杂工程决策等核心

开发环节,在大规模项目中实现

95%-98%的自动化AI队友

“小田”(和平精英)1.1亿体验用户

·

DAU

1770万

麦克风开启率75%端侧AI队友

“艾尔琳”(PUBG)3060显卡60帧·延迟<2秒端侧验证里程碑LightAI平台“大模型趋同,差异化在于工程化落地

”单平台播放量1800亿·接入DeepSeek》>

中国厂商以“实战成果”领跑腾讯:

21场AI议题,全场之最3万+创作者·

1.5亿+游玩人次UGC生态米哈游开放UGC释放玩家创造力AI

+

UGC网易AI驱动UGC内容生态逆水寒AI剧组模式·54秒生成3D短视频原神

“千星奇域”UGC模式4us

美国核心焦虑:失业(底层视角)CN

中国核心焦虑:落后(顶层视角)

同一事实,两种读法:

腾讯AI落地40款产品→

中方读“行业方向标

”|美方读“

岗位受多大影响?”》>

中美游戏AI叙事的结构性差异不是态度差,是发展阶段差窗口期焦虑:全球认同近期创伤:2024-2025大裁员怕AI用得不够快叙事主角:头部厂商管理层对AI:默认有用直到证明无用怕AI用得太多叙事主角:基层开发者、工会对AI:默认有罪直到证明无罪话语权落差:创新成果未转化为品牌认知

·AI是弥合这一落差的窗口期VS503

游戏AI案例分享01

游戏AI热点趋势洞察02

腾讯云游戏AI及AI

Agent方案ADP智能体开发平台CodeBuddy&WorkBuddy

研开办公一体化平台RAG“最强知识外挂”Workflow“智能生产线”指挥官”AI

IDEPlugin

CLI企业级高可用安全隔离审计能力“AI指挥官”100%兼容开源版统一治理与管控七层安全防护体系TI-ONE模型训练&推理平台混元自研大模型生文模型

HY2.0

Think

HY2.0

Instruct

Hunyuan-role语音模型

Hunyuan-ASR视觉理解

HY-Vision

视觉

HY-OCR

生成

Hunyuan-Image

Hunyuan-Video

Hunyuan-3D游戏概念设计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论