2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:智运维见未来:中国联通“天眼”平台的智能探索之路_第1页
2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:智运维见未来:中国联通“天眼”平台的智能探索之路_第2页
2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:智运维见未来:中国联通“天眼”平台的智能探索之路_第3页
2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:智运维见未来:中国联通“天眼”平台的智能探索之路_第4页
2025 GOPS 全球运维大会暨研运数智化技术峰会·上海站:智运维见未来:中国联通“天眼”平台的智能探索之路_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

暨研运数智化技术峰会中国

·上海2025年10月17日-18日

ps-XO025GOPS承办单位:

华佑科技指导单位:

0

P第27届上

站Shanghai

2015-2025主办单位开放运维联盟OOPSA

Open

OPSAliancE高效运维社区GralOPSCcmmuntyBizDevops智运维,见未来:中国联通“天眼”平台的智能探索之路

姓名:崔巍睿

时间:2025/10/18ANNIVERSARY2015-2025GOPS

2025Shanghai现在·

突破:大模型引领的运维能力升维

02目录未来·

愿景:向多智能体协同运维演进◎3过去·

筑基:智能运维体系的规模化落地

◎1GOPS

全球运维大会暨研运数智化技术峰会2025

·

上海站GOPS2025ShanghaiANNIVERSARY2015-2025ANNIVERSARY2015-2025GOPS

2025

Shanghai过去

筑基:智能运维体系01

的规模化落地GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站Shanghai

2015-2025GOPS2025

ShanghaiANNIVERSARY

2015-2025企业级稳定性保障体系建设·企业级运维平台落地实践,实现工具产品化至制度化、体系化转变,逐步探索智能化运维体系化建设制度规范保障组织架构保障平台工具保障运营机制保障2022

20232024天眼平台的发展历程工具化建设

产品化建设

体系化建设

智能化跃升产品化建设基础能力线监控管理能力线稳定性测试产品线配置管理产品线自动化作业产品线故障管理产品线…

…平台化运维Al引领的数智化保障能力智能化能力跃升海量数据智能侦测故障分析决策与自愈隐患前瞻识别智能运维助手AI应用全栈可观测…

…产品化运维平台建设·DevOps

理念推动开发与运维深度融合·基于基础能力建设包含监控管理、稳定性测试、配置管理、自动化运维、故障管理等产品体系的企业级运维平台完成生态运维工具探索·通过自主研发建设运维工具,促进从传统

运维到自动化运维转变,打破传统运维依

赖人工的痛点天眼平台发展历程GOPS全球运维大会暨研运数智化技术峰会2025·

上海站运维工具建设监控工具、测试工具、运营

响应工具等智能化运维□20252019

20202021ANNIVERSARY2015-2025自

维□GOPS

2025

Shanghai自主研发■构建数智化监控平台,为十二项核心运营工作提供端到端、全层级、全流程工具支撑保障。中国联通数字化监控平台7GOPS

全球运维大会暨研运数智化技术峰会2025

·

上海站端到端

全层级

全流程十二项核心工作从零到一,构建智能运维的“数字基座”核心业务链路监控前端触点监控全流程调用链监控智能监控告警

平台一键故障诊断

网络监控日志中心

自动化测试统一运营可视化运营统一监控覆盖运营统一奖惩运营Opex

生产作业调度上线交接维上线交接维线上化版本发布调度接收测试管理稳定性测试全链路压测自动化巡检传统压测业务连续性故障调度指挥室事件管理故障管理重保管理自动化运维告警自愈应急预案自动化自动化作业建维协同架构隐患扫描健康检查容量隐患线上化评估全链路压测混沌演练上线交维上线交维线

上化稳定性测试

版本调度

混沌演练应急管理自动化作业故障自愈应急一键处置混沌演练变更管理变更管控变更追踪任务调度平台混沌演练混沌工程用户体验感知运营隐患管理系统性能健康

检查统一隐患线上

化管理故障管理故障管理事件管理故障调度指挥室浏览器监控APP监控全流程调用链监控智能监控告警平台架构设计部署扫描

配置扫描代码扫描

健康检查隐患管理系统健康检

查架构隐患扫

描配置管理传统CMDB云化CMDB容量管理容量隐患线上化全链路压测混沌演练混沌工程监控管理应急管理版本管理版本调度

稳定性测试重保管理重保常态化

值班管理监控管理核心业务监控变更管控变更追踪任务调度平台变更管理

监控管理日

心网

控Shanghai2015-2025一

键故障诊断时序指标智能突变异常检测指标特征提取周期长度周期趋势…202405028街床险支容管度:52

期明套3

上=:975582590下F果:-72050696

鼎常程鞋上:0129825723

非驾阻应2下系0

年R且监上45737580349黑深国度》下:6

需常看4上黑:周期性上基带

异常波动150K00K12:0018-0D

07050E:D00Mmwmm

0Alarm资源层

告警跨系统事件关联分析系统B告警簇系统C告警簇口

多模态海量数据智能实时异常侦测能力,主要使用在核心业务实时异常检测场景、前台营业弹窗监控场景、日志异常检测场景以

及故障时海量告警降噪收敛场景,解决5类故障中痛点问题。

落地案例:多模态海量数据智能实时异常侦测告警准确率

告警收敛比99%个

20:1个核心业务覆盖

业务影响分析效率提升业务监控阈值配置效率提日志关键异常信息

异常检测日志关键信息流式提取日志关键信息实时统计与告警计算升

反复调整1次全场景适用告警降噪、收敛业务监控阈值配置泛

化性不足业务影响难判断日志模版数量突变

异常检测时间窗口日志模版

统计与告警计算日志监控能力不足异常业务来源不明应

效GOPS

全球运维大会暨研运数智化技术峰会2025

·

上海站解决痛点问题异常判断异常程度异常规则…Metric业务发展量指标系统性能指标…64套5000+决策树贝叶斯网路海量告警降噪智能收敛日志智能实时异常发现核心业务监控点

1S

看全ANNIVERSARY

2015-2025各省反馈GOPS2025

Shanghai业务层

告警接入层

告警系统

A告

簇应用层

告警前端触

点告警组件层

告警异常程度曲线“周期性下基带核心系统D6:002:00

12:00120D

18:00202K1200DaE自愈智能决策成功执行率96%月均自愈场景执行次数

智能化应急效率提升1000+次

98%GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站智能自愈策略

配自动化作业平台作业编排作业调度执行引擎推送

审批运维专家口基于自动化运维能力,沉淀运维经验,拉通全层级监控告警、事件根因自动诊断、故障应急调度等能力,构建自动化应急预案、告警自愈两级自动化应急处置能力,实现应用实例查杀、重启、扩容、组件主备切换、流量限流、磁盘清理等多种故障场景快速处置。一键故障诊断准确率75%个自动化应急预案场景覆盖40+个分落地案例:

智能故障分析与自愈六步定位法通过KDE

算法和DBSCAN

聚类算法等能力实现全层级一键诊断3.定位根因实

例6.

定位网络问

题1.

发现业务影

响4.

定位根因组

件2.定位根因应

用5.

定位根因主

机智能诊断外部能力运维PaaS平台云平台故障根因定位难故障应急处置

效率低重复性操作成

高解决痛点问题探针能力One-agent智能自愈判断逻辑引擎多因素智能校验应用成效GOPS2025

Shanghai任务调度平台→

智能派单处置ANNIVERSARY

2015-2025执行不计划自愈工单审批自愈工单生成智能自愈操作/脚本系统健康检查智能系统健康检测业务层检测实时监控体检页面层检测隐患报告定时推送服务层检测风险问题闭环整改>

组件层检测标资源层检测变更追踪

变更管控业务层

接入层应用层

组件层资源层

…容业

务系

统全量

…告警值班

故障调度口围绕系统全层级隐患判定打造智能系统健康检查能力,持续发

现系统风险隐患并将隐患进行线上化闭环跟踪解决,同时打造变更管控系统,针对系统全层级变更进行全流程追踪,实现违规变更的监、管、控、拦能力,减少变更导致故障发生概率。高风险隐患持续压降

隐患闭环解决率98%90%

应用异常频次压降

组件容量隐患压降

变更导致故障压降落地案例:智能隐患排查

Shanghai2015-2025应急通道…敏感

控风

警变

踪变更轨迹性能隐患分析容量标准制定1解决痛点问题应

效GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站3性能问题优化2目标性能评估系统整体健康状态评估缺乏标准74%

实例问题压降

98%

慢SQL压降压降18pp30+次

月均拦截高风险指标中风险指标容量评估缺乏

准违规变更导致

故障频发200+个智能变更管控变更拦截校验运营闭

环管理智能风

险判定变更采集工单状

态变更通信协议变更账

号时间窗口低风险指性能对比多账通变更内口传统模式运维问题处理以工单支撑为主,以ITIL方法论为指导,基于流程引擎的能力,实现问题工单的纵向专业化穿透,确保问题得到精准分类管理;通过横向跨部门、跨专业、跨地域的协同,实现标准处理流程建设及闭环管理,提高工作效率。及时率:工作时间段满意度:匿名对个人评价+标签化质检流程整改流程用户画像聚类分析落地案例:智能工单闭环管理

Shanghai

2015-2025受理入口多3

服务承诺多人赞省分、总部专家处理

倒计时内部工单

分析会安分会

通报机制评价数据

可视化核心、重要

系统纳管总部需研维专家省分专家线上判定预警、告警

升级功能研发平台BUG修复需求平台优化需求覆盖范围1总部、3子公司31

省分、300+

地市问题工单系统事件处理流程GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站1服务体验差沉淀业务知识23w+条嵌入触点系统139套系统解决痛点问题问题工单发起处理流程多

2全流程

状态展示省分

级应用成效被

依动

据级规问题处理流程人王系统同步进展同

……………▲▲:Shanghai

2015-2025现在

突破:大模型引领的运02

GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站维能力升维GOPS

2025

ShanghaiANNIVERSARY

2015-2025口

焦应急预案推荐、告警智能问答、应急预案审核和大模型应用观测等运维场景,深度融合大模型能力,充分挖掘其智能优势,提升故障应急、分析、处置效率,以新方式重塑运维模式,推动数字化转型迈向更高水平。运维大模型赋能从“感知”到“认知”,大模型重塑运维交互范式

Shanghai

2015-2025业务应用层中间处理层模型底座大模型应用观测连续对话

反馈机制元景大模型MaaS

平台能力

向量知识库模型告警智能问答运维领域知识问答高频问题快捷问答业

支撑

力API调用能力基础对话能力应用授权发布能力模型

训练

力RAG

模型训练能力模型微调能力提示词模版库能力数

力知识上传语料生成数据标注应急预案审核一键唤醒GOPS全球运维大会暨研运数智化技术峰会2025·

上海站应急预案推荐深度融合运维工具基础大模型能力应急预案审核编排

解析请求参数调用获取文档接口提取应急预案适用场景和效果评估模块LLM

LLM适用场景和效果评估模块逐项审核逐项评分审核意见汇总

审分评分汇总

Json

格式化输出口应急预案审核当前成效√

应急预案审核时间由3min/

个降低至30s/

个,效

8

3

%√

针对存量的1877

个应急预案进行AI审核与分析,实现应急预案的质量提升。√减少人工审核,降低人力成本√

沉淀运维工作智能质检方法论总部集中话单采集预处理系烷系坑亦庄日志存储ES

热辟数据库异常应急预案一

、应急招旗基本信息名中

→F

路力质黑名原业务中值适中理中心采集超力属事庄日德草ME8辆群西短库湃常应急预翼监急殖露类型可能不确,推荐设置为陆术形案(FromAIGOPS全

2

0

2

5

·

站口

应急预案审核专家意见与审核要点,利用大模型应用编排技术,对应急预案内容逐项进行智能化审核,通过对应急预案审请求触点

应急预案编辑页面

应急预案审核页面

脚本调接口发起望案归属团队建欲选排三拔痛四该团队4FromJanicenen启动条件堡于涉及告警,但来关联告警IFrom期核评分的实践,形成一套可复用的文档质检方法。应急预案审核能力预脚执行方素:手动异行argrt:罗二

、应患预案通用地景相效果评估

第条件.窈纪作关赠音密套第志股监和租线R,自南应急预案审核应用成效基本信息模块

逐项审核

逐项评分处理过程模块

逐项审核逐项评分提取应急预案处理过程模块提取应急预案基本信息模块ANNIVERSARY

2015-202520主于第:工和。通品TH正

。GOPS2025

Shanghai200M无土果日杰,0ra

丝E

用a.自保R20

无K

里自志,Gra用热正罗票妹LLM前端SSE

交互敏感词过滤LLM意图识别任务分发LLM问题改写语义查询向量库查询数据去重权重计算大模型润色关联应急预案文档流式输出口应急预案审核当前成效√

应急预案推荐准确率90%√

应急预案查询时间由40s降低为15s,时间降

低62.5%√

支持跨平台、跨租户模块查询√

平台将预案嵌入生产流程,可在事中指挥室直接启动应急预案·

P

U

5

E

N

S

中aFGAKnREnsn9考位,明指前7NBaF国55期相a.-78.湖出E上新HAM-,人aa平aEE,unacs

munatnsRa5aRR主主TVeB相量平8K

由蛇平下5

n出2aFa5产下5

n出690游mc

marsm

口GOPS

全球运维大会暨研运数智化技术峰会2025

·

上海站口

结合故障信息与用户的提问,通过大模型识别关键场景,智能推荐相关应急预案,缩短查找与事件/故障最相关的应急预案的时间,为快速抢通恢复业务提供有价值的参考。应急预案推荐能力应急预案推荐应用成效监控平台任意页面智能运维助手接受用户请求意图识别Agent关键字查询索引库查询应急预案推荐编排GOPS2025

Shanghai4

0

0

块向

库ANNIVERSARY

2015-2025请求触点关键词提取敏感词索引库LLMLLM库告警查询数据统计告警汇总数据统计大模型分析告警分析告警分析结果

输出口

障发生的过程中,由单条告警信息及影响范围,智能运维助手提供告警智能问答的能力,借助大模型分析告警产生根因,并给出解决方案,缩短故障排障时间。◆杜理详情【政企运营平台(两网)近5分钟】网:2

46

2

4

0

9

2

5方

平oM

、R

者政AP

上海%分审区、+四文:eneepreopnesonaromay460十文

名器政金旧平台查望

他me:12中三AD-ZQXT-ZCYYPT-20241024092750569277512PortLW上b

届务有告日志[coudnt

opeoJDC

Comnectionfrtansati

on】,

在成扩容,验证9挂聂正常,陈飞检证扩容后登录失数情况是否颁解,仍有小概率失败揶除灰童因素:床堵堵怀疑23日晚灰流发布影响,建议停止灰旗Portal_Web服务,吉断停止灰度PortaL

Web服务2.一句话报因:10月24日顺昌血结机廓汇聚交艳机技术升级,期间网络调时面中断,导正常故汽中的BotaLWeb服务定时任务医鸟接数据库失数而中断,24日0点5分逐检发规Portal

Web服务存在个别节点

CBC网络连接异常(故障后惯因排查,发现Druid-1.28以下版本时,阿络连

接断开等原因可能导数连接泄露。导致获取

JDBC

连接失败)。发现此题运堆人吴累急启

助意预案,重后异常节点后灰复,但未发取里后后年的封任务又被出新调度行,在9点23分高负载定封任务执行时出现资源抢占,数据库连接志核打满,图分web

服务请求

因获取不到数据库连接流超时。告警策略告警触发告警查询选择类型查询人工分析告警解除口告警查询当前成效√

查询准

9

0

%

;√

月度告警信息数据全

;√

间由1

5s

降低为5s,

低66%;√

持跨平台、跨租户模块查询

。GOPS全

2

0

2

5

·

站大模型嵌入后流程智能分析、效率提升现有流程人工分析处理、耗时长告警智能问答应用成效VS大模型分析告警策略智能对话GOPS2025

ShanghaiANNIVERSARY

2015-2025告警触发告警分类racfiorl,张确姆师地

oruAu

时690需2生的8202470.242454估程y

2024-10-324550个⑧就

7ot故障发生故障处理处理概票上通过整合laaS

层CPU/GPU

服务器配置与性能数据、

PaaS

层大模型组件运行状态,以及SaaS

层服务调用链与拓扑信息,实现从服务应用到基础资源的全栈可视化管理,发现智能体链路性能瓶颈,助力智能化运维与问题快速定位。Java

针Python+

模型应用探针无代码侵入需业务方配合埋点:在java程序的启动参数添加:javajava-javaagent:/path/to/opentelemetry-javaagent,jar\-Dpagators=tracecontext,baggage\-Dotel.resource.attributes==serviceName,

host.name=192.168.2.XX,system.code=26X8759854\-Dotel.exporter.otlp.endpoint=

:7001\

-Dtocol=grpc\-jar

SpringCloudApplication

jar无代码侵入-需业务方配合埋点:在Python

程序中添加如下启动参数:pythonOTELSERVICENAME='aistar

agent'#服务名OTEL_RESOURCE

ATTRIBUTES='host.name=192.168.1.1'#实例名

OTELTRACES_EXPORTER="otlp°#

调用链导出器OTELEXPORTER_OTLP_ENDPOINT='1:2025"#

collector地址OTELEXPORTER_OTLP_PROTOCOL

='grpc"构建大模型应用端到端监控指标体系,通过多维度的指标分析快速了

解大模型应用情况。L

u

A应用总体监控信息GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站>自动发现并串联大模型服务、组件的调用关系,并构建拓扑,结合调用链能力实现根因定位。>整合Python

探针+Java

探针,采集加工大模型应用产生的Log

、Metric、Trace

数据。多维度指标分析全链路性能监控统一数据采集1956151:464mm48.71m大模型应用全栈可观测GOPS2025

ShanghaiANNIVERSARY2015-2025口数智化运维问题处理以智能化、数字化支撑为核心,工单支撑为辅助,依托大模型与数据仓库能力,落地统一前端轻触点、智能在线服务、自动化工具管控、问题闭环管理及知识运营的企业级问题端到端响应体系,显著提升一线用户满意度、运营服务质量与协同效率。咨询前

随手提、方便问

支撑中

控过程、提效率

评价后

强运营、促质量智研IT运维助手(基于在线咨询平台+元景-生产运维大模型打造的IT生产运维领域品牌)智慧运营响应

Shanghai

2015-2025疑难问题工单闭环简单问题会话响应服务质量保障机制预警、告警规则质检、整改流程数据沉淀运营管理分析机制服务质效常态分析共性问题聚类分析日常问题运营分析………数据支撑智能化应用不足运维领域问题支撑大模型空白运维问题智能化处理水平不足运维问题数据知识转化能力不足地市专家团队

工具依托数据中台能力,搭建起IT问题数仓(库)AI智能化处理率环比提升147%39.4%13.1%传统模式

数智化模式智能会话Al+运维知识库多模态输入大模型/小模型问题处理不满意率(千分之)环比下降:93

.8%11.2支撑效率低问题流转效率低问题处理效率低知识运营效率低触发质检规则质检专员介入Al+共性问题聚类分析无解决方案建工单转二线

省分专家团队

运维专家一线、二线集团专家团队

运维专家团队未匹配

到场景邀请一线专家处理Al+IT问题智能分派业务咨询类操作指引类系统缺陷类研发团队需求团队修复缺陷优化功能赋能运维团队GOPS

全球运维大会暨研运数智化技术峰会2025

·

上海站生产运维大模型运维工具箱制定解决

方案推动共性

问题根治生产运维

FAQ

知识研发智能WebApp其他问题处理及时率环比提升44

.3%Al+IT问题智能

问答、处理99.1%数智化模式解决痛点问题0.7数智化模式应

效统

T

口68.7%传统模式高效协同传统模式未来

愿景:向多智能体协同03

GOPS

全球运维大会暨研运数智化技术峰会2025·

上海站运维演进Shanghai

2015-2025GOPS2025

ShanghaiANNIVERSARY

2015-2025从利用工具到

培养“新”员工的范式跃迁工具越做越多,但业务断点依然存在?数字员工实现的不只是效

,而是通过重构作业模式引发生产力质变,当工具学会思考,员工就能聚焦创造数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论