2025QECon全球软件质量效能大会:AI双轮驱动|数据与知识赋能网元故障智能运维_第1页
2025QECon全球软件质量效能大会:AI双轮驱动|数据与知识赋能网元故障智能运维_第2页
2025QECon全球软件质量效能大会:AI双轮驱动|数据与知识赋能网元故障智能运维_第3页
2025QECon全球软件质量效能大会:AI双轮驱动|数据与知识赋能网元故障智能运维_第4页
2025QECon全球软件质量效能大会:AI双轮驱动|数据与知识赋能网元故障智能运维_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

何汉东|中兴通讯AI算法工程师中兴通讯网元故障运维技术专家和知识图谱专家。致力于引领先进数据治理和知识工程理论在复杂网元故障运维领域的创新应用。

主导构建了显性化建模、结构化生产、智能化推理、标准化复用、

正反馈进化的端到端知识体系

并高效整合海量运维数据

,有力推动了AI在故障诊断等场景的实战部署

为有线数据产品打造智能、

可靠的运维新范式。何汉东中兴通讯AI算法工程师目录CONTENTS03

实践落地——HOWAI赋能:驱动数据与知识协同的智能应用实践04

未来展望——WHERE前瞻布局:迈向全栈自智网络新纪元解决思路——WHAT双引擎筑基:构建可信赖的数据与知识体系背景介绍——WHY智能化转型:

网元故障运维的困境与破局0102PART01

WHY智能化转型:

网元故障运维的困境与破局传统运维的故障定位过程依赖大量人工排查

,涉及多系统、多数据联动

,缺乏统一视角

,导致响应滞后

,极大影响问题解决效率。传统运维强依赖资深专家的人脑知识

,人员离岗调动易造成技术断层

,普通工程师难以独立应对复杂故障

,形成“专家瓶颈”。传统运维中的隐性专家经验多以口传心授为主

,缺乏显性的系统化知识工程沉淀

,难以标准化复用

,导致运维能力提升受限。

痛点驱动:

定位时间长专家依赖程度高经验无法传承2

专家依赖度高1

定位时间长3

经验无法传承大数据运维困境,何时才能破局?减少分散式隐性知识依赖1.

协作效率低:数百人跨团队协作

,定界定位效率低且重复劳动多。2.

隐性知识依赖高:定界定位依赖小部分文档显性知识+大量人脑隐性知识。聚合碎片化数据感知能力1.

数据碎片化:产品包含上千个诊断命令、告警、

KPI和海量日志;2.

信息缺失与低效:定界定位过程中数据采集慢

,部分数据采集方法缺失。提升异常处理方案优先级1.

异常处理优先级低:产品正常功能严格把关

,但异常应对方案较为薄弱。多维数据统一平台化管理1.构建事件感知模型

,促使产品集中碎片化

需求驱动:

故障/隐患定界定位能力影响运维团队效能内外场故障/隐患定界定位能力和效率一直是运维团队痛点

,极大影响我司产品业界口碑和用户信任度基于AI

+知识图谱的故障运维智能化方案运维域知识工程规范化建设1.推进运维域知识工程规范建设;2.运维专家在规范文档中梳理自身经验

,显性化运维隐性知识

,避免故障现场临时拼凑思维链

,借助AI手段提升定界定位效率。的数据感知能力。统一图谱Schema使得数据感知的及时性、有效性、完整性获得驱动力和约束力。1.预研一种融合多维数据的基于知识图谱的网元内故障根因定位方法。需求分析改进措施PART02WHAT双引擎筑基:构建可信赖的数据与知识体系知识的维度DIKWP金字塔模型数据是人工智能系统的基石知识是人工智能行为的基础 DIKWP金字塔模型 策略:两大核心策略夯实数据地基•标准化与集成:打破数据孤岛

,通过统一元数据标准

,将多源数据汇聚成

可互联互通的“数据湖”。•质量保障与资产化:建立质量稽核与低质数据清洗机制

,将原始数据转化01

0203

04 理念:数据全生命周期管理•

数据治理旨在将原始运维数据转化为可观测、好理解、易利用的信息;•

数据治理应贯穿数据采集、处理、分析到销毁的全生命周期。数据感知模型:为知识图谱和Agent模型提供高质量、可信赖的数据支撑。智能应用部署:高质的数据能有效驱动故障诊断、根因分析及智能决策的精准高效。

数据引擎基石:

构建全链路运维数据治理体系•AI智能运维的核心挑战在于数据无序与不可信。•数据治理是确保AI能力高效落地、实现运维模式质变的关键基石。

破局:为何数据是智能运维的核心瓶颈?价值:数据治理加速AI运维落地为高价值数据资产。 知识引擎驱动:构建可推理、可复用的运维知识工程统一规范

,提升知识有效性《中兴运维域知识工程规范》借助大模型

,助力构建知识库知识转化结构化知识文本图表……结构化知识规范提炼人工/大模型知识转化知识飞轮知识库图谱化自动化业务有效性确定性显性知识隐性知识知识建模结构化伴随式知识工程知识建模知识消费规范知识消费运维域知识工程设计总体思路②事件传播图谱用于表示A资源与事件的关联关系;事件之间的传播关系;事件与故障场景之间的映射关系;事件与应急/修复方案之间的闭环关系①资源图谱用于表示各层资源节点以及资源之间的依赖关系dependOn

SchemaResource(资源)知识注入KnowledgeGraph网元单板实例化Graph

Instance交换机A单板1

知识建模:

资源图谱与事件传播图谱z节点定义Resource各层资源对象可观测数据与特定资源相关的性能(KPI)

、告警、日志等

感知数据源Event经分析输出的所属某资源特定异常事件。

如性能

越限、

某设备XX告警、

异常日志条目等数据采集规则获取特定Event相关数据的方法计算判定规则修根据采集数据判定Event是否存在的计算规则①建立体系化事件感知模型:通过不同来源的数据信息与数据分析策略

,全面感知网元设备的健康度状态;②支撑规则组装API的实现:在判定某Event是否存在时候

,调用通用API接口

,输入感知模型定义的数据源、判定规则

,根据API的输出完成异常事件的判定流程。示例:

CPU利用率大于等于90%时

,会生成CPU利用率异常事件数据采集规则:数据源

=网元性能数据池

,资源

=XX网元

,性能类型

=CPU利用率计算判定规则:

性能指标>

=90%

数据治理:

事件感知模型各类可观测数据到事件生成的映射规则。定义作用知识转化:

人工萃取→知识流水线

知识消费:

基于运维知识的故障根因诊断流程推理步骤:1.根据故障入口+故障信息找到知识图谱的入口(起点事件)2.根据故障信息+资源图谱+事件传

播图谱

,构建当前故障的根因推理图3.基于根因推理图

,完成因果推理输入:•

知识图谱

:资源图谱、

事件传播图谱•

故障入口

:资源状态入口、

异常事件入口、

人工投诉入口•

故障信息

:故障对象+故障场景/事件描述输出:•

故障根因及应急/解决方案•

连通自动化API接口

,实现根因的自动化处置

闭环完成故障修复将产品中用户发起/自动值守入口出发的诊断

映射到故障运维知识图谱中一个起点事件/故障确定诊断入口构建根因推理图完成因果推理基于根因推理图

,使用图

论算法(如深度优先搜索)游走遍历

,找到根因根据故障信息构建资源子图和事件传播子图

,用于该故障的因果推理总流程推理步骤PART03

HOWAI赋能:驱动数据与知识协同的智能应用实践

“数据+知识”双轮驱动迈向数字化、

智能化运维现状:

网元侧和网管侧存在数据标准、资源口径不一致的问题;缺乏统一的数据治理机制

,运维数据烟囱林立。解决方案:✅破除数据烟囱化

,对于KPI指标、

日志信息、告警事件等故障数据

,能够打通直达路径和高速安全传输通道。✅制定数据治理标准

,统一数据采集、存储、处理方式

,共建数据湖;确保输入数据质量

,为后续智能分析打下基础。优化1:

破除数据烟囱化定义数据治理标准

优化2:

业务需求联动铸造智能化正反馈体系复杂故障诊断往往跨越单一业务域

,采用多图谱协同实现全域视角的智能分析:•

层级关联:基于业务依赖关系与网元交互规则

,构建多图谱语义关联

,形成跨域知识网络。•

分布式协同能力:采用分布式结构

,支持领域内与跨领域的知识图谱搜索

,最终实现层级关联的RCA定位。借助AI

+知识图谱分析故障原因的重要性程度

,指导运维人员优先排查根因

,解决运维“最后一公里”问题:•

边缘嵌入式分析

:创新图谱智能分析引擎

,支持嵌入网元设备

,通过根因重要性排序指导排查优先级;•

端到端运维

:打通数据采集、异常检测、根因定位全流程

,AI自动生成排障建议

,辅助快速修复。

优化3:

多业务图谱层级关联协同分析复杂故障一、

Event诊断:

基于确定性特征的系统可识别事件诊断①资源状态入口:

由系统资源管理模块触发的诊断流程;②异常事件入口

:设备主动上报的异常事件;二、

Situation诊断:

面向不确定性模糊故障场景的诊断(涵盖更广泛的、

用户视角的问题表述范畴)③人工投诉入口

:人工通过自然语言投诉触发的诊断流程。

示例:

出现“某链路端口DOWN”故障异常感知根因推理图实例化构建三步骤:(1)

资源子图构造:

基于输入的诊断资源对象

,在资源图谱中检索关联资源

,生成以目标资源为核心的子图——包含客户层同层关联资源(东西向)

及服务层依赖资源(南北向)

。(2)

事件传播图谱裁剪:

以起始事件(或故障场景节点)

为顶点

,对事件传播图谱进行定向剪枝

,保留相关联的事件子图谱。(3)

根因推理图融合:

通过事件节点的

“所属资源”字段

,将裁剪后的事件传播图谱与资源子图进行关联映射

,最终融合形成根因推理图。

示例:

出现“某链路端口DOWN”故障事件传播图谱裁剪根因推理图融合资源子图构造图谱构建以广度优先遍历为例的因果推理流程1、

根因推理图遍历•从起始事件节点出发

沿传播关系(图中蓝色有向带权边)

逐层遍历;•每遍历至一个节点

调用其事件感知模型验证事件状态

判定是否存在异常;•

若验证事件正常(图中绿色节点)

,可触发剪枝机制,终止该分支遍历(其子节点标记为灰色

,无需继续)

;•

否则

,继续下钻

,直至完成全图遍历。2、

因果推理•

遍历完成后

,得到异常事件集合(图中红色节点)

;•

集合中的叶子节点

即为当前故障的根因候选;•根因候选的排序可借助(点、

边)

累加权重、

历史发生频率、

机器学习模型打分等手段实现优先级划分。基于根因推理子图与事件感知模型的协同

,可借助多维度手段实现因果推理

,包括但不限于:1.借助图遍历算法(如深度优先DFS、

广度优先BFS)

挖掘潜在因果路径

,定位故障传播的关键根因节点;2.借助机器学习模型(图神经网络GNN、

因果推断模型)

从历史数据中学习因果关联模式

,动态优化推理权重

,通过反事实模拟验证因果关系的可靠性;3.融合大模型与GraphRAG技术

,解析用户模糊故障描述

,联动图谱检索增强知识精准度

,实现因果逻辑的可解释性推理以及复杂场景的泛化适配。

示例:

出现“某链路端口DOWN”故障根因诊断图谱嵌入

应用示例:支持可视化编排的端到端运维工具引入AI+知识工程23911771故障覆盖率支持某业务设备场景TOPN类故障300余个子故障的定位知识消费

效果评价:

故障诊断效率提高30%30%341缩短到分钟级定位准确率借助AI

+

图谱优化

整体故障诊断效率提高近2024Q2

2024Q3

2024Q4

2025Q1某设备业务场景故障覆盖率与定位时间400350300250200150100500140120100806040200故障覆盖数量故障根因定位时长PART04WHERE前瞻布局:迈向全栈自智网络新纪元

网元原生智能:

全栈自智的底层基石技术核心通过在网元中集成专用AI

芯片

,赋予设备本地化的实

时计算与推理能力

,使其具备“感知

-分析

-决策

-执

行”的闭环智能。关键能力网元可自主完成状态监测、异常识别、简单故障自愈(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论