DB15∕T 4065-2025 IT运维大模型能力要求_第1页
DB15∕T 4065-2025 IT运维大模型能力要求_第2页
DB15∕T 4065-2025 IT运维大模型能力要求_第3页
DB15∕T 4065-2025 IT运维大模型能力要求_第4页
DB15∕T 4065-2025 IT运维大模型能力要求_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS33.030

CCSM21

15

内蒙古自治区地方标准

DB15/T4065—2025

IT运维大模型能力要求

Abilityrequirementsforinformationtechnologyoperationand

maintenanceoflargelanguagemodel

2025-06-26发布2025-07-26实施

内蒙古自治区市场监督管理局发布

DB15/T4065—2025

目次

前言.................................................................................II

1范围...............................................................................1

2规范性引用文件.....................................................................1

3术语和定义.........................................................................1

4总体框架...........................................................................2

5IT运维大模型构建...................................................................3

业务需求分析与资源评估.........................................................3

IT运维数据与大模型共建.........................................................4

IT运维大模型微调与优化部署.....................................................4

6IT运维大模型能力与评估.............................................................5

数据管理能力...................................................................5

分析决策能力...................................................................6

自动控制能力...................................................................7

7IT运维大模型场景实现...............................................................8

场景分析.......................................................................8

场景构建.......................................................................8

场景交付.......................................................................8

评估方法.......................................................................9

附录A(资料性)常见IT运维大模型场景说明...........................................10

参考文献.............................................................................15

I

DB15/T4065—2025

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由内蒙古自治区工业和信息化厅归口。

本文件起草单位:内蒙古科电数据服务有限公司、中通服咨询设计研究院有限公司、中通服智慧城

市公司工程建设有限责任公司、内蒙古自治区大数据中心、内蒙古电力集团蒙电信息通信产业有限责任

公司、巨鹏信息科技有限公司、内蒙古天地方正信息有限责任公司、内蒙古华强数智科技股份有限公司、

内蒙古生态环境大数据有限公司、内蒙古智慧青城科技有限公司、内蒙古方锐科技信息服务有限公司、

内蒙古汇鑫软件股份有限公司、内蒙古慧瑞系统集成有限公司、内蒙古大学、内蒙古财经大学。

本文件主要起草人:崔连伟、巴图乌力吉、李鑫、陈满意、米世成、刘云升、谢炯、全鑫、贾瑞红、

蔡斐、朱国新、于森、屈强、宋喜斌、严则虎、聂文亮、高军、刘阳、赵燕、王鹏、周平、李运博、王

文杰、刘云浩。

II

DB15/T4065—2025

IT运维大模型能力要求

1范围

本文件规定了IT运维大模型构建、IT运维大模型能力与评估、IT运维大模型场景实现。

本文件适用于规范IT运维大模型建设应用活动。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T25069信息安全技术术语

GB/T43208.1信息技术服务智能运维第1部分:通用要求

GB/T44109信息技术大数据数据治理实施指南

3术语和定义

GB/T25069、GB/T43208.1界定的以及下列术语和定义适用于本文件。

IT运维大模型informationtechnologyoperationandmaintenanceoflargelanguagemodel

(LLM)

具有大规模参数和复杂计算结构的,具备能感知、会描述、自学习、会诊断、可决策、自执行、自

适应等能力,能够提供运维服务的机器学习模型。

IT运维大模型场景informationtechnologyoperationandmaintenanceoflargelanguage

model(LLM)scenarios

为实现特定的IT运维目标,并体现运维大模型特征,所需的人员、活动与对象的组合。

模型训练modeltraining

通过不断迭代优化,找到一组最优参数,使得模型对于给定输入的预测输出与真实输出之间的差异

最小化,求解最优化问题的过程。

自学习self-learning

1

DB15/T4065—2025

一种机器学习方法,系统能够通过自身的探索和经验积累来改进其性能,而无需依赖外部的监督或

指导。

自适应adaptive

在人工智能和机器学习中,自适应是系统能够根据环境的变化自动调整其行为或参数,以优化性能

或达到特定目标。

过拟合overfitting

模型在训练数据上表现得过于完美,以至于无法对新数据做出准确预测的现象。

欠拟合underfitting

模型对训练数据的拟合程度不够,导致模型的泛化能力差。

4总体框架

IT运维大模型能力要求框架图1如下所示。

图1总体框架

2

DB15/T4065—2025

IT运维大模型的建设分为IT运维大模型构建、IT运维大模型能力与评估、IT运维大模型场景实现三

部分。

IT运维大模型构建是针对IT运维业务中构建大模型应用所需的基础步骤,是对于构建IT运维大模

型的整体流程说明,分为业务需求分析与资源评估、IT运维数据与大模型共建、IT运维大模型微调与优

化部署。

IT运维大模型能力与评估是针对IT运维大模型应该具备的能力与评估指标的说明,定义了对IT运

维大模型基础能力要求和评估指标。能力指标分为含数据建模、元数据管理、数据采集、数据加工、数

据存储、质量管理、数据服务、数据安全的数据管理能力,含数据探索、特征提炼、分析决策、可视化、

安全可信的分析决策能力,含接入管控、安全管控、过程管控、执行管控的自动控制能力。

IT运维大模型场景实现是对IT运维相关场景应用的实现说明,分为场景分析、场景构建、场景交付

和评估方法。

5IT运维大模型构建

业务需求分析与资源评估

5.1.1业务需求评估

业务需求评估要明确业务的具体需求,深入理解业务流程、业务量、业务峰值、关键性能指标(KPI)、

服务级别协议(SLA),将业务需求转换为明确、可量化的目标,以确定IT运维大模型构建的基本方向。

评估内容包括但不限于:

a)业务数据:需输入到大模型的业务数据范围、业务数据类型;

b)业务指标:细化为多个子任务,明确子任务期望指标;

c)业务服务方式:私有化部署或公有化部署。

5.1.2算力层评估

算力层评估要确定IT运维大模型在实际训练和部署中所需算力资源类型、大小以及相应成本。评估

内容包括但不限于:

a)计算能力:模型训练、微调、推理所需算力;

b)存储方案:模型训练、微调、推理所需数据采用的对象存储、文件存储等方案;

c)网络通信:根据模型参数量级和训练数据量,采用的网络技术要求。

5.1.3算法层评估

算法层评估要根据业务需求、算力资源限制,确定适合业务场景的大模型和微调算法。选择内容包

括但不限于:

a)基础大模型选择:选择基础的语言大模型、视觉大模型或语音大模型,以及大模型的参数版本;

b)微调算法选择:结合算力和时间要求,选择微调时采用的算法。

5.1.4数据层评估

数据层评估要根据IT运维业务实际情况、期望目标,对训练数据进行评估。评估内容包括但不限于:

a)数据规模:评估已积累IT运维数据的条数或存储量;

b)数据质量:评估已积累IT运维相关数据集的完整性、一致性、准确性等质量情况;

c)数据安全和隐私:评估是否涉及个人信息、敏感信息等,必要时需做脱敏处理;

d)数据格式:评估文本数据、音频数据或其他格式类型数据占比情况。

3

DB15/T4065—2025

5.1.5工程层评估

工程层评估要根据需求目标和构建成本对配套工具或第三方平台进行选择。评估内容包括但不限

于:

a)模型训练平台:评估是否包含所需基础大模型或基础行业大模型;

b)数据标注平台:评估是否提供数据标注作业、场景数据挖掘等数据服务;

c)训练和部署加速库:评估是否具有加速组件以提升模型训练效率;

d)数据应用平台:评估是否支持快速接入模型、数据和智能设备,是否提供模型服务、应用工作

流编排、云边端调度等;

e)部署兼容性:评估部署平台与IT运维大模型的兼容性,以及升级方式;

f)模型加密:评估是否针对内置模型加密。

IT运维数据与大模型共建

5.2.1模型选择

模型选择是根据IT运维大模型的应用领域,确定选择的模型类型。模型类型包括但不限于:

a)自然语言处理大模型;

b)计算机视觉大模型;

c)语音识别大模型;

d)推荐系统大模型;

e)强化学习大模型;

f)多模态大模型。

5.2.2训练环境搭建

训练环境搭建是搭建模型训练所需硬件环境和软件平台。

5.2.3数据处理

数据处理是将数据加工为模型训练所需数据。处理步骤包括但不限于:

a)原始数据处理:进行数据脱敏、数据预处理、数据转换、数据清洗、数据增强等;

b)数据标注:对文本、图像、视频、音频类非结构化数据进行标注;

c)数据集划分:将数据集划分为训练集、验证集、测试集。

5.2.4模型训练

模型训练共建是对选定的模型进行训练。

在IT运维中,特别关注模型的检索增强能力、场景实现能力和实时性能。可能需要进行多轮训练和

调优,以达到最优的模型效果。训练过程中还要定期评估模型的性能,以确保不出现过拟合或欠拟合的

情况。

IT运维大模型微调与优化部署

5.3.1模型微调

模型微调阶段首先选择合适的微调算法,微调算法选定后,利用前期准备的IT运维特定场景数据进

行大模型的训练微调。选择合适的微调算法时,需要考虑IT运维场景的特点,包括实时性要求、数据规

模和模型复杂度。例如,对于实时监控任务,需要选择计算效率更高的算法。选定算法后,利用前期准

4

DB15/T4065—2025

备的特定场景数据进行训练微调,包括实际的运维日志、性能指标数据、事件记录等。微调过程中,通

过调整学习率、批次大小、正则化参数等超参数来优化模型性能。

5.3.2模型评估

模型评估阶段是在微调生成对应任务的大模型后,对模型进行评估,以判断模型是否满足应用要求。

在IT运维中,模型评估不仅要考察准确性、召回率等标准指标,还要特别关注模型在实际环境中的响应

时间、资源消耗和稳定性。根据评估结果,判断模型是否满足应用要求,例如是否能够准确预测故障、

是否能够有效降低误报率等。

5.3.3模型重训优化

模型重训优化阶段是根据模型评估的情况,通常需要对模型进行多轮迭代训练优化。在IT运维中,

特别注重减少模型的无效告警,以避免告警疲劳。同时,也会关注模型的泛化能力,确保其在不同环境

和条件下都能保持稳定运行。

5.3.4模型联调部署

模型联调部署阶段包括推理服务部署、服务配置、应用服务联调。推理服务部署涉及到将训练好的

模型集成到现有的IT运维系统中。服务配置包括设置合理的资源限制、接口定义和权限控制。应用服务

联调则确保模型输出能够被运维系统正确理解和处理,同时保证系统的其他部分能够按照预期与模型

交互。

5.3.5模型应用运营

模型应用运营阶段是在生产环境中为已上线的模型服务提供监控、管理、运营维护等能力。在生产

环境中,上线的模型服务需要有一套完整的监控和管理机制。监控包括跟踪模型的性能指标、异常检测

和实时反馈。管理则涉及模型的版本控制、更新策略和回滚机制。运营维护包括定期检查模型的健康状

况、收集用户反馈、处理模型漂移问题以及按需进行模型更新。

6IT运维大模型能力与评估

数据管理能力

IT运维大模型在数据管理能力方面主要包括数据建模、元数据管理、数据采集、数据加工、数据存

储、质量管理、数据服务、数据安全:

a)数据建模:基于对运维数据的深入理解和分析,抽象出数据的核心特征,并对数据的层次化架

构、数据对象以及它们之间的关系进行标准化定义;

b)元数据管理:通过对数据的描述性信息全面管理,构建一个完整的数据资产管理目录,详细列

出了所有数据资产的信息,包括它们的特点、来源、使用方式等;

c)数据采集:通过各种技术手段获取运维原始数据,如服务器、存储、网络、安全等设备的日志、

告警、事件等数据。数据采集技术手段包括日志分析、数据库查询等,以确保全面、准确地获

取运维数据;

d)数据加工:对运维原始数据进行一系列的处理操作,如清洗、转换、聚合和脱敏等。通过这些

处理,能提高数据的准确性和可用性,使其更符合业务需求;

注:对于数据采集、数据加工、元数据管理等操作标准要求,按照GB/T44109信息技术大数据数据治理实施指南。

5

DB15/T4065—2025

e)数据存储:按照数据存储标准在计算机的存储装置或外围的存储设备中存储海量离线与实时

运维数据的能力;

f)质量管理:对运维数据在计划、获取、存储、共享、维护、应用和消亡的各阶段中可能存在的

数据质量问题,进行识别、度量、监控、预警和处置,提高数据质量的能力;

g)数据服务:提供运维数据消费接口及自服务的能力;

h)数据安全:基于数据安全相关策略和流程,利用技术和管理手段,对运维数据的安全风险进行

防范和处置的能力;

i)数据管理能力需设立可评估或可量化的指标,评估指标包括但不限于:

1)数据一致性:确保数据在各个系统和流程中保持一致,无矛盾或冲突的信息;

2)数据对象及其关系定义:数据的组织方式应该清晰并且遵循一定的标准,以便于理解和使

用;

3)元数据覆盖率:衡量元数据管理完整性的指标,即已有元数据覆盖的数据范围比例;

4)元数据更新频率:指元数据在需要时更新的频次。高频次的更新能够更好地反映底层数据

的变化,保持元数据的时效性;

5)数据采集准确率:通过对比采集到的数据与原始数据的差异来衡量的,高准确率意味着数

据采集方法的正确性和可靠性;

6)数据采集系统稳定性:通过系统运行故障间隔时间来评估。长间隔时间表示系统更加稳定,

对于持续的数据采集尤为重要;

7)数据加工正确率:通过对比加工后数据与预期结果的一致性来衡量的,高正确率表明数据

加工过程的准确性高;

8)数据加工速度:即数据加工的速度,能以单位时间内处理的数据量来衡量。快速的处理能

力有助于及时供应所需数据;

9)存储可用性:通过测量存储系统正常服务时间占总时间的比例来评估的。高可用性意味着

更高的系统稳定性;

10)数据准确度:通过比较实际数据与标准或真实值之间的差异来衡量。

分析决策能力

IT运维大模型在分析决策能力方面主要包括数据探索、特征提炼、分析能力、决策能力、可视化、

安全可信:

a)数据探索:对海量、多源和异构的运维数据,通过查询、筛选、整合、分析等手段,有效认识

和处理运维数据的能力。对于海量、多源和异构的运维数据,数据探索包括使用查询工具来检

索特定的数据点,应用筛选标准来隔离关键性能指标,整合来自不同来源的数据以获得全面的

视角,以及通过统计分析来识别趋势和异常。这一过程还涉及到对数据的预处理,如清洗和格

式化,以确保后续分析的准确性;

b)特征提炼:对运维数据进行特征提取、生成、评估、选择和提炼的能力,涉及到从原始运维数

据中提取出对预测和分类任务最有用的信息。包括:

1)特征生成:从时间序列数据中提取趋势和周期性特征;

2)特征评估:确定哪些特征对模型的预测能力最有价值;

3)特征选择:挑选出最重要的特征以供模型训练使用。

c)分析能力:规则应用、模型建立、模型训练的能力,包括规则的应用、模型的建立与训练过程。

规则应用涉及到自动化的决策制定,如基于阈值的告警系统。模型建立和训练则是使用历史数

据来构建能够预测未来事件的数学模型;

6

DB15/T4065—2025

d)决策能力:进行模型推理,进而推动科学决策的能力。模型推理是利用这些模型来分析新的数

据点,从而为运维决策提供支持;

e)可视化:将运维对象及关联关系、运维流程、运维活动和运维管理信息转换成数字化的图形或

图像,并通过多媒体技术和交互接口,有效展示运维信息,实现人数交互的能力,包括运维对

象及其关联关系的图谱展示、运维流程的流程图、运维活动的实时监控图表以及管理信息的仪

表板。通过多媒体技术和交互接口,可视化工具帮助运维人员快速识别问题、监控性能和理解

复杂的系统行为;

f)安全可信:在分析决策过程中对可能影响运维场景目标实现的风险加以识别、评估和规避,保

障分析过程和结果有效的能力,包括识别可能影响运维目标实现的风险,如数据泄露、错误配

置或系统故障。对这些风险进行评估,并通过适当的措施来规避,如实施加密、访问控制和使

用冗余系统。保障分析过程和结果的有效性还包括制定和遵循严格的操作标准和流程,帮助用

户理解和信任模型的决策过程;

g)分析决策能力需设立可评估或可量化的指标,评估指标包括但不限于:

1)数据覆盖率:通过查询和筛选手段覆盖的数据种类和数据量占总运维数据的百分比;

2)特征相关性评分:通过统计方法或算法评估提取特征与目标变量之间的相关性,高相关性

评分意味着提取的特征对于分析目标具有较高的解释力;

3)模型准确率:通过交叉验证等方法评估模型预测的准确度,高准确率表示模型具有良好的

泛化能力,能够准确进行推理和决策;

4)规则应用成功率:将规则应用于数据时成功实现预期效果的比例,高成功率表明规则设置

合理有效;

5)可视化覆盖率:展示的可视化内容占全部运维信息的比例,高覆盖率意味着更全面的展示

运维情况;

6)风险识别率:成功识别的风险数量占总风险数量的比例,高识别率表明强大的风险识别能

力。

自动控制能力

IT运维大模型在自动控制能力方面主要包括接入管控、安全管控、过程管控、执行管控:

a)接入管控:构建连接运维对象或运维服务的通道,实现控制运维对象或管理服务调用的自动化

能力,包括:对应用系统、服务器、网络、存储、云资源和基础环境等IT资源进行管控,保

障自动化的操控能力;对运维工具的自动化服务能力进行整合及管控,对外提供统一服务的能

力;

b)安全管控:通过技术手段对用户身份、用户权限、自动化任务进行合法性认证、合规性检查,

并生成满足监管、审计要求的相关记录的能力;

c)过程管控:通过操作、服务的编排实现各项运维活动的串联与管控,提升运维活动效率的能力;

d)执行管控:利用自动化技术或手段,安全高效地以自动化方式执行运维操作并验证成果,以及

在异常情况下运维人员可对执行活动进行干预的能力;

e)自动控制能力需设立可评估或可量化的指标,评估指标包括但不限于:

1)自动化接口集成成功率:成功创建和维护自动化接口与协议的比例,确保各种IT资源(如

应用系统、服务器等)能够无缝接入。通过自动化测试和日常运维记录,计算成功集成的

次数占总尝试次数的比例;

2)服务响应时间:用户发起服务请求到系统做出响应的平均时间;

3)服务可用性:通过系统的运行时间记录,计算在总时间内服务可用的比例;

4)身份验证成功率:用户或自动化任务在进行身份验证时,成功通过的比例;

7

DB15/T4065—2025

5)合规性检查通过率:自动化IT运维任务和用户操作在符合运维政策和监管标准方面的合

格率;

6)流程编排效率:通过工具自动化编排运维活动的效率,通常指完成特定任务所需的时间;

7)异常处理能力:在运维过程中出现异常情况时,系统能够多快恢复或通知相关人员进行干

预;

8)业务恢复时间:在面临威胁时恢复正常业务的速度;

9)自动化执行覆盖率:通过自动化技术执行的运维操作占所有运维操作的比例;

10)执行结果验证准确率:自动化执行后,对执行结果进行验证的准确率。

7IT运维大模型场景实现

场景分析

场景分析是通过前期调研和评估,确定场景构建的方案和计划,应遵守以下要求:

a)明确预期场景实现目标,如提高管理质量、降低故障时间、提升运维效能、节省人力成本、提

升用户体验等;

b)评估场景实现的可行性,包括成本、收益、资源投入等;

c)识别场景实现的共性需求,优先采用平台化建设思路,避免功能重复建设;

d)评估相关场景对现状的影响,如组织、过程、相关方等,并制定风险应对措施;

e)根据场景复杂度、技术实现难度、数据质量情况、资源支持情况、需求紧迫性等,明确场景构

建的阶段和步骤,混合场景可拆分成多个单一场景分阶段实现;

f)重点评估数据需求,结合场景特点,确定所需数据的时效要求、质量要求、数据范围、采集方

法、存储方式等;

g)重点评估安全要求,考虑数据访问权限控制、信息保密、模型修正、失效补偿等;

h)以合理的颗粒度拆解场景涉及到的具体活动,可采用列举、分析、归纳等方法,识别场景实现

的运维角色、运维活动、运维对象、智能特征等;

i)基于数据管理、分析决策、自动控制能力,确定待建设的能力项和待提升的能力要素;

j)设立可评估或可量化的指标,如故障发现准确率、平均故障修复时间等;

k)根据场景分析的结论,形成场景构建方案和计划。

场景构建

场景构建是按既定方案和计划开展场景相关能力建设,应遵守以下要求:

a)按照场景构建方案和计划,研发、优化、建设相关能力项;

b)根据具体场景进行能力项组合,重点关注能力项的可复用性;

c)确保场景构建过程可追溯,交付结果可计量或可评估;

d)重点关注数据质量和模型运行效果;

e)对于涉及自动化和批量操作的场景,增加必要的约束措施,设计安全控制点和回退功能;

f)测试和验证关键场景的高可用性,并制定失效补偿措施;

g)将规则知识、专家经验、模型训练结果等固化到信息系统中;

h)关注各系统间的数据打通和流程联动;

i)场景构建需要包含IT运维大模型微调与优化部署,满足IT运维大模型相关能力指标要求。

(常见IT运维大模型场景说明参见附录A)

场景交付

8

DB15/T4065—2025

场景交付是场景构建完成后进行实施交付及配套活动,应遵守以下要求:

a)按既定计划完成场景实施交付,交付物包括但不限于交付方案、使用手册、应急预案等;

b)开展培训工作,如场景的使用、运维、应急处理等;

c)开展试点和推广工作;

d)开展测试验收工作;

e)开展关键指标适配、调优工作,如资源交付的效率、根因定位的准确率等。

评估方法

场景交付后需评估是否达到预期效果,并设定下阶段迭代目标,应遵守以下要求:

a)建立评估机制,组织相关方开展效果评估;

b)评估已建场景是否满足既定目标,对未达目标或指标的情况开展原因分析;

c)与利益相关者建立顺畅的沟通渠道,对意见做好收集与反馈;

d)评估已建场景是否满足运维相关安全要求;

e)制定改进措施和提升计划,并持续改进、快速迭代。

9

DB15/T4065—2025

A

A

附录A

(资料性)

常见IT运维大模型场景说明

在IT运维大模型场景实现过程中,宜从实际出发,立足当前运维痛点,从场景切入,由点到面进行IT

运维大模型体系建设,并通过设立评价指标对实施效果进行测量,确保已建场景满足既定运维目标并有

效体现大模型特征。本附录选取和描述了常见IT运维大模型场景,说明见表A.1。

表A.1常见IT运维大模型场景说明

B场景描述关键指标智能特征目标

该场景通过超文本传输协议(HTTP)请

求、传输控制协议/网际协议(TCP/IP)

应用系统异常拨测率

应用系统异请求、应用系统应用程序编程接口

=拨测发现异常对象会诊断

常拨测(API)请求等不同形式,对应用系统运

数/总异常对象数

行状态进行自动拨测,根据响应结果发

现异常并告警

该场景通过自动化方式对系统、中间

快速处置率=处置对

快速处置件、数据库、应用系统等运维对象执行自执行

象数/总对象数

启停、切换等便捷操作

该场景通过算法或规则,将无效和重复

告警聚合率=1-聚合

告警聚合等相同原因触发的告警合并为一个告会诊断质量可靠:

后告警数/总告警数

警在事前、事中、事后

该场景通过实时海量数据处理、非结构的各方面,有效提高

能感知、可决

化数据识别、数据关系挖掘等方式,对故障自愈率=自愈故运维服务对象的运行

故障自愈策、会诊断、自

故障场景特征精准识别,并自动调用预障数/总故障数稳定性和可靠性

执行

设的应急动作,实现业务的快速恢复

该场景通过实时收集运维对象的业务异常发现准确率=有

交易量、成功率、耗时、系统性能、日效告警数/总告警数;自适应、自学

异常发现志等数据,利用机器学习训练历史数据异常发现漏报率=(应习、能感知、会

运行模型,实时检测运行数据,实现快告警数-有效告警诊断

速发现运维对象的运行异常状态数)/应告警数

故障影响分析准确率

该场景通过综合分析业务、应用系统间

故障影响分=影响范围分析正确可决策、会描

依赖关系和配置数据,实现快速准确地

析的故障数量/故障总述

推断某个故障的影响范围和程度

10

DB15/T4065—2025

表A.1常见IT运维大模型场景说明(续)

场景名称场景描述关键指标智能特征目标

该场景通过排障决策树、对象关联图故障根因定位准确率

谱、故障传播影响分析等方式,实现对=准确推荐根因故障能感知、可决

故障根因定版本变更、业务参数调整、代码逻辑或数/总推荐根因故障策、会诊断、自

位基础设施故障带来的各种大规模、并发数;故障根因定位覆学习、自适应、

异常告警进行根因分析定位和根因故盖率=准确推荐根因会描述

障推荐故障数/总故障数

该场景通过收集和处理运维对象历史质量可靠:

运行数据和故障数据,建立不同技术领在事前、事中、事后的

故障预测准确率=准自学习、会诊

故障预测域的故障模型,提取故障特征,归纳故各方面,有效提高运

确预测数/总预测数断

障演化规律,实现对运维对象运行趋势维服务对象的运行稳

的动态预测定性和可靠性

该场景通过自动收集运维对象信息,如

性能数据、状态数据、技术数据和日志

健康检查覆盖率=自能感知、会描

数据等,利用同类运维对象的横向比

健康检查动健康检查运维对象述、可决策、会

较、历史数据分布比较、最佳实践基线

数/总运维对象诊断、自执行

比较等方式,实现精准、快速、全方位

地评估运维对象健康度

通过采用软件定义网络(SDN)技术架

构,对网络资源统一调度、集中管理、

网络堵塞年度减少次

智能网络负实时计算,实现网络数据的快速转发、会诊断、自执成本降低:

数=上一年度发生数-

载高效传输,并根据网络质量智能选路、行在基础设施、应用系

本年度发生数

业务路径调优,充分利用网络资源,降统等运维领域(资源)

低使用成本方面,有效降低服务

该场景利用软件机器人,根据运维工单对象的运行和管理成

工单自动化率=自动

运维工单流流程,以更快的速度、更高的准确率实本

化工单流程的数量/自执行

程自动化现运维工单自动化填写等操作,有效代

运维工单流程的总数

替人工并降低成本

11

DB15/T4065—2025

表A.1常见IT运维大模型场景说明(续)

场景名称场景描述关键指标智能特征目标

在云环境下,对一组或多组资源指标进

行有效监控,根据资源使用情况进行动

态伸缩,当资源不足时,利用资源分配

算法动态调度部署节点,并加入到当前资源调整自动化率=能感知、自学

资源弹性伸

的运行环境,当资源利用率很低时,能自动化调整资源次数习、可决策、自

回收资源,避免资源的浪费,如数据库/总调整资源次数执行、自适应

扩容、私有云的动态伸缩、文件系统、

内存、中央处理器(CPU)等动态扩容或

收缩等

该场景通过实时或定期自动收集CPU、

I/O、内存、日志信息等应用系统性能应用系统性能预测准能感知、自学

应用系统性

相关数据,利用相关模型及算法,对应确率=准确预测数/总习、可决策、自

能预测成本降低:

用系统性能消耗资源进行精准预测,实预测数执行、自适应

在基础设施、应用系

现资源合理划分,降低运行成本

统等运维领域(资源)

不同应用服务资源消耗偏好不一样(包

方面,有效降低服务

括计算密集型、内存密集型、I/O密集

对象的运行和管理成

型等等),同一应用服务在不同时间资应用混合部署自动化

能感知、自学本

应用智能混源消耗也不一样,不加区分的同比例资率=自动化混合部署

习、可决策、自

合部署源分配会造成部分资源的闲置浪费。通次数/总混合部署次

执行、自适应

过智能计算和预测将不同资源类型的数

服务自动在同一主机上混合部署,能有

效提高主机各方面资源的综合利用率

通过智能运维对机房能耗进行优化,综

合监控、日志、环境等数据建立模型,

实时数据进行迭代,通过大模型算法对能感知、自学

机房能耗智

能耗进行分析,对电能利用效率(PUE)PUE下降百分比习、可决策、自

能优化

进行预测并智能生成优化方案,降低非执行、自适应

计算方面的能耗,从而降低数据中心整

体运行PUE,实现绿色数据中心

12

DB15/T4065—2025

表A.1常见IT运维大模型场景说明(续)

场景名称场景描述关键指标智能特征目标

自动化巡检能将硬件状态、设备负载、

系统时间、磁盘空间、线路流量、数据日常巡检自动化率=

日常巡检自

库表空间使用率、网络设备端口状态、自动巡检任务数/总自执行

动化

流量等进行自动巡检,并形成符合要求巡检任务数

的巡检报告

通过向客户端下发备份副本、配置信

息、环境参数,备份业务数据,并停止客

户端应用服务,然后批量自动下发新版软件分发配置自动化

软件分发配本的安装配置文件、动态链接库(DLL)率=自动化分发的运

自执行

置自动化文件等,最后启动客户端应用服务,对维对象数量/运维对

应用系统的服务状态与相关日志信息象总数

进行检查,以确认软件分发和配置工作

自动部署、灰度发布成功完成效率提升:

机器人巡检准确率=有效提高各运维行为

该场景利用多传感器融合、软件探测和正确巡检隐患数量/的时效性和准确性

能感知、会诊

服务编排等技术,对运维对象定期巡实际隐患数量;机器

机器人巡检断、可决策、自

检,根据规则判定并给出巡检结果,提人巡检自动化率=机

执行

升工作效率器完成的巡检任务数

/需完成的总任务数

该场景通过文本识别、图像识别、语音知识检索率=被检索能感知、会描

运维知识库

识别、知识图谱等技术,实现运维知识使用的知识条目数/述、自学习、可

智能应用

检索、推荐、归纳、展示等知识总条目数决策

该场景通过利用自动化脚本、自动化流

能感知、可决

程、智能算法对运维活动中大量重复、智能作业调度准确率

智能作业调策、会诊断、自

复杂的作业进行智能化编排,实现作业=完成作业正确数/作

度执行、自适应、

时间短、质量高、资源利用均衡等目标,业执行息数

自学习

降低运维人员压力,提升运维服务效能

13

DB15/T4065—2025

表A.1常见IT运维大模型场景说明(续)

场景名称场景描述关键指标智能特征目标

威胁IP检测准确率识

该场景根据制定的规则,自动化快速识

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论