CESA-2024《信息技术 云计算 云原生可观测技术要求》_第1页
CESA-2024《信息技术 云计算 云原生可观测技术要求》_第2页
CESA-2024《信息技术 云计算 云原生可观测技术要求》_第3页
CESA-2024《信息技术 云计算 云原生可观测技术要求》_第4页
CESA-2024《信息技术 云计算 云原生可观测技术要求》_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS

CCS

团体标准

T/CESAXXXX—202X

信息技术云计算云原生可观测技术要求

Informationtechnology-Cloudcomputing-Technicalrequirementsforcloud

nativeobservability

征求意见稿

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上;

已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申

请证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利

申请号和申请日期;

202X-XX-XX发布202X-XX-XX实施

中国电子工业标准化技术协会发布

T/CESAXXXX—202X

目  次

前言.................................................................................III

1范围.................................................................................1

2规范性引用文件.......................................................................1

3术语和定义...........................................................................1

4缩略语...............................................................................1

5云原生可观测技术架构.................................................................2

6云原生中间件可观测技术要求...........................................................2

6.1中间件采集指标....................................................................2

6.2中间件日志........................................................................3

6.3中间件告警........................................................................3

6.4中间件自动巡检....................................................................3

6.5中间件可视化......................................................................3

7集群可观测技术要求...................................................................3

7.1集群采集指标......................................................................3

7.2集群日志..........................................................................4

7.3集群告警..........................................................................4

7.4集群自动巡检......................................................................4

7.5集群可视化........................................................................4

8云原生应用CI/CD可观测技术要求.......................................................5

8.1CI/CD采集指标....................................................................5

8.2CI/CD日志........................................................................5

8.3CI/CD告警........................................................................5

8.4CI/CD可视化......................................................................5

9云原生应用运行可观测技术要求.........................................................6

9.1应用采集指标.....................................................................6

9.2应用日志.........................................................................6

9.3应用告警..........................................................................6

9.4应用链路追踪.....................................................................6

9.5应用自动巡检......................................................................6

9.6应用可视化........................................................................7

II

T/CESAXXXX—202X

信息技术云计算云原生可观测技术要求

1范围

本文件规定了云原生中间件、云原生应用持续集成与交付、云原生应用运行等方面的可观测技术要

求。

本文件适用于云服务提供商、运营商、以及应用云原生技术的企业和组织,研发、部署和优化云原

生系统,为用户选用云原生可观测产品提供参考。

2规范性引用文件

下列文件对于本文件的应用是必不可少的;凡是注日期的引用文件,仅注日期的版本适用于本文件;

凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件;

GB/T32399-2015信息技术云计算参考架构

GB/T32400-2015信息技术云计算概览与词汇

GB/T31167-2014信息安全技术云计算服务安全指南

GB/T25000.51-2016系统与软件工程系统与软件质量要求和评价(SQuaRE)第51部分:就绪可

用软件产品(RUSP)的质量要求和测试细则

GB/T42140-2022信息技术云计算云操作系统性能测试指标和度量方法

3术语和定义

GB/T32399-2015、GB/T32400-2015、GB/T31167-2014中界定的以及下列术语和定义适用于本文

件;为了便于使用,以下重复列出GB/T32400-2015和GB/T31167-2014中部分术语;

3.1

云原生cloudnative

基于云计算架构设计和构建应用程序的技术集合和方法。

注:利用云原生构建的应用具备弹性、敏捷、松耦合、易交付、易观测等特征。

[GB/T44158-2024,3.2]

3.2

可观测Observability

度量和观测云基础设施、云服务或云应用程序运行状态能力。

4缩略语

下列缩略语适用于本文件;

CI/CD:持续集成/持续交付(ContinuousIntegration/ContinuousDelivery)

1

T/CESAXXXX—202X

JVM:Java虚拟机(JavaVirtualMachine)

GC:垃圾回收(GarbageCollection)

5云原生可观测技术架构

云原生可观测技术架构见图1。基于云原生应用生存周期,包括云原生应用运行支撑可观测、云原

生应用持续集成与交付可观测、云原生应用运行可观测三部分。

图1云原生可观测技术架构

其中,云原生应用运行支撑可观测:对支撑云原生应用运行的中间件和集群进行观测和度量,包括

日志、告警、巡检和可视化等。

云原生应用持续集成与交付可观测:对云原生应用构建、测试、部署过程进行观测和度量,以实现

开发过程监控和分析。

云原生应用运行可观测:对云原生应用的运行状态进行观测和度量,以实现对云原生应用性能监控

和用户体验优化。

6云原生中间件可观测技术要求

6.1中间件采集指标

a)应采集数据库查询指标,如查询响应时间、查询吞吐量等;

b)应采集数据库事务指标,如事务吞吐量、事务延迟等;

c)应采集数据库复制和备份指标,如主从复制延迟、备份起止时间等;

d)应采集消息队列消息处理指标,如消息吞吐量、重试次数等;

2

T/CESAXXXX—202X

e)应采集消息队列长度指标,如队列大小、队列积压消息数量等;

f)应采集缓存命中率指标,如全局命中率、缓存键命中率等;

g)应采集缓存大小指标,如缓存系统总体用量、已用容量、缓存键大小等;

h)应采集网关吞吐量指标,如每秒请求数、数据传输速率等;

i)应采集中间件系统网络连接指标,如客户端总连接数、并发连接数、连接池使用情况等;

j)应采集各类中间件系统资源使用指标,如CPU、内存和磁盘使用率等。

6.2中间件日志

a)应记录数据库查询和事务执行日志,如慢查询、事务启动、提交和回滚等日志;

b)应记录数据库异常日志,如死锁、超时、备份失败、连接失败等日志;

c)应记录数据库审计日志,如权限分配、表结构变更等日志;

d)应记录消息队列异常日志,如连接错误、消息发送失败、消费异常等日志;

e)应记录网关异常日志,如请求转发失败,响应超时等日志;

f)应记录缓存异常日志,如连接错误、缓存过期等日志。

6.3中间件告警

a)应具备数据库异常告警能力,如连接失败或异常断开、连接池过载、处理超时、执行时间超

出预期阈值等告警;

b)应具备中间件资源异常告警能力,如CPU、内存、磁盘的资源利用率超出阈值告警等;

c)应具备消息队列状态异常告警能力,如消息队列无法访问、队列长度超过或低于阈值、队列

流量超出正常范围等告警;

d)应具备消息队列异常告警能力,如消息丢失或重复消费、消息发送或接收失败、消息处理错

误、消息处理时间超出阈值、消息队列积压等告警;

e)应具备缓存异常告警能力,如缓存命中率过低、缓存系统无法访问、缓存失效等告警;

f)应具备网关异常告警能力,如转发失败、错误率上升等告警。

6.4中间件自动巡检

a)应具备中间件健康状态巡检能力,如启动检测、探活检测、就绪检测等;

b)应具备数据库巡检能力,如巡检数据库备份、数据恢复完整性等;

c)应具备缓存系统巡检能力,如巡检缓存策略合理性、缓存数据一致性等;

d)宜具备中间件安全巡检能力,如巡检权限分配合理性、数据加密、安全漏洞等。

6.5中间件可视化

a)应展示数据库性能状态,如查询响应时间,锁等待时间等;

b)应展示消息队列视图,如消息队列长度、队列堆积数量等;

c)应展示网关吞吐量视图,如每秒请求数、数据传输速率等;

d)应展示中间件网络连接视图,如连接数、活跃连接数等;

e)应展示中间件运行状态,如中间件是否可用、在线时长等。

7集群可观测技术要求

7.1集群采集指标

3

T/CESAXXXX—202X

a)应采集集群CPU指标,如使用率、温度、调度策略、缓存大小等;

b)应采集集群内存指标,如内存总量、使用率、内存缺页、换页等;

c)应采集集群网络指标,如节点网络带宽使用率、TCP连接延时、集群流量大小等;

d)应采集集群存储指标,如IO耗时、IOPS、磁盘使用大小等;

e)应采集集群状态指标,如集群节点状态、服务运行状态等;

f)应采集集群容器指标,如容器启停时间、重启等;

g)应采集资源使用指标,如集群总资源量、资源使用量、子系统资源使用量等;

h)宜采集集群加速处理单元指标,如GPU、NPU、TPU的使用率、温度等;

i)宜采集集群调度指标,如Pod排队时间、Pod调度时长、调度成功率等;

j)宜采集集群管理单元指标,如apiserver、kube-scheduler、etcd等。

7.2集群日志

a)应记录集群硬件日志,如服务器、存储设备、网络设备等日志;

b)应记录集群节点日志,如内核日志、启动日志等;

c)应记录集群容器日志,如运行日志、错误日志等;

d)应记录集群事件日志,如集群管理和操作行为、配置变更等日志;

e)应具备日志查询能力,如按硬件设备类型、资源类型、时间等标签进行搜索或筛选。

7.3集群告警

a)应具备集群硬件异常告警能力,如硬件设备不可用、负载异常等告警;

b)应具备集群节点异常告警能力,如节点宕机、负载异常等告警;

c)应具备集群容器异常告警能力,如容器状态异常、容器状态频繁切换等告警;

d)应具备服务异常告警能力,如服务无法响应、延迟增加、错误率上升等告警;

e)应具备集群资源异常告警能力,如资源利用率超过阈值告警等;

f)应具备负载均衡异常告警能力,如负载均衡器故障、负载不均衡等告警;

g)应具备集群存储异常告警能力,如存储系统故障、存储容量不足、存储性能下降等告警;

h)应具备集群网络异常告警能力,如节点间网络异常、流量超过阈值等告警;

i)应具备安全告警能力,如发现安全漏洞、未经授权访问、恶意攻击等告警;

j)宜具备集群调度异常告警能力,如服务调度失败、调度等待时间过长等告警。

7.4集群自动巡检

a)应具备集群硬件状态巡检能力,如巡检服务器、存储设备、网络设备等;

b)应具备集群软件状态巡检能力,如巡检软件运行状态、版本合理性等;

c)应具备集群资源巡检能力,如巡检CPU使用率、内存使用率、磁盘使用率、网络使用率等;

d)应具备负载均衡巡检能力,如巡检负载均衡器运行状态、负载异常情况等;

e)应具备集群存储巡检能力,如巡检存储容量、存储性能、数据完整性等;

f)应具备集群网络巡检能力,如巡检网络配置、防火墙规则、网络拓扑合理性等;

g)宜具备集群灾备巡检能力,如巡检数据备份情况、数据完整性和可靠性等;

h)宜具备集群安全巡检能力,如审查权限与访问控制、扫描漏洞等。

7.5集群可视化

a)应展示节点拓扑情况,如节点区域位置、节点间连接关系等;

b)应展示资源利用情况,如节点或服务的CPU、内存、磁盘、网络使用率等;

4

T/CESAXXXX—202X

c)应展示服务健康状态,如服务可用性、错误率等;

d)应展示容器状态,如启动时间、运行时间、资源分配等;

e)应展示负载均衡状态,如负载均衡器连接数、负载情况等;

f)应展示存储状态,如存储设备状态、存储容量、存储资源使用情况等;

g)应展示集群网络情况,如入站流量、出站流量、流量来源和目的地、网络延迟等。

8云原生应用CI/CD可观测技术要求

8.1CI/CD采集指标

a)应采集代码指标,如构建成功率、构建次数、构建耗时、审查耗时、修复时长等;

b)应采集测试指标,如测试用例执行通过率、测试用例执行次数、测试覆盖率等;

c)应采集部署指标,如部署成功率、部署持续时间、部署频率、部署前置时间等;

d)应采集镜像构建指标,如镜像构建时长、镜像层数等;

e)应采集代码质量分析指标,如代码复杂度、代码重复度、代码风格一致性等;

f)宜采集代码安全分析指标,如内存泄露、空指针引用、SQL注入等;

g)应采集CI/CD基础设施指标,如代码库可用性、服务器故障等;

h)宜采集故障指标,如故障发生时间、故障恢复时间等。

8.2CI/CD日志

a)应记录代码检出日志,如代码提交、分支合并等操作日志;

b)应记录代码构建日志,如编译、打包、依赖安装等操作日志;

c)应记录测试日志,如每个测试用例执行情况、测试结果、错误信息等日志;

d)应记录镜像构建日志,如镜像拉取、构建步骤执行信息等日志;

e)应记录服务部署日志,如镜像拉取、程序启停等日志;

f)应记录流水线日志,如完整执行起止时间、异常信息等日志。

8.3CI/CD告警

a)应具备代码检出异常告警能力,如代码克隆失败、代码拉取耗时等告警;

b)应具备代码构建异常告警能力,如构建失败、构建耗时等告警;

c)应具备测试异常告警能力,如测试用例执行失败、代码覆盖率不足等告警;

d)应具备部署异常告警能力,如程序启动失败、部署耗时过长等告警;

e)应具备镜像告警能力,如镜像安全、镜像分层过多、镜像大小等告警;

f)应具备代码质量异常告警能力,如代码复杂度过高、变量命令不规范等告警;

g)应具备代码安全告警能力,如代码或依赖库存在安全漏洞告警等;

h)应具备CI/CD基础设施异常告警能力,如构建代理异常、容器异常、资源不足等告警;

i)宜具备CI/CD管道异常告警能力,如管道持续时间、步骤失败等告警。

8.4CI/CD可视化

a)应展示构建阶段状态,如构建总次数、成功率等;

b)应展示测试情况,如测试用例执行结果、测试覆盖率热力图等;

c)应展示部署状态,如部署起止时间、部署状态、部署版本、部署历史等;

d)应展示任务队列状态,如运行任务、成功任务、失败任务、排队任务等;

5

T/CESAXXXX—202X

e)应展示流水线,如代码克隆、编译、打包、镜像制作等各阶段起止时间;

f)宜展示TopK任务情况,如构建耗时、失败次数、部署总次数等;

g)宜展示条件查询情况,如按照时间、应用、版本等查询应用。

9云原生应用运行可观测技术要求

9.1应用采集指标

a)应采集应用资源使用指标,如CPU或内存的总量、使用量等;

b)应采集应用内部状态指标,如线程调度、JVMGC状态等;

c)应采集API接口指标,如请求次数、响应时间、失败率等;

d)应采集前端页面指标,如页面加载时间、阻塞时间、页面元素点击次数等;

e)应采集用户体验指标,如用户在页面停留时间等;

f)应采集应用稳定性指标,如在线时长、故障时长等;

g)应采集应用网络指标,如新建连接数、并发连接数等;

h)宜采集业务运行安全指标,如读取敏感文件、启动恶意进程等;

i)宜采集应用成本指标,如服务器、存储、网络费用等;

j)宜采集函数计算业务指标,如实例启动耗时、运行时长等。

9.2应用日志

a)应记录前端页面日志,如JavaScript/Typescript错误、资源加载错误等日志;

b)应记录API日志,如请求时间、HTTP方法、URL、状态码、响应时间、响应体大小等日志;

c)应记录应用日志,如应用输出、应用错误、应用崩溃等日志。

9.3应用告警

a)应具备API异常告警能力,如响应时间、错误率、延迟等告警;

b)应具备前端页面异常告警能力,如页面加载错误等告警;

c)应具备应用日志告警能力,如应用ERROR日志、程序启动失败、应用崩溃等告警;

d)应具备应用资源利用异常告警能力,如资源利用率、内存泄露等告警;

e)应具备应用内部状态异常告警能力,如线程池满、JVM频繁GC等告警;

f)应具备用户体验告警能力,如用户活跃度下降等告警。

9.4应用链路追踪

a)应具备完整的请求追踪能力,包括请求发起、请求路径、请求参数、服务过程、调用时长、

结束时间等;

b)应具备服务依赖追踪能力,如请求经过的所有服务节点、服务间调用关系等;

c)宜具备关联日志能力,实现请求过程关联日志;

d)宜具备分布式追踪能力,跨服务或跨组件进行请求传递和处理。

9.5应用自动巡检

a)应具备应用状态巡检能力,如启动检测、探活检测、就绪检测等;

b)应具备应用容量巡检能力,如巡检CPU、内存、存储等资源容量;

c)宜具备应用安全巡检能力,如检查访问控制、扫描漏洞等;

6

T/CESAXXXX—202X

d)宜具备应用配置巡检能力,如巡检程序使用的数据库、缓存配置等。

9.6应用可视化

a)应展示应用状态,如服务运行状态、服务运行时间等;

b)应展示应用负载状态,如CPU、内存使用率等;

c)应展示服务拓扑情况,如服务组件、服务实例、服务部署位置等;

d)应展示应用依赖关系,如服务调用关系、数据流向等;

e)应展示API调用情况,如响应时间、调用次数、错误率等;

f)宜具备全链路可视化,如展示请求路径、网络传输情况、服务调用情况等;

g)宜展示链路关联日志情况,如针对异常链路展示调用方和被调用方的错误日志等;

h)宜展示请求链路查询情况,如按应用、API、用户ID、IP等多维度搜索过滤。

7

中国电子工业标准化技术协会

团体标准《信息技术云计算云原生可观测技术要求》(征

求意见稿)编制说明

一、工作简况

1、任务来源

根据中国电子工业标准化技术协会下达的2024年第九批团体标准制修订项

目,团体标准《信息技术云计算云原生可观测技术要求》由中国电子技术标准

化研究院、中移(苏州)软件技术有限公司等单位起草,其项目计划号为

CESA-2024-144。

2、主要工作过程

a)标准需求调研

传统监控与诊断工具难以满足云原生应用可观测需求,云原生可观测技术对

于确保云原生架构下应用、服务的高可靠性、高效性、安全性和可调试性至关重

要。相比传统应用,云原生应用采用了一种更加分布式、可弹性伸缩的架构,并

常使用微服务架构,将应用程序拆分为一系列小而自治的服务单元,以实现更加

灵活的开发和部署。同时,云原生应用还倡导持续交付的原则,通过自动化和自

愈能力,实现更快的更新和修复。因此,为了全面监控和诊断云原生应用的运行

状态,需要对云原生可观测总体技术架构进行统一规范,覆盖云原生架构下应用

程序和服务的全生命周期。

目前,云原生可观测领域暂未形成相关国家和行业标准参考。而云原生可观

测技术已经得到了广泛的应用,业界已有很多成熟的开源工具和框架。本标准旨

在定义和规范云原生可观测总体技术要求,完善我国云原生相关标准体系,引导

国内云计算产业与云原生可观测技术融合应用。

2023年8月起,在TC28/WG20全国信标委云计算标准工作组的组织下,通过召

开云计算标准会议周对云原生可观测标准化工作进行了首次调研,行业与会专家

对该标准的重要性和意义表示支持认可。

b)标准预研

中国电子工业标准化技术协会

在2023年11月至2024年4月期间,工作组组织行业专家代表参与起草研讨,

分别进行了多次线上和线下的技术研讨,对于标准草案的技术框架和范围进行了

初期的明确。

c)标准立项

2024年8月,在工作组的协调沟通下,标准预研起草核心团队参加了中国电

子工业标准化技术协会组织的团体标准立项评审会议。本标准预研单位代表对该

标准技术框架和主要内容等方面进行了汇报阐述,最终顺利通过立项评审。

d)成立标准编制组,明确标准对象和范围

2024年9月,工作组基于前期预研阶段参与单位代表,以及通过多种渠道方

式征集标准参编单位,成立了标准编制组,建立联络方式和工作机制,确定将通

过线上线下、专题等形式开展标准讨论和意见处理。同期进行了标准研讨,进一

步明确了标准对象、范围,对标准框架等。

e)编制形成标准草案

2024年9月,工作组组织召开标准研讨会议,主要针对迭代修改后的草案内

容、以及征集到的意见建议展开讨论,对标准草案完成了优化。

f)形成标准征求意见稿

2024年10月,工作组组织召开线上研讨会议,会上专家代表对标准草案进行

评审,对标准内容基本达成一致,形成了该标准征求意见稿。

3、参加单位

本标准的起草单位有:中国电子技术标准化研究院、中移(苏州)软件技术

有限公司、华为云计算技术有限公司、江苏博云科技股份有限公司、浪潮云信息

技术有限公司、杭州谐云科技有限公司、腾讯云计算(北京)有限责任公司、北

京百度网讯科技有限公司、云宏信息科技股份有限公司、阿里云计算有限公司、

广州市品高软件股份有限公司、浪潮电子信息产业股份有限公司、北京华胜天成

科技股份有限公司、中移系统集成有限公司

二、标准编制原则和确定主要内容的论据及解决的主要问题

1、编制原则

本标准制定过程中,主要遵循了如下几个原则:

a)符合国家的有关政策法规要求;

中国电子工业标准化技术协会

b)与已颁布实施的相关标准相协调;

c)结合产业对实际应用需求;

d)充分考虑我国云计算领域的实际技术水平和发展应用,满足应用基本要

求,并对先进技术保持兼容性。

2、确定主要内容的依据

本标准吸纳了云原生开源项目的先进技术成果,兼顾技术发展的趋势,提炼

关键技术要素。

3、编制解决的主要问题

本标准规定了云原生可观测总体技术要求,包括云原生业务、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论