2024基于业务稳定性治理和故障应急实践_第1页
2024基于业务稳定性治理和故障应急实践_第2页
2024基于业务稳定性治理和故障应急实践_第3页
2024基于业务稳定性治理和故障应急实践_第4页
2024基于业务稳定性治理和故障应急实践_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于1-5-10的业务稳定性治理和故障应急实践目录应急响应中心建设基于故障的数据运营B站应急响应体系设计理念未来规划与展望01B站应急响应体系设计理念为什么我们要建设应急响应体系?行业故障频发,引起高度重视行业故障频发,热搜不断B站也不例外,各种各样case不断…故障处理时效达不到预期故障处理时间长、应急协同混乱多次出现热搜类故障同样类型的故障多次出现…故障处置数据难以追溯、衡量相比去年稳定性做的好还是不好?缺乏量化数 据故障1-5-10数据怎么样、如何提高?故障召回率低,客服和技术脱节?...GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

稳定性保障面临的挑战定界、定位困难应急响应机制不健全、快恢能力薄弱预案少、新鲜度低,应急手忙脚乱发现时间不稳定,耗时难以预测服务语言多样,监控指标不统一,关键监控覆盖不全、告警噪音多故障诱因多样,入口多代码变更、配置变更、定时策略、缓存过期、压测、突发活动01GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

020403链路复杂变更难以对齐、根因分析不完善、缺乏可观测B站应急响应体系发展历程2019应急响应1.0时代建设故障平台,侧重于事后复盘基于告警、客诉的匆忙应急被动响应20232022应急响应2.0时代引入事中通告,故障订阅能力建设SLO理念,基于SLO告警,群协同机制被动响应应急响应3.0时代主动业务风险摸排,风险巡检建设ERC中心,打通客服&SLO&内部反馈打通ERC&可观测,AIOps根因推荐故障应急协同能力建设进行时故障全生命周期管理故障数据运营2024GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

B站应急响应体系故障应急体系风险摸排、安全生产代码质量变更管控1-5-10摸排变更阻断客诉SLO故障召回业务指标内部反馈舆情定界、定位变更溯源根因分析可观测快恢切流回滚降级 限流扩容复盘、待办损失时间线故障原因定级待办容量管理混沌工程故障预防故障发现故障定位故障恢复故障改进质量控制应急响应GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

复盘反思总结02应急响应中心建设ERC:应急响应中心MT

T

R确认

止损

恢复

定界

定位

响应

识别

发生

故障

MT

T

FMe

a

n

T

i

m

e

T

o

F

i

xMT

T

IMe

a

n

T

i

m

e

T

o

I

d

e

n

t

i

f

yMT

T

KMe

a

n

T

i

m

e

T

o

K

no

wMT

T

VMe

a

n

T

i

m

e

T

o

V

e

r

i

f

y定界:确定故障影响范围和大概范围,为了更加准确的应急GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

定位:找到故障的具体原因,问题根源例如:变更导致可用率下跌定界:通过可观测找到应用coredump定位:debug找到具体某行代码止损:防止故障扩散,更快的处置行为恢复到可接受状态恢复:业务完全恢复到故障前的状态例如:xx功能能异常止损:业务开启热降级,功能基本可用恢复:业务完全可用Emergency

Response

Center:应急响应中心对故障全生命周期管理1分钟发现,5分钟处置,10分钟恢复防止能预见的问题快速恢复不能预防的问题不再重复已发生的问题面向故障建设平台能力SLOERC(应急响应中心)客服系统应急协同电话升级告警中心策略平台策略下发客诉根因推荐低阈值内部报障内部反馈故障召回SLO工程低阈值指标业务指标客服单业务客诉>N客服和技术应急打通内部报障内部人员反馈告警升级、舆情策略管理应急协同策略管理SLO预定义、客服反馈&业务干系人关系故障升级策略联动故障预案其他故障全生命周期管理故障订阅GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

故障召回:故障预定义SLO低阈值、业务指标应用SLO、场景SLO故障阈值管理、持续时间管理自动创建应急协同群、复用原有群干系人管理故障升级策略…客服召回:客诉业务域、客诉量客诉业务域、技术组织域关联关系规约:首次客诉时间、客诉聚集性业务域故障通用话术…通用故障能力告警升级故障开放api,业务自定义故障,复用故障能力…GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

故障召回:客服痛点没有故障优先级,紧急故障容易被淹没没有紧急故障规约,紧急故障得不到高优处理故障干系人拉不全,协同效率低没有升级渠道消息触达老板慢….客服&技术应急响应客诉反馈&技术组织业务树打通,一键应急响应客诉>N,直接触发故障应急2分钟无人响应,电话升级拉通干系人报障群客服老板ERC反馈客诉研发重大故障(升级)客服高优客诉录入客诉>N应急协同老板&干系人故障通告故障处置线上客诉反馈故障,处理效率提升10倍客诉应急响应GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

故障召回:技术指标故障处理研发&SRESLO老板应急协同告警拉群重大故障(升级)ERC低阈值定为、定界老板&干系人故障通告预案执行SLO&业务应急响应告警响应SLO&业务指标SLO&业务指标应急协同自动建故障应急群、故障处理过程可视关注故障的同学一键入群一键故障通告:TC故障推送电话升级:3分钟无人接手痛点面向告警的匆忙应急,可能对用户压根没影响核心场景缺乏电话告警故障干系人拉不全,协同效率低消息触达老板慢….GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

应急协同:故障过程可观测根因推荐基于链路告警分析变更墙快速定位变更诱因基于链路故障下钻、根因推荐…基础分析下钻可用区聚集性、错误码分布、

Top占比实例链路变更可观测可观测大盘…处置过程可观测故障发生、发现、响应、进展更新、恢复过程可观测止损、恢复方式可观测操作记录可观测…GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

应急协同:快恢多活快恢组建快恢分布式,具备基础容灾限流:防止组建过载,SLB限流、DB限流、SQL黑名单,GW联动

App流控故障切换:主从切换、SLB域名迁移、DCDN切换自建【三方】集群重建:一键重建SLB、缓存、MQ…微服务快恢连接数控制限流:0信任caller限流BBR:自我保护弱依赖熔断、降级,ssr静态降级扩容、回滚…业务快恢数据降级、复杂度降级玩法降级端上入口隐藏…01GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

020403东西向切量、南北向切流单可用区快弹能力…应急协同:预案平台建设原子预案故障召回新鲜度保持业务类预案平台类预案限流回滚扩容多活切流Cache降级精排降级粗排降级动态预案(预案模版)静态预案文档预案预案决策模块确认&执行预案匹配预案推荐编排&执行编排&执行编排&执行可观测梯度控制结果验收事件通知预案平台要解决的问题?预案散落各地,内部文档、在线文档、平台类操作预案可执行性:新鲜度保持依赖特定执行人和故障、根因分析割裂,预案推荐、联动、预案可观测缺失…预案平台能力建设对接内部各个平台,提供通用预案原子能力建设联动根因分析,预案推荐、执行预案编排:支持业务基于原子预案编排业务场景预案新鲜度保持:自定义执行时间、灰度策略,预案执行报告推送…GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

实践中遇到的问题?一个故障,多个突发群?技术指标、客服指标召回相互独立,缺乏联动干系人拉的过多故障基于CMDB角色拉人,拉人容易放大非技术类故障也被召回了?产品、运营类问题也被召回了拉了不该拉的干系人客服选择受损业务时选错节点,导致干系人错位)GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

我们的解法避免干扰、收敛人去除预期内限流,限流以告警方式处置以结果指标为导向支持基于值班组、固定人的应急协同多渠道召回、收敛群打通各渠道召回,收敛群底层故障,基于组织收敛群群短时复用非技术类故障被召回?意料之外,情理之中,促进非技术类优化,关注问题收敛干系人错位加强客服宣导、优化影响业务文字描述这个只是为了快速应急,对声誉真的没影响GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

故障复盘:做有价值的复盘有效的故障复盘能避免故障重复发生GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

处理过程回溯时间阶段用户操作反思总结架构设计、编码层面暴露的问题变更类故障是否可阻断、规避发现优化、是否可召回处置优化、量化

1-3-5-10定级定责损失统计故障等级责任方影响分析影响摘要影响面影响时间影响损失改进措施改进事项完成时间负责人验收人优先级03基于故障的数据运营故障运营思路风险预防效果、故障恢复后的改进成果:故障数趋势同类型故障重复发生率安全生产逃逸率故障分…故障自动召回覆盖、准确性:自动召回率召回准确率技术指标召回率…故障时效:1-3-5-10达成率,分位值MTTR均值、分位值根因分析准确率预案执行有效率…故障召回安全生产故障处置GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

故障召回:黄金指标提升故障准确率,避免狼来了平均故障准确率80%+以结果指标为导向,过程指标通过告警方式处置就够了预期内限流不是故障!提升故障召回率,特别是技术指标召回平均自动召回率80%+,其中技术指标召回40%+业务指标、基础服务、数据链路召回加速覆盖故障准确率故障召回率黄金指标GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

故障处置:1-3-5-10计算口径总时长10min统计方式简单各阶段时长不直观明了不利于持续改进串行统计,总时长19min统计方式较复杂每段时长清晰描述利于优化改进累计统计分段统计GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

故障处置:量化故障处置质量组织业务1-3-5-10达成率MTTR时效(平均+分位)数据量化GO

P

S全球运维大会暨研运数智化技术峰会2024

·上海站

故障处置效率到底怎么样?故障月报:数据通晒故障月报(技术全员)整体故障数、定级故障,环比上月变化部门故障Top、故障原因占比责任事故、变更类故障通晒故障处置质量1-3-5-10达成情况故障召回率、准确率根因分析准确率1-3-5-10长尾case通晒待办跟进季度待办完成情况部门待办分布本月新增待办情况GO

P

S全球运维大会暨研运数智化技术峰会20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论