最终版-超大规模服务弹性自愈_第1页
最终版-超大规模服务弹性自愈_第2页
最终版-超大规模服务弹性自愈_第3页
最终版-超大规模服务弹性自愈_第4页
最终版-超大规模服务弹性自愈_第5页
免费预览已结束,剩余20页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

故障处理的技术演进弹性自愈技术发展弹性自愈解决方案弹性自愈最佳实践故障复杂度随着业务发展不断激增故障流量规模架构复杂度集群大小迭代频率…

…流量、集群规模、架构复杂度、迭代频率等等均急剧上涨,进一步交叉组合,故障复杂程度指数级增加注:架构复杂度以“请求在逻辑模块间的平均跳数”衡量各阶段的故障因子特点阶段PV&UV集群规模迭代速度架构特点外部故障源小规模规模较小<1K快,总量少简单清晰少大规模初具规模、爆发式增长<10W快,总量激增变化速度极快逐步增多超大规模维持

、稳步增长>10W快,总量庞大典型复杂系统频发超大规模服务的故障小规模大规模超大规模故障引入变更总量少少高频迭代变更耦合

频繁持续迭代 常态化耦合严重

多样化架构雪崩架构简单耦合少状态空间小行为易调度复杂状态空间小逻辑耦合

物理耦合

行为易非线性状态难穷举秒级异常

行为不可

混部止损能力止损操作影响明确恢复快止损操作影响难以明确大范围回滚成本大严格演练

自动化止损恢复难度大

多机房考虑容量耦合定位难度易复现逻辑短场景繁多

交互复杂难以复现

追查难度大需多团队协作追查

定位成本极高影响评估关注低范围有限口碑品牌

损失量级影响较大

容易过大级事件一个典型服务的“故障处理”技术发展过程人工感知异常现场写 止损故障自动感知建设了完备的预案体系故障时人工现场分析,并执行预案指标异常自动感知完备的预案体系故障时可自动分析并执行预案或流量切换实现单机房故障自动止损综合弹性自愈、根因定位、事件管理、单机房自动止损等能力,基于

AI实现全系统的故障的智能自愈和止损。一个典型超大规模服务,不同阶段“故障处理”技术能力标准服务在不同阶段有不同的故障

,所需技术能力也不同。随规模变大,技术能力要求越来越高根因推测Level

0Level

1Level

2Level

3Level

4人工应急人工预案自动止损弹性自愈事件关联完全智能绝大多数故障在发生前,系统可自愈弹性服务容量由N+1到N+i,部分多机房故障可实现自动止损故障发生时,可实现根因智能定位,并分析出故障关联的源事件,形成止损决策集L2自动预案的技术能力,无法应对超大规模故障注:90%基于的业务经验给出,具体数值不同产品或有不同L2无法应对超大规模故障,问题在于Ø

能止损的90%故障,代价过高Ø

还有10%故障,无法止损注:红线表示持续损失,黄线表示L2自动止损,蓝线表示弹性自愈L3必须做到故障“弹性自愈”Ø

要解决的问题:弹性自愈流量实时染色故障容错恢复弹性智能决策流量分治异常实时感知Ø

应具备的能力:Ø

流量实时染色

Ø

异常实时感知

Ø

流量分治Ø

弹性智能决策Ø

故障恢复“弹性自愈”解决方案接入层缓存层展现层索引层集群状态DB容量限额数据计算模型决策策略组合其他干预策略模型集合弹性决策模型业务架构染色流量实时染色|标准&全系统透传和解析、流量染色能力透传PVIP信息信息User-agent信息URI信息IP

_cnt_cnt….流量画像用户(人)流量机器流量…流量接入层展现层索引层解析lib缓存层

解析lib解析libDB状态回传实时计算&决策S(t)

=𝐹1(𝑡)𝐹2(𝑡)𝐹3(𝑡)𝐹4(t)A模块

B模块A1(t)A2(𝑡)A3(t)𝐴4(t)𝐴8(𝑡)B1(𝑡)𝐵2(𝑡)𝐵3(𝑡)𝐵4(t)𝐵8(𝑡)C模块𝐶1(𝑡)𝐶2(𝑡)𝐶3(𝑡)𝐶4(t)𝐶8(𝑡)𝐷1(t)D2(𝑡)𝐷3(t)D4(t)D8(𝑡)D模块 E模块 F模块𝐸1(𝑡)E2(𝑡)𝐸3(𝑡)𝐸4(t)𝐸8(𝑡)

𝐹8(𝑡)A5(𝑡)𝐵5(𝑡)𝐶5(𝑡)D5(𝑡)𝐸5(𝑡)𝐹5(𝑡)耗时情况A6(𝑡)B6(𝑡)𝐶6(𝑡)𝐷6(𝑡)𝐸6(𝑡)𝐹6(𝑡)故障机状态𝐴7(𝑡)𝐵7(𝑡)𝐶7(𝑡)𝐷7(𝑡)𝐸7(𝑡)𝐹7(𝑡)重查情况响应时间线程数集群吞吐能力队列长度…u

实时感知:随PV实时回传集群状态u

集群状态,是各模块的

指标的状态异常实时感知|

PV粒度服务状态实时回传、集群状态建模接入层展现层索引层解析lib缓存层解析lib解析lib注:A1(t)表示A模块在t时刻1指标(响应时间)流量分治|借助产品和调度能力,实现容量减灾和故障域策略措施策略能力【产品类】非必查服务摘除主动中CACHE高消耗策略降级【调度类】降低超时时间降低重试次数【容量减灾】CACHE降低摘服务降低单PV消耗降策略降低单PV消耗长尾PV主动【故障域

】故障实例/网段摘除故障服务/模块消耗代价【质量损失】结果质量有损【新鲜度损失】结果新鲜度有损【可用性损失】长尾PV弹性智能决策|最低成本实现集群的健康状态约束条件:

S(t)

*

lostf

F(x)

à

S(t+1)决策目标:

X

=

arg

min(lostf

F(x))非必查服务摘除主动中CACHE高消耗策略降级降低超时时间降低重试次数策略组合用户流量中质流量抓取流量流量染色*;<𝑛(X

)<<

=<𝑛(X

)𝑛(X

)𝑛(X;=

𝑛(X<=)

𝑛(X==)摘服务𝑛(X;;)中CACHE𝑛(X<;)减策略𝑛(X=;)用户流量中质流量抓取流量损失函数=注:n(X)表示该部分流量的损失这算S(t)

=𝑨𝟏(𝒕)𝑩𝟏(𝒕)𝑪𝟏(𝒕)𝑫𝟏(𝒕)𝑬𝟏(𝒕)𝑭𝟏(𝒕)𝑨𝟐(𝒕)𝑩𝟐(𝒕)𝑪𝟐(𝒕)𝑫𝟐(𝒕)𝑬𝟐(𝒕)𝑭𝟐(𝒕)𝑨𝟑(𝒕)𝑩𝟑(𝒕)𝑪𝟑(𝒕)𝑫𝟑(𝒕)𝑬𝟑(𝒕)𝑭𝟑(𝒕)𝑨𝟒(𝒕)𝑩𝟒(𝒕)𝑪𝟒(𝒕)𝑫𝟒(𝒕)𝑬𝟒(𝒕)𝑭𝟒(𝒕)𝑨𝟓(𝒕)𝑩𝟓(𝒕)𝑪𝟓(𝒕)𝑫𝟓(𝒕)𝑬𝟓(𝒕)𝑭𝟓(𝒕)𝑨𝟔(𝒕)𝑩𝟔(𝒕)𝑪𝟔(𝒕)𝑫𝟔(𝒕)𝑬𝟔(𝒕)𝑭𝟔(𝒕)𝑨𝟕(𝒕)𝑩𝟕(𝒕)𝑪𝟕(𝒕)𝑫𝟕(𝒕)𝑬𝟕(𝒕)𝑭𝟕(𝒕)𝑨𝟖(𝒕)𝑩𝟖(𝒕)𝑪𝟖(𝒕)𝑫𝟖(𝒕)𝑬𝟖(𝒕)𝑭𝟖(𝒕)S(t+1)

=𝑨𝟏(𝒕

+

𝟏)𝑩𝟏(𝒕

+

𝟏)𝑪𝟏(𝒕

+

𝟏)𝑫𝟏(𝒕

+

𝟏)𝑬𝟏(𝒕

+

𝟏)𝑭𝟏(𝒕

+

𝟏)𝑨𝟐(𝒕

+

𝟏)𝑩𝟐(𝒕

+

𝟏)𝑪𝟐(𝒕

+

𝟏)𝑫𝟐(𝒕

+

𝟏)𝑬𝟐(𝒕

+

𝟏)𝑭𝟐(𝒕

+

𝟏)𝑨𝟑(𝒕

+

𝟏)𝑩𝟑(𝒕

+

𝟏)𝑪𝟑

𝒕

+

𝟏𝑫𝟑(𝒕

+

𝟏)𝑬𝟑(𝒕

+

𝟏)𝑭𝟑(𝒕

+

𝟏)𝑨𝟒(𝒕

+

𝟏)𝑩𝟒(𝒕

+

𝟏)𝑪𝟒(𝒕

+

𝟏)𝑫𝟒(𝒕

+

𝟏)𝑬𝟒(𝒕

+

𝟏)𝑭𝟒(𝒕

+

𝟏)𝑨𝟓(𝒕

+

𝟏)𝑩𝟓(𝒕

+

𝟏)𝑪𝟓(𝒕

+

𝟏)𝑫𝟓(𝒕

+

𝟏)𝑬𝟓(𝒕

+

𝟏)𝑭𝟓(𝒕

+𝟏)𝑨𝟔(𝒕

+

𝟏)𝑩𝟔(𝒕

+

𝟏)𝑪𝟔(𝒕

+

𝟏)𝑫𝟔(𝒕

+

𝟏)𝑬𝟔(𝒕

+

𝟏)𝑭𝟔(𝒕

+

𝟏)𝑨𝟕(𝒕

+

𝟏)𝑩𝟕(𝒕

+

𝟏)𝑪𝟕(𝒕

+

𝟏)𝑫𝟕(𝒕

+

𝟏)𝑬𝟕(𝒕

+

𝟏)𝑭𝟕(𝒕

+

𝟏)𝑨𝟖(𝒕

+

𝟏)𝑩𝟖(𝒕

+

𝟏)𝑪𝟖(𝒕

+

𝟏)𝑫𝟖(𝒕

+

𝟏)𝑬𝟖(𝒕

+

𝟏)𝑭𝟖(𝒕

+𝟏)当t时刻,集群出现异常S(t)lostf_F(x))

=故障恢复|策略从接入层下发,透传至业务层,容错故障DB实时计算&决策u

策略下发:随query携策略下发到业务模块;u

各模型分治处理接入层索引层展现层

解析lib缓存层

解析lib解析lib策略透传索引模块A生效策略a->消耗1.2倍资源生效策略b->消耗0.5倍资源生效策略c->消耗0.2倍资源流量A、

a流量B、

b流量C,

c用户体验中用户体验低用户体验优模块负载降低、故障域、故障缓解&恢复Ø

流量实时染色

Ø

异常实时感知

Ø

流量分治Ø

弹性智能决策Ø

故障恢复“弹性自愈”解决方案接入层缓存层展现层索引层集群状态DB容量限额数据计算模型决策策略组合其他干预策略模型集合弹性决策模型业务架构染色智能决策|一个典型场景【背景】模块C为系统容量瓶颈流量染色【场景】【目标】--减载模块C--用户相关性损失最小抓取流量,30%用户流量,60%测试流量,10%智能决策|如何减载C,有如下几种智能决策|如何减载C:A1

or

A2

or

A1&A2…?注

Action1:C摘策略Action2:B

流量正常流量对模块C资源消耗1.0执行Ac

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论