2025QECon全球软件质量效能大会:蚂蚁SRE在容量层面的探索实践_第1页
2025QECon全球软件质量效能大会:蚂蚁SRE在容量层面的探索实践_第2页
2025QECon全球软件质量效能大会:蚂蚁SRE在容量层面的探索实践_第3页
2025QECon全球软件质量效能大会:蚂蚁SRE在容量层面的探索实践_第4页
2025QECon全球软件质量效能大会:蚂蚁SRE在容量层面的探索实践_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蚂蚁支付宝内容稳定性负责人、

蚂蚁大促容量架构师西安交通大学本硕毕业

17年校招加入蚂蚁集团先后参与过蚂蚁双11、

蚂蚁新春红包五福、

杭州消费券秒杀保障、

杭州亚运会保障等大促保障专项和相关SRE负责人尚玉飞蚂蚁集团SRE技术专家目录CONTENTS03蚂蚁活动性能容量-百万核资源分配模式04

AI时代下性能容量未来展望蚂蚁日常容量体系发展-从混乱走向统一01

蚂蚁性能容量发展历程-背景介绍02PART

01蚂蚁性能容量发展历程-背景介绍

手工梳理活动资源

手工收集各BU的日常容量

手工提交应用扩容工单

手工扩容过程中

,持续找人

修复问题

容量额度管理平台

容量应急平台管理

容量Paas扩容平台

预案管理平台

统一各个SKU资源定价体系

统一日常容量交付体系

统一大促流量预测体系重塑

统一日常应急容量体系

AI

+通算容量预测

AI

+容量智能伸缩

GPU资源容量交付重塑

蚂蚁容量体系发展历程关键词:

Platform

关键词:Finops

关键词:AI2018

20232025手工作业期熟练的手工从业者工具发展期百花齐放的平台体系成熟期统一容量架构AI

+

ING适配AI变化蚂蚁容量发展历史PART

02蚂蚁日常容量体系发展-从混乱走向统一

支付宝日常容量体系-业务变化峰值驱动Vs算法驱动更多地日常业务探索更多业务的日常资源需求更多的算法类资源需求全年降本诉求资源统筹规划难交付资源时间漫长交付资源要求高日常容量变化业务变化业务痛点+目标:

支持合理业务增长交付流畅度治理采购控制

支付宝日常容量体系-统一解决方案Finops日常运营触达通晒核心架构域重点业务+架构升级最小交付标准明确底层平台交付标准透明技术依赖容量风险

常态压测回归直播业务专项大促优化专项自动拆解预估应用容量预估容量风险识别应急资源

日常cpu治理

深挖供给压测场景仿真度常态化压测效率各域成本透明化成本透明化活动业务性能优化应用水位/成本基线日常水位治理底层资源供给优化上升机制明确各域水位管理应用性能优化长尾业务活动自动交付日常业务优化资源透明化:

支付业务专项流程规范业务多池合并优化组合供给优化日常应用托管缩容稳定性管理

3交

4中心化蓄水池定期回溯追踪

2

支付宝日常容量体系-整体效果重点交付业务应用高水位应用应急重点活动业务应用业务ROI低应用逐步下线业务应用低水位应用存量业务挖潜

1资源治理本质是治理浪费,而不是治理增长新增业务控制抽水T+1面向周期(30天周期预测)业务扩容秒级维度-面向突发(自动)识别高水位业务扩容SRE-应急池(手工补齐)业务扩容多层应急体系HPA技术++PART

03蚂蚁活动性能容量-百万核资源分配模式资源规模巨大•

活动信息报备较晚

,无法

获得获取明确活动信息•

每年多次的大促活动带来

的全年资源量巨大分配时间短•

每年活动周期不定

,带来

资源分配时间不确定且有

提前的趋势•

大促保障周期的压缩

,面

向上百应用分批

,整个链

路应用分配时间短链路复杂•

整体链路复杂

,涉及上xxx个系统

,xx个sk

u

,整

体资源分批的复杂程度•

涉及同步链路、异步链路,业务有多重属性

支付宝活动容量体系-技术挑战支付宝活动容量体系-背景峰值大促保障淘系大促相对灵活的资源保障

策略:提前准备弹性+采买服务器端内大促相对固定的资源保障

策略:当前资源最大化使用营销类大促容量保障玩法APP端增整个APP以及在离线链路压力巨大确定时间点

xx.xx

xx点xx分xx秒营销玩法多样秒杀抢券、亿级别红包同时发放等确定性玩法重要玩法+重要商品提前报备玩法多样复杂C端用户行为难以预测准确确定支付峰值双11已有x年历史不确定确定应用容量优化关键技术容量预估常态化运行业务理解业务划分中间件应用跨集群租户调度算法工程-流量预测/HPA/应用分级容量交付工程-保交付&保回收-x小时交付别cpu利用率识低水位HPA缩容活动成本通晒容量交付预测准/交付快/迭代快流量预测自动扩容压测验收析Cpu基线成本分析资源回收容量盘点常态化场景圈定常态化成本治理目标CPU利用率x%性能优化集群压测性能应用单机性能性能分析容量度量T+1度量大规划拆分大规格拆分AIG引流性能验证数据库优化数据库优化部署优化牵引指标:每万笔支付xwcore性能保持长尾HPA自动回收站点优化性能容量基线BU补充人工批量回收新增BU需求盘点资源盘点子场景大指标物理机内核升级运维资源超卖比例调整容量供给常态化运行量级成本治理成本分入口流量曝光量转化率无人值守操作自动完成部署规划自动扩缩容|腾挪自动推送限流/预案自动化压测f(链路时序)

=

是否匹配

f(活动属性)

=

活动入口流量活动关联链路自动化补齐

活动链路流量自动化预测活动特征挖掘

活动入口流量行业级活动流量无人值守

&大促常态化流量保障

日常活动流量叠加-自动保障流量预测&部署规模预测全链路流量预测App/Tbase/Ob部署规模预测智能部署规划f(活动入口流量)

=

活动节点流量

f(活动节点流量)

=

活动节点容量活动节点流量自动化评估

活动节点容量自动化评估活动分母挖掘历史峰值分析活动流量染色Trace自动搜集埋点数据推导入口流量预测业务配置推导(消费券)人工指定(交易支付)入口流量预测(周期类活动)•

整体流程把控•

活动风险防控•

活动事件接入•

数据整合处理压测验收防御压测前链路容量不足风险压测中秒级熔断链路调用拟真限流防御限流值自动推导推送根据流量检查限流值限流配置风险全流量预测&部署规模预测压测验收&边压边扩容量管家OB容量管家缓存管控平台活动智能底盘---算法|数据|智能构建模型可视化拖拽自动识别历史活动映射活动链路叠加链路自动积累流量风险预测链路分母挖掘限流自动保障技术指标预测下线缩容活动自动感知自动扩容活动节点流量活动链路调用影响扩容副本APP资源评估扩容实例Tbase资源评估扩容规格OB资源评估活动流量分析核心层入口流量

=>节点流量活动属性

=>入口流量节点流量

=>节点容量活动链路

=>关联链路时序特征

特征聚合限流预案事件影响日常链路调用影响产品层自动化交付入口流量预测节点流量评估节点容量评估流量风险防御活动流量模型活动事件感知活动分母挖掘自动扩容缩容资源交付保障过程保障过程外部输入时序分析多元回归

支付宝活动容量体系-核心技术-流量预测技术

支付宝活动容量体系-核心技术-Spot

InstanceSpotInstances是云服务提供商(如AmazonWebServices,AWS)提供的一种按需计算资源,它允许用户以比常规按需实例更低的价格运行计算任务。SpotInstances

的价格会根据当前的供需情况动态变化,但用户可以设置一个最高出价,如果市场价格低于这个出价,用户的实例就会启

动。资源预定spotinstance创建运行+回收资源上报核心技术2:

大规模压测超卖阈值的确认核心技术1:基于3层混布的超卖技术核心技术3:动态自适应回收技术核心用户动线PART

04AI时代下性能容量未来展望日常资源管理日常资源管理+中心池管理

+HPA容量技术大促资源管理流量预测技术+多元资源供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论