2025 GOPS 全球运维大会暨研运数智化技术峰会·深圳站:全场景自愈运维体系构建-从双活切换到版本回退的深度实践_第1页
2025 GOPS 全球运维大会暨研运数智化技术峰会·深圳站:全场景自愈运维体系构建-从双活切换到版本回退的深度实践_第2页
2025 GOPS 全球运维大会暨研运数智化技术峰会·深圳站:全场景自愈运维体系构建-从双活切换到版本回退的深度实践_第3页
2025 GOPS 全球运维大会暨研运数智化技术峰会·深圳站:全场景自愈运维体系构建-从双活切换到版本回退的深度实践_第4页
2025 GOPS 全球运维大会暨研运数智化技术峰会·深圳站:全场景自愈运维体系构建-从双活切换到版本回退的深度实践_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

全场景自愈运维体系构建 目录/CONTENTS2自愈落地场景说明3自愈体系建设总结4自愈成效未来展望运维的挑战与出路运维挑战挑战挑战GOGOPS全球运维大会暨研运数智化技术峰会2025·深圳站GOGOPS全球运维大会暨研运数智化技术峰会2025·深圳站解决出路模式升级自愈价值行业趋势实时监控与数据采实时监控与数据采集分析自动化流水线与分钟级恢复自动化流水线与分钟级恢复闭环管理优化提升协同融合操作中枢(数据采集/预案执行)智能大脑(决策优化/策略演进)GOGOPS全球运维大会暨研运数智化技术峰会2025·深圳站运维应急三板斧解决"瞬时异常"防止"故障扩散"逆转"错误变更"重启/重试故障隔离变更回退事件分析梳理自愈场景技术场景按软硬件分类梳理通用恢复手段:重启、重试、扩容、清理、熔断、限流、降级、回退...业务场景按业务流程沉淀应急预案:授信、用信、还款、催收、营销获客...简单场景自愈-告警触发自愈任务通过订阅的方式在告警平台对相关事件进行订阅,当出现相应的告警时,告警平台将经过标准化处理的告警信息通过实时消息传递给自动化平台,自动化平台在收到消息之后根据编排好操作步骤的单元自愈任务进行处置。简单场景自愈-容器巡检触发自愈POD探针巡检流量网关调度负载规格管理服务节点自愈:存活/就绪探针调用自研UCFF健康检查组件K8S触发告警事件进行自愈重启流量网关配合优雅重启应用横向扩容:定制化业务探针检查容量水位自动触发容器平台水平扩容流量网关调度切换调整吞吐垂直扩容:结合特殊告警(OOM)尝试调整Pod规格配置双活切换自愈-部署架构u应用分别部署在主机房和容灾机房,通过DNS及网关调度能力在应用层面形成跨中心集群双活架构。u应用依赖的持久化数据层以热AS模式部署,以确保数据的实时性和一致性。u在应用服务发生区块性异常的情况下,将调用流量切换至备机房,实现应用的扩展修复。u在主机房整体出现故障或过载时,触发熔断,将访问流量整体切换到备机双活切换自愈-切换调度网关架构u根据流量控制或者区域隔离需要,部署多个服务网关集群,由一套跨中心部署的网关管理平台统一管理。u服务网关实时通过http接口去网关管理平台拉取路由分发及服务注册信息进行流量调度和运维策略管控。u服务网关采集调用过程的接口访问路径和访问数据,管理后台监听入库做观测检查和审计。u服务网关监听自身服务注册中心指定路径感知配置服务变更,获取相关网关扩展能力。双活切换自愈-可观测触发自愈剧本通过订阅的方式在观测平台对系统吞吐量、服务请求错误率等指标进行订阅,当出现指标异常事件时,观测平台将经过标准化处理的预警信息通过实时消息传递给自动化平台,自动化平台在收到消息之后根据编排好原子任务的自愈剧本进行处置。运维对象资源管理n如何实时动态、精确的获取各异构系统的全量运栈适配的自动化采集方案,结合变更管控流程、每场景作业编排n如何直观快速地将复杂的故障处理流程转化为运策略精准定义风险管控n如何确保自动化自愈操作在执行过程中严格遵循权限 通过预设风险阈值、沙箱环境验证和审批记录核心应用自愈-版本回退关键措施:•应用版本发布后,结合可观测系统的强大监控能力对业务系统实施7x24小时实时监控,及时发现应用告警;•检测到告警后,对故障的原因进行自动化关联分析,协助运维人员、业务系统开发高效找出异常节点,并推演需要回退的应用范围及顺序;•明确应用回退范围及顺序后,通过自动化流水线服务处置,达到分钟级故障自愈恢复;处置预案故障发现故障分析故障处置处置预案检测能力分析能力自动处置能力可观测平台服务治理平台运维管理平台UCFF组件接口管理平台CMDBAPM监控系统研发效能平台核心应用回退自愈-主体流程上线前阶段运行阶段故障处置阶段别潜在影响:涉及的业务链核心应用回退自愈-平台关键功能应用版本管理应用变更分析回退影响分析过应用依赖拓扑图来分析回退应用之间的依赖关系和动态自愈修复分析需求、系统、应用及其关联关系以及上下游l通过流水线自动化程序回退应用镜像、脚本、配置,核心应用回退自愈-案例:审批大版本上线回退过程核心应用回退自愈-落地实践难点应用版本变更内容识别措施措施:接口管理平台通过字节码解析、抽象语法树等静态扫描技术,获取应用接口及方法、配置及sql回退范围精准确定故障与版本变更的关联定位风险管控GOGOPS全球运维大会暨研运数智化技术峰会2025·深圳站智能预测与决策干预结合故障预测与干预确认,实现从"智能预测与决策干预结合故障预测与干预确认,实现从"救火"到"防火"的模式转变应急预案自动化编排将人工应急预案编排为场景化自动执行的标准流程剧本高可用自动恢复体系全面构建冗余架构下快速感知、定位、自动切换恢复的保障能力主动防御体系流程标准化拓展基础能力建设自愈执行管理依赖综合业务、故障、资源的全方位可视观测,自愈执行管理依赖综合业务、故障、资源的全方位可视观测,及时捕捉异常,实现可用性监控、自愈处置及跟踪管理。自愈数据分析依托MTL自动采集数据,多维度数据观测分析,触发适配场景下的自愈恢复作业。基于巡检结果基于指标告警级别基于指标的影响分析基于任务库识别基于上下游任务识别立体化监控异常检预测图表化展示多维关联趋势分析场景匹配服务拓扑多维关联趋势分析场景匹配服务拓扑事件关联事件关联链路调用链路调用性能监控性能监控资源监控资源监控分层规范业务场景监控对象分级规范分层规范业务场景监控对象分级规范运维能力关联术和业务指标波动及数据术和业务指标波动及数据故障辅助分析能力实时剖析运行指标、故实时剖析运行指标、故融合专家经验与历史处融合专家经验与历史处处置方案,确保执行安全总则:严格限制高危操作,人机结合设置安全卡点确保自愈方案的安全执行,即使策略出错,损失也可控。u误操作风险u故障检测不准确u误操作风险u故障检测不准确u自动化流程失效u错误的恢复策略u恢复操作造成的额外风险u权限隔离与分级管控u多维度检测与交叉验证u定期回归与健壮性验证u数据备份与渐进式生效u真实演练及风险评估GOGOPS全球运维大会暨研运数智化技术峰会2025·深圳站全场景自愈体系效果落地89%故障恢复时间实现重启、重试、扩容、清理、熔断、切换、回滚7大类场景的自愈落地实践。累计编排15个自动化任务流、超300子任务流。使6大重要系统具备支撑故障时自愈的能力。将相关故障MTTR提升到5分钟以内。89%故障恢复时间运营效率人工干预比率降低,效率提高业务连续性年度业务中断时间缩短至2小时运维成本60%系统稳定性GOGOPS全球运维大会暨研运数智化技术峰会2025·深圳站现有场景拓展云节

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论