联通研究院(吴天昊)-1-5-15-原则-中国联通数字化监控平台可观测稳定性保障实践_第1页
联通研究院(吴天昊)-1-5-15-原则-中国联通数字化监控平台可观测稳定性保障实践_第2页
联通研究院(吴天昊)-1-5-15-原则-中国联通数字化监控平台可观测稳定性保障实践_第3页
联通研究院(吴天昊)-1-5-15-原则-中国联通数字化监控平台可观测稳定性保障实践_第4页
联通研究院(吴天昊)-1-5-15-原则-中国联通数字化监控平台可观测稳定性保障实践_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

可观测稳定性保障实践吴天昊中国联通软件研究院副总架构师01数字化转型运维问题挑战02030203故障如何快速发现故障如何快速抢通需24小时运维值守,无法故障自愈及自动化?故障发现无法及时拉会,需24小时运维值守,无法故障自愈及自动化?故障发现无法及时拉会,故障管理质量效率低下?无应急方案,应急操作时候全是问题?故障反复出现,复盘改进没有效果?全链路性能瓶颈点和容量水位上线不知道?各层级数据不互通共享,铁路警察各管一段?痛点告警无人关注,处理缓慢?痛点系统调用关系复杂,故障排查困难?云化架构下容器服务与主机关联关系不清?只知道有问题,不知道问题出现在哪里,根因无法定位?隐患无法察觉,没有提前治理优化?故障根因在SaaS服务下的实例故障根因在PaaS组件随着云原生技术的不断成熟,随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为继,如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。应用软件:分布式架构挑战应用软件:上千个微服务上千个微服务Jar包几十种中间件清单成千上万硬件几十种中间件清单成千上万硬件硬件:硬件:运维生态挑战业务连续性挑战数字化监控平台功能架构基于云原生下的生产运营支撑平台,以全局运营视角解读IT运维,提供端到端、全层级的运维工具支撑,依托大数据与人工智能技术,助力企业数字化业务高效、稳定运行,从传统运维向自动化生产、智慧化运营转变。B/M/D域核心触点cBSScBSS运行保障(运行保障(自动化生产)运营生态运营响应(智慧化运营)软研院计费运维天擎运维天宫栈运维新客服运维基础设施运软研院计费运维天擎运维天宫栈运维新客服运维基础设施运维配置管理传统CMDB云化CMDB省公司上海二级研发广东二级研发山东二级研发监控管理浏览器、APP监控全流程调用链监控智能监控告警平台变更管理任务调度平台变更追踪稳定性测试接收测试自动化巡检压力测试服务台沃运营一体化运营自动化运维自动化作业故障自愈问题管理沃运营补天平台订单医生知识管理沃运营业务连续性故障管理用户体验感知运营亚健康亚健康能力共享能力共享统一架构微前端qiankun微服务联通云平台天梯持续集成统一登录统一登录鉴权账号体系管理接入便捷灵活对接第三方登录统一架构微前端qiankun微服务联通云平台天梯持续集成统一登录统一登录鉴权账号体系管理接入便捷灵活对接第三方登录开发手册前端框架样例UI组件样例权限集成样例API接入样例流量控制在线申请服务路由自主接入服务注册服务鉴权熔断代理路由服务能力管控API开发者中心API服务订购SaaS应用上架数据API接口快速配置运营分析API权限中心数据采集监控告警作业能力AI算法ITSM流程引擎配置中心基础数据运维工单运营服务知识库服务及时通讯服务第三方能力用户管理浏览器APP感知告警通知作业编辑动态阀值能力流程编排配置发现数据库管理工单查询知识存储消息接收短信发送菜单管理服务性能天擎服务告警处理作业调度指标异常检测流程调度配置采集数据查询工单处理知识管理消息推送IVR语音推送租户管理中间件云平台告警静默作业执行指标趋势预测流程执行配置拓扑数据稽核工单评价知识搜索多类型消息钉钉消息应用管理主机资源网络资源告警查询作业查看日志异常检测流程查询配置查询任务调度工单分类知识推荐消息群组邮件发送命令通道管控平台数据通道文件通道亦庄IDCCCS主机设备西咸IDC亦庄IDCCCS主机设备西咸IDCCCSCKE阿里飞天主机设备网络设备无锡IDCCCSCKE阿里飞天主机设备网络设备广州IDCCCSCKE阿里飞天主机设备网络设备呼和IDCCCSCKE阿里飞天主机设备网络设备阿里飞天阿里飞天网络设备数据采集PrometheusSDKJSAgentKafka数据处理数据存储RedisClick数据采集PrometheusSDKJSAgentKafka数据处理数据存储RedisClickHouseElasticSearch微前端Reactvue.js数字化研发平台……MarathonA(租户1)微前端Reactvue.js数字化研发平台……MarathonA(租户1)CASMarathonB(租户2)MarathonC(租户3)kubernetesMesos联通云联通云统一规划统一架构统一登录统一权限统一能力统一风格及时发现及时发现智能定位快速抢通闭环治理有效预防统一监控告警智能隐患分析统一监控告警涵盖业务层、前端触点层、服务层涵盖业务层、前端触点层、服务层、组件层、资源层的全层级监控覆盖分析,压降系统隐患故障闭环整改故障上报、报告编写、治理追踪全故障闭环整改故障上报、报告编写、治理追踪全流程线上化闭环管理,确保故障经验有效沉淀,整改措施有效落地指标指标、链路、日志三位一体,实现故障快速发现、根因准确定位统一故障调度故障事中一键拉会,统一作战指挥室,有统一故障调度故障事中一键拉会,统一作战指挥室,有序调度故障处理,实现业务快速抢通AI智能决策引擎有效识别系统裂化风险,自动完成实例查杀、重启等多种场景以系统租户为维度纵向互通以系统租户为维度纵向互通全层级监控APP端APP性能监控APP崩溃率、卡顿率APP性能监控APP崩溃率、卡顿率等前端浏览器监控统 采用PROE前端触点感知层级统 采用PROE前端触点感知层级健康检查&日志APP:崩溃率、卡顿率PC端服务应用链路全流程调用链服务应用链路云云THUHUES互传中间件/数据库基础资源/、容器平台智能监控告警平台基础监控指标及闭环告警通用平台中间件/数据库基础资源/、容器平台智能监控告警平台基础监控指标及闭环告警通用平台智能监控告警平台平台提供IaaS、PaaS、SaaS各层级监控能力,实现多层级运维数据互通,支持全流程可视化配置,多渠道告警通知,工单闭环管理,用户快速实现监控接入,为系统日常生产运行提供保障。数据采集:采集组件管理、私有数据仓库接入、租户自定义采集监控配置:告警规则、收敛条件、告警内容静默管理:多维静默管理(全量、监控点、监控实例)告警通知:告警工单推送、电话催办告警处理:双终端工单处理、工单闭环管理告警大屏:系统监控告警全景图、告警工单处理进度制定全层级指标标准346项制定全层级指标标准346项调用拓扑全流程调用链拓扑自动生成,分租户管理SaaS/PaaS/IaaSPaaS层组件、平台容器资源情况,IAAS层主机资源服务趋势/报错异常服务调用关系、趋势图、报错分类(系统/业务)JVM/GC分析服务实例JVM与GC情况分析实例/接口分析调用链与云化CMDB做关联,关联到容器与主机告警配置调用量、超时、异常黄金指标多指标自由组合新客服系统公众中台政企中台天擎cBSS系统se公众中台政企中台天擎cBSS新架构collector-serversekakfacollector-serverkakfa天眼collector-serverkakfacollector-server西咸数据中心(联通云CCS4.0)系统se新客服系统公众中台政企中台天擎cBSS系统se公众中台政企中台天擎cBSS新架构collector-serversekakfacollector-serverkakfa天眼collector-serverkakfacollector-server西咸数据中心(联通云CCS4.0)系统sesekakfa创新点:跨数据中心链路组装kafkaclickhouse采用JS埋点的方式,采集用户访问过程的性能指标,采用JS埋点的方式,采集用户访问过程的性能指标,获取浏览器端的真实用户行为与体验数据。包括页面加载、系统总览AJAX分析页面性能分析用户轨迹分析弹窗分析工号稽核一键智能诊断根因。MetricsMetricsAACBCD智能诊断纵向贯通实现全层级一键诊断触点+业务监控评估影响范围。利用图数据库关系在海量告警服务中快速定位根因服务,如150个服务告警根因服务缩小到5个左右。ACADX分布于扫描根因服务调用的组件调用链指标、组件指标、组件告警判定根因组件。通过云化CMDB获取实例、组件与主机的关系,对主机的指标与告警进行扫描。定位网络及接入设备的问题定位网络及接入设备的问题。服务X有3个实例,X3出现问题X1X2X3通过核密度估计算法和DBSCAN聚类算法判定根因实例。故障诊断依托全层级监控指标数据、全层级链路调用、云原生CMDB,建立故障传递模型,以服务层为故障起点进行纵根因服务实例耗时突增实例GC引发故障Redis耗时波动引起上游服务连接超时Oracle异常:Oracle会话数突增导致服务连接超时增多根因服务下游调用快立方告警异常ES进程负载率突增导致上游服务连接超时lb所在主机宕机导致lb实例销毁重启服务波动RDS慢sql突增导致节点状态异常网络带宽使用率指标打满引起访问受限n全层级指标数据分布式链路拓扑数据全层级核心监控指标n云原生CMDB服务、组件、主机、网络关系拓扑n以服务为起点纵向关联云原生下以服务告警触发进行上下游关联n智能根因定位服务异常实例波动平台组件指标异常主机异常宕机夯死网络设备带宽打满,告警信息结合AI判定算法,触发自动化作业能力,实现故障自愈流,告警信息结合AI判定算法,触发自动化作业能力,实现故障自愈流告警配置AI引擎+任务调度引擎自动告警配置运维专家运维专家告警与自动化作业场景关联调度流程运维场景运维场景基础资源运维场景应用系统运维场景业务服务运维场景智能自愈判断逻辑引擎智能自愈判断逻辑引擎自愈工单审批自愈工单审批告警信息自动化作业平台任务调度平台多语言、标准化脚本管理作业编排流程可视化作业执行调度、敏感命令检查、操作记录留痕作业调度执行引擎探针能力外部能力探针能力外部能力云平台运维PaaS平台云平台运维PaaS平台(物理机)故障事前、事中、事后全流程线上闭环管理,提升故障管理质量和效率,降低故障时长及次数,提升业务连续故障事前预防故障事前预防故障事中调度故障事后改进应急演练应急演练下发演练计划演练特点下发演练计划__」“两不”突__」按故障调度标准进行突击演练按故障调度标准进行突击演练实操演练桌面演练实操演练桌面演练信息通报人信息通报人信息记录人技术负责人信息记录人技术线通报线预案提升复盘优缺点,输预案提升复盘优缺点,输出《演练报告》 优化改进闭环 优化改进闭环故障发现故障发现主动发现被动发现主动发现被动发现业务场景SLO业务场景SLO故障响应与应急故障响应与应急①①一键拉会一键拉会《线上统一看板》组织投屏故障时《线上统一看板》组织投屏故障时间线技术负责人影响判断变更识别故障级别初判故障上报判断业影响判断变更识别故障级别初判故障上报判断业务影响⑥③⑤⑥③故障更新客服联动故障初因定位启动故障简报故障更新客服联动故障初因定位启动故障简报机制启动业务应急预案③启动技术应急③启动技术应急预案业务验证业务验证舆情联动故障恢复⑥故障恢复⑥故障复盘准备故障复盘准备故障改进故障改进两个目标标准化故障复盘(24小时)两个目标标准化故障复盘(24小时)故障报告(2个工作日)故障报告(2个工作日)四项要求四项要求故障演练整改落地故障定故障演练整改落地故障定级故障报告评价故障定责故障定责专家审核典型故障分享专家审核典型故障分享四不放过故障处罚抽查评审四不放过故障处罚抽查评审故障受教育故障受教育过列入故障预算列入故障预算过结合监控指标与容量指标,定期开展容量隐患评估,结合监控指标与容量指标,定期开展容量隐患评估,通过核心业务链路的全链路压测,分析链路性能瓶颈,建立健康度算法模型,识别与治理系统潜在风险隐患,保障系统健康稳定。容量隐患分析链路性能瓶颈分析系统健康检查健康检测引擎运营闭环管理评分与趋势容量标准制定健康检测引擎运营闭环管理评分与趋势容量标准制定AA定位性能瓶颈节点定位性能瓶颈节点初步定位Cl页面JS错误Cl……1实时监控体检l…实时监控体检l……lES健

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论