张念礼-主动运维:驾驭风险 引领未来_第1页
张念礼-主动运维:驾驭风险 引领未来_第2页
张念礼-主动运维:驾驭风险 引领未来_第3页
张念礼-主动运维:驾驭风险 引领未来_第4页
张念礼-主动运维:驾驭风险 引领未来_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

博睿数据平台支撑中心负责人运维环境现状。平台系统13套,监控环境3套平台承载量。指标量运维⽬标AI异常检测基于ONE指标体系建设全自动巡检主动运维(80%)被动运维(20%)AI异常检测基于ONE指标体系建设全自动巡检智能告警降噪关键业务流程智能根因分析因果关系拓扑应急处理预案全⾃动巡检即时巡检基于ONE指标体系建设全⾃动巡检即时巡检基于ONE指标体系建设机器负载巡检全局拓扑巡检错误分析巡检机器负载巡检全局拓扑巡检错误分析巡检前端请求巡检潜在⻛险识别-主动发现率2023年⻛险问题主动发现率90%2024年⻛险问题主动发现率96%运维⼯作模式由被动为主动!⼀体化存储全栈根因分析统⼀智能告警精⼒聚集,降低成本,提升⼈效⼀分钟发现-可⽤性监测支持HTTP多地址访问支持自定义内外网监测点支持设置请求头、请求休、配置hosts支持判断响应状态码、整体用时、响应头、响应体弥补开源⼯具监控Http的功能缺失⼀分钟发现与五分钟定位-红蓝演练红蓝攻防演练场景100%通过:使用压测命令sysbench,模拟cpu占用达到90%以上调小进程内存大小,模拟程序内存不足往机器上写入大文件,模拟磁盘占用达到90%以上使用dd命令大量写1K的小文件,模拟IO占用达到90%以上使用脚本逐步增量访问程序接口,模拟连接数占用逐步上升逐步增加大查询的数量,模拟并大查询情况频繁访问两个程序的接口,模拟吞吐量上涨情况对—台虚机限制其流量大小,模拟服务变慢或出错使用IPtable封住任—个进程的端口停止任—个正在运行的进程第三方zabbix/prometheus的报警事件和指标不丢失从触封动作,到最终接收到告警通知,时间应该控制在1分钟内同—台主机触封触封不同指标多次告警时,观察收敛准确性以实体关系为核⼼构建数据体系构建统⼀可观测全域数据关联模型以实体关系为核⼼构建数据体系构建统⼀可观测全域数据关联模型详情清单给出本次故障所涉及到的实体信息初因判断根因的实体和指标并给出初步故障原因深度分析到具体的方法、SQL等具体根因进程退出进程退出端口下线服务假死负载异常应急处理预案完善的知识库故障处理原则SRC响应机制2022下半年主动治理风险25个2023上半年主动治理风险86个2023下半年主动治理风险224个2024上半年主动治理风险242个障次数相较去年下降%障次数相较去年下降%2022年下半年系统可靠性50%2023年上半年系统可靠性87%2023年下半年系统可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论