版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、滴滴开源夜莺系统技术架构概述助企业构建稳定性体系目录CONTENTS夜莺设计思路和产品简介夜莺如何助建稳定性体系夜莺设计思路和产品简介业界现状如何?监控在滴滴的演进influxDB+alarmopen-falconwoaterodinuni-monitorecmc-monitor滴滴的监控数据指标总量十亿量级,每秒处理千万量级查询请求每秒十万量级nightingale夜莺项目信息主站: /源码: /didi/nightingale1.3K+star180+fork100+issue+pr2020.4.14 v1.3.xDataModel支持extra字段,可以带上一 些traceid或者日志类
2、信息,给高端玩家2020.4.2 v1.2.x页面支持中英双语,主站也在翻译中优化数据推送的长连接,优化judge连接池引入docker-compose简易部署方式2020.3.17 v1.1.x支持ldap校验,用户信息回灌数据库支持counter类型的指标,兼容Open- Falcon社区插件告警引擎逻辑重构引入了导航对象树索引模块升级换代时序数据库优化告警引擎高可用改进原生内置日志监控功能模块精简可运维性增强配置文件中心化数据模型没变,只是扩展 了字段,与原来兼容,社 区的所有插件可以复用时序数据存储,底层仍然 使用rrdtool归档落盘优化巨大,几乎就是重写了维持不变的与Open-Fa
3、lcon的对比夜莺架构概述建立通用DataModel,支持夜莺数据采集的能力所有数值型时序数据场景与社区同仁共建生态!系统内置:默认支持Linux的agent,社区很快有了Win的agent、交换机的采集器;Linux的agent内置了日志监控, 可以用正则提取监控指标,业务监控利器扩展机制:内置插件机制,可复用Open-Falcon大部分插 件和采集器,另外非常推荐大家使用SDK埋点采集应用监控数据三点差异:与Open-Falcon相比,扩展了extra字段、变更 了rpc协议、counter类型处理逻辑前置到collector夜莺数据存储的能力gorillarrdtoolgorillarr
4、dtoolgorillarrdtooltsdbtsdbtsdbgorillarrdtoolgorillarrdtoolgorillarrdtooltsdbtsdbtsdbtsdb-cluster-01tsdb-cluster-02集群外来看是双写双读;集群内来看是一致性哈希,模块内来看是内存压缩加硬盘归档一致性哈希一致性哈希transfer transfertransfer双写生产级的灵活性,引入心心念念的服 务树,去掉单独的nodata组件,去 除告警无关指标的内存消耗夜莺告警引擎的能力告警分级告警收敛告警回调告警认领告警升级时间窗口留观时长静默恢复策略继承特例排除与条件告警标签过滤夜莺事件
5、处理的能力事件存储事件发送事件回调未恢复 告警所有历 史告警用来做日常巡检和告警 分析各类告警发送模块可以在 /n9e下找到为告警自愈提供了可能, 或接入自己的事件管理夜莺后续发展规划引入指标聚合功能, 自动聚合集群维度 的指标数据与云原生体系更好 的整合,自动读取 Kubernetes 的 各 组件监控指标,是 否引入PromQL正 在论证整理尽可能多的插 件,丰富社区周边, 周边欢迎提交到 /n9e这个group夜莺如何助建稳定性体系稳定性体系构建思路预防发现定位止损复盘提升稳定性,就是要减少故障,要从故障生命周期各环节着手降发生 排掉隐患 规范流程 量化风险 结果可见指标完备 策略完备
6、提前预测 即时通知 告警升级定级定责 告警跟踪 故障管理 改进项管理 统计分析监控大盘 事件大盘 链路追踪 告警现场 根因推荐 协作机制预案管理 预案演练 一键操作 告警自愈 操作原则夜莺在故障预防环节的作用排掉隐患检查所有的 机器是否关 联了必要的 策略, 即告 警完备性排 查夜莺提供完备的接口,可以查询策略数据、告警数据,以此分析量化监控系统的使用情况,我们称为监控健康分量化风险检查策略接 收人是否有 效, 及时发 现离职的情 况统计回调覆 盖率, 代表 了自动化程 度, 人为处 理故障显然 恢复的慢统计产品线 维度的告警 事件量, 太 多的, 要给 出理由或整 改计划统计接收人 维度的告
7、警 事件量, 看 是工作安排 不合理还是 策略不合理统计告警恢 复时长, 用 分位值来量 化告警处理 的及时性和 预案有效性夜莺在故障发现环节的作用升级兜底即时通知告警引擎夜莺提供生产级灵活可 靠的告警引擎,支持多 种告警函数,各种灵活 策略,支持数据缺失告 警和多条件告警夜莺将告警事件推到 Redis 队列, 异步实时 消费;提供邮件、微信、 钉钉等各类即时通知方 式夜莺支持了告警升级机 制,可以通过告警升级 的方式,将告警发送给 备份人员或领导,保证 有兜底夜莺在故障定位环节的作用监控大盘:查看趋势图;提供高性能查 询能力;大盘提供下钻链接,可以串联 上层业务和底层模块、场景事件大盘:夜莺将告警事件入库,可以 将监控事件和变更事件放到一个大盘里, 出了问题能够较快定位到可能是某个变 更引起告警现场:夜莺会把触发告警的时候的 原始指标数据保存下来,以防随着时间 被降采样;夜莺的回调机制可以和公司 内部命令通道打通,告警的时候自动执 行某个脚本采集现场数据夜莺在故障止损环节的作用夜莺在这块只有一个能力,就是告警回调,与内部自动化逻辑打通 滴滴内部每周的故障自愈任务量大约几千
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年PMO如何赋能项目团队提升执行力
- 2026年城市再生水(中水)回用与水质安全保障
- 2026年体育老师指导体育教学中学生个体差异的应对
- 2026年儿科工作人员健康监测与患病管理
- 某麻纺厂生产调度与控制制度
- 2026年基于课堂观察的校际教学诊断与改进实践
- 2026年医疗AI与传统医学伦理的冲突与融合
- 市场营销策略分析报告模板
- 2026年胰岛素冷藏盒使用与维护
- 销售团队管理与业绩提升策略实施手册
- GB/T 1040.1-2025塑料拉伸性能的测定第1部分:总则
- 《基于ESP8266和芯片和光学指纹模块的智能门禁系统设计6100字(论文)》
- 2024-2025学年人教版(2024)七年级英语下册Unit 5 Here and now Section A 1a ~ pronunciation 教案
- 2025年中央纪委国家监委驻中国国家铁路集团有限公司招聘笔试参考题库附带答案详解
- 《公路波纹钢结构涵洞标准图集》(征求意见稿)
- 企业并购的机遇与挑战分析
- 射线检测专业知识考试题库(含答案)
- 2024年全国统一高考数学试卷(理科)甲卷含答案
- 湖北省襄阳市2023-2024学年小升初语文试卷(含答案)
- 黑龙江省建筑工程施工质量验收标准(建筑地面工程)
- 第八课 良师相伴 亦师亦友
评论
0/150
提交评论