第5章:监控体系搭建 - 传统运维监控与数据采集_第1页
第5章:监控体系搭建 - 传统运维监控与数据采集_第2页
第5章:监控体系搭建 - 传统运维监控与数据采集_第3页
第5章:监控体系搭建 - 传统运维监控与数据采集_第4页
第5章:监控体系搭建 - 传统运维监控与数据采集_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI自动化运维开发快速入门第5章:监控体系搭建——传统运维监控与数据采集讲师:王老师目录01运维监控核心指标02监控工具选型对比03数据采集方法与实践04告警配置与通知渠道05监控数据预处理06实战:Prometheus+Grafana搭建07常见问题排查与解决方案08本章总结与课后实操任务OPERATIONSMONITORINGCOURSEWARE运维监控核心指标系统资源指标CPU:使用率、负载,反映处理能力。内存:使用率、交换空间,反映资源紧张度。磁盘:空间占用、IO读写速度,反映存储健康。网络指标吞吐量:带宽使用情况,反映网络繁忙度。延迟:数据传输响应时间,反映网络质量。连接数:当前连接数量,反映并发处理能力。应用服务指标响应时间(RT):处理请求时间,反映性能。吞吐量(TPS):单位时间请求数,反映处理能力。错误率:请求失败比例,反映稳定性。可用性(SLA):正常运行时间,反映可靠性。全方位监控体系,确保业务连续性与高性能运行监控工具选型对比:ZabbixvsPrometheus核心特性ZabbixPrometheus架构设计C/S架构,包含Server、Agent、Database等组件,结构紧密基于Pull模式,包含Server、Exporter、AlertManager,组件松耦合部署复杂度相对复杂,需配置数据库,每台主机需部署Agent相对简单,组件化部署,无需在被监控主机安装Agent(使用Exporter)数据模型基于模板和键值对,数据模型相对固定,学习成本较低基于时间序列数据,使用灵活的PromQL查询语言,模型更灵活社区支持成熟稳定,社区活跃,中文文档丰富,适合传统企业环境发展迅速,云原生社区首选,对容器化环境支持极其友好适用场景传统物理机、虚拟机环境,以及需要强一致性监控的场景Kubernetes云原生环境、微服务架构,需高灵活性查询的场景监控工具选型对比(二):日志采集工具ELK/EFKELKStack(经典日志分析栈)Logstash:负责日志收集、过滤与处理,功能强大但资源消耗较高。Elasticsearch:分布式搜索引擎,负责海量日志的存储与快速检索。Kibana:数据可视化平台,提供丰富的图表与仪表盘展示日志。EFKStack(容器化环境首选)Fluentd:替代Logstash,轻量级日志收集器,内存占用低,适合容器场景。Elasticsearch:功能与ELK一致,作为核心存储与检索引擎。Kibana:功能与ELK一致,负责数据的可视化展示。数据流向:应用产生日志→Fluentd/Logstash采集处理→Elasticsearch存储→Kibana可视化展示数据采集方法与实践(一):Agent方式Agent数据采集架构示意工作原理在被监控主机部署Agent程序,本地采集CPU、内存等指标后,主动上报至监控服务器。核心优势数据采集全面,可获取主机详细信息;支持复杂指标与自定义脚本扩展。潜在不足需在每台主机部署维护,增加运维成本;Agent进程会消耗一定的系统资源。典型应用ZabbixAgent、PrometheusNodeExporter数据采集方法与实践(二):无Agent方式常见应用示例•Prometheus通过HTTPAPI从应用拉取指标•通过SNMP协议监控交换机等网络设备工作原理:主动拉取监控服务器通过网络主动从被监控主机的特定接口(如HTTPAPI、SNMP)拉取数据,无需部署Agent。核心优势降低被监控端资源消耗与运维成本;部署简单,仅需配置监控目标即可快速接入。局限性依赖被监控端提供标准接口;对于未开放接口或私有协议的应用,数据采集困难。告警配置与通知渠道告警配置步骤1.定义阈值:为监控指标(如CPU、内存)设置合理的告警触发数值。2.设置规则:定义连续检测次数或持续时间,避免因波动产生的误告警。3.配置级别:根据严重程度分级(警告/严重/紧急),匹配不同响应机制。常见通知渠道邮件通知:承载详细信息,适合非实时、需要留存记录的告警。即时通讯:钉钉/企业微信/Slack,适合快速触达团队成员协作。短信通知:高优先级告警手段,确保信息在无网络时也能送达。电话通知:最高级别告警,用于核心系统故障,强制唤醒运维响应。合理配置告警阈值与多级通知渠道,是保障业务连续性与系统稳定性的最后一道防线。监控数据预处理原始监控数据往往包含噪声、缺失值或格式不一致等问题。预处理旨在将其转换为干净、规范的格式,从而提升数据质量,为后续的AI分析和趋势研判奠定坚实基础。数据清洗(Cleaning)识别并去除异常值、填补缺失值、删除重复数据,确保数据的准确性与完整性。数据过滤(Filtering)根据时间范围、指标类型、主机名称等维度筛选出业务关注的有效数据子集。数据聚合(Aggregation)将细粒度数据(如秒级)聚合成粗粒度(如分钟/小时级),降低存储压力,便于宏观趋势分析。数据标准化(Standardization)统一不同量纲指标(如CPU%与内存GB)的数值范围,消除量级差异,利于算法建模与横向比较。实战:Prometheus+Grafana监控安装配置Prometheus安装步骤1.下载安装包:wget/prometheus/prometheus/releases/download/v2.45.0/prometheus-2.45.0.linux-amd64.tar.gz2.解压与进入目录:tar-zxvfprometheus-2.45.0.linux-amd64.tar.gz&&cd$_3.配置监控目标:编辑prometheus.yml,添加targets。4.启动服务:./prometheus--config.file=prometheus.ymlGrafana安装与配置1.包管理器安装:yuminstallgrafana#或aptinstallgrafana2.服务管理:systemctlstartgrafana-server&&systemctlenablegrafana-server3.访问验证:浏览器访问:3000,默认账号密码admin/admin。4.配置数据源:添加Prometheus地址(如http://localhost:9090)。DevOps实战系列·监控篇配置NodeExporter(Prometheus实战)安装NodeExporter1.下载安装包:wget/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz2.解压并进入目录:tar-zxvf*.tar.gz&&cdnode_exporter-1.6.1.linux-amd643.启动服务:./node_exporter(默认端口9100)配置Prometheus1.编辑配置文件:修改prometheus.yml,在scrape_configs中添加:-job_name:'node_exporter'static_configs:-targets:['localhost:9100']2.重启服务:使新配置生效,开始拉取数据。验证数据采集1.访问WebUI:打开浏览器访问Prometheus默认端口:http://localhost:90902.执行查询:在查询框输入指标名并执行:node_cpu_seconds_total若能看到数据图表,说明采集成功。实战案例:Prometheus+Grafana监控搭建(三):创建监控面板创建自定义Dashboard1.新建面板:点击“+”号->Dashboard->Addnewpanel2.选择类型:选择图表类型(Graph,Gauge等)3.数据源:Datasource选择已配置的Prometheus4.编写查询:Query输入PromQL,如CPU使用率计算5.配置保存:设置标题单位,点击Apply保存导入Dashboard模板(推荐)1.查找模板:访问Grafana官网(/dashboards)2.获取ID:搜索并复制模板ID(如NodeExporter:1860)3.导入操作:点击“+”号->Import,粘贴ID4.配置源:选择对应数据源,点击Import完成优势:快速获取专业、完整的监控指标展示最佳实践:基础监控优先使用社区成熟模板(如ID1860)快速落地,特定业务指标再通过自定义Panel补充。实战案例:Prometheus+Grafana监控搭建(四):配置告警与通知Prometheus告警规则1.创建alert_rules.yml定义阈值:expr:100-(avg(irate(node_cpu...))*100)>802.在prometheus.yml中引用:rule_files:["alert_rules.yml"]AlertManager配置1.安装AlertManager组件,用于统一管理告警的分发与静默。2.编辑alertmanager.yml:配置邮件、钉钉、Slack等通知接收渠道(receivers)。Grafana面板告警1.进入具体Panel的编辑页面,切换至Alert标签页。2.设置告警条件:基于图表查询结果设置阈值(如>80%)。3.关联AlertManager进行通知。核心逻辑:Prometheus负责检测指标异常->AlertManager负责发送通知->Grafana提供可视化告警配置入口。常见问题排查与解决方案Q1:Prometheus无法采集到NodeExporter的数据?A1:检查NodeExporter是否正常运行(ps-ef|grepnode_exporter),Prometheus配置文件是否正确配置了NodeExporter地址(如localhost:9100),以及服务器防火墙是否允许9100端口访问。Q2:Grafana中无法显示监控数据?A2:检查Grafana的数据源配置是否正确(地址、权限),PromQL查询语句是否正确,以及Prometheus是否有相应的监控数据(可通过PrometheusWeb界面验证)。Q3:告警规则配置后没有触发告警?A3:检查告警规则的expr表达式是否正确,for参数设置的时间是否足够长,AlertManager是否正常运行,以及通知渠道的配置是否正确(如邮件服务器配置)。本章总结核心指标回顾掌握系统资源、网络流量及应用服务三大核心监控指标体系。主流工具选型对比Zabbix、Prometheus及ELK栈,理解其适用场景与优劣势。数据采集方式深入学习Agent侵入式与无Agent旁路式采集的技术原理与取舍。告警与通知掌握多级别告警配置策略,灵活运用邮件、短信等多渠道通知。数据预处理了解清洗、聚合等预处理方法,为后续AI智能分析奠定数据基础。Prometheus+Grafana实战完成监控系统从环境搭建、数据配置到可视化告警的全流程实战。课后实操任务:搭建Prometheus+Grafana监控面板任务目标独立搭建完整的Prometheus+Grafana监控系统,实现对服务器核心指标的监控与告警配置。监控指标:CPU、内存、磁盘、网络告警要求:配置阈值触发规则及邮件通知渠道。任务步骤安装并配置Prometheus服务部署NodeExporter采集数据配置Prometheus监控目标安装并配置Grafana可视化创建Dashboard导入核心图表配置CPU/内存阈值告警规则配置邮件通知渠道并测试评判标准组件安装配置正确,服务运行正常Grafana面板正确显示四项指标告警规则逻辑正确,触发精准邮件通知渠道通畅,能接收告警实验过程文档记录清晰、完整注意:请独立完成任务,确保所有组件正常运行后提交实验报告课后实操任务:参考资料与提示官方参考文档Prometheus官方文档https://prometheus.io/docs/introduction/overview/Grafana官方文档/docs/grafana/latest/NodeExporter官方文档/prometheus/node_exporter

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论