版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、品高云监控预警体系初探| 品高云公开课 小编的话“品高云公开课”系列文章意在分享技术牛人的知识干货,和大家一起交流学习云知识,每期主题都不一样哟!期待各位读者在文后发表留言,来一场技术上的交流和思想上的碰撞!2016年7月27日本期品高云公开课,由李志伟带来“品高云监控预警体系初探”的分享。分享嘉宾李志伟目前就任品高广州云架构产品部 BingoCloud平台软件开发工程师,从事云平台开发工作7年,熟悉云平台整体架构,参与多个云服务,如EC2、ELB、CW、AutoScaling、SNS等的开发。分享正文有人说,云计算拼的就是运维能力。随着云平台规模的不扩大,运维的难度也呈直线上升,云平台的监控
2、预警系统变得越来越重要。提到监控预警系统,很多人的第一反应就是:可通过各种图表查看各个监控项的状态;可对监控项设置警报,达到一定阀值时告警,能通过邮件、短信等方式通知到管理员,等等。这些确实是大多数监控系统的基本功能,但对于传统的监控系统,更倾向于发现问题,通知管理员处理。在云计算的时代,监控能否做得更多呢?下面我将为大家介绍一下品高云的监控系统。品高云作为一个自主研发的,遵循亚马逊接口标准的云平台,其监控系统也不例外。品高云的监控系统,即云监控服务,在兼容亚马逊CloudWatch接口的基础上,作了大量的优化与扩展,方便管理员和用户的使用。作为监控系统,首先要确定监控的内容,即监控指标。每一
3、种云资源都会有内置的一些监控指标,如实例的CPU使用率、网络I/O;存储卷的磁盘I/O,读写操作数,等等。管理员可查看、管理云平台的各项监控指标。(图: 监控设置)如果云平台内置监控指标不能满足需求,怎么办呢?没关系,我们支持自定义监控指标。只需要按要求撰写好数据采集脚本、新建监控指标即可。下面以监控MySQL连接数为例,展示如何在品高云监控服务自定义指标:1. 撰写数据采集脚本,并由管理员上传到云平台指定目录:(图: 脚本)2. 新建监控指标,填写相关参数:(图: 新建指标)数据采集脚本是在哪里运行的呢?这与监控指标的设置有关。监控指标的收集方式包括ec2config和controller。
4、ec2config是内置在云平台镜像里面的一个程序,可与云平台交互,实现更多的功能。收集方式选择ec2config,即是由该程序在实例内部运行采集脚本,并通过特定的URL汇报到云平台。controller,即由云平台物理机运行采集脚本。自定义监控指标默认都通过ec2config采集数据。定义好监控指标,云平台便会根据设定定时去收集、汇总数据。我们可以到各个资源的详情页面,查看该资源相关指标的监控数据。(图: 监控图表)有监控数据只是第一步,我们要如何利用这些数据去完成更多的操作呢?答案就是:监控警报。对于亚马逊CloudWatch,一个监控警报只对应一个云资源的一个监控指标;如果想监控100个
5、实例的CPU使用率,必须重复建100遍。品高云对此作出改进,将监控警报拆分为警报定义跟监控项。警报定义包括警报类型、触发条件、触发操作等通用定义,与具体云资源无关。(图:新建警报)如果警报类型选择的是任意实例、任意主机,则无需其他操作,警报自动对所有实例、主机(包括后续新建的)生效。如果不是针对任意资源的警报,则还需要创建监控项,选择具体需要监控的资源,绑定到相关的警报。(图: 新建监控项)新建监控项时,还可以定义触发操作。要注意的是:定义在监控警报的操作是通用的触发操作,所有绑定到该警报的资源都会触发;定义在监控项的操作则只对该监控项对应的资源生效。监控警报能触发的操作,目前主要包括三种:1
6、. 平台消息: 警报触发后,往云平台发送消息,用户登录时可以看到。(图:平台消息)2. 发送SNS主题: SNS即云平台的另一个服务:简单通知服务。用法是:根据需要创建一个SNS消息主题,当监控警报触发时,将向该主题发布消息。一个SNS消息主题可以添加多个消息订阅。订阅方式可以是Email、Email-JSON或HTTP。当有人向消息主题发布消息时,所有已确认的订阅者都能收到消息。如果是Email、Email-JSON的订阅者,将收到邮件通知;如果是HTTP订阅者,将收到POST请求(消息内容为JSON格式),用户可根据需要作进一步的处理。(图:SNS订阅)3. 触发弹性策略: 弹性策略与云平
7、台另一个服务:弹性伸缩服务有关。弹性伸缩服务可以让用户创建弹性组,通过指定启动配置(包括使用的镜像,网络,是否使用负载均衡),最小、最大及当前需要的实例个数等来创建一组云资源。服务本身会对实例进行健康检查,确保健康的实例数量达到设置的需要值; 通过定义弹性策略加、减实例,再与云监控服务结合,达到通过监控数据的变化动态改为需要实例个数的目的。(图:弹性策略)一个较为经典的应用场景是: 以弹性组的方式部署一批WEB服务器,通过负载均衡对外提供服务。对弹性组实例的平均网络连接数建立两个警报:当并发连接数达到一个较高值时,触发添加实例的弹性策略增强处理能力;当并发连接数下降到一个较低值时,触发减少实例
8、的弹性策略以节约资源,从而实现自动根据负载情况自动伸缩资源。上述功能所有云平台用户都能使用。除此之外,品高云还有大量方便云平台管理员运维使用的功能:监控TOP:可以根据不同的监控指标,查看最近一段时间哪些资源该项指标最高,从而协助快速定位、排查问题;(图:监控top)云平台监控: 针对云平台各项资源使用率的监控,可根据使用率及其历史数据的走势,评估云平台是否需要扩容,要扩多大;(图:云平台监控)服务状态监控:针对云平台各项服务的健康状态的监控,可结合监控警报,在服务出现异常时第一时间通知管理员;(图:服务状态监控)资源监控: 从计算、存储、网络三个层面监控资源使用情况。(图: 资源监控)平台综
9、合评分: 从健康、风险、效率三个维度对云平台资源使用情况进行评分,并可查看各物理主机的资源使用率、资源富裕、不足的物理主机。(图:平台综合评分)(图:主机资源使用率)报表模块: 通过用户、服务、服务组、标签、软件使用情况等维度,了解云平台资源的使用情况,并可导出报表,方便运维人员的工作汇报。(图:用户报表)品高云监控服务现有的功能就介绍到这里。后续还会不断地优化改进监控服务,计划中的功能包括:1. 通过同一个入口快速查看不同资源的不同的监控指标的监控图表,可以在同一张图表横向对比多个指标的;2.提供更多的监控维度,如云平台事件,资源状态变化,等等;3.提供更多的触发操作,如存储卷扩容、更改网络带宽、迁移实例等等,让云平台更加自动、智能,减少运维压力。我今天的分享就到这里,感谢大家的收听。欢迎大家一起来交流!品高云公开课部分目录20160720浅谈E
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 财务出纳岗位责任制度
- 2026年四川省成都市高职单招综合素质考试题库与答案详解
- 营销策划方案编写与执行手册(标准版)
- 2026年昌吉职业技术学院单招职业适应性测试题库与答案详解
- 企业数据安全培训手册
- 资料员岗位责任制度范本
- 2026年辽宁省抚顺市高职单招综合素质考试题库带答案详解
- 2026年河北省衡水市高职单招职业适应性测试考试题库与答案详解
- 辅导中心教师责任制度
- 运输设备安全责任制度
- 小班数学认识数字1-5
- LY/T 1705-2007管氏肿腿蜂人工繁育及应用技术规程
- GB/T 5154-2022镁及镁合金板、带材
- 马工程《刑法学(下册)》教学课件 第17章 危害国家安全罪
- GB 30509-2014车辆及部件识别标记
- 09S304 卫生设备安装图集
- 医学导论-课件
- 细胞生物学CRISPR-CAS9-课件
- 建筑工程项目管理综合练习及答案
- 楼地面装饰工程计量与计价
- 学生预登信息采集表
评论
0/150
提交评论