云平台监控系统的研究与实现_第1页
云平台监控系统的研究与实现_第2页
云平台监控系统的研究与实现_第3页
云平台监控系统的研究与实现_第4页
云平台监控系统的研究与实现_第5页
已阅读5页,还剩74页未读 继续免费阅读

云平台监控系统的研究与实现.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、南开大学 硕士学位论文 云平台监控系统的研究与实现 姓名:孙杰 申请学位级别:硕士 专业:计算机软件与理论 指导教师:邵秀丽 2012-05 中文摘要 中文摘要 随着云计算技术的推广,涌现了许多优秀的云计算平台,其聚合了大量硬 件资源和软件资源,并采用虚拟化技术实现动态伸缩服务量,按需提供服务。 为确保云平台正常运转,必须对整个云架构实施多方位监控,而普通和网格监 控软件都有着自身的局限性和适用范围,不适用于云平台,所以本文研究并实 现云平台下的监控系统,解决云平台资源运行和用户使用的监控,并改进增强 了系统自配置和容错性,具有重要意义。 本文首先进行了云平台监控的需求分析,给出总体功能设计和

2、各模块设计, 并基于g a n g l i a 设计了包含监控资源层、监控采集层、监控汇集层、数据持久层、 用户交互层的五层架构模型,并具体分析了每层的实现技术和设计过程,对不 同监控对象采取不同传输策略,以保证低干扰、实时、准确传输,同时设计实 时展示库和监控分析库,以保证监控数据实时展示和深度分析。 之后对云平台中物理资源、虚拟资源、服务资源提供多维度的监控和资源 利用率分析进行研究,并根据分析实现监控预警和故障统计,实现数据稀释, 以达到监控和证明云平台的正常运行,检测出云平台瓶颈和故障,为运营者均 衡负载提供信息依据的目的;同时基于h a d o o p 运行机制设计了用户存储监控及

3、分析组件和用户计算监控和分析组件用于监控用户对云存储服务和计算服务的 使用,以增强云端透明度,提高用户对云服务商信任度,并根据监控结果进行 计费管理。 本文还针对使用的层级监控结构研究实现了监控系统的自注册机制和节点 动态发现机制,以实现云端节点接入自配置以及采集参数和频率的配置,降低 系统部署难度,支撑云平台动态伸缩的特性,并基于此改进了系统容错机制, 使系统具有一定的故障自恢复能力。 最后应用以上的研究实现了一个云平台监控系统,其运行效果表明本文的 策略是有效可行的。 关键字:云平台;监控系统;用户监控;白配置;故障自恢复; a b s t r a c t 一一一 a b s t r a

4、c t w i t ht h ep r o m o t i o no fc l o u dc o m p u t i n gt e c h n o l o g i e s ,a l o to fg o o dc l o u d c o m p u t i n gp l a t f o r m sa r es p r i n g i n gu p ,w h i c ha g g r e g a t i n ga l a r g en u m b e ro f h a r d w a r e a n ds o f t w a r er e s o u r c e s ,a n du s i n g

5、v i r t u a l i z a t i o nt e c h n o l o g yt o a c h i e v ed y n a m i c s c a l a b l es e r v i c ev o l u m ea n ds u p p l y i n gs e r v i c e so n - d e m a n d i no r d e rt o e n s u r et h e c l o u dp l a t f o r mr u n n i n gt i g h t l y , i ti sn e c e s s a r yt om o n i t o rt h

6、ee n t i r ec l o u da r c h i t e c t u r e c o m p r e h e n s i v e l y , b u tg e n e r a la n d 酊dm o n i t o r i n gs o f t w a r eh a si t so w n l i m i t a t i o n s a n ds c o p eo fa p p l i c a t i o n ,s ot h e yd o n t s u i tt ot h ec l o u dp l a t f o r m t h es t u d yt o a c h i e

7、 v ec l o u dp l a t f o r mm o n i t o r i n gs y s t e mh a sa ni m p o r t a n ts i g n i f i c a n c e f i r s t ,t h ep a p e rg i v e st h eo v e r a l lf u n c t i o n a ld e s i g na n dm o d u l ed e s i g nb a s e o nt h e n e e d sa n a l y s i so ft h ec l o u dp l a t f o r mm o n i t o

8、 t i n gs y s t e m ,t h e nt h e f i v e 。s t o r y a 】r c 尬t o c t u r em o d e lc o n t a i n i n gt h em o n i t o r i n gr e s o u r c el a y e r ,t h em o n i t o r i n gp o o l i n g l a y e r , t h em o n i t o r i n gc o l l e c t i n gl a y e r , t h ed a t ap e r s i s t e n c el a y e r

9、, t h e u s e ri n t e r a c t i o n l a y e ri sp r o p o s e dw h i c hb a s e do ng a n g l i a a n ds p e c i f i c a l l ya n a l y z ee a c ho ft h e t e c h n 0 1 0 9 i e sa n dd e s i g np r o c e s s d i f f e r e n tm o n i t o r i n gs t r a t e g yi s u s e di nd i f f e r e n t m o n i

10、t o r i n go b j e c tt oe n s u r el o wn o i s e ,r e a l t i m e ,a c c u r a t et r a n s m i s s i o n r e a l t i m e d i s p l a yd a t a b a s e ,m o n i t o r i n ga n a l y s i s d a t a b a s ea r ed e s i g n e d i no r d e rt oe n s u r e d i s p l a y i n gd a t ar e a l - t i m ea n d

11、a n a l y z i n g d a t ad e e p l y a tm es 锄et i m e ,m o n i t o r i n ga n dd a t aa n a l y s i sm u l t i d i m e n s i o n a l l y f o rt h e p h y s i c a lr e s o u r c e s ,v i r t u a lr e s o u r c e s ,s e r v i c e r e s o u r c e si nt h ec l o u dp l a t f o r ma r e r e s e a r c h

12、e di no r d e rt oa c h i e v em o n i t o r i n ga n dc e r t i f i c a t i n gt h en o r m a lr u n n i n go f t h e c l o u dp l a t f o r m ,d e t e c t i n gb o t t l e n e c k sa n df a i l u r e so ft h ec l o u dp l a t f o r m ,p r o v i d i n g i n f o 锄a t i o nt ot h eo p e r a t o rt ob

13、 a l a n c el o a db a s i s a n db a s e do nh a d o o pr u n n i n g m e c h a n i s ms o m er e l a t e dc o m p o n e n t su s e dt om o n i t o rt h eu s eo fs t o r a g es e r v i c e s , c o m p u t i n gs e r v i c e sa n do t h e rs e r v i c e sa r ed e s i g n e d ,w h i c he n h a n c et

14、 r a n s p a r e n c y t o t h ec l o u dp l a t f o r ma n di m p r o v et h et r u s tt ot h ec l o u ds e r v i c ep r o v i d e r s ,a n dh e l p b i l l i n gm a n a g e m e n ta c c o r d i n gt h em o n i t o r i n g r e s u l t s t h i sp a p e ra l s od i s c u s s e ss e l f - r e g i s t

15、r a t i o n a n dn o d ed y n a m i cd i s c o v e r y m e c h a i l i s mf l o rt l l et r e ec o n t r o ls t r u c t u r eo ft h em o n i t o r i n gs y s t e m t oa c h i e v e i i a b s t r a c t s e l f - c o n f i g u r a t i o na n dr e d u c i n gt h ed i f f i c u l t yo fs y s t e md e p

16、l o y m e n t ,s u p p o r t i n gt h e d y n a m i cs t r e t c h i n gc h a r a c t e r i s t i c s o ft h ec l o u d p l a t f o r m b a s e d o nt h e s e l f - c o n f i g u r a t i o n ,t h es y s t e mf a u l tt o l e r a n c em e c h a n i s mi si m p r o v e d ,s ot h es y s t e m h a sac e

17、 r t a i nf a u l ts e l f - r e c o v e r yc a p a b i l i t y f i n a l l ya p p l y i n gt h er e s e a r c ha l la b o v e ,t h ec l o u dp l a t f o r mm o n i t o r i n gs y s t e mi s i m p l e m e n t e d ,a n di t sr u n n i n gr e s u l t ss h o wt h a tt h i ss t r a t e g yi sf e a s i b

18、 l ea n de f f e c t i v e k e y w o r d :c l o u dp l a t f o r m ;m o n i t o r i n g s y s t e m ;u s e rm o n i t o r i n g ;m o n i t o r s e l f - c o n f i g u r a t i o n ;f a u l ts e l f - r e c o v e r y i i i 第一章绪论 第一章绪论 本章主要介绍云平台监控系统的研究背景和意义,并分析了国内外对云平台 监控的研究现状,最后给出全文的组织结构。 第一节研究背景和意义 随

19、着w e b 应用和信息化技术的蓬勃发展,以及商业智能、科学计算等各领 域大规模数据存储和计算需求,单机性能的改善已无法满足,应运而生的网格 计算结合分布式计算和并行计算的特点,将一群松散耦合的计算机组成的超级 虚拟计算机,在实现过程中研究中间件、标准协议等以屏蔽异构资源,但过于 理想化,应用性能单一,并没有得到大规模的实际运用。而云计算结合网格计 算的优点,通过虚拟化技术组织基础设施提供统一资源层,使得存储资源、计 算资源、各种平台和软件相互协作,并抽象提供l a a s 、p a a s 、s a a s 三层服务【l 】, 对用户按需收费,相较而言更偏向商业模式,即云计算服务商管理云计算

20、平台, 向用户提供计算、存储、网络资源等底层基础设施服务和部署其上的多种云服 务,并收取一定费用。而普通用户不需要关注云平台内部的实现机制,只需要 把自己的存储和计算任务放入云平台中处理,并获取结果。 目前,云计算平台研究和应用在学术和商业共同推动作用下,逐步显现迅 猛增长的势头,a m a z o n 、g o o g l e 、i b m 、m i c r o s o f t 、y a h o o 、s u n 、盛大云计算 等国内外公司纷纷推出了自己云计算平台和解决方案,云计算的时代已经到来, 逐步向面向服务、动态伸缩、按需收费的公有云或私有云发展【2 j 。而云平台的用 户范围也逐步扩

21、大,例如企业可以在云计算平台上按需选择适合自己的云服务, 快速构建具有本企业特色的业务流程管理系统和数据库,这种快速架构系统的 新模式,能够合理充分地利用资源,降低成本,从而提升企业的核心竞争力; 而政府则通过云计算加强部门间的信息交流,促进部门的协同办公,并将获得 的大量信息利用云计算数据挖掘、并行处理等技术进行分布式存储和科学分析, 最终让数据得到使得数据能够得到统一有效的管理。 而中国自2 0 0 8 年云计算经历引初期步骤后,开始步入快速发展通道,预测 第一章绪论 结果如图1 1 所示【3 】: 图1 1 中国云计算服务市场规模和预测 云平台聚合了大量物理资源、虚拟资源,并采用虚拟化技

22、术实现动态伸缩 服务量,按需提供服务。而监控在提高云计算提供服务质量方面扮演着重要的 角色,为使得云平台可以顺利提供服务且正确运转,需要多方位监控云平台运 转的架构,确保云平台运营者可以了解和把握总体运行情况,从而可以及时优 化资源性能和可用性。监控往往由监控软件来实现,通过对重要系统资源的监 控,检查系统瓶颈和隐藏的缺陷,并在严重故障时执行故障的自处理或手动处 理,以满足云平台的灵活及高可用的特点【3 】。同时,用户在云服务使用过程中, 对于云服务的运行监控要求将会时刻存在着,以确保机密数据安全和开展的计 算作业正确完成,同时云服务提供商也需要知道用户对云服务使用情况,以进 行收费,并核算在

23、什么样的成本下提供相应服务。 由于云平台底层资源异构,并采用虚拟化技术封装,而且提供多种服务, 所以监控云平台面临许多挑战,而现有成熟的监控系统往往存在很多缺陷,而 不适用于云平台监控,比如功能单一的缺陷,体现在很多监控软件仅提供对机 器性能单项指标的监控和展示,且没有提供监控数据的保存和分析,即造成历 史数据不可查,且对未来不可分析和预测【4 】;专用的缺陷则体现在监控系统仅管 理员进行操作和查看,不符合云平台下多租户的特性,并且不能提供对云服务 的监控,标准统一的接口更无从谈起,不具备较好的系统移植性;并且云平台 节点众多,而现有监控软件受监控规模的约束,常常无法适应云平台的大规模 集群的

24、需求f 5 1 ;容错性差的缺陷则体现在数据采集、传输过程不适应云平台大规 模集群的并发要求,容易造成局部瘫痪甚至完全停滞,更没有提出相应的数据 2 第一章绪论 恢复策略,同时很多监控系统初始部署配置复杂,且不适合云平台动态伸缩按 需提供服务的特点。 本文设计的云平台监控系统则克服现有监控系统的缺陷,实现自动配置、 自主发现监控节点,改进了系统容错机制,对云平台的物理资源层、虚拟资源 层、服务提供层实现多维度的监控以及数据分析,同时从用户使用云平台存储、 计算服务角度进行监控,并提供清晰明了的监控结果展示,以达到监控和证明 云的物理资源和虚拟资源的正常运行,监控服务资源的按需供给并进行计费管

25、理,并增强云端的透明度,降低云平台运营者维护云平台的难度,提高用户对 云平台服务商的信任程度的目的,这也为云平台快速部署、资源动态配置以及 负载均衡等提供信息依据。 第二节国内外研究现状 针对监控系统,网格监控方面研究较多,其中有r g m a 【6 j 、g r i d i m 【7 j 、m d s 【8 】等优秀的监控模型,开源工具包含n w s 9 1 、o v i s 10 1 、g a n g l i a 、n a g i o s t l l 】等, 可综合运用几种开源建设监控系统,但是配置复杂且资源占用率大,下面详细 介绍云计算平台监控研究现状。 随着云计算平台的风起云涌,大多数

26、知名云计算公司也都在研发相应的监 控工具,但其侧重点不同。例如盛大云监控产品于2 0 1 1 年1 2 月1 5 日开放,其 侧重于实时监测网站响应速度和网站服务器性能数据的变化,及时发现网站故 障。g o o s e 公司针对g o o s ea p pe n g i n e 的监控工具s y s t e ms t a t u sd a s h b o a r d 则 侧重于让服务提供者了解平台中云服务的运行情况【l 引。亚马逊的c l o u d w a t c h 从 其e c 2 开始提供了针对a n l a z o nw e bs e r v i c e 云资源的w e b 的监控服

27、务,用户可 无偿使用自动缩放( a u t os c a l i n g ) 功能,动态增加或迁移e c 2 实例【i 引。而开源 c h u k w a 1 4 】贝0 是侧重于h a d o o p 日志分析,其虽然利用了h a d o o p 的分布式监控数 据处理,但实时性差,且目前具有一定的局限性。此外一些监控研发公司也在 着力开发第三方监控产品,用以监控云平台,例如h y p e r i c 公司研发的云监i ! i i i 务c l o u d s t a t u s ,提供服务可用性、响应时间、延迟和吞吐量的报告,可监测 a m a z o nw e bs e r v i c

28、e s 和g o o g i en p pe n g i n e ,其h y p e r i ch q 商业版可监测 a n l a z o nw e bs e r v i c e s ,使企业可兼顾监控云平台的基础设施和服务运行情况, 但是其由于后台数据处理,有一定的滞后性。q u e s t 公司的v f o g l i g h t 提供监控 第一章绪论 从物理机到虚拟机应用,并根据监控数据进行云端容量规划和计费,但其配置 流程繁琐且收取费用较高。g o m e z 提供云环境的评估、测试和监测服务,使得 使用者可以监控应用服务的可用性和性能表现,并判定云服务提供商有无遵循 s l a t

29、 l5 1 。 与此同时云平台监控的相关理论研究却相对较少。论文 1 6 1 采用r e s t f u l 对 云平台基础设施进行监控和管理,即云平台中的计算资源、存储资源以及网络 资源等以r e s t 方式构建在树形结构中,具有较好的可扩展性,但是云平台的服 务层很难被监控,且没有考虑云平台用户使用云服务的监控;论文【1 7 】提出了基 于o v f 的云平台交互接口的设计,以解决云平台接口多资源异构的难题,获取 监控数据,但是没有考虑接口性能开销问题,不能b i 徊i - k 好满足云平台存储和计算 资源量大、监控系统低开销的特点。论文【1 8 】通过s a l s a 对h a d

30、o o p 集群产生的 系统日志进行分析获得控制流、数据流和相关统计数据,并进行了相关的可视 化和故障诊断工作,但是日志分析延迟性较大,不符合监控系统实时性特点。 论文【j 9 】偏向于研究云计算l a a s 提供的服务的监控。论文 2 0 贝j j 偏向监控云平台下 的应用。论文【2 i 】提出了云平台下的资源监控的模型,但是其没有进行相关的分 析,且没有加入用户的元素。论文【2 2 】提出了运行时云监控模型( r m c m ) 旨在构建 轻量运行且又包含大容量数据的灵活可用的模型,但是只停留的理论阶段,没 有真正实现。 综上可知,已有的监控对云平台资源情况监控并进行多维度的分析以及用

31、户使用云平台基础设施及服务的监控研究较少,且存在配置复杂、费用高、开 销大的问题。因此,本文对监控云平台资源运行和监控用户使用云服务方面进 行了研究,并进行了多维度资源利用率分析,同时设计自配置策略,降低部署 配置复杂度,改进其容错机制,实现自动化、安全云平台监控。 第三节本文组织结构 论文的组织结构如图1 2 所示。 4 第一章绪论 。第三章云平毛滥控 第三章 资源监控 + 数据持久层设计 数据抽取组件 数据稀释 监控预警和故障统计 云平台多维度资源利用率分析 第西章云平台蓝控系统关键 用户监控 + 数据持久层设计 用户存储监控和分析组件 用户计算监控和分析组件 用户计费管理 云端节点接入自

32、配置改进 自注册机制 节点动态发现机制 故障白恢复策略 i 容错机制改进 单指数平滑预测算法实现 匝至巫 i ! i i ;言丢磊嘉r 二二一二二二二二二 图1 2 论文组织结构图 第一章:绪论。主要介绍了云平台监控系统的研究背景和意义,并分析总 结了相关的国内外研究现状,最后给出了本文的组织结构 第二章:总结了一般云平台架构,并重点分析了h a d o o p 云平台架构和作业 第一章绪论 执行监控信息的获取;然后分析了监控系统中常见的集中式和阶梯式两种体系 结构和推模式和拉模式两种数据传输模式的使用场景和优缺点;最后对本文用 到的开源软件g a n g l i a 的实现原理和缺陷做出分析

33、,为云平台监控系统实现做好 铺垫。 第三章:是本文的核心工作,首先对云平台监控系统进行用户、监控对象、 数据处理做出需求分析,并分析云环境的监控所应满足的特性,在此基础上给 出了系统功能设计、五层架构设计、以及监控信息流分析。之后详细介绍了云 平台资源监控和用户使用云服务监控并计费的设计实现过程。 第四章:针对降低系统配置复杂度、增强系统容错性的问题,对云端节点 接入白配置和容错机制进行了研究和改进,并对改进做出评价,提出了进一步 的改进方法。 第五章:根据三四章的研究,设计实现了云平台监控系统。 第六章:对本文进行总结与展望。 6 第二章云平台监控架构研究 第二章云平台监控架构研究 本文主要

34、研究和实现云平台的监控系统,所以本章学习分析了已有的云计 算平台,总结了一般云平台架构,详细介绍了h a d o o p 云平台守护进程的相互协 作运行过程以及对存储和作业运行中监控。由于一般监控系统体系结构存在监 控节点少或配置复杂的缺点,数据传输的推拉模式单一应用具有资源消耗大的 缺点,最终确定了本文采用开源g a n g l i a 实现资源运行情况数据的采集与汇集, 并对及缺点进行改进,为此本部分先剖析g a n g l i a 的实现原理、功能和不足之处。 2 1 1 云平台架构 第一节云平台架构研究 本文根据云计算所具有的服务资源池化、可扩展性、可度量性、宽带网络 调用、可靠性等特

35、点【2 3 ,结合当下典型云计算平台的一些设计,给出了如图2 1 所示的云平台总体架构,架构分为四层,物理设备层、虚拟资源层、资源管理 层、资源服务层。 厂、 0 a a s 剀幽幽j g 。丛f 开发平台i 服务组件1 分布式数据库f 标准接口f ) 集中式体系结构 在集中式体系结构中,每个监控节点安装监控代理( a g e n t ) ,收集节点监控 信息,监控服务器负责汇集以及分析展示监控信息。监控代理以推送方式向监 控服务器发送信息参数,或监控服务器以拉方式向监控节点索要信息。体系结 构如图2 4 所示: 心 ) 分i 旷 堕蕉堇盛鉴蕉堇皇 图2 4 集中式体系结构 比如h a d o

36、 o p 自带监控系统中则采用集中式结构,监控服务器即n a m e n o d e 节点,监控节点即d a t a n o d e ,n a m e n o d e 和d a t a n o d e 之间通过心跳机制发送 h d f s 信息,数据块存放信息,以及任务运行情况。 阶梯式体系结构 阶梯式体系结构中,每个监控节点安装监控代理( a g e n t ) ,并选定汇集节点, 安装资源汇集代理( c o l l e c t ) ,汇集节点相当于局部监控服务器。 _ 一 一 一 、 一一 1 、 ,。,。2 ;一 fc o l l e c tc o l l e c t 一 、 t * ,

37、l ,- r 件 0 。 一一一 一一? 、 _ 、, ? i i 。j ! ;i ;至一j j j j ;i :j i ;:i r 。j 7 j i j j ;蚕一j i i j j i ;西?0 垒墅!鬯唑 监控节点表:记录被监控节点的m a c 地址、i p 地址、以及监控结构( 父 子关系) ,为能在节点中自动部署监控系统、配置树形结构提供基础信 息。 监控信息静态表,记录采集的静态监控信息,比如监控节点开机时间、 c p u 个数、硬盘容量、内存容量等,这些均为静态信息,且仅在系统重 启时被采集到。 c p u 监控信息表,记录c p u 的用户占用率、核心占用率、空闲占用率 以及采

38、集时间等。 内存监控信息表,记录内存空闲量、文件缓存内存量等以及采集时间; 磁盘监控信息表,记录磁盘的空限量以及采集时间; 网络监控信息表,记录网络接收数据量和发送数据量以及采集时间; h a d o o p 监控信息表,记录h a d o o p 当时运行情况,例如h d f s 读写数据 量、作业完成数等信息; 3 资源监控数据的抽取 由g a n g l i a 监控的云环境下各个云端运行性能变化的数据都保存在g a n g l i a 监控系统的r r d 数据库中,由于其固定存储大小的限制而历史运行数据往往不 能被存储下来,为此,本文设计的监控系统开发了抽取数据的组件,其功能是 从r

39、 r d 中抽取本监控系统需要的数据并保存到m y s q l 数据库中,抽取工作中需 要做文件内容的解析和处理等工作。 分析得知,r r d 数据库以仃d 后缀形式存放在文件夹下,如图3 6 所示,每 个组域创建一个文件夹,如c l u s e r l 和c l u s t e r 2 文件夹,每个节点在所属组域的 文件夹中创建一个文件,文件名为m a c 地址,每个监控对象都对应一个h d 文件, 如监控对象是c p u 用户利用率,其对应的文件是c p uu s e r r r d 。 图3 6 r r d 文件存放关系图 第三章云平台监控系统设计 对此,本文设计了如图3 7 所示的数据

40、抽取类,其中d a t a e x t r a c t 为数据抽 取总类,d a t a g r o u p 读取数据组域信息,d a t a m u l t i n o d e 负责读取节点信息, r r d r e a d e r 读取r r d 文件信息,r r d a n l y s i s 为负责分析r r d 格式并从中提取 数据信息的s h e l l 脚本,最后由d a t a s t o r e 存储解析后的数据。 一dataextractt 目萑 自 目n t r - 图3 7 资源监控数据抽取类图 从r r d 抽取数据的流程描述如下: ( 1 ) 设定数据提取周期为t

41、,本文设定为5 分钟,第一次提取时将已有数 据全部提取,每次提取记录开始时间,则下次提取开始时间则为上次提取开始 时间加提取周期,这样实现了增量存储,保证了提取内容不重复; ( 2 ) 间隔周期t 则定期开启d a t a e x t r a c t 线程,开始数据抽取; ( 3 ) 循环开启d a t a g r o u p 线程,读取组域信息; ( 4 ) 每开启一个d a t a g r o u p 线程,则开启多个d a t a m u l t i n o d e 线程读取组 域中节点信息; ( 6 ) d a t a m u l t i n o d e 调用r r d r e a d

42、 e r 读取r r d 文件信息; ( 7 ) 调用r r d a n l y s i s 脚本文件对r r d 进行格式分析,并从中提取数据; ( 8 ) 此时监控指标信息以保存如d a t a l n f o 数据结构中; ( 9 ) 调用d a t a s t o r e 导入监控分析库中。 4 资源监控数据库备份 从数据安全考虑,数据库需要进行数据的备份,考虑到完全备份存储量占 用量大,分析速度慢,备份时间长,因此,本文中先进行数据稀释,之后数据 备份,数据损坏后进行数据还原,从而起到给数据库减压,并备份重要数据的 作用。 2 9 第三章云平台监控系统设计 ( 1 ) 数据稀释 因资

43、源监控性能数据量巨大,本文监控系统采集了c p u 、内存、磁盘、网 路、一分钟平均等待进程数、h a d o o p 运行情况等多个参数数据,为减轻存储的 负担,本文备份数据之前先进行数据稀释,办法因资源不同采用不同的方式, 例如对c p u 相关信息的采集是每隔3 0 秒采集一次c p uu s e r 禾l j 用率、c p us y s t e m 利用率、c p un i c e 利用率、c p ui o 等待占用率、c p u 空闲占用率,对间隔很 久的历史数据,比如一个月前的数据就不需要知道其每个采集周期的的各个监 控参数指标的详细信息,例如c p u 信息中仅需知道一个小时的c

44、 p u 平均利用率, 对于一年前的c p u 数据则仅需知道每天的c p u 平均利用率即可。 所以数据稀释则完成此任务,定期对资源监控历史数据进行数据汇总保存, 并删除详细信息。 ( 2 ) 数据备份 定期进行数据的自动备份,意外情况时保证数据安全。 ( 3 ) 数据还原 系统灾难恢复时重新载入备份数据进行还原。 5 监控预警和故障统计 本文的监控预警采用阈值触发实现,例如连续1 0 个采集周期内存平均利用 率达到7 0 ,提出黄色预警,超过9 0 ,提出红色预警。 实现中设计警告设定表( w a m s e t ) ,由云平台运营者直径监控参数及其阈值 和警告类型;设计警告存储表( w

45、a r n ) ,用以记录警告和故障发生时间、发生节 点以及处理情况等。 触发器处理流程如下: ( 1 ) 将警告设定表中需要判定的类型的值按从大到小排列,得到阈值列表 t h r e s h o l d l i s t ; ( 2 ) 获取该类型要判定的监控数据值v a l u e : ( 3 ) 判定v a l u e 值是否合法,若合法则跳转( 5 ) ; ( 4 ) 用上次采集数据值替代不合法的v a l u e 值; ( 5 ) 判断v a l u e 值是否超过阈值列表最小值,若不超过则跳转( 9 ) ; ( 6 ) 从阈值列表中依次取出一个阈值t h r e s h o l d

46、; ( 7 ) 判断v a l u e 值是否超过所取阈值,若超过则跳转( 1 0 ) ; ( 8 ) 判断阈值列表是否取值完毕,若未完毕则跳转( 6 ) ; 第三章云平台监控系统设计 ( 9 ) 半l j 定监控数据值正常,不采取操作,跳转( 1 1 ) ; ( 1 0 ) ) 鳖l j 定监控数据值异常,提出相应警告,并将异常情况存储; ( 1 1 ) 结束。 而故障统计则通过判断监控节点在设定的监控时段内连续五个采集周期没 有收到监控结果,则判断其出现故障,其中汇集节点的故障自恢复在4 2 节进行 研究。 3 3 2 云平台多维度资源利用率分析 云平台资源层包含多个物理节点,也包含若干个

47、宿主机上创建的多个虚拟 机节点,而物理机监控和虚拟机监控是对单个节点,若干监控指标的单项监控, 如对内存使用量的监控、对网络发送数据的监控、对c p u 用户使用率的监控等。 云平台运营者需要知道云平台中单个监控节点资源使用率、服务器若干虚拟机 实际资源利用率以及某个特定集群整体资源利用率,资源利用率分析为监控警 告、负载均衡等提供了数据依据。为本文后面分析比较节点负载提供计算公式。 3 3 2 1 云平台中单节点资源利用率 可知资源利用率为时间的函数,某一时刻资源利用率定义为p ( t ) ,则 川) = 等,其中u ( t ) 为该资源使用量,z ( t ) 为资源总型3 3 1 。 设资

48、源参数采集周期为t ,则t l 到t 2 时间内该资源的平均利用率为e ( h ,t 2 ) , t 2 t l ,则: p ( f ) e ( ) 2 赤形 ( 3 j ) 】? 下面就具体数据采集情况对内存、磁盘、c p u 的瞬时利用率和平均利用率, 以及网络带宽流量情况进行逐一分析。 ( 1 ) 内存利用率:节点监控数据采集中,采集了单节点内存总量m e mt o t a l , 内存空闲量m e mf r e e ,则某一时刻内存利用率为: 第三章云平台监控系统设计 u 归竺篙篆铲 ( 3 2 ) r t 2m e m t o t a l ( t ) 一m e m f r e e (

49、 t ) 任孰 t 2 内存的平均利膊u “铲生等秽坠一( 3 3 ) j l ? ( 2 ) 磁盘利用率:在采集过程中采集了单节点硬盘总量d i s kt o t a l ,硬盘空 限量d i s k f r e e ,计算方式和内存相似。 ( 3 ) c p u 利用率:对单节点的c p u 采集了c p u _ u s e r 、c p u _ s y s t e m 、c p u _ n i c e 、 c p u _ i o w 、c p u _ n u m 、c p u _ _ s p e e d 六个指标的数据,忽略其硬中断时间和软中断时 间。则c p u 在t 时刻的c p u

50、 利用率为: 。o ) = c p u u s e r ( t ) + c p u s y s t e m ( t ) + c p u n i c e ( t ) ( 3 4 ) 任意t l t 2 内c p u 的平均利用率为: 印“一u s e r ( t ) + c p u s y s t e m ( t ) + c p u n i c e ( t ) u 。乞卜飞 ( 3 5 ) ( 4 ) 网络带宽流量:对单节点采集了接收数据量b y t e s _ i n ,发送数据量 b ”e s _ 0 则懒带宽利用孰驯= 业老兰筹巡 ( 3 6 ) b y t e s i n ( t ) +

51、 b y t e s o u t ( t ) t l t 2 网络带宽平均流量为:e “( f - ,乞) = 可i 沙一 ( 3 7 ) ? j ? ( 5 ) 平均负载:在单节点采集了o n el o a d ,即一分钟内系统平均等待的进程 数,通过此参数分析可知系统待处理进程数量,估算系统负载大小。则任意t 1 t 2 d n el o a d ( t ) j j 内系统平均负载为:e t o n a ( t l , t 2 ) = 弋f 矿 ( 3 8 ) 2 ( 6 ) 温度:除对资源利用率分析外,还需评估单节点的温度变化,所以加 入节点温度t e m p r a t u r e 的

52、采集,文献 3 4 1 研究表明,机器能耗随温度上升而上升, 温度过高会对性能表现有很大影响。因此物理节点温度对物理节点环境评分有 第三章云平台监控系统设计 负面影响。 任意t 1 t 2 内的平均温度为: t 2 t e m p r a t u r e ( t ) e t e m p ( t l ,t 2 ) = 卫丽 ,t ( 7 ) 单节点综合资源利用率: 只( f ) = 。w n “ 厶( f ) 己。( f ) 如;( f ) 只酎( f ) ( f ) 3 3 2 2 云平台中服务器上多虚拟机实际资源利用率 ( 3 9 ) ( 3 1 0 ) 服务器上部署若干个虚拟机,并对虚拟机

53、进行了c p u 、内存、磁盘及网络的 分配,对虚拟机的管理需要了解虚拟机对服务器的实际资源利用率,下面一一 介绍。 ( 1 ) 服务器上虚拟机内存实际利用率:设服务器上有n 个虚拟机,n 可经 表中以服务器为父亲的虚拟机个数统计可知,设m e mt o t a l p 代表服务器内存总 量,m e r et o t a l 。( i ) 代表第i 个虚拟机分配的内存总量,m e a lf f e e v ( i ) 代表第i 个虚 拟机内存空闲量,内存利用率计算方式如下: p ,e m ( t ) = e m e m t o t a l v ( t ) 一m e m f r e e ,( t

54、 ) l r l e m t o t a l p ( t ) ( 3 1 1 ) ( 2 ) 服务器上虚拟机硬盘实际利用率:计算方式如内存实际利用率。 ( 3 ) 服务器上虚拟机c p u 利用率:服务器上虚拟机总共使用的虚拟c p u 个数超过服务器实际c p u 个数时,c p u 资源将会按时间片划分,导致网路通信 等其他正常指标的规律性波动。虚拟机c p u 的个数对服务器产生的影响 c p u i n f l u e n c e 计算如下: 第三章云平台监控系统设计 c p u i n f l u e n c e = c p u 一? l u m ,( i ) c p u 一,z “

55、聊j 口 c p u n u m ,( f ) e p u l _ 2 z l m p 1 服务器上虚拟机c p u 实际利用率计算方式如下: 掣一s p e e d ,( i , t ) 宰( c p u s y s t e m v ( i ,t ) + c p u u s e r 。( i ,t ) + q m n i c e v ( i ,f ) ) 乇。( f ) = j c p u s p e e d p ( t ) ( 3 1 2 ) ( 3 1 3 ) ( 4 ) 服务器上网络带宽流量: 服务器在时刻t 总共发生的流量为n p n e t ( t ) ,其为所有虚拟机以及服务器发

56、生 的网络带宽流量总和,计算公式如下: 二( t ) = z b y t e s i n ,( i ,t ) + b y t e s o u t v ( i ,t ) + ( b y t e s i n p ( i ,t ) + b y t e s o u t p ( i ,f ) ) ( 3 1 4 ) 但是服务器与其上虚拟机通信,以及服务器上所有虚拟机之间通信并不对 集群网络造成影响,只有服务器和虚拟机与其他节点通信才对集群网络造成实 际影响则越大。设服务器和虚拟机对外通信概率为p o m ,则: “( f ) = 卅( f ) 毒 3 3 2 3 云平台集群资源利用率 云平台设定集群资源

57、利用率的分析使得云平台运营者了解云平台不同集群 负载情况。 例如计算集群内存利用率,设集群有n 个物理节点,m e m t o t a l ( i ,t ) 为第i 个节点t 时刻监测到的内存总量,m e r e f r e e ( i ,t ) 为第i 个- - d 、j 、t 时刻监测到的 内存空闲量,则: 乞一( f ) = n n z m e m t o t a l ( i ,f ) 一m 绷一f r e e ( i ,f ) i = 1 m e m t o t a l ( i ,f ) 一 一 7 i = l 集群c p u 利用率: ( 3 1 5 ) 掣一s p e e d (

58、i ,f ) 木( c p u u s e r ( i ,t ) + c p u s y s t e m ( i ,t ) + c p u n i c e ( i ,f ) ) 。( f ) = 旦1 _ 一( 3 1 6 ) z c p u s p e e d ( i ,f ) 集群综合资源利用率:( f ) = 。 。盯 ( f ) 己。( f ) ( f ) 刮( f ) ( f ) 其引入权重w ,用以调节不同资源类型对不同服务的影响程度。 第四节用户监控 ( 3 1 7 ) 该节详细介绍用户监控模块涉及的内容。该模块设计了户存储监控及分析 组件u s e r s t o r e m o n i t o r 和用户计算监控及分析组件u s e r c a l c u l a t e m o n i t o r 从 h a d o o p 接口获取用户使用云平台的存储和计算服务的信息,并在数据持久层设 计了相关的用户监控表结构将数据持久化,为用户计费管理提供依据。 3 4 1 用户监控数据持久层 用户监控数据持久层设计的表结构如图3 8 所示: 用户作业监控裹 用户任务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论