(计算机系统结构专业论文)网格监控系统gridview的研究与实现.pdf_第1页
(计算机系统结构专业论文)网格监控系统gridview的研究与实现.pdf_第2页
(计算机系统结构专业论文)网格监控系统gridview的研究与实现.pdf_第3页
(计算机系统结构专业论文)网格监控系统gridview的研究与实现.pdf_第4页
(计算机系统结构专业论文)网格监控系统gridview的研究与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机系统结构专业论文)网格监控系统gridview的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘璺 摘要 随着高性能计算应用需求的发展,单台高性能计算机已经不能胜任一些超大规模应 用问题的解决,这就需要将地理上分都的、异构的多种计算资源通过高速网络连接起来, 共同解决大型应用问题。网格是将大量异构的、地理位置分白的资源整合成一台巨大的 超级计算机,实现各种资源的全面共享。 为了有效的利用网格中的资源,提高网格中资源的利用效率,及时发现产生故障的 主机,分析系统性能瓶颈,帮助用户在最短时间内恢复或调整系统,网格监控就显得尤 为重要;监控数据还可用来预测系统运行的轨迹,为网格动态负载均衡策略提供可靠的 依据,保证网格的健壮性和可用性。 本文主要的主要工作有以下几个方面: 1 研究了网格监控系统的结构,并针对网格环境下的特点讨论了网格监控系统的 关键问题。在总结和分析已有监控系统的基础上,提出了自己的网格监控系统的体系结 构。在网格环境下,由于资源数目非常多,随着时间的推移,网格中资源的数目还会变 化,因此网格监控系统在结构上必须有较好的可扩展性。监控系统的各部分之间应该松 耦合,以便于监控系统在分布式环境下的部署。同时针对网格环境下的特点讨论了设计 和实现网格监控系统要解决的其它关键问题。 2 海量监控数据的处理技术。网格是由大量资源组成的一个资源共享系统。如此 大量的资源会产生大量的监控数据,如何处理这些监控数据既可以减少其对存储资源的 消耗,又尽可能的降低精度的损失,保证历史归档数据的真实性,这是海量监控数据的 处理技术要解决的问题。 3 监控数据的可视化问题。为了将网格作为一个逻辑上的整体,对用户提供方便 和透明的访问,必须将网格中的资源作为个有机整体为用户提供统一的逻辑视图。网 格监控系统将监控的所有资源信息以各种逻辑视图提供给用户,使用户方便快捷的获取 所要得到的信息,同时便于操作,符合人机交互界面的设计原理。 4 实现了网格监控系统g r i d v i e w 并对其进行了评价。在充分分析现有监控系统的 基础上,设计和实现了网格监控系统g r i d v i e w ,其结构具有较好的可扩展性,容易的实 现对多个机群的监控,并对其性能进行了分析和评价。 关键词:网格,网格监控系统,机群中间件,海量监控数掘处理,监控数掘的可视化 h 格监控系统g n d v i e w 的研究i 实现 r e s e a r c ha n di m p l e m e n t a t i o no fg r i dm o n i t o r i n gs y s t e m :g r i d v i e w n ig u a n g b a o ( c o m p u t e ra r c h i t e c t u r e ) d i r e c t e db ym aj i e w i t ht h eg r o w i n gd e m a n do fh i g hp e r f o r m a n c ec o m p u t a t i o n ,s i n g l eh i g hp e r f o r m a n c e c o m p u t e rc a n ts o l v es o m es u p e rl a r g e - s c a l ea p p l i c a t i o np r o b l e m st h a tn e e dt oi n t e r c o n n e c t l a r g es e t so fd i v e r s e ,g e o g r a p h i c a l l yd i s t r i b u t e dr e s o u r c e s g r i di s t om e r g el a r g es e t so f d i s t r i b u t e dr e s o u r c e si n t oah u g es u p e rc o m p u t e ra n dr e a l i z e sr e s o u r c e ss h a r i n gi n c l u d i n g c o m p u t i n gr e s o u r c e s ,s t o r a g er e s o u r c e s ,d a t ar e s o u r c e s ,a n ds oo n i no r d e rt oe f f e c t i v e l yu t i l i z eg r i dr e s o u r c e sa n di m p r o v er e s o u r c eu s a g e ,s u b s t a n t i a l a m o u n to fm o n i t o r e dd a t ac a l lb ec o l l e c t e d b e s i d e s ,g r i dm o n i t o r i n gs y s t e mi se x t r e m e l y i m p o r t a n tf o rav a r i e t yo ft a s k ss u c ha sf a u l td e t e c t i o n , p e r f o r m a n c ea n a l y s i s ,p e r f o r m a n c e t u n i n g ,p e r f o r m a n c ep r e d i c t i o n ,a n ds c h e d u l i n g t h em a j o rr e s e a r c h e so ft h i sp a p e ra r el i s t e d b e l o w : 1 s t u d y i n gt h ea r c h i t e c t u r eo f g r i dm o n i t o r i n gs y s t e ma n dd i s c u s s i n gk e yi s s u e sa b o u t g r i dm o n i t o r i n gs y s t e mr e l a t e dt ot h ec h a r a c t e r i s t i c so f g r i de n v i r o n m e n t t h ep a p e rp r e s e n t s i t so w ng r i dm o n i t o r i n gs y s t e ma r c h i t e c t u r eb a s e do nt h ea n a l y s e sa n ds u m m a r i e sa b o u t e x i s t e dm o n i t o r i n gs y s t e m b e c a u s eo fal a r g eq u a n t i t i e so fr e s o u r c e sa n dg r o w i n gq u a n t i t i e s u n d e rg r i de n v i r o n m e n t , g r i dm o n i t o r i n gs y s t e mm u s th a v eag o o de x t e n s i b i l i t yi ns t r u c t u r e a l lc o m p o n e n t so fg r i dm o n i t o r i n gs y s t e ms h o u l db el o o s e l yc o u p l e df o rt h ec o n v e n i e n t d e p l o y m e n tu n d e rt h ed i s t r i b u t e de n v i r o n m e n t a tt h es a n l et i m e ,t h i sp a p e rd i s c u s s e so t h e r k e yi s s u e sa b o u td e s i g na n di m p l e m e n ts o l v e db yg r i dm o n i t o rs y s t e m 2 p r o c e s s i n gt e c h n i q u e so fm a s sm o n i t o r e dd a t a w i t hi n c r e a s i n go ft h em o n i t o r i n g t i m ea n dg r o w i n go fg r i dr e s o u r c e s ,m a s sd a t aw i l lb ec o l l e c t e d h o wt os t o r et h e s ed a t ab o t h t or e d u c es t o r a g er e s o u r c e su s a g ea n dd e c r e a s et ot h ep r e c i s el o s st oe n s u r et h ea r c h i v ed a t a r e a l i t yi sac o n s i d e r a b l ep r o b l e m 3 m a s sd a t av i s u a l i z a t i o nt e c h n i q u e m o s to fg r i dm o n i t o r i n gs y s t e m sj u s td i r e c t l y d i s p l a yt h ed a t ag a t h e r e d t h e yd o n tg i v eo v e r a l lp e r f o r m a n c ec h a r a c t e r i s t i cf o rm a s sd a t a g r i da sal o g i c a lw h o l et h a tp r o v i d e sc o n v e n i e n ta n dt r a n s p a r e n ta c c e s sm u s ts u p p l yu n i f o r m l o g i c a lv i e wo fm o n i t o r e dd a t af o ru s e r s v i s u a l i z a t i o no fg r i dm o n i t o r i n gi n f o r m a t i o ni sa c o n v e n i e n tw a yt og e tw a n t e di n f o r m a t i o nf o ru s e r s m o r e o v e r , t h ev i s u a l i z a t i o nc o n f o r m st o t h ed e s i g np r i n c i p l eo f e f f e c t i v eh u m a n - c o m p u t e ri n t e r a c t i o n 4 d e s i g n i n ga n di m p l e m e n t i n gg r i dm o n i t o r i n gs y s t e m :g r i d v i e w t h r o u l g h 虹坨 a n a l y s e st ot h ee x i s t e dm o n i t o r i n gs y s t e m ,g r i d v i e wi sd e s i g n e da n di m p l e m e n t e d i th a s e x c e l l e n te x t e n s i b i l i t ya n de a s i l ym o n i t o r sm u l t ic l u s t e r s k e y w o r d s :g r i d ,g r i dm o n i t o r i n gs y s t e m ,c l u s t e rm i d d l e w a r e ,m a s s i v em o n i t o r i n gd a t a , m o n i t o r i n gd a t av i s u a l i z a t i o n i i 幽目录 图目录 图1 1 多结点机群的典璎体系结构2 图2 1g a n g l i a 体系结构9 ! j2 2g a n g l i a 嘲格层次_ 目_ i 户接l j 界面1 0 蚓2 3s u p e r m o n 系统结构1 l 图2 4g r i d m o n i t o r 框架结构1 3 图2 5g r i d m o n i t o r 用户界面层次视图1 4 图2 6g m a 构件及其通讯模型1 5 图4 1 归档数据处理流程图2 7 图4 2 网格视图层次划分 图4 3 网格视图的:级管理机制3 3 圈4 4 视图管理模块3 3 图4 5 视图级显示控制模块3 4 图5 1g r i d v i e w 系统框架图 图5 2 格点分布视图4 2 图5 3 静态的信息视图 图5 4 实时信息视图4 3 图5 5 状态和故障视图。4 4 图5 6 历史数据对比视图4 4 图5 7 负载分布视图 图6 1 结点基本空闲时压缩结果对比图5 0 图6 2 备个结点压缩后压缩前示意图5 1 图6 3 按资源项目压缩后,压缩前结果图5 2 图6 4 雎缩前后记录数对比图5 2 图6 5 结点资源使用变化较大时眍缩结裂对比图一5 3 矧6 6 监控性能数掘传输延迟一5 5 v 表日录 表目录 表6 1 被监控结点测试平台配置4 8 表6 2 资源侦测代理对结点资源消耗的测试结果4 8 表6 3 结点运行相对稳定时压缩结果对比4 9 表6 4 按资源项目压缩结果记录5 0 表6 5 结点繁忙时压缩结果对比表5 2 表6 6 机群信息网关运行的节点服务器测试平台配黄5 2 表6 7 网格信息处理器服务器测试平台配置5 3 表6 8 监控数据传输延迟5 3 声明 本人声明所呈交的论文足我个人在导师指导下进行的研究工作及敬得 的研究成果。就我所知,除了文中特别加以标注和致谢的地办外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均己在论文中作了明确的说明并表示了i 身f 意。 作者签名:斥礼尹宝 日期:1 啊罗杪 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名彳见于立导师签名:鸟赴日期:! ;g 形 第一章概述 第一章概述 人类对高性能计算技术的需求是无止境的。石油勘探开发、气象预报、生物 信息科学、航空航天、飞行动力学、油藏模拟、核爆炸模拟、数字图书馆,虚拟 现实、数字电影等应用,需要高性能的计算资源来满足这些要求。目自口,机群系 统以其优越的可扩展性、可用性、可靠性和性价比在高性能计算机系统中占有主 导地位。随着人类的应用需求正迅速朝着高性能、多样性、多功能发展,许多大 规模科学计算应用不仅仅需要一台高性能计算机,单台高性能计算机已经不能胜 任一些超大规模应用问题的解决,它还更需要由多种机器组成、多个系统合作、 多台科学仪器相连的网络虚拟超级计算机。随着这些高性能计算应用需求的发 展,这就需要将地理上分布的、异构的多种计算资源通过高速网络连接起来,共 同解决大型应用问题。网格( g r i d ) 就是在这种背景下诞生的。网格虽然出现只 有短短几年,但近来对网格计算的研究却有明显加快的趋势。国外的一些政府部 门、研究机构、大学和企业加大了投资力度,纷纷启动了新一轮的研究计划和项 目,力图在这一研究领域保持领先地位和抢得未来应用市场的先机。我国也出现 了类似的研究热潮,国家将投入大量人力、财力从事网格计算研究。 网格( g r i d ) 其远景目标是实现资源的全面连通和有效组织,支持便利的访 问,实现资源和信息的共享。为了实现其目标就需要对系统自身和所属资源进行 有效的维护管理,这需要资源监控系统与之适应,资源监控系统不仅保障网格的 正常运行,而且为网格的其他服务提供资源状态信息,在网格系统中起着举足轻 重的地位。 1 1 机群及其监控系统 机群是由完整的计算机( 结点) 集合组成,这些计算机由高性能网络或局域 网物理地互联,作为一个统一的计算资源使用的系统。典型情况下,这些计算机 结点是一台s m p 服务器、一台工作站或是一台p c 计算机【4 0 】。更重要地是, 除了满足由交互用户单独地使用每个结点的协定任务之外,所有机群节点必须能 够一起集体工作,如同一个单一集成的计算资源。所谓机群系统是利用高速通用 网络将一组高性能工作站或高档p c 机,按某种结构连接起来,并在并行程序设 计以及可视化人机交互集成开发环境支持下,统一调度,协调处理,实现高效并 行处理的系统。典型的机群体系结构如图1 1 所示。 在实际的机群例子中包括微软的w o l f p a c k 、d i 西t a i 的t r u e c l u s t e r 、i b ms p 2 和b e r k e l e yn o w ( n e t w o r ko f w o r k s t a t i o n ) 在某些实例中,机群是大规模并行 m 格监手窖系统g r i d v i e w 的研究与实现 处理机的低成本变种机群的结点日j 采用高速的商用网络连接起来,它们之日j 为 松耦合的。从结构和结点日j 通讯方式束看,它属于分布存储系统,主要利用消息 传递方式实现个主机之f b j 的通信,由建立在一般操作系统之上的并行编程环境完 成系统的资源管理及相互协作,同时也屏蔽工作站及网络的异构性,对程序员和 用户来说,机群系统是一个整体的并行系统。机群系统中的主机和网络口r 以是同 构的,也可以是异构的。目前已经实现和正在研究中的机群系统大多数采用现有 商用工作站和通用的l n 网络,这样即可以缩短丌发周期又可以利用最新的微 处理器技术。大多数机群系统的并行编程环境也是建立在一般的u n i x 操作系统 之上,尽量利用商用系统的研究成果,减少系统的研发和维护费用 4 0 1 。机群内 结点日】是松散耦合的,在逻辑上能够表现出紧祸合的关系,如机群操作系统中的 单一镜像系统,分布式共享存储系统中的单一逻辑地址空问等,但是需要作业管 理系统、机群操作系统和机群监控系统等硬件和软件部件。 图1 1 多结点机群的典型体系结构 下面列出重要的机群特征: 1 ) 机群的每个结点是一个完整的工作站,但没有某些外围设备( 如监视器、 键盘、鼠标) ,有时称这类结点为“无头工作站”。一个结点也可以是一台s m p 或 足一台p c ,在每个结点上驻留有完整的操作系统,而在某些m p p 的结点中只 有操作系统的微核。c l u s t e r 的操作系统是相同的工作站u n i x ,加上一个附加 软件层以支持单一系统映像、可用性、并行性、通信以及负载平衡。 2 ) 结点通过低廉的商品化网络,如以太网、f d d i 、光通道和a t m 开关实 现互连。虽然在某些商用机群中也使用专用网络。机群总有一个局部磁盘,而在 m p p 中可能没有。 3 ) 可扩展性一个机群的计算能力随节点增多而增加。其次,机群的可扩 展性是群体可扩展性。因为是松散耦合,机群能扩展至几百个节点 4 ) 单一系统映像:一个机群是个单一计算资源与此相反的是分布式系 统,在那里将结点作为单独资源机群借助若干单一系统映像技术,实现单资源 概念s s i 使机群变得更容易使用和管理。 5 ) 整个系统具有高可用性( a v a i l a b i l i t y ) 。由于机群系统中的每个结点都是一 2 第一章概述 个完整的计算机系统,都有一个完整的操作系统映像,因此一个或几个结点崩溃 应该不会导致整个系统停机,这个系统可以降级使用直至崩溃的结点得到修复 【4 0 。 随着机群规模的扩大和应用的复杂化和大型化,为了有效的管理和使用机群 中的结点资源,必需及时的了解资源的当前状态和资源使用情况。另外,随着用 户的需求越来越多,机群系统软件也变得越来越复杂,越来越多的机群系统软件 需要侦测系统的状态,例如系统监控软件中的状态收集器,作业管理系统中的调 度器,高可用管理中的仲裁器等【1 4 】。因此,机群监控系统在其中起着举足轻重 的作用。 在设计和实现机群监控系统时,主要考虑以下几个方面的因素。首先,要低 额外负载。监控系统要对机群性能产生尽可能低的影响,监控系统本身占用尽可 能少的资源。这既包括对各个结点采集性能数据时,对各个结点产生尽可能少的 影响,又包括传递监控性能数据要占用尽可能少的网络带宽;其次,要可扩展。 因为机群本身的一个最重要的特征就是可扩展性比较好,而与其相对应的监控系 统也要具有较好的可扩展性,能够随着结点数的变化而自动调整。不需要人工的 干预,不会因为结点数的改交修改监控系统;第三,一致性。机群监控系统中被 监控对象的数据表示与系统实际状态一致,尽可能减少误报的概率。第四,要界 面友好。监控系统的界面要方便用户的使用,能够以用户方便或用户希望的方式 获取机群中所有资源的当前使用情况和当前运行状态。 1 2 网格简介 随着计算机与网络技术取得飞速进步,具有强大计算能力的巨型机与服务器 应用正在普及,高速率、高带宽的网络已经在广域环境中应用,同时个人计算机 功能也日益强大,基于网络的应用也已经非常广泛和成熟,在这些技术前提下, 为了解决复杂的计算问题和推动新的计算应用,网格计算便应运而生网格是构 建在互联网上的一组新兴技术,将高速互联网、大型数据库、存储资源、信息资 源、知识资源等全面共享、消除信息孤岛和资源孤 4 8 1 。简单的讲,传统因特 网实现了计算机硬件的连通:而网格试图实现互联网上所有资源的全面连通,向 用户提供透明而便利的服务。网格“在动态变化的多个虚拟机构间共享资源和协 同解决问题”【7 】。网格计算被人们认为是未来2 0 年内计算机技术的发展方向。 网格最早来源于人们对高性能计算能力的追求,将局域网内或者广域网上地域分 布的若干商性能计算机合成一个虚拟的大计算机,解决一个单台计算机无法完成 的大问题,或者让许多用户透明的共享这些昂贵的计算、存储、设备资源。 计算网格作为一个完整的系统用于解决大型的跨领域的科学计算问题,相比 传统的多处理机系统,有很多鲜明的特征高性能计算机、大型服务器成为计算 嗍格监挖系统g n d v i c w 的乜开究j 实现 网格的计算单元和数掘存储单元,计算( 存储) 单元异构,地理上分白较广。计 算( 存储) 单元间通信性能较低,系统的耦合度低于机群。系统除具有高可用, 高可扩展等特性外,具有可重构,自适应等动态特性。 网格( 包括计算网格、数据网格、知识网格、信息网格等) 的硬件软件构成 不是完全的相同,而是按照不同区域、不同应用领域组成自治的子网格或微网格 子网格同时遵循网格系统整体的标准;网格的建设也不是不同地区不同领域同时 实施,一步到位,是不断的扩大系统的规模、提供高级功能、提高系统的知识, 不断的发展完善。 计算网格和数据网格实现计算力和存储力的共享,使分散的计算力和存储力 能够组成一个整体,解决更大规模的问题,提高对计算设备的利用率,也使人们 从复杂的管理和操作中解脱出来。然而,不同地区和领域内的团体对私有计算设 备和存储设备的共享以及协同工作的使用范围是不同的,需要严格限定在一定的 范围之内。目前,既有作为整个国家基础设施的网格。如欧洲的d a t a g r i d 、美国 的t e r a g r i d 和我国的高性能计算环境,作为整个企业基础的企业计算平台,如 j 2 e e 、n e t 等系统,也有只是面向小规模的家庭或公司的微网格平台 对于小范围内安全和保密级别要求较高的应用环境,比如大型系统开发,需 要多人协作,各模块需要有独立的高性能计算机,整个系统也需要规模更大的计 算设备,要求很高的计算性能和存储能力,需要物理设备能够灵活放置让不同部 门独立使用和管理,并且能够联合所有计算设备计算超出任何现有单独设备计算 能力的规模的问题。现有的技术或解决方案存在成本较高,设备利用率低,管理 和操作复杂导致人为故障较多等问题,通过高速i p 网络互连分布的计算设备和 存储设备,主要是机群系统,实现资源共享和应用集中运行,是适合该类应用的 基础平台架构。 根据当前的技术和需求,网格主要有以下一些应用: 1 分布式超级计算 分布式超级计算( d i s t r i b u t e ds u p e r e o m p u t i n g ) 是指将分布在不同地点的超级 计算机用高速网络连接起来,并用网格中间件软件。粘合”起来,形成比单台超 级计算机强大得多的计算平台。事实上,网格的最初设计目标主要就是要满足更 大规模的计算需求。【4 2 】但由于网格系统中网络主要基于商用网络,传输延迟 比超级计算机内部专用网络明显偏大,所以更适合各并行进程独立性较强,相互 通讯不是很频繁的松祸合并行处理程序。 2 数据密集型计算 高能物理试验,天文观测、生物和医学等科学项目产生大量的数据,并且会 随着时间的推移,这些数据会继续迅速增加。任何单台的计算机对这些海量数据 的存贮、传输和处理都将难以胜任网格技术的出现为解决这一问题提供了新的 手段,其基本思想是把海量数掘分散到全球的计算机上进行处理,这将极大的加 4 第一章概述 快数据的处理。 3 远程沉浸 远程沉浸是一种特殊的网络化虚拟现实环境这个环境可以是对现实或历史 的逼真反映,可以是对高性能计算结果或数据库的可视化,也可以是个纯粹虚构 的空间。“沉浸”的意思是人可以完全融入其中:各地的参与者通过网络聚在同 一个虚拟空间里,既可以随意漫游,又可以相互沟通,还可以与虚拟环境交互, 使之发生改变。广义上说,远程教育,远程医疗也属于协调计算,利用网格的综 合资源管理特征,这些服务可以更容易实现。 4 信息集成 网格最早以集成异构计算平台的身份出现,接着跨入分布处理海量数据的领 域,自然而然地,网格将在信息集成领域一展身手。所谓的信息网格,就是要建 立一个体系结构并开发相应的中间件,向用户提供“信息在你指尖”( i n f o r m a t i o n a ty o u rf i n g e r t i p ) 式的服务。 1 3 网格监控系统 网格监控不同于一般的监控系统,因为它必须通过局域网甚至广域网,包括 大量的异构资源和通过如命名和安全问题等网格中间件集成的资源,具有可扩展 性,同时会因为有大量的资源的动态加入和撤出而变得复杂。它主要监控和管理 分布式计算构件以保障网格环境下的高性能分布式计算的顺利进行。监控数据也 用来确定在网格环境下导致整个系统运行的性能瓶颈所在,以调整和优化整个系 统和应用的性能容错和恢复机制也需要网格监控数据以确定是否服务器已经当 机,以确定是否需要重启服务器以及是否需要重定向服务请求【1 1 。 一般说来,资源监控系统可以为网格提供以下几方面的支持: 1 资源利用率 这是资源监测系统最主要的功能。它服务于下面几个方面:为用户提供资源 的当前使用情况。已经消耗了系统的多少资源,还有多少资源空闲,以为用户进 行作业分配和调度提供参考信息;提供为进行历史数据分析的历史数据归档功 能;为性能预测和资源调度提供支持。 2 资源状态 它主要监测网格环境下,所有资源的当前运行状态。它不是探测资源的存在, 而是监测资源的好坏,如结点的死活和网络的断通等。它不仅仅是获得监控数据, 而是要通过某些手段处理资源的异常情况,提高系统资源的可用程度和系统的健 壮性。 3 资源信息 网格监控系统可以探测并报告网格中可用的资源,由于网格的动态性,尤其 州格髓拧系统g n d v i e w 的研究,实现 在广域网环境中,由于资源分属不同的机构和不同的组织,这些可用资源的信息 不可能全部预先知道,需要监控系统实时发现。 4 为上层应用提供支持 如作业调度程序、性能预测和分析程序等应用程序需要获得资源状念信息, 如果这些程序都自己实现资源状态信息的直接获取,不仅仅增加程序的复杂程 度,而且对系统的运行会造成难以预测的冲击。由此不可避免的带来了软件的冗 余,影响了机群系统的运行效率因此,实现一套全面的资源监测系统,满足上 层对资源状态信息的需求,是非常有必要的。 在实践中,资源监控系统的工作主要通过这些途径体现出来: 1 提供被监控系统的显示,以便管理员掌握整个系统的状念,对于异常情 况及时做出反应,而且可以通过监控系统对系统进行控制,改变其状态和行为。 这项工作通过用户接口服务于系统管理员等用户。 2 在其它应用程序中,通过库或接口使用监控系统提供的信息,必要时也 可以自动进行系统控制。这些工作可以采取提供函数库供其它应用程序调用或开 放访问端口供其它应用程序读写数据实现,这一点对于实现监控系统与其它系统 的交互十分重要 4 3 1 。 由此可见,资源监测系统在网格中起到重要作用,它不仅是保证系统健壮性、 可用性的手段,而且支持着网格环境下的资源管理,是网格运行不可缺少的一个 组成部分。 但网格系统与单机和机群系统是有很大差别的。它的主要不同在于网格系统 具有地理分布广、计算资源多、系统异构以及隶属不同组织导致管理困难和安全 隐患等特点,它们为网格系统的监控带来了问题,能否以及如何解决这些问题是 衡量网格监控系统的关键。 基于上述,网格监控系统与传统的单机和机群监控系统相比。主要有以下几个 难点:被监控资源的数量巨大:被监控资源的种类繁多:监控需求的复杂性,分 布式环境的复杂性。下面分别加以详细讨论。 1 被监控资源的数量巨大。网格是为了解决任何单台的高性能计算机无法 解决的大型应用问题。为了实现这样的目标就需要将多种大量的计算资源通过高 速网络连接起来,其最终日标是形成全球规模的大系统。这些大量的计算资源即 可以是向量机、大规模并行处理机,也可以是大规模的机群和其它精密仪器,使 得网格系统的资源变得日益庞大。为了有效的利用所有的这些网格资源,就需要 实时的了解其运行状态和资源使用情况。网格监控系统必须实现对这些大量资源 的监控和管理。 2 被监控资源的多样性。因为加入网格的资源分属于不同的部门和不同的 组织,其包含的资源包括硬件、软件和外部设备等多种资源,种类繁多即使相 同种类的资源,也可能由不同的厂家生产,其型号和体系结构也不相同,如此多 6 第一牵概述 的异构网格资源,导致了监控资源的多样性。 3 被监控资源的动态性网格是一个动态的大系统,在其运行过程中会有 资源不断的加入,同时又会有资源不断撤出网格系统。这样监控系统不仅被监控 资源的性能数据是不断动态变化的,而且被监控资源的元数据本身也是不断动念 变化的网格的这种动态性导致了监控系统必须能够知道当前有哪些资源可用。 只有知道当前有哪些资源可用,才能充分利用网格中所有可用的资源的计算能 力。对于广域范围的大网格体系结构的系统,监控系统中必须有资源的动念发现 机制,能够发现资源的这种动态变化。而对于在局域网范围内的网格监控系统, 由于所有的资源属于同一单位,甚至属于同一部门,状态都是可知的。当有资源 想加入网格系统,在其空闲可以被其它应用使用时,可以通知系统管理员,通过 动态的配置功能实现,同时,若某资源想退出网格系统,也可以通过动态配置而 实现,这极大的简化了监控系统由于要考虑资源的动态发现机制而造成的困难。 4 。分布式环境的复杂性。网格是一个分布式的环境,其不同的资源之问的 性能可能于差万别,而不同资源之间的网络性能差别可能也非常大。在设计和实 现监控系统的时候为了尽可能的减少监控系统本身对资源的影响,对不同类型的 资源采取不同的监控策略。如对于性能差一些的计算资源,其获取性能数据的频 率会低一些,而网络速度慢的资源,则尽可能减少性能数据的传输。所有的这些 导致了网格监控系统的复杂性。 监控系统需要对被监控系统进行测量,难免会影响被监控系统的运行,但它 希望能获得被监控系统较少受到外界干扰情况下的性能数据:另一方面,被监控 系统自身也不希望受到外界的影响,这不仅仅因为会影响其性能,而且因为这样 的影响可能最终会对系统造成巨大的影响,以致完全改变系统原有的运行。同时, 跨网络的监控系统需要使用网络来传输监控数据,这也会由于网络传输的不可靠 和网络延迟而导致问题变得更复杂。 1 4 本文的主要工作 本文的主要工作是实现一个实时和可扩展的网格监控系统g r i d v i e w 。随着 高性能应用的日益复杂化和大型化,任何单台的高性能计算机都无法单独解决一 些超大规模应用问题,网格这一新的体系结构成为研究中的热点。目前机群已经 成为高性能并行处理系统中的主流结构,机群技术的日益成熟,机群在世界各地 被大量地部署,其上的应用也不断增多,已经在网格中占有重要地位。为了充分 利用这些机群的计算能力,将这些机群通过高速的专用网络连接起来实现计算资 源和存储资源的共享以解决更大规模更复杂的问题,并使用户能够方便地访问和 使用这些资源,就需要对这些资源进行监控和管理本文研究的主要对象就是多 个互联的高性能机群共享资源的监控系统。为了充分利用共享资源,必须及时地 7 阿格监拧系统g n d v l c w 的研究j 实现 了解所有资源的当前状态和资源使用情况,以保证计算的顺利进行和资源的合理 调度。主要工作有以下几个方面: 1 研究了网格监控系统的结构,并针对网格环境下的特点讨论了网格监控 系统的关键问题。在总结和分析已有监控系统的基础上,提出了自己的网格监控 系统的体系结构。在网格环境下,由于资源数目非常多,随着时间的推移,网格 中资源的数目还会变化,因此网格监控系统在结构上必须有较好的可扩展性。监 控系统的各部分之间应该松耦合,以便于监控系统在分布式环境下的部署。同时 针对网格环境下的特点讨论了设计和实现网格监控系统要解决的关键问题。 2 海量监控数据的处理技术。网格是由大量资源组成的一个资源共享系统。 如此大量的资源会产生大量的监控数据,如何处理这些监控数掘既可以减少其对 存储资源的消耗,又尽可能的降低精度的损失,保证历史归档数掘的真实性,这 是海量监控数据的处理技术要解决的问题。 3 监控数据的可视化问题。为了将网格作为一个逻辑上的整体,对用户提 供方便和透明的访问,必须将网格中的资源作为一个有机整体为用户提供统一的 逻辑视图。网格监控系统将监控的所有资源信息以各种逻辑视图提供给用户,使 用户方便快捷的获取所要得到的信息,同时便于操作,符合人机交互界面的设计 原理。 4 实现了网格监控系统c n - i d v i e w 并对其进行了评价。在充分分析现有监控 系统的基础上,设计和实现了网格监控系统g r i d v i e w ,其结构具有较好的可扩 展性,很容易的实现对多个机群的监控部署。并且实现了对曙光4 0 0 0 a 和测试 床机群的监控,并对其性能进行了分析和评价。 本文以后各章的内容安排如下:第二章为国内外监控系统分析主要介绍了 当前比较成功的国内外大规模分布式监控系统,同时分析了它们的优点和不足; 第三章介绍了网格及其监控系统。重点介绍了网格的基本概念,以及网格监控系 统设计的基本原则和研究内容;第四章介绍了g r i d v i e w 中的关键问题。网格监 控中的异构性和动态性的解决、海量监控数据的处理和监控数掘的可视化;第五 章g r i d v i e w 的设计和实现。主要包括g r i d v i e w 的系统结构、监控系统中各个构 件的设计和实现以及主要功能模块和数据库结构的设计和实现;第六章对 g d d v i e w 进行了性能分析和评价:第七章总结全文和展望未来的工作。 8 第二帝国内外大规模监拧系统分析 第二章国庆jg l 大规模监控系统分析 在高性能计算机和网格领域中,越来越多地面临系统硬件和软件的故障问 题。为了及时了解资源使用情况和资源的当前运行状态,出现了许多大规模分布 式系统的监控系统。同时为了适应网格分布式系统中资源的特点,丌发了一些适 应网格环境的监控系统,有些网格监控系统就是有大规模机群监控系统扩展而来 的。这些系统都较好的考虑了大规模系统的扩展性、缩放性。本章就介绍一些监 控系统,并对它们的优缺点做简要的总结。 在现有的大规模分布式监控系统中比较典型的包括:g a n g l i a 、s u p e r m o n 、 g r i d m o n t o r 、g m a 和g r i d m o n 。由于各个监控系统其侧重点不同,所要解决的 问题也不尽相同,其设计和实现的系统架构差别较大下面就对它们进行逐一介 绍,然后对它们的优点和不足进行分析总结 2 1g a n g l i a g a n g l i a 是由加州大学伯克利分校开发的一个可扩展的分布式监控系统,可 以用于高性能的机群或者网格计算环境的监控。它建立在分级、联邦的基础之上, 其结构为树状结构,这使得它有着很好的可扩展性,可以容易的适应不同规模的 机群,目前已用于5 0 0 个机群。单机群的结点数可达2 0 0 0 个 1 1 1 。g a n g l i a 监控 系统的体系结构如下图所示: _ o - 一- 。一。j 一- 。_ - - 。 c l u r e r( i r 图2 1g a n g l i a 体系结构 g a n g l i a 基于x m l 技术的数据传递可以使得系统的状态数据跨越不同的系 统平台而进行交互。很好的解决了系统之间的异构性问题,这是该系统被广泛应 用的另个重要原因同时用x d r 进行监控数据的传输、以减少机群内部往多 9 叫格监控系统g n d v l e w 的研究j 实现 波地址上发送的监控数据的数量 g a n g l i a 用r r d t o o l 为数据存储和可视化的工具,简化了海量监控历史数掘 的处理。r r d ( r o u n dr o b i nd a m b a s e ) 是一个有效的存储和显示时日j 序列数掘 ( 如网络流量、机器温度、服务器的平均负载以及c p u 利用率等) 的数掘库。 它用紧凑的、设计时指定固定大小的存储空问存放数据。通过这种方式,数掘库 的大小不会随着时间的推移而增加,因此可以减少数掘库的维护和管理。它的工 作方式比较象循环队列,有一个固定大小的数掘空间和一个指针,指针指向当前 元素,当前元素被读出或写入。指针则指向下一个位置。当所有可用的位置都被 占用时,数据可以根据实现定义的策略进行压缩,以重用存储空间【2 0 】。虽然r r d 数据库是一个有效的记录时间序列数据的数据库,但g a n g l i a 使用它却会造成一 个性能瓶颈,尤其是当用它对数据进行归档合并的时候,会造成大量不必要的磁 盘的访问量,同时会造成监控数据精度的损失。 图2 2g a n g ii a 网格层次用户接口界面 在机群内部g a n g l i a 采用的协议是基于多播的l i s t e n a n n o u n c e 协议。机群内 的每个节点都定期的通过多播向所有区内的邻居发出自身的节点状态信息,同时 也接收其他所有邻居发来的多播信息,从而每个节点都形成了一张区内所有节点 的节点状态图。这样g m e t a 只需连接区内的任意一个g m o n d 就可以得到整个区 的状态,并最终,根g m e m d 可以得到一张所有节点的状态图【2 2 】。使用多播使 g a n g l i a 可以在不进行任何配置的情况下动态增删节点,因为当节点加入后他就 向区内多播地址发送自己的状态信息,并最终被它的邻居获得并由g m e t a d 取走; 节点退出时它的信息在邻居的表中不再被更新,这将导致超时使得此信息失效, l o 第二章周内外夫规模监拧系统分析 最终这种失效也会被g m e m d 感知 g a n g l i a 还为用户提供了方便的图形用户接口,通过图形接口用户不必分析 大量的可读性差的性能数据,而一目了然的了解资源的当前使用情况和当前的状 念。其中可用从多个层次获取信息,如网格层次、机群层次,结点层次等。如网 格层次视图如图2 2 所示: 2 2s u p e r m o n s u p e r m o n 是由美国洛斯阿拉莫斯国家高级计算实验室开发的一套面向 l i n u x 机群的、高速的、可扩展的机群监控系统【l o 】。 s u p e r m o n 是针对超大规模( t e r a s c m e ) 机群的高性能的机群监控系统。结构 上它分为三个层次,底层是每个结点上的数据服务( m o n ) ,用来收集结点状态 信息,中问层

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论