(计算机应用技术专业论文)infiniband集群可视化监控系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)infiniband集群可视化监控系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)infiniband集群可视化监控系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)infiniband集群可视化监控系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)infiniband集群可视化监控系统的研究与实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)infiniband集群可视化监控系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

郑州大学硕 。学位论文摘要 摘要 集群( c l u s t e r ) 是指由高性能网络或局域网物理地互连的计算机( 节点) 的集合, 是可扩展并行计算体系结构的一种具体实现方式。集群做为一种低成本、高性能 的并行计算机系统,在并行处理工作中应用广泛。集群系统监控是掌握系统各节 点运行状况和性能发挥情况的重要手段,监控系统根据不同的结构和用途,目前 的开发多种多样。 本文针对目前使用带宽达2 0 g b s 的i n f i n i b a n d 高性能网络搭建集群时常用的 系统结构,重点研究以下几个方面: 监控系统对集群造成干扰的原因和降低干扰的可行办法。监控系统对集群系 统的干扰主要是频繁的数据采集和网络传输所占用的带宽,另外非法用户的入侵 和闲置系统服务对系统资源的占用也是造成干扰的一个因素,文中提出可行办法 改善这一状况。 文中提出使用二叉树结构进行扩散式快速收集监控数据,有效提高监控数据 收集效率。二叉树的分层结构有助于消息的快速扩散,且由于各个节点并行运行, 信息收集时的同步效率提高。二叉树的节点增长速度较快,因此,在集群系统规 模扩大时,更能体现其优越性。 集群系统的安全检测是保障集群系统不受干扰、安全稳定运行的重要手段, 文中根据监控系统结构,提出网络安全检测和系统安全检测的方法。 最后结合集群监控软件c l s 的设计和开发,研究降低监控系统对集群的干扰 和扩散式收集监控数据方法的可行性,并实现相关算法。c l s 采用三层监控结构, 改善以往采用两层结构时对节点资源的过多占用,c l s 将监控系统与集群的主控 节点分离,添加监控服务器,负责监控数据的收集和安全检测,并且将大部分数 据交由监控服务器处理,大大降低驻留程序在节点机上的资源占用,最后介绍监 控软件的可视化开发和基于w e b 监控的实现方法。 文中深入分析如何降低监控系统对集群的干扰以及快速准确地采集数据的 方法,对于任何规模的集群,监控系统都可以正常、稳定的工作,提高监控系统 的可移植性和可扩展性,本文的研究对开发大型集群系统的监控软件时,提高监 控效率,降低对集群系统的干扰具有很好的应用价值。 关键字:集群,监控,i 越n i b 姐d ,数据采集,p r o c ,网络安全,数据过滤 i l a b s t r a c t c l u s t e ri sas e to fn o d e s c o m p u t e r sj o i n e dp h y s i c a l l yb y h i g l l p e r f o 腓a 1 1 c en e t w o r ko rl a n ( 1 0 c a la r e an e t w o r k ) a n d 1 sac o n c r e t o m e a n so fm es t a b l ep 啪l l e lc o m p u t i n ga r c h i t e c t u r e a sai o w e r - c o s t , h i g h p e r f o h i l a n c ep a m l l e lc o m p u t e rs y s t e m ,i ti sw i d e l yu s e di np a m l l e l d r o c e s s i n g t h em o n i t o r i n ga n dc o n t r o lo fc l u s t e r i sa ni m p o r t 枷 i n s t m m e n to fm a s t e 血g h o ww e l le v e r yn o d eo p e m t e sa i l dp e r f b 珊s t h e 1 ) r e s e n td e v e l o p m e n to ft l l es y s t e m i sv 撕e da c c o r d m gt ov a r l o u s a r c h i t e c t u r ea n dp u 平o s e s 。 a i m e da tt l l ec u r r e n ts y s t 锄a r c h i t e c t u r eu s e d 抒e q u e n t l yw h e nt o b u i l dac l u s t e rw h i c hu s e sm ei n 6 n i b a n dh i g h p e r f o m a n c en e t w o r kw n h ab a n d w i d t ho f2 0 g b s t h ea r t i c l ef o c u s e so nt l l ef o l l o w i n ga r e a s : t h er e a s o n s 廿1 a tb r i n gt h ei n t e r f e r e n c ea 1 1 dm ef e a s i b l ew a y st o m i n i m i z et h ei n t e r f e r e n c e 。t h er e a s o n sf i o rt 1 1 e i n t e r t e r e n c ea 心m a l n l y 矗e q u e n t d a t ag a n l 嘶n ga i l d廿1 e b a n d w i d t h o c c u p i e d b vi n t e m e t 仃a n s m i s s i o n a sw e l la sm ei n t m s i o no fm ei l l e g a lu s e sa n d 也es l e e p m g s y s t e ms e r v i c e so c c u p a t i o no fm es y s t e mr e s o u r c e s a n dm e a r t l c l ew 1 儿 p u tf o n v a r df e a s i b l ew a y st oi m p r o v et h es l t u a t l o n i tp r o p o s e su s i n gb i r m r yt r e ea r c h i t e c n 玎et og a m e rm o n l t o r l n gr e s u l t w i ms p e e di nad i 曲s ew a y ,e 疏c t i v e l ye n h a n c i n gm ee m c i e n c yo ft h e g 砒e r t n g 1 1 1 eb i n a r y 骶e sl a y e r 盯c h 沁c t u r eh e l p ss p r e a dm e s s a g o q u i c k l y ,a 1 1 db e c a u s ee v e r yn o d em n sp a r a l l e l ,t h es i m u l 锄e o u s e h l c i e n c y o f i n f o n n a t i o n9 2 啦! e r i r 堰i se n h a n c e d t h eg r o w i n gs p e e do tn o d e s1 n 让l e b i n a r yt r e ei sr e l a t e l yf a s t ,a sar e s u l t ,w i mt h ee x p a n s i o no f t h ec l u s t e r s c a l e ,i tc a nd i s p l a yi t sa d v a n t a g e sm o r ee t k c t l v e l y t h es a f e t vt e s to f l ec l u s t e ri sa ni m p o r t a n tm e a n st oe n s u r et h e s t a b l ea n ds a f en m n i n go ft h ec l u s t e ra g a i n s ti n t e r f e r e n c e i nm e t e x t , a c c o r d i n 2t 0m em o n i t o r i n gs y s t e ma r c h i t e c n l r e ,am e t l l o do ft e s t i n gt h e n e t w o r ks a f 如,a i l dt 1 1 es y 曲啪s a t e 哆l sp r o p o s e d , a tt h ee n d ,c o m b i n e dw t mm ed e s i 缈a 1 1 dd e v e l o p m e n to f t l ec l u s t e r m o n i t o r i n gs o f t w a r ec l s ,m et e x tr e s e a r c h e so nm ef e a s i b i l i t yo fm e m e 也o dt od e c r e a s et h em o n i t o r i n gs y s t e m si n t e r f b r e n c el n t h ec l u s t e r 1 1 1 郑州大学硕 学位论文 a b s t r a c t a 1 1 dt oc o l l e c tt l l em o n i t 耐n gd a t ai nad i f m s ew a y ,a i l da t t a i n sm er e l a t e d a l g o r i t h m s c l sa d o p t st h em r e e - l a y e r m o n i t o r i n ga r c h i t e c t u r e a n d i m p r o v e so nt h et w o l a y e ra r c h i t e c t u r ew h i c ho c c u p i e sm en o d er e s o u r c e e x c e s s i v e l y - i ts 印a r a t e sm o n i t o r n gs y s t e m 行o mt h ec l u s t e r sd o m i n a n t c o n t r o l l i n gn o d e s ,a d d sam o n i t o r i n gs e r v e r t a k e sc h a 唱eo f m ec o l l e c t i o n o fm o n i t o r i n gd a t aa n ds a f 毫t ) ,d e t e c t i o n ,a n dt r a n s f e r sm o s td a t at ob e p r o c e s s e db y t i l e s e r v e r ,w m c hg r e a t l yd e c r e a s e st 1 1 e p m g r 眦s o c c u p a t i o no fr e s o u r c e si nm en o d e i nt 壬l ee n d ,t l l et e x ti n 仃o d u c e st 1 1 e d e v e l o p m e n to fv i s u a lm o n i t o r i n gs y s t e ma n dt h er e a l i z i n gm e t h o d s b a s e d o n t l l e w e b t h et e x ta n a l y s e si 1 1d 印mh o wt od e c r e a s et h em o n i t o r i n gs y s t e m s i n t e r f - e r e n c ei nc l u s t e ra 1 1 dc o n e c td a t a q u i c k l ya n da c c u m t e l y f o r c l u s t e r so fa 1 1 ys c a l e ,t h em o n i t o r i n gs y s t e mi sa b l et ow o r k n o h n a l l ya j l d s t a b l y a 1 1 d i m p r 0 v e st 1 1 ep o r t a b i l 时a n ds c a l a b i l 崎o ft h em o n i t o r i n g s y s t e m t h er e s e a r c hi nt 1 1 i s t e ) ( th a sh i g hp r a c t i c a lv a l u et oi m p r o v e e f f i c i e n c yo fm o n i t o r i n ga i l dd e c r e a s e sm ei n t e r f e r e n c ei nt h ec l u s t e ri n t h ed e v e l o p m e n to f m o n i t o r i n gs y s t e mo f t l l el a r g e s c a l e dc l u s t e r k e y w o r d s : c l u s t e r m o n i t o r i n g ,i n f i n i b a i l d ,d a t ac o l i e c t i o n ,p r o c ,n e t w o r k s a f e 吼d a t af i l t e r 郑重声明 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽窃、抄 袭等违反学术道德、学术规范的侵权行为,否则,本人愿意承担由此产生的一切 法律责任和法律后果,特此郑重声明。 学位论文作者( 签名) 加6 年r 月词日 郑州大学硕士学位论文 引言 引言 集群是近年来发展迅速的一种高性能计算机解决方案,可用于科学计算、负 载均衡服务器和海量存储等,在国防、航天、气象、石油、地质及科研等领域均 有广泛应用。集群的构建方式非常灵活,不同结构的计算机如普通的p c 机或者 专用服务器都可以作为节点机使用。而对网络系统的选取也有多种方式,从百兆 以太网,发展到千兆以太网、m 埘n e t ,到目前带宽可达2 0 g 的i n f i n i b a n d 无限带 宽网络,都可以作为集群理想的互连方式。 集群的构建除了节点机、网络与存储设备等主要硬件之外,软件配置与对软 件的二次开发是极其重要的工作,它将直接影响到系统的运行效率。m p i 和p v m 函数库是目前集群用于高性能科学计算的基本软件之一,而尤为重要的是集群的 系统监控软件。虽然i b m 和h p 等大公司都提供了与自己集群产品捆绑销售的监 控软件,但它们往往并不适用于其它厂商的产品,尤其是用户自己构建的集群。 这就需要我们去开发更适合我们自己集群特点并且可移植性和可扩展性较好的 集群监控软件。 p c 集群系统的成本低,并行程序设计也是目前炙手可热得程序设计方法, 很多计算已经抛弃了低效的串行化设计,改为可在集群上高效运行的并行设计, 但是如何得知集群系统和并行软件的运行情况是否与预期的效果一致,就需要借 助于监控软件的监测和控制,在这一方面,集群发展较早的国家研发了不少各色 各样的监测系统,国内外市场上,象m m 、h p 、曙光这样的集群供应商推出的 大型集群系统也都配备了比较完善的监控系统,但通常其绑定价格都比较高,普 通的集群用户难于接受,并且这些工具也多为专门的硬件系统开发,并不通用。 本文根据目前监控系统的发展趋势,设计三层结构的监控系统,介绍了集群 监控系统的基本内容和基本步骤,根据h l n i l i b a n d 集群的系统结构,设计监控系 统数据收集法,结合目前的应用状况,分析集群系统安全监控的策略和方向,结 合实际设计实现窗口界面和图形方式显示检测结果的可视化监控,并介绍w 曲监 控实现方法。研究结果适用予大多数p c 机构建的集群系统和网格,监测结果有 助于集群系统的升级和改造,并且对需要在固定集群上运行的并行程序的设计提 出合理的设计要求,对集群使用的透明性、改进用户的并行程序运行效率以及方 便集群管理员管理集群和用户使用集群等方面都有着重要意义。 第,页 郑州大学硕卜学位论文第一章绪论 1 1 集群 1 1 1 集群 第一章绪论 随着1 9 4 5 年现代计算机时代的来临1 1 】,计算机在我们的生活中的应用发展迅 速,但是,直到大约1 9 8 5 年,计算机仍然非常庞大并且价格昂贵,就连小型机的 价格也远远超出了普通人的购买能力。那时候,每台小型机独立工作,还没有办 法将它们互连,直到2 0 世纪8 0 年代中期,两项先进技术的出现改变了当时的状况。 首先是功能强大的微处理器的发展,刚开始只有8 位。但是1 6 位、3 2 位,甚至6 4 位相继出现,很低的价格就可以获得与大型机媲美的计算能力;接着是高速局域 网的发明,可以连接几百台机器互传信息。这两项技术的结合,大量的计算机节 点通过高速网络互连,我们称之为集群系统,所有集群节点必须能一起集体工作, 如同一个单一集成的计算资源。 集群是并行模型的一种,一个并行模型能用5 个语义属性口j 和几个性能属性【2 】 加以描述性能属性高度依赖于平台且随着新一代的出现常常得到进一步改进。 表1 1 并行系统的性能属性 术语记号含意单位 机器规模 雎 处理器的数目 无量纲 时钟速率 f 时钟周期长度的倒数 m h z ( 兆赫) r :作负载 计算操作的数目 m 日o d 顺序执行时间 , 程序在单处理机上的运行时间s n ,结束,否则,转2 监控服务器根据节点列表分别向节点发送数据收集请求,得到相应后,节点 采集本节点数据,并发送采集结果,n 个节点收集最小总耗时t = 啦t s 。 2 多进程收集 这种收集方法,每向一个节点发送连接请求时,建立一个子进程,用时t s 。, 在一个子进程等待接收数据的时候,向下一个节点发送连接请求,算法如下: 1 ) i :l : 2 ) 建立子进程p i d ,向第i 个节点发送连接请求。 3 ) 节点i 有效,通过连接请求,建立连接,访问,p r o c 。并获得有效数据。 4 ) 向监控服务器的子进程p i l l 发送数据,并断开连接。 5 ) 监控服务器的子进程p i d 收到数据,断开连接,存储数据,并结束子进程 p i d 。 6 ) i = i + l ,如果i n ,结束,否则,转2 ) 这种方法是目前大多数监控系统采用的数据收集方法,因为有效的利用了等 待时间,从结构上讲,各节点的数据收集过程并行进行,有效的提高了效率,假 设最后一个予进程接收数据的时候,之前的子进程都已经接收到数据,n 个节点 采集总耗时t = n t 。+ t s 。如果建立子进程的时间可以忽略不计,那么t 的理论值 为t 。,这显然是不可能的,这是因为,各个子进程在处理结果的时候用的是同 一个c p u ,因此,t 郸卑t s p + ( n - 1 ) t p d + t s n 。 3 分组收集 如图2 3 ,对每个节点的数据采集过程就是遍历每一个节点的过程,图2 3 所 郑州大学硕上学位论文第二章集群监控技术研冤 示的结构相当于一颗广度为n ,深度为1 的树,如果要加快访问速度,我们不妨增 加它的深度。如图2 4 ,设节点分组大小为3 ,头节点分别为1 、4 、7 ,分别负责 收集节点2 和3 、5 和6 、9 和1 0 的数据,并合并自己的数据后,传送给监控服务 器,实线表示物理连接,虚线表示逻辑分组。 图2 4 分组收集逻辑图 三个节点合并数据后不增加传输时间的证明如下: 数据的收集过程使用s o c k e t 编程,为了保证数据的正确性,采用面向连接的 s o c k e t 编程,每次数据采集所需要的数据包含目前系统处于变化中的数据,比如 表2 1 监控系统常用数据 监控目的数据数据量 资源的监控 n 0 d e i du s e d c p uu 辩d m e mu s e d s w a pr e c vt r a n 3 0 k 温度的监控 n o d e l dc p u t e m pb o a r d t e m pc p u f a nb o a r d f a n( 2 5 k 程序的监控 n 0 d c i du s e ru d m 哪u s e d c p ul ds t a tr s ss h a r e d 3 0 k t c 朋p i ”】传输时,数据段头占用4 0 k ,因此,采用分组数据采集时,数据虽 大长度工= 4 0 + 3 3 0 = 1 3 0 k ,t 矿几十【肥。因为每次传输的数据量非常小,因此, 网络传输时间主要是网络延迟,头节点收集到分组内节点的数据后,所产生的长 数据对系统造不成影响。 分组采集法相当于设立监控代理,特别是针对大型集群的监控,根据分组的 大小,成倍降低监控服务器的任务量,缩短了采集用时,有效的提高了数据采集 效率,但是,监控代理采集法增加了对节点的资源占用,与降低系统干扰的思想 相悖,但不可否认,与提高数据采集效率相比,牺牲少量节点资源也是值得的。 4 自扩散收集 节点分组收集法中,需要为头节点的监控软件设置特殊的功能完成对分组节 点的数据采集,如果我们能改进算法,自动生成头节点,并完成分组的数据收集, 就减少了设置监控代理的麻烦,并提高收集效率。 根据图2 3 ,各个节点通过交换机互连,在不改变其物理连接的情况下,设 计1 5 个节点的逻辑连接图如下: 第,j 页 郑州大学硕士学位论文 第二章集群监控技术研究 簟4 层 图2 5 自扩散数据收集逻辑划分 自扩散收集法给每个节点一个编号,编号为1 的机器为监控服务器,n 个节点 组成的二叉树最多有h = l 0 9 2 n 层,算法描述如下: 1 ) 如果当前节点为叶子节点,则返回本节点数据,否则,转2 。 2 ) 建立子迸程p j e f i ,连接自己的左孩子节点发送采集请求;建立予进程 p - r i g h t ,连接自己的右孩子节点发送采集请求。 3 ) 收集本节点数据,当两个子进程返回数据后,与本节点数据一起发送给父 节点。 收集容错:当某一节点失效时,将此节点的子节点移交它的兄弟节点进行数 据采集,并及时报告错误信息。 如图2 - 5 ,根为监控服务器,2 至1 5 为计算节点,1 4 个节点的数据收集过程如 下: 图2 6 快速采集算法实例 如图2 6 ,编号a f 为采集指令,g 1 为节点返回的数据,节点自动向子节点发 送采集指令,每个节点返回的数据中包含子节点返回的数据,可以看出,每一层 各个节点在数据采集过程中,并行工作,当前节点数据采集耗时与子节点数据采 集耗时有关,理想状态下,整个集群系统的数据收集耗时等于最右侧路经的数据 收集耗时,收集时间分段如表2 3 ( 忽略建立两个子进程间的时间差) ,理论收集 时问为3 ( t 。p + t d 。+ t c ,+ t s d + t p d ) = 3 ( t 5 p + t s 。) 表2 3 数据收集实例时间分段( 1 2 :节点1 向节点2 发送数据) 第j 6 页 郑州大学硕十学位论文第二章集群监控技术研究 时问段 1 籼2 铀4 呈 8s 毛 4 上,22 曼l 4 j 99 鸟 2 旦,j j b l 0l o s e5 三2 源一目的 j 工l l1 l 且 1 b3 s 66 号1 21 2 戋6 上33 l l 6 l 1 31 3 3 虫7,三1 41 4 岛- 上3 ,上1 51 5 马 数据最长时包含7 个节点的数据,l = ( 4 0 + 7 + 3 0 ) + 8 = 2 0 0 0 b i t ,如果b c - 1 0 0 m ,s , 数据传输时间为2 0 “s + 1 r d ,对网络带宽无影响。推广至n 个节点( 包含根节点为监 控服务器) ,最短耗时为t = ( h 1 ) ( ,r s 。+ t n ) ,h - 1 0 9 2 n ,第i 层传输的数据长度 l ,= ( 4 0 + ( 2 + 1 ) 1 ) + l ) ,t n _ t c r + t d c + t s d + t p d ,t ;d = t d + l 肥c ,t p d 是监控服务器收到 数据后进行处理所用的时间,因此,l o o o 个节点至少需要1 0 0 0 t o d 的处理时间, 而t d d 的长短,与监控服务器处理数据的算法有关。 对这种算法的可行性,解释如下: 1 ) 节点间并行数据采集时,没有路径交叉,因此没有采集冲突。 2 ) 最差情况下,两台节点同时向父节点发送数据,由于数据量很小,对结果 不造成影响。 3 ) 每个节点的数据处理仅仅包括:合并三个节点的数据,采集本节点数据, 并没有造成对节点资源的过多占用。 4 ) 监控服务器只需要接收两个子节点的数据,可将大量时间用于数据的整理 和分析。 c p u 对数据的处理速度远远快于数据在网络中的传输速度,数据收集过程 中,节点只负责采集本节点数据,合并子节点数据,忽略t 。t d 。和数据合并时 间,主要考虑t 。,和t s d ,k 为连接建立时间,为l 司定值,t s d _ t d + l i b 。,l i 为第i 层的数据长度,l 为单节点数据长度。 一个包含n 个节点的集群,构成一棵高不大于h = l 0 9 2 n 的二叉树,第i 层的数据 长度l i - ( 4 0 + ( 2 ( 卜。十1 ) + l ) ,二叉树最右侧采集路径的返回过程中数据总量为: l 2 + l 3 + + l h = ( h 1 ) + 4 0 + ( 2 1 + 2 2 + + 2 ( h _ i ) + l ( 1 1 ) l( l l 为监控服务器) 表2 - 4 集群规模与传输时间 nh 最右路径传输时间 1 2 87 6 + t 盯+ n ,转7 ; 4 ) 如果2 i n ,建立子进程,并向节点2 i 发送连接请求,等待返回结果d l 。 5 ) 如果2 i + 1 o ) ”判断就是否接接到了有效的返 回数据。 用户对返回数据集处理完成后,调用m y s q l 舶er e s u l t ( ) 释放占用的内存空间。 4 3 4 安全代理 监控服务器连接着用户和集群系统,因此,用户对集群系统的访问,必须通过 监控服务器。从安全角度来讲,监控服务器相当于一个安全代理。 l 用户管理 最基本的安全控制策略就是用户管理,拒绝一切非法用户的访问。用户管理主 要包括用户名称和密码,无论采用文本文件或者数据库存储都需要一个严密的加密 算法,保证数据不被破译,m d 5 【3 6 】采用单向加密的加密算法,是目前普遍采用的数 据加密算法。 用户名和密码的加密都采用m d 5 变换算法,m d 5 是一种单向加密的加密算法, 对于m d 5 而言,有两个特性是很重要的,第一是任意两段明文数据,加密以后的密 文不能是相同的:第二是任意一段明文数据,经过加密以后,其结果必须永远是不 第卯页 郑州大学锨士学位论文 第四章实验分析及应用研究 变的。前者的意思是不可能有任意两段明文加密以后得到相同的密文,后者的意思 是如果我们加密特定的数据,得到的密文一定是相同的。 2 安全监控 在第二章中我们介绍了安全监控的重要性,集群与用户之问没有直接的连接, 且集群采用内部i p 地址,用户只能通过监控服务器访问集群系统,因此,监控服务器 对本机用户和与集群的网络信息交换都需要定时检测。网络信息的监测可以通过 l j b _ p c a b 函数库对数据包进行捕获,并根据有效的规则过滤数据信息,对非法网络数 据包进行分析,控制非法i p 的入侵。系统进程的监控可以通过c 语言调用s h e l l 命令返 回结果,进行分析实现。 4 4 用户g u i 的实现 c l m o n i t o r 是安装在用户机上,用于远程监听和控制集群运行的程序。它通过安 装在前置机上c l s e n ,e r 与集群系统进行联系,保证了集群系统的安全与稳定。 c l m o n i t o r 可以供多个用户使用,无论是局域网用户或者广域网用户,只要提供安全 的用户帐号和口令,都可以提交任务并监控集群的运行,用户的监控权限根据账号 等级的不同进行严格的控制。 用户登录c l m o n i t o r 后,提交想要监控的节点列表给c l s e r v e r ,c l s e r v e r 返回监 测信息,c l m o n i t o r 以三种方式显示结果。 1 。获取数据 c l m o n i t o r 通过与c l s e r v e r 的通讯获得需求的数据,g e t s y s d a t a o f n o d e ( ) 为获取单 节点状态信息的函数,g e t s y s d a t a ( ) 为获取节点列表所有节点信息的函数,调用 g e t s y s d a l a o f n o d e ( ) 。 第4 ,页 郑州大学颂:七学位论文 第四章实验分析及应用研究 2 可视化编程 q t 【37 l 是一个跨平台的c + + 图形用户界面库,由挪威1 r o l l t e c h 公司出品,目前包 括q t ,基于f r 锄e b u 腩r 的q t e m b e d d e d ,快速开发工具q t d e s i g l l e r ,国际化工具q t l i n g u i s t 等部分q t 支持所有u l l i x 系统,当然也包括l i n l l ) 【,还支持w i n n t w i n 2 k , w i n 9 5 ,9 8 平台。 t r o l l t e c h 公司在1 9 9 4 年成立,但是在1 9 9 2 年,成立t r o l l t e c h 公司的那批程序员就 已经开始设计q t 了,q t 的第一个商业版本于1 9 9 5 年推出后,q t 发展很快。q t 的良 好封装机制使得q t 的模块化程度非常高,可重用性较好,对于用户开发来说是非常 方便的。q t 包括多达2 5 0 个以上的c + + 类,还替供基于模板的c o l l e c t i o n s ,s e r i a l i z a t i o n , 6 l e ,i od e v i c e ,d i r e c o d r ym a n a g e m e m ,d 稚缸l e 类。支持2 d ,3 d 图形渲染,支持 o p e n g l 。q t 是一个多平台的c + + 图形用户界面应用程序框架。它提供给应用程序开 发者建立艺术级的图形用户界面所需的所用功能。0 t 是完全面向对象的很容易扩展, 并且允许真正地组件编程。 c l m o n i t o r 和c l s e “e r 采用l i n l l x 下的q t 开发,q t 自带的窗口控件为监控结果的 可视化显示提供了方便。 第相顷 q t 常用绘图函数:( q p a i l l 把r 类成员函数) v o i dq p a i n t e r :d r a w t e x t ( c o 璐tq p o i n t p ,c o n s tq s t r i n g , 在点p 从位置p o s 开始绘制显 i n tp o s ,i n tl e n ,t e x t d i r e c t i o nd i r = a m o ) 示文本 v o dq p a i n t e r :d r a w p o i n t ( i n tx ,i n ty ) 使用当前画笔在( x ,y ) 绘制 一个单一点 v o i dq p a i m e r :m a v e t o ( i n t 鼍i n ty ) 设置当前画笔位置为( x ,y ) v o i dq p a i m e r :s e t p e n ( p e n s t y l es t y l e ) 设置绘图工具画笔有风格 s t y l e v o j dq p a i n t e r :l i n e t o ( i n tx ,i my ) 绘制到( x ,y ) 的线,设置( x ,y ) 为画笔位置 b o o lq p a i m e r :b e g i n ( c o n s tq p a i n t d e v i c e p d , 开始在绘制设备p d 上绘制, b o o lu n c l i p p e d = f a l s e ) 如果成功返同真 v b o o lq p a i n t e r :e n d ( )结束绘制绘制时使用的任 何资源都被释放 4 5 基于w e b 浏览器的远程监控 在集群监控和网格监控中,很多软件采用基于w 曲浏览器方式的远程监控,c l s 除了使用专用软件c l m o n i t o r 进行远程监控外,可以很方便的建立w 曲远程监控服务 i 翊。 监控系统将收集数据的数据存入m y s q l 数据库,下面介绍l 访u x 下搭建网站实现 w e b 远程监控的方法。 在r e d h a t 中预设的w w w 服务器是很有名的a p a c h e ,a p a c h e 与m y s q l 具备了搭建 一个w e b 网站的基本条件。这里我们提供的是p h p + m y s q l + a p a c h c 的架构,m y s q l 及p h p 的功能都很强大的,p h p 可简单的视为一种程序语言,可以用来设计留言版、 讨论区、或聊天室等等的动态网页,由于它具有免费、跨平台、易学及效率高等等 的优点,目前算是很盛行的一种网页设计工具。 用户g u i 与w 曲监控结合使用,方法如下: 1 ) c l d a c m o n 不变,仍然驻留节点,收集信息。 2 ) c l s e w e r 负责管理集群,并处理收集到的信息。 第钉页 郑州大学硕士学位论文 第四章实验分析及成用研究 3 ) 增加监控服务器的w 曲服务,并编辑网页,在监控器上建立网站。这里需要涉 及a s p 或者p h p 网页设计,a s p 语言和p h p 语言可能很方便的访问文件以及数据库。 4 ) 用户远程输入监控服务器i p 地址或域名,实时监控集群系统。 基于w 曲浏览器方式的远程监控,不需要用户安装用户端监控程序即可随时随地 完成集群的监控,因此,不受地域和软件的限制,但是,网页设计语言在绘图方面 需要借助j a v a 语言,嵌入网页时,网页文件增大,影响传输速度,而且,增加了网页 文件编辑复杂度,并不是图形显示结果的明智之选。因此,可采用两种方式相结合 的方式,首先,w 曲浏览器监控方式,只用于简单显示集群状态和软硬件信息: c l m o n i t o r 则更全面、更详细的显示各项指标和状态,而且,c l m o n i t o r 提供远程管 理功能,使用专用软件进行管理,保证了集群管理的安全性。 4 6 小结 本章根据前面的研究内容,结合c l s 的具体设计和实现,介绍降低集群监控系统 的干扰技术和快速收集数据技术的具体应用。本章介绍了三层结构监控系统的每一 层的功能的实现方法,并在最后介绍用户端采用g u i 和w 曲远程监控方式时的改造方 法。 第“页 郑州人学坝一l 学位论义 第五章测试lj 总结 5 1 测试 第五章测试与总结 1 系统占用情况 c l d a e m o n 在节点及运行情况如图5 - 1 所示,m n n i n g 状态下,对m e m 的占用 为2 2 3 k ,对c p u 的占用为1 ,每秒钟采集一次信息,对系统几乎没有干扰。 图) l 系现卡抗监删结朱 2 网络占用情况 图5 - 2 和图5 ,3 显示了网络干扰监控结果。图5 2 中,分别记录了2 0 次监控启动 ( 节点端数据采集并传输) 和监控未启动时监控服务器使用p i n g 命令监测节点所 用时浏,曲线吕一代表监控未启动时的监测结果,曲线一一代表监控启动后的 监测结果。图5 3 显示了监控结果的平均值的比较,结果显示启动前与启动后时 间平均增长o 0 1 m s 。 图5 2 网络干扰监测结果( 一) 第4 5 页 郑州大学硕士学位论文第五章测试与总结 图5 3 网络占用监测结果( 二) 3 系统资源监控结果( 曲线图) c l s 【j 州整套系统中。对网络的监控除了节点状态的监控,主要是网络状态的 监控。对于大型集群,显示所有的节点的状态是不切实际的,因此可以随机抽取 节点,或者指定特殊节点进行监控,而对于小型集群,则可以同时监控所有节点, 因此,用户使用c l m o n i t o r 提交网络监控请求的时候,同时提供被监控节点列表, c l s e r v e r 根据用户的申请返回节点网络状态。 曲线图主要显示系统内连续变化的资源信息,显示的效果如下: 图5 - 4 资源监控结果( 曲线图) 4 系统资源监控结果( 柱形图) 主要用于几个节点的资源信息比较,比较直观的显示节点间的区别。 第筘页 图5 5 资源监控结果( 柱形图) 5 系统资源监控结果( 列表) 以具体的文字和数字显示结果。 图5 6 资源监控结果( 列表) 6 进程监控结果 g u i 接受用户输入的进程名称,向c l s e r v e r 提交请求,下图为获取节点上陔 进程的信息后返回的结果显示,可用于并行程序的运行监控。 第4 7 页 郑州大学硕士学位论文 第五章拯临与总结 5 2 总结 图5 - 7 进程监控结果 本文通过对h l f i l l i b a n d 集群系统的构建和监控工具的研究,完成了以下工作: 1 ) 首先,文中研究监控系统对集群系统的主要干扰来源和监控系统的结构设 计。为降低干扰,并增加安全防护功能,文中设计三层监控系统模型。 2 ) 根据i n f i n i b a n d 集群的系统结构,研究监控系统各部分的功能,在降低干 扰的基础上,设计有效的算法,提高监控数据的采集效率,并增强数据的同步性。 3 ) 研究数据过滤方法和系统安全的监控。 4 ) 分析p r o c 文件系统、l ms e n s o r s 硬件传感器、l i bc a p s 网络捕获函数库,解 决节点驻留程序的数据采集问题。 5 ) 在监控服务器端,文中研究监控程序收集数据的过程和改善数据收集效率 的方法。研究h 匆s q l 数据库,并将其用于监控服务器的数据存储。研究网络数 据包捕获机制,实现网络安全监控。 6 ) 使用q t 可视化设计工具和绘图函数,以列表、曲线图、柱形图的形式显 示检测结果。完成用户端监控工具g u i 的设计与实现。 7 ) 最后介绍采用w 曲远程监控方式时的集群系统监测工具的改造方法。 第4 8 页 郑州大学硕士学位论文第五章测试与总结 s 3 展望 1 文中的设计采用了面向对象的设计思想,可扩展性和可移植性较好。可以 尝试分析监控结果的基础上,研究节点任务分配策略 43 1 ,增加对集群系统的负 载调整,实现负载均衡。 2 。最未来的研究中,重点研究并行程序的执行过程,并增加并行程序调试的 接口,可以在并行程序设计时,增加调试指令,最终在监控过程中更清晰地看到 并行程序的执行过程。 3 更深入的研究集群对单一系统映像的支持,根据监控结果提出合理整改意 见,包括并行程序的设计、集群的硬件改造、并行执行环境参数的修改等。 第卯页 致谢 回望过去三年的研究生学习和生活,我得到了来自导师、同学、朋友、家人 的关怀和鼓励,他们对我的帮助至今难忘,在这里我向他们表示由衷地感谢。 感谢我的导师王文义教授,他对工作认真负责,给我创造了一个良好的工作 和学习的环境。他严谨治学、不断探索、孜孜不倦、严肃认真的精神,都使我终 身受益。王老师对我的投稿论文和毕业论文给予了很大帮助。对于每一句话,王 老师都细细推敲,指导我顺利完成论文的写作。这篇论文就是在王老师的悉心指 导下完成的,从论文的开题、论文的初稿直至最后定稿,都倾注了王老师大量的 时问和心血。 感谢所有教过我的老师。 感谢上届师兄师姐赵少林、任刚、阴菲在学习和生活上的帮助。 感谢我同小组的秦广军同学。他刻苦乐观的学习态度,令我折服,他在课题 研究方面对我的指导,令我受益匪浅。 感谢我的好友丁伟、刘亚珂、王娟、庄海燕、王静等同学,在这些年的学习 和生活中,我们朝夕相处,她们始终给予我无私的关怀和帮助,从她们身上,我 学到了很多东西。 再次感谢所有关心和爱护我的老师、同学和朋友们。 最后,特别感谢我的爸爸、妈妈对我无微不至的关怀和对我三年研究生学习 的支持与鼓励。 第如页 参考文献 1 】 r i c h a r ds m o 丌i s o n c l u s t e rc o m p u t i n g e b o l 】2 0 0 3 4 【2 j 黄铠 徐志伟著,陆鑫达等泽可扩展并行计算一技术、结构与编程 m j 北京:机械工业出版 朴2 0 0 l :9 1 l 3 】 l i n u xc i u s t e r i n gi n f 0 皿a t i o nc e n t e r e b ,o l 】h t 母:九c i c o 唱 4 】 h o wt ob u 订dab e o 、矾l i fl i m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论