




已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)集群管理系统的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 集群技术简单地说就是将一系列计算机通过网络连接起来,共同协调来完 成各种需求。集群系统以其高可扩展性、高可用性以及高性价比等优点逐渐成 为高性能计算机体系结构的发展趋势。随着集群规模的不断增大,各节点资源 的高效管理和状态的及时获取在整个集群系统中起着越来越重要的作用。集群 管理系统能够实现集群功能并且管理整个系统,是集群必不可少的软件支持, 也是集群技术的集中体现。 本文的研究内容是大连市科学技术基金计划项目:新型网络服务器的资源 管理与系统状态监控( 编号:2 0 0 5 j 2 2 j h 0 3 1 ) 的重要组成部分。在详细分析现有 集群系统以及集群管理系统的基础上,本文给出了一个集群管理系统的总体设 计方案以及节点管理部分的实现过程。首先针对课题提供的现有硬件条件进行 了集群系统结构的总体设计,采用双子网节点连接方式,一个子网用于节点之 间的连接,另一子网用于与网络存储设备相连。其次,给出集群管理软件的总 体框架。该软件采取向下与操作系统分离、向上提供用户接口的分层结构。管 理系统不依赖节点操作系统,功能代码之间保持独立,为软件的可移植性与可 扩展性提供了有力的保证。节点管理模块主要实现了集群逻辑结构的建立,节 点的动态配置与管理以及节点间通信等功能。本文采用二叉树的节点逻辑结构, 根节点的选择采用动态竞争决策过程。一方面保证节点结构的灵活性,支持系 统的可扩展性;另一方面利用二叉树“双亲一孩子 的节点关系进行通信大大 降低了单节点在通信方面的开销,提高了集群系统的工作效率。有效的克服了 根节点故障问题,实现了集群系统对高可用性的要求,保证了集群系统拥有可 持续运行的能力。 关键字:集群系统;集群管理系统;节点管理;节点通信 a b s t r a c t c l u s t e rt e c h n o l o g ys i m p l yi sas e r i e so fc o m p u t e r sw h i c hl i n ku pt o g e t h e rw i t h n e t w o r kt oc o m p l e t et h ec o o r d i n a t i o no ft h ev a r i o u sn e e d s c l u s t e rs y s t e mw i t l li t s h i g l ls c a l a b i l i t y ,h i 曲a v a i l a b i l i t ya n dc o s t - e f f e e t i v ea d v a n t a g e sg r a d u a l l yb e c o m et h e t r e n do fh i g h p e r f o r m a n c ec o m p u t e ra r c h i t e c t u r ed e v e l o p m e n t w i t t lt h ei n c r e a s i n g s c a l eo fc l u s t e r s t h ee 佑c i e n tm a n a g e m e n to fr e s o u r c e so fe a c hn o d ea n dt i m e l yg e t t h es t a t ei nt h ew h o l ec l u s t e rs y s t e mp l a y sa ni n c r e a s i n g l yi m p o r t a n tr o l e c l u s t e r m a n a g e m e n ts y s t e mw h i c hc a na c h i e v ec l u s t e rc a p a b i l i t i e sa n dm a n a g e m e n ts y s t e r n a saw h o l e i se s s e n t i a lt od u s t e rs o f t w a r es u p p o r t , a n di sac o n c e n t r a t e de x p r e s s i o no f c l u s t e rt e c h n o l o g y t i l i ss t u d yi sa ni m p o r t a n tp a r to fd a l i a ns e i e n c ea n dt e c h n o l o g yf u n dp r o j e c t s : an e ww e bs e r v e rr e s o u r c em a n a g e m e n ta n ds y s t e ms t a t u sm o n i t o r i n g ( 2 0 0 5 j 2 2 j h 0 31 ) b a s e do nt h er e s e a r c ho fc l u s t e rs y s t e r na n dc l u s t e rm a n a g e m e n t s y s t e m ,t h i sa r t i c l eg i v e st h ed e s i g np r o g r a m m e so fc l u s t e rm a n a g e m e n ts y s t e ma n d t h ec o n c r e t er e a l i z a t i o no ft h ep r o c e s so fn o d em a n a g e m e n t f i r s tt h eo v e r a l ld e s i g n o ft h ep h y s i c a ls t r u c t u r eo nt h ee x i s t i n gh a r d w a r ec o n d i t i o n s ,u s et o wn e t w o r k so f n o d ec o n n e c t i o n s as u b n e t w o r kf o rn o d e sl i n kb e t w e e na n das u b n e t w o r kf o rt h e d e v i c e so fs t o r a g e s e c o n d g i v e nt h eo v e r a l lf r a m e w o r ko fs o f t w a r e t h ea r c h i t e c t u r e o fs o f t w a r et a k e st h a ts e p a r a t i o nw i t ht h eo p e r a t i n gs y s t e md o w n w a r d s ,p r o v i d et h e i n t e r f a c ep r o g r a m m e su p w a r d s ,b e t w e e nt h ef u n c t i o n a lm o d u l e sa r ei n t e r l i n k e da n d m u t u a l l yi n d e p e n d e n t n l em a n a g e m e n ts y s t e md o e sn o tr e l yo nt h eo p e r a t i n gs y s t e m o fn o d e s ,c o d eb e t w e e ni n d e p e n d e n tf e a t u r e s ,u s i n gi n t e r f a c ea n dt h e 司o b a lv a r i a b l e s t om a i n t a i nr e l e v a n c e ,s ot h a tp r o v i d e sas t r o n gg u a r a n t e ef o rs o f t w a r ep o r t a b i l i t ya n d s e a l a b i l i t y n o d ei st h em o s tb a s i ce l e m e n t so fc l u s t e rc o m p o s e d 。a l s ot h eb a s i c m o d u l e so fc a l c u l a t i o ni nt h ec l u s t e r , a n dt h em o s tb a s i cs e r v i c e su n i t s t h e r e f o r e t h e m a n a g e m e n to fn o d e si nt h es y s t e mi sp a r t i c u l a r l yi m p o r t a n t 。m a i n l yr e l a t e dt ot h e d y n a m i cn o d ec o n f i g u r a t i o n , t h ef l e x i b i l i t yo fn o d e so r g a n i z a t i o na n dc o m m u n i c a t i o n b e t w e e nt h en o d e s ,a n ds oo n i nt h i sp a p e r , w et a k et h eb i n a r yt r e en o d el o 西c a l s t r u c t u r e a n dt h er o o tn o d ec h o o s e ni nd y n a m i cd e c i s i o n - m a k i n gp r o c e s s o nt h eo n e h a n d ,e n s u r et h ef l e x i b i l i t yo fn o d e sa n dt h es e a l a b i l i t yo ft h es y s t e m ;o nt h eo t h e r h a n du s i n gb i n a r yt r e et h e p a r e n t c h i l d r e n r e l a t i o n s h i pb e t w e e nc o m m u n i c a t i o n n o d e sg r e a t l yr e d u c et h ec o m m u n i c a t i o n sc o s t so fs i n g l en o d e , i m p r o v i n gt h ec l u s t e r s y s t e me 伍c i e n c y d y n a m i cd e c i s i o n - m a k i n gp r o c e s so ft h er o o tn o d ea c h i e v e s l l i g h a v a i l a b i l i t yr e q u i r e m e n tf o rc l u s t e rs y s t e m e v e ni ft h ef a u l ti st h er o o tn o d e c l u s t e rs y s t e mc a na l s oe n s u r et h ec o n t i n u e do p e r a t i o n k e yw o r d s :c l u s t e rs y s t e m ;c l u s t e rm a n a g e m e n ts y s t e m ;n o d em a n a g e m e n t ;n o d e c o m m u n i c a t i o n 集群管理系统的研究与设计 学位论文独创性声明 本人承诺:所呈交的学位论文是本人在导师指导下所取得的研究成果。论 文中除特别加以标注和致谢的地方外,不包含他人和其他机构已经撰写或发表 过的研究成果,其他同志的研究成果对本人的启示和所提供的帮助,均已在论 文中做了明确的声明并表示谢意。 学位论文作者签名:俑己 日 期:溯,6 o 学位论文版权的使用授权书 本学位论文作者完全了解辽宁师范大学有关保留、使用学位论文的规定, 及学校有权保留并向国家有关部门或机构送交复印件或磁盘,允许论文被查阅 和借阅。本文授权辽宁师范大学,可以将学位论文的全部或部分内容编入有关 数据库并进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。保密的学位论文在解密后使用本授权书。 学位论文作者签名:俑k 4 9 指导教师签名:丧n 音黟 日期:劲孵6 、1 集群管理系统的研究与设计 第一章绪论 1 1 论文背景以及选题意义 自从第一台电子计算机产生,计算机以其优良的性能,逐渐融入了人们生 产、生活的各个领域。在计算机从电子管发展到v l s i 的四个阶段中,器件性能 的提高使得计算机的处理能力飞速增长。按照用指令流和数据流进行分类的方 法,计算机系统可分为四大类:单指令流单数据流系统( s l s d ) 、单指令流多数 据流系统( s i m d ) 、多指令流单数据流系统( m i s d ) 、多指令流多数据流系统 ( m i m d ) 。 m i m d 系统是多个处理机各自执行不同的指令流,并分别作用于不同的数据 流上。这类系统是实现作业、任务、指令和数掘各个级别全面并行的理想结构, 是当今并行处理的主流系统。图1 1 为m i m d 计算机的各个分类分支图。根据各 个处理机间藕合程度的不同,m i m d 系统可分为共享存储( s h a r e dm e m o r y ) 的多处 理机系统( m u l t i p r o c e s s o r ) 和分布存储( d i s t r i b u t e dm e m o r y ) 的多计算机系统 ( m u l t i - c o m p u t e r ) 两类。前者各处理机通过总线、开关阵列或多级网络等方式 共享一个公共的存储器,分散在各个处理器中应用程序的各部分之间可以方便 地通过共享存储变量来交换数据并实现各种互斥和同步操作。由于受到存储器 带宽的限制,这类系统的可扩展性较差,一般很难达到较大的规模和非常高的 性能。因此,多计算机系统逐渐成为计算机体系结构研究的一个主要方向。 人类进入2 1 世纪以来,伴随着现代信息技术,特别是大型计算机、互联网 与网格计算系统的同新月异,以及计算数学、计算力学、计算物理、计算化学、 计算材料等计算科学的迅速发展,科学计算已经成为与理论分析、实验观察相 并列的三大科研手段之一;同时也诞生了许多新兴的交叉性的计算工程学科, 研制出一批实用的工程应用软件,例如c f d 、c a d 、c a e 、c a m 、p d m 等,在它们 的支持下实现了常规的工程计算与产品的数值仿真。科学和工程计算己经成为 科学家进行科学发现、工程师实现工程和产品创新的得力助手和有效工具。 同时,值得注意的是,随着国民经济发展对运载工具高性能、高可靠性的 需求,己经要求在实际运行环境下对飞行器的流体行为,结构的静、动、热、 集群管理系统的研究与设计 振和电磁行为,以及碰撞撞击的失效机理和破坏行为等等,进行整体数值仿真。 但是,目前还没有做到,尚存在诸多需要解决的科学和工程计算难题。此外, 基础科学及相关计算科学的发展,己经和正在诞生许多新的交叉边缘性研究分 支,例如纳米科学与纳米技术,非线性科学,多相介质等,它们都涉及到一些 尚未解决且十分困难的科学计算问题。它们的突破对未来科技进步和社会发展 将产生重要影响。 p v p m u l t i m u 图1 1m i 如计算机分类 由此可见,许多前沿科学和工程计算都需要计算能力强大并且可以提供良 好稳定性与可靠性的计算机作为计算工具,来支持其理论推论或是具体的数值 计算。然而,在集群技术出现以前,普通的p c 机、工作站和服务器所提供的能 力很难满足这些计算要求。大规模的并行机,虽然可以提供较强的计算能力, 满足科研和工程需求,但是,由于其价格昂贵,相对来说性价比低,普通的科 研单位、高校和公司无法支付如此昂贵的投资。为此,人们展开了高速计算体 系的研究,高性能计算集群就是其中的一种研究成果。高性能计算集群是一种 将若干台独立的计算机通过高速网络互连,并协同计算的体系结构。由于其具 有不俗的性能和低廉的价格,规模上又可以根据需要灵活地进行扩展,现在被 2 集群管理系统的研究与设计 各机构和单位广泛采用。随着计算机网络技术的发展,因特网得到了很大程度 的普及。因此,如果把集群系统接入因特网向校园、社会、科研单位提供开放 的服务,那么将会有更多的计算机用户能够使用集群系统来进行各种教学、科 研、工程计算等工作。 一年两次的全球t o p5 0 0 超级计算机排行榜是服务器、高性能计算机 h p c ( 1 t i g hp e r f o r m a n c ec o m p u t e r ) 发展的风向标。为了清晰简便的分析近十年 的变化,这里我们取了每年的1 1 月做统计比较。图1 2 是近十年的t o p 5 0 0 超 级计算机体系结构变化的黑白柱线图。透过图1 2 ,我们可以清晰地了解和把 握全球高端计算的技术发展趋势和应用情况。工业标准化的集群系统c l u s t e r 已经占据了t o p5 0 0h p c 排行榜的垄断地位,2 0 0 7 年1 1 月的榜单上有4 0 6 套系 统,8 1 2 的比重,而1 9 9 8 年1 1 月只有2 套,十年问增长了数十倍之多。这种 具有工业标准化优势的系统赢得了大多数厂商和用户的芳心。绝大部分的集群 系统来自i b m 和h p ,主要面向工业和商业的低端应用领域。 图1 2t o p 5 0 0 近十年结构图 集群技术,简单地浣就是将一系列计算机通过网络连接起来,共同协调来 完成各种需求。对外提供单一的入口瞳3 1 ,添加、删除等节点动态配置对用户是 透明的。如果节点出现故障,整个集群在用户看来仍可以正常工作。使用价格 不高,性能优良的普通计算机构建集群系统代替昂贵的大规模并行机成为发展 趋势。高性价比、高可靠性、高可用性和高可扩展性的集群系统在人类生产生 活中占有越来越重要的地位。 然而,集群技术的研究多集中在国外一些较大的厂商或是大型研究机构。 目日订国内的曙光集群系统经历了近1 0 年的发展,已经成为当今国内最成功的集 集群管理系统的研究与设计 群系统。2 0 0 4 年6 月,曙光4 0 0 0 a 超级计算机在人民大会堂正式发布,并在同 年6 月公布的全球t o p 5 0 0 中名列前十,使中国成为继美、日后第三个拥有跨越 1 0 万亿次计算机的国家。目前的曙光集群系统已经广泛的应用于各个领域里, 如航空航天、石油石化、教育信息、电子政务、气象环境、网络安全和互联网 等众多方面。其应用的广泛程度已经深入到人们生产生活的各个方面h 1 。 1 2 本文主要工作 本文的研究内容是大连市科学技术基金计划项目:新型网络服务器的资源 管理与系统状态监控( 编号:2 0 0 5 j 2 2 j t - 1 0 3 1 ) 的重要组成部分。本文首先研究了 集群及其管理系统的相关理论知识,对其概念、分类、特点等进行了系统的研 究,分析了集群系统及其管理系统的原理,并给出集群系统和集群管理系统的 体系结构,为后来的研究工作做打下坚实基础。 通过对管理系统关键技术的研究并结合现有的实际情况,我们研究了高性 能计算用户的一般性需求,实现了一个基于二叉树节点逻辑体系结构的集群管 理系统。首先设计管理系统的整体结构,功能模块以及各个模块之间的关联, 之后着重解决了有关集群管理系统中节点管理部分的问题。节点管理主要实现 了集群逻辑结构的建立,节点的动态配置与管理以及节点间通信等功能。本文 采用二叉树的节点逻辑结构,根节点的选择采用动态竞争决策过程,在发生主 节点选举冲突的情况下,可以根据最优节点选择法选举硬件性能最优的节点做 主节点。一方面保证节点结构的灵活性,支持系统的可扩展性;另一方面利用 二叉树“双亲一孩子 的节点关系进行通信大大降低了单节点在通信方面的开 销,提高了集群系统的工作效率。有效的克服了根节点故障问题,实现了集群 系统对高可用性的要求,保证了集群系统拥有可持续运行的能力。并针对不同 的通信方式采取不同的通信协议,保证数据的可靠性,以及节点的利用率。 1 3 本文组织结构 第一章绪论。介绍了论文选题的背景、意义,综合评价集群的发展前景以 及应用领域。 第二章集群系统。叙述了集群系统的基本概念、分类、特点、体系结构等, 4 集群管理系统的研究与设计 并分析对比了几个典型的集群系统实例。 第三章集群管理系统。描述了集群管理系统的基本概念和组成结构,分析 了集群管理系统设计与实现的几个关键技术,并对两个开源项目做了概要分析。 第四章集群管理系统的分析与设计。本文提出了集群管理系统的设计目标 和总体框架,详细描述了各功能模块的作用和关联关系,以及具体的实施方案。 第五章集群节点管理。本文给出状态获取和故障发现两个重要功能的设计 思想,详细阐述了集群节点管理相关问题的解决方案,最后给出具体的实现方 法。 第六章总结与展望。给出了本文的结论,并对进一步的工作进行了展望。 5 集群管理系统的研究与设计 2 1 集群系统概述 第二章集群系统 将一组通过网络连接起来的节点所组成的具有一定功能并用于完成特定任 务的系统称为集群系统。其中,节点可以是同构或者异构的个人计算机,也可 以是工作站,或者其它高性能计算机等等,节点不受计算机类型、处理能力等 的影响,只要它们可以通过网络相连接。而连接节点的网络,可以是局域网也 可以是广域网,但一般情况下,为了保证集群系统的性能、工作效率以及安全 性等问题,采用高性能的局域网将节点连接成一个系统。因此,可以说集群是 通过高性能网络所组成的节点的集合。集群系统中的节点又是彼此相互独立的, 它们拥有自己的操作系统和磁盘空间( 有可能存在共享的网络存储设备) ,每个 节点都是一个独立的计算机,可以单独执行操作。 集群是通过高性能网络相连的同构或者异构的计算机节点的集合。集群中 的各个节点除了可以作为一个单一的计算资源供用户交互式使用外,还可以协 同工作并表现为一个单一的、集中的交互式计算资源供用户使用。由于集群可 以由普通的p c 搭建,所以其价格低廉,易于实现,并且有较好的可扩展性和并 行机体系,可以满足对计算能力有较高需求的工程和科学计算要求。如表2 1 所示,集群技术的发展经历了三个阶段n 引。 表2 1 集群发展阶段 时间 阶段特征描述 i b m 提出集群系统的概念。集群作为一种将人型计算机连接起 2 0 世纪6 0 年代萌芽阶段 来以提供成本合理的商业化并行方式 | ;现。 2 0 世纪8 0 年代到集群系统以其硬件价格低,使用免费软件或者常用的软件, 发展阶段 2 0 世纪9 0 年代得了快速的发展,并代表了当时高性能计算的新方向。 随着l i n u x 操作系统对高性能网络支持的不断成熟,以及其 2 0 世纪9 0 年代末到 成熟阶段提供的标准化的p v m 、肝i 消息传递机制,大大推动了基于 现在 l i n u x 的集群技术的发展,使得集群技术也不断的走向成熟。 6 集群管理系统的研究与设计 2 2 集群系统分类以及特点 集群系统按功能可分为两大类:一类是用于提供不间断服务的高可用性 ( h i g ha v a i l a b i l i t y ) 集群;一类是用于处理复杂计算问题的高性能计算( h i g h p e r f o r m a n c ec o m p u tin g ) 集群。 许多应用程序必须一天二十四个小时不停地运行,例如所有的w e b 服务器、 工业控制器、a t m 、远程通讯转接器、医学与军事监测仪以及股票处理机等,对 这些应用程序而言,暂时的停机都会导致数据的丢失和灾难性的后果,如表2 2 所示,系统停机将给企业带来严重的损失。这时就需要有一个高可用性集群来 提供这种无间歇和可靠性的保证。因此,对这一类应用,人们更加关注其可用 性和可靠性等特性。业界根据可用性把计算机系统分为5 类,如表2 3 所示。 表2 2 停机给企业带来的损失 应用系统每分钟损失( 美元) 呼叫中心( c a l lc e n t e r ) 2 7 0 0 0 企业资源计划( e r p ) 系统1 3 0 0 0 供应链管理( s c m ) 系统1 1 0 0 0 电子商务( e c o 咖e r c e ) 系统1 0 0 0 0 客户服务( c u s t o m e rs e r v i c ec e n t e r ) 系统2 7 0 0 0 表2 3 系统可用性分类 可用比例 年停机时间 可用性分类 ( p e r c e n ta v a il a b ili t y )( d o w n ti m e y e a r ) 9 9 5 3 7 天常规系统( c o n v e n ti o n a l ) 9 9 9 8 8 小时可用系统( a v a i l a b l e ) 9 9 9 95 2 6 分钟 高町用系统( h i g h l ya v a il a b l e ) 9 9 9 9 9 5 3 分钟 f a u l tr e s i1 i e n t 9 9 9 9 9 93 2 秒f a u l tt o l e r a n t 其中,可用比例公式为:m t t f ( m t t f + m t t r ) * 1 0 0 。m t t f 是平均无故障时间, 工程上常用它来度量系统的可靠性。m t t r 是平均维修时间,是用来度量系统的 可维护性。 高性能计算集群是通过将多台机器连接起来同时处理复杂的计算问题,采 用集群技术来实现高性能计算。如,天气预报的数值计算、模拟星球附近的磁 7 集群管理系统的研究与设计 场、预测龙卷风的出现、定位石油资源的储藏地等情况都需要对大量的数据进 行处理。因此,对这一类应用,人们更加关注其能够提供的计算能力大小。 集群系统应该具有以下几个特点: 1 高性价比。集群系统本身的负载平衡能力允许同时接受大量用户。就性 价比而言对于能够提供相同计算能力的集群与传统的超级计算机来说,前者要 远远高于后者。对于传统的超级计算机来说,性能的提升意味着价格的急剧上 升,有可能是指数级的增长,而集群系统仅仅需要增加相应的计算节点,再通 过合理有效地管理系统协调,就可以轻松的获得性能的提升而不需要大笔的投 资,其性价比的增长可以成一种线性比例,可以由图2 1 对比表示。 价 格 价 格 性能性能 超级计算机系统性能比曲线集群系统性能比曲线 圈2 i 超级计算机系统和集群系统的性能价格比曲线图 2 高可靠性( r e l i a b i l i t y ) 和高可用性( a v a i l a b i l i t y ) 。集群系统节点之间 成松耦合的连接方式,在节点操作系统之上有集群管理系统将其内部结构屏蔽, 并在管理系统内部对节点进行管理。如果有节点失效,其任务可以转移到其它 节点或者由管理软件进行协调,有效地防止了单点失效问题。集群系统具有在 出现错误的情况仍可继续工作的潜力,为用户提供了高可靠性和高可用性的保 障。 3 高可扩展性( s c a l a b il it y ) 。集群系统结构可以很方便地修改和扩展以容 纳更多的硬件或软件资源来适应具体应用需求的变化,而无需中断系统的运行。 集群管理软件可以实现动态节点配置,按照实际需求增删节点,而整个过程对 用户是透明的。 4 高性能。集群系统结构上的灵活性,可以使人们通过增加节点来提高整 个系统的处理能力,拥有与大规模并行处理机或者高性能工作站相媲美的计算 8 集群管理系统的研究与设计 能力。集群可以使用多节点提供服务可以同时响应多个用户的请求,并通过合 理的任务分配达到用户满意的效果。集群也可以通过并行支撑环境来分解任务 到多个节点并行求解,以达到计算能力提高的目的。 5 资源共享。集群系统允许用户在非本地的情况下访问,这样能够有效地 支持用户在不同位置对集群资源( 硬件以及软件) 的共享使用,实现一种良好的 资源共享。 2 3 集群体系结构 制约集群系统性能的关键因素是单个节点的处理能力以及节点间的互连网 络。这就需要系统中要有高性能的处理器和高速通信网络。同时,为了满足用 户在存储方面的要求,还要考虑选择合适的网络存储设备。 随着处理器硬件性能的不断发展,使用单处理器工作站建立集群的方法已 经逐渐被使用对称多处理器s m p ( s y m m e t r i cm u l t i p r o c e s s o r ) 工作站所代替, s m p 节点已成为组成集群节点的主流。s m p 节点内部成一种紧耦合共享内存结构, 这为开发高性能应用程序提供了很大的空间。 由于集群系统节点分布式的特点,节点之间必然会有大量的信息交换过程, 这就要求集群系统的网络必须是高速和高效的。通常,都采用专用的高速网络, 并且互连网络设备也是针对集群的特性而专门设计的高速网络设备。目前比较 流行的有可扩展一致性接口s c i ( s c a l a b l ec o h e r e n ti n t e r f a c e ) ,它是一种集 群间互连的国际标准;m y r i n e t 是一种高性能、高可靠并且可编程的局域网络, 它使用了用户态通信协议;虚拟接口v i ( v i r t u a li n t e r f a c e ) 体系结构是独立于 平台的软、硬件系统,拥有自己的通信协议;还有千兆以太网g i g a b i te t h e r n e t , 以相对较高速的网络环境和低成本成为构建集群系统的一种经济选择。 集群系统体系结构大致分为以下两种类型:一种是有前端机的结构,如图 2 2 所示。前端机是集群的一部分,无论是普通用户还是管理员都通过它来使用 或者管理集群。前端机通过更为安全的远程登录s e c u r es h e l l ( s s h ) ,以公共密 钥加密法为用户提供身份认证,防止了非法访问者登录到系统中。这样可以在 物理上分离使用者与系统硬件,管理员通过前端机对系统进行管理,用户通过 前端机提交任务,系统内部结构对使用者来说完全透明。但前端机明显成为集 群系统的访问瓶颈,一旦任务过于繁重会导致前端机的死机,这样则完全切断 9 集群管理系统的研究与设计 了集群与使用者之间的联系。目前常用的解决方法是增加一台备份机与主机同 步,一旦主机出现故障,马上接替主机的工作。但,即使这么做也无法改变它 本身就是系统瓶颈的问题。 图2 2 带有前端机的体系结构 还有一种就是不使用前端机,用户可以在任意位置通过互联网来访问集群系 统,如图2 3 所示。集群系统在外部看来就是一台机器,拥有唯一的i p 地址, 用户通过i p 或域名来登陆集群,完全不必关心其内部的具体实现。而系统内部 拓扑结构也可以有多种选择,结构的调整一般都不会影响到外部使用。 图2 3 不带前端机的体系结构 1 0 集群管理系统的研究与设计 集群内部的节点结构大致分为两种,一种拥有主节点,主要负责与用户或 者前端机打交道,实现对其它从节点的管理,拥有最高级优先权;另一种节点 间地位平等,每个节点都有机会与上层通信,这要取决于管理软件的决策过程。 其拓扑结构可以是树状、环状等。 2 4 典型的集群系统 目前,已经有很多集群系统,它们各自具有不同的性能和功能特点,表2 4 对它们进行了对比。b e o w u l f 是一个著名的科学计算集群系统,已成为一类广为 接受的高性能集群2 4 1 ;l v s ( l i n u xv i r t u a ls e r v e r ) 是少数由中国程序员发起 的o p e ns o u r c e 开发项目之一阢坩1 ;c o w ( c l u s t e ro fw o r k s t a ti o n ) 与b e o w u l f 集群类似,它是由一些最常见的硬件设备与软件联合搭建而成的;m o s i x 是一个 软件管理层,为l i n u x 内核扩充了高性能集群计算支持能力阳1 5 1 。 表2 4 集群系统对比 系统名称研发机构( 个人)设计日标体系结构软件 由美国国家航空航高性能计算、 b e o w u l f 一个管理节点和多个计算节点 廉价或免费的软件 天局( n a s a ) 启动并行计算 三层结构:负载均衡器;提供服 l v s 中国程序员高可用性 务的服务器群;存储服务系统 高性能计算、 c o -一个控制节点和多个计算节点 并行计算 j e r u s a l e m 的单一系统映像、 m o s i x无主控节点 h e b r e w 大学 高性能计算 续表2 4 集群系统对比 代码是否 系统名称算法特征描述 嵌入内核 b e o w u l f它足一种体系结构。 l v s 四种调度算法和三种负载、p 衡算法 是系统具有良好的町扩展性和商可用性 计算节点主要是一些 i 置的计算资源并 c o 霄 为桌面应用并一般都有显示器、键盘、鼠 标的外接设备。 集群中的每个节点既足主节点又足服务 m o s i x 动态的负载平衡算法 是 节点。单一系统映像模式。进程管理。 集群管理系统的研究与设计 第三章集群管理系统 由于集群内部的松耦合方式以及资源分布的特点,对其日常维护管理提出 了较高的要求。作为用户,不必知道集群的基础系统结构就可以有效的使用这 些机器;无论是否远程,都可以透明地访问系统资源、提交任务。整个系统应 当具备良好的可用性和可扩展性,支持节点的动态加入和删除,部分节点的故 障或者失效不会导致整个系统的崩溃停机。这就需要在集群硬件系统之上建立 一个管理系统集群管理系统c m s ( c l u s t e rm a n a g e m e n ts y s t e m ) ,负责管理集 群、实现集群功能,让用户在使用集群时就像在使用一台计算机一样乜毛驯。 3 1 集群管理系统概述 集群管理系统c m s 是集群软件的一个重要组成部分,具有动态的增加、删 除节点,实时监控系统运行状态,及时发现故障并进行处理等功能。集群管理 系统负责整个集群的管理工作,支持系统的高可用性和高可扩展性。用户通过 集群管理系统实现对集群的管理、监控以及访问和使用。它是用户和集群之间 的联系纽带,介于集群节点操作系统之上用户应用之下。集群管理系统直接影 响着整个集群的易用性和执行管理的效率。 集群管理系统,应当具备以下功能: 1 网络启动。集群节点的网络唤醒。 2 系统自动部署。节点操作系统的自动安装。 3 用户界面。为使用者提供一种友好、易用的可视化界面。 4 单一系统映像。统一登陆界面,内部系统结构对用户透明。 5 节点管理。动态加入、删除节点,并对节点进行查询和编辑,发现失效 节点并进行系统的重新配置。节点间建立一定的体系结构并分组。自动选取或 指定主控节点。 6 用户管理。对全局用户和用户组进行增加、删除、修改等管理。用户信 息有用户名、i d 、用户所属的组、用户目录。在某些节点上建立局部用户和用 户组。对登陆集群用户的身份验证,区分管理员和普通用户。 7 远程命令执行。命令的远程执行,指定命令在集群的某一节点上执行。 1 2 集群管理系统的研究与设计 8 电源管理。对指定节点的自动关闭。 9 系统实时监控。对节点c p u 、内存、磁盘( 空间) 等状态实时查询、监控。 1 0 负载平衡。反馈负载信息,提供一种负载平衡算法。 集群管理系统主要由三部分构成,包括通信层、功能模块和用户界面。通 信层负责集群内部节点间的通信。由于集群节点间使用内部独立的高性能互连 网络,并且节点之间的信息交流很频繁,这就对集群内部的通信系统提出了较 高的要求,因此传统的通信协议已经无法满足这种特殊环境下信息交流的需求, 为此开发一套集群专用的通信层就显得十分重要。功能模块是集群管理系统的 核心部分,负责实现集群功能,管理、协调整个集群工作。用户界面则是使用 者与集群沟通的渠道,用户界面应当尽量友好、易用,充分体现集群的特性。 集群管理系统实现方式分为两类,一类是部分或全部嵌入到节点操作系统 之中;一类是与节点操作系统分离,在操作系统之上应用软件之下作为中间层 软件。在l i n u x 平台下集群管理软件嵌入操作系统内部,生成新的内核来提高 对集群功能的支持,但这样对于操作系统内核版本的依赖性较高,软件的可扩 展性受到了很大程度上的限制。将集群管理软件作为中间层软件,对使用者可 屏蔽节点操作系统,对异构环境有很好的支持,软件具有良好的可移植性和可 扩展性。 3 2 集群管理系统的关键技术 集群管理系统负责对整个集群的资源进行管理,下面就集群管理系统中几 个主要关键技术进行讨论n 瑚一】。 1 单一系统映像s s i ( s i n g l es y s t e mi m a g e ) 。将一组资源所组成的集合显 示成一个统一的更强大的资源。不是指在一个s m p 或一个工作站中仅有一份操 作系统映像驻留内存,而是指给用户的感觉是单一系统。它具有以下特征: 1 ) 单一系统:用户将整个集群视为一个系统,这个系统有多个节点。用户 可以告诉系统用哪一个节点来执行程序,这是有别于分布式系统的; 2 ) 单一控制:逻辑上,最终用户或系统用户使用的服务都来自只有唯一接 口的同一个地方。例如当用户提交作业到一个队列集,系统管理者可以从一个 控制点配置集群中的所有软硬件资源; 3 ) 对称性:用户可以从任一个节点上获得集群服务。即对所有节点和所有 1 3 集群管理系统的研究与设计 用户,除了对一般访问权限作保护的服务和功能外,所有的集群服务和功能是 对称的; 4 ) 位置透明性:用户不用知道提供某个服务的物理设备的具体位置。例如, 在任何一个集群节点上的磁带驱动器,使用起来就好像是挂接在全部节点上一 样。 从集群的角度来看,集群必须实现系统的单一映像,它是集群系统的关键 技术之一。在集群系统中各个节点之问既彼此相连又相互独立,有各自完整的 操作系统和硬盘空间,因此单个的节点都是一台完整的机器。然而集群系统呈 现在用户面前应该看起来是一台超级服务器,系统中的节点对使用集群做高性 能计算的用户来说应具有透明性,无论由哪台节点完成任务,都应将集群当作 一台机器使用。从系统管理员的角度来看,管理系统应该向上层屏蔽集群系统 内部的复杂性,提供给用户单一的控制点和登录点,方便用户对系统的管理, 使用户感觉不到集群系统和普通单机系统的明显区别。 2 图形界面。对于集群管理系统来说,一个友好的用户界面是必不可少的。 图形用户界面的提供,大大的方便了用户,使用户不必记忆繁琐的命令格式, 而通过简单的鼠标点击实现对集群的管理和使用。 传统的集群管理系统中的软件界面部分是一项工作量非常大的工程,由于 软件功能在不断完善,所需要完成的界面部分的代码量随之增加,后期维护工 作量也随之增加n 州1 ,界面组件的增、删、改虽然不会对功能的使用产生太大的 影响,但是如果要修复起来则需要重新对整个软件的界面部分进行重新编译, 消耗了一定的时间。 目前在集群系统中用户界面部分的开发主要涉及了四个方面的问题。分别 是n 洲3 :更快、更有效的开发用户界面;后期维护和开发的方便性,用户的界面 个性化和易行性;c s 结构和b s 结构;跨平台的要求。 3 节点管理。对于整个集群系统,节点根据其在集群中担任的角色分为: 计算节点、用户节点、管理节点、安装节点、存储节点和控制节点等。集群系 统所具备好的可扩展性要求管理系统不应该依赖系统中节点的数量,并且应当 支持对集群节点的动态配置,即动态的添加、删除等,根据需要还要产生分组 关系。管理软件的实现常常需要在各个节点上运行守护进程,许多功能需要相 关节点上的一组守护进程相互协作才能完成,其中存在节点间通信的通讯问题。 在系统运行时某些节点发生故障,集群管理软件必须能够继续提供服务, 1 4 集群管理系统的研究与设计 保证服务的不中断,使用户察觉不到其内部已经发生异常,这是集群管理软件 实现集群系统高可用性的一个方面。这要求管理软件能够在节点发生故障时, 立即启动另一节点接替不能继续提供服务的这一节点,或者触发其它动作来保 证系统的持续运行,保证服务是连续可执行的。 节点管理还需要提供节点使用权限的控制机制,以保证整个系统的安全性。 此外,不同应用环境的需要不同,节点组织方式应具备在线动态改变的能力。 4 负载平衡。通过平衡节点间的负载来提高整个集群系统的性能,负载平 衡算法需要解决好:( 1 ) 负载平衡决策者的确定问题;( 2 ) 决策信息的取舍问题; ( 3 ) 负载平衡完成的判断问题。这里要考虑的负载信息分为硬件和软件两种,如 c p u 利用率、内存利用率、可用磁盘空间、i o 传输量、当前进程数、在线用户 数和网络流量等。而每个节点的可用资源( c p u 内存、磁盘容量等) 量、当前每个 节点的任务量、每个任务所需要的资源量、网络的通讯能力以及每个任务所需 的通讯量等负载信息则是做出恰当的负载平衡决策需要重点考虑的因素。 5 通信协议。由于集群系统是多节点协调工作,因此需要频繁地在节点间 进行通信,这就对集群内部的通信性能提出了很高的要求。传统的t c p i p 通信 协议有很完整的流控制、拥塞控制、差错控制、路由选择等,但也因此处理的 开销变得很大。而在集群环境中,每个节点的机器性能相对较高,节点之间又 是通过高性能的设备互连,内部网络具有高带宽、高可靠等特性,并且通常情 况下并不需要路由。目前提出不少基于集群环境的通信协议,大多采用用户级 通信协议,如v m m c 、a c t i v em e s s a g e 、f a s ts o c k e t s 等。用户级通信协议就是 尽量精简t c p i p 通信协议,让通信过程不进入内核而在用户态下完成,减少进 入内核
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社会工作个案社会工作
- 高级讲师自我介绍课件
- 背诵量大的职业考试题及答案
- 北京高压电工考试试题及答案
- 北京高二数学月考试卷及答案
- 北航复试模拟考试题目及答案
- 保险高管考试题库及答案c类
- 保卫室的考试题及答案是什么
- 电焊使用知识培训内容课件
- 包头中考考试试题分析及答案
- GB/T 24218.3-2010纺织品非织造布试验方法第3部分:断裂强力和断裂伸长率的测定(条样法)
- 系统工程原理 - 国防科技大学信息系统与管理学院
- 华为IPD流程管理全部课件
- 当代世界社会主义现状课件
- 2021年唐山迁安市教师进城考试笔试试题及答案解析
- 《给排水科学与工程概论》全套教学课件
- 电工考核评分表(月度)
- 三菱变频器d700说明书
- 大象版(新版教材)三年级上册小学科学全册教学课件
- 涉外导游英语口语实训教程整套课件完整版PPT教学教程最全电子讲义教案(最新)
- 新疆新昊诚保温材料有限公司年产万吨岩棉生产线项目可
评论
0/150
提交评论