微机集群简介.doc_第1页
微机集群简介.doc_第2页
微机集群简介.doc_第3页
微机集群简介.doc_第4页
微机集群简介.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

超级计算机的发展方向微机集群最早的倡导者和实践者在2001年合作出版了一本题为基于Linux的Beowulf集群计算的书,书的开头是这样一句话:“在经历了20年错误和死路一条的高性能计算机架构的研究、探索之后,现在的道路已经很清楚:Beowulf集群”。 Beowulf集群是指用市场上可以买到的标准硬件 (计算节点如微机或工作站、网络设备如交换机)组建的、主要用免费软件操控的并行计算机。如果计算节点用微机,就是微机集群。(Beowulf Project of NASA)当然对超级计算机所下的这个断言难免失之偏颇,但是从此断言中也可看出,超级计算机的发展应该具备Beowulf集群的主要特征:开放(Open)、通用(Universal)、兼容(Compatible)。该书认为,所有在传统高性能计算机上的努力都失败了。据估计,传统超级计算机硬件研制己经投入的费用仅在美国就可能超过六十亿美元,而应用软件开发上的投资至少加倍。乍听之下有点不可思议动辄上百亿美元的传统超级计算机的研制、开发己经是死路一条?今后,像Cray这种类型的传统超级计算机,这种几年之前还高不可攀,即使在西方发达国家也只有少数几个国家级超级计算中心才能配置的、不可一世的庞然大物,除了因为已经花费巨资为这类超级计算机开发的应用代码无法移植、重要的数据库已经建立而不得不继续使用外,这类超级计算机的命运就此彻底结束了?1 市场是决定性的因素任何技术的发展,离不开市场。或者说,市场是技术发展的主要推动力。某些技术,由于特殊的需要,会得到有关方面特殊的扶持。比如涉及国防军事、国家安全的关键技术,国家有关部门在其发展的起步阶段会给予大力扶持。传统超级计算机的出现,就是出于冷战需要、由美国政府予以大力扶持的结果。1991年以“美国总统倡议”形式开始的“高性能计算与通信”(HPCC)计划,对超级计算机的研制、开发起了很大的促进作用。但是,超级计算机的发展终究要由市场说了算。何况,现在超级计算机不仅在军事、国防、科技领域,同时也更多地渗透到其他的工业、商业、服务业等领域,能否持续发展终究要靠其自身的市场竞争力!软件奇才比尔盖茨在他的未来之路一书中说过:在一个发展市场上,两种相互竞争的产品,一种只要比另一种稍有优势,就会形成正反馈,从而形成事实标准,占据市场。这在高科技市场上尤其如此,请看一个例子:比苹果(Apple)电脑晚五年推向市场的IBM个人电脑虽然失去先机,但由于IBM开放技术标准,形成所谓的IBM兼容机事实标准,稳稳地占据着个人电脑几乎全部的市场份额。当年在技术上,特别是在图像技术方面领先,在市场上占得先机的苹果电脑,由于没有开放标准,颓势早现,现在几乎己经销声匿迹。这样的例子比比皆是,这说明,当产品技术本身相差不大时,兼容、通用、开放的标准是决定市场的关键因素。由于用途的不同,作为个人用途发展起来的微机在技术方面的侧重有所不同。因此,当它被用作并行计算机的计算节点时,在某些方面的性能现在可能还不如传统超级计算机中的计算节点。但是,由于个人微机市场非常庞大,微机的发展速度远远快于传统超级计算机,各种新技术会被不断地开发、应用到微机上,这是传统超级计算机不能相比的。这样,微机在处理器速度方面的优势可以逐渐弥补微机在其他方面的不足,这一点可从下面两个例子来说明。大家都知道,在133MHz主频的Pentium微机以前,由于处理器速度不够,在微机上看VCD 还要用解压卡,否则影像、声音不流畅。这可归于微机某些功能的不足。没过多久,胜任解压任务的166MHz主频的Pentium芯片发布,解压卡很快就被逐出市场。英国剑桥大学做分子动力学计算的一些科技工作者曾经开发过快速傅立叶变换专用模块,以提高分子动力学计算中大量出现的快速傅立叶变换,其功能与解压卡类似,可以称为傅立叶变换卡,现在也早已销声匿迹。这就是说,微机在某些能力上的不足,比如解压缩图像功能的不足,比如傅立叶变化计算能力的欠缺,是可以用处理器速度优势来弥补的,但前提是市场。一种技术只要有市场,就会形成正反馈,就会形成事实标准,其本身的某些不足可以借助于市场的力量得到改善。而任何一项技术,如果高高在上,产品失去市场,就不可能得到持续发展。即使在某些方面一时还可以占有一定的优势,这些优势随着时间的推移也会丧失殆尽,最终被逐出市场。市场的巨大需求量使得微机发展必定远远超过传统超级计算机的发展。因此,微机在处理器速度上的飞速提高很快就可以弥补其他方面的劣势。 构成微机集群另一个重要硬件的网络,则依托互联网技术的发展,同样是一个快速增长的领域。从 1982年出台10M 以太网,到1994年100M的快速以太网的开发成功,用了整整 12年时间。但是由于互联网需要,网络技术发展的速度明显加快。仅仅过了三年,千兆以太网就已经出现,现在万兆 (10G)以太网的标准和产品也己面世。此外,已经有近十年发展历史的一些集群专用的系统域网(SAN)技术如Myrinet等现在也已日趋成熟,在带宽和延迟性能上与传统超级计算机网络技术的差距也日益缩小。因此,尽管目前微机集群与传统超级计算机相比,还有这样那样的不足,我们仍然可以大胆预言,随着微机市场的不断扩大,随着互联网技术的不断发展,市场决定未来的超级计算机就是微机集群,因为微机集群符合兼容、通用、开放标准的特征。2 微机集群的历史并行计算的概念早在第一台电子计算机诞生后不久就由现代电子计算机之父 VonNeuman提出。让众多计算机一起工作这样的计算机集群的实践可以追溯到20世纪 50年代末、60年代初。当时,美国空军用真空管电子数字计算机建造了被命名为SAGE(智者、圣人)的第一个计算机集群,作为早期的一个军事预警系统,用以监视苏联的核攻击。1980年,DEC公司将集群概念应用到VAX微处理器集成的系统。虽然这种VAX集群和当时的Cray传统超级计算机在性能上相差100倍,但性能价格比正好倒过来。很快,VAX集群系统成了大学和科研机构占统治地位的计算机系统,成为研究人员能自己拥有和管理的属于自己的计算机系统。1991年以美国总统倡议形式进行的为期五年的“高性能计算与通信” HPCC计划,加速了大规模并行计算机的研制。该计划要求到1996年以前实现计算速度、存储容量和网络带宽都达到所谓的3T(万亿)的目标。而在1995年开始实施的“加速战略计算创新”(ASCI )计划,更是首次将计算科学提高到战略的高度,强调这是关系到国家安全、经济发展和科技进步的关键环节,是事关国家命脉的大事。该计划要求计算机能力从1994年的每秒10亿次,提高到1996年的每秒万亿次、2000年的每秒10万亿次、2004年的每秒100万亿次浮点运算的目标。10年期间要求提高5个量级,而且制造成本要基本相近。可见,科学计算的硬件基础超级计算机的研制受到了很大的关注。但是,靠国家专项资金扶持的传统超级计算机,却是高成本、低收益的。它的组成部分专用的处理器、特制的高速网络、复杂的操作系统和昂贵的应用软件使得传统超级计算机成本高昂,令市场望而却步,这无疑也制约了传统超级计算机的发展。 随着高性能微机、工作站和互联网技术飞速发展以及它们的商品化、标准化,随着免费开放的Linux操作系统内核的成熟稳定和性能完善,集群式并行计算机系统应运而生。它以传统超级计算机无法匹敌的性价比,成为并行计算的理想工具,导致了超级计算机的 “平民化”。从此,速度超过每秒千亿甚至十万亿次浮点运算,几年前在美、日等发达国家也只有少数几个国家级超级计算中心才能配置的超级计算机,开始进入普通的大学、研究所、甚至实验室。这一切令人膛目结舌的变化都开始于美国航天航空署 (NASA)的Goddard航天中心的那个无奈之举、那个被称为Beowulf计划的项目。1994年,Goddard航天中心需要一台能被用来计算、采集、控制、显示、解决地球和空间问题大量数据的计算机。要求其峰值速度达每秒10亿次,存储数据大于10G。当时具备这样能力的计算机系统的价格大约为一百万美元。可是,NASA只能提供5万美元。因此,Goddard航天中心的科学家们,迫于经费短缺,不得不选择用市场上可以购买到的微机和网络硬件自己组建满足这样要求的并行计算机系统。这就是Beowulf项目的由来。当然,当时Beowulf出现的软、硬件条件都已经基本具备。1994年,主流微机的配置是intel80486处理器,10Mb/s以太网,10MB数量级的内存,100MB数量级的硬盘。此外,从1991年开始流传的Linux免费操作系统,到1994年已经趋于成熟,内核己经相当的稳定。而且,PVM (Parallel Virtual Machine),一种以消息传递并行编程和可连接通信函数库为基础的并行计算平台已经开发成功,1993年推出的V3.0版本已经相当稳定。根据Beowulf项目研究人员估计,他们惟一需要做的就是在Linux系统下开发这样的系统的网络软件技术。1994年第一台Beowulf式的微机集群Wiglaf在美国航天航空署的Goddard航天中心诞生。它由16个 66MHz的486处理器的微机组成 (很快被换成 100MHz的486 DX4的处理器),采用了10Mb/s以太网集线器。它的速度已经达到每秒10亿次操作,只是当时intel 486处理器的浮点运算能力还很差。即使如此,Wiglaf的速度也达到了7200万次浮点运算,能与当时Intel公司的Paragon和Thinking公司的CM-5等大规模并行系统超级计算机使用相同计算节点数时的速度一争高下。以后,这样的微机集群就被开发者之一的Thomas Sterling统称为Beowulf。从此,并行计算开始了一个新纪元。微机集群发展的原始动力是市场需求。Beowulf这一产物之所以能在市场上立足是因为它的三大技术基础标准的、商品化的、廉价的高性能微处理器和高速网络技术以及免费、开放的系统及并行软件。在此基础上,越来越多的研究人员开始自己动手组建Beowulf集群,各项软、硬件应用技术也随之开发。此外,众多的传统超级计算机制造商如 IBM, Sun. HP和 SGI等也开始介入这一市场。从此,Beowulf集群就有了更加迅速的发展。Beowulf所揭示的经济和社会现象,己经消除了高性能计算机架构之争,对超级计算机的研制和开发产生了深刻的影响。Beowulf计划负责人之一的Thomas Sterling在2001年7月和8月出版的科学美国人上接连发表两篇专题文章 如何建造超级计算机和 自己建造的超级计算机,对Beowulf现象作了详细的介绍和深刻的剖析。3 微机集群的现状图1是从1993年起至2002年底、用Linpack速度测试排序的世界超级计算机500强内各种不同架构的超级计算机的数量按年份分布的情况。图中没有标注出其类型的是单指令多数据 (SIMD)处理机,数量很少,并且已在 1998年后完全退出世界超级计算机500强,而微机集群此时刚好进入世界超级计算机500强。用线性代数程序包 Linpack测试工具软件xhpl对超级计算机的最大浮点运算速度进行测试,进而排出世界超级计算机500强顺序并在网上公布的活动开始于1993年。Linpack测试虽是线性代数计算,给出的是每秒能达到的最大浮点运算次数,但并非只对线性代数计算有效。并行计算实际上包含数值计算和数据交换通信两部分。任何形式的并行计算不管是不是线性代数计算,如果数值计算和数据交换通信量与Linpack测试程序的相当,那么Linpack速度指标就可以真实地反映该计算机的速度。如果数值计算和数据交换通信量比Linpack测试程序低,Linpack速度指标相同通信带宽、延迟好的计算机,性能有冗余;带宽、延迟差的计算机则还可有更佳的表现。图1(略)由于没有更合理的标准,Linpack测试仍是目前可以被普遍接受的超级计算机的排序标准。世界超级计算机 500排序是要自己登记,然后经该网站核实认可后公布的。从1993年开始到目前为止,500强中数量最多的仍然是传统超级计算机。可见,这些制造传统超级计算机的大公司也是认可和接受这个排序标准的,是有一定权威性的。从图1中可以看出,从1998年第一台集群式超级计算机进入世界超级计算机500强起,进入500强的集群式超级计算机的数量逐年增加。实际上,世界各国的大学、研究机构还有数量众多的自建微机集群,由于种种原因没有到世界超级计算机500强网站登记排序,因而不在该网站公布的500强清单上。在2002年 11月公布的500强清单中,已有93台属于集群式超级计算机,其中32台是采用 Intel处理器、8台是采用 AMD处理器的微机集群。而超群和大规模并行处理机MPP分别占206和 195台。共享内存的对称多处理机SMP在500强中占有数量下降的趋势不可避免,现在只占6台,最终退出500强只是时间问题。向量机和SIMD单指令多数据处理机己分别在 1997和 1998年先后退出500强。从发展趋势看,这几年有较大发展的是集群和超群。4 微机集群的技术微机集群技术分硬件和软件两部分:市场上可以买到的标准硬件 (计算节点、网络设备)和免费软件 (Linux操作系统、各种并行、管理平台等)。计算节点的性能主要由处理器决定(采用高性能微处理器)。微机集群的性能主要取决于网络技术(快速以太网、Myrinet等)。微机集群网络技术的选用取决于微机集群的用途和性能价格比。快速以太网和千兆以太网,以及和Myrinet系统域网之间现在还存在着巨大的价格差距。目前千兆以太网有逐渐取代快速以太网的趋势,需求增加,成本下降,价格变化很大。此外,可扩展性也是一个关键的因素。目前最大的千兆以太网交换机全速堆叠还不到 100个端口,因此,扩展至更大规模的集群就有困难。微机集群的软件技术是一个大有可为的领域。 虽然微机集群并不一定限于使用免费、开放软件,比如也有微机集群用Windows NT操作系统,但主要是使用Linux等免费、开放的操作系统和并行、管理软件。 Linux具有相当强大的网络功能,这对微机集群是必需的,因为微机集群就是用网络连接的一群微机。如果没有强大的网络功能,微机之间的互相联系、互相通信就会大打折扣。Linux又是可以由用户定制的操作系统,这对微机集群也非常重要,因为在节点上完全没有必要运行完整的、功能齐全的内核。这不仅是为了节省内核所需占用的节点机资源 (内存和处理器时间),也是保证节点可靠性的一个重要因素。比较有名的Linux发布版本有Redhat9,SuSE, Debian等。 微机集群的并行计算基本上是消息传递模式。最主要的消息传递并行标准现在是Message Passing Interface (MPI)。较早的还有Parallel Virtual Machine (PVM ),是1990年开始开发的第一个被广泛使用的消息传递并行标准,但在 1994年MPI出现后基本就停止发展了。现在MPI是占统治地位的并行通信标准、并行编程环境。MPI通信功能可靠完备、容易使用、容易移植,是几乎所有并行计算机都支持的并行环境,也是免费的。由于分布式并行计算的特点,有效地使用微机集群的方法是避免任何一个节点被一个以上的任务所占用。比如一个任务用 8个节点进行并行计算。如果其中有一个节点同时也在运行着其他任务,那么,这个节点就是分时的。如果任务不能根据负载情况进行转移,即使其他 7个节点运行完成,也必须等待这个分时节点完成该节点的任务后才能进入下一步计算。因为集群的任务负载平衡是相当困难或代价高昂的,一般很难在负载不平衡时转移任务。所以,最好是避免在一个节点上运行多个任务,即构建专用集群。这样,集群的管理就是个非常具有挑战性的任务。 可以用作这种管理的软件有:Condor,DQS,OpenPBS,LSF等。 5微机集群的可靠性 微机集群常被与低价等同,因而被误认为是不可靠的。其实,微机集群的低价是建立在标准硬件 (具有很大市场的微机和网络设备)和免费软件的基础上的。微机集群实际上是将完全独立的两部分通用、兼容和标准的硬件连接起来,因此组建技术比较简单。从控制论的角度来看,技术上越简单,可靠性越大,至少原则上如此。 然而我们也应该看到,由于微机集群中独立硬件数量庞大,因而发生故障的可能性也增大。曾经有人估计,一台1000个节点的MPP传统超级计算机每天至少有一个节点失效,对微机集群情况也类似。假定每个节点平均无故障时间为 24000小时,那么,一个1000台节点的微机集群整个系统的平均无故障时间就只有 24小时。也就是说,平均每天就有可能有一个节点发生故障。要提高整个系统的平均无故障时间,似乎应提高每个节点的平均无故障时间。但大幅提高每个节点的平均无故障时间,在技术上是非常困难的,代价是非常昂贵的。这显然是不可取的,应该采用其他技术。与 SMP类型的传统超级计算机不同,微机集群个别节点的这类故障对整个系统来说并不是致命的。微机集群的这种检错、故障转移、恢复技术可以在软件层次实现。比如,主控节点在一个预先设置的时间间隔内向每个节点发出探测信号,如果某个节点没有响应,主控节点就开始转移该节点的任务备份到冗余节点。当然,主控节点不能出问题,否则整个系统崩溃。此外,发出和响应探测信号以及备份等都需要花费一定的系统开销。但由于微机集群性价比高,几个冗余节点的成本很低,所以这是可以办到的。免费开放软件并不等于不可靠。如果没有 MPI等免费并行软件,大部分并行计算机可能都要闲置。完美无缺的软件是不存在的,关键看致命缺陷能不能被尽快找到。商业软件的测试是靠商家组织有限的用户在小范围测试的。而免费软件用户群则比商业软件大得多,因此发现缺陷的几率更高。只要选用成熟的开放软件,可靠性应该是有保障的。由于自由免费软件是开放源代码的,应用软件的开发应该比完全封闭的商用软件更容易。对于用户来说,免费软件的最大问题在于有没有技术支持,而不是它的可靠与否。而且,实际上并没有限定微机集群只能用开放软件。现在也有很多商业软件,如编译器等也被用在微机集群上。 6微机集群的优势 微机集群的最大优势是它的性能价格比。在并行计算的模式下,有三个重要因素 (每个节点处理器的速度、每个节点与其他节点之间的通信能力和每个节点的主存储器容量)共同决定一个并行计算机系统所能够达到的最大速度。处理器速度和网络通信能力这两个因素很容易理解,但是为什么存储器容量也是一个决定并行计算机可以达到的最大速度的重要因素?这是因为,处理器的速度决定了解决单个问题所需的时间,而存储器的容量决定了能够解决的问题规模。 显然,微机集群在处理器和存储器容量上都有巨大优势。而且,这样的优势还会随着微机市场的不断扩大而快速增加。微机集群的另一优势是它的技术更新速度。 与 MPP等传统超级计算机不同,由于微机集群硬件的开放、兼容、通用的标准,使它能很快包容新技术,不需要预开发时间。任何新技术一旦被结合进微机芯片技术,就马上可以在微机集群上反映出来,因为微机集群本身就是由微机构成的,这也是一个很重要的优势。 结构的灵活性也是微机集群的一个优势。微机集群的特点就是没有一个固定的结构。除了商家的微机集群,可以说没有两台微机集群具有相同的结构。硬件上的选择余地非常大,可以让用户自由选择找到最佳的用做特定用途的结构。比如,在计算节点上有采用Pentium IV、 Athlon XP、Athlon MP、 Xeon、甚至Itanium2、Itanium3等不同处理器的微机 (除了处理器和主机板,其他部件大多数都兼容),网络硬件上有快速以太网、千兆以太网、Myrinet、 cLAN、SCI、Qsnet等可供选择。这样的多供应渠道,导致了微机集群硬件的容易扩充,容易替换,可灵活配置。虽然微机集群通常是指使用自由、开放软件,但也并非一定限于免费软件。实际上也可以包括商业软件,比如也可以用Windows NT操作系统。因此,微机集群的技术实际上是变化很大的,甚至可以说每个月都会发生变化。但是不论如何变化,任何一个部件都可以找到替代产品,因为都是标准的、兼容的。在此基础上,用户可以在任何时候根据集群的实际应用需要和能够承受的耗费自主进行重构选择,使所建的微机集群在价格、容量、性能和可用性之间找出最佳平衡,以获取最佳性能。7微机集群的局限微机集群的主要瓶颈是节点间的通信。微机集群面临的另一个问题就是日常管理和维护。微机集群的软件落后于其硬件发展。微机集群软件方面最大的问题是软件集成度低。此外,微机集群的免费软件缺乏技术支持。8微机集群的趋势微机集群的方向就是超级计算机的发展方向。微机和互联网络技术在未来十年都会有很大的发展。据保守估计,到2010年左右,单个微机处理器峰值速度完全有可能达到每秒千亿次浮点运算或更高的能力;内存的密度也可能是目前的10-100倍或更高;网络技术方面如果光通信技术发展顺利的话,有可能达 1000G或更高的带宽。那时,也就是到2010年前后,微机集群的速度可望达到每秒1000万亿次浮点运算的量级,是现在的100-1000倍。这样的话,传统超级计算机与微机集群之间的差别会越来越小。微机集群的硬件选择1 计算节点 服务器还是微机?(CPU处理能力、I/O性能、可靠性、价格等方面) CPU(字长32/64、主频、Cache、指令、流水线、双CPU的利弊等) 内存(速度、容量、容错等) 主机板(Chip Set、PCI总线、BIOS等)2 网络硬件目前主要的组网技术有: 以太网(快速以太网、千兆以太网) Myrinet(网卡和交换机性能优越,但价格居高不下)网卡(可靠性、稳定性)交换机(与集线器的带宽不同,交换机还可进行数据转发及数据包分析等)3 其他散热(通风、制冷)机箱、机柜电源(3C认证、UPS)微机集群的组建实验室已有许多安装了Linux的微机连在网上,这是一个微机集群吗?是否属于微机集群并不在于连在网上微机数量的多少,而在于微机互连的网络结构和作此连接的用途,以及为此用途所作的系统设置。从网络结构上说,这样的一群微机已经可以作为一个微机集群,但还需满足一些条件:1需要对并行计算所需的网络功能进行设置;需要安装并行计算所需的环境(平台)。2实验室的一群微机一般用集线器(Hub)进行连接,而微机集群通常用交换机(Switch)连接。虽然两者在物理连接的结构上完全相似,但集线器很难满足微机集群同时迸发的大量数据通信要求。3实验室的每台微机一般都配有显示器、鼠标、键盘等,即每台微机都可独立地作任何用途。从使用效率上说,微机集群中的每台微机应该只作并行计算用途,否则这样的分布式并行计算系统要么负载过重,要么太空闲从而效率低下。微机集群中的节点机一般都有固定用途,常通过服务器(或主控节点机)控制节点机,所以节点机不配备显示器、鼠标、键盘等。微机集群从网络结构上来说是一种分布存储式的并行计算机,因此,其最常用的计算平台是基于消息传递的编程模式,典型代表是MPI。MPI最大的好处是初学者容易掌握,这也意味着程序容易移植。实际上,MPI只是一些子程序库(对Fortran、C语言则为函数),对初学者来说只需把它理解为一些子程序就可以了,而不必知道其内部细节。MPI并行编程的关键是掌握通信子程序调用,MPI提供了很多通信子程序,各有不同的用途,作为初学者并不是说掌握很多的通信子程序才能进行并行编程,实际上只需要知道如何使用其中一个MPI函数子程序(mpi_allreduce)就可以将大部分串行程序改写成并行程序。当你需要得到更高的计算效率时,再去学习掌握其他的通信子程序不迟。微机集群的网络结构一般是以交换机为中心的内部互连网络,通常只有服务器才有通道连向外网,这是基于安全性和并行计算效率的折中权衡。虽然每个节点是独立的,但各节点之间往往需要互访或交换数据,这必须通过OS提供的网络服务来实现,即内部互连网络加网络协议(如快速以太网TCP/IP)。对于并行计算机系统所要提供的网络服务,在计算节点上: 能够载入同一个计算程序的二进制可执行代码,如果需要,也能够在所有计算节点上输入初始数据。 需要有高效的方法来验证用户身份,并能够执行用户发出的诸如“启动并行计算程序”之类的命令。对于第个要求,可以通过网络文件系统(NFS)将服务器上的用户文件让所有的计算节点共享来实现;对于第个要求,则需要网络信息服务(NIS)和远程shell命令服务(rsh)共同实现。因此,NFS、NIS和rsh就是微机集群所需的基本网络服务。NIS是一个简单的客户机/服务器数据库系统,可以提供信息查询、用户身份验证、权限管理等功能,微机集群一般都以NIS来管理用户。微机集群共享文件系统的功能一般均由NFS负责实现,NFS是一个非常可靠的协议,它在请求和提供服务的过程中不保留任何信息,客户端出现问题不会影响服务器端,但此协议导致了每次读写时信息量的增加,加重网络负担。现在已将NFS代码写入内核(Kernel),即有内核空间NFS(内核内部的远程进程调用)和用户空间NFS(用户层次的远程进程调用)之分,用户在安装时可以选择,当然二者在性能和协调方面前者更好。rsh是驱动远程shell命令的程序,远程shell命令方式可以使用户通过它与远程计算机沟通(远程登录、远程文件传输等)。相当多的系统软件是依赖于rsh的,rsh对用户来说是启动并行计算等远程命令,而对于管理员来说是用于管理、检查节点。微机集群软件的安装需对服务器和节点机作不同的处理,一般是服务器上可以多安装些软件而节点机上尽量少安装些软件。微机集群的Linux安装分为服务器和节点机的安装,实际上这和在单个微机上安装Linux没有本质的区别,区别在于设置,即根据需求对系统、网络功能和并行软件进行安装,之后进行系统配置,主要是基本网络设置、NIS和NFS。对于微机集群来说,为了使系统优化,内核重新编译显得特别有意义,因为这样定制的Linux内核效率较高,运行时可以根据服务器和节点机的不同需要加载或卸载服务和模块,有效提高系统性能。微机集群的性能测试安装配置完成后,可以在服务器和一个节点机之间进行集群的调试和测试。1 微机集群的连接就是用网线连接交换机和网卡。实际上两台微机之间不用交换机也可直接用网线连接起来。2 微机集群所需网络功能的检测检测TCP/IP、NFS、NIS、远程shell命令和远程无口令登录。3 并行计算平台MPI的测试测试大部分MPI库函数是否可用。4 Linpack速度测试微机集群的性能优化完成了安装、调试及测试的微机集群还只是一个初级的并行计算机系统,这是因为集群中的微机和连接用的网络等并不是为并行计算用途设计的,特别是普通网络设备的通信速度严重制约着微机集群的规模,除特殊或专项应用外,用100M交换机集成16台以上的微机构成的集群就有可能遇到通信堵塞。所以,提高通信速度对构建大规模微机集群非常重要。1.节点机的网络唤醒和停机(符合ACPI即高配置电源接口标准的网卡和主机板BIOS都支持Wake on Lan功能。网络唤醒的开放自由软件可从/下载,如ether-wake.c文件)2.用dhcp服务器进行网络配置(dhcp服务器实际上是管理网络参数的软件,是C/S系统,需分别安装和配置)3.如何复制节点机(复制硬盘的方法,只需修改网络设置)4.网络启动(节点机上不安装系统,而在启动时通过网络从服务器上安装系统,与无盘工作站类似,可省掉硬盘)5.网卡捆绑(就是将多个网卡捆绑成一个网卡,使其具有相同的IP地址,将数据分成N份,从N个通信通道上同时传输,以此增加网络通信量,N一般取2,太多意义不大,因为不能改进延迟。这与Linux的设备管理方式有关,涉及驱动程序和虚拟设备;实际上就是具体协议之下的一种虚拟设备驱动程序,提供与普通网卡驱动程序相同的接口,另外在OS中增加一个虚拟网卡并为其分配一个IP地址。2000年发布的Linux2.2.14版本开始支持网卡捆绑技术)6.节点机该启动哪些进程微机集群的任务管理一个大规模的微机集群,其上的任务调度和管理也是非常重要的一项工作。管理计算任务的递交、控制计算任务的运行、区分用户运行的权限等是一个十分常困难的工作,没有好的管理,并行计算机的效率和利用率就很低,而这样的工作靠人工是根本不行的,必须交给作业管理系统(JMS)去做,OpenPBS就是集群上优先采用的JMS系统。PBS主要由四部分组成:1 PBS用户命令主要是用户递交、查询、改动和删除PBS任务;2 PBS服务接受、产生、调整、保护、启动用户的PBS任务;3 PBS执行节点机上的守护程序,将服务器上的用户PBS任务复制到节点机上以驱动PBS任务;4 PBS调度用于PBS任务运行的排队调度控制。OpenPBS是一个开放软件,其源代码可从OpenPBS的官方网站http:www.OpenPBS.org 免费下载,登录之后填写一份登记表格即可。有关OpenPBS的安装、设置、使用的详细内容可参考OpenPBS管理指南,可从同一网站获取。稍许遗憾的是其用户接口为命令行方式,使用起来没有GUI界面感觉好、使用方便。微机机群(Beowulf PC-Cluster):随着商用微处理器性能的飞速发展,低延迟、高带宽商用网络交换机的出现,和LINUX操作系统等自由软件的成熟,并行计算机不再是一个只有大型科研单位才能拥有的设备。例如,将128台当前市场上最高性能的Intel Pentium-III/800MHz的微机通过6个24端口的1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论