




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 i 摘摘 要要 自从全基因组测序成为可能以来,基因组结构注释(包括了解基因组 dna 中 的基因组成、结构及其调控元件)成为生物信息学研究的重要问题,由于基因组结 构注释系统的计算量庞大,需要基于高性能计算资源进行基因组结构注释计算。 目前生物信息学研究机构普遍采用的高性能计算系统主要存在以下两方面问 题:搭建成本高昂,性价比差,对预算有限的实验室是沉重负担;技术标准不开放, 导致软件管理困难,硬件扩展性不佳,后期维护成本高昂。 针对以上问题做了如下工作: 搭建了一个适合生物信息学应用的基于开源集群资源管理中间件 oscar 的集 群系统。 对目前的硬件技术进行分析,在此基础上根据需求对硬件选型,特别针对目前 统一架构集群的不足提出 pc/smp 服务器混合架构的方案。 对集群相关的软件进行了实验和选型,重点是集群资源管理中间件,选型过程 中做了大量实验来测试系统的兼容性。 对选型后的硬件和软件进行了系统集成,并对系统并行计算环境进行了测试。 在集成过程中,克服了 linux 软件的包依赖性等技术困难。 使用国际标准的 linpack 对集群的浮点计算性能进行了测试,对结果进行了分 析和总结,验证了集群的计算性能和可扩展性是否符合要求。 开发了求 dna-c/g 含量的 pbs 程序 cgpbs,对生物信息学者在集群系统的并 行计算环境下部署复杂的生物信息学软件进行了一定探索。 关键词: 关键词: 生物信息学, 集群, 并行计算 华中科技大学硕士学位论文 ii abstract since the whole genome sequencing possible, the genomic structure notes (including understanding of the genomic dna of the gene composition, structure and control components) as bioinformatics research important issues, as genome annotation system structure of the enormous amount of computation, needing high performance computing resources for genomic structure calculation of the notes. currently bioinformatics research institutions commonly used in the high-performance computing systems mainly the following two aspects : high cost structures, poor cost performance, the budget is limited laboratory is a heavy burden; while technical standards is not open, leading to software management difficulties, hardware scalability and high maintenance costs later. to solve the problems above, doing the following : erection of a suitable application of bioinformatics cluster-based revenue resources management middleware oscar cluster system. the current hardware technology, the basis of demand for hardware selection, special unified view of the current structure of the cluster of insufficient pc / smp server hybrid structure of the program. clusters of related software selection and the experiment, focusing on the cluster resource management middleware, selection process has done a lot of experiments to test the system compatibility. selection of the hardware and software for system integration and system parallel computing environment for the test. in the process of integration, overcome a linux software package dependence technical difficulties. use of international standards on the linpack floating-point calculation of the cluster properties of the test, results of the analysis and review to verify the cluster computing performance and scalability whether it meets the requirements. developing a dna-c / g content of pbs cgpbs procedure, helping bioinformatics scholars to deploy complex bioinformatics software for a certain exploration in the cluster system of parallel computing environment. keywords: bioinformatics, cluster, parallel computing 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已 在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密,在_年解密后适用本授权书。 不保密。 (请在以上方框内打“” ) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 本论文属于 华中科技大学硕士学位论文 1 1 绪绪 论论 1.1 课题来源 1.1 课题来源 本课题在以下项目的资助下完成。 教育部科技基础条件平台项目:人类遗传基因信息数据整合及共享信息平台 (505010) ; 国家科技基础条件平台项目:生物信息学网络计算应用系统华中科技大学子 项。 1.2 课题背景、目的和意义 1.2 课题背景、目的和意义 在传统的生物学方法上,人们对生物实验产生的数据分析进行费时费力,且带 有较大的盲目性,特别是随着以 2001 年人类基因组计划完成为代表的基因组大规 模测序时代的到来,面对呈几何级数迅速膨胀的基因组序列数据,传统的生物学检 验方法已经难以跟上当前的节奏。因此,采用生物信息学(bioinformatics)方法对 生物序列特别是大规模的基因组序列进行分析和注释,从而对传统生物学实验产生 有益的方向性指引这一工作变得日益重要1。 生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的一 门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达 到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来 自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、 检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学 应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些 生物大分子信息的生物学意义的交叉学科2。 生物信息学的研究对象是海量数据,包括序列数据、结构数据、功能数据和注 华中科技大学硕士学位论文 2 释数据等等。目前与基因相关的生物学数据已超过 1021比特,即 1000 exabyte,超 过高能物理实验所积累的数据量 1016比特3,而且数据增长幅度越来越大,数据翻 番时间已小于八个月。大量的核酸序列数据的积累已远远超出了实验室的分析能 力,而传统的计算方法也遇到了挑战。 在基因组结构自动注释流程中,比较基因组分析(genekey(similarity))4、蛋 白质/dna 序列相似性分析5、est 序列定位分析(edsac) 6等均属于数据密集型 计算任务,将耗费大量的计算资源。例如,经测试,将一条长度为 10,000 碱基的 dna 序列与数据库 dbest 中的序列片断由 edsac 进行定位分析,在普通的 p2.0ghz 的 pc 机上需耗时 12 分钟。以需耗时 1 分钟计,采用 edsac 计算长度为 30 亿的人类基因组序列需耗时 50,000 小时,即六年左右。若在高性能计算环境上 计算,以系统平均计算能力为 2000 亿次/秒计,则需耗时 500 小时,约 1 个月7。 而这还只是基因组结构注释中的流程之一。在 est基因组比对中,采用 gmap8 作为比对工具将 est 与基因组作搜索比对,序列比对运算量巨大,比对工作在集群 服务器上完成,使用了 17 个计算节点 34 个 cpu 同时运算,即使这样,全部比对 工作费时超过 70 个小时。因此,基因组结构注释的计算业务需要庞大计算资源的 支持。 生物信息学计算大都属于数据密集型,其工作流程为:收集数据,建数据库, 从数据库中抽取数据建数据集,数据挖掘。海量生物信息的获取,处理,存储,分 配,分析,整合和阐述等各个方面都需要计算机的帮助。相对于这样庞大的数据规 模,普通计算机的计算能力远远达不到要求,往往要借助于高性能计算技术来完成 这一任务。 在这种背景下,为生物信息学科研提供大规模计算资源成为急需的工作。本文 详细了解实验室的科研和教学需求,对各种可以选用的软硬件技术进行分析选型, 建立高性能计算系统,为人类基因组结构注释、大规模疾病基因分析等工作提供支 持。 系统按照如下目标进行搭建: (1)计算性能在预算范围尽可能高; 华中科技大学硕士学位论文 3 (2)存储性能根据实验室建立和备份数据库的经验,至少达到 1tb; (3)软硬件易集成和管理。减少成品高性能计算机复杂的、不常用的功能, 便于操作又可降低成本; (4)成本低于预算。克服成品高性能计算机价格昂贵的缺点,做到性能价格 比高; (5)可扩展性好。满足生物信息学日益增加、永无止境的存储和计算需求; (6)可靠性高。能够提供 724 小时数据库服务和计算接入服务。 1.3 国内外研究现状 1.3.1 高性能计算技术研究现状 1.3 国内外研究现状 1.3.1 高性能计算技术研究现状 搭建高性能计算系统,现有的解决办法有两个,其一是不断发展运算速度快, 存储量大的超级计算机,以使它们能提供应用所需的更强大的计算能力。虽然计算 机工业的飞速发展可在一定程度上暂时解决问题,但是未来的发展将会受到技术和 资金的限制。其二是利用现有的计算资源,把繁重的作业分散到每个单独的 cpu 上进行计算,这种系统就是能提供强大并行计算能力的集群系统9,10。 超级计算机和集群系统可按它们的处理器、内存和连接方法来分类。最常见的 系统包括:基于分布存储的并行处理系统(mpp),共享存储的多处理机(smp ),一 致缓存不一致内存访问(cc-numa ),分布式系统和集群系统11,如表 1.1 所示。 mpp 通常是指使用无共享资源的大型并行处理系统。它一般包括几百个节点, 节点间以高速内部互联网络连接。每个节点都有各种硬件部件,但一般包括一个主 内存和一个或多个处理器。另外,特殊的节点也可以有磁盘或备份系统与之相连。 每个节点分别运行各自的操作系统12。 smp 系统拥有 2-64 个处理器,所有的处理器共享全部的可用资源,如总线、 内存和 i/o 系统等,并使用一个操作系统13。 cc-numa 是可扩展规模的多处理器系统,是指一致缓存不一致内存访问。像 smp 一样,cc-numa 系统中的每一个处理器都可以访问所有内存。不一致内存访 华中科技大学硕士学位论文 4 问(numa)是指访问最近和最远内存所需时间的不一致性(non-uniformtimes)14。 表 1.1 可扩展并行计算机的主要特征 分布式系统可以被认为是由许多独立计算机构成的常规网络系统。它们拥有多 个系统界面,每个节点运行它自己的操作系统,而且,分布式系统的每台机器可以 是 mpp、mp、集群或单个计算机。 集群系统是一群以网络技术连接起来的工作站或 pc 机的组合。为了进行并行 计算,集群一般是以高速网络连接起来的高性能的工作站或 pc 机组成。集群在工 作中像一个统一的整合资源,所有节点使用单一界面15。 在 20 世纪 80 年代,人们认为计算机性能的提高主要是由于研发了更快更有效 的处理器。这种观点受到了并行处理概念的挑战。并行计算的根本意义是将两台或 多台计算机连接起来.共同解决一些计算问题。从 20 世纪 90 年代以来,昂贵而特制 华中科技大学硕士学位论文 5 的并行超级计算机向工作站网络转换的趋势越来越强。高性能工作站和网络部件的 商品化成为促成这种转换的驱动因素。技术的发展使计算机(pc 机或工作站)网络 成为并行处理的理想工具,从而导致了低价商品化超级计算的出现16。 如今,高性能计算领域的发展趋势之一是利用集群系统来创建、调试、运行并 行计算任务替代专用、并行计算机平台。并行应用的许多工具和命令的标准化是使 集群系统进入现实应用的一个重要因素,这些标准的范例包括消息传递库 mpi17 和数据并行语言 hpf18。标准化使得应用程序可以在 now19 (集群、工作站网络) 上改进、测试甚至运行,只需要进行很少改动就可以被移植到专用的对 cpu 运行 时间进行统计和计费的并行平台上。 随着 cpu 个数的增加,系统性能会得到很大提高,图 1.1 是对各系统的扩展性 比较,随着集群系统的 cpu 个数增加,其性能是线性增长的20。 图 1.1 三种系统的扩展性比较 下面列举了一些集群系统比专用的并行计算机优秀的重要原因。 (1)单个工作站或 p c 机越来越强大。随着技术的发展,工作站或 pc 机的性 能得到了显著的提高,甚至每 18 至 24 个月性能就会提高一倍。 (2)随着新的网络技术和协议在局域网络上使用,工作站间的网络带宽不断 增加 ,网络延迟不断减小。 (3)工作站集群比专用的并行计算机更容易与现有的网络整合起来。 (4)一般说来,用户对个人工作站的使用率是较低的。 华中科技大学硕士学位论文 6 (5)工作站的开发工具比并行计算机的专用解决方法要成熟很多,这主要是 因为许多并行系统并没有做到标准化。 (6)工作站集群比高性能专用计算机平台便宜而且易于获得。 (7)集群可以很容易地扩展;通过增加内存和处理器,可以很容易地增加节点 的数量。 经过以上分析比较,本文选用集群技术来搭建高性能计算系统。 1.3.2 集群系统架构 1.3.2 集群系统架构 典型的集群系统架构有如下几种: (1)beowulf 集群 beowulf 是一种能够将多台计算机用于并行计算的体系结构。通常 beowulf 系 统由通过以太网或其他网络连接的多个计算节点和管理节点构成。管理节点控制整 个集群系统,同时为计算节点提供文件服务和对外的网络连接。它使用的硬件设备 是普通 pc 或服务器、以太网卡和集线器,软件为 linux、pvm 和 mpi21。 (2)cow 集群 cow(cluster of workstation)也是由最常见的硬件设备和软件系统搭建而成。 通常也是由一个控制节点和多个计算节点构成22。cow 和 beowulf 的主要区别如 下。 cow 中的计算节点主要都是闲置的计算资源,如办公室中的桌面工作站。它 们是由普通的 pc 并采用局域网进行连接的。因为在白天这些计算节点是作为工作 站使用,所以主要的集群计算通常发生在晚上和周末等空闲时间。而 beowulf 中的 计算节点是专职于并行计算,并且进行了性能优化。它们的进程间通信采用的是高 速网(myrinet23或 giganet24)上的消息传递(pvm 或 mpi)机制。 因为 cow 中计算节点的主要目的是桌面应用,所以它们都具有显示器、键盘 和鼠标等外设。而 beowulf 的计算节点通常没有这些外设,对这些计算节点的访问 通常是在管理节点上通过网络或串口线实现的。 由于连接 cow 中计算节点的通常是普通的局域网,所以 cow 上的高性能应 用通常是像 setihome 这样的 simd 的高吞吐计算。而 beowulf 无论从硬件、 华中科技大学硕士学位论文 7 网络和软件上都对需要频繁交换数据的 mimd 应用做了特别的优化。 (3)mosix 集群 mosix(multicomputer operating system for unix)的开发目的是替代 smp 超 级计算机,原理是利用给内核增加补丁的办法全面兼容 intel 架构的 32 位处理器, 支持内核级的负载均衡,可以将负载准确迁移到集群成员,系统可以自动或手动的 将负载优化的任务分发到各节点25。这种准确的进程迁移使集群类似一个巨大的 smp 系统,多个节点就像多个处理器,进而提供了一种不同于 nfs26的缓冲连接, 时间标记连接,稳固连接的强大应用高性能计算组合。mosix 是用户端透明的(应 用程序不需要因为集群而修改源代码)linux 集群系统解决方案,mosix 集群主要 有三种规划模式:单一池(single pool) 是将所有可以利用的无盘节点,工作站和服 务器都集中到一起;服务器池(server pool)是将所有服务器矩阵集中到一起;适应池 (adaptive pool)是指集群节点按照时间设置动态的加入计算集群27,28。 综上所述,cow 集群并非专门用于高性能计算,类似 smp 超级计算机的 mosix 集群过于复杂难以进行系统集成,本课题是高性能计算专用集群,且要求 软件易集成和管理,因此选用 beowulf 体系结构来搭建系统。 1.3.3 beowulf 集群系统的组成 1.3.3 beowulf 集群系统的组成 beowulf 集群系统的计算机节点可以是一个单处理器或多处理器的系统29,如 pc30、工作站31或 smp32,它拥有内存、i/o 设备和操作系统。一般是指物理上 分散的两个或多个计算机节点通过局域网络连接在一起的,对于用户和应用程序来 说像一个单一的系统,可以提供一种高性价比,高性能或高可靠性的解决方法33。 以下是 beowulf 集群系统的一些重要组件。 (1)多个高性能计算机(pc 或 smp 服务器) 。 (2)优秀的操作系统。 (3)高性能网络(如千兆以太网或 myrinet)。 (4)集群中间件。 (5)并行编程环境和工具(如编译器、pvm 和 mpi) 。 (6)应用程序。 华中科技大学硕士学位论文 8 网络接口硬件负责在节点间通过网络传送和接收数据包。通信软件提供了快速 而可靠的节点间以及与外界数据通信的手段。集群通常使用网络通信协议在其节点 间进行快速通信。集群各节点可以像集成的计算资源一样共同工作,而集群中间件 负责为独立但互联的计算机对外提供统一的系统映象和易用性34。 编程环境可以为应用程序的开发提供可移植的、有效和易用的工具。编程环境 包括消息传递库36、调试器37和剖视器(profiler)38。 对 beowulf 集群系统组成主要分为硬件和软件两部分,系统的搭建涉及如下几 个方面的工作:硬件选型(主要包括 pc/smp 服务器架构、节点内部硬件,网络) 、 软件选型(主要包括资源管理中间件和并行编程环境) 、系统集成和系统测试。 1.4 主要研究工作 1.4 主要研究工作 根据上文分析,目前生物信息学研究机构普遍采用的高性能计算系统主要存在 以下两方面问题: (1)搭建成本高昂,性价比差,对预算有限的实验室是沉重负担; (2)技术标准不开放,导致软件管理困难,硬件扩展性不佳,后期维护成本 高昂。 本课题的目标是搭建一个适合生物信息学应用的 beowulf 集群系统,同时通过 实践来解决上述问题,为生物信息学科研人员的工作提供指导。为此本文开展了以 下工作。 首先对目前的硬件技术进行分析,在此基础上根据需求对硬件选型,特别针对 目前统一架构集群的不足提出 pc/smp 服务器混合架构的方案。 其次对集群相关的软件选型进行分析,重点是集群资源管理中间件,选型过程 中做了大量实验来测试系统的兼容性。 然后对选型后的硬件和软件进行系统集成,并对系统并行计算环境进行测试。 最后对系统最重要的特性:计算性能和可扩展性进行测试,对结果进行了分析 和总结。 华中科技大学硕士学位论文 9 2 硬件设备选型硬件设备选型 本章主要分析比较集群硬件技术,对硬件设备进行选型。硬件选型的目标是适 合生物信息学数据密集型计算,同时做到性价比高、物尽其用。 依据 beowulf 集群系统的组成,硬件设备包含如下几类: (1)一个管理节点,承担建立生物信息学数据库和高性能计算接入功能; (2)多个计算节点,承担分析计算任务; (3)一个存储节点,包含磁盘阵列硬盘和磁盘阵列机柜; (4)网络交换机,负责内部网连接; (5)其它服务器附件。 根据以上分类, 本章首先对管理节点和计算节点采用 pc 还是 smp 服务器进行 架构选型,然后对节点内部的重要硬件配置选型,最后对存储硬件和网络硬件分别 进行选型。 2.1 节点计算机架构 2.1 节点计算机架构 节点计算机包括管理节点和计算节点,其架构分为 pc 机和 smp 服务器,表 2.1 总结了 smp 服务器硬件相对于 pc 硬件的技术比较。 综合表 2.1 中信息,smp 服务器在 cpu 架构和主频相同的情况下,计算速度 上比 pc 机并不占优势,且成本高了数倍。其优点在于功能、稳定性、并发程序负 载能力远超 pc 机,做数据库服务器和多用户同时接入服务很合适。 如果所有节点统一采用 smp 服务器架构,可以满足性能需求,但计算节点在 相同性能的情况下成本大大增加;如果所有节点统一采用 pc 架构,多线程处理、 数据库服务的可靠性又得不到保障。pc 架构为单机工作而设计,还有一个重要缺 点是传统的塔式设备占用空间大,难于统一管理,扩展性差。 华中科技大学硕士学位论文 10 表 2.1 smp 服务器硬件与 pc 机硬件技术对比 cpu 同 pc 机 cpu。 新一代 core 架构性能远胜 netburst 构架 有多路通信单元, 支持 smp。 但是实际应用不 多 相同。新一代 core 构架功 耗更低 稍高。 xeon5110 定价 209 美元 主板 相同 5000x 芯片组开发较 慢,功耗较高 稍高 高 。 如 超 微 x7dvl-e, 2800 元 内存 稍低 ecc 内存支持纠错, fb 支持全缓冲双列技 术,支持 8g 以上超大 容量 稍高 很高。fb 内存 价格为普通价 格一倍 硬盘 转速高很多;cpu 占 用率低很多 接口有 fc/sas/scsi, 后者应用最广 高 很高, 但节点机 只装系统不需 大容量 磁盘阵列 sannasdas nas, 网络上直接挂接 的存储设备, 相当于一 个网络文件共享服务 器 das, 服务器直接挂 存储设备,最经济 高 san ( storage area network) 太昂贵。nas 较贵。ibm totalstorage ds300 价 37000 网络 myrinet 的延迟小于 11us, 带宽更是达到了 10gb/s。 千兆以太网的 速 度 由 于 使 用 tcp/ip, 延迟仍为90us 高 fc 交换机的价 格非常高 机房机架 机架更方便管理, 占用 空间小 散热要求高, 噪音大 稍高 因此本课题为这两种方案进行了改进, 采用机架式pc和smp服务器混合架构, 即管理节点采用 smp 服务器架构,计算节点采用 pc 架构且采用机架式机箱,以达 到性能、成本和扩展性的平衡。 2.2 节点计算机配置 2.2 节点计算机配置 决定一台节点计算机性能的最重要的组成部分是处理器,内存和硬盘,下面分 别对这三种设备进行分析选型。选型的标准主要是性价比,其次是可靠性。 华中科技大学硕士学位论文 11 (1)处理器 处理器对一台节点计算机的速度影响最大,是其最重要的组成部分,决定其性 能是频率和核心架构,不同架构的核心其效率相差巨大。例如 intel 最新的 conroe 核心在同频率时性能相当于上一代 prescott 核心的两倍。而且旧的 prescott 核心的 处理器功耗达 110w 以上,以发热量巨大而著称,这给系统的稳定性埋下了很大的 隐患,而新的 conroe 架构处理器,功耗只有 65w 左右。 从成本方面讲,conroe 的价格也比同性能的 prescott 低。综合性能、可靠性、 成本三方面分析,本系统的所有节点全面选用 conroe 架构的处理器,其中管理节 点选用支持 smp 的 xeon 处理器,计算节点选用 pc 架构的 core2duo 处理器。 (2)内存 内存的大小对节点计算机的是仅次于处理器。对于管理节点来讲,内存容量越 大,支持的并发线程数就越多,根据 32 位操作系统可有效管理的最大内存数值, 本系统为管理节点选择 4gb 内存。 由于生物信息学计算大多是数据密集型,根据实验室研究人员的经验,计算时 占用的内存一般不会超过 2gb,本系统选择 2gb 内存给计算节点。 (3)硬盘 硬盘设备的选型主要有两方面:接口和容量。 pc 机硬盘一般采用 sata 接口;传统的服务器硬盘采用 scsi 接口,具有高转 速,高传输率,高稳定性,低寻道时间和低 cpu 占用的优势。但其成本劣势也非 常明显,目前同容量的 scsi 硬盘价格为 pc 机常用的 sata 硬盘的 5 倍以上。 目前企业级 sata 硬盘技术已经非常成熟,可靠性可以达到集群 724 小时工 作要求,性价比高,因此本系统全部选用 sata 接口企业级硬盘。管理节点硬盘使 用性价比最高的 320g 硬盘做 raid-1 冗余,增加可靠性。计算节点由于只需要装 操作系统,不做数据存储,因此采用廉价的 160g 硬盘即可满足要求。 华中科技大学硕士学位论文 12 2.3 存储设备 2.3 存储设备 存储节点主机设备的选型,主要是对其与集群系统的连接接口进行选型。根据 生物信息学计算的特点,从以下几个方面考虑。 (1)成本控制。专业的存储节点主机虽然可靠性高,但动辄要几十万元,各 种接口的价格相差悬殊。因此性能价格比是本系统必须优先考虑的要素。 (2)接口速度快。由于生物信息学计算大多是数据密集型的,各节点在计算 时要与存储节点交换大量的数据,为使得系统不至于出现传输瓶颈,接口速度必须 尽可能快。 (3)可靠性高;通过廉价阵列卡的配合企业级硬盘,做 raid-5 冗余,可以达 到较高的可靠性。 (4)可扩展性好。主要是指存储设备的主机可以容纳的硬盘数尽可能多。生 物信息数据量是呈爆炸性增长的,可扩展性是衡量集群性能的一个重要指标。 下面对几种存储技术进行分析比较。 (1)硬盘直接安装在管理节点内。成本最低。但由于存储节点需要多块硬盘, 如果都部署在管理节点上,那么大大加重了管理节点的负荷,扩展性差,使管理节 点散热变差。所以单独的存储节点机是必须的。 (2)das 方案:das 即 das 即直连方式存储,英文全称是 direct attached storage。中文翻译成“直接附加存储”39。顾名思义,在这种方式中,存储设备是通 过电缆(通常是 scsi 接口电缆)直接到服务器的。 这种方案解决了散热和扩展性的问 题,所有计算节点访问存储节点都必须通过管理节点,管理节点的负荷还是很高。 (3)nas:network attached storage,网络上直接挂接的存储设备,相当于一 个网络文件共享服务器,性价比较高40。 (4)ip san:应用 iscsi 技术的 san(storage area network)网络,传输介 质为 ip 网41。缺点是价格比较昂贵。 (5)fc san:应用光纤技术的 san 网络,传输介质为光纤,性能最高,目 前使用最广42。价格也最昂贵。 华中科技大学硕士学位论文 13 通过以上分析比较,nas 系统的可扩展性、接口性能比 das 和直接安装方式 高,而成本相对 san 较低。嵌入式芯片的 nas 主机价格至少在 30000 元人民币, 性价比依然不高。nas 的核心技术在于阵列卡,因此在经费有限的情况下完全可以 自己购买阵列卡搭建。本系统搭建一台带阵列卡的计算机来做 nas,比品牌 nas 主机的成本减少了一半,除了功耗比嵌入式 nas 高,功能、性能上均无大的差别。 本系统为 nas 配置了 5 块 320g 硬盘,搭建 raid5 磁盘阵列以提高可靠性和 速度,有效容量上达到 1.2tb,可以满足实验室科研至少 1tb 的存储需求。 2.4 网络设备 2.4.1 网络拓扑结构 2.4 网络设备 2.4.1 网络拓扑结构 在高端的高性能计算集群中典型的拓扑结构是建立两个内部网:一个指令网络 和一个数据网络。在做并行计算的时候,指令和数据是分开传送的,这样保证了系 统内部带宽不受影响,是堪称完美的方案43。 但是出于成本考虑, 建立双内部网, 需要更高端的主机板和更多的高端交换机, 多出来的成本对于系统整体的提升不大,而且增加了用户的配置管理难度。因此对 于本系统采用如图 2.1 所示的单内部网,性能已经可以接受。 图 2.1 集群内部网拓扑图 2.4.2 网络性能分析 2.4.2 网络性能分析 木桶原理指出:运算速度不是由其最快部分,而是由其最慢部分(瓶颈)决定, 华中科技大学硕士学位论文 14 因而分析一个应用问题性能的关键是找出最耗时部分,加以并行化和优化,才可能 达到较好的效果。不仅要从计算角度去分析,也要从提供数据的速度分析,这包括 存储访问、通信、磁盘 i/0 等等。即整体分析各级设备和计算量的关系,找出广义 瓶颈点,加以优化。 根据木桶原理,系统的性能由最低的那一部分决定。相对于其他硬件,网络的 速度最低,延迟最大,是整个系统的最大瓶颈。最先进的光纤通道方案速度可以达 到 1020gbps,但价格的数量级在几十万元性价比很低,所以考虑使用几千元就可 以搭建的千兆以太网方案,其实际传输速度在 700mbps 左右,性能在可以接受的范 围内。 2.4.3 网络可靠性与网络接口选型 2.4.3 网络可靠性与网络接口选型 对于有高可靠性要求的节点(如管理节点和存储节点) ,可以用双网卡绑定技 术实现。 通过软件将双网卡绑定为一个 ip 地址, 许多高档服务器网卡 (例如 intel255x 系列、3com 服务器网卡等)都具有多网卡绑定功能,可以通过软硬件设置将两块 或者多块网卡绑定在同一个 ip 地址上,使用起来就好像在使用一块网卡,多网卡 绑定的优点有很多。首先,可以增大带宽,假如一个网卡的带宽是 100m,理论上 两块网卡就是 200m,三块就是 300m,当然实际上的效果是不会是这样简单的增加 的,不过经实际测试使用多个网卡对于增加带宽,保持带宽的稳定性肯定是有益处 的,如果交换机等相关条件不错的话,这个效果还是很能令人满意;其次,可以形 成网卡冗余阵列、分担负载,双网卡被绑定成一块网卡之后,同步一起工作,对 服务器的访问流量被均衡分担到两块网卡上,这样每块网卡的负载压力就小多了, 抗并发访问的能力提高,保证了服务器访问的稳定和畅快,当其中一块发生故障的 时候,另一块立刻接管全部负载,过程是无缝的,服务不会中断,直到维修人员到 来。 2.5 本章小结 2.5 本章小结 本章结合生物信息学应用和集群硬件技术的分析比较,对硬件设备进行了选 华中科技大学硕士学位论文 15 型。 设备全部采用开放标准,成本低,且遇到故障后替换响应时间短,便于管理维 护;系统采用 pc 与 smp 服务器混合架构方案,同时能够满足高性能计算和数据库 建设的需求,做到了性价比高,物尽其用;采用机架式 pc 机,便于管理维护和以 后根据需要扩展节点获取更高的计算性能;存储节点设备和网络设备在保证性能和 一定可靠性的前提下, 有效控制了成本; 存储节点容量达到 1.2tb 满足了 1tb 的目 标。 综上所述,系统所选设备性能价格比高,便于管理,扩展性好,达到了目标要 求。 华中科技大学硕士学位论文 16 3 软件选型软件选型 本章介绍集群系统软件的选型。 软件选型建立在硬件基础上,又要和 pc/smp 服务器混合架构相互配合,因此 首先要保证软硬件的兼容性,才能使整个系统正常运转。 其次考虑软件是否便于集成和管理。成品商业系统自带的软件是不开放标准 的,使用者少,不利于维护;而开源软件技术文档丰富,出现问题便于解决,因此 本系统从开源软件中进行选型。 最后考虑成本。商业软件中有很多优秀的产品,但大多价格昂贵。经系统集成 前的实验本系统所需要的功能中都可以由开源软件实现,因此本系统计划全部采用 开源软件,在软件方面做到零成本。 集群软件系统的分层如图 3.1 所示。其中集群资源管理中间件把整个系统的资 源联系起来,是最重要的部分,它一般集成了应用层的 pbs、mpi 等并行计算软件 环境。除了并行计算软件,必要的应用层软件主要包括网络文件系统 nfs,ftp 软 件,远程桌面软件,图形界面管理软件等。因此本章对软件的选型从以下三个方面 介绍:集群资源管理中间件、操作系统、应用层软件。 图 3.1 集群软件系统的分层 用户层(生物信息学程序) 应用层(mpi 等计算软件) 资源管理中间件 操作系统 华中科技大学硕士学位论文 17 3.1 集群资源管理中间件 3.1 集群资源管理中间件 集群也可以说是由多台计算机组成的超级计算机。但是从最终用户看来,集群 系统是一台计算机,也就是说,集群系统的构成对用户是透明的。所以集群系统的 管理的目的就是让集群系统象一台计算机一样利于管理。 如果一群互联的计算机被设计成看起来好象统一的资源,我们就认为它实现了 单一系统映象(ssi) 。ssi 是通过中间件实现的,处于操作系统和用户层环境中间。 在集群资源管理中间件出现之前,要把一群机器的实现为 ssi,一般采用 nfs+nis 进行配置。nfs 使磁盘空间可以被多个节点共享,为多个 cpu 对同一程 序实施并行计算打下基础;nis(网络信息管理)是 sun 公司开发的一个简单的客 户机/服务器数据库系统,使所有节点的用户信息统一,相互访问不受限制。 配置了 nfs+nis 只是完成了最基础的部分,其他应用软件如 tcl、mpi 环境等 都需要自己下载安装,这涉及到大量的包依赖问题,移植兼容问题,使得集群的构 建非常的复杂和难于维护。 另一方面, 安装一个高性能计算集群需要多个节点协同安装和配置,这对于计算 节点数量较多的集群系统常常是很困难的过程。 集群资源管理中间件改变了这种状况,中间件把这些需要自己配置的服务都整 合起来了,很大程度上缓解了移植兼容带来的麻烦,减少了人们的重复劳动。本系 统软件的搭建就从选择资源管理中间件开始。流行的资源管理中间件有如下几种。 (1)scyld beowulf 是商业软件,对内核做了修改,对 mpi 也做了修改,以提 高性能。 (2)csm 是 ibm 公司开发的,专门用于集群系统管理的中间件,能够通过单 点控制来管理基于 intel 的 linux 系统集群。 (3)sce 用在无盘机群上非常合适,但是占用内存比较严重,可能一个节点 要 273m。以后或许 sce 会做改进。sce 的管理软件可视化效果最好(vrml)。 (5)rocks 是同 oscar 齐名的中间件,它把 os 按 roll 的格式集成到整张安 装碟,安装的时候要先做 rolls,这点较麻烦。安装过程是先装 rocks 再装 os。 华中科技大学硕士学位论文 18 安装的时候要求所有节点配置统一,对本文所述的混合架构的集群兼容不好。 (5)oscar 的安装是先装 os 再用 gui 装软件,这种方式更方便用户通过一 步步配置控制整个系统,灵活性更高。另外相对 oscar 它支持的硬件更多,兼容 性更好。 oscar 可以实现以下功能。使用 pxe(portable execution environment)在计 算节点上自动安装 linux。 配置 dhcp 和 tftp (对于使用 pxe 安装的 linux 系统) 。 大部分新计算机都有一个允许使用 dhcp 服务器来引导机器的 bios。 bios 有一个 内建的 dhcp 客户机,它创建一个操作系统映像,并使用 tftp 将其从 dhcp 服务 器传输到要引导的机器上。这个 linux 映像是由 oscar 创建的,dhcp 和 tftp 的安装和配置都可以由 oscar 来处理。配置 ssh。自动设置 nfs。安装并配置 mpi (mpich 和 lam/mpi) 。 安装并配置 pvm (如果希望使用 pvm, 而不是 mpi) 。 配置头节点和计算节点之间的子网。安装调度器(open pbs 和 maui) ,用于多个用 户将作业提交到集群上的自动管理。安装 ganglia,用于性能监视。自动配置,用 于添加或删除节点。 综上分析比较,oscar 功能可以满足本课题需要,根据在正式架设系统前的 实验证明 oscar 对底层硬件和操作系统的兼容性也很好, 因此本课题选用 oscar 做集群系统资源管理中间件。 3.2 操作系统 3.2 操作系统 目前主流的集群操作系统有 windows 和 linux 两个家族,windows server os 在 cluster 方面有很大进步,但它是付费系统,而且还有单用户、易被病毒入侵等多 种缺点,所以不予选择。本节主要讨论 linux 发行版的选择,一个好的发行版可以 让工作事半功倍。 redhat 公司的产品目前用户最多,文档资料也最多,产品线最全。其个人版 fedora core 系列集成了最多的新功能,但是它的 bug 也最多,是用来娱乐或者练手 学习不错, 用来做工程就不够好。 它的新功能不够稳定, 也没有为网络服务做优化, 华中科技大学硕士学位论文 19 会出现各种问题。程序在 fc 系列中的可移植性差,细节问题太多。 rhel(redhat enterprise linux)系列是 redhat 公司的付费企业版,是最稳定 的版本。 rhel的更新周期长达5年, rhel 3到2008.10终止更新, rhel 4到2010.02 终止更新, rhel5要到2007, 2008左右才能发布。 目前新版本oscar不支持rhel3 了,可用的只有 rhel4。 但是在系统集成前的实验中,磁盘阵列卡驱动无法兼容这款 redhat 公司的旗 舰产品。 centos 是 redhat 公司的免费企业版 linux,通过反复实验论证它可以完美兼 容本系统的所有硬件,因此选择它来作为本集群系统的 os。 3.3 应用层软件 3.3.1 nfs 方案 3.3 应用层软件 3.3.1 nfs 方案 oscar 默认已将管理节点的/home 磁盘空间挂载到各个计算节点的/home 下, 它的设计思想是计算节点对用户透明,因此计算节点的磁盘就只是存放一个统一镜 像的裸系统,不存放任何用户数据和应用程序。这些磁盘不挂载到管理节点上,通 过外部网不能直接访问。 在进行并行计算的时候,如果所有程序从管理机的/home 中读取数据会大大加 重管理机的负担。解决方法是并行程序和数据放到存储节点的 raid5 磁盘阵列里 面,挂载给所有计算节点共享,这样占用的是 nas 的磁盘和网络带宽,减少了管 理节点的负荷,速度和可靠性也高得多。 以上解决方案大大降低了用户的学习难度,但也有缺点,一方面是所有计算节 点争用 nas 会造成性能的下降;另一方面是浪费了计算节点的大量的磁盘空间。 但如果程序都要预部署到 8 个计算节点的硬盘上,各节点 cpu 都对本机磁盘 操作虽然理论上可以提高并行计算的速度,对用户来讲操作更加麻烦。权衡利弊, 还是采用 oscar 默认的 nfs 方案更有利。 如果在 nas 空间不够用的情况下,想要充分利用计算节点的硬盘做些工作, 华中科技大学硕士学位论文 20 挂载它们到管理节点也是件很容易的事。 3.3.2 其他重要应用软件 3.3.2 其他重要应用软件 (1)远程桌面服务 远程桌面的软件有很多,本系统选用 xmanager。它是一个简单易用的高性能 的运行在 window
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025合同设备修理合同范本
- 2025年私人租房协议
- 2025年屋顶防水修缮合同协议
- 2025租赁担保合同范本
- 2025年商标许可使用协议合同范本
- 2025年卫浴洁具建材采购合同市场更新版
- 2025房地产开发合同的范本
- 2025餐厅技术服务合同范本
- 2025年网站域名注册服务合同范本
- 2025年初级电工证考试题及答案
- 【申报书】高职院校高水平专业群建设项目申报书
- 多式联运国际物流项目可行性研究报告
- 《互联网应用新特征》课件+2024--2025学年人教版(2024)初中信息科技七年级全一册
- 蓄水模块专项监理实施细则
- 创业小白实操手册 第2版 课件 6 做原型小验证-课件标准版
- 康复班-高频电疗法课件
- 劳动教育通论1-11章完整版课件
- DL∕T 2559-2022 灯泡贯流式水轮机状态检修评估技术导则
- 《炼油与化工装置机泵 在线监测系统技术规范》
- 租赁车位安装充电桩协议
- JT-T 722-2023 公路桥梁钢结构防腐涂装技术条件
评论
0/150
提交评论