版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、高性能计算机集群平台方案建议书目 录一、项目技术方案91.硬件技术方案91)概述92)需求分析10a)计算能力需求11b)存储能力需求11c)节点互联需求11d)优化工具11e)技术最新、运行稳定性方面的需求12f)管理简单、维护方便方面的需求123)系统设计原则124)系统方案拓扑图155)方案详细说明15a)管理节点15b)gpu计算节点16c)存储系统16d)管理网络16e)计算网络162.软件技术方案171)需求分析172)软件概述183)系统架构194)产品功能21a)系统部署21b)chess web portal21c)用户管理22d)权限设定22e)chess集群管理22f)c
2、hess作业调度23g)chess集群监控28h)chess集群报表30i)chess定制化功能32j)chess备份还原系统32k)按需开关机32l)计算资源登录控制33m)无盘集群335)方案特点与优势33二、设备及产品介绍363.设备主要技术指标和性能的详细说明361)集群操作系统362)集群管理软件363)并行环境384.技术规格与参数说明395.配置明细表426.所投设备重要性能说明451)存储读写速度457.集群管理软件稳定性比较468.hpl基准测试报告47一、测试过程48二、测试结论491.hpl.out492.测试结论52三、技术服务方案与项目实施方案539.投标人对任务的理
3、解5310.本项目实施团队主要人员简历表5711.人员分工6312.设备供货、验收、安装、调试计划及保证措施641)硬件设备安装65a)供货机房要求65b)机房场地要求65c)设备摆放要求67d)设备搬运要求69e)安全预防措施69f)噪声考虑70g)机房环境规划70h)设备供电要求73i)机房辅助设备要求752)安装和调试75a)项目初步实施计划及时间安排75b)产品的交付783)产品验收78a)设备的开箱和检验78b)设备到货与初验78c)设备初始测试79d)硬件设备的验收步骤80e)软件产品和验收814)项目实施安装前准备81a)安装场所的准备阶段81b)设备安装及配置方案制定825)产
4、品安装82a)现场的硬件安装服务826)现场的硬件调试837)配合其他厂商、应用软件厂商安装调试838)软件部署规划与实施方案83a)实施计划83b)实施准备83c)硬件系统84d)软件系统:85e)维护869)软件产品实施87a)存储系统87b)集群管理与作业调度软件87c)并行库软件90d)应用软件集成90e)系统备份90f)安装后验证9010)软件产品调试91a)hpl 调试91b)iozone调试92c)支撑环境调试9311)软件验收方案93a)项目基本情况93b)项目进度审核94c)项目验收计划94d)项目验收原则94e)项目验收内容94f)项目验收情况汇总96g)项目验收附件明细9
5、6h)开发单位项目实施总结101i)使用单位意见10213.测试方案1021)系统测试目标1022)hp集群测试计划103a)连通性测试103b)nis功能测试103c)ntp时间服务测试104d)cpu稳定性测试104e)cpu浮点运算测试1043)网络性能测试105a)网络性能测试105b)8.4.2 网络延迟测试10514.实施质量控制和管理措施1081)重点提示1082)项目管理工具1083)项目组织结构及岗位责任1124)总指挥部职能、责任简介1125)工程部职能、职责简介1126)合同执行部职能、职责简介1147)阶段成果的交付及确认1148)项目变更管理1159)沟通管理116a
6、)项目中的沟通116b)会议116c)情况通报会议116d)解决问题会议116e)合理化建议阶段评审会议117f)报告117g)客户评价管理11910)质量保证程序119a)重点提示119b)质量管理规范与标准120c)项目质量保证策划120d)质量度量120e)质量考核121f)过程监控与阶段评审121g)系统测试与验收121h)配置管理122i)文档管理123j)独立的项目审计12311)货物安装、验收标准123a)到货验收123b)初步验收:124c)最终验收12415.技术支持及培训方案1291)北京科技股份有限公司培训方案1292)紫光华山硬件培训方案130a)现场培训130b)集中
7、培训131c)hp cmu及proliant系列服务器培训课程1313)联科软件培训方案131a)培训目的131b)现场培训132c)培训内容1324)培训质量保证134a)培训策略134b)培训过程管理13516.售后服务方案1378.1 本项目售后服务承诺1378.2 公司售后服务内容1378.3 售后服务体系147a)服务体系说明148b)分支机构和服务组织结构149c)标准服务流程150d)巡检及健康检查流程150e)故障处理流程153f)技术支持流程156g)现场服务流程162h)重大故障处理流程163i)备品备件流程166j)故障事件总结, 统计分析 报告流程169k)设备,软件,
8、 微码以及相关补丁, 升级流程171一、 项目技术方案1. 硬件技术方案1) 概述高性能计算技术是网格计算技术的一种应用特例。网格计算是伴随着互联网技术而迅速发展起来的,专门针对复杂科学计算的新型计算模式。这种计算模式利用网络把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”,其中每一台参与计算的计算机就是一个“节点”,整个计算是由成千上万个“节点”组成的“一张网格”, 所以这种计算方式叫网格计算。这样组织起来的“虚拟的超级计算机”有两个优势,一个是数据处理能力超强;另一个是能充分利用网上的闲置处理资源且具极强的扩展性。网格是把整个网络整合成一台巨大的超级计算机,实现计算资源、存储资源、
9、数据资源、信息资源、知识资源、专家资源的全面共享。高性能计算是网格计算领域的一个十分有意义的局域网应用实例,基于以太网、sci或infiniband及myrinet等互联技术,在局域网内实现并行多任务应用的计算。在优化的通讯库mpi技术已经成熟应用的今天,可以在基于以太网的高性能计算系统中,计算数据的传输带宽最小保证1000m bps, 传输延迟小于5s(微秒),可以在基于infiniband互联技术的高性能计算系统中,计算数据的传输带宽可以保证56gb/s。高性能计算涉及为集群开发并行编程应用程序,以解决复杂的科学计算问题。是并行计算的基础,它采用通过高速连接来链接的一组1/2/4/8 cp
10、u的ia服务器,并且在公共消息传递层上进行通信以运行并行应用程序。这样的计算集群,其处理能力与真正超级并行机相等,并且具有优良的性价比。高性能计算主要可分为科学计算、高端商用计算和高可用集群三类随着国内外尖端理论技术的快速发展,对数据处理技术也提出了新要求,需要采用许多新的花费更多cpu的模块,如vasp、molpro、adf等。目前,国内数据处理生产使用的系统一般包括有unix小型机、pc cluster集群并行机、unix工作站集群和linux pc图形工作站群等多种平台,其中由于价格和性能等因素使pc cluster服务器被越来越多的用户所采用。基于ia架构的pc 集群服务器是伴随着计算
11、机芯片技术、网络技术、集成技术和linux的发展而出现的新产品。随着cpu性能的提高,利用网络技术和集成技术,将多台同构或异构的计算机连接起来协同完成特定的任务,构成基于linux操作系统平台的pc集群高性能服务器。这种高性能服务器比基于unix超级并行计算机性能价格比更为优越以及在可用性、可扩展性和可管理性等方面的具有优势。产品已经在基于计算节点型及网络计算型的科学计算领域有所应用。2) 需求分析作为高性能运算应用的主要领域理论科学研究,数据处理系统是一个要求计算机系统运算性能、运行稳定性极高的计算环境。这种科研计算环境随着理论计算工具不断更新,计算能力、计算深度的不断提升以及信息技术的不断
12、从实验室走向生活、生产,迫使各大科研构须不断采用性能优异、技术先进、价格便宜的高性能计算机处理系统组建试验平台。根据目前高性能计算环境性能和价格方面的要求,针对科研院所应用的特点从技术上主要进行了如下诠释:(1)使用运算性能极高的集群计算机系统(pc cluster)来提升处理中心的计算能力,配备单节点高性能处理器及大容量内存,组建节点计算型hpc系统。满足各种节点运算量极大的特殊处理算法需求的同时,极大地降低总体拥有成本。由此采用大规模计算机处理系统进行特殊运算的需求已经转变成采用性能高、价格便宜的计算机集群系统来实现。(2)基于节点运算型的hpc系统,其节点承载的数据量非常小,生产周转数据
13、及产生的数据量完全保存在其内存中,从而加快节点处理能力,所以单节点的数据存储要求非常小。(3)国内外专用的基于高性能运算的处理软件基本上都有了pc cluster的版本并且趋于非常成熟。a) 计算能力需求公司构建的高性能计算机系统主要应用于有限元分析,利用abaqus有限元分析软件进行大规模的计算求解,根据用户测试客户应用abaqus在gpu环境下求解具有较高的计算能力,可获得大规模的计算性能的提升,本次项目中采用gpu计算服务器构建整个机器的计算能力。b) 存储能力需求随着计算机科学技术的快速发展,高性能计算已经逐渐成为科学研究所必须的辅助工程。这些高性能计算应用中,计算机集群面临的挑战往往
14、不仅是集群大规模并行计算的运算能力,对于存储的需求同样不可忽视。在高性能计算应用中,经常需要短时读写大批量的数据,这对存储系统的性能,尤其是大规模并行作业同时存取大量数据时的i/o性能,会提出很高要求。公司技术中心的高性能计算集群系统客户的应用需要的频繁的存储读写,对存储能力提出较高的要求。c) 节点互联需求高性能计算平台中包括管理网络与计算网络,管理网络带宽较小,对网络损耗并不大,通常可选用千兆网络,计算网络需具备高带宽与低延迟的网络,保证计算效率。d) 优化工具英特尔提供的fortran和c+编译器针对英特尔至强处理器和英特尔安腾处理器进行了专门优化。英特尔编译器支持最新的体系结构增强特性
15、,如sse3、超线程和英特尔酷睿微体系结构等。此外,编译器还具有先进的优化特性:外形优化、程序间优化和整体程序优化。英特尔编译器在hpc领域有重要作用,在许多项目的测试实施中,我们发现如果用英特尔编译器来编译hpc mpi和应用软件,与用gnu等编译器相比,性能有一定幅度的提升。英特尔vtune性能分析器有助于提高用户的工作效率。它可识别热点并提出代码改进意见,从而有助于提高代码性能和缩短代码实施时间。e) 技术最新、运行稳定性方面的需求hpc计算机系统是一个要求采用最新技术解决专业应用复杂的科研系统,由于其本身应用的特点要求整套计算机系统运行必须稳定、技术必须成熟。这种运行稳定性包括计算机系
16、统与专业软件系统之间的配合的稳定性、计算机系统本身的技术成熟性等诸多内容。f) 管理简单、维护方便方面的需求计算机集群系统是一个由多个节点组成、采用多种并行计算技术构成的复杂的计算机系统,这种集群计算机系统要想实现稳定、高性能的处理作业,不仅要解决各节点之间的通讯和延迟,而且还必不可少地有高效、界面丰富、维护容易的管理和诊断软件。各个厂家生产的pc cluster系统对系统管理与监控是不一致的。简单利用一些pc机进行互连,没有精确的连接工艺是很难保证系统稳定运行的。3) 系统设计原则鉴于用户所承担的重要任务,本方案建设不但要有高性能、高稳定性、高可靠性、可扩展性的特点,同时技术起点要高,建成后
17、系统应在尽量长的时间内具有可用性。根据项目实际需求,在系统设计原则及选型配置时应以满足当前的应用需求为基础,并具有良好的扩充能力,从实际应用和目前服务器技术发展趋势来看,方案设计中应始终坚持以下原则:u 集成性最新技术的服务器集群系统,由6台服务器节点组成,在管理、节点的安装、监控任务方面存在相当大的要求,集群系统的设计如果能够提供一个整体的解决方案,使得集群系统的管理像单个服务器那样,是本方案设计的一个宗旨。u 高性能在高性能计算领域,使用者绝大部分应用程序是运行在64位处理器以上,所以我们真正关心的服务器在多个处理器下的并行运行性能,也就是服务器的加速能力。u 先进性计算机技术的发展一日千
18、里,新技术层出不穷,自然会有旧的技术和产品被淘汰。因此在制定方案时应充分考虑其先进性,使整个系统不仅满足用户目前业务的需要,还能适应未来技术发展的趋势和需要,。u 扩展性目前的系统配置方案不仅能提供单节点较高的运算能力及整体效率,还应考虑到将来可根据业务需求和技术发展特点方便地增加节点。例如,所有设备通过特殊互连设备或高速/超高速网络进行连接,可由几个节点迅速而方便地扩充至几十个或上千个节点的超级计算机系统。u 灵活性与成本低投入目前的系统配置方案科学客观的根据当前对需求节点的数量和规模,制定合理的符合科学计算要求的互联网络方式,而非刻意的通过付出大量成本来追高,追强。目前配置中的集群计算网络
19、和节点配置具有较大的灵活性,系统节点可支持机架式服务器或,支持多种互连方式,在单机性能和节点数量上都可灵活扩展,能够适应业务和技术发展需要。如:在当前配置下,通过千兆互联技术连接,将来可根据业务增长和技术发展,因此系统建设的入门成本较低。u 开放性和工业标准系统方案应采用开放标准,开放结构,开放系统组件和开放用户接口。标准化的支持和遵循对用户的投资保护,业务扩展,系统维护等方面具有十分重要的意义,不能因为某项技术或产品的变化,而使用户的应用系统不能正常运行或重新开发。高性能计算牵涉用户端的开发和编程,这就要求集群硬件体系应该采用工业标准的开放型架构,而非某个厂商私有的体系结构,私有的硬件体系结
20、构会导致二进制代码不兼容以及软件代码移植成本上扬。u 可靠性整体系统应确保稳定,正常,连续地运营,7*24小时永不停顿的运行是支撑整个用户业务系统的关键保证,这就对系统主机,网络设备,存储设备甚至集群提出了很高的要求。u 丰富的系统与应用软件支持hp公司与高性能计算方面的独立软件开发商紧密合作。例如:chess,red hat,msc,kai,etnus,pallas,platform, 不仅提供处理节点间的协调和通信的中间件,使整个系统节点能够真正实现合作负载均衡,还能针对不同应用需求,提供一系列并行计算应用。惠普在对重要的客户需要进行了广泛深入的调查后,认识到市场需要按需计算、快速的硬件和
21、软件部署,可扩展的管理,以及空间和功率效率。此次市场调查后,惠普开发了全面的工业标准服务器系列,这些服务器具有共同的接口,适用于需要从前端服务器到更高性能的中层和后端服务器的所有设备的多层次计算环境。这些解决方案是适应型基础设施架构不可分割的组成部分,这是惠普提高客户应对市场变化,节省资源和降低运营成本,提高客户满意度的能力的蓝图。这些解决方案的目标市场包括大企业客户和服务提供商,他们需要it 组织提供高级别的灵活性和效率,以获得更好的总体it投资回报。惠普的策略是提供客户可以迅速与现有的传统服务器和存储设备一起部署在标准机架中的模块化服务器,同时支持按需计算所要求的资源的快速重新分配。根据用
22、户的需求,在本次方案中,我们采用惠普机架式服务器做为计算节点。整个系统提供广泛的工业标准解决方案,可有效地满足客户需要,面向特定的客户要求。惠普设计这些新的机架式服务器,即现在的服务器的策略要素包括下列目标: n创建新的模块化服务器架构,采用无需工具的机械设计,热插拔组件,增加系统冗余、功率和空间效率,集成虚拟存在和控制功能。 n基于创新的工业标准技术构建。 n设计一种架构,该架构通过支持下一代机架式服务器,不仅能够保护客户在现有基础架构和硬件上的it 投资,而且还能保护他们在新的机架式服务器架构上的投资。 n虚拟存在:安全、随时随地地远程访问和管理数据中心或网络及其它任何地方的设备。 n通过
23、模块化和简化的备件存货提高可维护性。 n创建共同的管理接口,提供随时随地的管理访问。 n支持当前版本的主流操作系统:microsoft windows、redhat linux和suse linux。4) 系统方案拓扑图5) 方案详细说明a) 管理节点管理节点是整套集群系统的大脑,肩负着对整套集群系统管理的工作,并为用户提供登陆系统的服务。通过在管理节点上部署集群监控软件、作业调度软件,才能为用户提供统一的用于监控管理、作业调度的人机交互界面,方便用户对集群系统的维护和使用。因此管理节点的安全与稳定对于系统正常运行起着至关重要的作用。选择hp hpe 3par 两节点高密服务器作为管理节点并配
24、置每个计算节点配置2颗intel xeon e5-2690v4处理器2.6ghz,每节点14个cpu内核。hp hpe 3par服务器作为系统的登录与管理节点,用于作业递交和系统管理。计算网络和磁盘i/o通过infiniband 56gb网络互联保证工作效率。b) gpu计算节点作为整套集群的主体结构,计算节点是整套系统的基础,其性能直接决定了整套系统的整体性能。为此,我们这次采用基于全新的 22nm 的 intel e5-2600 v4 处理器。其凭着架构上的进步,在相同的芯片大小下能容纳更多的运算核心, 使得 cpu 具有10个或14个运算核心;并且支持了 avx 2.0指令集, 每个时钟
25、周期的浮点运算次数有原来的8次提升为16次,从而使其浮点运算性能翻倍提升;同时功耗表现亦得到改善。本方案中选用hp dl380g9服务器作为高性能计算系统的gpu计算节点。每个计算节点配置2颗intel xeon e5-2690v4处理器2.6ghz,每节点14个cpu内核。配置gpu k80加速卡,5台计算节点组成的高性能计算系统就可以满足用户的相应技术要求。c) 存储系统本方案中的存储系统采用hp hpe 3par 高性能计算专用存储阵列,以确保高性能计算集群的数据能快速地读写,也确保整个平台数据的安全性。存储包含6块1.92tb的ssd高速闪存硬盘以及14块4t近线sas硬盘。将热数据分
26、离存放,大大提高了文件的读写性能,同时保证系统的可用性。d) 管理网络为所有节点之间的管理和访问信息,以及任务分发等功能,可提供千兆以太网链路即可满足用户管理需求,承载运行集群的管理、调度的网络通讯信号。e) 计算网络计算网络肩负着节点机之间相互通信的任务。对于大规模的计算任务,若要大幅度提高计算速度,并行计算是唯一的解决方法,而随着 cpu 技术和内存技术的不断发展,单节点的计算能力不断增强,而在并行计算过程中,节点间的通信越来越频繁,数据量也越来越大,因此,为了能最大限度地发挥各个节点间的最大性能,网络的带宽和延迟都要求很高。infiniband 高速专用网络的主要特点是高带宽、低时延、系
27、统扩展性好(可轻松实现完全无拥塞的数万端设备的互联)。另外 infiniband 标准支持 rdma(remote direct memory access),使得在使用 infiniband构筑服务器、存储器网络时比万兆以太网以及 fibre channel 具有更高的性能、效率和灵活性。每台计算节点、登录节点之间采用主流的infiniband连接,保证系统的通信性能和节点的计算性能相匹配。2. 软件技术方案1) 需求分析高性能计算集群环境中节点众多,应用环境复杂,使用人数较多,需要一套专业、简易的集群管理软件对集群进行系统的管理、配置、维护,方便用户提交作业。联科chess是一套成熟高性能
28、计算集群管理软件,统一部署集群系统,数百节点在几小时内便可完成对集群管理软件、应用程序的部署,系统管理员与用户可通过web界面对集群进行管理与使用。chess集群管理软件主要包括集群管理、集群监控、作业调度管理、作业提交、集群报表等功能模块,系统管理员可根据用户使用情况为每个用户分配功能模块,灵活使用,严格控制用户权限,具有管理权限的用户,可对单一节点或者批量执行节点的开机、关机、删除、允许提交作业、拒绝提交作业的操作,从web界面上设置共享文件,配置镜像管理对节点进行数据的备份与恢复,确保集群的安全。高性能计算集群环境当中由于节点较多,系统管理员需要对节点的使用情况,节点状态进行监控,che
29、ss集群管理软件的监控子系统,可直观的显示集群物理拓扑视图,支持以机柜为基础的集群物理拓扑方式,显示节点的闲忙状态和节点温度。节点性能视图中用户可通过图形方式,监控当前节点各部件的状态,包括cpu平均使用率、内存使用率、磁盘剩余量等,从网络视图中用户可以一目了然的查看集群整体网络运行情况,包括总体网络吞吐率、单节点网络吞吐率等,支持以太网和infiniband网络,另外可设置报警阈值当集群出现故障时,chess监控系统会采用邮件、页面等多种报警方式进行报警,以便系统管理员及时的对节点故障恢复。集群管理系统中最核心的作业调度管理,使用是否得到直接关系到集群效率,chess作业调度管理模块通过we
30、b页面可实现对计算节点、队列、调度策略、预留资源的配置,方便系统管理员对集群管理,并且支持多种调度策略,例如公平竞争,qos、抢占,轮循,回填,资源预留等,同时系统管理员可控制用户(组)的权限,控制每个用户(组)的磁盘配额以及资源限额,防止内存溢出,过度消耗系统资源的情况出现。chess具有丰富的集群报表系统,针对用户或用户组提供小时报、日报、月报和年报表。并在此基础上提供相应的计费功能,并且可导出excel、pdf等不同格式的报表。chess集群管理软件为普通用户提供了高效、实用的作业提交方式,用户可以采用多种方式进行作业提交,包括支持命令行、web界面、应用软件集成界面、作业脚本和可执行文
31、件,另外可从web页面上进行vnc以及ssh的操作,方便用户的使用。chess集群管理软件还具有丰富的文件管理功能,通过web界面可进行浏览、新建、在线编辑、压缩、解压、上传、下载等操作,方便用户进行文件管理。除此之外,联科在高性能计算集群系统软件领域有十余年的经验,可为用户完善其并行环境,帮助用户安装函数库,编译器,消息传递接口以及用户的应用软件,完成实施后还将为用户进行linpack基准测试,评估用户集群效率,进行系统调优,为用户搭建一套完善、高效的高性能计算集群系统。2) 软件概述chess v4.0(clustertech hpc environment software stack联
32、科高性能计算管理平台)是联科自主研发的高性能集群软件,可将松散堆叠的服务器变成一整套hpc集群系统,实现集群资源统一部署、管理、监控、调度和报表等,可大幅提高集群效率,简化集群管理。chess v4.0由cui(clustertech user interface联科用户界面)、集群管理模块、作业调度模块、集群监控模块、集群部署模块、集群报表模块组成。cui是web portal基本模块,其他各个功能模块可以根据用户需求自由组合。选用chess及其相关服务,可以帮助用户部署操作系统,安装和调试集群软件、应用环境和应用软件,也就是提供从硬件设备之上,直到集群应用能运行起来的一整套软件和服务。ch
33、ess v4.0新版特性主要有: 独立的模块化设计,可根据用户需求自由组合; 可单独设置各个模块的用户访问权限; 支持ha,避免单点故障带来的时间以及经济上不可逆转的损失; 调度、监控模块支持移动终端; 通过web界面,连接节点的ssh和vnc界面; 丰富的报警信息,支持阈值自定义设置; 强大的文件管理功能; 支持ldap和nis用户认证系统; 自定义应用模板; 丰富的报表信息,可输出pdf,excel等格式。3) 系统架构高性能集群一般可以分为硬件层、系统软件层、集群软件层、应用环境层和应用层,chess及其相关服务涵盖了硬件层以上、应用层以下的三层,即系统软件层、集群软件层和应用环境层,这
34、是保证hpc应用能在集群硬件设备上运行的基本条件,如下图所示: 在集群软件层,chess提供了集群部署、集群管理、集群监控、作业调度、作业调度管理、集群报表等功能模块,同时提供web portal实现界面交互操作,另外支持ha功能,避免产生单点故障,影响集群系统运行。这些功能集中管理和监控cluster系统中所有节点的资源,实现了整个集群系统的单一系统映像,使用户感觉只是在使用一台高性能计算机。在应用环境层,chess的安装过程可选的hpc工具集包含并行命令、调试调优工具、消息传递库、数学库和编译器,具体内容如下表所示:功能工具并行命令dvt,dsh,pcp,distcc调试、调优工具inte
35、l vtune ,intel trace collector/analyser, total view消息传递库mpich,mpich2,mvapich,openmpi等数学库intel mkl,lapack,scalapack,goto,blas编译器gnu编译器, intel 编译器注:intel编译器、intel mkl、intel vtune、intel trace collector/analyser和total view为商业软件。4) 产品功能a) 系统部署在大规模的集群系统中,操作系统和软件的部署一直都是令系统管理员十分苦恼的问题:工作单调重复,但工作量很大。chess中所集成
36、的快速部署系统可以帮助系统管理员快速、简便地完成集群节点的操作系统和软件的部署。在标准环境下,chess可在60分钟内完成128个节点的系统安装与配置。chess的部署系统在软件和硬件相结合的基础上,通过集群中一台预先安装好操作系统的控制台节点,自动完成对整个集群或者单个节点的操作系统安装、应用软件安装以及整个集群的统一网络配置和服务配置。chess的系统部署可根据用户的需求灵活配置,比如以下内容: 操作系统的版本选择、安装内容、安装顺序 硬盘的磁盘分区和大小、文件系统类型 网络的ip地址设置、网卡绑定 主机名解析方式灵活,命名规则可以是符合规范的任意字母、特定符号和任意数字的组合b) che
37、ss web portalchess web portal是chess的用户交互操作界面,是通过cui (clustertech user interface联科用户统一登陆平台)将集群管理、集群监控、作业调度、作业调度管理、集群报表等各个功能模块的界面统一起来,实现了联科自主研发软件的统一登陆,提供用户管理和权限管理功能,管理员可以给用户设置各个模块的访问权限。c) 用户管理chess集群系统通过cui (clustertech user interface联科用户统一登陆平台)新建、编辑用户(组),设置个人家目录,确认用户隶属于的组别。d) 权限设定chess集群系统通过cui (clus
38、tertech user interface联科用户统一登陆平台)设置用户权限,分配用户可用的功能模块,系统管理员可严格控制用户权限。e) chess集群管理chess的集群管理通过浏览器(ie 10以上, google chrome ,firefox等)实现现场和远程的集群管理和使用,包括节点管理、共享管理、镜像管理和日志管理等功能。u 节点管理chess把节点分为管理、存储、计算和登录四种角色来管理,每种角色的节点可以根据角色的实际需要,启动相应的服务。用户通过web界面可以查看节点的基本信息,包括节点id、主机名、mac地址、ip地址、节点状态、节点是否可提交作业状态和节点类型等信息。用
39、户也可以通过web界面对指定节点或所有节点做基本操作,包括开机、关机、设置镜像、恢复镜像、并行命令、拒绝作业、允许提交作业等操作。用户可以直接从web界面上打开节点的vnc和ssh进行操作,无需其他第三方的登陆工具。u 共享管理通过chess集群管理可实现共享管理功能,用户可通过web 界面创建共享目录,编辑挂载点、删除共享目录等功能,无需后台命令实现共享目录管理,如下图所示:u 镜像管理chess可以通过web界面创建集群节点(登陆节点/存储节点/计算节点)镜像,实现节点系统的备份和恢复功能。同时,系统可以同时保持多个不同或相同的镜像版本,从而实现多个镜像的切换。u 日志管理chess集群日
40、志管理功能对并行命令、开关机情况、镜像操作进行记录,帮助系统管理员更加充分了解集群的使用情况。u 并行命令记录:查看用户使用并行命令的输出结果;u 开关机记录:查看用户对某个节点的开机、关机操作的时间、处理状态和处理结果;u 镜像操作记录:查看用户创建镜像操作类型、时间、以及创建节点。f) chess作业调度u 作业调度管理chess的资源管理和作业调度系统能合理、高效地管理系统中的所有软硬件资源和用户提交的作业,最大化的提升集群系统的吞吐率和利用率。chess调度管理功能的web的界面功能(只有管理员用户才可操作)包括: 作业列表、队列列表和节点状态查询;调整任务调度和资源配置策略;查看和修
41、改服务器设置、队列设置和节点设置;管理用户提交的作业(杀掉作业、挂起作业和释放作业);配置调度策略,作业优先级、资源分配优化配置等;用户/用户组策略设置;资源预留配置。系统管理员具有作业调度管理功能,通过chess作业调度管理功能系统管理员可积极的调度策略优化资源的利用和减少作业的响应时间,系统管理员可清晰查看到每个节点cpu的使用情况,并且通过配置资源管理器以及调度策略对集群系统进行优化管理。系统管理员通过chess集群管理系统还可进行队列的设置,节点设置,用户(组)优先级设置以及资源管理,使得复杂的集群资源调度管理变得简单、统一、高效。u 作业提交系统管理员为普通用户分配提交作业权限,普通
42、用户即可通过web图形界面提交作业。chess管理系统支持各种串行、并行应用程序以及应用程序自带的资源管理和调度。下图为chess的作业提交界面:普通用户在提交作业时还可设置多种策略,指定节点提交作业,设置作业输出文件格式,设置作业运行时间以及作业开始、完成或退出时的提示警等信息。用户将作业提交时的策略可保存为模板,以后提交作业时相同的设置可直接调用模板,为用户提交作业提供极大的便利性。chess作业提交功页面下能为普通用户提供文件管理功能,用户可通过chess文件管理功能,直接管理系统上的文件,对文件进行新建、编辑、上传、下载、复制、剪切,粘贴,压缩、解压缩等功能,如下图所示:u 作业调度策
43、略chess的作业调度系统支持任务间相关、自动文件传送(file staging)、多个任务队列、多种系统分组、多种任务优先级策略和配置、多资源管理和任务高级预约、qos (quality of service,包括服务对象和资源,以及功能访问控制)、可配置的节点分配策略、多种可配置的回填策略(backfill policies)、详尽的系统诊断(system diagnostic)以及各种资源使用情况的跟踪和统计。具体调度策略的配置有:1) 队列设置:系统里面设置有不同的队列,一旦作业从调度系统进入相应的队列,将会被赋上该队列的配置属性(如作业需要的时间,内存等)。同时队列还可以控制某个用户
44、可以提交到某个队列,或者某个队列只能使用某些节点资源等;2) 节点属性配置:用户可以根据节点自身的特性为节点配置不同的属性,在混合异构的集群中(新老不同配置的机器共存或机器之间使用不同互联网),可以把节点划分到不同的节点池中;3) 作业优先级影响因子:包括作业来源(用户、组、队列、qos)、公平共享(用户、组、队列、qos的资源使用历史记录)、作业申请资源(节点数、core个数、内存等)、服务级别(作业已经在队列系统中排队的时间、作业排队的时间和作业所需时间的比值、因作业回填而比该作业先运行的优先级更低的作业的个数)、目标服务级别(到目标排队时间所剩的时间等);4) 用户和用户组的属性配置:可
45、以为不同的用户和用户组配置不同的优先级、不同的最大使用资源限制和所使用的qos;5) 作业回填:根据作业的各种属性,chess可以计算出系统中作业的起始和结束时间,有些高优先级的作业在某个起始时间之前无法获取所有资源而无法运行,而在这个时间之前有可能会有某些计算节点处于空闲状态。采用回填策略,可以在不影响高优先级作业运行的前提下,将某些低优先级的作业回填到这些空闲节点,从而提高系统的使用效率。回填的策略包括:a)firstfit:扫描处于排队状态的作业,执行第一个能放入回填窗口的作业;b) bestfit:扫描处于排队状态的作业,选取能够最大程度填满回填窗口的作业。当可用节点数量较充足的时候,
46、尽量执行节点需求较多的作业;c)greedy:这是一种较激进的回填策略,这种策略忽略之前有预约的作业,所以可能会影响到带预约的作业的起始执行时间;6) 公平共享:当某个用户或者用户组在过去的某一段时间内(比如一周)使用了很多系统资源,在接下来的时间里,如果有其他用户向系统提交作业,这些用户作业的fareshare优先级因子会比该用户(之前使用过多资源的用户)的fareshare优先级因子高;7) 资源预留:管理员可以在系统中设定一个时间值,从这个时间开始,某些计算节点在此时间段内将被预留给某些用户使用;8) 作业抢占:内容包括取消当前某运行作业、暂停当前某运行作业、将当前某运行中作业check
47、point(需要操作系统支持)、取消当前运行作业并将作业重新放入队列系统进行排队,抢占方式有:a)人工干预;b)通过qos的策略;c)基于抢占、保证优先级的回填。默认情况下,回填只有在不影响高优先级作业运行的情况下才会发生,但是经统计发现,很多作业申请的walltime时间大于实际运行的walltime时间,也就是说,作业会提前完成执行。在基于抢占、保证优先级的回填的情况下,系统在回填窗口不足够运行低优先级作业的情况下允许作业回填,一旦发现回填的作业将会影响到高优先级的作业的执行,系统将该作业资源抢占,保证高优先级作业的执行。u 应用集成chess支持应用软件的作业通过web界面提交,用户可以
48、把常用的应用软件集成到图形界面中。用户点击界面上相应的应用软件名称,将会显示该应用软件的特殊参数,点击【作业提交】按钮即可提交该应用软件的作业。用户还可在集群管理中直接打开vnc界面进行操作,以及应用程序的使用和作业提交。g) chess集群监控chess集群监控提供丰富的监控信息,通过web页面系统管理员可查看、了解集群系统的使用情况、集群拓扑结构、集群文件系统、集群节点详情、警报系统以及节点性能监控。chess集群总汇可直观、方便的显示当前集群的信息,通过图形数据可展示各个时段cpu使用率、内存指标、交换分区使用量、网络流量、磁盘容量、负载监控、网卡接受或发送数据包字节速度等详细信息,方便
49、系统管理员了解集群每个时间段的运行状态,同时还可监控集群内存总量使用率、磁盘总量使用率、以及cpu总数及在线节点等,如下图所示:chess集群拓扑直观显示集群的拓扑结构,集群网络交换机的拓扑结构,以及每个网络交换机的名称、ip、网络交换机是否在线状态等信息,网络管理员可通过web界面对机房网络进行监控。系统管理员可通过chess文件系统web图形界面对i/o角色的节点进行创建共享目录,挂载共享目录的操作,普通用户可对共享目录以及挂载点进行查询操作。chess监控节点详情能够方便、快捷的获取当前集群每个节点运行状态的信息,使管理员方便地进行集群系统的维护和管理。图形界面中的服务器摆放位置与真实集
50、群环境中服务器的摆放位置相同,可显示某个节点负载情况以及节点是否开关机,同时当鼠标移动至某个节点时将会出现提示信息框,显示该节点的cpu数量、主频和内存总量等信息,如下图所示:chess除了监控集群系统的状态,系统管理员可设置cpu、内存等参数的阈值,还可以检测集群系统中的非正常情况,对于系统节点失去连接的信息或超过某些参数所设置的阈值,会进行报警统计,如下图所示:h) chess集群报表chess报表系统为用户提供详细、丰富的数据资源统计功能,包括系统资源使用统计报表,账单收费报表以及记账设置。u 资源统计报表chess集群报表可在总览页面中监控集群已完成作业情况、cpu使用率、作业使用cp
51、u核小时以及作业运行cpu运行时间,如下图所示:详细资源报表统计中用户可查看作业统计报表;cpu、内存资源使用报表,本地或共享存储使用统计报表等信息,报表可按照用户/队列使用时间(按照小时/日/月)进行数据的统计从而生成报表,并可选择pdf/html/excel三种方式导出报表。u 账单收费报表账单收费报表可查看用户计算作业选择起始和结束时间来统计此时间段内用户或者队列对cpu资源的使用情况和费用合计,也可详细到每个用户中的计算每个作业的起始和结束时间后对cpu资源使用生成详情计费报表进行数据查看,或者通过pdf/html/excel三种方式导出报表。u 记账设置chess集群报表可设置计费功
52、能,管理员可设置每核的费率为元/小时进行计费统计。i) chess定制化功能chess提供用户可定制化的功能,可以根据各个领域客户的特殊需求做定制化的开发,目的是提供给客户一个更为贴心的软件产品。下面介绍按照已有客户的要求,完成的定制化的功能。j) chess备份还原系统chess备份还原系统支持对整个系统进行克隆,而且也可以克隆单个的分区,这种灵活性可能更能适应备份者的需要,chess备份还原系统可实现自动化备份模式,设置参数后,实现自动化所要的备份与还原做工作。支持还原再生多种作业系统,例如:linux (ext2, ext3, ext4, reiserfs, reiser4, xfs,
53、jfs), mac os (hfs+), 微软windows (fat, ntfs), freebsd, netbsd, openbsd (ufs)以及vmware esx (vmfs),chess备份系统可实现磁盘或分区的备份还原,chess备份还原系统包含其他程序的撰写与整合,因此可以备份与复制分割区或是整个硬盘;采用本地和网络两种模式实现跨平台备份,映像文件可以放在本机硬盘,网路芳邻服务器,ssh服务器,nfs服务器等。为用户提供一个安全的数据备份环境。k) 按需开关机 通常情况下,用户采购的高性能服务器集群并不是任何时候都100在使用,如果拥有按照用户的实际需求的开关机功能,将会减少用
54、户的使用成本。按需开关机的功能基于用户的这种需求开发,chess会检测高性能服务器中有多少节点处于使用状态,有多少节点处于空闲状态,按需开关机的功能将会把空闲的节点自动关机;当正在运行的机器使用达到饱和状态,并且有用户的作业在队列里排队的时候,按需开关机的功能将会把已经处于关机状态的节点自动开机。按需开关机的功能在保证了用户资源正常使用的情况下,帮助用户自动、合理地选择开机的数目,降低用户的使用成本。以128个计算节点的集群,机器使用率是80的情况为例,管理员一旦启动了按需开关机功能,25台机器将会自动关机,每个节点的实际功率一般为400w,25个节点每小时将节省功耗10000w10度,也就是
55、每小时节省7元的电费;以此类推,每天可以节省240度电,也就是168元的电费;每月就可以节省7200度电,也就是5040元的电费;那么每年就可以节省86400度电,也就是每年可以节省60480元电费。l) 计算资源登录控制 在高性能服务器系统中,只有通过作业调度系统提交的作业,才能被调度系统监控,从而使整个集群的资源得以控制和更合理的利用。而有些不按照要求,通过交互式方式提交作业的客户,调度系统监控不到该节点上有作业运行,而认为该节点的资源是空闲的,会继续在该结点上运行作业或将节点关机,从而导致计算资源冲突或者交互式应用无法正常运行。为了避免上述情况的发生,chess根据用户需求开发了计算资源登录控制功能:普通用户无法直接登录计算节点,只有通过作业调度系统提交作业的用户,才可以进行登录以及相关操作。从而防止因用户不按照规定使用机器导致的集群资源失控,同时方便了用户使用。m) 无盘集群针对一些用户使用的无盘集群系统,chess提供了无盘集群的解决方案:在无盘集群系统中,管理节点配置好相应的服务,计算节点通过网卡启动计算节点的操作系统,因此不需要安装计算节点的操作系统。计算节点之间通过高性能的并行文件系统,从而为每个计算节点提供高性能的读写能力。5) 方案特点与优势chess
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年心理顾问情感咨询技巧实践应用考试题
- 2026年网络营推广与运营管理的模拟练习题集
- 2026年计算机等级考试编程部分易错题集
- 2026年建筑工程规范标准考试题库
- 2026年医学基础疾病诊断与治疗试题库
- 2026年古代文学常识与鉴赏试题
- 2025年武平县教育局直属学校招聘真题
- 2026年企业管理案例分析实战模拟试题
- 2026年金融投资理论与实务考试模拟题及答案解析
- 2025年宜家官网餐饮部面试题库及答案
- 2025年陕西省中考英语试题卷(含答案及解析)
- T/GMIAAC 002-20232型糖尿病强化管理、逆转及缓解诊疗标准与技术规范
- 科学教师培训课件
- 股权激励协议范本
- 2024生物样本库中生物样本处理方法的确认和验证要求
- 国产电视剧报审表
- 农业技术推广指导-农业推广的概念与基本原理
- TCSAE 153-2020 汽车高寒地区环境适应性试验方法
- 乳液聚合乳液聚合机理
- 4D厨房设备设施管理责任卡
- JJG 195-2019连续累计自动衡器(皮带秤)
评论
0/150
提交评论