1_1高性能计算集群实施方案_上理工20191024_第1页
1_1高性能计算集群实施方案_上理工20191024_第2页
1_1高性能计算集群实施方案_上理工20191024_第3页
1_1高性能计算集群实施方案_上理工20191024_第4页
1_1高性能计算集群实施方案_上理工20191024_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海理工大学高性能计算集群实施方案2019年10月目录1.系统方案设计11.1.整体方案设计11.2.硬件配置21.3.硬件布局效果图41.4.硬件拓扑图41.5.系统功耗、承重估算及机房环境要求51.6.软件列表71.7.节点命名规则和IP地址规划101.8.服务器及操作系统设置111.9.系统方案CPU峰值计算能力111.10.方案特点总结122.软件功能及参数介绍132.1.联科CHESS高性能计算管理平台132.2.WiseOS/WiseRouter融合许可证路由器192.3.xCAT集群管理和配置软件212.4.Intel Parallel Studio XE Cluster Edition集群开发套件232.5.Lustre集群并行文件系统273.项目集成实施和验收313.1.系统集成实施服务原则313.2.系统集成实施小组核心人员安排313.3.项目实施具体内容和进度时间计划333.4.项目培训343.5.系统验收344.售后维护和技术服务364.1.技术支持及服务整体规划364.2.技术队伍364.3.系统集成实施现场服务364.4.三年保修期内的硬件保修和五年软件支持服务374.5.质保期外的长期技术服务3831. 系统方案设计1.1. 整体方案设计基于高性能并行计算和并行存储技术,提供最强大的、易于管理的高性能计算集群解决方案。选用最好的软件,通过高速内部互联及工业标准的计算机,在集群技术专家的支持和服务下,向用户提供易于扩容和简单易用的系统平台。本次方案中,软硬件系统整体设计结构层次图如下:上述的系统层次图给出了三个视角,即用户视角、系统视角和服务视角。从用户视角来看,该系统主要由X86服务器集群基础中心、并行程序运行的支撑环境和用户的应用程序组成。从系统视角来看,该系统主要由硬件固件层、结点系统软件层、集群系统软件层、并行编程环境层和应用层。这五层按上述顺序自底向上形成相互支撑。其中硬件固件层主要是指通信软件和外部设备在适配器上的固件程序(Firmware);结点系统软件层主要是指结点操作系统及其核心扩展以及用户编程的工具、环境和库,如操作系统、设备驱动程序扩展、文件系统扩展、编译器、调试器以及函数库等;集群系统软件层主要是指集群操作系统,主要包括系统管理、底层高效通信库、资源和作业管理、系统监控以及集群文件系统等;并行编程环境层主要是指用户并行编程的环境和库,包括并行编程环境和并行数学库等;应用层主要是指科学工程计算类的实际应用系统。从服务视角来看,该系统由硬件服务、系统服务、应用环境服务和用户应用服务。从系统视角可见的每一层都有相应的服务层与之对应,具体运行将根据用户的实际需要,提供这四种类型的服务。1.2. 硬件配置高性能计算集群系统需要由计算节点,管理/登录/存储节点,存储设备,网络设备,外围附属设备等硬件设备,操作系统,集群管理,并行文件系统,作业调度和应用软件等部分组成。计算节点采用4路机架服务器,管理/登录/存储节点需采用机架式服务器,存储系统由磁盘阵列,交换机等组成。所有管理/登录节点,计算节点和存储节点之间采用Intel Omani Path高速网络连接。名称型号配置描述数量单位计算节点DL560 Gen10HPE DL560 Gen10服务器,2U机架式服务器- 4颗Intel Xeon-Gold 6230(2.1GHz/20核/125W)共80核- 768GB RDIMM DDR4 2933MHz内存(24根32GB)- 配置1块480GB SATA SSD热插拔硬盘- 配置4个1Gb千兆以太网端口- PCI-E 3.0 x16扩展槽,用于安装100Gb高速网卡- Intel Omni-Path 100Gb OPA单端口网卡- 配置2个冗余服务器电源1600w,冗余风扇模块- HPE iLO服务器高级管理模块,独立管理端口- 三年原厂硬件保修服务 20台管理节点DL380 Gen10HPE DL380 Gen10服务器,2U机架式服务器- 2颗Intel Xeon-Silver 4216(2.1GHz/16core/100W)共32核- 64GB RDIMM DDR4 2933MHz内存(4根16GB)- 配置2块480GB SATA SSD热插拔硬盘 (RAID1)- 配置4个1Gb千兆以太网端口- PCI-E 3.0 x16扩展槽,用于安装100Gb高速网卡- Intel Omni-Path 100Gb OPA单端口网卡- 配置2个冗余服务器电源800w,冗余风扇模块- HPE iLO服务器高级管理模块,独立管理端口- 三年原厂硬件保修服务 2台存储磁盘阵列MSA 2050HPE MSA 2050磁盘阵列,双控制器,FC-SAN存储- 2U12盘位3.5英寸热插拔硬盘- 标配2个控制器,标配16GB缓存,每个控制器8GB,含断电保护功能- 8个16GbFC主机端口,每个控制器4个- 冗余电源、风扇- 12块3.5英寸企业级NL-SAS 7.2Krpm热插拔硬盘8TB- 2块双端口16Gb FC HBA适配卡(安装到管理节点)- 4根5m LC/LC FC多模光纤线缆- 三年原厂硬件保修服务2套以太网络及配件S5110V2H3C S5110V2 48端口全千兆以太网交换机- 含所需的千兆以太网线- 三年原厂硬件保修服务1套OPA高速网络设备OPAIntel Omni-Path E48UF2交换机- 48个100Gb Omni-Path网络端口- 双冗余电源- 22根Intel Omni-Path QSFP 5M光纤线缆- 三年原厂硬件保修服务 1套机柜相关配件设备安装到用户数据中心机房,电源接口为C19,按用户要求提供所需的电源线等配件1套计算网络,1套:配置1个Intel Omni-Path 48端口100Gb交换机,组建全互联、无阻塞的OPA 100Gb网络,连接到所有的计算节点和存储节点;并可支持无缝扩展到200节点以上的集群规模。管理和监控网络:配置1台48端口千兆以太网交换机,连接所有服务器节点的以太网端口。同时连接到所有HPE服务器集成的iLo管理端口,实现基于HP iLO技术的全数字KVM和系统监控管理解决方案。1.3. 硬件布局效果图1.4. 硬件拓扑图1.5. 系统功耗、承重估算及机房环境要求本项目设备用于超算,服务器功耗比较大,计算节点日常工作需要900W/台,基于现场情况和学校要求,我公司推荐设备部署方案如下:设备数量单位功耗W总功耗W单位散热量BTU/Hr总散热量BTU/Hr单位重量KG总重量KG机柜1计算节点DL560 G10890072003070.924567.435280网络设备H3C 5110v215050170.6170.688合计9725024738288机柜2计算节点DL560 G10890072003070.924567.435280OPA交换机Intel OmniPath 4812502508538531010合计9745025420.4290机柜3计算节点DL560 G10490036003070.912283.735140管理节点DL380 G1023006001023.62047.32550存储阵列HPE MSA 205024509001535.530714080合计8510017402270说明:1、设备部署于3个机柜,每机柜占用16-17U空间,每机柜装载重量270-290KG;2、所有设备电源输入均为C14,机柜供电接口为C19,施工采用C20-C13接口电源线;3、设备均双电源冗余供电,建议机房给每机柜提供两路供电(至少其中一路为UPS供电),为留有冗余每路总电流50A;即:第一机柜两路供电,每路50A以上,第二机柜两路供电,每路50A以上,第三机柜两路供电,每路40A以上;4、三个机柜之间有网线和光纤线互联,跨机柜网络跳线有32根,跨机柜光纤线有14根。1.6. 软件列表Linux操作系统LinuxCentOS7.6企业级Linux X86_64版1套集群管理软件xCATxCAT 2.13集群部署和管理系统软件,实现Linux系统的自动化并行安装和配置;管理和同步节点的配置文件;提供系统远程运行命令操作;支持用户帐户统一管理等功能1套并行开发环境软件IPSIntel Parallel Studio XE Cluster Edition软件工具包2019,提供Intel C/C+, Fortran Compiler编译器,Intel Math Kernel Library数学库,包含BLAS、LAPACK、Scalapack等等,提供跟踪分析器和跟踪采集器;OpenMPI、MPICH2和MVAPICH等并行环境- 包含一年原厂免费升级支持服务1套作业调度软件CHESSClusterTech CHESS v5.4高性能计算管理平台,作业调度模块- 帮助用户高效率、低成本地实现复杂计算集群的统一管理,用一套标准实现企业应用高效部署,大幅提高计算能力,加速应用处理- 含HPC集群资源调度器,Web应用中心门户- 包含三年原厂免费升级支持服务1套集群资源报表软件CHESSClusterTech CHESS v5.4高性能计算管理平台,集群监控和报表软件模块- 支持CHESS调度器,LSF调度器,PBS Pro调度器,集群实时监控功能等,可以自定义报表用户组,基于用户、用户组、节点组、队列等维度,生成年、月、日计费报表,支持导出为PDF和Excel文件格式报表- 包含三年原厂免费升级支持服务1套软件许可优化管理软件WiseRouterWiseRouter融合许可证路由器- 浮动许可证防呆优化,提升许可利用率- 集团化浮动许可资源集中共享管理,显著降本- 支持license服务器(FlexLM/FlexNet/RLM)和USBkey(HASP)加密狗- 配置5个应用程序许可- 包含三年原厂免费升级支持服务1套集群并行文件系统LustreLustre 2.10集群并行文件系统业界流行的并行文件系统,利用多个IO节点提供并发读写能力,可以为大型计算集群系统等提供高IO带宽等性能;利用远程直接内存访问(RDMA)协议,实现通过Infiniband网络共享的高速集群并行文件系统,提供符合POSIX标准的UNIX文件系统接口1套操作系统 服务器节点推荐部署CentOS 7 企业级Linux操作系统X86_64版。、CentOS 是一个基于Red Hat Linux 提供的可自由使用源代码的企业级Linux发行版本。每个版本的 CentOS都会获得十年的支持(通过安全更新方式)。新版本的 CentOS 大约每两年发行一次,而每个版本的 CentOS 会定期(大概每六个月)更新一次,以便支持新的硬件。这样,建立一个安全、低维护、稳定、高预测性、高重复性的 Linux 环境。集群管理软件采用开源的集群系统管理软件xCAT,这是一个高级的集群管理软件,允许通过一个单点控制和管理一个Linux集群系统。它在简化集群管理的同时,还使集群能够方便地实现快速扩展,从而提高了系统管理员的工作效率。通过为集群提供一个单控制点,xCAT可以极大地简化系统总体管理,从而为服务器整合解决方案提供了一种经济高效的方式。 同时,该软件还充分利用了在硬件上的先进技术,如集成的系统管理处理器(Service Processor),使管理软件能够以远程方式管理每一个系统节点,从而方便系统的管理。具体来讲,xCAT集群系统管理软件可以实现如下的功能: 自动安装:基于网络的安装、无人照管和定制; 硬件管理和监控:远程的电源管理(on/off/reset/stat) 远程终端和软件管理:OS、BIOS/POST、并行管理工具、HPC软件集的支持。 管理和同步节点的配置文件; 提供系统远程运行命令操作,允许以命令或脚本方式运行在集群中的所有节点上 支持用户帐户统一管理; 提供远程硬件控制,如:节点的远程开机、关机和重新启动; 动态监视系统资源使用情况;并行开发环境软件Intel Parallel Studio XE 工具套件简化了设计、开发、调试和代码的优化,利用并行处理来提高应用程序的性能。利用兼容的Intel处理器和协同处理器可以更轻易地提高应用程序性能。作为功能卓越的、完整的性能优化套件,英特尔 Parallel Studio XE帮助软件开发者更轻松地提高串行和并行应用的性能和可靠性,以便充分利用最新的多核处理器。Intel Parallel Studio XE Cluster Edition软件工具包,提供Intel C/C+, Fortran Compiler编译器,Intel Math Kernel Library数学库,包含BLAS、LAPACK、Scalapack等等,提供跟踪分析器和跟踪采集器;OpenMPI、MPICH2和MVAPICH等并行环境。高性能计算管理平台联科CHESS是一套成熟高性能计算集群管理软件,统一部署集群系统,数百节点在几小时内便可完成对集群管理软件、应用程序的部署,系统管理员与用户可通过Web界面对集群进行管理与使用。CHESS集群管理软件主要包括集群管理、集群监控、作业调度管理、作业提交、集群报表等功能模块,系统管理员可根据用户使用情况为每个用户分配功能模块,灵活使用,严格控制用户权限,具有管理权限的用户,可对单一节点或者批量执行节点的开机、关机、删除、允许提交作业、拒绝提交作业的操作,从Web界面上设置共享文件,配置镜像管理对节点进行数据的备份与恢复,确保集群的安全。软件许可优化管理软件 联思智云WiseRouter融合许可证路由器,浮动许可证防呆优化,提升许可利用率;集团化浮动许可资源集中共享管理,显著降本;支持license服务器(FlexLM/FlexNet/RLM)和USBkey(HASP)加密狗。Lustre 并行文件系统Lustre是一个开源的、全局单个命名空间的、符合POSIX标准的分布式并行文件系统,旨在实现系统的可扩展性、高性能和高可用性。Lustre在基于Linux的操作系统上运行,并采用客户端-服务器模式的网络架构。Lustre的存储由一组服务器提供,这些服务器可以扩展到多达数百台的数量。运行着单个文件系统实例的Lustre服务器总共可以向数千个计算客户端提供高达几十PB的存储容量,总吞吐量超过1TB/s。Lustre是一个文件系统,可扩展以满足从小型HPC环境到超级计算机等不同规模的系统上运行的各种应用程序的需求,而且Lustre是使用基于对象的存储构建块创建的,这样可以最大限度地提高系统扩展性。当元数据和数据存储在独立的服务器上时,冗余服务器可以支持存储故障转移功能,这样每个文件系统可以针对不同的工作负载进行优化。Lustre可以通过高速网络结构(如英特尔全路径架构( OPA )、InfiniBand*和以太网)向应用程序提供快速的IO。Lustre文件系统架构被设计为建立在计算机网络上的可扩展存储平台,它是基于分布式的、基于对象的存储。其中的命名空间层级结构与文件内容分开存储。Lustre中的服务分为支持元数据操作的服务和支持文件内容操作的服务。1.7. 节点命名规则和IP地址规划集群节点命名规则、IP地址规划,规划了命名方式。节点命名规划节点类型命名规则节点名实例管理节点以mgt+(2个数字编号)为名称,mgt01, mgt02计算节点以node+(2个数字编号)为名称node01, node02网络IP地址规划(以下IP地址描述,仅为示例,具体IP规划表格以用户IT部门批准的规划为准)NodeNameEthernetAddress/24OPAAddress/24ILOaddress/24Externaladdressmgt01515151待补充mgt02525252待补充node01node02node20000磁盘阵列1-A01磁盘阵列1-B02磁盘阵列2-A03磁盘阵列2-B04OPA交换机11以太网交换机121.8. 服务器及操作系统设置服务器开启睿频,关闭超线程,关闭节能设置。管理节点2块硬盘做raid1.操作系统设置:分区方案swap 32GB/boot/efi 1000M/ 剩余SELINUX关闭安装方式最小化安装关闭服务chkconfig firewalld offchkconfig kdump offchkconfig postfix offYUM源配置CentOS 7 ISO本地源1.9. 系统方案CPU峰值计算能力Intel Xeon CPU的双精度浮点峰值计算能力计算公式为:理论浮点峰值(CPU主频)(CPU每个时钟周期执行浮点运算的次数)(系统中CPU核心数)方案中,计算节点部分配置的CPU数量和型号如下,双精度浮点峰值计算能力估算为:Intel Xeon-Gold 6230(2.1GHz/20core/125W),共80颗CPU,1600core,2.1GHz*32*20core*80= 107,520Gflops本方案所有计算节点CPU的双精度浮点峰值计算能力约为:107万亿次每秒。1.10. 方案特点总结高性能、高可靠性与稳定性是关键业务用户最关心的指标之一,也决定了系统在生命周期内能真正提供多少服务能力。全交换无阻塞的100Gb OPA高速网络满足最苛刻应用程序的要求所有计算节点、管理节点均通过100Gb OPA网络全线速、无阻塞互联。集群全局共享的Lustre文件系统,也加载运行在OPA网络上,通过OPA网络为整个集群提供高速、可扩展的存储空间。、硬件监控与软件集中管理相结合,系统维护高效快捷通过HPE 服务器集成iLO硬件管理和监控模块,能够有效实现与操作系统无关的对服务器远程操作和实时的状态监控,如开关机、重启、暂停等操作,使管理能够更高效率的维护计算平台本系统集群采用xCAT、CHESS软件进行部署、监控、管理、资源调度;整套系统易于管理维护,操作简便、可靠和稳定。2. 软件功能及参数介绍2.1. 联科CHESS高性能计算管理平台CHESS(Clustertech HPC Environment Software Stack联科高性能计算管理平台)是联科自主研发的高性能集群软件,可将松散堆叠的服务器变成一整套HPC集群系统,实现集群资源统一部署、管理、监控、调度和报表等,可大幅提高集群效率,简化集群管理。CHESS由CUI(Clustertech User Interface联科用户界面)、集群管理模块、作业调度模块、集群监控模块、集群部署模块、集群报表、公有云管理模块组成。CUI是Web Portal基本模块,其他各个功能模块可以根据用户需求自由组合。选用CHESS及其相关服务,可以帮助用户部署操作系统,安装和调试集群软件、应用环境和应用软件,也就是提供从硬件设备之上,直到集群应用能运行起来的一整套软件和服务。另外,在本地资源不够用的情况下,可以直接申请公有云资源进行使用。CHESS V特性主要有: 独立的模块化设计,可根据用户需求自由组合; 可单独设置各个模块的用户访问权限; 支持HA,避免单点故障带来的时间以及经济上不可逆转的损失; 调度、监控模块支持移动终端; 通过WEB界面,连接节点的SSH和VNC界面; 丰富的报警信息,支持阈值自定义设置; 强大的文件管理功能; 支持LDAP和NIS用户认证系统; 自定义应用模板; 丰富的报表信息,可输出PDF,EXCEL等格式。 混合云管理,可以调用公有云的资源进行使用,以提升效率。CHESS 架构 高性能集群一般可以分为硬件层、系统软件层、集群软件层、应用环境层和应用层,CHESS及其相关服务涵盖了硬件层以上、应用层以下的三层,即系统软件层、集群软件层和应用环境层,这是保证HPC应用能在集群硬件设备上运行的基本条件,如下图所示: 在集群软件层,CHESS提供了集群部署、集群管理、集群监控、作业调度、作业调度管理、集群报表、公有云管理等功能模块,同时提供Web Portal实现界面交互操作,另外支持HA功能,避免产生单点故障,影响集群系统运行。这些功能集中管理和监控Cluster系统中所有节点的资源,实现了整个集群系统的单一系统映像,使用户感觉只是在使用一台高性能计算机。在应用环境层,CHESS的安装过程可选的HPC工具集包含并行命令、调试调优工具、消息传递库、数学库和编译器,具体内容如下表所示:功能工具并行命令dvt,dsh,pcp,distcc调试、调优工具Intel Vtune ,Intel Trace Collector/Analyser, Total View消息传递库MPICH,MPICH2,MVAPICH,OpenMPI等数学库Intel MKL,Lapack,Scalapack,Goto,Blas编译器GNU编译器, Intel 编译器注:Intel编译器、Intel MKL、Intel Vtune、Intel Trace Collector/Analyser和Total View为商业软件。CHESS Web PortalCHESS Web Portal是CHESS的用户交互操作界面,是通过CUI (Clustertech User Interface联科用户统一登陆平台)将集群管理、集群监控、作业调度、作业调度管理、集群报表等各个功能模块的界面统一起来,实现了联科自主研发软件的统一登陆,提供用户管理、服务器管理和权限管理功能,管理员可以给用户设置各个模块的访问权限。CHESS混合云管理混合云管理,实现与公有云计算的集成。混合云模块使得CHESS能够利用现有公有云的计算能力,大大增加了满足不同用户需求的灵活性。用户购买或部署一个较小规模的CHESS集群,能够满足日常计算任务需求,在某些特殊或突发情况下,当有更大量的计算任务需要处理时,通过混合云模块,将一部分计算任务转移到公有云上完成。CHESS作业调度CHESS的资源管理和作业调度系统能合理、高效地管理系统中的所有软硬件资源和用户提交的作业,最大化的提升集群系统的吞吐率和利用率。CHESS调度管理功能的Web的界面功能(只有管理员用户才可操作)包括: 作业列表、队列列表和节点状态查询; 调整任务调度和资源配置策略; 查看和修改服务器设置、队列设置和节点设置; 管理用户提交的作业(杀掉作业、挂起作业和释放作业); 配置调度策略,作业优先级、资源分配优化配置等; 用户/用户组策略设置; 资源预留配置。 系统管理员具有作业调度管理功能,通过CHESS作业调度管理功能系统管理员可积极的调度策略优化资源的利用和减少作业的响应时间,系统管理员可清晰查看到每个节点CPU的使用情况,并且通过配置资源管理器以及调度策略对集群系统进行优化管理。系统管理员通过CHESS集群管理系统还可进行队列的设置,节点设置,用户(组)优先级设置以及资源管理,使得复杂的集群资源调度管理变得简单、统一、高效。CHESS集群监控CHESS集群监控提供丰富的监控信息,通过Web页面系统管理员可查看、了解集群系统的使用情况、集群拓扑结构、集群文件系统、集群节点详情、警报系统以及节点性能监控。CHESS集群总汇可直观、方便的显示当前集群的信息,通过图形数据可展示各个时段CPU使用率、内存指标、交换分区使用量、网络流量、磁盘容量、负载监控、网卡接受或发送数据包字节速度等详细信息,方便系统管理员了解集群每个时间段的运行状态,同时还可监控集群内存总量使用率、磁盘总量使用率、以及CPU总数及在线节点等,如下图所示:CHESS集群拓扑直观显示集群的拓扑结构,集群网络交换机的拓扑结构,以及每个网络交换机的名称、IP、网络交换机是否在线状态等信息,网络管理员可通过Web界面对机房网络进行监控。 CHESS集群报表 CHESS报表系统为用户提供详细、丰富的数据资源统计功能,包括系统资源使用统计报表,账单收费报表以及记账设置。资源统计报表CHESS集群报表可在总览页面中监控集群已完成作业情况、CPU使用率、作业使用CPU核小时以及作业运行CPU运行时间,如下图所示:详细资源报表统计中用户可查看作业统计报表;CPU、内存资源使用报表,本地或共享存储使用统计报表等信息,报表可按照用户/队列使用时间(按照小时/日/月)进行数据的统计从而生成报表,并可选择PDF/HTML/EXCEL三种方式导出报表。账单收费报表账单收费报表可查看用户计算作业选择起始和结束时间来统计此时间段内用户或者队列对CPU资源的使用情况和费用合计,也可详细到每个用户中的计算每个作业的起始和结束时间后对CPU资源使用生成详情计费报表进行数据查看,或者通过PDF/HTML/EXCEL三种方式导出报表。记账设置CHESS集群报表可设置计费功能,管理员可设置每核的费率为元/小时进行计费统计。CHESS定制化功能CHESS提供用户可定制化的功能,可以根据各个领域客户的特殊需求做定制化的开发,目的是提供给客户一个更为贴心的软件产品。下面介绍按照已有客户的要求,完成的定制化的功能。2.2. WiseOS/WiseRouter融合许可证路由器联思智云Clustertech WiseOS/WiseRouter融合许可证路由是为了更科学的使用商业软件许可证资源,优化软件资产投入,丰富企业软件应用体系,引导企业软件投入由单一的增加“量”转向多元化的“质”的提升。WiseRouter许可证路由技术将基于浮动许可证授权的基本原理,综合网络监控、网络传输、许可证协议、USB协议等计算机技术,实现在不破坏许可证验证模式的基础上,准确、有效的释放“未使用许可”,并及时的让其他用户获取。许可证介质类型浮动许可证授权的基本原理许可证路由的主要功能和创新点如下:1) 浮动许可证主动释放 通常情况下,软件启动后连接许可证服务器进行验证,获取许可证后直至软件关闭,才能释放许。其间,终端用户的软件操作会触发许可证请求。不操作时,软件也会随机发送类似的验证请求,导致许可证一直被占用。许可证路由在检测到“发呆”的许可后,主动断开该终端连接,从网络层模拟软件关闭,释放许可证。2) 许可证断开自动恢复许可证路由不能以完全屏蔽终端请求的方式释放许可证。这会导致用户恢复操作后,无法再次有效获得许可证。许可证路由仍能接收断开终端的操作请求,并获得“空闲的许可”。3) 许可证占用状态实时监控许可证路由运行时,生成许可证连接日志,构建日志分析算法生成许可证占用的实时数据,并可视化显示。4) 许可证使用率综合分析通过日志分析,根据许可证请求密度、成功获取和失败频率、路由软件参数设置、以及软件终端操作流畅性等数据,构建许可证需求总量分析算法,为商业软件许可证购买提供指导意见。2.3. xCAT集群管理和配置软件 xCAT (Extreme Cloud Administration Toolkit) 是一个开源的可扩展的高级集群管理和配置工具,允许使用者通过一个单点控制和管理一个集群系统。xCAT 最先是为 IBM xSeries 系列 Linux Cluster 做的第三方开源软件。它在简化集群管理的同时,还使集群能够方便地实现快速扩展,从而提高了系统管理员的工作效率。 值得一提的是,xCAT 软件包基本上全部由一系列有用的 perl 脚本构成,所以使用者修改代码后不需要重新再编译和安装,而是可以很方便地根据自己的需求直接修改脚本来定制出自己需要的 xCAT 软件。 通过为集群提供一个单控制点,xCAT可以极大地简化系统总体管理,从而为服务器整合解决方案提供了一种经济高效的方式。 同时,该软件还充分利用了IBM在硬件上的先进技术,如集成的系统管理处理器(Service Processor),使管理软件能够以远程方式管理每一个系统节点,从而方便系统的管理。 同时,提供予警分析报告,帮助用户防患于未然,最大限度地保证系统的生产运行时间。同时,即使在硬件出现故障时,服务器也能提供快捷、方便的诊断工具,帮助快速查处问题所在,及时解决问题。具体来讲,开源的集群系统管理软件xcat可以实现如下的功能:实现系统的并行安装和配置;管理和同步节点的配置文件;提供系统远程运行命令操作,允许以命令或脚本方式运行在集群中的所有节点上;支持用户帐户统一管理;提供远程硬件控制,如:节点的远程开机、关机和重新启动;动态监视系统资源使用情况;通过光通路诊断功能提供方便的软硬件错误诊断及错误自动记录,管理员能根据其提供的信息做出快速反应。提供管理节点和节点组信息,进行组管理。提供对实时应用的支持监视系统的硬件状况,如CPU、风扇、电源、内存、硬盘、稳压模块等的运行情况。详细功能如下: 远程电源控制(节点的远程开机、关机和重新启动) 远程硬件、软件重新设置 远程软件重新设置(Ctrl+Alt+Del) 远程OS/POST/BIOS控制台 远程重要器件控制,如风扇速度/温度等 远程硬件事件日志 远程BIOS启动顺序设置 并行自动网络安装 支持多种的系统映像和节点类型 对集群的全局/组/节点的支持 支持rpm和tar包的安装 支持系统安装后的安装配置脚本 集中的启动控制 管理节点控制所有节点的启动 并行远程Shell (psh) 基于command的rsh和ssh支持 单独事务操作的多节点并行应用支持 命令格式支持节点,组,节点范围,节点排除 并行拷贝 (pcp) 并行rsync (prsync) 并行ping (pping) 远程控制台(rcons) 串口 控制台日志记录 多个串口控制台的访问支持 ssh 安全协议支持2.4. Intel Parallel Studio XE Cluster Edition集群开发套件HPC 集群的计算能力以两倍于摩尔定律的速度提高。英特尔 Parallel Studio XE Cluster Edition 是综合的HPC 集群开发套件,它能够提高 MPI 应用程序在多核和众核系统上的性能、能力和开发效率。英特尔 Parallel Studio XE Cluster Edition 套件提供了一组由C/C+ 和 Fortran 开发工具和编程模型驱动的全面的并行编程标准,允许软件开发人员有效地开发、分析和优化 HPC 应用程序,使之扩展至未来并更快扩展,同时提高与IA兼容的处理器(包括英特尔 至强融核协处理器)的性能。英特尔 Parallel Studio XE Cluster Edition 包含下一代软件开发工具:英特尔 MPI 库高可伸缩性以及与互连无关的低延迟MPI 库。英特尔 跟踪分析器和采集器MPI 通信性能分析器。英特尔 C、C+ 和 Fortran编译器行业领先的编译器。英特尔 MKL 和英特尔 IPP用于数学和多媒体的性能库。英特尔 线程构建模块和英特尔 Cilk Plus基于线程的并行编程模型。英特尔 Advisor XE适用于 C/C+、C# 和 Fortran 应用程序的线程辅助,在集群的主节点上采用基于线程的并行机制。英特尔 VTune Amplifier XE性能和线程档案器可在每个节点上启用MPI。英特尔 Inspector XE内存和线程检查器可在每个节点上启用MPI。静态分析定位难以发现的缺陷。英特尔 MPI 基准测试一组开源的 MPI 和集群基准测试内核。主要特性用于HPC 开发的集成工具套件通过行业领先的英特尔编译器、并行模型和库,利用针对 HPC 集群中的当今多核处理器和未来众核处理器的高性能优化,实现卓越的共享、分布式或混合应用程序性能。行业领先的 MPI 库英特尔 MPI 库为运行在英特尔平台的集群中的应用程序提供了全新水平的性能、可伸缩性和灵活性。最高扩展到 120,000 个进程高性能低延迟互连无关性运行时结构选择应用程序集群调优功能Multirail InfiniBand 支持Berkeley Labs Checkpoint Restart (BLCR) 支持英特尔跟踪分析器和采集器英特尔跟踪分析器和采集器是用于理解 MPI 应用程序正确性和行为的强大工具。可视化和理解并行应用程序的行为对分析统计数据和负载均衡进行评估分析子例程或代码块的性能了解通信模式并识别热点减少花费在工作负载上的时间高性能C/C+、Fortran 编译器和库英特尔 C/C+ 和 Fortran 编译器具有内置的优化技术和多线程支持,可用来创建在最新的英特尔 多核和众核架构上达到最佳运行状态的代码。多核和众核优化支持分布式内存 CAF(Co-Array Fortran)高级优化,多线程和处理器支持利用MPI 和线程模型(例如OpenMP、英特尔 Cilk Plus 和英特尔 TBB 方法)支持混合的并行模型,从而提高集群上的应用程序性能行业领先的英特尔 MKL 和英特尔 IPP 包含大量例程,可提高性能并缩短开发时间详细信息英特尔 Parallel Studio XE Cluster Edition 提供了一个功能完备的工具套件,解决了 HPC 开发人员所面临的挑战,开发人员可以利用这款套件来提高 HPC 应用程序的性能和可靠性。它整合了英特尔的经过验证的集群工具和英特尔高级线程/内存正确性分析和性能剖析工具,允许针对当今和未来的 HPC集群系统扩展应用程序的开发。提高性能通过行业领先的英特尔编译器、并行模型和库,利用针对 HPC 集群中的当今多核处理器和未来众核处理器的高性能优化,实现卓越的共享、分布式或混合应用程序性能。MPI 延迟英特尔 MPI 库比同类型的 MPI 库快数倍。编译器性能行业领先的英特尔 C、C+ 和 Fortran 编译器。剖析和调优除了使用英特尔 跟踪分析器和采集器进行本地 MPI 剖析之外,英特尔 VTune Amplifier XE 现在可在每个节点上启用 MPI。扩展至未来英特尔 Cluster Studio XE 提供了工具、编程模型和性能库,开发人员创建的代码可以在现在的英特尔 至强 处理器上扩展,也可以轻松地扩展到英特尔 至强融核 协处理器。MPI 的惊人容量英特尔 MPI 库可扩展到超过 120,000个处理器。并行编程模型这是开源英特尔 线程构建模块和用于线程并行化的英特尔 Cilk Plus的商业版本。扩展效率在预算和进度的双重压力影响下,拥有正确的工具和编程模型来快速开发和部署可靠的 HPC 应用程序变得至关重要。英特尔 Cluster Studio XE 为混合应用程序开发和并行编程模型提供了易于采用的、功能强大的线程和正确性工具。线程和内存正确性英特尔 Inspector XE 可在每个节点上启用MPI。MPI 正确性通过发现 MPI 错误来提高工作效率。快速的性能剖析英特尔 VTune Amplifier 可以将识别热点的速度提高 10倍*。并行编程模型使用英特尔 Cilk Plus,只需三个关键字即可编写并行代码。创新的线程辅助英特尔 Advisor XE 对代码进行分析,识别可以进行并行处理的区域,从而提高共享内存代码的性能。2.5. Lustre集群并行文件系统当一个计算任务被加载到Linux集群系统时,各服务器计算节点首先从存储系统中通过NFS 协议获取数据,然后进行计算处理,最后将计算结果写入存储系统。在此过程中,计算任务的开始和结束阶段数据读写的I/O负载非常大,而在计算过程中几乎没有任何负载。当今的Linux并行集群系统处理能力越来越强,动辄达到几十甚至上百个TFLOPS(一个TFLOPS等于每秒1兆次的浮点运算),于是用于计算处理的时间越来越短。经验表明,集群系统中每TFLOPS的计算能力大约需要10TB的存储空间和1GB/s的持续带宽相匹配。虽然存储系统容量提升和单位成本下降都很快,但传统存储技术架构对带宽和I/O能力的提高却非常困难且成本高昂。这造成了当原始数据量较大时,I/O读写所占的整体时间就相当可观,成为HPC集群系统的性能瓶颈。除了对存储系统I/O能力的苛刻要求外,HPC对其管理、扩展、可靠和共享访问等各方面的指标也丝毫不妥协。由于管理维护的复杂性,传统存储系统的管理成本加起来往往数倍于其采购成本。管理任务包括安装和配置新硬件,为用户或应用分配容量,在各子系统间迁移数据以均衡负载和容量,备份和恢复数据,故障排除和系统重建,解决用户对性能和容量等各方面提出的新需求等。同时,与集中式的大型机不同,Linux集群系统本身有许多子系统需要管理维护。算法通常被细化成上百万个子任务,在各计算节点独立运行。这样会造成大量的数据切片和副本的产生,给服务器集群均衡、快速的共享访问带来极大的挑战。在大型项目中,当不同用户和部门需要共享,而核心数据集又经常改变的情况下,这种问题尤为棘手。总结而言,高性能计算对存储架构提出了极高的要求:带宽性能达到几个甚至几十个GB/s,容量能扩展至PB级;完全透明的访问和数据共享;与生俱来的高可靠性和高可用性;集中式的智能化管理,不因容量和设备数增加而显著增加管理成本;无缝整合其他存储系统,轻松获取与交换数据;集成的数据服务,包括备份、远程复制和生命周期管理;可按需独立扩展容量和性能,保护投资。Lustre名字是由Linux和Clusters演化而来,是为解决海量存储问题而设计的全新文件系统。Lustre是下一代的集群文件系统,可支持10,000个节点,PB的存储量,最高可达100GB/S的传输速度,完美的安全性和可管理性。Lustre 对象存储文件系统就是由客户端(client)、存储服务器(OST,Object Storage Target)和元数据服务器(MDS)三个主要部分组成。Lustre的客户端运行Lustre文件系统,它和OST进行文件数据I/O的交互,和 MDS进行命名空间操作的交互。为了提高Lustre文件系统的性能,通常Client、OST和MDS是分离,当然这些子系统也可以运行在同一个系统中。Lustre 是一个透明的全局文件系统,客户端可以透明地访问集群文件系统中的数据,而无需知道这些数据的实际存储位置。客户端通过网络读取服务器上的数据,存储服务器负责实际文件系统的读写操作以及存储设备的连接,元数据服务器负责文件系统目录结构、文件权限和文件的扩展属性以及维护整个文件系统的数据一致性和响应客户端的请求。 Lustre把文件当作由元数据服务器定位的对象,元数据服务器指导实际的文件I/O请求到存储服务器,存储服务器管理在基于对象的磁盘组上的物理存储。由于采用元数据和存储数据相分离的技术,可以充分分离计算和存储资源,使得客户端计算机可以专注于用户和应用程序的请求;存储服务器和元数据服务器专注于读、传输和写数据。存储服务器端的数据备份和存储配置以及存储服务器扩充等操作不会影响到客户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论