版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、仿真工业云平台技术方案建议书目 录 TOC o 1-3 h z u HYPERLINK l _Toc528861239 1 仿真工业云平台综述 PAGEREF _Toc528861239 h 4 HYPERLINK l _Toc528861240 1.1 现状分析 PAGEREF _Toc528861240 h 4 HYPERLINK l _Toc528861241 1.2 需求分析 PAGEREF _Toc528861241 h 6 HYPERLINK l _Toc528861242 1.3 建设目标 PAGEREF _Toc528861242 h 7 HYPERLINK l _Toc528
2、861243 1.4 方案概述 PAGEREF _Toc528861243 h 9 HYPERLINK l _Toc528861244 1.4.1 系统配置表 PAGEREF _Toc528861244 h 9 HYPERLINK l _Toc528861245 1.4.2 系统拓扑结构 PAGEREF _Toc528861245 h 13 HYPERLINK l _Toc528861246 1.4.3 系统方案说明 PAGEREF _Toc528861246 h 14 HYPERLINK l _Toc528861247 2 仿真工业云技术方案 PAGEREF _Toc528861247 h
3、15 HYPERLINK l _Toc528861248 2.1 仿真计算系统 PAGEREF _Toc528861248 h 15 HYPERLINK l _Toc528861249 2.1.1 计算系统需求分析 PAGEREF _Toc528861249 h 15 HYPERLINK l _Toc528861250 2.1.2 刀片计算节点 PAGEREF _Toc528861250 h 16 HYPERLINK l _Toc528861251 2.1.3 多路胖节点 PAGEREF _Toc528861251 h 17 HYPERLINK l _Toc528861252 2.1.4 GP
4、U计算节点 PAGEREF _Toc528861252 h 19 HYPERLINK l _Toc528861253 2.1.5 InfiniBand计算存储网络 PAGEREF _Toc528861253 h 21 HYPERLINK l _Toc528861254 2.1.6 软件及并行环境 PAGEREF _Toc528861254 h 24 HYPERLINK l _Toc528861255 2.1.7 Intel E5-2600 v3处理器性能优势 PAGEREF _Toc528861255 h 31 HYPERLINK l _Toc528861256 2.1.8 Intel E5-
5、2600 v2处理器性能优势 PAGEREF _Toc528861256 h 32 HYPERLINK l _Toc528861257 2.1.9 AMD Opteron 6300系列处理器优势 PAGEREF _Toc528861257 h 34 HYPERLINK l _Toc528861258 2.2 可视化设计桌面系统 PAGEREF _Toc528861258 h 38 HYPERLINK l _Toc528861259 2.2.1 虚拟桌面子系统拓扑图 PAGEREF _Toc528861259 h 40 HYPERLINK l _Toc528861260 2.2.2 桌面虚拟化服
6、务器 PAGEREF _Toc528861260 h 41 HYPERLINK l _Toc528861261 2.2.3 网络系统 PAGEREF _Toc528861261 h 42 HYPERLINK l _Toc528861262 2.2.4 瘦客户端 PAGEREF _Toc528861262 h 43 HYPERLINK l _Toc528861263 2.2.5 软件清单 PAGEREF _Toc528861263 h 43 HYPERLINK l _Toc528861264 2.2.6 桌面虚拟化方案 PAGEREF _Toc528861264 h 44 HYPERLINK l
7、 _Toc528861265 2.2.7 运维管理建议 PAGEREF _Toc528861265 h 46 HYPERLINK l _Toc528861266 2.2.8 安全策略 PAGEREF _Toc528861266 h 47 HYPERLINK l _Toc528861267 2.2.9 高可用性方案 PAGEREF _Toc528861267 h 49 HYPERLINK l _Toc528861268 2.2.10 Citrix桌面虚拟化软件 PAGEREF _Toc528861268 h 49 HYPERLINK l _Toc528861269 2.2.11 NVIDIA V
8、GX GRID K2优势 PAGEREF _Toc528861269 h 52 HYPERLINK l _Toc528861270 2.3 虚拟化系统 PAGEREF _Toc528861270 h 54 HYPERLINK l _Toc528861271 2.3.1 概述 PAGEREF _Toc528861271 h 54 HYPERLINK l _Toc528861272 2.3.2 基础架构 PAGEREF _Toc528861272 h 56 HYPERLINK l _Toc528861273 2.3.3 计算虚拟化 PAGEREF _Toc528861273 h 58 HYPERL
9、INK l _Toc528861274 2.3.4 资源管理 PAGEREF _Toc528861274 h 62 HYPERLINK l _Toc528861275 2.4 集中存储系统 PAGEREF _Toc528861275 h 74 HYPERLINK l _Toc528861276 2.4.1 存储的需求特点 PAGEREF _Toc528861276 h 74 HYPERLINK l _Toc528861277 2.4.2 存储系统方案 PAGEREF _Toc528861277 h 76 HYPERLINK l _Toc528861278 2.4.3 ParaStor200并行
10、存储系统 PAGEREF _Toc528861278 h 77 HYPERLINK l _Toc528861279 2.4.4 DBstor备份存储系统 PAGEREF _Toc528861279 h 83 HYPERLINK l _Toc528861280 2.5 安全系统 PAGEREF _Toc528861280 h 85 HYPERLINK l _Toc528861281 2.5.1 高性能集群整体安全解决方案 PAGEREF _Toc528861281 h 85 HYPERLINK l _Toc528861282 2.5.2 主机与应用安全(计算环境安全设计) PAGEREF _To
11、c528861282 h 86 HYPERLINK l _Toc528861283 2.5.3 区域边界安全设计 PAGEREF _Toc528861283 h 89 HYPERLINK l _Toc528861284 2.5.4 边界完整性检查 PAGEREF _Toc528861284 h 90 HYPERLINK l _Toc528861285 2.5.5 通信网络安全设计 PAGEREF _Toc528861285 h 90 HYPERLINK l _Toc528861286 2.5.6 系统管理 PAGEREF _Toc528861286 h 92 HYPERLINK l _Toc5
12、28861287 2.5.7 审计管理 PAGEREF _Toc528861287 h 92 HYPERLINK l _Toc528861288 2.5.8 安全管理体系 PAGEREF _Toc528861288 h 93 HYPERLINK l _Toc528861289 2.5.9 安全系统配置清单 PAGEREF _Toc528861289 h 93 HYPERLINK l _Toc528861290 2.6 管理系统 PAGEREF _Toc528861290 h 93 HYPERLINK l _Toc528861291 2.6.1 管理网络 PAGEREF _Toc52886129
13、1 h 93 HYPERLINK l _Toc528861292 2.6.2 硬件监控网络 PAGEREF _Toc528861292 h 94 HYPERLINK l _Toc528861293 2.6.3 网络安全防护 PAGEREF _Toc528861293 h 95 HYPERLINK l _Toc528861294 2.6.4 管理节点 PAGEREF _Toc528861294 h 95 HYPERLINK l _Toc528861295 2.6.5 登陆节点 PAGEREF _Toc528861295 h 96 HYPERLINK l _Toc528861296 2.6.6 功
14、能服务器规划 PAGEREF _Toc528861296 h 97 HYPERLINK l _Toc528861297 2.6.7 Gridview集群管理系统软件 PAGEREF _Toc528861297 h 98 HYPERLINK l _Toc528861298 2.6.8 Gridview作业调度系统 PAGEREF _Toc528861298 h 101 HYPERLINK l _Toc528861299 2.6.9 集群环境部署软件Clusconf PAGEREF _Toc528861299 h 109 HYPERLINK l _Toc528861300 2.6.10 集群节能软
15、件PowerConf PAGEREF _Toc528861300 h 110 HYPERLINK l _Toc528861301 3 仿真工业云成功案例 PAGEREF _Toc528861301 h 111仿真工业云平台综述世界范围来看,工业4.0概念引领了全世界制造业的发展方向。其强调的工业化和智能化融合发展道路,已被中国一些制造业发达的地区率先借鉴。中国要从“制造业大国”向“制造业强国”迈进,当然不能在这一波全球性的产业革命中落后。工业制造仿真云,是以体现信息技术与制造技术深度融合的数字化网络化智能化制造为主线。工业云设计与仿真云平台是主要面向工业制造领域的云服务平台。通过把现代CAE技
16、术应用到企业产品设计的流程中,借助其强大的虚拟现实技术,可以早发现设计上的不足,从而减少开发周期、降低开发成本。由于CAE应用的复杂性,进行仿真计算通常需要借助于高性能服务器集群,才能够达到计算的高精度和高响应。涉及的领域包括CAE仿真、物理化学、生物基因测序、数值气象预报、石油数据解释等计算密集型领域。平台包括远程可视化应用、高性能计算服务、信息化系统、工程数据管理等服务。在登录云平台后,用户可以按照实际的业务需求使用资源和服务,实现按需分配,具备在线申请、在线使用和云端存储等一套完整流程。工业云平台融合高性能和云计算的优势,向用户提供工程仿真计算、工业设计和企业信息化服务,是一种面向工业的
17、云计算。现状分析使用PC机办公。研究所现有的IT系统是基于传统PC方式,需要在每台PC上安装业务所需的软件程序及客户端,同时重要的数据也分散在各PC上,在传统的维护方式下面临着诸多的安全以及管理上的难题:数据安全问题难以解决:传统的PC本地只有1块硬盘,随着使用时间的推移,硬件逐渐老化,势必会造成硬盘,如果数据没有最好及时的备份,会给研究所造成极大的损失,这个损失是无法用金钱衡量的,尤其是对于军事科研来说。资源共享问题难以解决:传统方式下,部分仿真设计软件只有有限的授权许可,但是分时使用用户数量较多,势必会造成用户争抢资源的现象,给用户带来极大的不便。由于装有软件的机器部署在机房内,用户必须坐
18、在机房内才能进行工作,降低了工作效率。维护成本不断上升:IT运维人员不仅要进行PC机进行维护,还要对操作系统环境、应用的安装配置和更新进行桌面管理和维护,随着应用的增多,维护工作呈上升增长趋势。随着应用场景越来越复杂,对业务系统的功能性,安全性,方便性的要求越来越高,如何用有限的人员和预算完成IT维护的工作,成为IT部门必须解决的问题。业务连续性的保障:随着应对各种自然灾害和环境变化,要求业务连续性能力增强,能够快速恢复业务访问。良好的体验效果:研究所日常工作中会用到工作站进行三维建模设计,使用的方式是工作站物理机的方式,主机位于工作人员的办公桌下,不仅IT人员管理不方便,而且不能实现集中管理
19、,集中进行备份。数据分散存储:目前办公人员的数据主要分散存储在用户个人的PC机中,没有一个较好的备份手段,一旦硬盘故障可能会造成所有关键数据的丢失,后果不堪设想。工作中需要用到高性能计算集群进行仿真计算。仿真计算软件种类机版本繁多。目前研究所主要使用的CAD、CAE软件,如CATIA、PTC Creo(Pro/E)、SolidWorks等,CAE软件有Fluent、GSE,ANSYS等软件。这些计算资源数据量大,种类多,用户更是来自多个部门和项目,因此不可能简单通过系统管理员人工地实现有效管理和维护,因此建设一个统一的开放式仿真计算服务平台是非常具有意义的。实现资源的有效利用,最大的并行化软件
20、求解以提高整体的计算效能。从而为全卫星系统提供仿真计算和数据存储的硬件支撑。IT系统中存在一些OA,邮件,ERP等信息化系统。目前,本单位存在一些信息化系统,如OA,ERP,PDM,邮件系统等服务于日常工作的系统,主要集中部署或者分布部署在各办公楼或集中的数据中心,每套业务系统一般会独占一台或几台服务器,拥有专门的运维人员进行管理,管理复杂,运维和建设成本较高。需求分析传统的CAD/CAE行业中,CAD设计平台与CAE计算平台往往是独立的。设计人员在本地配置具备高端图形处理卡的工作站,对模型在本地进行渲染,得到的结果通过网络传到远程的高性能计算机中进行求解,高性能计算机得到的结果在通过网络返回
21、本地工作站进行后处理。随着大量的随着业务量的增大,研究所需要将原有的高性能计算平台与现在的云计算平台打造成一个整体平台,通过对其应用类型、用户分布、使用方式等各个方面都进行分析考虑,最终设计得到一个在未来几年内能够很好地支撑企业计算的服务平台。根据用户当前使用状况,结合用户对未来计算平台的期望,认为整个平台的设计需要基于以下几个层面。将所有数据统一管理。传统的设计存在数据安全性问题的原因之一就是数据分散,因此新的平台在数据管理方面要进行统一,将CAD和CAE的数据集中管理。通过配置性能较好的存储硬件和文件系统软件,可以有效地提升CAD和CAE计算的工作效率,同时大大降低了数据损坏的概率。支持远
22、程3D处理。将CAD与CAE平台底层硬件统一后,用户通过零客户端远程访问服务器。远程的CAD服务器通过专用的硬件将渲染好的3D图像数据压缩后,传输到零客户端。CAD与CAE平台统一。CAD与CAE平台统一后,所有任务都在同一个平台上进行计算,管理员不需要再为每个用户配备独立高端的工作站。尽量实现利旧,降低硬件成本。向用户提供虚拟化桌面,通过原有的PC机实现远程访问服务器,可以实现服务器的一对多的使用,随着时间的推移,逐渐淘汰原有的PC机,升级为瘦客户端即可。实现TOPSIM、DWK等仿真系统和仿真平台的动态授权,合理设置权限,优化所内现有的实验资源,达到软件共享目的;操作界面符合流行的Wind
23、ows操作界面风格;能够满足不同仿真实验用户的虚拟桌面设置和资源动态分配要求;具备系统迁移和资源动态调整能力。系统迁移是指后台的部分软硬件需要维护或系统配置变更时,在线工作的操作系统可以迁移到处于正常工作状态的其他硬件上,而用户应用对该迁移察觉不到。建设目标本次建设的工业设计与仿真云平台应该满足以下要求:具有贴近用户应用的流程和界面具有图形化操作界面。管理界面按用户的实际操作流程来设计,界面简洁、使用方便。作业流程监控系统可以显示流程的运行情况,模块的输出信息,和处理的时间进度,整个流程尽在用户的掌控之中。计算能力强,能够高速完成计算处理任务具有很高的计算能力,可以满足数据处理的实时性要求。支
24、持多用户使用,实用性强支持一机多用户,通过科学合理的调度系统实现计算资源的有效利用。每个用户可以申请获得自己专属的计算资源,可根据自己的需要进行调试运行,系统也提供可以保存数据的功能,使得用户可以对以往的数据进行重新计算和分析。软硬件一体化设计平台整体性能通常并不单独由硬件配置或运算效率来决定,而是取决于整个系统中存在的性能瓶颈因素。因此需要提供设备必须是软硬件一体化设计,并且经过大量的系统优化工作,能够有效提升系统的整体性能和运行的稳定性。提供高效的系统监控和管理功能为了能够用好该平台,必须能够利用简单直观的管理工具来管理整个集群系统,建立统一高效的资源管理系统,对所有计算机系统资源进行统一
25、监控与管理,以集中统一的管理方式,高效率、反应灵敏的技术服务机制,标准化、自动化的管理流程达到提供优质的资源管理服务。监控工具可以监控到整个系统的软硬件运行状态,同时提供有效的报警功能,当出现故障点时可以及时提醒系统管理员进行处理,避免或减少系统故障和由其引起的损失。良好的系统扩展性采用集群架构,具有优异的动态扩展性。未来可根据用户应用需要随时扩展。地震资料处理的动态伸缩性非常强,用户如果需要减少节点数目,可以随时指定节点与整个系统隔离;用户如果需要扩展节点,只需稍微变更配置文件即可完成;用户可以使用计算机系统提供的节点自动安装功能自动化地安装(包括操作系统)和配置应用节点。随用户需求的提升,
26、用户可以在原有设备基础上,增加少许投入,在不影响现在应用运行的基础上实现系统硬件平台的升级。以服务器为中心的一体化平台以服务器为中心,将XXX所有的设计、仿真和协同优化应用集中到服务器端。并通过浏览器,用一个统一的Web门户实现:CAD设计和CAE前后处理等三维可视化设计应用软件使用和调度管理;仿真类应用软件的使用和调度管理;协同优化类应用软件的使用和调度管理;从而保证用户在低端桌面机上不用安装任何应用软件的情况下,运行大型的设计、仿真和优化任务。增强的安全性管理和控制措施提供增强的安全性管理和控制措施,如:统一身份认证系统集成,安全审计,密级管理,防火墙封装等,保证共享开发前提下,系统依然具
27、有高安全性特征。并且,支持XXX所的用户登陆方式,如与XXX所的身份认证系统集成,实现单点登陆。方案概述系统配置表表:高性能集群系统配置清单类别产品型号技术规格单位数量双精度浮点峰值Tflops存储裸容量(TB)功率(kW)高度(U)合计20.955221830.1721 硬件系统1.1 计算系统CPU计算节点TC4600H5U机架式刀片机箱、可以支持10个计算刀片;1*管理模块,集成远程KVM和远程虚拟媒体;1*千兆网络交换模块,提供6个RJ45千兆接口;4*冗余热插拔散热模块;4*2000W电源(3+1冗余热拔插);台312.615CB60-G162*Intel Xeon E5-2680v
28、2十核处理器(2.8GHz);64GB DDR3 ECC内存;1*300G 2.5寸SAS热插拔硬盘;2*千兆以太网接口;1*56Gb FDR InfiniBand接口; 片3013.44SMP胖节点I840-G254U机架式;4*Intel Xeon E5-4650v2十核处理器(2.4GHz);512GB DDR3 ECC内存;4*300GB 2.5寸SAS热插拔硬盘;1*512MB八通道6Gb SAS RAID卡;2*千兆以太网接口; 1*56Gb FDR InfiniBand HCA卡;2*1000W冗余电源;台21.53628GPU计算节点I620-G152U机架式;2*Intel
29、Xeon E5-2680 v2十核处理器(2.8GHz);2*Nvidia Tesla K20 GPU卡;64GB DDR3 ECC内存;1*300G 2.5寸10000转SAS硬盘;2*千兆以太网接口; 1*56Gb FDR InfiniBand HCA卡;冗余电源;8个桌面license;台25.57624虚拟桌面服务器W760-G102U机架式;2*Intel Xeon E5-2680v2十核处理器(2.8GHz);128GB DDR3 ECC内存;3*300GB 15krpm SAS 硬盘;2*1T 3.5吋 SATA硬盘;(raid10,安装xenserver)2*千兆以太网接口;1
30、*双口8Gb HBA网卡;1*PCI-E双口10G多模光纤网卡; 2*nVidia VGX K2 8GB(R2L)GPU卡;(raid6)1*超薄DVD-RW;冗余电源;台7714管理/登录节点I620-G102U机架式;2*Intel Xeon E5-2620 v2六核处理器(2.1GHz);8*8GB DDR3 ECC内存;2*300G 2.5寸10000转SAS硬盘;2*千兆以太网接口; 1*56Gb FDR InfiniBand HCA卡;冗余电源;台20.403214瘦客户机华硕EB1037操作系统:DOS;支持英特尔 赛扬 J1900 处理器;内存2GB;NVIDIA GeForc
31、e 820M 512MB;1Gb网络接口;台481.2 存储系统ParaStor200并行存储系统(裸容量216TB,可用容量108TB)P200_oStor-W-4(数据控制器) 高性能64位处理器,32GB Cache,2个管理网络接口,提供72TB的存储容量(3.5” 7.2krpm 3TB SATA24),4个1Gb数据接口,56Gb InfiniBand数据接口,1+1冗余电源,内嵌高性能数据存取引擎,用于并行处理所有客户端的数据访问请求,内嵌高性能数据恢复引擎,支持节点间replication(多副本)/N+M(纠删码)数据冗余方式套32162.412P200-oPara(索引控制
32、器)高性能64位处理器,64GB Cache,2个管理网络接口,Raid6模式保护的480GB高速Flash元数据存储空间(240 SSD4+300GB 10krpm SAS2),1+1冗余电源,内嵌高性能数据索引引擎,管理客户端的并行访问,实现全局统一命名空间,并支持索引控制器以Active-Active集群方式运行,能够满足高IOPS,高带宽等各类应用需求套214虚拟机镜像存储DS800-G10(2U24盘位):8个8Gb FC+4个6Gb SAS 4X;:SAS:900G/600G(10K SAS),2T/3T/4T(7.2K SAS),200G/800G 2.5吋 SSD;:直连/双机
33、/SAN环境;:可扩容最大到192块硬盘台12SAS硬盘:2.5寸 SAS 900GB接口硬盘;900GB 10K;:用于DS800-G系列;个241.3 网络系统计算网络InfiniBand交换机Mellanox FDR InfiniBand交换机36端口交换机台212InfiniBand线缆FDR InfiniBand线缆根26管理网络千兆交换机 48端口千兆交换机,48个10/100/1000baseT铜接口台10.31存储网络BR-340-0008-A 24端口交换机,24端口激活,单电源(固定),含24个8Gb短波SFP,含Web tools、Zoning软件授权,支持级联,3年原厂
34、保修(非现场)台10.3光模块8Gb 光纤模块个11核心层网络24口万兆交换机主机H3C LS-5820X-28S 24口SFP+ 万兆交换机主机,无电源,1年保修台10.3光模块SFP+光模块个14控制台集群控制台1U手动伸缩控制台(17”液晶显示器、鼠标、键盘、8口切换器等)套10.11视频切换系统Cluskvm100 菊花链KVM主控端菊花链控制终端,每终端最大可支持32个节点台10.11Cluskvm100 CIM模块节点USB模块,每节点配置1个个261.4 基础设施系统CloudBASE C200机柜系统C200 42U风冷机柜铝镁合金型材框架、前门(含LED套件)、后门台3Clo
35、udBASE C200配电系统机柜PDU每PDU含15位10A C13插座+12位16A C19插座,3个32A单相空开,含1个32A 3相5芯 IEC60309工业连接器台6125A PDM系统(带监控)PDM系统作为集群配电分配模块,可提供最多4个32A PDU的统一配电管理,输入采用125A 三相5芯 IEC60309工业连接器,输出为4个32A 三相5芯 IEC60309工业连接器个26PDU延长线 1.5M1.5M PDU延长线,两端配置32A IEC60309工业连接器工头/母头各一个,一端连接于PDM,一端连接于PDU;条2PDM380V外延电缆PDM 125A 380V外延电缆
36、(125A 5芯电缆)米5PDM380V工业连接器含一端1125A IEC60309连接器个22 软件系统操作系统LinuxCentOS 64bit 企业级Linux操作系统套1集群管理调度系统Gridview Gridview HPC版,含标准版、集群管理增值组件、作业调度增值组件,适用于高性能计算环境;提供基础版ClusPortal,包含Serial和MPI,支持串行、OpenMP和MPI并行作业的Web提交,支持互动作业,作业故障自动切换重启,文件传输,查看修改文件等操作;套1Gridview ClusQuota集群配额系统,可支持用户机时配额管理,充值计费管理,用户信用管理等功能;(可
37、选)套1Gridview ClusPortal系统,提供高性能计算应用的Web封装,可选Ansys、Fluent、CFX、Abaqus、Nastran、Feko、CFD+、Comsol、HFSS;支持定制开发套1集群配置管理运维工具Clusconf,提供基于命令行的集群环境配置工具软件,实现一键配置所有节点的SSH无密码访问、RSH无密码访问、网络连通检测、IPMI配置、NFS配置、添加及删除用户、同步文件,实现有所有节点并行执行命令等功能,方便集群运维管理套1HPC软件环境自动化部署工具Clussoft,提供常用MPI、数学函数库、GPU开发环境、HPC基准测试程序、常用开源HPC应用软件的
38、一键部署功能,可选择性或一键安装,快速灵活套1节能软件Powerconf.2.1Gridview功能扩展包,可以对于整个集群的性能,功耗,节能情况做统一的监控和管理。在有效地降低集群能耗成本的前提下,不影响集群运算性能套1应用开发环境编译器GNU编译器,支持C/C+/Fortran套1Intel编译器,支持C/C+/Fortran套1数学库MKL、ACML、BLAS、LAPACK、ScaLAPACK、FFTW等套1并行环境OpenMP并行环境套1OpenMPI、MPICH2、MVPAICH2等MPI并行环境(支持InfiniBand和以太网)套1GPU开发环境CUDA驱动、编译器、调试器、工具
39、包、SDK等;CUDA FFT、CUDA BLAS等;套1虚拟桌面操作系统Windows server2008 R2Windows Ser Ent 2008 r2(64bit)25用户(COEM)套2-Windows 7Win7 64专业版 COEM 操作系统套50桌面虚拟化软件思杰Citrix桌面虚拟化XenDesktop 铂金版自带一年升级服务用户数50-系统拓扑结构图:工业云系统拓扑图系统方案说明计算系统整体双精度峰值性能达到XXX万亿次每秒,其中双路计算节点XX台,计算峰值XX万亿次每秒,四路胖节点XX台,计算峰值XX万亿次每秒,GPU计算节点XX台,计算峰值XX万亿次每秒(CPU+G
40、PU);主要用于CAE软件的高性能计算。配置登陆、管理节点X台,用于集群的管理和登陆,支持双机热备;采用ParaStor200分布式并行存储系统,裸容量XXTB,聚合带宽XX GB/s,使用双副本模式,可用容量XXTB;计算网络采用56Gb/s FDR InfiniBand,采用模块化InfiniBand交换机,全系统线速交换;管理网络采用千兆接入万兆上联的方式,保证充分的每个节点的千兆线速;磁盘阵列存储采用FC网络,为虚拟桌面服务器提供SAN存储环境;系统配置一套虚拟桌面系统,一共配置XX台虚拟桌面服务器,M+1冗余;支持创建XX个高端桌面,支持XX个桌面并发运行。方案提供完备的集群系统软件
41、,包括:节点Linux操作系统;Gridview集群操作系统,提供系统监控、管理、告警、统计等功能和组件;GNU、Intel等编译环境,BLAS、LAPACK、FFTW、Intel MKL等常用数学函数库,OpenMP及MPI并行开发环境,以及其它相关的HPC开发运行环境;方案提供成熟的作业调度系统和Web Portal,Portal类型包括ANSYS,Fluent,CFX,Abaqys,Ls-dyna, CFD+, Feko,HFSS,预留定制化接口,支持定制化开发。系统功耗(不含空调制冷系统)不超过为31千瓦,电费可按此核算;公司将为用户提供完善的服务,包括安装调试、系统优化、用户培训等,
42、这些都不单独收费,用户不必考虑这些方面的费用;公司提供5年免费上门服务,极大降低了用户的运行维护费用;公司是领先的专业高性能机算机及方案提供商,拥有较多的成功案例,包括百万亿次、千万亿次超级机算机的成功案例,产品的可靠性和稳定性得到了充分验证。仿真工业云技术方案仿真计算系统计算系统需求分析计算性能高高性能计算应用最为核心的需求仍然是计算能力,高性能计算机峰值计算能力代表着高性能计算机的整体处理能力,而对于大部分的高性能计算应用,对计算资源的海量需求仍然是最为迫切和直接的需求。内存需求高在高性能计算过程中,会进行大量的内存访问,对内存的容量和访问速度都有很高的需求。尤其随着CPU多核化的快速发展
43、,对内存的访问能力提出了新的需求,Intel和AMD等CPU厂商已经认识到了这一问题,目前这两个厂商的CPU架构均已经升级为直连架构、内存控制器均已经集成到了CPU中,避免多个CPU访问时的内存争抢。同时,随着CPU的不断升级,内存通道的数量及内存的频率也在不断升级。对于用户,在方案需求阶段,建议要求配置兼容的性能最高的内存规格,且要求内存条的数量与CPU的内存通道数量匹配。适合高性能计算应用用户应用需求是高性能计算机发展的驱动力。高性能计算机的部件及架构要适合具体的高性能计算应用。例如,如果应用软件需要大内存、共享存储扩展等需求,则系统需要配置大内存及多路胖节点。如果应用软件的扩展性不好,则
44、在相同的预算下,尽量考虑高主频、核心较少的方案。如果系统扩展性很好,则尽量考虑总体计算峰值最高的方案。总体功耗低高性能计算机是能耗大户,一台高性能计算满负载运行,在他的生命周期内所消耗的电力的预算几乎和高性能计算机初期的预算一致,所以高性能计算机降低功耗非常有意义。降低功耗一般可以通过选购效率较高的IT设备、提高制冷及空气调节效率、使用功耗控制软件等几个方面实施。高密度较高密度能满足用户机房空间有限的需求,同时,较高的密度能够有效节约空间,降低运维成本,降低管理难度。可靠性要求相对不高目前,高性能计算机主要架构为集群架构,一般工作方式为若干台x86服务器通过标准网络连接,通过作业调度软件将计算
45、任务分发到不同计算节点上。在一台高性能计算机系统中,网络系统、存储系统、管理登陆服务节点等都属于系统级组件,单一组件的不可用会导致整个系统的不可用,对可靠性要求非常高;而集群计算节点由于作业调度可自动将不同作业分发到不同的节点上,少量节点的故障不会导致整个系统的不可用,所以在预算有限的情况下,可适当降低计算节点高可用性方面的预算,一般单个节点都配制一块本地硬盘,如果是机架服务器,也可考虑非冗余电源的配置。刀片计算节点计算密度更高提高计算密度是刀片服务器发展的主要动力之一。对于大规模并行计算机来说,提高计算密度尤其重要,刀片式集群系统有效提高了计算密度。机房要求降低大规模高性能计算机将对机房空间
46、提出较高的要求,并且要为系统的扩容升级留下空间。刀片式集群系统实现了较高的计算密度,并且有效降低了系统功耗,对系统空调等散热系统的要求也相对降低。功耗散热降低刀片服务器的功耗部件较少。刀片柜中的电源将由多个刀片共享,所以会使用高效率电源,根据实时功耗确定工作电源个数,使电源工作在最佳效率曲线上,减小了系统功耗,同时产生的热量减少,减少了冷却系统的耗电量。布线简单在机架式服务器构成的集群系统中,系统布线是一个很大的问题。系统的线缆可能包括高性能计算网络(InfiniBand,以太网等)、数据网络、管理网络、监控网络、电源网络、KVM网络等,这些线缆需要连接到每一个计算单元。尤其是在高密度、计算单
47、元数目又比较多的情况下,系统布线是令设计人员头疼的问题。刀片式集群系统可以大大减少系统布线的数量。多个刀片服务器可以共用冗余电源,内置的交换机将高速网络(InfiniBand等)、数据网络、管理网络、KVM网络集成在一起,只需要对刀片柜进行布线,刀片柜内部的计算刀片通过背板连接,无需布线。根据计算,使用刀片式集群,可以节省85%以上的系统布线。可靠性提高刀片服务器采用无源背板进行系统互连,与传统的线缆连接方式相比,把可靠性提高到了一个数量级以上。刀片系统采取模块化、冗余、热插拔设计,进一步提高了系统的可靠性。管理方便刀片服务器管理监控高度集成:通过统一的监控界面,监控所有刀片资源,包括机箱电源
48、、风扇、计算刀片、背板、交换机。管理系统整合目前两大监控技术,即IPMI以及KVM (Over IP),真正实现监视控制一体化。同时,为实现方便快捷的刀片服务器管理,通过优化的管理软硬件设计,改善可管理性,增强部署和可服务性,这些将降低总的所有权成本。多路胖节点系统共配置8台胖节点,采用A840-G10四路服务器,每节点配置4颗AMD Opteron 6328八核3.2GHz处理器,32个x86-64计算核心,每节点配置内存512GB,双精度峰值达到0.41万亿次。系统共配置2台胖节点,采用I840-G10四路服务器,每节点配置4颗Intel Xeon E5-4650v2 2.4G 10C C
49、PU,40个x86-64计算核心,每节点配置内存512GB,双精度峰值达到0.77万亿次。系统共配置2台胖节点,采用I980-G10八路服务器,每节点配置8颗Intel Xeon E7-8850v2 2.3G 12核CPU,96个x86-64计算核心,每节点配置内存2048GB,双精度峰值达到1.76万亿次。图:天阔I840-G10四路服务器图:天阔A840-G10四路服务器图:天阔I980-G10八路服务器“胖”节点主要是相对于普通的单路、双路计算节点而言,按照目前的技术发展,所谓胖节点至少有4颗物理CPU以上,内存至少能扩展到512GB以上。常用的x86架构胖节点主要为四路和八路,目前最高
50、配置的八路胖节点单机能支持8颗物理CPU,120个CPU核心,内存能扩展到4TB以上。胖节点内部一般采用NUMA架构,所有CPU能够全局共享系统内存,并保持cache一致性。胖节点相比双路“瘦”节点,最大的优势在于单机的CPU核数多、单机计算能力强,内存扩展能力强,另外,胖节点的本地磁盘IO扩展和PCI-E板卡扩展能力一般也比双路瘦节点高。高性能计算应用软件数量众多,需求复杂,单一的刀片集群方案并不能完全解决所用应用的需求,多路胖节点在解决以下几类应用需求时有明显的优势:共享内存并行程序目前并行程序的编程标准目前主要有两类,共享内存并行程序(Pthreads多线程和OpenMP并行程序等)和消
51、息传递并行程序(MPI并行程序),共享内存并行程序设计较为简单,有众多的应用实例,但共享内存并行程序无法实现跨节点的并行,只能单节点内并行。多路胖节点单节点的CPU核心数多,计算能力强,能够更好的实现共享内存并行程序的需求。大内存应用程序对于很多科学问题,对内存容量的需求非常惊人,比如千万级、亿级网格的非线性结构计算,往往需要256GB-512GB的内存容量,才能很好的完成需求,再比如电磁仿真软件Feko,对内存的容量要求也非常大,由于多路胖节点CPU数目多,内存扩展插槽数量多,能够满足应用海量内存的需求。高I/O应用程序.有的应用软件,在运行过程中需要大量的临时文件读写,而零时文件读写一般设
52、置在本地磁盘上,而非集群的网络共享文件系统上,防止对集群网络文件系统带来巨大IO压力,导致IO性能降低以及对其它应用造成影响。刀片节点由于体积小,硬盘扩展有限,无法实现本地高速IO,多路胖节点支持更多的硬盘位及RAID功能,对于这类应用有更好的支持。图形处理以及其它外插卡需求刀片系统由于空间的限制,硬盘槽位、内存插槽的数量受到限制,对各种标准接口的支持也打了折扣,有的厂商的刀片完全不支持,或通过降低密度来支持一些标准的接口。多路胖节点由于空间大,性能高,配有多个高速插槽,可以插各种外接板卡,包括高端显卡、GPGPU、各种保密卡、HBA、HCA、万兆网卡等等,可以满足各种需求。通过外插高端图形卡
53、,强大的CPU处理能力以及强大的GPU浮点运算能力,能够满足大型电影、数字制作、虚拟、仿真、渲染等图形运用,大大提升图形处理能力,为用户节省更多的时间。GPU计算节点本集群配置4台W580I-G10机塔互换式高密度GPU服务器。每节点配置2颗Intel Xeon E5-2680 v2 Ivy Bridge 10核2.8GHz处理器和4块NVIDIA Tesla K20加速卡。单节点GPU双精度浮点峰值为41.17=4.68 Tflops,GPU单精度浮点峰值为43.52=14.08 Tflops,CPU双精度浮点峰值为0.448 Tflops。所有GPU节点的GPU双精度浮点峰值为44.68=
54、18.72 Tflops,CPU双精度浮点峰值为40.448=1.792 Tflops。HPC方案注释:方案完成后请删除方案中I620-G15和W580I-G10选择其中一种即可,W580I-G10支持的GPU密度更高。图:天阔W580I-G10机塔互换式服务器W580I-G10是高密度GPU专用服务器。GPU专用服务器相比普通的刀片服务器及机架服务器、主要具有如下技术指标需求:特定物理尺寸、特定插槽用做通用计算的nVidia Tesla 系列GPU的物理尺寸为全高全长双宽,K10和K20C、K20、K20X的长度会更长一些,需要预留足够的空间。GPU需要的插槽长度为PCIe x16,信号速率
55、也要为PCIe 2.0 x16,计算能力3.5及以上的GPU需要PCIe 3.0 x16的信号速率,否则会损失主机与设备间的数据传输速度,服务器需要提供满足要求的插槽。大功率电源、风扇单块GPU满载功率为225瓦至235瓦,通常的服务器电源不能满足供电要求,需要配备大功率电源。为将GPU产生的热量及时排出,风扇要有足够的出风量,具体做法是增加风扇数量。主动散热GPU卡对散热要求较低,将风扇调为标准转速即可,被动散热GPU对服务器散热性能要求最高,必须将风扇转速调为全速。专门设计的风道增加风扇数量并不意味着一定能够将GPU温度降到安全范围内(85度以下),必须对风道进行专门设计,提高散热效率。n
56、Vidia Tesla系列GPU都是单向进风单出风,针对消费级显卡(一般中间进风两头出风)的机箱不能安装Tesla计算专用显卡。InfiniBand计算存储网络以MPI为代表的并行高性能计算程序,在多节点并行运行时有频繁大量的网络数据通信,计算网络的性能对并行程序的计算性能、并行加速比以及可扩展性有决定性的影响。这主要反映在两方面。如果并行计算程序的数据通信以小数据包为主,且数据交换非常频繁,这一类并行程序对计算网络的延迟性能非常敏感,计算网络的延迟越低,程序的并行性能越好;如果并行计算程序数据通信大数据包较多,则对计算网络的带宽性能敏感,计算网络的带宽越高,程序的并行性能越好。实际情况中,大
57、部分并行应用程序对计算网络的带宽和延迟性能都非常依赖,低延迟、高带宽的计算网络是大规模并行计算必不可少的要素。另一方面,目前大规模高性能计算集群均采用分布式并行存储架构,集群的规模越大,或者应用程序对存储I/O性能要求越高,则对并行存储系统的存储网络性能要求越高,要求存储网络具有低延迟、高带宽的特性。因此,本系统方案采用目前业界最高性能的56Gb/s InfiniBand FDR高速网络,用作并行计算程序的计算网络以及并行存储系统的存储网络。系统配置1台模块化FDR InfiniBand交换机,配置144个FDR端口,实现系统节点之间的56Gb/s FDR线速交换。系统全部线缆采用光纤线缆,相
58、比于铜缆,光纤线缆连接距离更长,不易折损,更容易布线和维护,线缆故障时,可方便的进行替换。系统的InfiniBand拓扑结构如下:图:InfiniBand网络拓扑结构采用大端口模块化核心层InfiniBand交换机的组网方案具有布线规划简单,扩展灵活机动的特点,相比于小交换机堆叠方案的优势主要有:布线简单,易于维护管理系统扩容方便,如果使用小交换机堆叠,系统大规模扩容时可能全部线缆重新布线调整模块化大端口交换机的可靠性设计更高,可管理性更好InfiniBand是高速信号,模块化大端口交换机内部交换采用背板、页板接插无线缆设计,信号损失小,可靠性更高系统InfiniBand网络可采用成熟的Fat
59、-Tree、Mini-Hop路由算法,虽然InfiniBand交换机上配置了冗余子网管理模块,但根据上海超算、深圳超算等超大型系统的使用和运维经验,建议InfiniBand子网管理不直接运行在InfiniBand交换机上,因为InfiniBand交换机上的处理芯片性能较弱,存在性能瓶颈,容易造成网络瘫痪。InfiniBand子网管理服务建议运行在系统管理节点上,并配置冗余。56Gb/s FDR是当前最高带宽、最低延迟的InfiniBand产品,网络带宽是QDR的两倍,延迟只有0.7us,只有QDR的一半。FDR InfiniBand的56Gb/s带宽和64位/66位的编码方式实现了接近100%
60、的InfiniBand传输效率,700纳秒的点对点延时第一次将通用网络的带入了纳秒时代,实现了在应用延时上的数量级的革新。图:InfiniBand技术的发展56Gb/s FDR是目前最先进和最主流的InfiniBand技术,性能方面相比上一代的QDR有革命性提升,产品方面已经全面完成从QDR到FDR的产品切换,市场方面,目前全球市场FDR产品的出货量早已经超过QDR,市场预期FDR的市场占有率会继续迅速蹿升,而QDR市场将大幅度微缩,逐渐退出市场。2011年11月全球超级计算机TOP 500中,InfiniBand FDR已经暂露头角,共有2套系统入围,半年之后的2012年6月TOP 500中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金属材料采购管理制度
- 餐饮采购管理制度及流程
- 智慧云广播系统解决方案
- 2026年宁波市装修合同(1篇)
- 综合实践校园里的八个方向(课件)-2025-2026学年三年级上册数学北师大版
- 适合除夕发给对象的暖心文案4篇
- 燃气应急预案14篇
- 销售领导年会致辞7篇
- 2014施工方案大全(3篇)
- 中泰证券营销方案(3篇)
- 肝硬化HRS合并肝肾综合征型肝肾联合损伤方案
- T/CI 366-2024新能源汽车动力电池用高抗拉强度超薄铜箔
- 2025年中南体育考研真题及答案
- 2025浙江金华市东阳市部分机关事业单位招聘编外人74人员(二)笔试考试参考试题及答案解析
- 测绘工程专升本2025年测量学测试试卷(含答案)
- 2025年6月浙江省高考历史试卷真题(含答案解析)
- 楼面建筑防水施工方案
- 2025年上海可行性研究报告收费标准
- 吴忠水泥排水管施工方案
- 周哈里窗的课件
- DB63∕T 1887-2021 青海高原绿色勘查规范
评论
0/150
提交评论