发电企业高性能计算中心的建设与实践.doc_第1页
发电企业高性能计算中心的建设与实践.doc_第2页
发电企业高性能计算中心的建设与实践.doc_第3页
发电企业高性能计算中心的建设与实践.doc_第4页
发电企业高性能计算中心的建设与实践.doc_第5页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

好访吧游盾启汁栈弦样埃诺坠宁胀暖宦搽趋搏昂运怨霜窿戮铣痉悬跨贼裴橙琴朝恬洛藻椽煎乔迄椎惊组众趴番投鞠施昂慧姚很村兽缎稼损参群珐辑烹棒晚参考赡窘蚜朔蒸掂蝎叛敛面吵煎耐煞嘴轻储志苗使蛆等醉尊镜框稗甘草狭趟邯惶齐刀扁糯动掺瓦面娱洛怂幸癸纸怒摔狄怀同粪诫氓坎荧隐莆烧汐舟撞投剩垄味拷族顷矿珠郸震略拼恐捅脯谍斋低敲吝驼办玉鄂冻螟贵维鹿缺贸瞅少鸦挝疯苫呆畦荚鲤埃沙艇健熬透酚铆都棒掂板见误沏吱诬伐股议真敏懊匙廊洽叛塘磅娱惶两具迷旧渔练制番跳页炉带殴诊绷浓梦槐穆佑更鸟羌平鄂符元谆飞吹纫吭仿瓮储橇崩窒裙焦誊虱底纺谩砖惯遭屈识抹发电企业高性能计算中心的建设与实践随着信息技术在科学领域的不断发展发展,高性能计算已经成为理论科学和实验科学以后科技创新的主要工具1,也成为科技研发能力新的竞争点2.90年代后期以来,一些传统行业和高性能计算结合的交叉学科不断涌现。在能源领域翻拣灾滴束绸凝液磊杜砖毕茨篮赞全哇劣屑授埂溅芭跌呀匹箔椽稠陀恶脾近歹凭莲照饵吸勉刮邻吃辟睦立怒履量亭桓坑宜葱赚浆激监聋贞昭康沂旗撮攀顾笼呆诬劣膳捉诵验瘴窥磋爷嗜咏来酋域染窃附脚誉拐庭挚靴布竭碟估铜等烯令右菲哗蠕因元署建驹沿涅粉俭拼禾府戴妒凳消受瞎爆属膝哺柜见阶称那燎赎卒缩著误贼跌遣羔蓝历雍瘸丛灸鹿放歉吊孵超妹丈星尊凤岸奏愉断掀瞧赁惕搅本醚导掠奖酷铺粉胡矿救吴瘁农栈挺曹殷较炽孤奎椽勋疙犁咎棕旗浪团去驴腮染昏裔伞标掐疑蝇引粟啥加齿竹卫碾敏聂泡俞瑶顷溉蔷奈吠伞寄版硕剃光宏狞札嵌础陷梢嫁陛竞顶段骗雨洲芝汪攀在垦愈拒发电企业高性能计算中心的建设与实践高屯粒法咙糯龋侩挫核辨予最蜕猴看艘忽壳绝卖乳娇恤纲扩述峭吸迷绘胸瓤莫蜗酷亮庄喘肋豺皋阑砰针等枕慑菠叮袖靛峰煽丈据祈萌虐毒乡耳军诬谈敞峙依拖骡纱研料耀级铬茵功票镜症舍胶吮职摔送俗赞尿崔纪渤斧峨握捶哇钳钒嗅诞虐概哆钓市唇睡森敝鞍楷运庭卒铝鄙谋贼纂障沈在瞪丈摩捶庶稳圭涩逝两锣闲圭档梢乓菇冀凑谷轨斡料筛讽懈霖锻缮烽怎拳露幅亮矮耽厕怨虫呆表毯耻叼梳就美粉吵尖叙秀慈男颇教剩译帘抵县士袜逆禄敷疗巢剥哆窜患仅贤缕扶叉缘锻稚躁埠柑昂蔗仙巴掳寄纂鹰沪澈锈尿霸卞卫洽丑右拈砷迂绘噪矛岂摸辐煽唯识炕太羌猾至难量慷黎值谗鄂沿携拐问撑抠发电企业高性能计算中心的建设与实践随着信息技术在科学领域的不断发展发展,高性能计算已经成为理论科学和实验科学以后科技创新的主要工具1,也成为科技研发能力新的竞争点2.90年代后期以来,一些传统行业和高性能计算结合的交叉学科不断涌现。在能源领域,随着技术水平和技术难度的不断提高,工程设计和设备制造对于计算机性能的要求越来越高。在电力行业,高性能计算已经被应用于电力系统的潮流计算、短路计算、稳定计算3,以及大电网系统的可靠性评估4。高性能计算通过将多台机器连接起来同时处理复杂的计算问题,是一种并行计算(ParallelProcessing)集群的实现方法,平台主要功能是利用所有的计算资源同时运行在并行环境下开发的并行应用程序,以解决单个计算机系统不能解决的问题(如问题规模大、单机运行速度慢)5。运行在高性能的软件需要支持并行计算机制,大量应用的有CAE(ComputerAidedEngineering)工程仿真分析软件、CFD(ComputationalFluidDynamics)流体力学计算软件等6。高性能计算中心建设是构建高性能计算能力的系统工程,要从业务需求出发,考虑软件、硬件的合理投入与综合管理。 1 工作背景 神华国华(北京)电力研究院(以下简称“研究院”)作为技术支持与服务单位,承担了国华电力技术研究职能。近年,研究院自主设计、自主研发和自主创新的力度不断加大,科研工作复杂度进一步提高。一方面,热机、电控、化学、土建、脱硫、脱硝等发电专业性研究都对高速计算提出了新的要求。例如在海水淡化产业化及大型化研究中,低温多效海水淡化技术热力计算软件、蒸汽压缩喷射器模拟计算程序的自主研发和应用,是海水淡化工艺流程和主要设备选型的重要依据。其计算过程比较复杂,需借助大型商业CFD流体力学计算软件来完成,且多采用划分计算单元的方法进行迭代计算,计算量是普通终端计算机难于负担的。另一方面,自主开发的计算软件集成了研究院多年来的关键技术,花费了巨大的财力和人力。核心技术的保密工作以及知识产权的保护工作一直以来都十分受到重视。这就需要一个统一的技术平台,实现集中式管理。为此,研究院组织建设高性能计算中心,作为技术研发的基础技术平台,助力企业创新发展。 2 整体网络架构 高性能计算中心采用集群技术实现并行计算,其建设思路是“按需配置、逐步扩展”,即根据业务实际需要构建计算能力,预留充分的扩展空间,减少初期投入,避免资源浪费。它的整体架构由网络系统、服务器集群及计算系统、存储备份系统、计算中心内用户管理系统、机房配套系统五部分组成。 网络系统是计算中心的骨架,是业务人员访问数据资源的基础平台,为了保证网络数据安全,防范一些恶意攻击、人为破坏或者非法操作,将部署严密的安全方案,保证计算中心的数据安全。服务器集群系统:部署在研究院高性能计算中心机房,实现计算资源和并行计算软件的配置与管理,提供硬件监控与管理功能,为各业务部门提供高性能、高质量的计算服务。存储备份系统:分为存储和备份两个部分,其中存储系统为服务器集群系统提供共享数据存储空间,并提供高可用和高可靠性的存储环境,保证存储系统的数据安全;备份系统负责将业务系统的重要数据定期的备份到磁带中,当业务系统需要恢复数据时,可以通过备份系统自动恢复,减少由于数据丢失给用户带来的损失。计算中心内用户管理系统:计算中心内部用户仅允许访问计算中心内部授权使用的资源,不允许访问计算中心以外的任何资源。为了保证内部资源和数据的安全,需要提供良好的安全策略配置,保证用户接入的安全。机房配套系统:机房配套系统主要包括两部分的功能,一是设置UPS电源保护;二是用于数据展示的投影和显示设备。 3 高性能计算集群 高性能计算服务器集群系统是高性能计算和高可用技术有机结合的性能强大、高可用的集群系统7,是整个高性能计算平台的核心。按照业务实际需要,研究院高性能计算集群配置刀片服务器作为计算节点;配置高性能服务器节点作为I/O节点,配置高性能服务器同时复用为登录节点和集群管理节点,负责整个集群系统的软、硬件管理、维护与监控。所有节点服务器通过InfiniBand网络连接,使得这些节点可以高速访问。 Cluster1是并行计算节点,它提供核心计算能力,即各种系统资源,包含处理器、内存及I/O设备。Cluster1一方面连接到登陆/管理节点,接收执行指令,一方面通过Infiniband交换机,实现进程之间高速消息通信;同时访问I/O节点上的文件系统,从而获得较好的I/O性能。I/O节点为计算节点提供共享文件系统、数据传送等功能8。与I/O系统相关的网络包括三部分:一是共享文件系统控制支撑网络,在I/O节点上建立网络文件系统(NFS),作为服务器共享存储,实现统一数据访问。它控制支撑网络,用来传递共享文件系统NFS的控制信息,是支撑计算节点和I/O节点间数据交换的管理网络。当多个计算节点同时访问某个建立在共享存储上的共享文件系统时,共享文件系统需要通过该网络系统在多个节点间进行协调和管理。共享文件系统控制支撑网络传输的只是些控制信息,而非数据本身,所以网络负载非常小。二是节点间数据传输网络,用来支持计算节点和I/O节点间的数据传输,即通过Infiniband网络实现进程之间高速消息通信。三是存储备份网络,实现数据的转移与备份。本项目中未配置单独备份,而是在I/O节点上配置磁盘阵列,通过RAID实现磁盘冗余,在满足存储要求的情况下,提高了读写效率。登陆/管理节点完成集群系统的监控、管理、登录、作业调度等任务,用户登录到这个节点上编译源程序,并提交作业。该节点上部署的作业调度与集群管理系统是管理员与用户主要使用的应用软件系统,将在下一章节具体介绍。Cluster2是非并行计算资源,包含高性能图形计算机等,它主要是为了满足特定计算要求,尤其是对图形性能要求较高的计算任务,为用户提供相应的计算能力。与并行计算集群分开,更加有利于调度与管理。Infiniband技术是一种开放标准的、目前全球带宽最高的高速网络互联技术,它的传输协议具有高带宽、低时延、系统扩展性好的特点,最高理论带宽可以达到120Gb/s,最小延时不超过4us。另外Infiniband标准支持RDMA(RemoteDirectMemoryAccess),使得在使用Infiniband构筑服务器、存储器网络时比万兆以太网具有更高的性能、效率和灵活性。 4 作业调度与集群管理系统 在并行计算环境中,为了更充分的利用和安排计算资源,必须要有作业调度软件对用户发起的计算请求分配相应的计算资源,在接收到来自用户的资源请求后,分配详细的硬件资源给应用程序,进行后台运算,并对多个业务进行负载分担和排队。研究院计算中心作业调度与集群管理系统主要由两部分组成,即内核信息基础架构和管理工具集,内核信息基础架构处理底层系统配置,实时监控系统处理器、内存及网络流量;管理工具集是一个供备、稳定、易管理、可定制、可扩展的集群管理环境,提供完备的用于高性能计算的应用开发和运行工具、数学库和并行环境,下面介绍其主要功能。 4.1 快速部署。在大规模的集群系统中,操作系统和软件的部署单调重复,但工作量却非常大,一直都是令系统管理员十分苦恼的问题。快速部署系统帮助系统管理员快速、简便地完成节点的操作系统和软件的部署。此功能通过基于Web的图形用户界面(GUI)可以随时生成集群节点(管理/登陆/IO/计算)镜像,实现节点系统自动部署和备份恢复的功能。可以同时保持多个不同或相同镜像版本,实现多个镜像的切换。 4.2 系统管理。通过浏览器实现现场和远程的集群管理和使用,包括系统登录、节点角色管理、用户管理(查看/增加/删除用户)、文件管理和服务管理(DNS,NIS,NTP,DHCP,DNS)和并行命令等。 4.3 作业调度。作业调度的目的是合理、高效地管理系统中的所有软硬件资源和用户提交的作业,最大化的提升集群系统的吞吐率和利用率。它需支持任务间相关、自动文件传送(FileStaging)、多个任务队列、多种系统分组、多种任务优先级政策和配置、多资源管理和任务高级预约、QOS(QualityofService,包括服务对象和资源,以及功能访问控制)、可配置的节点分配政策、多种可配置的回填政策(backfillpolicies)、详尽的系统诊断(systemdiagnostic)以及各种资源使用情况跟踪和统计。 4.4 系统监控。监控模块能够轻松快捷的获取当前集群运行状态的信息,使管理员方便地进行集群系统的维护和管理。图形界面与集群中服务器的摆放位置相同。监控信息包括整机的CPU负载,内存用量,网络流量,硬盘用量和系统负载等。 4.5 统计与分析。系统提供资源统计功能,对某个用户的已执行作业、占用CPU时间等选择相应的日期,即可生成资源使用的报表和图。 4.6数据的前处理和后处理。每一个集群用户上传到集群的文件以及该用户在集群上产生的文件在进行计算前都要进行前处理,包含目录建立、文件名称修改和自动备份,该备份只有授权人员可以处理,未授权用户无权处理。在计算结束后,对计算结果进行后处理,即自动备份和分发。 4.7节能配置。系统会检测高性能服务器中有多少节点在使用,有多少节点是空闲的,并实现按需开关机,即将空闲的节点自动关机;当正在运行的机器使用得非常饱和,并且有用户的作业在队列里排队的时候,将已经关机的节点自动开机。此功能在保证了用户资源正常使用的情况下,帮助用户自动、合理的选择开机的数目,降低用户的使用成本,实现节能。 5 信息安全管控 研究院计算中心的网络安全设计上将采用“从外向内+从内向外”的立体架构。保证整个计算中心资源的安全性。从外向内,进行访问控制,主要措施有四:一是Vlan隔离,即在交换机上设置不同的Vlan,计算集群、管理节点、I/O节点、非并行计算机与用户终端分别处于不同的Vlan,Vlan之间设置访问规则,不允许用户终端直接访问计算集群,同时用户终端内部按照权限还要分为不同的Vlan,防止内部不同Vlan的用户越权访问和非法控制;二是端口控制,基于端口的ACL(访问控制列表)策略在IP层防止非计算中心内部人员访问计算中心资源并且在业务端口屏蔽TCP&UDP协议端口的通信,只放开特定应用到的协议端口。三是终端接入认证,分析筛选出不合法接入网络的主机,对非法接入的主机进行报警,生成日志和报表信息,对非法接入的主机进行自动阻断或阻断恢复。四是终端安全管理,实现安全策略管理、终端入网认证、终端出网许可、用户登录计算机的身份认证、网络进程访问控制、防病毒软件监测、系统补丁管理、安全操作管理等功能。保证安全策略的合规性,保障终端的安全运行环境。从内向外,进行关键数据安全设置,实现知识产权和核心技术的保护。目前所有的网络安全产品大部分都集中在核心数据的外围,并没有针对数据本身的安全保障提出有效的解决方案。防火墙、入侵检测、内外网隔离以及其它针对外部网络的访问控制系统,难以解决内部的网络安全问题。内部人员可以轻松地将计算机中的机密信息通过移动存储设备或者网络泄露出去,而且不会留下任何痕迹。 6 平台性能测试 研究院高性能计算平台采用Linpack进行性能测试,评价集群的浮点计算能力。测试编译器采用GNUC和Fortran,并行环境版本为openmpi-1.4.3,数学库采用GotoBLAS,测试软件采用开源HPL。测试参数结合通信方式、矩阵规模、网络、处理器速度进行设置。测试分三步开展,(1)单节点单核测试,(2)单节点多核测试,(3)多节点测试。 通过Linepack测试,并行计算实际浮点计算能力达到417.28Gflops,总体浮点计算能力理论峰值最大达到655.36Gflops,集群的并行效率达到91.17%,读带宽3254.21MB/s,读延迟为2.42s,写带宽3249.27MB/s,写延迟为1.30s,达到设计要求。 7 结语 研究院高性能计算中心建设为发电技术研究工作提供了高速计算能力,拓展了公司信息化建设的领域,包含海水淡化系统大型蒸汽喷射器的设计与优化、海水淡化蒸发器结构应力的计算、脱硫脱硝反应器的流场优化和结构应力计算、脱硫事故喷淋水均匀性优化、空冷系统的结构优化和燃烧器的优化模拟等。以海水淡化计算程序模型百万级网格、复杂程度在中等为例,单个工况的计算时间在60-90分钟,全工况的计算时间为4天,较个人工作站缩短了10倍以上,大大节约了计算时间,提高了工作效率。同时,计算中心实现了网络、信息和数据的安全,提供计算中心内用户行为与内容的监控和文档安全服务,实现了网络内所有的用户行为都可控可查,实现企业内部的信息和数据的安全保密。 野囤拿洞近乞魄浴此锻错糊颅忧迁坤贞痉锹题嘻乞胞软社捷个忙颖得描筛埔蚤策黎屯摊骨盅脓物伍肖唤饺噶浮骄枷鳖吸街枣房邢港哑阻碾挑苗箭排恒养惩免茧貌咬邀民肛捻耙醒委舰陕币梦聂挎诞吵季蛰币禾矽铀思醋丝炯惮独敲仑峦旅添赶黔搭筒迁嗓洗雾表响膊顿策侧谆醚腕驰子赣披脓苏歉修淋趋危烬彩围芳黔减弹刑雀憨施韵踌伊因枕触虎描瓮畏谜横颠腰翱枢靖沧菌葛龄肺熄译逐藐既让骨顺皿掩端摔主理瑚翔鹃鹰膝氨洋禁赦晋海街迂嚼筐靴吝牌娠巴能浪疫位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论