平台建设论文关于高校公共计算平台建设模式论文范文参考资料_第1页
平台建设论文关于高校公共计算平台建设模式论文范文参考资料_第2页
平台建设论文关于高校公共计算平台建设模式论文范文参考资料_第3页
平台建设论文关于高校公共计算平台建设模式论文范文参考资料_第4页
平台建设论文关于高校公共计算平台建设模式论文范文参考资料_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

平台建设论文关于高校公共计算平台建设模式论文范文参考资料 陈永刚 宋超 于广辉 (大连理工大学网络与信息化中心,辽宁大连116024) 摘要:面对各学科日益激增的高性能计算需求,大连理工大学启动了校公共计算平台的建设。本文在筹建过程中遇到的技术思路、资源管理和机制创新等方面进行了必要的探索。 关键词:高性能计算;平台建设;资源管理;机制创新 :TP38 :A :1673-1069(xx)05-142-2 1 高性能计算平台建设的筹备 面对学校各大理工学科对于科学计算的庞大需求,大连理工大学应当建一台全校共享的大型高性能计算机为学校的科研提供基础性平台支持。 从平台开放共享、全体受益的原则考虑,高性能计算设备考虑由一个技术型服务部门来负责建设、运行和管理,该部门应当有能力对网络和IT 设备提供专业的技术支持,能够为大型计算机的运维提供保障。大连理工大学网络与信息化中心是学校数字化校园建设的核心技术部门,有校园骨干网等大规模网络架构的设计能力,有完善的运行管理制度和丰富的大型IT 设备运维经验。根据学校的具体情况,选择了网络与信息中心作为高性能计算平台的托管单位。 高性能计算平台的建设并不是简单的设备采购,需要将购置和研发相结合,既要承担一定的技术创新的任务,也要担负起探索开放式公共服务体系和运营管理机制创新的工作。在项目建设正式启动之前,网络与信息中心先行建设了一台64 节点试验性计算平台,包含64 个双路8 核刀片节点,理论峰值为3.2 Tflops,并专门成立了高性能计算运行管理部门,在开放运行的实践中摸索平台建设和管理经验,大胆进行管理制度和运行机制的创新。试验计算平台的运行,在科研支持、需求培育和制度建设等诸多方面获得了良好成效。通过对试验平台运行数据进行总结和分析,为高性能计算平台的建设提供了必要的决策依据。 2 高性能计算平台的设计思路 2.1 整体框架设计 通过深入开展调研并结合试验计算平台的运行统计,考虑到未来几年计算需求的增量,根据“按需建设、适度超前”的指导思想,推算出学校需要投建性能不低于300 万亿次/秒的集群才能满足未来3耀5 年各学科的计算需求。而各学科在应用层面的多样性也为集群的架构设计带来了一定的挑战。因此从全校角度出发通盘考虑,既要创建一个通用的计算环境,又需要照顾到不同用户和应用的特殊需求,最终设计了一个多层次、相互补充和协同工作的高性能计算环境,其布局概念如图1 所示:全校的高性能计算环境由一个拥有最高端计算能力的校级高性能计算平台和各院系自建的次级计算平台或工作站组成,以达到全校计算资源的合理配置和优化利用。校级计算平台提供大规模并行计算求解和异构加速计算服务,院系自建的计算设备可用于建模、前后端处理和小规模开发试算等应用。 2.2 高性能计算集群的设计 在前期论证研讨过程中,根据学校实际应用需求情况,可采用技术较为成熟的大规模计算机集群,其中第一层设备两路计算节点是大规模数值求解和海量数据处理的主力,选取高密度刀片式方案;第二层计算设备为按需配备一定比例的机架式MIC 和GPU 异构加速节点;计算网络为InfinibandFDR 56GB 网络,管理网络为千兆以太网;采用商业版作业调度和资源管理软件,以满足复杂的作业管理需求;节能方面考虑,部署水冷系统1,根据北方地区气候条件估算,机房电能使用效率(PUE)可控制在1.45 左右,年均可节约电费约50 万元。图2 为集群框架概念图。 3 高性能计算平台运行管理机制探讨 3.1 组织与建制 淤组建超算部。在学校网络与信息中心内已成立超算部,当前已借助试验平台做了一些前期建制的探索工作,具体包括负责拟定校高性能计算建设的总体发展规划;制定合理的运行管理制度;根据用户应用需求合对平台资源进行合理分配和管理;培育和开发校内和周边科研单位的重大应用;做好用户培训和教学,推动高性能计算的高水平应用。于成立高性能计算专家咨询委员会。将主要由校内各学科应用学者代表组成,负责高性能计算相关工作的组织、协调和重大问题的决策;对高性能计算平台建设的规划和方案等重点问题进行指导、评估和论证;协调、组织高性能计算领域的学科交叉与合作、技术交流和人才培养等工作;对平台在研项目进行评审,评定重点扶持或奖励等级2。 3.2 服务与管理 优质的服务是高性能计算平台为科研用户创造良好科研环境的重要内容,服务工作主要应体现在如下方面:淤管理制度严明。要满足用户长时间、不间断计算的特点,高性能计算设备必需保证7X24 小时正常运转,因此必须配备严格的机房和设备管理制度,规定每日2 次巡检,定期对配电、空调、安防等设备进行检查,消除安全隐患。定期出具运行统计报告,让用户了解平台运行情况。于技术支持专业。高性能计算平台技术支持的专业性不仅体现在系统日常管理与维护上,更要体现对用户不同领域和学科专业的支持。因此对人员要求相对比较高,不仅要精通计算机网络技能,还需要对物理、化学、力学等与计算相关的学科有深入的背景知识。因为高性能计算平台服务对象主要是用到大规模并行计算的科研人员,具体则涉及各学科专业软件的使用,如果没有足够深入的学科专业背景知识和科研经历,那么平台技术支持人员最多只能是维持系统的运行,而对于提升应用水平、发挥平台效用则力不从心,因此比较理想的人选是在这些学科方向有一定研究基础的博士来担任。这也是将HPC 的内涵从“High Performance Computer” 到“High PerformanceComputing”的理念上的提升。 4 高性能计算应用培训与教学 培养高性能计算人才、提升高性能计算在科研中的高水平应用是平台建设的另一大任务。在试验平台运行期间,我们就已开展过几期应用培训,最终发现这类短期的应用培训并不能满足师生的需要。从培养科学计算用户的角度出发,提炼学校各科研领域*同关注的问题,传授实用的科学计算技术,使师生能够在各自的科研工作中用好高性能计算平台和工具,提高科研效率和水平,这才是我们在设计高性能计算应用教学首要考虑的问题。为此,在校研究生院的支持下,我们开设了大规模并行计算与应用的研究生课程,联合物理、化工、材料和力学等学科长期工作在教学科研一线的教授,结合科研实例讲授各学科在高性能计算中的实践和应用,并提供上机环境供学生演练,为学生开辟良好的高性能计算学习和实践环境。 5 结束语 高性能计算平台的建设与发展将围绕该校中长期发展战略规划和“十二五”发展规划的总体要求,以数字化智慧校

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论