环境预测高性能计算平台-建设方案_第1页
环境预测高性能计算平台-建设方案_第2页
环境预测高性能计算平台-建设方案_第3页
环境预测高性能计算平台-建设方案_第4页
环境预测高性能计算平台-建设方案_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、浪潮天梭TS10000高性能服务器产品解决方案PAGE 浪潮(北京)电子信息产业有限公司高性能服务器产品部版权所有 PAGE * ArabicDash - 2 -环境预测系统高性能计算平台(HPC)建设方案目 录 TOC o 1-3 h z u HYPERLINK l _Toc484726709 第一部分 环境检测预报系统概况及需求分析 PAGEREF _Toc484726709 h 6 HYPERLINK l _Toc484726710 第二部分 HPC系统建设方案 PAGEREF _Toc484726710 h 7 HYPERLINK l _Toc484726711 1环保行业需求分析 P

2、AGEREF _Toc484726711 h 7 HYPERLINK l _Toc484726712 1.1环境保护中高性能计算的应用 PAGEREF _Toc484726712 h 7 HYPERLINK l _Toc484726713 1.2领域常用软件 PAGEREF _Toc484726713 h 11 HYPERLINK l _Toc484726714 1.2.1模式软件种类 PAGEREF _Toc484726714 h 11 HYPERLINK l _Toc484726715 1.2.2模式软件特点 PAGEREF _Toc484726715 h 15 HYPERLINK l _

3、Toc484726716 1.3高性能计算的现状与发展 PAGEREF _Toc484726716 h 17 HYPERLINK l _Toc484726717 1.3.1高性能计算概述 PAGEREF _Toc484726717 h 17 HYPERLINK l _Toc484726718 1.3.2高性能计算机关键技术发展现状 PAGEREF _Toc484726718 h 17 HYPERLINK l _Toc484726719 1.4高性能计算需求分析 PAGEREF _Toc484726719 h 24 HYPERLINK l _Toc484726720 1.4.1计算能力 PAGE

4、REF _Toc484726720 h 24 HYPERLINK l _Toc484726721 1.4.2存储能力 PAGEREF _Toc484726721 h 25 HYPERLINK l _Toc484726722 1.4.3网络系统 PAGEREF _Toc484726722 h 25 HYPERLINK l _Toc484726723 1.4.4业务支持和系统集成能力 PAGEREF _Toc484726723 h 25 HYPERLINK l _Toc484726724 1.4.5业务特征提取软件(浪潮-天眼高性能特征分析软件) PAGEREF _Toc484726724 h 2

5、6 HYPERLINK l _Toc484726725 2系统方案设计 PAGEREF _Toc484726725 h 28 HYPERLINK l _Toc484726726 2.1方案总体设计 PAGEREF _Toc484726726 h 28 HYPERLINK l _Toc484726727 2.2省级中心站方案 PAGEREF _Toc484726727 h 30 HYPERLINK l _Toc484726728 2.2.1系统拓扑图 PAGEREF _Toc484726728 h 30 HYPERLINK l _Toc484726729 2.2.2系统方案说明 PAGEREF

6、_Toc484726729 h 30 HYPERLINK l _Toc484726730 2.2.3省级中心站计算系统 PAGEREF _Toc484726730 h 33 HYPERLINK l _Toc484726731 2.2.4省级中心站网络系统 PAGEREF _Toc484726731 h 37 HYPERLINK l _Toc484726732 2.2.5省级中心站存储系统 PAGEREF _Toc484726732 h 40 HYPERLINK l _Toc484726733 2.2.6省级中心站管理调度系统 PAGEREF _Toc484726733 h 42 HYPERLI

7、NK l _Toc484726734 2.3分流备份站方案 PAGEREF _Toc484726734 h 43 HYPERLINK l _Toc484726735 2.3.1系统拓扑图 PAGEREF _Toc484726735 h 43 HYPERLINK l _Toc484726736 2.3.2系统方案说明 PAGEREF _Toc484726736 h 43 HYPERLINK l _Toc484726737 2.3.3分流备份站计算系统 PAGEREF _Toc484726737 h 46 HYPERLINK l _Toc484726738 2.3.4分流备份站网络系统 PAGER

8、EF _Toc484726738 h 46 HYPERLINK l _Toc484726739 2.3.5分流备份站存储系统 PAGEREF _Toc484726739 h 49 HYPERLINK l _Toc484726740 2.3.6分流备份站管理调度系统 PAGEREF _Toc484726740 h 49 HYPERLINK l _Toc484726741 2.4集群基础软件环境 PAGEREF _Toc484726741 h 49 HYPERLINK l _Toc484726742 2.4.1ClusterEngine集群管理调度系统 PAGEREF _Toc484726742

9、h 50 HYPERLINK l _Toc484726743 2.4.2节能节耗软件 PAGEREF _Toc484726743 h 68 HYPERLINK l _Toc484726744 2.4.3天眼-高性能特征分析软件 PAGEREF _Toc484726744 h 69 HYPERLINK l _Toc484726745 2.4.4浪潮TSDM集群部署软件 PAGEREF _Toc484726745 h 73 HYPERLINK l _Toc484726746 2.4.5浪潮睿捷集群备份软件 PAGEREF _Toc484726746 h 74 HYPERLINK l _Toc484

10、726747 3.5.1编译环境 PAGEREF _Toc484726747 h 74 HYPERLINK l _Toc484726748 3.5.2并行环境 PAGEREF _Toc484726748 h 76 HYPERLINK l _Toc484726749 3.5.3数学库和图形处理库 PAGEREF _Toc484726749 h 78 HYPERLINK l _Toc484726750 3附件 PAGEREF _Toc484726750 h 82 HYPERLINK l _Toc484726751 3.1浪潮公司介绍 PAGEREF _Toc484726751 h 82 HYPER

11、LINK l _Toc484726752 3.1.1公司概述 PAGEREF _Toc484726752 h 82 HYPERLINK l _Toc484726753 3.1.2产品与服务 PAGEREF _Toc484726753 h 82 HYPERLINK l _Toc484726754 3.1.3创业历程 PAGEREF _Toc484726754 h 83 HYPERLINK l _Toc484726755 3.1.4研发历程 PAGEREF _Toc484726755 h 83 HYPERLINK l _Toc484726756 3.1.5企业高管 PAGEREF _Toc4847

12、26756 h 86 HYPERLINK l _Toc484726757 3.1.6企业文化 PAGEREF _Toc484726757 h 87 HYPERLINK l _Toc484726758 3.1.7荣誉与关怀 PAGEREF _Toc484726758 h 88 HYPERLINK l _Toc484726759 3.1.8业界评价 PAGEREF _Toc484726759 h 95 HYPERLINK l _Toc484726760 3.2浪潮环保、海洋和环境领域典型案例 PAGEREF _Toc484726760 h 96 HYPERLINK l _Toc484726761

13、3.2.1吉林省气象局 PAGEREF _Toc484726761 h 96 HYPERLINK l _Toc484726762 3.2.2山东省气象局 PAGEREF _Toc484726762 h 100 HYPERLINK l _Toc484726763 3.2.3中国海洋大学 PAGEREF _Toc484726763 h 104 HYPERLINK l _Toc484726764 3.2.4中国科学院南海海洋研究所 PAGEREF _Toc484726764 h 107 HYPERLINK l _Toc484726765 3.2.5清华大学地球模拟器 PAGEREF _Toc4847

14、26765 h 110 HYPERLINK l _Toc484726766 3.2.6北京大学大气与海洋系 PAGEREF _Toc484726766 h 112 HYPERLINK l _Toc484726767 3.2.14中科院大气物理所 PAGEREF _Toc484726767 h 114 HYPERLINK l _Toc484726768 3.2.15上海市环境监测中心 PAGEREF _Toc484726768 h 116 HYPERLINK l _Toc484726769 3.2.16济南环境监测中心 PAGEREF _Toc484726769 h 120 HYPERLINK

15、l _Toc484726770 3.3环保、海洋和环境领域成功案例列表 PAGEREF _Toc484726770 h 123第一部分 环境检测预报系统概况及需求分析此次建设项目的背景是基于日趋严重的大气环境污染情况与国家空气质量监测信息化建设的需求。当前,我国大气污染形势严峻,以可吸入颗粒物(PM10)、细颗粒物(PM2.5)为特征污染物的区域性大气环境问题日益突出,损害人民群众身体健康,影响社会和谐稳定。随着我国工业化、城镇化的深入推进,能源资源消耗持续增加,大气污染防治压力继续加大。因此,国家要求:环保部门要加强与气象部门的合作,建立重污染天气监测预警体系。到2014年,京津冀、长三角、

16、珠三角区域要完成区域、省、市级重污染天气监测预警系统建设;其他省(区、市)、副省级市、省会城市于2015年底前完成;要做好重污染天气过程的趋势分析,完善会商研判机制,提高监测预警的准确度,及时发布监测预警信息,制定完善应急预案。目前,空气质量监测中心站的计算设备对庞大的数值计算早已不堪重负,更无法满足人们日益增长的对气象预报准确、及时、精细的要求。因此,建设具有强大的运算处理速度、庞大的数据存储功能、精密的逻辑分析能力等要素的高性能计算机集群系统,以及为预报系统提供基础监测数据支撑的空气质量自动监测网络管理系统是迫在眉睫的任务。第二部分 HPC系统建设方案环保行业需求分析环境保护中高性能计算的

17、应用环境问题是中国21世纪面临的最严峻挑战之一,保护环境是保证经济长期稳定增长和实现可持续发展的基本国家利益。在第十二届全国人民代表大会第一次会议上国务院总理温家宝在作政府工作报告时也曾指出,要顺应人民群众对美好生活环境的期待,大力加强生态文明建设和环境保护。生态环境关系人民福祉,关乎子孙后代和民族未来。要坚持节约资源和保护环境的基本国策,着力推进绿色发展、循环发展、低碳发展。要加快调整经济结构和布局,抓紧完善标准、制度和法规体系,采取切实的防治污染措施,促进生产方式和生活方式的转变,下决心解决好关系群众切身利益的大气等突出环境污染问题,改善环境质量,维护人民健康,用实际行动让人民看到希望。近

18、几年中国大陆的严重污染现象频出,尤其是2011年10月、2013年1月和2014年2月,我国华北地区、黄淮、江淮、江南等中东部地区持续多日出现灰霾天气,灰霾问题成为社会各界广泛关注的焦点。大气重污染事件的持续发生,对人民群众的身体健康和生产生活造成严重影响,受到来自公众、舆论和中央等各个层面的迫切关注。这些污染事件是我国在实施新的环境空气质量标准(GB3095-2012)及评价方法后经历的严重污染过程,对我国城市空气质量达标和大气污染防治工作提出了严峻的挑战。2013年9月,国务院下发了“大气污染防治行动计划”(简称大气十条)的通知,提出了“经过五年努力,全国空气质量总体改善,重污染天气较大幅

19、度减少;京津冀、长三角、珠三角等区域空气质量明显好转。力争再用五年或更长时间,逐步消除重污染天气,全国空气质量明显改善”的总体目标。明确要求建立监测预警体系,要求环保部门加强与环保部门的合作,建立重污染天气监测预警体系,要做好重污染天气过程的趋势分析,完善会商研判机制,提高监测预警的准确度,及时发布监测预警信息。2013年底74个城市496个国控点的监测数据直通上传到国家环境监测总站,并实时向外发布2014年底扩大到全国113个环境保护重点城市和国家环保模范城市“十五”规划中明确提出到2015年,基本形成四级环境预警体系(国家级、区域级、省级、地市级)截至到2014年12月31日,全国共以下区

20、域和城市完成了空气质量预报预警体系建设: 区域级京津冀(中国环境监测总站行使该区域建设) 省 级江苏、黑龙江、上海,海南 地市级苏州、济南,中山、晋城、武汉、杭州、成都2013年8月,由中国环境监测总站在重庆首次召开了空气质量预报预警系统启动研讨会,各省、重点城市都悉数参会,并听取了总站的建设要求和思路。2014年3月,由总站牵头在广州再次组织召开空气质量预报预警系统的项目建设会,各省市监测中心都提出了建设规模和形式,以及对软硬件需求的了解情况。2014年10月,在沈阳召开了第二次针对空气质量预报预警系统的项目建设会,总站分析了自身的建设情况,并向各省市监测中心传达了建设该系统的经验。在环境保

21、护行业中,环境空气监测指对存在于空气中的污染物质进行定点、连续或定时的采样和测量。空气监测的项目主要包括二氧化硫、二氧化氮、总悬浮颗粒物、可吸入颗粒物、碳氢化合物等。空气监测是大气质量控制和对大气质量进行合理评价的基础。利用高性能计算进行数值模拟,对大气污染情况进行预报预警,并通过源解析指导污染防控和政策指定,并成为科研院所和事业监测机构不可或缺的手段之一。相关合作研究成果:地表水、大气、噪声、污染企业等各种数据和对象在一张图上展示;支持报警、提示、信息查看、监测数据分析、属性查询等每个监测点、断面、污染企业,都可以查看详细的基本信息、报警描述,当前超限报警的用红色显示;还可以看到每个参数的监

22、测曲线。查看污染企业情况、工艺流程、监测数据等,和地理信息结合,结合河道断面情况,直观判断污染企业影响。其它的数据分析预报、用户权限分配等功能领域常用软件由于社会经济和城镇化的快速发展,主要城市群正经历由过去比较单一的大气污染向大气复合污染快速转变。以PM2.5、O3(臭氧)为特征的区域性、复合性空气污染日益突出,污染源排放及其影响的地域跨越了城市甚至省际的行政边界,总体呈现出区域性和二次污染日趋显著的特征。这种以PM2.5和O3为代表的二次污染已逐渐成为阻碍我国城市和区域空气质量改善的主要瓶颈。二次污染问题的复杂性和危害的严重性,决定了其治理的艰巨性。固有的“单打一”的污染物控制思路已经很难

23、满足污染防治的需求,急需开展城市及周边地区大气污染成因、预报预警及控制对策研究。模式软件种类wrf美国国家大气研究中心(NCAR)研制的新一代用于有限区域气象预报模拟的中小尺度数值模式。WRF模式为完全可压缩以及非静力模式,采用F90 语言编写。水平方向采用Arakawa C(荒川C)网格点,垂直方向则采用地形跟随质量坐标。WRF 模式在时间积分方面采用三阶或者四阶的Runge-Kutta 算法。我们通过对wrf一个具体案例的解析来分析其应用特征。水平方向三层网格,格点数为217*206、526*546、544*643,垂直分层为27,水平格距分别为15、3、1,预报时间为24H步长为90s,

24、下图为其测试数据:由此可以看出wrf属于计算密集型应用,对CPU主频有较高要求;内存:按算例规模及节点规模配置相应内存大小;使用更多的节点资源以减小进程间的内存带宽竞争;存储:大规模算例保存结果对IO有较高要求;网络密集型应用,大量的进程间消息传递,对网络延迟有较高要求;扩展性:很好,在上千个进程上也有较好加速比。MODELS-3/CMAQ空气质量模式MODELS-3/CMAQ空气质量模式MODELS-3/CMAQ是美国第三代空气品质模式的简称,此模式最大特色在于“一个大气(One-Atmosphere )”的概念。传统的模式中,大多仅针对单一物种或者单相物进行模拟,例如RADM2(Regio

25、nal Acid Deposition)主要针对气态污染物而RPM(Regional Particulate Model)主要针对固态污染物进行模拟。然而在实际的大气中,所有的物种均具有紧密的相关性。例如与臭氧积累具有高相关性的NOx,其最终产物为HNO3,而HNO3实际上与酸沉降及悬浮微粒的硝酸成分相关性很高;另一个与臭氧积累相关的VOCS,其在光化的过程中,也会产生有机碳的固态成分。此外,在气固转换的过程中,由于形成的粒状物粒径均甚小,也容易阻碍光线的行进而造成能见度的问题,凡此均为一个复杂的大气所造成。因此,在白天主要由OH自由基所引发的光化反应机制中,不但可造成臭氧问题,也和悬浮颗粒、

26、酸性沉降、能见度问题具有密不可分的相关性,MODELS-3是建立在One-Atmosphere的架构上所开发的模拟工具。MODELS-3是一个三维的空气质量模式,属于网格模式的一种,该网格模式的特色在于使用了多层次网格。由于巨大的网络点将导致电脑计算速度的倍增,使模拟工作难以快速的完成,而缺乏模式的时效性。因而使用多层次模式可以将网络点简化,且由于离模拟区域较远的网格对于模拟区域的影响较小,因而加大网格的大小对于模式的准确度不造成影响。可兼顾模拟时的CPU处理器时间及准确性。MODELS-3/CMAQ的主要运算核心称为Community Multi-Scale Air Quality(CMAQ

27、)modeling system,整体运作如上图所示:经由MM5取得的气象资料与SMOKE运算的排放量资料,最后均输入CMAQ中,以进行化学机制的模拟。整个模拟工作分为三部分:1.气象模组:CMAQ以广泛使用的MM5模式作为气象资料的提供者。MM5除了提供气象资料外,也提供模式中所需要的土地利用形态及巢状网络咨询。在IO API档案的转换中,CMAQ以MCIP模组进行MM5资料的转换,同时在MCIP模组中可重新计算混合层高度。以MCIP转换后的气象资料可提供排放资料库处理及最后化学机制模拟时使用。2.排放量资料库:CMAQ允许MEPPS模组或者SMOKE模组进行处理。SMOKE的处理分为四部分

28、:点源,线源,面源及生物源。点源部分除了较面源多考虑了气团的烟流上升效应外,另外加入了气团对于网格化的影响。在线源的模拟情况中,分成两种模式,第一是机动车辆行驶里程数及车辆形态(MVK),第二种直接以排放量进行模拟。3.化学传输模拟:CCTM模组为整个模式的处理核心,具有可增加及调整不同机制的功能,例如现阶段空气质量模式主要的模拟机制为CB-IV及RADM2,使用CCTM可随时切换成这两种模式,而无需改变原始代码。模式操作者可以选择不同的云模组或是气胶模组来进行模式操作者的模拟工作,以利于模式在不同区域的模拟。4.输出界面部分:由于MODELS-3的输出档也是IO API介面,因而资料的使用需

29、要经过转换,转换后的资料可以SAS或者其他相关的统计软件进行分析,或直接以PAVE等绘图软件进行资料转换。WRF-CHEM模型WRF-CHEM模型是美国最新发展的区域大气动力化学耦合模式,是在NCAR开发的中尺度数值预报气象气象模式(WRF)中加入大气化学模块集成而成。中尺度数值预报模式(WRF)是一个完全可压非静力模式,对湍流交换、大气辐射、积云降水、云微物理及陆面等多种物理过程均有不同的参数化方案,可以为化学模式在线提供大气流场,模拟污染物输送(包括平流、扩散和对流过程)、干湿沉降、气象化学、气溶胶形成、辐射和光分辨率、生物所产生的放射、气溶胶参数化和光解频率等过程。WRF-CHEM的最大

30、优点是气象模式与化学传输模式在时间和空间分辨率上完全耦合,实现真正的在线反馈。该模式尚在我国处于探索研究阶段,应用案例相对较少。模式软件特点由上面的分析可知,环保数值模式总的流程主要三部分:前处理,主模式计算,后处理。其中:前处理部分:主要是将从网上下载或环保卫星设备检测的背景场和边界场数据插值到所要预报的区域范围中,资料同化也包含在这部分内,同化主要是将环保设备如雷达、自动观测站、卫星检测的数据加入到系统数据中。这部分对系统计算量要求不高,主要是处理数据,对系统内存有一定的要求,在做同化时对内存有稍高的要求。一般在单节点内运行,扩展性无较高要求,同化是预报系统的难点,一般该部分只能由环保内部

31、专业人员负责实施。主模式计算是系统并行计算的主要部分,该部分对系统计算性能要求最高,高主频处理器具备明显优势,该部分的扩展性取决于预报区域的网格大小、预报分辨率、嵌套层次。跨节点时必须要求是Infiniband网络,按输入配置文件的数据输出需求,对IO也有一定的要求,且在将来会对IO有更高的要求。针对CMAQ多层网格的应用特点,配置胖节点会显著加速计算过程。在后处理部分,主要是对主模式计算的数值结果进行转换和提取,主要工作是分析数据,将结果转成环保预报人员可读的数据格式。这部分如果制作成浏览器式的界面会对用户有较大吸引力。在单节点内运行,对系统资源要求一般。高性能计算的现状与发展高性能计算概述

32、高性能计算(High Performance Computing,简称HPC)是计算机科学的一个分支,研究并行算法和开发相关软件,致力于开发高性能计算机(High Performance Computer),满足科学计算、工程计算、海量数据处理等需要。自从1946年设计用于导弹弹道计算的世界上第一台现代计算机诞生开始,计算技术应用领域不断扩大,各应用领域对计算机的处理能力需求越来越高,这也促使了高性能计算机和高性能计算技术不断向前发展。随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、环保预报、航天国防、科学研究等需求高性能计算机,而金融、政府信息化、教育、企业、网络游

33、戏等更广泛的领域对高性能计算的需求也迅猛增长。高性能计算机关键技术发展现状体系架构作为高性能计算基础设施的核心,现代高性能计算机的发展从20世纪70年代的向量计算机开始,也已经有了几十年的发展历程。先后出现了向量机、多处理器并行向量机、MPP大规模并行处理机、SMP对称多处理机、DSM分布式共享存储计算机、Constellation星群系统、Cluster集群系统、混和系统等多种主体的体系架构,并分别在不同的时期占据着应用的主流。其中,计算机集群(简称集群、Cluster)是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作

34、是一台计算机。集群系统中的单个计算机通常称为节点,通过内部网络连接。高性能计算集群采用将计算任务分配到集群的不同计算节点而提高计算能力。比较流行的高性能计算集群采用Linux操作系统和其它一些标准软件来完成并行运算,这一集群配置通常被称为Beowulf集群。这类集群通常运行特定的程序以发挥高性能计算集群的并行能力,这类程序一般使用特定的运行库,比如MPI等。相比于MPP等一些专有高性能计算系统,集群系统具有明显的优势,包括:集群的标准化程度高高性能计算集群一般都是采用工业标准的硬件和软件系统,比如采用标准的x86架构处理器;工业标准的互联网络,比如InfiniBand、万兆网络等;通用的Lin

35、ux操作系统;通用的并行编程标准和模型;通用的作业分发调度系统等。灵活性、可扩展性好集群是一个松散的架构,由计算节点通过互联网络连接而成,一个集群可以方便地进行扩展;同样的,一个集群也可以灵活的进行物理或逻辑上的拆分。MPP等一些专有定制系统就很难做到这样的灵活可扩展性。性能高集群单个计算节点性能在不断提升、集群互联网络技术发展迅猛、集群可扩展性也越来越好、集群的并行编程技术不断进步,集群已经成为高性能计算的代名词。性价比高由于集群采用的是标准化的软硬件系统,采用的是大规模工业生产的设备部件,可以极大程度降低高性能计算系统的建设成本,相应的,集群的运维和维护成本也要小很多。投资风险小集群技术经

36、过多年的发展,其硬件和软件技术已经发展得非常成熟,建设和维护需要的设备器件有充足的市场保障;绝大部分高性能计算应用在集群架构上开发和调试,应用支持程度高,可以确保高性能计算平台的建设成功。正是因为具有的这些优势,集群在高性能计算领域发展迅猛,目前已经成为高性能计算的主流机构,在TOP500中占据了80%的市场份额,在中小规模高性能计算系统中更是占统治地位。图2-3 TOP500中体系架构份额历史统计处理器处理器是高性能计算机的计算核心,很大程度上决定了高性能计算机的计算性能。随着x86处理器在PC消费级市场的繁荣,其触角逐渐延伸到高性能计算领域。另一方面,也随着开放式集群架构在高性能计算领域的

37、统治地位确立,市场占有率大、性价比高的x86处理器也成为自然合理的选择。自2000年开始,Intel和AMD的x86处理器在高性能计算市场占有率迅速扩大,逐渐蚕食掉了Alpha、MIPS、Power、SPARC、PA-RISC等RISC处理器的市场。图2-4 TOP500中处理器份额历史统计此外,随着GPU、Intel MIC等加速器/协处理器的出现,CPU不再是高性能计算领域计算单元的唯一选择。相比于CPU,这些协处理器的浮点运算能力更强、任务处理模式更简单,非常适合部分高性能计算应用。使用协处理器可以大大提升高性能计算机的计算性能,分担CPU的处理负载。全球HPC TOP500中协处理器的

38、使用越来越多,其中包括2012年11月TOP500全球第一的Titan,2013年11月全球第一的浪潮2号,在协处理器的市场份额中,Nvidia GPU占据主导,AMD ATI GPU也有一定市场,近一两年Intel MIC(Xeon Phi)也开始发力,在未来可能会有较好市场表现。图2-5 TOP500中使用协处理器的系统越来越多并行编程模型现代高性能计算机都是并行计算机,通过并行计算,降低单个任务的计算时间、提高任务的求解精度、或者扩大问题的处理规模,这些都是高性能计算机的根本目标,也是高性能计算技术发展的驱动力。高性能计算机上的并行编程模型与计算机体系架构紧密相关。当前主流的并行编程模型

39、与主流的高性能计算集群架构相匹配。从进程或线程的交互方式角度划分,并行编程模型主要有共享内存编程模型(Share Memory)和消息传递编程模型(Message Passing)。共享内存编程模型一般应用在共享内存体系结构上,比如SMP、DSM、NUMA。它具有单地址空间,线程级并行,主要实现有OpenMP和Pthreads。共享内存编程模型具有并行效率高、编程容易(特别是采用编译制导的OpenMP模型)等优点,但它的可移植性和可扩展性不好。当前高性能计算集群架构的计算节点通常都是采用多路多核架构,计算节点本身为SMP或NUMA结构。因此,共享内存编程模型可以在单个集群计算节点内实现并行计算

40、。消息传递编程模型是分布式内存编程模型的一种,主要应用在分布式内存体系结构下,以早期的PVM(Parallel Virtual Machine)和目前主流的MPI(Message Passing Interface)为代表。传递编程模型的特点是多地址空间、进程级并行、编程相对困难、可移植性好、可扩展性好。可以广泛应用在高性能集群体系架构上,可以实现集群跨节点并行计算。当前高性能集群的多层次结构,使得集群系统同时具备了共享内存和分布式共享内存两种体系结构的特点。根据现代集群多级并行结构的特点,很自然地考虑到可以将共享内存编程模型与分布式内存编程模型相结合。因此,MPI+OpenMP的混合编程模型

41、得到了广泛的应用。混合编程模型提供了节点间和节点内的两级并行机制,它的优势在于结合了进程级的粗粒度并行(例如区域分解)和线程级的细粒度并行(如循环并行)的优点。实践证明,在很多情况下,其执行效率和可扩展性高于纯MPI和OpenMP程序。互联网络高性能计算集群是一个通过内部互联网络将松散的计算节点有效整合起来的系统架构,内部互联网络是高性能计算集群的核心技术之一。集群系统内部互联网络主要用于以MPI为代表的并行计算程序节点间的数据网络通信,即作为计算网络使用。不同计算方法和计算程序的数据通信特征不尽相同,从类型看,有的数据交换以小数据包为主,有的大数据包交换较多。小数据包交换较多时,计算性能和效

42、率对计算网络的延迟非常敏感,大数据包交换较多时,计算网络的带宽有关键性影响;从数据通信的频率看,有的计算方法和程序数据通信不频繁,对计算网络的性能要求不高,有的数据通信密集,对计算网络的性能要求很高。总的来说,高性能计算机计算网络的性能对并行计算程序的并行加速比和并行扩展性有重要的影响。计算网络需要有高带宽、低延迟的特点。与MPP等体系架构一般使用高度定制化的私有内部网络不同,高性能计算集群系统一般采用标准通用的网络技术和设备,比如以太网络、Quadrics、Myrinet、InfiniBand。其中,千兆/万兆以太网络技术发展成熟、通用性好,目前仍占有一部分市场份额;Quadrics和Myr

43、inet在与InfiniBand的竞争中败下阵来,目前已基本在市场上消失,而InfiniBand已经成为通用高速网络的代名词,在高性能计算领域的市场份额逐年扩大,已经成为市场主流,特别是在大型、高端计算系统,InfiniBand几乎成为标配。图2-6 TOP500中互联网络份额历史统计操作系统早期高性能计算机硬件体系架构主要以MPP等封闭系统为主,操作系统一般为配套专用的Unix操作系统。随着开放标准的集群架构逐渐兴起,以及同样开放的Linux操作系统逐渐成熟,Linux操作系统被逐渐成为高性能计算机的主流。Linux的操作系统的稳定、安全、可靠、高效率、多用户、开源等特征,尤其其多用户的特征

44、,非常适合高性能计算机的使用模式。目前,Linux操作系统已占到高性能计算90%以上的市场份额。图2-7 TOP500中操作系统份额历史统计作业调度系统作业调度系统是高性能计算机核心软件系统之一,主要负责系统资源的统一管理和调度。作业调度系统一方面对系统软硬件资源进行监控管理,另一方面负责对用户提交任务进行队列管理,通过不同的调度算法和调度策略将合适的计算资源分配给用户计算任务。通过作业调度系统,可以整合系统软硬件资源,实现“单一系统映像”,对资源和计算任务的统一管理避免的资源冲突,此外,作业调度系统还能对多用户、多队列、异构计算资源等进行不同的权限控制和精细管理,结合负责高效的调度算法,可以

45、优化高性能计算机的使用方式,提高资源的利用率。图2-8 作业调度系统软件的发展历史作业调度系统的发展历史比较悠久,目前使用广泛的作业调度系统有Oracle Grid Engine(前身为SGE:Sun Grid Engine)、Portable Batch System(PBS,包括开源的OpenPBS、Torque和商业版PBS Pro)、IBM LoadLeveler、Condor、Simple Linux Utility for Resource Management(SLURM)以及IBM Platform LSF等。在国内,PBS系列的作业调度软件具有最广泛的用户群。 HYPERLI

46、NK l _Toc358618197 高性能计算需求分析计算能力中尺度环保预报模式有着惊人的计算量,同时由于环保预报的特点决定了其极高的实时性,要求模式必须在指定的时间内完成运算。另一方面,人们对环保预报的精度提出了越来越高的要求,目前预报精度提高到几公里,而这大幅度提高了模式的计算量。数值环保预报对计算的这一需求,靠单个CPU或普通的计算机根本不可能完成,必须利用并行计算。中尺度环保预报模式(MM5、WRF、GRAPES和AREMS),物理海洋模式如ROMs、Fvcom等都有非常大的计算量,预报精度提高一倍,其所需计算量将成几何级上涨。目前模式系统的绝大部分软件都已经完成了并行化,如中尺度预

47、报模式的MM5、WRF既支持MPI消息传递并行,又支持OpenMP共享存储并行,也支持MPI+OpenMP的混合运行模式。海洋模式中的FVCOM、ROMS、POM、HYCOM等等,气候、环境模式中的CMAQ、CCSM3、CAM、RCA、WASP、GMS等等均支持高性能计算,并具有良好的可扩展性。存储能力对系统IO性能要求很高,海洋模式如POP、MITgcm、MOM4以及海陆耦合模式(WRF+ROMS)对整个系统的IO性能要求很高,一般要求有分布式IO或者并行文件系统,否则一般很难有好的加速比采用多种预报方案的集合预报和短临(RUC)系统,在较短时间内会产生大量的数据,要求持续的IO存储带宽,一

48、般要求有分布式IO或者并行文件系统,否则可能很难有太好的加速比。具备自动迁移分级存储功能的存储系统可以提升系统存储使用效率,降低成本。网络系统由于模式都是并行软件,同时一般都采用有限差分格点模式并行计算,所以运行中尺度环保预报模式时,各个CPU之间的通讯量非常惊人,且模式对通讯的性能要求非常之高。对于允许嵌套的模式,如NAQPMS的通讯既包括母域和嵌套域之间的域间通讯,又有各个域内部不同数据划分之间的通讯。所以这就要求高性能计算机有高性能的通讯网络,在环保、海洋及相关领域,Infiniband网络是必备,否则扩展性只在1-2个节点。业务支持和系统集成能力 环境领域模式从软件的处理流程上看,一般

49、分为前处理、主模式和后处理三个过程。前处理包括资料的传输下载、数据同化等等,后处理主要是指图形化处理生成产品等,前/后处理一般对计算机要求不是太高。主模式是整个系统的主要部分,也是主要计算量所在,这个部分是对计算机性能要求较高,整个模式系统从前处理到主模式然后到后处理这样的流程运行下来也需要系统具有较高的稳健性,所以优秀的模式软件应用专家支持及硬件级的系统技术支持均对模式的良好使用也是关键。数据同化这块对系统内存有较高要求,需要标准化,系统复杂。美观的后期产品显示界面也是吸引用户的亮点。业务特征提取软件(浪潮-天眼高性能特征分析软件)环保领域应用复杂多变,比如PM2.5包括了不同化合物种类,颗

50、粒大小也不一样,其计算完成时间多种因素密切相关,如交换网络带宽、内存频率、AVX 2.0指令比、应用向量化率等。天眼软件通过抓取应用运行过程中的各种指标,为客户对集群的优化指明方向,提高使用效率。系统方案设计方案总体设计空气质量预测预报高性能系统在考虑到冗余的需要上,浪潮本次设计搭建一个预测预报高性能中心站、一个预测预报高性能镜像备份站。其中,预测预报高性能中心站将搭建在云平台中的省级中心站上,与网络平台协同作用;预测预报高性能镜像备份站将搭建在云平台的分流备份站上,作为主要计算备份,以确保预测预报高性能中心站在出现意外情况下,全省的空气质量预测预报业务能够继续展开。其中,本次设计的预测预报高

51、性能中心站计算双精度浮点运算能力将达到44万亿次,预测预报备份站双精度浮点运算能力将达到10.7万亿次。针对环保行业高性能需求的特点,浪潮从应用出发,提出了针对化的解决方案,具有以下明显优势:高性能,特别是浮点处理性能。气象软件对计算能力的需求非常高,因此方案配置了多个双路节点,采用Intel 最新Haswell十二核处理器,浮点运算能力极强,适合于MPI分布式内存的计算。另外配置的四路胖节点在提供超高计算能力的同时,可以提供512GB的超大内存,很好解决CMAQ应用在嵌套网格时候边界条件的数据交换问题,有效提升计算速度。网络带宽问题在气象软件应用中,并行化对于网络延时和带宽的要求很高,我们配

52、置了单向56Gb的高速Infiniband网络,满足所有节点计算交换需求,网络延时低。存储带宽问题气象在计算过程中,边界区域会产生大量数据交换,一个优秀的存储系统能够满足软件对于网络带宽的需求。我们配置了16Gb接口的光纤存储系统,通过专有的IO节点接入56Gb的Infiniband网络,不至于出现CPU等待数据计算的情况,大大提高了计算效率。系统高稳定性一套高稳定性的系统能够使我们的气象应用更加方便快捷。浪潮提供的设计方案集成度高,配置简单,不仅有效的减少了故障概率,也提高了设备的利用率,从而保证在实现高可用性,高稳定性的情况下为用户实现最大的投入产出比。省级中心站方案系统拓扑图系统方案说明

53、主站方案由45个计算节点(计算能力共计44T flops),1套并行存储系统(高性能盘阵,使用生产存储阵列),1套备份存储阵列及物理磁带库可用,4台机架式服务器作为系统管理、登录、前处理管理服务器,1套FDR Infiniband全线速计算网络,1套千兆监控网络,以及部署于集群系统中的软件系统组成。高性能计算集群系统总体描述:节点机系统:系统CPU双精度理论计算峰值为44万亿次; 41个双路计算节点,采用刀片计算服务器NX5440M4,每节点配置(2颗Intel Xeon十二核E5-2690V3处理器,主频2.6GHz;双千兆网卡,配置1块FDR Infiniband子卡,配置64GB内存,配

54、置1块120G 2.5 MLC SSD 硬盘,充分发挥四通道内存的优势及大内存业务应用需求,使得内存带宽提高30%以上,冗余电源,92%的转换效率)。4台四路胖节点,采用四路服务器NX8840(刀片服务器,4颗Intel Xeon E5-4650v2十核处理器,主频2.4GHz,512GB内存;2块900G 2.5 10Krpm SAS 硬盘,配置2个高性能千兆网卡,配置一块FDR HCA卡;集成KVM + BMC管理卡,支持IPMI远程管理等功能)3台双路管理/登录服务器NF5270M4(机架式服务器,2颗Intel Xeon E5-2620V3六核处理器,主频2.4GHz;64GB内存;2

55、块300GB SAS 热插拔硬盘;集成高性能双千兆网卡,支持网络唤醒;配置1块FDR HCA卡;采用高效率冗余电源,集成KVM + BMC管理卡,支持IPMI远程管理等功能)。1台前处理节点NF5270M4(机架式服务器,2颗Intel Xeon E5-2623V3六核处理器,主频3.0GHz;64GB内存;2块300GB SAS 热插拔硬盘;集成高性能双千兆网卡,支持网络唤醒;配置1块FDR HCA卡;采用高效率冗余电源,集成KVM + BMC管理卡,支持IPMI远程管理等功能)4台IO节点服务器NF5270M4(机架式服务器,2颗Intel Xeon E5-2620V3六核处理器,主频2.

56、4GHz;64GB内存;2块300GB SAS 热插拔硬盘;集成高性能双千兆网卡,支持网络唤醒;配置1块FDR HCA卡,1块双端口FC 16Gbps HBA卡;采用高效率冗余电源,集成KVM + BMC管理卡,支持IPMI远程管理等功能)生产存储系统:采用IEEL(Intel Enterprise Edition for Lustre* software)并行文件系统。磁盘阵列AS1100H采用当前配置10个800GB,2.5寸SSD硬盘磁盘,配置14个900GB,2.5寸10K SAS硬盘磁盘,配置24个4TB,7200转,SAS盘,3.5寸8*16Gb FC主机接口。备份存储系统可利用备

57、份存储系统144TB存储空间以及150TB的物理磁带库管理网络:1套全千兆监控网络,采用锐捷以太网交换机,保证所有节点通信带宽,满足系统管理需求。软件:Redhat linux操作系统Intel Enterprise Edition for Lustre* software并行文件系统浪潮天梭ClusterEngine集群系统管理软件浪潮主机操作系统安全加固软件浪潮天眼应用特征提取软件浪潮集群系统备份还原软件睿捷浪潮天梭TSDM集群系统快速部署软件Intel Parallel Studio XE Cluster Edition集群编译、调试、数学库等软件MPICH、MVAPICH2、OpenM

58、PI等并行环境针对本项目,浪潮“360o专家服务”还将提供完善的项目实施、专业的技术培训和技术支持服务。省级中心站计算系统计算系统需求分析高性能计算运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算。之后,对这些小问题的结果进行处理并合并为原问题的最终结果。通常,这些小问题的计算是可以并行完成的,从而缩短问题的处理时间,提高系统的运算速度。高性能计算最典型的三个数据流程包括:创建输入数据、运行应用程序进行分析处理和结果归档管理。1. 创建输入数据:创建数据的数据安全可靠性和一致性非常重要。如果丢失了输入数据,通常可以通过重新运行应用

59、程序,来重建丢失的数据。重新创建数据不仅费用高昂,很多高性能环境的数据往往是无法再次生成的。因此,高性能创建数据的价值往往不是能用金钱来衡量的。2. 应用程序分析处理:在分析处理阶段,保证执行应用程序的读/ 写性能是高性能分析效率和项目周期的关键。这可能需要使用高性能可扩展性存储系统来满足吞吐量和存储容量的需求。3. 数据归档:高性能环境下,不同属性的数据在数据生命周期的不同阶段体现出来的价值是不同的。归档可以释放出主存储空间,使之用于主要的应用程序和项目。如何用不同存储介质存储不同数据,是高性能环境降低数据生命周期总成本的关键。高性能计算的分析效率取决于计算能力、带宽和存储三方面。数据密集型

60、计算如何保证存储为海量大数据并行处理提供稳定的性能和可扩展的容量,在存储超大规模数据量的同时,满足多节点集群计算对存储I/O 带宽的需求,是保证高性能处理能力和效率的关键。高性能计算集群系统中的节点,可分为计算节点和存储节点。其中,存储节点是指集群系统的数据存储器和数据服务器。如果需要存储TB级的数据,通常需要部署并行文件系统及多台IO 服务器;计算节点功能则是执行计算。众多的计算节点带有IO 流量瓶颈问题。当承载的计算任务被分布到众多的计算节点上实现,存储最终还是要汇总到一起。高性能计算中的计算节点可以是服务器、主机、工作站甚至PC笔记本等。计算节点对统一存储的必须性要求和各节点所汇集而来的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论