



版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、高效能计算机技术展望桂亚东上海超级计算中心上海201203ydgui摘要本文是有关高效能计算机技术和发展趋势的综述性文章。通过分析科学和工程领域越来越旺盛的需求,介绍国内外高效能计算机研制的状况;通过剖析多核处理器产生的背景和性能提升的原因,分析多核处理器对高效能计算机的影响;通过解读高效能计算机的四个要素,指出高效能计算机面临的多种挑战,归纳了部分解决的思路。关键词: 高效能计算机多核处理器高性能可编程性可移植性鲁棒性几十年来,我们一直用高性能计算机这个词来概括运算速度高的一类计算机,用Linpack 来评价机器的效率。这只是考虑了运算性能一个方面。这几年出现的一个新词高效能计算机(High
2、 Productivity Computing System)则概括了高性能、可编程性、程序可移植性与鲁棒性 4 个基本要素,即在追求高的运算速度的前提下,强调系统的程序开发、部署和移植的方便性,强调系统的健壮程度和容错能力,强调用户能感受到的系统运行的整体效率。本文使用高效能计算机一词,以与国家863 十一五重大项目“高效能计算机及网格服务环境”相呼应。一、对高效能计算机的需求越来越旺盛科学和工程领域对高效能计算永无休止的需求是驱动高效能计算机发展的动力。从能源方面看,如何解决能源问题是全球各国非常关注的问题,尤其是高效能计算机有可能帮助社会解决一些问题。比如等离子物理学里面的核聚变研究,高
3、效能计算机的作用是在电站的发电设备建造之前对反应过程进行大规模的模拟,是未来利用核聚变能量的关键,综合计算机能力将增长100010000倍,既需要1100Pflops的计算机。在生存环境方面,跟大众日常生活相关的有气候模拟。高效能计算机可以模拟整个地球生存环境,来预测未来人类生存的环境。有的科学家对地球环境比较悲观,因为人类的发展使得我们的生存环境越来越恶劣。一百年或者更长的时间地球的环境会怎样,能不能对它进行模拟,这是千万亿次计算机发挥作用的地方。未来510 年,有效的模拟计算能力需要增长1001000倍;对计算能力增长的最终需求至少为当前的10 亿倍。在交通运输方面,高效能计算解决的主要问
4、题包括安全性、噪音、振动、粗糙度、耐久性、气流和热传输。这些问题需要几小时到几周的时间解决,至少需要在今天的计算能力的基础上提高7 个数量级,也就是1000Exaflops。对地震的计算模拟结果表明,人类有望预测地震的发生,从而减轻地震带来的危险,未来处理地震数据所需的计算资源大约为1000Pflops 。在人类认知方面,比如天体物理学,利用高效能计算机进行模拟是研究天体物理的基本手段。传统上,该领域中的受控实验非常少,甚至不太可能有受控实验,但计算机模拟可以使受控实验成为可能。几百年、几千年或者更长时间的天体演变可以通过计算机来对进行模拟,这样就节省了大量的时间。未来这一领域需要110Pfl
5、ops的计算能力。目前,1这样的能力可以应用于银河系形成的模拟、行星形成的模拟等。更为重要的应用领域是国家安全。国家安全是各国政府密切关注的,首先是核模拟和核武库管理,核模拟过程已经从二维模型和解决方案向三维模型和解决方案演变,需要计算资源增长1000 倍以上。信号情报方面计算机主要有两个用途,情报处理和情报分析,该领域对计算能力的需求是无止境的,计算机速度越快越好。计算模拟在工业中的应用随处可见, 它在材料设计、 制造和生产过程中起到一个实质性作用, 为了确保产品的可靠性、质量和节约成本,计算模拟被越来越多地用来取代实物试验。随着各种计算方法的成熟,例如多尺度方法的应用,工业界在提高产品性能
6、方面更多地依赖于计算模拟技术的应用。工业领域对计算机速度的需求是永无止境。二、高效能计算机的发展状况表 1列出了 2006 年 11 月世界上最快的 5 台高效能计算机。(8 月开会时将替换为新的)表 12006 年 11 月 TOP5 超级计算机排名安装地点 / 时间系统名称 / 处理器数量 / 制造商实测性能( GF)峰值性能( GF)劳伦斯利弗莫尔国家实验室蓝色基因 /L2806001eServer Blue Gene Solution/131072美国 /2005 年367000IBM 公司红色风暴(新)2圣地亚国家实验室Sandia/ Cray Red Storm, Opteron2
7、.4101400美国 /2006 年GHz dual core/26544127411Cray 公司IBM 华生研究中心BGW912903eServer Blue Gene Solution/40960美国 /2006 年114688IBM 公司劳伦斯利弗莫尔国家实验室ASC紫色757604美国 /2006 年eServer pSeries p5 575 1.9 GHz/12208IBM 公司92781MareNostrum5巴塞罗那超级计算中心BladeCenter JS21 Cluster, PPC 970,62630西班牙 /20062.3 GHz, Myrinet/1024094208
8、IBM 公司高效能计算机发展的速度可以这样来描述,每半年发布的TOP500 有 40 左右(有时50 )在半年后会被淘汰出局。当前美日等发达国家争相研制千万亿次高效能计算机。世界上第一台专用千万亿次计算机已经于2006 年 6 月出现,由日本理化所、日本SGI 、美国 Intel 公司共同研发,这台MDGRAPE-3系统主要为天文模拟以及分子动力学模拟提供高精度N-体计算。它是基于通用服务器的机群结构,201 个运算结点, 每个结点带有24 个为分子动力学开发的专用芯片。由于其专用机身份,无法运行Linpack 基准测试程序,因而无法进入TOP500 行列。IBM 公司从1999 年开始实施蓝
9、色基因(BlueGene )计划,旨在研发千万亿次计算机2解决生命科学中的分子模拟问题。蓝色基因 /L 系统自 2004 年 11 月开始已经在TOP500 中连续 3 年占据榜首位置,目前峰值性能367 万亿次,持续性能280 万亿次。根据该计划,蓝色基因 /P 系统的峰值 /持续性能为1Pflops/0.3Pflops, 2007 年推出。蓝色基因/Q 系统峰值/ 持续性能为 3Pflops/1Pflops , 2008 年推出。美国国防部的HPCS 计划从 2003 年开始资助 IBM 、Cray 、 SUN 公司进行千万亿次计算机的研制,投资7.25 亿美元。该项目经历了关键技术和原型
10、系统两个阶段后,已经进入最后阶段 2010 年前完成两台千万亿次高生产率计算机系统的研发。IBMPERCS 系统和 Cray 的 Cascade 系统分别获得2.5亿美元和2.44 亿美元资助,用以研制可扩展至Pflops 的超级计算机,并形成产品。IBM PERCS系统基于 Power7微处理器、 AIX 操作系统、通用并行文件系统(GPFS) 、IBM 并行计算环境及互联和存储子系统进行开发。在该系统中IBM 同时计划开发高效用软件和开发工具,以提高开发人员的生产率。Cray Cascade 系统本质上是一个能在单系统中提供包括标量、FPGA和混合矢量 /超级多线程 (MMT) 处理器板卡
11、的机箱内集群(cluster-in-a-box)。在该系统中, Cray将设计一款基于其 XD1 系统的 FPGA 加速板卡。Cascade 系统将开发编译器软件以处理多种涉及标量、矢量或 MMT 应用的混合任务。在未来四年中,Cray 将基于 Cascade 系统研发商品化的千万亿次超级计算机, 如为美国国家橡树岭实验室( )开发代号为“ Baker ”的超级计算机系统。“ Baker ”超级计算机预计采用四路双核AMDOpteron处理器( 24000 个处理器),基于 Cray专用 SeaStar 3D互连网络实现和AMD HyperTransport总线互联。美国能源部已经选定 IBM
12、公司设计并建造基于Cell 处理器的超级计算机。该系统将采用新的、高度复杂的软件, 来管理超过 16000个 AMD Opteron处理器和超过16000 个 CellBE 处理器,从而能够有效地解决当今计算领域最具挑战性的问题。该机将拥有1.6Pflops的峰值性能,持续速度能够达到1Pflops以上。占地面积仅为12000 平方英尺(约三个篮球场大小),预计2008 年完成。目前,日本已有五个千万亿次超级计算机研发计划:除了已经完成的MDGRAPE-3计划外,另有 GRAPE-DR 计划, 2008年完成。文部省的MEXT 计划以 1000亿日元支持NEC 、日立、东京大学等研发10 Pf
13、lops的系统, 2011 年完成。富士通公司投入500 亿日元研发一台 3 Pflops 的系统, 该系统以更少更强的处理器来构建,2010年完成。 每块处理芯片上具有个处理器, 达到 100Gflops的性能。升级后的地球模拟器将达到16 Pflops 的指标。该系统将采用两种计算模式,粗略计算和精确计算,以实现更高的并行计算效率。法国 Bull 公司也计划在 2013 年开发出千万亿次超级计算机系统,用于一项法国军事项目。我国在这方面的投入和产生的效果也非常明显。从五年前我国在这个领域默默无闻,到现在已经排名到世界前五名。863 计划信息技术领域围绕国家重大工程、重大行业应用和经济发展迫
14、切需求,设立了 “高效能计算机及网络服务环境”重大项目,这也就使我国进入千万亿次机研究行列。 拟在 2008年 6 月完成两台用于科学工程计算、网络信息服务和数据库应用的 100 Tflops高效能计算机系统, 并在 2010年最终实现中国的1Pflops高效能计算机系统。三、多核 CPU 对高效能计算机产生重大影响1. CPU 进入多核时代CPU 一直以摩尔定律的速度在发展,正是CPU 速度的不断提高带来计算机性能的持续飞跃。在集成电路工艺进步的前提下, CPU 性能提高的途径主要是依靠频率的提高和系统结构的创新。31971 年第一款 CPU Intel 4004 问世时,晶体管数只有 23
15、00 个,频率 108KHz 。今天,一款 4 核处理器 Intel Core 2 达到 8.2 亿晶体管,频率最高的 CPU 达到 4GHz 。但是频率的继续提高遇到了难以克服的功耗问题,于是转向多核处理器的开发。多核处理器将成为今后CPU 的主流。从目前所能看到的,摩尔定律直到2020 年仍将是有效的。为什么多核处理器在降低频率、不增加功耗的前提下还能提升性能呢?由于频率降低能明显的降低功耗,而对性能的影响有限,从表2 可以看出,当频率降低20 并采用双核时,功耗基本不变,性能却能提升73 。表 2CPU 频率、性能、功耗三者的关系频率功耗性能以单核 CPU 为基准111频率提升20 1.
16、21.731.13频率降低20 0.80.510.87频率降低20 双核0.81.021.73当前多核处理器分为两种,一种是同构多核处理器,在一个芯片中集成了多个相同的处理器核,面向通用应用。这类多核处理器继2006 年双核之后, 2007 年以 4 核处理器为主流。另一种是异构多核处理器,一个通用主核和若干异构从核集成起来,面向一定的应用领域,较之专用处理器有宽泛的应用范围。例如,Cell 处理器是由IBM 、东芝、索尼三家共同开发的新一代处理器产品,结合1 个 IBM 64 位 PowerPC微处理器核心与8 个协同运算处理器( SPE )所构成,具备强大的浮点数运算性能,应用于PS3 游
17、戏机、医学影像处理、 3D 电脑图形、影音多媒体与科学运算等领域。目前,IBM 正在建造基于Cell 处理器和 AMDOpteron处理器的千万亿次计算机。按照其产品规划,2007 年达到 16 核, 2009年 32 核, 2011 年 64 核, 2013 年 128 核。多核的最新成果是 06 年 9 月 Intel 公司发布的 80 核处理器,耗电仅 62 瓦。这款处理器不仅运算速度达到 1Tflops ,而且访存带宽达到 1TB/s ,加上 1Tb/s 的光互连带宽,真正的桌面式万亿次机将成为几年后垂手可得的产品。与此同时,06 年底专用多核处理器达到512 核,这是 Alchip
18、技术公司为日本正在研制中的2Pflops GRAPE-DR专用机研制的芯片。2. 多核 CPU 对高效能计算机的影响多核 CPU 对高效能计算机总体的影响应该是积极的,有助于以较低的功耗和较少的芯片构建更高效能的系统。但是在系统结构和系统软件方面,目前还有许多事情没有跟上多核的出现。多核对系统结构的影响多核增加了系统结构的层次。 过去的层次是 CPU 芯片运算结点系统, 现在是 CPU 核 CPU 芯片运算结点系统,造成核间通信在芯片内与芯片间是不相等的。其次由于多核芯片目前有真多核和假多核之说,主要是指除了运算核以外的其他资源(如二级Cache )是否真正共享。 这些结构上的不同虽然应用层都
19、看不见,但直接和间接的影响着性能。多核的出现鼓励高效能计算机研发人员要在系统结构方面大胆创新。多核带动多线程开发2007 年是多核普及的年代。多核对应用的影响成为最为关注的一个焦点。多核普及时代的影响主要体现在两个方面:一方面,多核处理器对多线程软件开发带来一个大的机遇与挑战,只有多线程的软件与多核处理器硬件配合,才能为用户提供更好的应用环境。另一方面,多核普及将使用户使用电脑的方式发生改变,同时运行多种应用将成为现实。4四、高效能计算机面临的挑战构建千万亿次高效能计算机,要把现在 PC 的运算速度提高 100 万倍。首先是功耗、研制和运行成本能否承担得起。 其次是用 100 万颗 CPU 放
20、在一起实现这样的速度, 其可靠性如何。第三, 100 万个单元之间进行数据传递和同步,实际能达到的效果怎样。最后,像千万亿次计算机这样大的设备,投入大,消耗大,用户最终能否得到相应的收益。面临的挑战众多,我们挑选关键的几个问题来加以阐述。1. 功耗、体积和低成本问题功耗、体积和成本是千万亿次机系统设计碰到的最大问题,也是投入运行后最棘手的问题。在芯片级,除了 Intel 80 核芯片外, Clearspeed 芯片是另一个好的例子。芯片中集成了 96 个 PE ,完成 64 位浮点操作的持续性能达到 25Gflops ,用 250MHz 的较低频率使功耗控制在 10W 。从系统级来看,尽管多核
21、的出现有助于减少功耗和提高效能,但千万亿次系统决不是简单的堆砌。系统设计上,性能价格比的设计观念要转变为性能能耗比的观念,即投入的单位能耗所能换取来的性能, Gflops/W 。按照目前的技术手段,千万亿次系统的功耗会达到数兆瓦甚至十几兆瓦,这对系统的供电、冷却、环境空调提出了巨大的挑战。不仅要重视计算机的额定功耗,而且更要重视运行应用时的功耗。现在,多核处理器在内部增加了节电功能,在部件和系统层次也要深入寻求降低功耗的技术,使得系统的运行成本控制在用户可以接受的范围之内。2. 系统结构研发千万亿次高效能计算机,必须在计算机系统结构上有所突破。首先,对通用和专用的问题要有清醒的认识。应用本身的
22、特征要求有相应的系统结构与之配合才能得到高的运行效率。计算机规模越大,运行应用时的效率就越低。考虑性能成本等诸因素,我们不可能造出一台包打天下的千万亿次机。因此,考虑适当的应用面向性是系统结构设计的前提。蓝色基因系统、地球模拟器、蛋白质探索者都不是通用计算机,它们只是在一类或几类应用领域里才表现出卓越的性能。其次,同构和异构的问题是另一个关键问题。综合考虑功耗性能成本以及应用需求等因素,异构结构应该引起我们足够的重视,很可能成为高效能计算机系统结构的新趋势。异构可以在芯片级、结点级和系统级上实现。芯片级的例子有Cell 、 CSX600等。结点级可以采用主从结构,用FPGA 或专用加速部件为应
23、用中的计算密集部分提供加速。系统级将多种不同系统结构的大系统通过高速互连网络连接起来,以通用处理器适应不同领域的各种应用需求,以异构多核处理器面向特定应用领域的计算需求,通用与专用的结合构成新的多态复合系统结构,是构建千万亿次机的一种新方式。平衡性设计是另一个不容忽视的问题。例如存储墙问题一直是困扰系统设计者的大问题。在多核时代,存储墙问题更加突出。存储器性能与处理器性能差距越来越大,以及本地延迟和远程延迟不一致性,导致存储器供数能力与处理器计算能力严重不协调。需要对应用的时间局部性和空间局部性进行认真分析,获得折中的选择。 我们也高兴的注意到, IBM和 Intel 公司都在从工艺角度为某些
24、系统结构问题提供解决方案。IBM 公司 07 年 4 月宣布了一项突破性的芯片堆垛 ( chip-stacking )制造技术, 使芯片布局从平面二维形式转变为三维立体形式。也就是说, CPU 芯片和存储芯片由传统在硅晶片上的并列摆放转变为层叠式摆放。芯片层叠起来的结果就是封装的体积大大缩小,从而极大地加快了数据在芯片功能部件间的传输速度。53. 编译技术和并行编程模型基于多核处理器的千万亿次机对编译技术提出了严峻的挑战。并行编译器的研究与系统结构的设计是相辅相成的。当多核结构不太明朗时,编译器研究不是等待,而是必须设计多种假定方案,通过与模拟试验相结合为多核设计提供方向性指导。编译器针对同构
25、多核和异构多核处理器,要研究的问题侧重点也是不相同的。由于同构多核都是运行在较低的频率下,程序的串行部分更容易成为瓶颈。我们更希望串行部分运行在高频率的主核上,异构多核提供了较好的选择。对于异构多核处理器,编译器面临的主要优化问题是决定主核上执行哪些运算,多个辅核上执行哪些运算。异构多核也使并行处理的运行模式复杂化。以 IBM Cell 处理器为例, 面对一主八从结构, 采用主 / 从式协同处理是一种自然的处理模式。而从核之间既可以选择 SIMD 方式运行,也可以选择 MIMD 方式运行。如果程序员难以确定并行运行模式,就需要编译器进行分析和评估,作出指导性建议。并行编程模型在多核时代同样遇到
26、了艰难的挑战。由于单纯靠编译器把串行程序自动转成并行程序是不太现实的事情。十多年来,OpenMP和 MPI 逐步发展成分别针对共享内存和分布内存的并行编程模型。对于OpenMP来说,由于多核结构并不是SMP 结构在片上的简单重复,OpenMP面临着多种挑战。首先,OpenMP需要发掘更广泛的并行性,除支持整数循环外要考虑对C迭代器的支持,寻求支持不规则程序的扩展,针对推测执行提供必要的语言扩展支持等。其次,多核处理器可以同时具有多线程和NUMA 特性,加上 SMP 的并行层次,具有不可忽视的层次并行的特征,这对于OpenMP扁平的执行模型提出了很大的挑战。OpenMP 中一直薄弱的局部性描述也
27、需要加强。4. 鲁棒性问题鲁棒性来源于一个英文单词 Robust ,也就是健壮和强壮的意思。控制专家用这个名字来表示当一个控制系统中的参数发生摄动时系统能否保持正常工作的一种特性或属性。就像人在受到外界病菌的感染后,是否能够通过自身的免疫系统恢复健康一样。现在,鲁棒性已成为控制理论中的一个重要的研究课题,也是一切类型的控制系统的设计中所必须考虑的一个基本问题。对鲁棒性的研究主要限于线性定常控制系统,所涉及的领域包括稳定性、无静差性、适应控制等。鲁棒性问题与控制系统的相对稳定性和不变性原理有着密切的联系,内模原理的建立则对鲁棒性问题的研究起了重要的推动作用。研究千万亿次机的鲁棒性必须从系统结构、
28、软硬件设计、并行支持环境、用户界面以及诊断容错系统等多方面共同努力才有可能得到解决。系统结构必须从片内到系统,从结点到网络都采取冗余设计,在软件的支持下具备故障检测、任务迁移、隔离的功能,以及有修复再加入的功能。软件鲁棒性首先是操作系统本身的鲁棒性,对于这样大的系统,当各种不同类型的故障发生时不能轻易的重启操作系统。对于跟用户相关的并行支持环境和用户界面有更多的细节需要考虑鲁棒性。总之,对于千万亿次机这样的大系统,平均无故障间隔时间很可能下降到几十小时甚至几小时,不出故障是不可能的,关键是各部分各层次的鲁棒性措施是否能协同工作,一套完善的免疫修复机制是否有效,从而保证大系统的正常工作。五、 结束语科学和工程计算的计算需求仍然
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 滑板考试题目及答案
- 助理广告师考试突破难点试题及答案
- 医疗药剂考试题及答案
- 天水中考道法试题及答案
- 湖北护士笔试题目及答案
- 城管执法面试试题及答案
- 助理广告师考试如何运用心理学提升广告效果试题及答案
- 2024年纺织工程师证书考试调研动态试题及答案
- 数字技术如何重塑广告行业的现状试题及答案
- 2024年新型纺织材料考证试题及答案
- 社会工作介入老年社区教育的探索
- 国开电大-工程数学(本)-工程数学第4次作业-形考答案
- 高考倒计时30天冲刺家长会课件
- 施工项目现金流预算管理培训课件
- 时行疾病(中医儿科学课件)
- 街道计生办主任先进事迹材料-巾帼弄潮显风流
- GB/T 32616-2016纺织品色牢度试验试样变色的仪器评级方法
- 部编版小学语文三年级下册第七单元整体解读《奇妙的世界》课件
- 管道支吊架培训教材课件
- 2、工程工质量保证体系框图
- 地铁工程车辆段路基填方施工方案
评论
0/150
提交评论