哈工大并行计算课件第三章性能指标和基准程序_第1页
哈工大并行计算课件第三章性能指标和基准程序_第2页
哈工大并行计算课件第三章性能指标和基准程序_第3页
哈工大并行计算课件第三章性能指标和基准程序_第4页
哈工大并行计算课件第三章性能指标和基准程序_第5页
已阅读5页,还剩186页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章性能指标和基准程序

■或系统和应用的基准程序

・02性能和成本

-基本性能指标

■并行计算机性能

-Q并行程序性能

■C6可扩展性和加速比分析

哈尔滨工业大学计算机科学与技术学院1

1.如何描述应用和系统的性能特征?

2什么是用户对性能和成本要求?

3.如何测量应用程序的性能?使用何种

类型的性能指标?

4.当在并行计算机上执行并行程序时,

如何描述系统性能的特征?

5.影响性能的参数有哪些?典型的参数

值为多少?

6.如何量化和分析系统可扩展性?

7.如何确定执行给定应用问题的并行机

的可扩展性?

哈尔滨工业大学计算机科学与技术学院2

或系统和应用的基准程序

■一、前言

■基准程序是性能测试程序,并假设它

能刻划某一类应用问题的处理和数据

移动的特征。

-基准程序用来测量和预测计算机系统

的性能,并能提示它们的体系结构的

弱点和优点。

哈尔滨工业大学计算机科学与技术学院3

■基准程序分类:

(1)按应用类

(2)按计算机系统来分基准程序

口宏基准程序

■宏基准程序测量一个计算机系统的总

体性能。

口微基准程序两类

■微基准程序测量一个计算机系统的某一

特定方面性能。

哈尔滨工业大学计算机科学与技术学院4

代表性的微和宏基准程序组

类型;名称I而基

微基准程序UNPACK数值计算(线性代数)

LMBENCHunix中的系统调用和数据移动

STREAM存储器带宽

宏基准程序NAS并行计算(CPD)

PARKBENCH并行计算

SPEC混合基准程序系列

Splash并行计算

STAP信号处理

TPG商业应用

哈尔滨工业大学计算机科学与技术学院5

■二、微基准程序

■包括:3个微基准程序组。

■1.LINPACK

■从1993起,美国明尼苏达大学和田纳西州立大学的

JackDongarra创作并加以维护。

■高性能计算机T0P500项目,收集和维护关于世界上

前500名最强大的计算机系统的信息,每年两次给

出这些统计信息。

■根据超级计算机的Linpack基准测试程序的性能进

行排名。LINPACK简单实用,它定期公布有关各种

系统的UNPACK性能数值表。

哈尔滨工业大学计算机科学与技术学院6

1996年12月UNPACK报告的样本

计算机处理器数Am.x(Gnop/s)N(阶)N〃?(阶)R“GHop/s)

IntelASCIOptionRed72641068215,00053,4001453,

CP-PACS2048368.2103,68030,720614

IntelParagonXP/SMP6768281.1128,60025,700338

NumericalWindTunne167229.766,13218,018281

FujitsuVPP500/153153200.662,73017,000245

CrayT3D10241024100.581,92010,224152

IBMSP2-T251288.473,50020,150136

NECSX-4/323261.7715,360179264

Return

哈尔滨工业大学计算机科学与技术学院7

RAnkDiieGompiiter4ftseceSSOFS-Rmsx

2004年Country/YearManufacturerRpeak

1EarthSimulatorEarth-Simulator/512035860

6月CenterNEC40960

Japan/2002

TOP10LawrenceLivermoreNationalThunderIntelItanium2Tieer41.4GHz-19940

2-aboratoryUnitedStates72004Quadrics/4096CaliforniaDigitalCorporation22938

LosAlamosNationalLaboratoryASCIO-AJohaServerSC45.1.25GHz/819213880

3JnitedStates/2002HP20480

iBM-RochesterUnitedBlucGene/LDD1Prototvoc(0.5GHzPowerPC11680

4States/2004440w/Custom)/8192IBM/LLNL16384

NCSAUnitedSlates/2003TungstenPowcrEd-,c1750,P4Xeon3.06GHz.Myrincl/2500Dell9819

515300

ECMWFUnitedKingdom/2004cScrvcroScrics690(1.9GHzPowcr4+1/21128955

6IBM16051

InstituteofPhysicalandRIKENSuoerCombinedCluster/2048Fuiitqn8728

ChemicalRes.(RIKEN)12534

7Japan/2004

IBM-ThomasWatsonResearchB!ueGene/LDD2Prototvoe(0.7GHzPowerPC8655

8CenterUnitedStatcs/2004440)/4096IBM/LLNL11469

PacificNorthwestNationalMpp2hte-ritvrx2600Itanium21.5GIIz.8633

9LaboratoryUnitedStalcs/2003Quadrics/1936HP11616

10ShanghaiDawning4000A,8061

SupercomputOnteron2.2GHz_11264

erCenterMvrinet/2560

China/2004___Dawning

哈尔滨工业大学计算机科学与技术学院8

RanSiteComputer/ProcessorsRmax

kCountry/YearManufacturerRpak

1IBM/DOEBlueGene/Lbeta-System70720

UnitedBlueGene/LDD291750

States/2004beta-Svstem(0.7GHz

PowerPC440)/32768

2004年IBM

NASA/AmesResearchColumbiaSGIA!tix1.5GHz,Voltaire51870

11月2Ccnter/NASUnitedlufiniband/10160SGI60960

TOP10States/2004

3TheEarthEarth-Simulator/512035860

SimulatorNEC40960

Center

Japan/2002

BarcelonaSuocrcomoutcrMarcNostrumeServerBladcCentcrJS2020530

4CenterSpain/2004(PowerPC9702.2GHzLMvrinet/3564IBM31363

LawrenceLivermoreNationalThunderIntelItanium2Ti2er41.4GHz-19940

5,aboratoryUnitedStates/2004Quadrics/4096CaliforniaDigitalCorporation22938

LosAlamosNationalASCIOASCIO-AIDhaServerSC45.1.25GHz13880

6LaboratoryUnitedStates/2002/8I92HP20480

ViminiaTechUnitedSystemX1100Dual2.3GHzADDle12250

7States/2004XServe/MeUanoxInfiniband4X/CiscoGiuE/20240

2200Sel[made

IBM-RochesterUnitedBlueGene/LDD1Prototwe(0.5GHzPowerPC11680

8States./2004440w/Custom}/8192IBM/LLNL16384

NavalOceanoeraDhicOfficeeServerDSeries655(1.7GHzPower4+)/294410310

97NAVOCEANO)United~BM20019.2

States/2004

NCSAUnitedStates/2003TungstenPowerEd~、e1750.P4Xeon3.06GHz.9819

15300

10哈尔滨工业大2幺律算就理学与技术学院9

■2004年11月的最新T0P500的特点

□DOE/IBM联合研发的BlueGene/Lbeta-System

以实测Linpack峰值70.72TFIops位于2004年11

月T0P500排名的第一位。当整个BlueGene/L系

统完成时,将安装到DOE(能源部)下的Lawrence

Livermore国家实验室。

□紧跟其后的是安装在NASAAmes研究中心的SGI构

建的Columbia系统,它的实测峰值是

51.87TFIopso

□上述两个系统让实测峰值35.86TFIops的日本

NECEarthSimuIator连续5次T0P500排名第1名成

为历史。

哈尔滨工业大学计算机科学与技术学院10

■该年度在T0P10中还有其他一些明显的变化。安装在

BarceIona超级计算中心的IBMMareNostrum机群以

20.53Tfops排名第四;

■采用AppleXserve服务器构建的VirginiaTechX-

system在六个月前由于主要的硬件更新出现了一些小

问题退出T0P10后,现在以12.25TFIops重新回到了

T0P10o

■T0P10的系统最低Linpack峰值达到了lOTFIops,

T0P100的最低Linpack峰值从1.922TFIops升到了

2.026TFIops,10「500的最低11皿2o1<峰值从6个月前

的624.3GFIops提高到85。.6GFIops,而最新的

T0P500中最后一名六个月前还列310位

■超过1TFlops的系统数量从242提高到399。

■整个T0P500中所有的系统的性能总和,已经超过

1PetaFIops,从六个月前的813TFIops突破到

1.127PetaFIopso

哈尔滨工业大学计算机科学与技术学院11

■另外从T0P500中可以发现一些变化趋势。从使

用的处理器和系统类型来看,有320套系统采

用Intel处理器,而六个月前这个数量是287,

一年前只有189;

■其次是IBMPower处理器(54),

■然后是Hewlett-PackardPA-RISC处理器(48)和

AMD处理器(31)。

■结论:

■Intel的主导地位还是难以撼动

■机群(cluster)系统是主要的系统类型,共有

296套系统是机群

哈尔滨工业大学计算机科学与技术学院12

■2.LMBENCH

■LMBENCH基准程序组由SGI的

LarryMcVoy提出,是一个可移植的

基准程序。

■在各种Unix平台上,用来测量操作

系统开销和处理器、高速缓存、存

储器、网络及磁盘。

哈尔滨工业大学计算机科学与技术学院13

由LMBENCH测得的带宽、时延和系统开销

属,性1nte1SunUItraIBM990

Alder

带宽(MB存储器复制5285242

/s)读文件5285187

管道386184

TCP205110

时延读存储器0.280.270.26

(uS)创建文件2380918,18113,333

管道1016291

TCP305162332

系统开无系统调用7516

销创建进程450037001200

(uS)现场切换361413

[大学计算机科学与技术次

院14

■3.STREAM

-是一个简单的合成基准程序;

■由SGI的JohnMcCaIpin提出。

□测量持续的存储器带宽(以MB/s为

单位)和相应的计算速率。

□下表中的向量a、b和c均是有二百

万个元素的数组,其中每个元素是

一个8字节的字。

哈尔滨工业大学计算机科学与技术学院15

STREAM基准程序中的四个操作

名称代码字节/迭代Flop/迭代

COPYa(i)=b(i)160

SCALEa(i)=qxb(i)16I

SUMa⑴=b⑴+c⑴24

TRIADa(i)=b(i)+qxc(i)242

哈尔滨工业大学计算机科学与技术学院16

■McCalpin提出一个机器平衡指标,由

下式定义:

峰值浮点速度⑴op/s)

机器平衡值市3显正的将缓存i寤鼾鹿(word/s)

哈尔滨工业大学计算机科学与技术学院17

■4.说明(如下表所示):

■许多系统的机器平衡值随年份增长而

不断增加,意味着存储器带宽越来越

落后于处理器速度。

■IBMRS6000各种服务器是个例外,因

为IBM公司对其中的存储器系统设计

总是给予足够重视。

■其他公司也尝试改进存储器系统性能。

哈尔滨工业大学计算机科学与技术学院18

机器平衡值的历史趋向

年份系统存储器带宽(MB/s)峰值速度(Mflop/s)机器平衡佰

1978DECVAX11/78040,40.8

1991DEC5000/20028102.9

1993DEC3000/50010015012

1995DEC600-5/300169600284

9952347024

980DEC8400/350212

0

992IBMPC8088/8733<0OZ.4

1&

994IBMPC486/DX2-6685L73

IBMPCPentium-10066

1990IBMRS/6000-3206040

993IBM《S/6UUU-5H。240J2b

1994IBMQS/6000-590654262

IBMRS/6000-591800310

999859135

8

992SGI4D/25625

993SGICrimson57506,5

994SGIChallenge1353750Z.8

996SGIPowerChallenge3173008

SGIOrigin2000889.

咕小侠,“匕人子叮舁帆村子勺仅小于阮IV

■三、并行计算的基准程序

-测试分布共享存储器机器

-数值计算基准程序

□斯坦福大学开发的SpIash和SpIash-2;

■并行化编译程序系统和技术:

□伊利诺斯大学开发的Perfect基准程序

■常用的3个并行基准程序组:

□NPB、PARKBENCH和STAP,它们代表了科

学计算史的主要应用组?

哈尔滨工业大学计算机科学与技术学院20

■1.NPB组

■在并行计算机供应商、用户和研究人员

中,NPB已被广泛接受。

NAS并行基准程序(NASParaIlei

BenchmarksNPB)是由NASAAmes

ResearCenter为数值空气动力模拟计

划开发的,用来评估并行超级计算机的

性能。

■NPB模仿大型计流体动力学

(computationaIfluiddynamics,

CFD)应用中的计算和数据移动特征o

哈尔滨工业大学计算机科学与技术学院21

■NPB组由5个核心(EP、MG、CG>FT

和IS)和3个模拟应用(LU、SP和BT)

程序组成。

■EP(EmbarrassinglyParaIlei)

基准程序;

□能运行在任意个数的处理器而只需很

少通信。它能估计并行计算机可达到

的浮点性能的上限。

哈尔滨工业大学计算机科学与技术学院22

■MG(MultiGridmethod.多栅格方法)基

准程序

□求解二维标量泊松(Poisson)方程。要完

成具有高度结构化的短距离和远程通信。

■CG(ConjugateGradientmethod,共

辆梯度方法)基准程序

□计算对称正定矩阵的最小本征值。它的

特点是进行非结构栅格计算,需要不规

则的远程通信。

哈尔滨工业大学计算机科学与技术学院23

.FT基准程序

□使用基于FFT的光谱方法求解三维

偏微分方程,也需要远程通信。

■IS(整数排序,IntegerSorting)

基准程序

□基于桶型排序的并行排序程序。它

需要很多全体交换通信。

哈尔滨工业大学计算机科学与技术学院24

■三种模拟应用

■三者通信不同

■BT(BIockTri-diagona19块三对角)

■LU(bIocklowertriangular9块下

三角,blockuppertriangular9块

上三角);

■SP(SeaIarPenta-diagonaI,标量五

对角)基准程序

哈尔滨工业大学计算机科学与技术学院25

■2.PARKBENCH

■鳖RKBENCH(并行核心和基准程序)委员

□在1992年超级计算会议上由一些对并行计

算机基准程序测试感兴趣的人们创立的。

该组织的一个贡献是建立了一致的性能指

标和记号集。

■目前的基准程序用于分布存储多计算

□用Fortran77编码,并用PVM或MPI做消息

传递。正在开发基准程序的Fortran90和

HPF版本以及适用于共享存储体系结构的

-----------------

哈尔滨工业大学计算机科学与技术学院26

■该小组已提出4类基准程序:

・低层基准程序

■核心基准程序

■压缩应用基准程序

□目前只包括并行光谱转换浅水建模应用以

及3个NPB模拟应用

■HPF编译器基准程序

□是几个简单的合成应用,用来测量HPF编

译器性能,侧重对显式并行HPF构造的并

行实现的检测----------------------

哈尔滨工业大学计算机科学与技术学院27

■3.并行STAP组

■空一时自适应处理(SpaceTimeAdaptive

Processing)其准程序组是一套实时雷达

信号处理基准程序。

■最初由MIT的林肯实验室(Lincoln

Laboratory)开发。MIT的顺序STAP近来已

在南加州大学被转换成并行STAP,用来评

估各种MPP。

■STAP基准程序是密集计算,要求在不到1

秒时间内对0(1。2-104)MB数据完成0(101°-

10刃浮点操作。

哈尔滨工业大学计算机科学与技术学院28

■STAP基准程序组由5个程序组成:

□AdaptiveProcessingTestbed(APT,自适

应处理试验台)

□High-OrderPost—DoppIer(HO—PD,高

阶后多普勒)

□BeamSpacePRI-Staggered

PostDoppIer(BM—Stag)

□EIementSpacePRI-StaggeredPost

DoppIer(EL—Stag)

口GeneraI(GEN)

哈尔滨工业大学计算机科学与技术学院29

■General(GEN)

■GEN程序由4个独立分程序组成:

口分别完成排序(SORT)

□快速傅里叶变换(FFT)

□向量乘(VEC)以及线性代数(LA)

-它们代表了在雷达信号处理应用中经

常使用的核心子程序

哈尔滨工业大学计算机科学与技术学院30

APT、

HO-PD、

BM、EL等

4个基准程

序的结构

STAP中并行APT算法的结构

哈尔滨工业大学计算机科学与技术学院31

■APT、HO-PD、BM、EL等4个基准程

序的结构说明:

①全以DopplerProcessing(DP,多

普勒处理)步开始。

②APT完成HousehoIder

Transform(HT,普通转换);

③它在以后的beamfonning(BF,射

束形成)步:

□以抑制人为干扰台和杂乱回波;

哈尔滨工业大学计算机科学与技术学院32

□而在HO—PD程序中,两个自适应射束形

成步被合成为一步。BM—Stag程序和

EL—Stag程序与HO—PD类似,但各自在

射束空间和元空间中使用交叉干扰训练

算法。

④以targetdetection(TD,目标探测)

步结束。

哈尔滨工业大学计算机科学与技术学院33

I、商业和TPC基准程序

-商用的最为流行的基准程序组是

TP座准程序,它由事务处理性能

委员会(TransactionProcessing

PerformanceCounciI,故名为

TPC)开发,

■这是一个非盈利组织,主要从事

事务处理和数据库基准程序的开

发。

哈尔滨工业大学计算机科学与技术学院34

■TPC已发布了4个基准程序。根据1995

年6月资料,TPC-A和TPC-B已被废弃。

■TPC-C是数据记载基准程序,测量事务

处理系统的性能和价格/性能比。

-TPC-D则测量决策支持系统。

■TPC正开发TPC-E(Enterprise,企业)

的新基准程序,以量化支持适合于大

型商业企业计算环境的特定系统的能

力。

哈尔滨工业大学计算机科学与技术学院35

■TPC-C是一个在线事务处理(OLTP)基准

程序,用得最广。

□它模拟一个完整的大规模公司环境,

其中终端操作员对数据库执行事务操

作。公司管理N个仓库,每个仓库供

应10个销售区,每个区为3000名顾客

服务。每个仓库有10个终端,每个区

有一个。

□在任何时间,一个操作员可执行表中

的处理

哈尔滨工业大学计算机科学与技术学院36

TPC-C基准程序中的五类事务处理

事务处理类型数据库访问事务处理权重执行频率90%Persentile响应时间(s)

新定单读/写中等局<5s

支付读/丐轻至少43%<5s

定单状况只读中等至少4%<5s

交付读/写重至少4%<5s

库存程度只读重至少4%<20s

哈尔滨工业大学计算机科学与技术学院37

■被测系统必须具有ACID性质

□原子性(atomicity);

□一致性(consistency);

□隔离性(isolation);

□持久性(durabiIity)。

哈尔滨工业大学计算机科学与技术学院38

■五、SPEC基准程序系列

■SPEC基准程序系列是由名为

■StandardPerformanceEvaIuationCor

poration非盈利公司所开发的。

■SPEC以测量CPU性能的基准程序作为

出发点,但已向客户机/服务器计算

I/0子系统等方面扩展。

哈尔滨工业大学计算机科学与技术学院39

■目前SPEC已公布如下的基准程序组:

■SPEC95

□测量CPU、存储器系统和编译器代码生

成性能。

□SPEC95CPU基准程序从整体上测试CPU

速度、高速缓存/存储器系统以及编译

器。它不计操作系统和I/0操作时间。

□SPEC95由ClNT95(8个整数程序)和

CFP95U0个浮点程序)组成,两者均是

CPU密集应用。

哈尔滨工业大学计算机科学与技术学院40

■SPEChpc96

□测量运行工业型应用程序的高性能

计算系统的性能。

■SPECweb96

■SFS

□为系统级文件服务器基准程序。

哈尔滨工业大学计算机科学与技术学院41

■SDM

□为系统开发多任务基准程序,测量

一个系统如何处理一个有大量用户

发出典型的Unix软件开发命令(如

make、cp>grep及spe11等)的环境。

■GPC

□图形性能特征描述基准程序,测量

图形学性能。

哈尔滨工业大学计算机科学与技术学院42

■下表给出了DigitalAlpha

Station500/500的SPEC95结果

□该工作站使用500MHzAlpha21164

微处理器,8MB高速缓存以及128MB

主存。

□指定系统的所有SPEC95结果,均表

示成与参照机SUNSPARC工作站10

/40性能比较的比例。

哈尔滨工业大学计算机科学与技术学院43

AlphaStation的SPEC95性能

速度吞吐率

指标95_base95_rate95_ratebase95

SPECint1512.6135113

SPECfp20.418.3183165

哈尔滨工业大学计算机科学与技术学院44

■总结:

■探讨了几种常用的测试程序;

哈尔滨工业大学计算机科学与技术学院45

第3章性能指标和基准程序

系统和应用的基准程序

■02性能和成本

-基本性能指标

■仔并行计算机性能

-Q并行程序性能

■。6可扩展性和加速比分析

哈尔滨工业大学计算机科学与技术学院46

Q性能和成本

■说明:用户经常提到6种性能:

①执行时间;

②速度

③吞吐率:单位时间执行的程序数;

④利用率

⑤成本有效性

⑥性能/成本比

■对在相同计算机平台上执行相同的应期程序,

这些需求可能导致很大差别的结论。

哈尔滨工业大学计算机科学与技术学院47

■用到的一些概念

□工作负载(W)是程序中的计算操作

□Ppeak是处理器的峰值速度

哈尔滨工业大学计算机科学与技术学院48

术语记号单位

机器规模n无量纲

时钟速率fMHz

工作负载WMfIop(兆浮点运算)

顺序执行时间T1s(秒)

并行执行时间Tns(秒)

速度Pn=W/TMfIop/s

加速比Sn=T1/Tn无量纲

效率En=Sn/n无量纲

利用率Un=Pn/(nPpeak)无量纲

启动时间to口s

■/_________________

渐近市九r8MB/s

哈尔滨工业大学计算机科学与技术学院49

■例题:

■用执行时间测量性能的不足

■在并行计算机X上成功地运行他的代

码测得执行时间为1000S。

■该代码在另一台机器y上运行需要

500s时间,

■推不出:结论x机比y机慢

哈尔滨工业大学计算机科学与技术学院50

■一、执行时间和吞吐率

■1.处理速度:

□是指单位时间的工作负载(W)的处理;

□对于许多应用,用户可能对达到某一处理速

度感兴趣。

哈尔滨工业大学计算机科学与技术学院51

在256个结点的SP2上所测得的STAP性能

程序执行时间速度加速比利用

(s)(GFIop/s)率

APT0.1699013%

HO-PD0.562323334%

GEN1.403.8866%

哈尔滨工业大学计算机科学与技术学院52

■例题:在256个结点的SP2上希望STAP

在0.5秒完成

□根据上表,只有APT能完成

■例题:在256个结点的SP2上希望STAP

速度为10GFL0P/S

□根据上表,只有HO-PD能完成

哈尔滨工业大学计算机科学与技术学院53

■2.系统吞吐率

□是指单位时间处理的作业数

□提高系统吞吐率的两个方法

①流水化

②无相关的分配

哈尔滨工业大学计算机科学与技术学院54

■例题:在256个结点的SP2上

■APT程序的吞吐率是单位时间作业数

□0.16S一个APT

口或1/0.16=6.25

■例题:并行APT中吞吐率和速度改进

■上表的工作负载二9*0.16=1.44GfIop

口假设:用两级流水0.14S,0.11S,每一级128

个结点,总的时间0.25s

□吞吐率二1/0.14S个APT=7.14个APT或

1.44/0.14=10.34GfIop/s或7.14*0.14=10.28

哈尔滨工业大学计算机科学与技术学院55

■例题:每个节点无相关的分配一个分

离任务:

■上例IBMSP2每个节点分配一个APT任

务,在一个SP2节点上执行时间需14s,

这时的吞吐率是:

256/14=18.29个APT

哈尔滨工业大学计算机科学与技术学院56

二、利用率和成本有效性

1.执行时间、速度和利用率是最重

要的3个指标

2.利用率:

□它是一个给定计算机实际可达到速

度与峰值速度之比

哈尔滨工业大学计算机科学与技术学院57

■例题:执行APT的IBMSP2的利用率

□假定每个CPU小时需收费10美元

□则由下表,计算APT程序运行在256个结

点和1个结点上时的利用率

□256个结点和1个结点哪一个更成本有效?

哈尔滨工业大学计算机科学与技术学院58

在256个结点的SP2上所测得的STAP性能

程序执行时间速度加速比利用率

(s)(GFIop/s)

APT0.1699013%

HO-PD0.562323334%

GEN1.403.8866%

哈尔滨工业大学计算机科学与技术学院59

■解:每个SP2结点的峰值速度为266Mflop/

s(见表3-2136G/512=266)

■一个有256个结点的SP2,其峰值速度为:

266x256=68Gflop/s;

■APT程序在256个结点上可达到的速度为:

9GfIop/s;

■在1个结点可求出达到的速度为:

■利用Sn=T1/Tn;p1=w/t1,pn=w/tn

■1个结点速度=9Gflop/s/90=100Mflop/

s;

哈尔滨工业大学计算机科学与技术学院60

■转换成利用率则各自分别为:

□利用率Un=Pn/(nPpeak)

■256个结点利用率=96/686=13・3%

■单个结点利用率=100M/266M=37.6%

■结论:

□表明APT程序在SP2上运行,在一个

结点上时是更为成本有效

哈尔滨工业大学计算机科学与技术学院61

■根据上面的要求:

口在256个结点上执行APT需0.)6s

□执行一个APT的总成本为:

$10x256x0.16/3600=$0.11

□这相应于成本有效性为:

■(9Gflop/s)/$0.11=81Gflop/s

每美元。

哈尔滨工业大学计算机科学与技术学院62

■在一个结点时,执行时间约为14.4s

■总的成本仅为:

$10x14.4/3600二$0.04,

■成本有效性为:

(9GfIop/s?)/$0.04=225GfIop/s每美元

■(1OOMflops/s)/0.04=2.5GfIop/s每美

哈尔滨工业大学计算机科学与技术学院63

-总结:

□壁例子表明较高利用率对应地有较高的每美

元GfIop/s

□当CPU1小时费用值固定时这总是成立的

□CPU一小时的费用在不同机器上对不同类型的

作业可能有高有低。

哈尔滨工业大学计算机科学与技术学院64

3,推广

□如果用成本来衡量:Gflops/美元

■执行时间、速度和利用率是重要

的指标:

□低利用率总是对应一个差的程序或

编译器。

哈尔滨工业大学计算机科学与技术学院65

4.经验估计值:

□运行在单MPP处理器上:

■顺序应用程序(利用率)一5%到40%

之间;

.典型是一8%到25%之间。

■某些个别的子程序可达到75%以上。

□对于在多个处理器上运行的并行应

用程序利用率在1%到35%之间;典

型地则是在4%到20%之间o

哈尔滨工业大学计算机科学与技术学院66

5.一个广为流传的错误概念是:

单结点或顺序计算总是有最高的

利用率?(由下图说明)

■并行计算有额外通信和闲置开销,

这并非总是正确的。

哈尔滨工业大学计算机科学与技术学院67

6.例子:

□给出在3个MPP(lntelParagon,

IBMSP2和CrayT3D)上;

□运行并行APT和HO基准程序;

□测出利用率如下:

哈尔滨工业大学计算机科学与技术学院68

o

4

—♦—AP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论