版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章性能指标和基准程序
■或系统和应用的基准程序
・02性能和成本
-基本性能指标
■并行计算机性能
-Q并行程序性能
■C6可扩展性和加速比分析
哈尔滨工业大学计算机科学与技术学院1
1.如何描述应用和系统的性能特征?
2什么是用户对性能和成本要求?
3.如何测量应用程序的性能?使用何种
类型的性能指标?
4.当在并行计算机上执行并行程序时,
如何描述系统性能的特征?
5.影响性能的参数有哪些?典型的参数
值为多少?
6.如何量化和分析系统可扩展性?
7.如何确定执行给定应用问题的并行机
的可扩展性?
哈尔滨工业大学计算机科学与技术学院2
或系统和应用的基准程序
■一、前言
■基准程序是性能测试程序,并假设它
能刻划某一类应用问题的处理和数据
移动的特征。
-基准程序用来测量和预测计算机系统
的性能,并能提示它们的体系结构的
弱点和优点。
哈尔滨工业大学计算机科学与技术学院3
■基准程序分类:
(1)按应用类
(2)按计算机系统来分基准程序
口宏基准程序
■宏基准程序测量一个计算机系统的总
体性能。
口微基准程序两类
■微基准程序测量一个计算机系统的某一
特定方面性能。
哈尔滨工业大学计算机科学与技术学院4
代表性的微和宏基准程序组
类型;名称I而基
微基准程序UNPACK数值计算(线性代数)
LMBENCHunix中的系统调用和数据移动
STREAM存储器带宽
宏基准程序NAS并行计算(CPD)
PARKBENCH并行计算
SPEC混合基准程序系列
Splash并行计算
STAP信号处理
TPG商业应用
哈尔滨工业大学计算机科学与技术学院5
■二、微基准程序
■包括:3个微基准程序组。
■1.LINPACK
■从1993起,美国明尼苏达大学和田纳西州立大学的
JackDongarra创作并加以维护。
■高性能计算机T0P500项目,收集和维护关于世界上
前500名最强大的计算机系统的信息,每年两次给
出这些统计信息。
■根据超级计算机的Linpack基准测试程序的性能进
行排名。LINPACK简单实用,它定期公布有关各种
系统的UNPACK性能数值表。
哈尔滨工业大学计算机科学与技术学院6
1996年12月UNPACK报告的样本
计算机处理器数Am.x(Gnop/s)N(阶)N〃?(阶)R“GHop/s)
IntelASCIOptionRed72641068215,00053,4001453,
CP-PACS2048368.2103,68030,720614
IntelParagonXP/SMP6768281.1128,60025,700338
NumericalWindTunne167229.766,13218,018281
FujitsuVPP500/153153200.662,73017,000245
CrayT3D10241024100.581,92010,224152
IBMSP2-T251288.473,50020,150136
NECSX-4/323261.7715,360179264
Return
哈尔滨工业大学计算机科学与技术学院7
RAnkDiieGompiiter4ftseceSSOFS-Rmsx
2004年Country/YearManufacturerRpeak
1EarthSimulatorEarth-Simulator/512035860
6月CenterNEC40960
Japan/2002
TOP10LawrenceLivermoreNationalThunderIntelItanium2Tieer41.4GHz-19940
2-aboratoryUnitedStates72004Quadrics/4096CaliforniaDigitalCorporation22938
LosAlamosNationalLaboratoryASCIO-AJohaServerSC45.1.25GHz/819213880
3JnitedStates/2002HP20480
iBM-RochesterUnitedBlucGene/LDD1Prototvoc(0.5GHzPowerPC11680
4States/2004440w/Custom)/8192IBM/LLNL16384
NCSAUnitedSlates/2003TungstenPowcrEd-,c1750,P4Xeon3.06GHz.Myrincl/2500Dell9819
515300
ECMWFUnitedKingdom/2004cScrvcroScrics690(1.9GHzPowcr4+1/21128955
6IBM16051
InstituteofPhysicalandRIKENSuoerCombinedCluster/2048Fuiitqn8728
ChemicalRes.(RIKEN)12534
7Japan/2004
IBM-ThomasWatsonResearchB!ueGene/LDD2Prototvoe(0.7GHzPowerPC8655
8CenterUnitedStatcs/2004440)/4096IBM/LLNL11469
PacificNorthwestNationalMpp2hte-ritvrx2600Itanium21.5GIIz.8633
9LaboratoryUnitedStalcs/2003Quadrics/1936HP11616
10ShanghaiDawning4000A,8061
SupercomputOnteron2.2GHz_11264
erCenterMvrinet/2560
China/2004___Dawning
哈尔滨工业大学计算机科学与技术学院8
RanSiteComputer/ProcessorsRmax
kCountry/YearManufacturerRpak
1IBM/DOEBlueGene/Lbeta-System70720
UnitedBlueGene/LDD291750
States/2004beta-Svstem(0.7GHz
PowerPC440)/32768
2004年IBM
NASA/AmesResearchColumbiaSGIA!tix1.5GHz,Voltaire51870
11月2Ccnter/NASUnitedlufiniband/10160SGI60960
TOP10States/2004
3TheEarthEarth-Simulator/512035860
SimulatorNEC40960
Center
Japan/2002
BarcelonaSuocrcomoutcrMarcNostrumeServerBladcCentcrJS2020530
4CenterSpain/2004(PowerPC9702.2GHzLMvrinet/3564IBM31363
LawrenceLivermoreNationalThunderIntelItanium2Ti2er41.4GHz-19940
5,aboratoryUnitedStates/2004Quadrics/4096CaliforniaDigitalCorporation22938
LosAlamosNationalASCIOASCIO-AIDhaServerSC45.1.25GHz13880
6LaboratoryUnitedStates/2002/8I92HP20480
ViminiaTechUnitedSystemX1100Dual2.3GHzADDle12250
7States/2004XServe/MeUanoxInfiniband4X/CiscoGiuE/20240
2200Sel[made
IBM-RochesterUnitedBlueGene/LDD1Prototwe(0.5GHzPowerPC11680
8States./2004440w/Custom}/8192IBM/LLNL16384
NavalOceanoeraDhicOfficeeServerDSeries655(1.7GHzPower4+)/294410310
97NAVOCEANO)United~BM20019.2
States/2004
NCSAUnitedStates/2003TungstenPowerEd~、e1750.P4Xeon3.06GHz.9819
15300
10哈尔滨工业大2幺律算就理学与技术学院9
■2004年11月的最新T0P500的特点
□DOE/IBM联合研发的BlueGene/Lbeta-System
以实测Linpack峰值70.72TFIops位于2004年11
月T0P500排名的第一位。当整个BlueGene/L系
统完成时,将安装到DOE(能源部)下的Lawrence
Livermore国家实验室。
□紧跟其后的是安装在NASAAmes研究中心的SGI构
建的Columbia系统,它的实测峰值是
51.87TFIopso
□上述两个系统让实测峰值35.86TFIops的日本
NECEarthSimuIator连续5次T0P500排名第1名成
为历史。
哈尔滨工业大学计算机科学与技术学院10
■该年度在T0P10中还有其他一些明显的变化。安装在
BarceIona超级计算中心的IBMMareNostrum机群以
20.53Tfops排名第四;
■采用AppleXserve服务器构建的VirginiaTechX-
system在六个月前由于主要的硬件更新出现了一些小
问题退出T0P10后,现在以12.25TFIops重新回到了
T0P10o
■T0P10的系统最低Linpack峰值达到了lOTFIops,
T0P100的最低Linpack峰值从1.922TFIops升到了
2.026TFIops,10「500的最低11皿2o1<峰值从6个月前
的624.3GFIops提高到85。.6GFIops,而最新的
T0P500中最后一名六个月前还列310位
■超过1TFlops的系统数量从242提高到399。
■整个T0P500中所有的系统的性能总和,已经超过
1PetaFIops,从六个月前的813TFIops突破到
1.127PetaFIopso
哈尔滨工业大学计算机科学与技术学院11
■另外从T0P500中可以发现一些变化趋势。从使
用的处理器和系统类型来看,有320套系统采
用Intel处理器,而六个月前这个数量是287,
一年前只有189;
■其次是IBMPower处理器(54),
■然后是Hewlett-PackardPA-RISC处理器(48)和
AMD处理器(31)。
■结论:
■Intel的主导地位还是难以撼动
■机群(cluster)系统是主要的系统类型,共有
296套系统是机群
哈尔滨工业大学计算机科学与技术学院12
■2.LMBENCH
■LMBENCH基准程序组由SGI的
LarryMcVoy提出,是一个可移植的
基准程序。
■在各种Unix平台上,用来测量操作
系统开销和处理器、高速缓存、存
储器、网络及磁盘。
哈尔滨工业大学计算机科学与技术学院13
由LMBENCH测得的带宽、时延和系统开销
属,性1nte1SunUItraIBM990
Alder
带宽(MB存储器复制5285242
/s)读文件5285187
管道386184
TCP205110
时延读存储器0.280.270.26
(uS)创建文件2380918,18113,333
管道1016291
TCP305162332
系统开无系统调用7516
销创建进程450037001200
(uS)现场切换361413
[大学计算机科学与技术次
院14
■3.STREAM
-是一个简单的合成基准程序;
■由SGI的JohnMcCaIpin提出。
□测量持续的存储器带宽(以MB/s为
单位)和相应的计算速率。
□下表中的向量a、b和c均是有二百
万个元素的数组,其中每个元素是
一个8字节的字。
哈尔滨工业大学计算机科学与技术学院15
STREAM基准程序中的四个操作
名称代码字节/迭代Flop/迭代
COPYa(i)=b(i)160
SCALEa(i)=qxb(i)16I
SUMa⑴=b⑴+c⑴24
TRIADa(i)=b(i)+qxc(i)242
哈尔滨工业大学计算机科学与技术学院16
■McCalpin提出一个机器平衡指标,由
下式定义:
峰值浮点速度⑴op/s)
机器平衡值市3显正的将缓存i寤鼾鹿(word/s)
哈尔滨工业大学计算机科学与技术学院17
■4.说明(如下表所示):
■许多系统的机器平衡值随年份增长而
不断增加,意味着存储器带宽越来越
落后于处理器速度。
■IBMRS6000各种服务器是个例外,因
为IBM公司对其中的存储器系统设计
总是给予足够重视。
■其他公司也尝试改进存储器系统性能。
哈尔滨工业大学计算机科学与技术学院18
机器平衡值的历史趋向
年份系统存储器带宽(MB/s)峰值速度(Mflop/s)机器平衡佰
1978DECVAX11/78040,40.8
1991DEC5000/20028102.9
1993DEC3000/50010015012
1995DEC600-5/300169600284
9952347024
980DEC8400/350212
0
992IBMPC8088/8733<0OZ.4
1&
994IBMPC486/DX2-6685L73
IBMPCPentium-10066
1990IBMRS/6000-3206040
993IBM《S/6UUU-5H。240J2b
1994IBMQS/6000-590654262
IBMRS/6000-591800310
999859135
8
992SGI4D/25625
993SGICrimson57506,5
994SGIChallenge1353750Z.8
996SGIPowerChallenge3173008
SGIOrigin2000889.
咕小侠,“匕人子叮舁帆村子勺仅小于阮IV
■三、并行计算的基准程序
-测试分布共享存储器机器
-数值计算基准程序
□斯坦福大学开发的SpIash和SpIash-2;
■并行化编译程序系统和技术:
□伊利诺斯大学开发的Perfect基准程序
■常用的3个并行基准程序组:
□NPB、PARKBENCH和STAP,它们代表了科
学计算史的主要应用组?
哈尔滨工业大学计算机科学与技术学院20
■1.NPB组
■在并行计算机供应商、用户和研究人员
中,NPB已被广泛接受。
NAS并行基准程序(NASParaIlei
BenchmarksNPB)是由NASAAmes
ResearCenter为数值空气动力模拟计
划开发的,用来评估并行超级计算机的
性能。
■NPB模仿大型计流体动力学
(computationaIfluiddynamics,
CFD)应用中的计算和数据移动特征o
哈尔滨工业大学计算机科学与技术学院21
■NPB组由5个核心(EP、MG、CG>FT
和IS)和3个模拟应用(LU、SP和BT)
程序组成。
■EP(EmbarrassinglyParaIlei)
基准程序;
□能运行在任意个数的处理器而只需很
少通信。它能估计并行计算机可达到
的浮点性能的上限。
哈尔滨工业大学计算机科学与技术学院22
■MG(MultiGridmethod.多栅格方法)基
准程序
□求解二维标量泊松(Poisson)方程。要完
成具有高度结构化的短距离和远程通信。
■CG(ConjugateGradientmethod,共
辆梯度方法)基准程序
□计算对称正定矩阵的最小本征值。它的
特点是进行非结构栅格计算,需要不规
则的远程通信。
哈尔滨工业大学计算机科学与技术学院23
.FT基准程序
□使用基于FFT的光谱方法求解三维
偏微分方程,也需要远程通信。
■IS(整数排序,IntegerSorting)
基准程序
□基于桶型排序的并行排序程序。它
需要很多全体交换通信。
哈尔滨工业大学计算机科学与技术学院24
■三种模拟应用
■三者通信不同
■BT(BIockTri-diagona19块三对角)
■LU(bIocklowertriangular9块下
三角,blockuppertriangular9块
上三角);
■SP(SeaIarPenta-diagonaI,标量五
对角)基准程序
哈尔滨工业大学计算机科学与技术学院25
■2.PARKBENCH
■鳖RKBENCH(并行核心和基准程序)委员
□在1992年超级计算会议上由一些对并行计
算机基准程序测试感兴趣的人们创立的。
该组织的一个贡献是建立了一致的性能指
标和记号集。
■目前的基准程序用于分布存储多计算
机
□用Fortran77编码,并用PVM或MPI做消息
传递。正在开发基准程序的Fortran90和
HPF版本以及适用于共享存储体系结构的
-----------------
哈尔滨工业大学计算机科学与技术学院26
■该小组已提出4类基准程序:
・低层基准程序
■核心基准程序
■压缩应用基准程序
□目前只包括并行光谱转换浅水建模应用以
及3个NPB模拟应用
■HPF编译器基准程序
□是几个简单的合成应用,用来测量HPF编
译器性能,侧重对显式并行HPF构造的并
行实现的检测----------------------
哈尔滨工业大学计算机科学与技术学院27
■3.并行STAP组
■空一时自适应处理(SpaceTimeAdaptive
Processing)其准程序组是一套实时雷达
信号处理基准程序。
■最初由MIT的林肯实验室(Lincoln
Laboratory)开发。MIT的顺序STAP近来已
在南加州大学被转换成并行STAP,用来评
估各种MPP。
■STAP基准程序是密集计算,要求在不到1
秒时间内对0(1。2-104)MB数据完成0(101°-
10刃浮点操作。
哈尔滨工业大学计算机科学与技术学院28
■STAP基准程序组由5个程序组成:
□AdaptiveProcessingTestbed(APT,自适
应处理试验台)
□High-OrderPost—DoppIer(HO—PD,高
阶后多普勒)
□BeamSpacePRI-Staggered
PostDoppIer(BM—Stag)
□EIementSpacePRI-StaggeredPost
DoppIer(EL—Stag)
口GeneraI(GEN)
哈尔滨工业大学计算机科学与技术学院29
■General(GEN)
■GEN程序由4个独立分程序组成:
口分别完成排序(SORT)
□快速傅里叶变换(FFT)
□向量乘(VEC)以及线性代数(LA)
-它们代表了在雷达信号处理应用中经
常使用的核心子程序
哈尔滨工业大学计算机科学与技术学院30
APT、
HO-PD、
BM、EL等
4个基准程
序的结构
STAP中并行APT算法的结构
哈尔滨工业大学计算机科学与技术学院31
■APT、HO-PD、BM、EL等4个基准程
序的结构说明:
①全以DopplerProcessing(DP,多
普勒处理)步开始。
②APT完成HousehoIder
Transform(HT,普通转换);
③它在以后的beamfonning(BF,射
束形成)步:
□以抑制人为干扰台和杂乱回波;
哈尔滨工业大学计算机科学与技术学院32
□而在HO—PD程序中,两个自适应射束形
成步被合成为一步。BM—Stag程序和
EL—Stag程序与HO—PD类似,但各自在
射束空间和元空间中使用交叉干扰训练
算法。
④以targetdetection(TD,目标探测)
步结束。
哈尔滨工业大学计算机科学与技术学院33
I、商业和TPC基准程序
-商用的最为流行的基准程序组是
TP座准程序,它由事务处理性能
委员会(TransactionProcessing
PerformanceCounciI,故名为
TPC)开发,
■这是一个非盈利组织,主要从事
事务处理和数据库基准程序的开
发。
哈尔滨工业大学计算机科学与技术学院34
■TPC已发布了4个基准程序。根据1995
年6月资料,TPC-A和TPC-B已被废弃。
■TPC-C是数据记载基准程序,测量事务
处理系统的性能和价格/性能比。
-TPC-D则测量决策支持系统。
■TPC正开发TPC-E(Enterprise,企业)
的新基准程序,以量化支持适合于大
型商业企业计算环境的特定系统的能
力。
哈尔滨工业大学计算机科学与技术学院35
■TPC-C是一个在线事务处理(OLTP)基准
程序,用得最广。
□它模拟一个完整的大规模公司环境,
其中终端操作员对数据库执行事务操
作。公司管理N个仓库,每个仓库供
应10个销售区,每个区为3000名顾客
服务。每个仓库有10个终端,每个区
有一个。
□在任何时间,一个操作员可执行表中
的处理
哈尔滨工业大学计算机科学与技术学院36
TPC-C基准程序中的五类事务处理
事务处理类型数据库访问事务处理权重执行频率90%Persentile响应时间(s)
新定单读/写中等局<5s
支付读/丐轻至少43%<5s
定单状况只读中等至少4%<5s
交付读/写重至少4%<5s
库存程度只读重至少4%<20s
哈尔滨工业大学计算机科学与技术学院37
■被测系统必须具有ACID性质
□原子性(atomicity);
□一致性(consistency);
□隔离性(isolation);
□持久性(durabiIity)。
哈尔滨工业大学计算机科学与技术学院38
■五、SPEC基准程序系列
■SPEC基准程序系列是由名为
■StandardPerformanceEvaIuationCor
poration非盈利公司所开发的。
■SPEC以测量CPU性能的基准程序作为
出发点,但已向客户机/服务器计算
I/0子系统等方面扩展。
哈尔滨工业大学计算机科学与技术学院39
■目前SPEC已公布如下的基准程序组:
■SPEC95
□测量CPU、存储器系统和编译器代码生
成性能。
□SPEC95CPU基准程序从整体上测试CPU
速度、高速缓存/存储器系统以及编译
器。它不计操作系统和I/0操作时间。
□SPEC95由ClNT95(8个整数程序)和
CFP95U0个浮点程序)组成,两者均是
CPU密集应用。
哈尔滨工业大学计算机科学与技术学院40
■SPEChpc96
□测量运行工业型应用程序的高性能
计算系统的性能。
■SPECweb96
■SFS
□为系统级文件服务器基准程序。
哈尔滨工业大学计算机科学与技术学院41
■SDM
□为系统开发多任务基准程序,测量
一个系统如何处理一个有大量用户
发出典型的Unix软件开发命令(如
make、cp>grep及spe11等)的环境。
■GPC
□图形性能特征描述基准程序,测量
图形学性能。
哈尔滨工业大学计算机科学与技术学院42
■下表给出了DigitalAlpha
Station500/500的SPEC95结果
□该工作站使用500MHzAlpha21164
微处理器,8MB高速缓存以及128MB
主存。
□指定系统的所有SPEC95结果,均表
示成与参照机SUNSPARC工作站10
/40性能比较的比例。
哈尔滨工业大学计算机科学与技术学院43
AlphaStation的SPEC95性能
速度吞吐率
指标95_base95_rate95_ratebase95
SPECint1512.6135113
SPECfp20.418.3183165
哈尔滨工业大学计算机科学与技术学院44
■总结:
■探讨了几种常用的测试程序;
哈尔滨工业大学计算机科学与技术学院45
第3章性能指标和基准程序
系统和应用的基准程序
■02性能和成本
-基本性能指标
■仔并行计算机性能
-Q并行程序性能
■。6可扩展性和加速比分析
哈尔滨工业大学计算机科学与技术学院46
Q性能和成本
■说明:用户经常提到6种性能:
①执行时间;
②速度
③吞吐率:单位时间执行的程序数;
④利用率
⑤成本有效性
⑥性能/成本比
■对在相同计算机平台上执行相同的应期程序,
这些需求可能导致很大差别的结论。
哈尔滨工业大学计算机科学与技术学院47
■用到的一些概念
□工作负载(W)是程序中的计算操作
数
□Ppeak是处理器的峰值速度
哈尔滨工业大学计算机科学与技术学院48
术语记号单位
机器规模n无量纲
时钟速率fMHz
工作负载WMfIop(兆浮点运算)
顺序执行时间T1s(秒)
并行执行时间Tns(秒)
速度Pn=W/TMfIop/s
加速比Sn=T1/Tn无量纲
效率En=Sn/n无量纲
利用率Un=Pn/(nPpeak)无量纲
启动时间to口s
■/_________________
渐近市九r8MB/s
哈尔滨工业大学计算机科学与技术学院49
■例题:
■用执行时间测量性能的不足
■在并行计算机X上成功地运行他的代
码测得执行时间为1000S。
■该代码在另一台机器y上运行需要
500s时间,
■推不出:结论x机比y机慢
哈尔滨工业大学计算机科学与技术学院50
■一、执行时间和吞吐率
■1.处理速度:
□是指单位时间的工作负载(W)的处理;
□对于许多应用,用户可能对达到某一处理速
度感兴趣。
哈尔滨工业大学计算机科学与技术学院51
在256个结点的SP2上所测得的STAP性能
程序执行时间速度加速比利用
(s)(GFIop/s)率
APT0.1699013%
HO-PD0.562323334%
GEN1.403.8866%
哈尔滨工业大学计算机科学与技术学院52
■例题:在256个结点的SP2上希望STAP
在0.5秒完成
□根据上表,只有APT能完成
■例题:在256个结点的SP2上希望STAP
速度为10GFL0P/S
□根据上表,只有HO-PD能完成
哈尔滨工业大学计算机科学与技术学院53
■2.系统吞吐率
□是指单位时间处理的作业数
□提高系统吞吐率的两个方法
①流水化
②无相关的分配
哈尔滨工业大学计算机科学与技术学院54
■例题:在256个结点的SP2上
■APT程序的吞吐率是单位时间作业数
□0.16S一个APT
口或1/0.16=6.25
■例题:并行APT中吞吐率和速度改进
■上表的工作负载二9*0.16=1.44GfIop
口假设:用两级流水0.14S,0.11S,每一级128
个结点,总的时间0.25s
□吞吐率二1/0.14S个APT=7.14个APT或
1.44/0.14=10.34GfIop/s或7.14*0.14=10.28
哈尔滨工业大学计算机科学与技术学院55
■例题:每个节点无相关的分配一个分
离任务:
■上例IBMSP2每个节点分配一个APT任
务,在一个SP2节点上执行时间需14s,
这时的吞吐率是:
256/14=18.29个APT
哈尔滨工业大学计算机科学与技术学院56
二、利用率和成本有效性
1.执行时间、速度和利用率是最重
要的3个指标
2.利用率:
□它是一个给定计算机实际可达到速
度与峰值速度之比
哈尔滨工业大学计算机科学与技术学院57
■例题:执行APT的IBMSP2的利用率
□假定每个CPU小时需收费10美元
□则由下表,计算APT程序运行在256个结
点和1个结点上时的利用率
□256个结点和1个结点哪一个更成本有效?
哈尔滨工业大学计算机科学与技术学院58
在256个结点的SP2上所测得的STAP性能
程序执行时间速度加速比利用率
(s)(GFIop/s)
APT0.1699013%
HO-PD0.562323334%
GEN1.403.8866%
哈尔滨工业大学计算机科学与技术学院59
■解:每个SP2结点的峰值速度为266Mflop/
s(见表3-2136G/512=266)
■一个有256个结点的SP2,其峰值速度为:
266x256=68Gflop/s;
■APT程序在256个结点上可达到的速度为:
9GfIop/s;
■在1个结点可求出达到的速度为:
■利用Sn=T1/Tn;p1=w/t1,pn=w/tn
■1个结点速度=9Gflop/s/90=100Mflop/
s;
哈尔滨工业大学计算机科学与技术学院60
■转换成利用率则各自分别为:
□利用率Un=Pn/(nPpeak)
■256个结点利用率=96/686=13・3%
■单个结点利用率=100M/266M=37.6%
■结论:
□表明APT程序在SP2上运行,在一个
结点上时是更为成本有效
哈尔滨工业大学计算机科学与技术学院61
■根据上面的要求:
口在256个结点上执行APT需0.)6s
□执行一个APT的总成本为:
$10x256x0.16/3600=$0.11
□这相应于成本有效性为:
■(9Gflop/s)/$0.11=81Gflop/s
每美元。
哈尔滨工业大学计算机科学与技术学院62
■在一个结点时,执行时间约为14.4s
■总的成本仅为:
$10x14.4/3600二$0.04,
■成本有效性为:
(9GfIop/s?)/$0.04=225GfIop/s每美元
■(1OOMflops/s)/0.04=2.5GfIop/s每美
元
哈尔滨工业大学计算机科学与技术学院63
-总结:
□壁例子表明较高利用率对应地有较高的每美
元GfIop/s
□当CPU1小时费用值固定时这总是成立的
□CPU一小时的费用在不同机器上对不同类型的
作业可能有高有低。
哈尔滨工业大学计算机科学与技术学院64
3,推广
□如果用成本来衡量:Gflops/美元
■执行时间、速度和利用率是重要
的指标:
□低利用率总是对应一个差的程序或
编译器。
哈尔滨工业大学计算机科学与技术学院65
4.经验估计值:
□运行在单MPP处理器上:
■顺序应用程序(利用率)一5%到40%
之间;
.典型是一8%到25%之间。
■某些个别的子程序可达到75%以上。
□对于在多个处理器上运行的并行应
用程序利用率在1%到35%之间;典
型地则是在4%到20%之间o
哈尔滨工业大学计算机科学与技术学院66
5.一个广为流传的错误概念是:
单结点或顺序计算总是有最高的
利用率?(由下图说明)
■并行计算有额外通信和闲置开销,
这并非总是正确的。
哈尔滨工业大学计算机科学与技术学院67
6.例子:
□给出在3个MPP(lntelParagon,
IBMSP2和CrayT3D)上;
□运行并行APT和HO基准程序;
□测出利用率如下:
哈尔滨工业大学计算机科学与技术学院68
o
4
—♦—AP
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福州外语外贸学院《现代物业管理》2025-2026学年期末试卷
- 新余学院《学前教育政策与法规》2025-2026学年期末试卷
- 公路工程管理试题及答案
- 闽南师范大学《材料物理性能》2025-2026学年期末试卷
- 飞机无线电雷达系统装调工岗前工作质量考核试卷含答案
- 精密电成型网工岗前基础效率考核试卷含答案
- 片剂工岗前实操评估考核试卷含答案
- 碳八抽提苯乙烯装置操作工诚信强化考核试卷含答案
- 丙烯腈装置操作工变更管理竞赛考核试卷含答案
- 汽车锻造生产线操作工岗前技巧考核试卷含答案
- 班组内部管理办法制度
- 黑龙江省考面试真题(省市级综合类)
- 2026年高考历史全真模拟试卷及答案(共五套)
- 2026年南阳科技职业学院单招职业技能考试题库带答案详解(a卷)
- 2026年春季人教PEP版四年级下册英语Unit 3 Time for school 教案(共6课时)
- 2026洛阳钼业招聘笔试题及答案
- 生成式AI赋能的情境化小学英语教学策略研究教学研究课题报告
- 厂区安全生产会议
- 2025年10月自考13124英语专试题及答案
- 书评写作:读书分享指南
- 黄金导购培训知识内容课件
评论
0/150
提交评论