计算机系统结构_第六章练习答案_第1页
计算机系统结构_第六章练习答案_第2页
计算机系统结构_第六章练习答案_第3页
计算机系统结构_第六章练习答案_第4页
计算机系统结构_第六章练习答案_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章向量处理机1 .在大型数组的处理中常常包含向量计算,根据数组中各计算相继的次序,我们可以把向量处理方法分为哪三种类型?横向处理方式,纵向处理方式,纵横处理方式横向处理方式:向量计算是按行的方式从左至右横向的进行纵向处理方式:向量计算是按列的方式自上而下纵向的进行纵横处理方式:横向处理和纵向处理相结合的方式2 .解释以下与向量处理有关的术语.(1)向量和标量的平衡点:为了使向量硬件设备和标量设备的利用率相等,一个程序中向量代码所占的百分比(2)用户代码的向量化比值:用户代码可向量化的局部占全部的比重(3)向量化编译器或量化器:将标量运算进行向量化或者将向量运算进行适当的修改使之能够进入向量

2、处理进行向量处理的编译器3 .简要表达提升向量处理机性能的常用技术(1)链接技术(2)向量循环或分段开采技术(3)向量递归技术(4)稀疏矩阵的处理技术4 .下述的几个需要解决的问题中,那个是向量处理机所最需要关心的?A.计算机指令的优化技术B,设计满足运算器带宽要求的存储器C.如何提升存储器的利用率,增加存储器系统的容量D.纵横处理方式的划分问题5 .假设系统在向量模式下面能够到达9Mflops,在标量模式下能够到达IMflops速度,而代码的90流向量运算,10%是标量运算,这样花在两种模式上的计算时间相等.那么向量平衡点是:A.0.1一个程序中向量代码所占的百分比D.以上都不是6 .查看下

3、面三条指令:V 3AV 2V0+V1V 4-V2*V3假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N.三条指令全部采用串行的方法,那么执行的时间是:+20+21+22+237.下面一组向量操作能分成几个编队?假设每种流水功能部件只有一个.LVV1,Rx;取向量MULTSVV2,F0,V1;向量和标量相乘LVV3,Ry;取向量YADDVV4,V2,V3;力口法SVRy,V4;存结果可以划分成四个编队:(1) LV(2)MULTSVLV(3)ADDV(4)SV8 .在一台向量处理机上实现A=BXs操作,其中A和B是

4、长度为200的向量,s是一个标量.向量存放器长度为64.功能部件的启动开销为:取数和存数部件为12个时钟周期,乘法部件为7个时钟周期,加法部件为6个时钟周期.总的执行时间是?9 .简述三种向量处理方式,他们对向量处理机结构要求有什么不同.解:水平处理方式:向量长度为N,那么水平处理方式相当于执行N次循环.不适合对向量进行流水处理.(或者叫做横向处理方式)垂直处理方式:将整个向量按相同的运算处理完毕之后,再去执行其他的运算,适合对向量进行流水处理,向量运算指令的源/目向量都放在存储器内,使得流水线运算部件的输入输出端直接与存储器相联,构成M-M型的运算流水线.分组处理方式:把长度为N的向量分为假

5、设干组,每组根据纵向处理10 .解释以下与向量处理有关的术语.(1)向量规约指令(2)收集和散播指令解:(1)将向量化转化为标量的指令(2)收集指令可以把非连续存储单元的内容传送到向量存放器组中假设干个连续的存放器;散播指令与此相反.他们用于稀疏矩阵的存储与运算,可以节省空间.11 .查看下面三条指令:V 3AV 2V0+V1V 4-V2*V3假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为No三条指令采用链接的方法,那么执行的时间是:+22+15+16+1712 .在一台向量处理机上实现A=BXs操作,其中A和B

6、是长度为200的向量,s是一个标量.向量存放器长度为64.功能部件的启动开销为:取数和存数部件为12个时钟周期,乘法部件为7个时钟周期,加法部件为6个时钟周期.那么一个结果元素的平均执行时间(包括启动开销)为:A.3.7某向量处理机有16个向量存放器,其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍.采用类似CRAY-1的链接技术,先计算(A+B)*C,在流水线不停的情况下,接着计算(D+E)*F.求此链接流水线的通过时间是多少拍?设存放器出入各需1拍14 .名词解释向量流水

7、处理机解:处理机具有向量数据表示,并通过向量指令对向量的各元素进行处理.15 .某向量处理机有16个向量存放器,其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍.采用类似CRAY-1的链接技术,先计算A+B*C,在流水线不停的情况下,接着计算D+E*F.每拍时间是50ns,完成这些计算并且把结果存进相应的存放器,此处理部件实际吞吐率是多少MFLOPS?设存放器出入各需1拍.一台单处理机可以以标量方式运行,也可以以向量方式运行.在向量方式情况下,计算可比标量方式快9倍.设某基准

8、程序在此计算机上运行的时间是To另外,T的25%ffl于向量方式,其余机器时间那么以标量方式运行.请计算在上述条件下与完全不用向量方式条件下相比的加速比,并计算上述程序中向量化代码所占的百分比.加速比=*9+*1/T=3由于T中向量化代码所占的时间为,那么串行代码用时=,所以完全不用向量方式执行该段代码用时=+9*=3T,因此加速比=3T/T=3.根据Amdahl定律.17 .一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行速度Rv为10Mflops;另一种是标量方式,执行速度Rs为1Mflops.设是该计算机的典型程序代码中可以向量化局部的百分比.如果要使平均执行的速度

9、到达,那么向量化百分比应该多大?1/a/Rv+1-a/Rs=所以a=18 .在CARYUL器上,设向量长度均为32,s是标量存放器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入存放器及启动功能部件包括存放器各需要1拍.那么下面的指令组完成所需要的拍数是:V3-存储器打入1,启动1,读数6V2V0+V1s0s2+s3V3V1XV48+31+9+3119 .在CRAY-1机器上,链接方式执行下面4条向量指令括号中给出相应功能部件的时间,如果向量存放器和功能部件之间的数据传输需要1拍,试求此链接流水线的流过时间为多少拍?V存储器存储器取数7拍9V1-V0+V1向量加3拍5V3-V2<

10、A3根据A3左移4拍6V5V3AV4向量逻辑乘2拍420 .一台单处理机可以以标量方式运行,也可以以向量方式运行.在向量方式情况下,计算可比标量方式快18倍.设某基准程序在此计算机上运行的时间是T.另外,T的25哪于向量方式,其余机器时间那么以标量方式运行.那么在上述条件下与完全不用向量方式的条件下相比的加速比是:以上均不正确1/18+121 .一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行速度Rv为10Mflops;另一种是标量方式,执行速度Rs为1Mflops.设是该计算机的典型程序代码中可以向量化局部的百分比.求平均执行速度的计算公式.1/a/Rv+(1-a)/R

11、s=10/(10-9a)22 .向量处理机有那两种最根本的结构?存储器-存储器结构存放器-存放器结构23 .研制高性能的向量处理机主要需要解决哪几个问题?(1) 较好的维持向量/标量性能平衡(2) 可扩展性随处理机数目的增加而提升(3) 增加存储器系统的容量和性能(4) 提供高性能的I/O和易访问的网络24 .为了提升向量处理机的性能,会采用一些特殊的技术,下面那一项不是提升向量处理机性能而采用的技术?A.链接技术B.向量递归技术缓存技术D.稀疏矩阵的处理技术25 .在CARY1B器上,设向量长度均为32,s是标量存放器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入存放器及启动功能部

12、件(包括存放器)各需要1拍.那么下面的指令组完成所需要的拍数是:V存储器V 2V0+V1V 3V2XV1V 5V3XV426.假设要进行向量运算D=A<(B+C),假设向量长度N<64,且B和C已经存至V0和V1,那么下面三条指令就可以完成上述的运算.V 3A(6拍)V 2V0+V1(6拍)V 4V2XV3(7拍)(读写各需1拍).分别求三条指令全部用串行的方法和链接技术执行的时间27 .在某台向量处理机上执行DAXPY弋码,即完成Y=aXX+Y,其中X和Y是向量,最初存放在内存,LVMULTSVa是一个标量,他们的向量指令如下:LVADDVSVV1,RxV2,F0,V1V2,Ry

13、V4,V2,V3Ry,V4取向量标量和向量相乘取向量Y相加存结果求总的执行时间.假设其中存取数需要12拍,乘法需要7拍,加法需要6拍,向量长度是n.28 .假设某向量处理机上执行DAXPY代码所需要的日钟周期是4n+64,其中n是向量长度,时钟频率是200MHz,那么最大性能是多少?A.90MFLOPSB.80MFLOPSMFLOPSD.100MFLOPS29 .假设某向量处理机上执行DAXPY代码所需要的日钟周期是4n+64,其中n是向量长度,时钟频率是200MHz,那么半性能向量长度是:A.12.830 .日本FOCO盹量处理机VP-200具有流水线链接和并行化功能.它有2条存储流水线到向

14、量存放器,两者可以并行工作.此外尚有加法和乘法流水线.各流水线间均可以链接操作.假设现在要在Vp-200向量机上实现以下的向量操作:A(I)=B(I)XC(I)+D(I)XE(I)+F(I)XG(I)I=1,2,N.假定所有流水线的延迟时间都相等,取/存操作转换时将有t的流水线重构延迟时间.求完成操作所需要的时间.所以时间为:4N+t31 .在CARY1机器上,设向量长度均为32,s是标量存放器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入存放器及启动功能部件(包括存放器)各需要1拍.那么下面的指令组完成所需要的拍数是:V 3-存储器V 2V0+V1V 4V2XV3存储器-V432

15、.nv表示向量流水方式的工作速度优于标量串行方式工作时间时所需要的向量长度的临界值.请问该参数主要衡量那些标准?衡量建立时间,也衡量标量向量的速度比对性能的影响.33 .有关半性能向量长度,下面哪种说法正确?A.该值是最大性能的一半B.该值越大说明向量计算机性能越好C.该值是为到达一半最大性能所需要的向量长度D.该值必须是整数,计算的时候应该向下取整34 .考虑一个如下图的4级加法流水线,其中X和Y为流水线输入线,Z为输出线.流水线输出端有一个存放器R,他用来暂时存储中间结果并且在适当时刻反应带S1.输入X和Y分别与输出R,Z经相应多路开关接到S1和2个输入端.假设向量A的所有元素以每个周期一

16、个元素速率,通过输入端送入流水线.如果需要计算N个元素的向量累加和,那么最少需要多少个时钟周期?约定无操作数输入,就认为是将1个0值送入,而且流水线的设置时间可以忽略不计.如下图,当进行完第4个周期,开始第5个周期时,暂存在存放器R中的A(1)将和丫输入端输入的A(5)相加,其和放入S1,当进入下一个周期,A(1)+A(5)进入S2,而A(2)+A(6)放入S1,依次递推.当第N个周期完成时,S1中放的是A(1)+A(5)+A(9)+A(13)+;S2中放的是A(2)+A(6)+A(10)+A(14)+;S3中放的是A(3)+A(7)+A(11)+A(15)+;S4中放的是A(4)+A(8)+

17、A(12)+A(16)+;然后该计算这四段的总和,不妨设这四段分别为Y1,Y2,Y3,Y4,又经过4个周期,S1中做Y1+Y2,再经过4个周期,S1中做(Y1+Y2)+(Y3+Y4),然后还需要3个周期将最终结果由Z输出.故最小时间为Nt十4p十4°十3°=(N+11)°.即N+11个时钟周期.35.以下那一项不是可扩展性的目标?A.延时可扩展性B.规模可扩展性C.换代可扩展性D.问题可扩展性36 .查看下面三条指令:V 3AV 2V0+V1V 4-V2*V3假设向量长度是32,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间.三条指令采用链接的方法,那么执行的时间是多少?8+9+3137.一台机器向量处理速度是标量的10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论