计算机系统结构 第六章练习答案_第1页
计算机系统结构 第六章练习答案_第2页
计算机系统结构 第六章练习答案_第3页
计算机系统结构 第六章练习答案_第4页
计算机系统结构 第六章练习答案_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第六章向量处理机 在大型数组的处理中常常包含向量计算,按照数组中各计算相继的次序,我们可以1 把向量处理方法分为哪三种类型? 纵横处理方式纵向处理方式,横向处理方式, 横向处理方式:向量计算是按行的方式从左至右横向的进行 纵向处理方式:向量计算是按列的方式自上而下纵向的进行 纵横处理方式:横向处理和纵向处理相结合的方式 解释下列与向量处理有关的术语。2为了使向量硬件设备和标量设备的利用率相等,一个程序)向量和标量的平衡点:(1 中向量代码所占的百分比 )用户代码的向量化比值:用户代码可向量化的部分占全部的比重2(将标量运算进行向量化或者将向量运算进行适当的修改3)向量化编译器或量化器:( 使

2、之能够进入向量处理进行向量处理的编译器 3简要叙述提高向量处理机性能的常用技术 1)链接技术( 2)向量循环或分段开采技术( 3)向量递归技术( 4)稀疏矩阵的处理技术( 4下述的几个需要解决的问题中,那个是向量处理机所最需要关心的? 计算机指令的优化技术A. 设计满足运算器带宽要求的存储器B. 如何提高存储器的利用率,增加存储器系统的容量C. 纵横处理方式的划分问题D. 速度,1Mflops假设系统在向量模式下面能够达到9Mflops,在标量模式下能够达到5.而代码的90%是向量运算,10%是标量运算,这样花在两种模式上的计算时间相等。那么向量平衡点是: A.0.1 一个程序中向量代码所占的

3、百分比 D.以上都不是 6.查看下面三条指令: V3A V2V0+V1 V4V2*V3 假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N。三条指令全部采用串行的方法,那么执行的时间是: +20 +21 +22 +23 7下面一组向量操作能分成几个编队?假设每种流水功能部件只有一个。 LV V1,Rx ;取向量 MULTSV V2,F0,V1 ;向量和标量相乘 Y取向量; ,Ry V3 LV ADDV V4,V2,V3 ;加法 SV Ry,V4 ;存结果 可以划分成四个编队: (1)LV (2)MULTSV LV

4、(3)ADDV (4)SV 8.在一台向量处理机上实现A=Bs操作,其中A和 B是长度为200的向量,s是一个标量。向量寄存器长度为64。功能部件的启动开销为:取数和存数部件为12个时钟周期,乘法部件为7个时钟周期,加法部件为6个时钟周期。总的执行时间是? 9.简述三种向量处理方式,他们对向量处理机结构要求有什么不同。 解:水平处理方式:向量长度为N,则水平处理方式相当于执行N次循环。不适合对向量进行流水处理。(或者叫做横向处理方式) 垂直处理方式:将整个向量按相同的运算处理完毕之后,再去执行其他的运算,适合对向量进行流水处理,向量运算指令的源/目向量都放在存储器内,使得流水线运算部件的输入输

5、出端直接与存储器相联,构成M-M型的运算流水线。 分组处理方式:把长度为N的向量分为若干组,每组按照纵向处理 10解释下列与向量处理有关的术语。 (1)向量规约指令 (2)收集和散播指令 解:(1)将向量化转化为标量的指令 (2)收集指令可以把非连续存储单元的内容传送到向量寄存器组中若干个连续的寄存器;散播指令与此相反。他们用于稀疏矩阵的存储与运算,可以节省空间。 11. 查看下面三条指令: V3A V2V0+V1 V4V2*V3 假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N。三条指令采用链接的方法,那么执行

6、的时间是: +22 +15 +16 +17 12.在一台向量处理机上实现A=Bs操作,其中A和 B是长度为200的向量,s是一个标量。向量寄存器长度为64。功能部件的启动开销为:取数和存数部件为12个时钟周期,乘法部件为7个时钟周期,加法部件为6个时钟周期。那么一个结果元素的平均执行时间(包括启动开销)为: A.3.7 某向量处理机有16个向量寄存器,其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍。采求。(D+E)*F接着计算在流水线不停的情况下,(A+B)*C,先计算的链

7、接技术,CRAY-1用类似 此链接流水线的通过时间是多少拍?1拍)(设寄存器出入各需 14名词解释 向量流水处理机 解:处理机具有向量数据表示,并通过向量指令对向量的各元素进行处理。向某向量处理机有16个向量寄存器,其中V0-V5种分别存放有向量A,B,C,D,E,F,15向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时量的长度是8,在流拍,乘法功能部件时间为3拍。采用类似的链接技术,先计算(A+B)*C,CRAY-1间为2完成这些计算并且把结果存进相。每拍时间是50ns,水线不停的情况下,接着计算(D+E)*F 1拍)应的寄存器,此处理部件实际吞吐率是多少MFLOPS?(设

8、寄存器出入各需也可以以向量一台单处理机可以以标量方式运行,. 设某基准程序在此计算机上运行倍。在向量方式情况下,计算可比标量方式快9方式运行。用于向量方式,其余机器时间则以标量方式运行。请计算25%。另外,已知T的的时间是T并计算上述程序中向量化代码所占在上述条件下与完全不用向量方式条件下相比的加速比, 的百分比。 =*9+*1)/T=3加速比= ,所以完全不用向量方式执行该段代码用时T中向量化代码所占的时间为,则串行代码用时=由于 =3T/T=3. +9*=3T, 因此加速比 .Amdahl定律根据 一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行速17.RR。设是该计

9、算机的典型程为度;另一种是标量方式,执行速度为10Mflops1Mflopssv那么向量化百分比应该序代码中可以向量化部分的百分比。如果要使平均执行的速度达到, 多大? 1/a/Rv+(1-a)/Rs= a=所以拍,乘法需要是标量寄存器,加法需要6.在CARY1机器上,设向量长度均为32,s18拍。则拍,打入寄存器及启动功能部件(包括寄存器)各需要17拍,从存储器读数需要6 :下面的指令组完成所需要的拍数是 6 打入1,启动1,读数V3存储器 V2V0+V1 s0s2+s3 V3V1V4 8+31+9+31(括号中给出相应功能部件的时机器上,链接方式执行下面4条向量指令19.在CRAY-1拍,

10、试求此链接流水线的流过时间间),如果向量寄存器和功能部件之间的数据传输需要1 为多少拍? 拍)97V0存储器 (存储器取数 拍)5 V0+V1 (向量加3V1拍)64 (按照V3V2A3 A3左移V5V3V4 (向量逻辑乘2拍)4 一台单处理机可以以标量方式运行,也可以以向量方式运行。在向量方式情况下,20. 的T。另外,已知T计算可比标量方式快18倍。设某基准程序在此计算机上运行的时间是用于向量方式,其余机器时间则以标量方式运行。那么在上述条件下与完全不用向量方25% 式的条件下相比的加速比是: 以上均不正确 1/18+1一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行

11、速21.RR。设是该计算机的典型程1Mflops度为为10Mflops;另一种是标量方式,执行速度sv 序代码中可以向量化部分的百分比。求平均执行速度的计算公式。1/a/Rv+(1-a)/Rs=10/(10-9a) 22.向量处理机有那两种最基本的结构? 存储器-存储器结构 寄存器-寄存器结构 23.研制高性能的向量处理机主要需要解决哪几个问题? (1) 较好的维持向量/标量性能平衡 (2) 可扩展性随处理机数目的增加而提高 (3) 增加存储器系统的容量和性能 (4) 提供高性能的I/O和易访问的网络 24.为了提高向量处理机的性能,会采用一些特殊的技术,下面那一项不是提高向量处理机性能而采用

12、的技术? A.链接技术 B.向量递归技术 缓存技术 D.稀疏矩阵的处理技术 25.在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。则下面的指令组完成所需要的拍数是: V0存储器 V2V0+V1 V3V2V1 V5V3V4 26.若要进行向量运算D=A(B+C),假设向量长度N64,且B和 C已经存至V0和V1,则下面三条指令就可以完成上述的运算。 V3A (6拍) V2V0+V1 (6拍) )拍(7V3 V2V4 )。读写各需1拍分别求三条指令全部用串行的方法和链接技术执行的时间( 是向

13、量,最初Y和X+Y,其中X27.在某台向量处理机上执行DAXPY代码,即完成Y=a 是一个标量,他们的向量指令如下:存放在内存,a 取向量 ;LV V1,Rx 标量和向量相乘V2,F0,V1 ;MULTSV Y ;取向量LV V2,Ry 相加 ;ADDV V4,V2,V3 存结果 ;SV Ry,V4 向量长度,6拍乘法需要7拍,加法需要求总的执行时间。假设其中存取数需要12拍, 。是n 28.假设某向量处理机上执行DAXPY代码所需要的时钟周期是4n+64,其中n是向量长度,时钟频率是200MHz,那么最大性能是多少? A. 90MFLOPS B. 80MFLOPS MFLOPS D. 100

14、MFLOPS 29.假设某向量处理机上执行DAXPY代码所需要的时钟周期是4n+64,其中n是向量长度,时钟频率是200MHz,那么半性能向量长度是: A.12.8 30.日本FOCOM向量处理机VP-200具有流水线链接和并行化功能。它有2条存储流水线到向量寄存器,两者可以并行工作。此外尚有加法和乘法流水线。各流水线间均可以链接操作。若现在要在Vp-200向量机上实现以下的向量操作: A(I)=B(I) C(I)+D(I) E(I)+F(I) G(I) I=1,2,N。假定所有流水线的延迟时间都相等,取/存操作转换时将有t的流水线重构延迟时间。求完成操作所需要的时间。 所以时间为:4N+t

15、31. 在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。则下面的指令组完成所需要的拍数是: V3存储器 V2V0+V1 V4V2V3 存储器V4 n表示向量流水方式的工作速度优于标量串行方式工作时间时所需要的向量长度32.v的临界值。请问该参数主要衡量那些标准? 衡量建立时间,也衡量标量向量的速度比对性能的影响。 33.有关半性能向量长度,下面哪种说法正确? 该值是最大性能的一半A. B.该值越大说明向量计算机性能越好 C.该值是为达到一半最大性能所需要的向量长度 D.该值必须是整数,计

16、算的时候应该向下取整 为输出线。为流水线输入线,ZX和Y34.考虑一个如图所示的4级加法流水线,其中X。输入R,流水线输出端有一个寄存器他用来暂时存储中间结果并且在适当时刻反馈带S1的所有元素以每个A和2个输入端。假设向量和Y分别与输出R,Z经相应多路开关接到S1则最少个元素的向量累加和,通过输入端送入流水线。如果需要计算N周期一个元素速率,而且流水线的设置时值送入,1个0需要多少个时钟周期?约定无操作数输入,就认为是将 间可以忽略不计。Z XRS4S2S3S1Y N+11输入端输入的YA(1)将和, 暂存在寄存器R中的, 如图所示, 当进行完第4个周期开始第5个周期时 放入S1, 依次递推。

17、进入S2, 而A(2)+A(6)S1, A(5)相加, 其和放入当进入下一个周期, A(1)+A(5)是放的A(1)+A(5)+A(9)+A(13)+; S2中时, S1中放的是完当第N个周期成中放的是A(3)+A(7)+A(11)+A(15)+; S3A(2)+A(6)+A(10)+A(14)+; S4中放的是 A(4)+A(8)+A(12)+A(16)+;再然后该计算这四段的总和, 不妨设这四段分别为Y1,Y2,Y3,Y4, 又经过Y1+Y2, 个周期, S1中做4 Z输出。然后还需要, S1中做(Y1+Y2)+(Y3+Y4), 3个周期将最终结果由个周期经过4 个时钟周期。)。即11N11故最小时间为N443(N35.下列那一项不是可扩展性的目标? A.延时可扩展性 B.规模可扩展性 C.换代可扩展性 D.问题可扩展性 36. 查看下面三条指令: V3A V2V0+V1 V4V2*V3 假设向量长度是32,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间。三条指令采用链接的方法,那么执行的时间是多少? 8+9+31 如果想将一个完全标量执行的程序所需要的倍。10一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论