计算机系统结构随书ppt清华大学出本社.ppt_第1页
计算机系统结构随书ppt清华大学出本社.ppt_第2页
计算机系统结构随书ppt清华大学出本社.ppt_第3页
计算机系统结构随书ppt清华大学出本社.ppt_第4页
计算机系统结构随书ppt清华大学出本社.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

6.4 向量处理机实例 6.4.1 典型向量处理机 6.4.2 CRAY Y-MP向量处理机 6.4.3 向量协处理器 向量处理机主要出自美国和日本。 美国著名的向量计算机公司有: CRAY、CDC、TI等 日本公司有:NEC、Fujitsu、 Hitachi等Date1 CRAY 1 Date2 CRAY 1 Date3 Date4 CDC 1604 Date5 Fujitsu VPP5000 Date6 机器型号 美国和日本制造的向量处理机 Cray IS 配置特点 有10条流水线的 单处理机,12.5 ns,COS/CF7 2.1 第一台基于ECL 的超级计算机, 1976年问世 6.4.1 典型向量处理机 Cray 2S/4-256 256M字存储器 的4台处理机, 4.lns, COS或 UNIX/CF77 3.0 16K字的本地存 储器,移植了 UNIX V, 1985问世 Date7 机器型号 Cray X-MP 416 配置特点 16M字存储器的 4台处理机,128 M字SSD, 8.5ns, COS CF77 5.0 使用共享寄存器 组用于IPC, 1983年问世 Cray Y-MP 832 128M字存储器的 8台处理机, 6ns, CF77 5.0 XMP的改进 型, 1988年问世 每台处理机2条 向量流水线, 16 台处理机, 4.2ns, Unicos/CF77 5.0 Cray Y-MP C-90 最大的Cray机器 1991年问世 Date8 机器型号 CDC Cyber 205 配置特点 有4条流水线的 单处理机, 20ns, 虚拟OS/FTN200 存储器到存储器 系统结构, 1982年问世 ETA 10E 单处理机, 10.5ns, ETAV/FTN 200 Cyber 205的后 继型号, 1985年问世 每台处理机4组 流水线, 4台处理 机, 2.9ns, F77SX, 22Gflops NEC SX-X/44 1991年问世 Date9 机器型号 Fujitsu VP2600/10 配置特点 5条流水线的单 处理机和双标量 处理机, 3.2ns, 5Gflops ,MSP. EX /F77 EX/VP 使用可重构微 向量寄存器和 屏蔽, 1991年问世 512MB存储器, 18条流水线的单 处理机,4ns, FORT77/HAP V23-OC, 3Gflops Hitachi 820/80 64个通道,最大 传输速率 288MB/S, 1988年问世 Date10 6.4.2 CRAY Y-MP向量处理机 Cray Y-MP 816由1至8台处理机组成 ,多个处理机共享中央存储器、I/O子 系统、处理机通信子系统和实时钟。 中央存储器由256个交叉访问的存储 体组成。每个处理机对4个存储器端口 的交叉访问。CPU的时钟周期为6ns。 4个存储器端口允许处理机同时执行 两个标量和向量取操作、一个存储操作 和一个独立的I/O操作。 Date11 每个CPU由14个功能部件组成,分 为向量、标量、地址和控制四个子系统 。 使用了大量地址寄存器、标量寄存 器、向量寄存器、中间寄存器和临时寄 存器。 可以实现功能流水线灵活的链接。 I/O子系统支持三类通道,传输速率 分别为6兆字节/秒,100兆字节/秒和1G 字节/秒。 Date12 Date13 6.4.3 向量协处理器 以通用中小型机,或微机作为主机;向量处理部 件作为外围设备,用以加速向量的处理速度。价格 低。 向量协处理器是为中小型用户设计的,解决科学 计算中大量向量处理任务的一种装置。 与各种不同主机相连的向量协处理器,价格和功 能的变化范围很大。 处理机 主存储器 协处理机 本地存储器 高速总线 带向量协处理器的计算机结构框图 Date14 FPS-164是最典型的向量协处理器, 美国浮点系统公司生产。内含三个向量 处理器,每个向量处理器有两个乘加部 件,两组向量寄存器,两组标量寄存器 。 每个乘加部件每个周期能输出一个 结果。 向量寄存器:2组,每组4个向量寄 存器,每个向量寄存器可存放个操 作数,每个操作数个字节。 Date15 标量运算部件 协处理器 主存储器 120 MB地址寄存器 间址寄存器 向量处理器 向量处理器 向量处理器 标量寄存器 X寄存器组 Y寄存器组 向量 寄存器 乘法流水线 加法流水线 与主计算 机连接 FPS-164向 量协处理 器结构图 Date16 常用运算:di=aib+ci 避免中间结果存放寄存器或存储器 Date17 运算过程:标量处理器把原始数据 装入向量寄存器,把标量数据和指令播 送到全部向量处理器。向量处理器就同 步地运算,但它们处理的数据是各不相 同的。 向量操作可以和标量处理器中的标 量操作同时进行。 向量协处理器特别适合于大规模的 数值处理,用户使用现有的处理机作为 主机。配合需要数量的向量协处理器, 达到较高的性能价格比。 Date18 6.5 向量处理机的性能评价 衡量向量处理机性能的主要指标有: 1、向量指令处理时间 Tvp 2、最大性能 R 3、半性能向量长度 n1/2 等。 Date19 1、向量指令处理时间Tvp 执行一条向量长度为n的向量指令的时间Tvp为: TvpTs + Tvf + (n - 1) Tc 其中:Ts为向量流水线的建立时间。 Tvf为向量流水线的流过时间。 Tc为流水线“瓶颈”段的执行时间。 如果每段执行时间都等于一个时钟周期,则有: Tvps + e + (n - 1) 其中: n:向量长度:时钟周期长度。 s:向量流水线建立时间(时钟周期数) e:向量流水线流过时间(时钟周期数)。 Date20 具体执行时: 把几条能在一个时钟周期内同时开 始执行的向量指令称为一个编队; 同一个编队中的指令一定不存在功 能部件冲突和数据相关 Date21 例1:假设向量处理机中功能部件的启动开销为: 取数和存数部件的12个时钟周期、乘法部件为7个 时钟周期、加法部件为6个时钟周期。先把序列向 量操作分成编队,然后计算每个编队的开始时间 、获得第一个结果元素的时间和获得最后一个结 果元素的时间。 程序: LV V1, Rx ;取向量x MULTSV V2, F0, V1 ;向量和标量相乘 LV V3, Ry ;取向量Y ADDV V4, V2, V3 ;加法 SV Ry, V4 ;存结果 Date22 解:第一条指令LV为第一个编队。 MULTSV指令和第二条LV指令为第二个编队。 ADDV指令为第三个编队。 SV指令为第四个编队。编队建立时间设为1。 下表为没有实行链接时的执行情况(书上略有错) 从0到41+4n,一共是42+4n个时钟周期 设n=64,得一个结果平均时间: 4+(42/64)=4.65时钟周期 23 2424 29 303041 Date23 如果LOAD、STORE、ADD、MULTI分别为 四条流水线,采用向量链接技术(不考虑访问 存储器的冲突),实际上变成2个编队。 这时需要: 编队开始时间第一个结果时间 最后一个结果时 间 (1)LV01211+n MULTSV132019+n (2)LV12+n24+n23+2n ADDV25+n31+n30+2n SV32+n44+n43+2n 从0到43+2n,一共是44+2n个时钟周期 Date24 如果考虑向量长度大于向量寄存器长度时,则 需要分段开采。向量长度为n的一组向量操作 的整个执行时间为: 其中:Tloop为执行标量代码的开销,Tstart为每 个编队的向量启动开销, Tchime为编队数, MVL是向量寄存器的长度。 Tloop可以看作是一 个常数,Cray 1机的 Tloop 约等于15。 Date25 例2: 在一台向量处理机上实现ABs操作,其中 A和B是长度为200的向量,s是一个标量。向 量寄存器长度为64。各功能部件的启动时间 Tloop 等于15。LV启动时间12、MULTI启动时 间7、SV启动时间12,求总的执行时间。 LV V1, Rb;取向量B MULTVS V2, V1, Fs;向量和标量相乘 SV Ra, V2;存向量 Date26 解:因为向量长度超过了向量寄存器的长度,所以要采取 分段开采方法。每次循环主要由下面三条向量指令组成: LV V1, Rb;取向量B MULTVS V2, V1, Fs;向量和标量相乘 SV Ra, V2;存向量 假设A和B分别放在Ra和Rb之中,s在Fs中。三条指令之间 存在有写读数据相关,不考虑链接,因此必须把它们分成 3个编队,Tchime= 3。 T2004(15 + Tstart) + 2003 60(4Tstart)+ 600 660(4Tstart) 其中:Tstart=12 + 7 + 12 = 31, 因此,T200660 + 431784 每个结果元素的平均花费时间为:784/200 3.9个周 期。 Date27 例3:在某台向量处理机上执行代码如下: (Y=axy) 1:LV V1, Rx;取向量x 2:MULTSV V2, F0, V1;向量和标量 相乘 3:LV V3, Ry;取向量Y 4:ADDV V4, V2, V3;加法 5:SV Ry, V4;存结果 考虑访问存储器冲突,向量寄存器长度为 64、各功能部件的启动时间与上例相同。求总的执行时 间。 解:指令1、2,指令3、4和指令5分成三个编队,前两 个编队中两条指令采用向量链接技术执行。 Tchime=3,Tloop=15, Tstart=12+7+12+6+12=49,MVL=64。 Date28 Date29 2、最大性能R R表示当向量长度为无穷大时的向量流水线的最大性能。 常在评价峰值性能时使用,单位为MFLOPS。 最大性能R 表示为: 其中:n为向量长度; Tn为一组向量操作的整个执行时间。 对于例3,假设时钟频率为200MHZ。每个循环有2个浮点操 作: Date30 3、半性能向量长度n1/2 为达到一半R值所需的向量长度称为半性能向量长度n1/2。 主要评价向量流水线建立时间对性能的影响。 CRAY-1的n1/21020,CYBER 205的n1/2100。 由MFLOPS定义可知: 对于例3,如果向量处理机的时钟频率为200MHz。 因为:R=100MFLOPS,因此有: 1002 2 n1/2Tn1/2 200 假设:n1/2 64,因此:Tn1/2 64 + 3 n1/2 解得:1002 2 n1/2(64 + 3 n1/2) 200 643 n1/28 n1/2 5 n1/264 n1/212.8 所以:n1/213 Date31 6.6 向量处理机的发展 1、向量计算机系统结构的发展趋势 (1) 提供多种向量运算指令。 (2) 除具有向量处理功能外还有其它 功能。 (3) 采用多层次的存储器系统。 (4) 流水线技术与并行技术相结合。 Date32 2、向量计算机系统结构要解决的六个技术问题 (1) 提高处理机带宽,两种方法: 运算部件采用流水线结 构。 用多个运算器构成并行系统。 (2) 提高存储器带宽,多种解决方法: 用多个独立的存储体构 造大容量的存储器系统。 用多层次的存储器系统提高访问速度。 用高速缓冲存储器和可寻址的寄存器组。 采用流水线技术 存储系统的访问速度快 520倍。 Date33 (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论