计算机系统结构随书ppt清华大学出本社.ppt_第1页
计算机系统结构随书ppt清华大学出本社.ppt_第2页
计算机系统结构随书ppt清华大学出本社.ppt_第3页
计算机系统结构随书ppt清华大学出本社.ppt_第4页
计算机系统结构随书ppt清华大学出本社.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/11/24,1,6.4向量处理机实例6.4.1典型向量处理机6.4.2CRAYY-MP向量处理机6.4.3向量协处理器向量处理机主要出自美国和日本。美国著名的向量计算机公司有:CRAY、CDC、TI等日本公司有:NEC、Fujitsu、Hitachi等,2019/11/24,2,CRAY1,2019/11/24,3,CRAY1,2019/11/24,4,2019/11/24,5,CDC1604,2019/11/24,6,FujitsuVPP5000,2019/11/24,7,机器型号,美国和日本制造的向量处理机,CrayIS,配置,特点,有10条流水线的单处理机,12.5ns,COS/CF72.1,第一台基于ECL的超级计算机,1976年问世,6.4.1典型向量处理机,Cray2S/4-256,256M字存储器的4台处理机,4.lns,COS或UNIX/CF773.0,16K字的本地存储器,移植了UNIXV,1985问世,2019/11/24,8,机器型号,CrayX-MP416,配置,特点,16M字存储器的4台处理机,128M字SSD,8.5ns,COSCF775.0,使用共享寄存器组用于IPC,1983年问世,CrayY-MP832,128M字存储器的8台处理机,6ns,CF775.0,XMP的改进型,1988年问世,每台处理机2条向量流水线,16台处理机,4.2ns,Unicos/CF775.0,CrayY-MPC-90,最大的Cray机器1991年问世,2019/11/24,9,机器型号,CDCCyber205,配置,特点,有4条流水线的单处理机,20ns,虚拟OS/FTN200,存储器到存储器系统结构,1982年问世,ETA10E,单处理机,10.5ns,ETAV/FTN200,Cyber205的后继型号,1985年问世,每台处理机4组流水线,4台处理机,2.9ns,F77SX,22Gflops,NECSX-X/44,1991年问世,2019/11/24,10,机器型号,FujitsuVP2600/10,配置,特点,5条流水线的单处理机和双标量处理机,3.2ns,5Gflops,MSP.EX/F77EX/VP,使用可重构微向量寄存器和屏蔽,1991年问世,512MB存储器,18条流水线的单处理机,4ns,FORT77/HAPV23-OC,3Gflops,Hitachi820/80,64个通道,最大传输速率288MB/S,1988年问世,2019/11/24,11,6.4.2CRAYY-MP向量处理机CrayY-MP816由1至8台处理机组成,多个处理机共享中央存储器、I/O子系统、处理机通信子系统和实时钟。中央存储器由256个交叉访问的存储体组成。每个处理机对4个存储器端口的交叉访问。CPU的时钟周期为6ns。4个存储器端口允许处理机同时执行两个标量和向量取操作、一个存储操作和一个独立的I/O操作。,2019/11/24,12,每个CPU由14个功能部件组成,分为向量、标量、地址和控制四个子系统。使用了大量地址寄存器、标量寄存器、向量寄存器、中间寄存器和临时寄存器。可以实现功能流水线灵活的链接。I/O子系统支持三类通道,传输速率分别为6兆字节/秒,100兆字节/秒和1G字节/秒。,2019/11/24,14,6.4.3向量协处理器以通用中小型机,或微机作为主机;向量处理部件作为外围设备,用以加速向量的处理速度。价格低。向量协处理器是为中小型用户设计的,解决科学计算中大量向量处理任务的一种装置。与各种不同主机相连的向量协处理器,价格和功能的变化范围很大。,2019/11/24,15,FPS-164是最典型的向量协处理器,美国浮点系统公司生产。内含三个向量处理器,每个向量处理器有两个乘加部件,两组向量寄存器,两组标量寄存器。每个乘加部件每个周期能输出一个结果。向量寄存器:2组,每组4个向量寄存器,每个向量寄存器可存放个操作数,每个操作数个字节。,2019/11/24,16,标量运算部件,协处理器主存储器120MB,地址寄存器,间址寄存器,向量处理器,向量处理器,向量处理器,标量寄存器X寄存器组Y寄存器组,向量寄存器,乘法流水线,加法流水线,与主计算机连接,FPS-164向量协处理器结构图,常用运算:di=aib+ci避免中间结果存放寄存器或存储器,2019/11/24,18,运算过程:标量处理器把原始数据装入向量寄存器,把标量数据和指令播送到全部向量处理器。向量处理器就同步地运算,但它们处理的数据是各不相同的。向量操作可以和标量处理器中的标量操作同时进行。向量协处理器特别适合于大规模的数值处理,用户使用现有的处理机作为主机。配合需要数量的向量协处理器,达到较高的性能价格比。,6.5向量处理机的性能评价,衡量向量处理机性能的主要指标有:1、向量指令处理时间Tvp2、最大性能R3、半性能向量长度n1/2等。,1、向量指令处理时间Tvp执行一条向量长度为n的向量指令的时间Tvp为:TvpTs+Tvf+(n-1)Tc其中:Ts为向量流水线的建立时间。Tvf为向量流水线的流过时间。Tc为流水线“瓶颈”段的执行时间。如果每段执行时间都等于一个时钟周期,则有:Tvps+e+(n-1)其中:n:向量长度:时钟周期长度。s:向量流水线建立时间(时钟周期数)e:向量流水线流过时间(时钟周期数)。,2019/11/24,21,具体执行时:把几条能在一个时钟周期内同时开始执行的向量指令称为一个编队;同一个编队中的指令一定不存在功能部件冲突和数据相关,2019/11/24,22,例1:假设向量处理机中功能部件的启动开销为:取数和存数部件的12个时钟周期、乘法部件为7个时钟周期、加法部件为6个时钟周期。先把序列向量操作分成编队,然后计算每个编队的开始时间、获得第一个结果元素的时间和获得最后一个结果元素的时间。程序:LVV1,Rx;取向量xMULTSVV2,F0,V1;向量和标量相乘LVV3,Ry;取向量YADDVV4,V2,V3;加法SVRy,V4;存结果,2019/11/24,23,解:第一条指令LV为第一个编队。MULTSV指令和第二条LV指令为第二个编队。ADDV指令为第三个编队。SV指令为第四个编队。编队建立时间设为1。下表为没有实行链接时的执行情况(书上略有错),从0到41+4n,一共是42+4n个时钟周期设n=64,得一个结果平均时间:4+(42/64)=4.65时钟周期,23,24,24,29,30,30,41,2019/11/24,24,如果LOAD、STORE、ADD、MULTI分别为四条流水线,采用向量链接技术(不考虑访问存储器的冲突),实际上变成2个编队。这时需要:,从0到43+2n,一共是44+2n个时钟周期,2019/11/24,25,如果考虑向量长度大于向量寄存器长度时,则需要分段开采。向量长度为n的一组向量操作的整个执行时间为:其中:Tloop为执行标量代码的开销,Tstart为每个编队的向量启动开销,Tchime为编队数,MVL是向量寄存器的长度。Tloop可以看作是一个常数,Cray1机的Tloop约等于15。,2019/11/24,26,例2:在一台向量处理机上实现ABs操作,其中A和B是长度为200的向量,s是一个标量。向量寄存器长度为64。各功能部件的启动时间Tloop等于15。LV启动时间12、MULTI启动时间7、SV启动时间12,求总的执行时间。LVV1,Rb;取向量BMULTVSV2,V1,Fs;向量和标量相乘SVRa,V2;存向量,2019/11/24,27,解:因为向量长度超过了向量寄存器的长度,所以要采取分段开采方法。每次循环主要由下面三条向量指令组成:LVV1,Rb;取向量BMULTVSV2,V1,Fs;向量和标量相乘SVRa,V2;存向量假设A和B分别放在Ra和Rb之中,s在Fs中。三条指令之间存在有写读数据相关,不考虑链接,因此必须把它们分成3个编队,Tchime=3。T2004(15+Tstart)+200360(4Tstart)+600660(4Tstart)其中:Tstart=12+7+12=31,因此,T200660+431784每个结果元素的平均花费时间为:784/2003.9个周期。,2019/11/24,28,例3:在某台向量处理机上执行代码如下:(Y=axy)1:LVV1,Rx;取向量x2:MULTSVV2,F0,V1;向量和标量相乘3:LVV3,Ry;取向量Y4:ADDVV4,V2,V3;加法5:SVRy,V4;存结果考虑访问存储器冲突,向量寄存器长度为64、各功能部件的启动时间与上例相同。求总的执行时间。解:指令1、2,指令3、4和指令5分成三个编队,前两个编队中两条指令采用向量链接技术执行。Tchime=3,Tloop=15,Tstart=12+7+12+6+12=49,MVL=64。,2019/11/24,30,2、最大性能RR表示当向量长度为无穷大时的向量流水线的最大性能。常在评价峰值性能时使用,单位为MFLOPS。最大性能R表示为:其中:n为向量长度;Tn为一组向量操作的整个执行时间。对于例3,假设时钟频率为200MHZ。每个循环有2个浮点操作:,2019/11/24,31,3、半性能向量长度n1/2为达到一半R值所需的向量长度称为半性能向量长度n1/2。主要评价向量流水线建立时间对性能的影响。CRAY-1的n1/21020,CYBER205的n1/2100。由MFLOPS定义可知:对于例3,如果向量处理机的时钟频率为200MHz。因为:R=100MFLOPS,因此有:10022n1/2Tn1/2200假设:n1/264,因此:Tn1/264+3n1/2解得:10022n1/2(64+3n1/2)200643n1/28n1/25n1/264n1/212.8所以:n1/213,2019/11/24,32,6.6向量处理机的发展1、向量计算机系统结构的发展趋势(1)提供多种向量运算指令。(2)除具有向量处理功能外还有其它功能。(3)采用多层次的存储器系统。(4)流水线技术与并行技术相结合。,2019/11/24,33,2、向量计算机系统结构要解决的六个技术问题(1)提高处理机带宽,两种方法:运算部件采用流水线结构。用多个运算器构成并行系统。(2)提高存储器带宽,多种解决方法:用多个独立的存储体构造大容量的存储器系统。用多层次的存储器系统提高访问速度。用高速缓冲存储器和可寻址的寄存器组。采用流水线技术存储系统的访问速度快520倍。,2019/11/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论