计算机系统结构随书ppt清华大学出本社.ppt_第1页
计算机系统结构随书ppt清华大学出本社.ppt_第2页
计算机系统结构随书ppt清华大学出本社.ppt_第3页
计算机系统结构随书ppt清华大学出本社.ppt_第4页
计算机系统结构随书ppt清华大学出本社.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 2 6 1 6 4向量处理机实例6 4 1典型向量处理机6 4 2CRAYY MP向量处理机6 4 3向量协处理器向量处理机主要出自美国和日本 美国著名的向量计算机公司有 CRAY CDC TI等日本公司有 NEC Fujitsu Hitachi等 2020 2 6 2 CRAY1 2020 2 6 3 CRAY1 2020 2 6 4 2020 2 6 5 CDC1604 2020 2 6 6 FujitsuVPP5000 2020 2 6 7 机器型号 美国和日本制造的向量处理机 CrayIS 配置 特点 有10条流水线的单处理机 12 5ns COS CF72 1 第一台基于ECL的超级计算机 1976年问世 6 4 1典型向量处理机 Cray2S 4 256 256M字存储器的4台处理机 4 lns COS或UNIX CF773 0 16K字的本地存储器 移植了UNIXV 1985问世 2020 2 6 8 机器型号 CrayX MP416 配置 特点 16M字存储器的4台处理机 128M字SSD 8 5ns COSCF775 0 使用共享寄存器组用于IPC 1983年问世 CrayY MP832 128M字存储器的8台处理机 6ns CF775 0 X MP的改进型 1988年问世 每台处理机2条向量流水线 16台处理机 4 2ns Unicos CF775 0 CrayY MPC 90 最大的Cray机器1991年问世 2020 2 6 9 机器型号 CDCCyber205 配置 特点 有4条流水线的单处理机 20ns 虚拟OS FTN200 存储器到存储器系统结构 1982年问世 ETA10E 单处理机 10 5ns ETAV FTN200 Cyber205的后继型号 1985年问世 每台处理机4组流水线 4台处理机 2 9ns F77SX 22Gflops NECSX X 44 1991年问世 2020 2 6 10 机器型号 FujitsuVP2600 10 配置 特点 5条流水线的单处理机和双标量处理机 3 2ns 5Gflops MSP EX F77EX VP 使用可重构微向量寄存器和屏蔽 1991年问世 512MB存储器 18条流水线的单处理机 4ns FORT77 HAPV23 OC 3Gflops Hitachi820 80 64个通道 最大传输速率288MB S 1988年问世 2020 2 6 11 6 4 2CRAYY MP向量处理机CrayY MP816由1至8台处理机组成 多个处理机共享中央存储器 I O子系统 处理机通信子系统和实时钟 中央存储器由256个交叉访问的存储体组成 每个处理机对4个存储器端口的交叉访问 CPU的时钟周期为6ns 4个存储器端口允许处理机同时执行两个标量和向量取操作 一个存储操作和一个独立的I O操作 2020 2 6 12 每个CPU由14个功能部件组成 分为向量 标量 地址和控制四个子系统 使用了大量地址寄存器 标量寄存器 向量寄存器 中间寄存器和临时寄存器 可以实现功能流水线灵活的链接 I O子系统支持三类通道 传输速率分别为6兆字节 秒 100兆字节 秒和1G字节 秒 2020 2 6 14 6 4 3向量协处理器以通用中小型机 或微机作为主机 向量处理部件作为外围设备 用以加速向量的处理速度 价格低 向量协处理器是为中小型用户设计的 解决科学计算中大量向量处理任务的一种装置 与各种不同主机相连的向量协处理器 价格和功能的变化范围很大 2020 2 6 15 FPS 164是最典型的向量协处理器 美国浮点系统公司生产 内含三个向量处理器 每个向量处理器有两个乘加部件 两组向量寄存器 两组标量寄存器 每个乘加部件每个周期能输出一个结果 向量寄存器 2组 每组4个向量寄存器 每个向量寄存器可存放 个操作数 每个操作数 个字节 2020 2 6 16 标量运算部件 协处理器主存储器120MB 地址寄存器 间址寄存器 向量处理器 向量处理器 向量处理器 标量寄存器X寄存器组Y寄存器组 向量寄存器 乘法流水线 加法流水线 与主计算机连接 FPS 164向量协处理器结构图 常用运算 di ai b ci避免中间结果存放寄存器或存储器 2020 2 6 18 运算过程 标量处理器把原始数据装入向量寄存器 把标量数据和指令播送到全部向量处理器 向量处理器就同步地运算 但它们处理的数据是各不相同的 向量操作可以和标量处理器中的标量操作同时进行 向量协处理器特别适合于大规模的数值处理 用户使用现有的处理机作为主机 配合需要数量的向量协处理器 达到较高的性能价格比 6 5向量处理机的性能评价 衡量向量处理机性能的主要指标有 1 向量指令处理时间Tvp2 最大性能R 3 半性能向量长度n1 2等 1 向量指令处理时间Tvp执行一条向量长度为n的向量指令的时间Tvp为 Tvp Ts Tvf n 1 Tc其中 Ts为向量流水线的建立时间 Tvf为向量流水线的流过时间 Tc为流水线 瓶颈 段的执行时间 如果每段执行时间都等于一个时钟周期 则有 Tvp s e n 1 其中 n 向量长度 时钟周期长度 s 向量流水线建立时间 时钟周期数 e 向量流水线流过时间 时钟周期数 2020 2 6 21 具体执行时 把几条能在一个时钟周期内同时开始执行的向量指令称为一个编队 同一个编队中的指令一定不存在功能部件冲突和数据相关 2020 2 6 22 例1 假设向量处理机中功能部件的启动开销为 取数和存数部件的12个时钟周期 乘法部件为7个时钟周期 加法部件为6个时钟周期 先把序列向量操作分成编队 然后计算每个编队的开始时间 获得第一个结果元素的时间和获得最后一个结果元素的时间 程序 LVV1 Rx 取向量xMULTSVV2 F0 V1 向量和标量相乘LVV3 Ry 取向量YADDVV4 V2 V3 加法SVRy V4 存结果 2020 2 6 23 解 第一条指令LV为第一个编队 MULTSV指令和第二条LV指令为第二个编队 ADDV指令为第三个编队 SV指令为第四个编队 编队建立时间设为1 下表为没有实行链接时的执行情况 书上略有错 从0到41 4n 一共是42 4n个时钟周期设n 64 得一个结果平均时间 4 42 64 4 65时钟周期 23 24 24 29 30 30 41 2020 2 6 24 如果LOAD STORE ADD MULTI分别为四条流水线 采用向量链接技术 不考虑访问存储器的冲突 实际上变成2个编队 这时需要 从0到43 2n 一共是44 2n个时钟周期 2020 2 6 25 如果考虑向量长度大于向量寄存器长度时 则需要分段开采 向量长度为n的一组向量操作的整个执行时间为 其中 Tloop为执行标量代码的开销 Tstart为每个编队的向量启动开销 Tchime为编队数 MVL是向量寄存器的长度 Tloop可以看作是一个常数 Cray1机的Tloop约等于15 2020 2 6 26 例2 在一台向量处理机上实现A B s操作 其中A和B是长度为200的向量 s是一个标量 向量寄存器长度为64 各功能部件的启动时间Tloop等于15 LV启动时间12 MULTI启动时间7 SV启动时间12 求总的执行时间 LVV1 Rb 取向量BMULTVSV2 V1 Fs 向量和标量相乘SVRa V2 存向量 2020 2 6 27 解 因为向量长度超过了向量寄存器的长度 所以要采取分段开采方法 每次循环主要由下面三条向量指令组成 LVV1 Rb 取向量BMULTVSV2 V1 Fs 向量和标量相乘SVRa V2 存向量假设A和B分别放在Ra和Rb之中 s在Fs中 三条指令之间存在有写读数据相关 不考虑链接 因此必须把它们分成3个编队 Tchime 3 T200 4 15 Tstart 200 3 60 4 Tstart 600 660 4 Tstart 其中 Tstart 12 7 12 31 因此 T200 660 4 31 784每个结果元素的平均花费时间为 784 200 3 9个周期 2020 2 6 28 例3 在某台向量处理机上执行代码如下 Y a x y 1 LVV1 Rx 取向量x2 MULTSVV2 F0 V1 向量和标量相乘3 LVV3 Ry 取向量Y4 ADDVV4 V2 V3 加法5 SVRy V4 存结果考虑访问存储器冲突 向量寄存器长度为64 各功能部件的启动时间与上例相同 求总的执行时间 解 指令1 2 指令3 4和指令5分成三个编队 前两个编队中两条指令采用向量链接技术执行 Tchime 3 Tloop 15 Tstart 12 7 12 6 12 49 MVL 64 2020 2 6 30 2 最大性能R R 表示当向量长度为无穷大时的向量流水线的最大性能 常在评价峰值性能时使用 单位为MFLOPS 最大性能R 表示为 其中 n为向量长度 Tn为一组向量操作的整个执行时间 对于例3 假设时钟频率为200MHZ 每个循环有2个浮点操作 2020 2 6 31 3 半性能向量长度n1 2为达到一半R 值所需的向量长度称为半性能向量长度n1 2 主要评价向量流水线建立时间对性能的影响 CRAY 1的n1 2 10 20 CYBER205的n1 2 100 由MFLOPS定义可知 对于例3 如果向量处理机的时钟频率为200MHz 因为 R 100MFLOPS 因此有 100 2 2n1 2 Tn1 2 200假设 n1 2 64 因此 Tn1 2 64 3n1 2解得 100 2 2n1 2 64 3n1 2 20064 3n1 2 8n1 25n1 2 64n1 2 12 8所以 n1 2 13 2020 2 6 32 6 6向量处理机的发展1 向量计算机系统结构的发展趋势 1 提供多种向量运算指令 2 除具有向量处理功能外还有其它功能 3 采用多层次的存储器系统 4 流水线技术与并行技术相结合 2020 2 6 33 2 向量计算机系统结构要解决的六个技术问题 1 提高处理机带宽 两种方法 运算部件采用流水线结构 用多个运算器构成并行系统 2 提高存储器带宽 多种解决方法 用多个独立的存储体构造大容量的存储器系统 用多层次的存储器系统提高访问速度 用高速缓冲存储器和可寻址的寄存器组 采用流水线技术存储系统的访问速度快5 20倍 2020

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论