




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、向量处理机w 基本概念w 基本结构w 设计目标w 关键技术w 协处理器w 性能评价 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 1 / 67本章内容基本概念w 向量处理机w 什么是向量处理w 向量处理方式 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 2 / 672 之1本章内容基本概念向量处理机具有向量数据表示和向量指令系统的处理机,是解决数值计算问题的一种高性能计算机结构。 有两个主要优点:效率高和适用性广,一般都采 用流水线结构,有多条流水线并行工作。向量处理机通常属大型或巨
2、型机,也可以用 微机加一台向量协处理器组成。一般向量计算机 中包括有一台高性能标量处理机。必须把要解决的问题转化为向量运算,向量 处理机才能充分发挥作用 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 3 / 672之2本章内容基本概念向量处理机 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 4 / 673之1本章内容基本概念什么是向量处理 例子用Fortran语言编写的一个简单程序:DO 100I=1,NA(I) =B(I)+C(I)B(I)=2*A(I+1)100 Computer
3、 ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 5 / 673之2本章内容基本概念什么是向量处理 标量处理INITIALIZEI=110READ READ ADD STOREB(I);读数指令C(I) B(I)+C(I)A(I)B(I)+C(I);运算指令;存数指令READA(I+1)MULTIPLY2*A(I+1);运算指令;存数指令;运算指令;条件转移指令STOREB(I)2*A(I+1)INCREMENT II+1 IF IN GOTO 10 STOP Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯
4、片 6 / 673之3本章内容基本概念什么是向量处理 向量处理A(1:N)=B(1:N)+C(1:N) ;并行运算指令TEMP(1:N)=A(2:N+1)B(1:N)=2*TEMP(1:N);并行取数指令;并行运算指令一条向量指令处理N个操作数或N对操作数 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 7 / 67本章内容基本概念向量处理方式 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 8 / 67w 横向处理方式w 纵向处理方式w 纵横处理方式w C语言程序for (i=1;i基
5、本概念向量处理方式横向处理方式w 处理方法又称为水平处理方式、横向加工方式等。向量计算是按行的方式从左至右横向地进行。w 举例逐个分量进行处理:假设中间结果为T(I) 计算第1个分量:计算第2个分量:T(1) B(1)C(1)Y(1) A(1)T(1)T(2) B(2)C(2)Y(2) A(2)T(2) 计算最后一个分量:T(N)B(N)C(N) Y(N)A(N)T(N) Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 9 / 672之2本章内容基本概念向量处理方式横向处理方式分析存在两个问题:在计算向量的每个分量 w 时,都发生写读数据相
6、关,流水线效率低; 如果采用多功能流水线,还必须频繁进行流 水线切换。所以横向处理方式对向量处理机 不适合,即使在标量处理机中,也经常通过 编译器进行指令流调度。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 10 / 672之1本章内容基本概念向量处理方式纵向处理方式w 处理方法也称为垂直处理方式、纵向加工方式等。向量计算是按列的方式自上而下纵向地进行。w 举例T(1) = B(1) + C(1)T(2) = B(2) + C(2)T(n) = B(n)+ C(n)Y(1) = A(1)T(1)Y(2) = A(2)T(2)Y(N) =
7、 A(N) T(N) Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 11 / 672之2本章内容基本概念向量处理方式纵向处理方式w 分析因为数据相关不影响流水线连续工作,不同的运算操作只需要切换1次,所以这种处理方式适用于向量处理机。结果的存储直接面向存储器,n的大小可以不受限制,但速度受到存储器吞吐量的限制。采用向量指令只需要2条:VADD VMULB, C, TA, T, Y Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 12 / 673之1本章内容基本概念向量处理方式纵横处理方
8、式 w处理方法又称为分组处理方式、纵横向加工方式等。 横向处理和纵向处理相结合的方式。即:将 长度为N的向量分成若干组,每组长度为n, 组内采用纵向处理方式,组间采用横向处理 方式。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 13 / 673之2本章内容基本概念向量处理方式纵横处理方式w 举例第组: T(1,n) = B(1,n) + C(1,n)Y(1,n) = A(1,n)T(1,n)T(n+1,2n) = B(n+1,2n)C(n+1,2n)Y(n+1,2n) = A(n+1,2n)T(n+1,2n) 第组: 最后第k+1组:T
9、(kn+1,N) = B(kn+1,N) + C(kn+1,N) Y(kn+1,N)= A(kn+1,N) + T(kn+1,N) Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 14 / 673之3本章内容基本概念向量处理方式纵横处理方式w 分析减少了访问主存储器的次数,降低对存储器信息流量的要求,也减少访问存储器发生冲突引起的等待时间,因而提高了处理速度。适合用于寄存器-寄存器结构的向量处理机中, 因为向量寄存器的长度是有限的,例如,每个向量寄存器有64个寄存器。当向量长度N大于向量寄存器长度n时,需要分组处理。 Computer Ar
10、chitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 15 / 67本章内容基本结构向量处理机的最关键问题是存储器系统能够满足运算部件带宽的要求。主要采用两种方法: 存储器存储器结构 w多个独立的存储器模块并行工作。处理机结构简单,对存储系统的访问速度要求很高。 寄存器寄存器结构 w运算通过向量寄存器进行。需要大量高速寄存器,对存储系统访问速度的要求降低,而且利用高速寄存器可完成对矩阵元素的特殊运算。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 16 / 673之1本章内容基本结构存储器存储器结构假设A、B、C
11、都是有8个元素的向量,现向 量处理机需完成如下运算:C=A+B。ABC=A+B Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 17 / 67多 端 口 存储器系统流水结构加法器3之2本章内容基本结构存储器存储器结构ABC=A+B Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 18 / 67流水结构加法器MMMMMMMM3 之3本章内容基本结构存储器存储器结构采用多个存储体交叉和并行访问来提高 存储器速度,但应该注意解决存储器访问冲 突。下面分情况进行介绍(假设一个存储周 期占两个处理
12、机周期): 理想情况 实际情况ww Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 19 / 672之1本章内容基本结构存储器存储器结构数据存储模块0模块1 模块2 模块3 模块4 模块5 模块6模块7 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 20 / 67A0B6C4A1B7C5A2B0C6A3B1C7A4B2C0A5B3C1A6B4C2A7B5C32之2本章内容基本结构存储器存储器结构处理时序图 Computer ArchitectureV3同济大学.电子与信息工程学院.计算
13、机科学与工程系幻灯片 21 / 67流水段401234567流水段301234567流水段201234567流水段101234567存储体7RB5RB5RA7RA7W3W3存储体6RB4RB4RA6RA6W2W2存储体5RB3RB3RA5RA5W1W1存储体4RB2RB2RA4RA4W0W0存储体3RB1RB1RA3RA3存储体2RB0RB0RA2RA2W6存储体1RA1RA1RB7RB7W5W5存储体0RA0RA0RB6RB6W4W43之1本章内容基本结构存储器存储器结构问题及解决w 问题实际情况与理想情况并非一样,例如:向量的元素有时不能存放在我们希望的存储体。w 解决可以在流水线的输入端
14、和输出端增加缓冲器来消除争用存储器。 ABC=A+B Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 22 / 67缓冲器缓冲器多 端 口 存储器系统流水结构加法器缓冲器3之2本章内容基本结构存储器存储器结构处理时序图(所有向量都从模块0开始存放) Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 23 / 67流水段4012345流水段30123456流水段201234567流水段101234567存储体7RA7RA7RB7RB7存储体6RA6RA6RB6RB6存储体5A延迟2RA5RA
15、5RB5RB5存储体4RA4RA4RB4RB4W4存储体3RA3RA3RB3RB3W3W3存储体2RA2RA2RB2RB2W2W2存储体1RA1RA1RB1RB1W1W1存储体0RA0RA0RB0RB0W0W03之3本章内容基本结构存储器存储器结构总结操作数缓冲器和写结果缓冲器主要用于解决 访问存储器冲突。主要优缺点:硬件结构简单, 造 价低;但速度相对较低。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 24 / 67写结果缓冲器流水线运算部件操作数缓冲器主存储器3之1本章内容基本结构寄存器寄存器结构把存储器-存储器结构中的缓冲器改为向
16、量寄存器,运算部件需要的操作数从向量寄存器中读 取,运算的中间结果也写到向量寄存器中。向量寄存器与标量寄存器的主要差别是:一 个向量寄存器能够保存一个向量,例如:64个64 位寄存器,用以实现连续访问一个向量的各个分 量。需要有标量寄存器和地址寄存器等共同工作。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 25 / 673之2本章内容基本结构举例 CRAY-1向量处理机结构8个向量寄存器(V)8个64个64bit12个流水线结构的运算部件主存储器8MB64个个体缓冲寄存器(T)标量寄存器(S)64个64bit8个64bit缓冲寄存器(B
17、)地址寄存器(A)64个24bit8个24bit指令寄存器指令缓冲寄存器256个16bit程序计数器 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 26 / 673 之3本章内容基本结构提示主要向量处理机都采用寄存器寄存器结构,包括Cray处理机(Cray-1、Cray-2、 X-MP、Y- MP、C90、 T90和 SV1)、日本的超级计算机 (NEC SX/2 SX/5、Fujitsu VP200 VPP5000、 Hitachi S820 和S-8300)和小型超级计算机 (Convex C-1 C-4)。第一台向量处理机 (CDC
18、)采用存储器存储器结构。从现在开始,我们集中讨论寄存器寄存器 结构。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 27 / 67本章内容设计目标 w 较好地维持向量/标量性能平衡 w 可扩展性随处理机数目的增加而提高 w 增加存储器系统的容量和性能 w 提供高性能的I/O和易访问的网络 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 28 / 673 之1本章内容设计目标较好地维持向量/标量性能平衡实际的应用问题中通常既有向量计算又 有标量计算,而且两类计算有一定的比例。 关键问题是
19、:希望向量硬件和标量硬件都能 够充分利用,不要空闲。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 29 / 673之2本章内容设计目标较好地维持向量/标量性能平衡向量平衡点(vector balance point): 为了使向量/标量硬件设备的利用率相等, 一个程序中向量代码所占的百分比。例如:一个系统的向量运算速度为 90Mflops,标量运算速度为 10Mflops。如 果程序的90是向量运算,10是标量运 算,硬件利用率最高;则向量平衡点为0.9。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算
20、机科学与工程系幻灯片 30 / 673 之3本章内容设计目标较好地维持向量/标量性能平衡向量处理机的向量平衡点必须与用户程 序的向量化程度相匹配。例如:IBM向量计 算机维持较低的向量与标量比例,定在35 的范围之间。这种做法能够适应通用应用问 题对标量和向量处理要求。但大多数超级计 算机的向量平衡点在90%或更高,此时对目 标代码向量化比例的依赖也大。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 31 / 67本章内容设计目标可扩展性随处理机数目的增加而提高可扩展性是指在确定的应用背景下,向 量处理机系统要随处理机数目的增加而线性 地
21、提高。可扩展性的三个目标为:规模可扩展性、 换代可扩展性和问题可扩展性。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 32 / 67本章内容关键技术w 链接技术w 向量循环/分段开采技术w 向量递归技术w 稀疏矩阵的处理技术 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 33 / 67本章内容关键技术链接技术w 向量指令的类型w 向量运算中的相关和冲突w 向量链接技术 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 34 / 6
22、72 之1本章内容关键技术链接技术向量指令的类型以CRAY-1向量处理机为例,有四类指令: w向量与向量操作:ViVjopopVkVk w向量与标量操作:ViSj w向量取:Vi存储器存储器Vi w向量存: Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 35 / 672之2本章内容关键技术链接技术向量指令的类型 VjViSj VkVk ViViVi(a)(b)(c)(d) 浮点加6拍、浮点乘7拍 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 36 / 67主存123456123456
23、1234n1234n主存本章内容关键技术链接技术向量运算中的相关和冲突V0V1V2 V3V4V5(a) 不相关的指令V0V1V2 V3V4V5(c) 功能部件冲突V0V1V2 V3V0V4(b) 写读数据相关V0V1V2 V3V1V4(d) 读读数据相关 提示:采用顺序发射顺序完成方式。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 37 / 677 之1本章内容关键技术链接技术向量链接技术 基本思想对于有写读数据相关的向量指令,可以 采用“相关专用通道”:从一个流水线部件 得到的结果直接送入另一个流水线部件的操 作数寄存器,这样多条向量
24、指令可以并行执 行,这种技术称为流水线的链接技术。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 38 / 677之2本章内容关键技术链接技术向量链接技术 链接要求 w没有向量寄存器冲突和运算部件冲突; w只有当前一条指令的第一个结果分量送入结果向量寄存器的那一个时钟周期方可链接,否则只能串行执行; w若一条向量指令的两个源操作数分别是两条先行指令的结果时,要求: 先行的两条指令产生结果的时间必须相等; 先行的两条指令的向量长度必须相等。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片
25、 39 / 677之3本章内容关键技术链接技术向量链接技术 举例(要求)若要进行向量运算:D=A(BC),假 设向量长度64,且B和C已由存储器取至 V0和V1,则下面3条向量指令即可完成上述 运算。V3AV2V0+V1 V4V2*V3 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 40 / 677之4本章内容关键技术链接技术向量链接技术 举例(调度一) w 三条向量指令全部串行执行所需时间为:(1+6+1)+N-1+(1+6+1)+N-1+(1+7+1)+N-1=3N+22(拍) 注意:CRAY-1启动访存、将元素送往功能部件和将结果存
26、入Vi都需要有1拍的传送延迟。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 41 / 677之5本章内容关键技术链接技术向量链接技术 举例(调度二) w 前两条并行执行,第三条串行执行所需时间为:(1+6+1)+N-1+(1+7+1)+N-1=2N+15(拍) 注意:CRAY-1启动访存、将元素送往功能部件和将结果存入Vi都需要有1拍的传送延迟。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 42 / 677之6本章内容关键技术链接技术向量链接技术 举例(调度三) w 三条向量指令采用链接技术所需时间为:(1+6+1)+(1+7+1)+N-1=N+16(拍) 注意:CRAY-1启动访存、将元素送往功能部件和将结果存入Vi都需要有1拍的传送延迟。 Computer ArchitectureV3同济大学.电子与信息工程学院.计算机科学与工程系幻灯片 43
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版院感护理风险管控工作计划
- 八年级上册仁爱版英语校本课程计划
- 五年级心理健康辅导计划
- 七年级数学图形专题教学计划
- 2025年公务员考试时事政治模拟题及答案详解【典优】
- 医疗行业劳动力投入计划与持证上岗保障措施
- 公共场所年度隐患排查计划
- 2025年公务员考试时事政治模拟题(考点精练)附答案详解
- 2025年公务员考试时事政治模拟试题及答案详解【基础+提升】
- 2025年公务员考试时事政治模拟考试试卷【突破训练】附答案详解
- 2023-2024学年河南省永城市小学数学二年级下册期末评估测试题
- 乳腺疾病的超声诊断 (超声科)
- 服务精神:马里奥特之路
- 《建筑施工安全检查标准》JGJ59-2011图解
- 华为大学人才培养与发展实践
- 医疗垃圾废物处理课件
- 公路工程基本建设项目概算、预算编制办法
- 《煤的发热量测定方法》ppt课件
- 护理岗位管理与绩效考核-PPT课件
- 电力变压器损耗水平代号的确定
- 安全责任制考核制度及考核表
评论
0/150
提交评论