版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、n向量处置机是处理数值计算问题的一种高性能计算机构造n向量处置机普通都采用流水线构造,有多条流水线并行任务n向量处置机通常属大型或巨型机,也可以用微机加一台向量协处置器组成n普通向量计算机中包括有一台高性能标量处置机n必需把要处理的问题转化为向量运算,向量处置机才干充分发扬作用6.1 向量处置的根本概念向量处置的根本概念n什么是向量处置什么是向量处置n 例如:一个简单的例如:一个简单的C言语程序如言语程序如下:下:for (i = 1; i N ) GOTO 20 read bI read cI add bI+cI store aIbI+cI read aI+1 multiply 2*aI+1
2、 store bI 2*aI+1 increment I I+1 goto 10Stop常量常量2 2,a,b,ca,b,c中每中每一个元素都称为一一个元素都称为一个标量。该指令序个标量。该指令序列称为标量指令序列称为标量指令序列,执行过程为标列,执行过程为标量处置过程,每一量处置过程,每一条指令只处置一个条指令只处置一个或一对数据。或一对数据。n上述程序用向量化指令序列实现为:n a1:n=b1:n+c1:nn temp1:n=a2:n+1n b1:n=2*temp1:nn 将n个独立的数构成的整体称为向量,对这一组数的运算称为向量处置。一条向量处置指令可以处置n个或n对操作数。向量处置方式
3、要根据向量运算的特点和向量处置机的类型选择向量的处置方式。有三种处置方式:1横向处置方式,又称为程度处置方式,横向加工方式等。向量计算是按行的方式从左至右横向地进展。2纵向处置方式,又称为垂直处置方式,纵向加工方式等。向量计算是按列的方式自上而下纵向地进展。3纵横处置方式,又称为分组处置方式,纵横向加工方式等。横向处置和纵向处置相结合的方式。 以一个简单的C言语编写的程序为例,阐明向量的三种处置方式的任务原理。for (i = 1;i = n;i+)yi = ai ( bi + ci );n横向处置方式n 也称为程度处置方式,横向加工方式等逐个分量进展处置:假设中间结果为TI计算第1个分量:
4、T1 B1C1 Y1 A1T1计算第2个分量: T2 B2C2 Y2 A2T2最后一个分量: TN BNCN YNANTNn存在两个问题:在计算向量的每个分量时,都发生写读数据相关。流水线效率低假设采用多功能流水线,必需频繁进展流水线切换n横向处置方式对向量处置机不适宜即使在标量处置机中,也经常经过编译器进展指令流调度。n纵向处置n也称为垂直处置方式,纵向加工方式等T1 = B1 + C1T2 = B2 + C2Tn = Bn + CnY1 = A1T1Y2 = A2T2YN = AN TNn采用向量指令只需求2条:VADDB, C, TVMULA, T, Yn这种处置方式适用于向量处置机,数
5、据相关不影响流水线延续任务。不同的运算操作只需求切换1次。n纵横处置方式n 将长度为n的向量分成假设干组,每组长度为m,组内按纵向方式处置,依次处置各组。n用于存放器-存放器构造的向量处置机中向量存放器的长度是有限的,例如,每个向量存放器有64个存放器。当向量长度N大于向量存放器长度n时,需求分组处置。n分组方法:nm,其中:为余数,共分组。组内采用纵向处置方式,组间采用横向处置方式。因此,也称为分组处置方式,纵横向加工方式等。6.2 向量处置机构造n向量处置机的根本思想是把两个向量的对应分量进展运算,产生一个结果向量。最关键问题是存储器系统可以满足运算部件带宽的要求。n主要采用两种方法:1.
6、 存储器存储器构造多个独立的存储器模块并行任务处置机构造简单,对存储系统的访问速度要求很高2. 存放器存放器构造运算经过向量存放器进展需求大量高速存放器,对存储系统访问速度的要求降低存储器存储器构造存储器存储器构造n以下图阐明一个具有8个存储体的向量处置机: MMMMMMMM流水构造加法器ABC=A+B三条相互独立的数据通路,可并行任务,同一个存储模块同时只能为一个通路效力n向量处置例如1:求C=A+B,设A、B、C的存储方式如图:C4B6A0C5B7A1C6B0A2C7B1A3C0B2A4C2B3A5C3B4A6C4B5A7模块0模块1模块2模块3模块4模块5模块6模块7A、B、C在主存储器
7、中的存放情况流水段1流水段2流水段3流水段4W4W4RB6RB6RA0RA0W5W5RB7RB7RA1RA1W6RA2RA2RB0RB0RA3RA3RB1RB1W0W0RA4RA4RB2RB2W1W1RA5RA5RB3RB3W2W2RA6RA6RB4RB4W3W3RA7RA7RB5RB576543210765432107654321076543210M0M1M2M3M4M5M6M70 1 2 3 4 5 6 7 8 9 10 11 12两个向量在流水线方式下分量相加的时序图时间时钟周期n在流水线的输入端和输出端添加缓冲器可以消除争用存储器景象。可变延迟器可变延迟器可变延迟器可变延迟器主存主存储
8、器储器流水结流水结构加法构加法器器ABC延迟4个时钟周期延迟2个时钟周期W0RB8RB8RA8RA8RB0RB0RA0RA0RB8RB8RA8RA8RB1RB1RA1RA1RB8RA8RA8RB2RB2RA2RA2 RA8RA8RB3RB3RA3RA3 RA8RB4RB4RA4RA4RB5RB5RA5RA5 RB6RB6RA6RA6RB7RB7RA7RA776543210765432106543210543210M0M1M2M3M4M5M6M70 1 2 3 4 5 6 7 8 9 10 11 12流水段1流水段2流水段3流水段4存储器发生冲突时两个向量相加的时序图存放器存放器- -存放器构造
9、存放器构造n把存储器-存储器构造中的缓冲栈改为向量存放器,运算部件需求的操作数从向量存放器中读取,运算的中间结果也写到向量存放器中。n向量存放器与标量存放器的主要差别是:一个向量存放器可以保管一个向量,例如:64个64位存放器。延续访问一个向量的各个分量。n需求有标量存放器和地址存放器等。n采用存放器-存放器构造的主要优点:降低主存储器的流量。例如:采用存放器-存放器构造的CRAY-1与采用存储器-存储器构造的STAR-100比较,运算速度高3倍多,而主存流量低2.5倍。nSTAR-100的主存储器流量:328W/1.28us=200MW/SCRAY-1的主存储器流量: 4W/50ns=80M
10、W/S8个向量存放器86464主存储器8MB64个个体12个流水线结构的运算部件缓冲存放器6464标量存放器864缓冲存放器6424地址存放器824指令缓冲存放器25616CRAY-1向量处置机构造q向量处置机系统构造的设计目的向量处置机系统构造的设计目的 提高向量处置机性能的常用技术提高向量处置机性能的常用技术6.3 6.3 提高向量处置机性能的方法提高向量处置机性能的方法向量处置机系统构造的设计目的向量处置机系统构造的设计目的n较好地维持向量较好地维持向量/ /标量性能平衡标量性能平衡n 向量平衡点向量平衡点vector balance vector balance point)point
11、)定义为:为了使向量硬件设备和定义为:为了使向量硬件设备和标量硬件设备的利用率相等,一个程序标量硬件设备的利用率相等,一个程序中向量代码所占的百分比。中向量代码所占的百分比。n 例如:系统在向量方式下可以到达例如:系统在向量方式下可以到达9Mflops9Mflops,在标量方式下可以到达,在标量方式下可以到达1Mflops1Mflops的运算速度,假设代码的的运算速度,假设代码的90%90%是是向量运算,向量运算,10%10%是标量运算,这样花在两是标量运算,这样花在两种方式上的计算时间相等,那么向量平种方式上的计算时间相等,那么向量平衡点为衡点为0.90.9。几种超级计算机的向量性能和标量性
12、能了解机器型号Fujitsu VP400Cray ISCray 2SCray X-MPCray Y-MPHitachi S820NEC SX2向量性能Mflops标量性能Mflops向量平衡点85.09.80.90151.511.20.93143.313.10.92201.617.00.92737.317.80.98424.29.50.98207.16.60.97n可扩展性随处置机数目的添加而提高可扩展性随处置机数目的添加而提高n 可扩展性的三个目的:规模可扩展性、可扩展性的三个目的:规模可扩展性、换代可扩展性、问题可扩展性。换代可扩展性、问题可扩展性。n提供高性能的提供高性能的I/O和易访问
13、的网络和易访问的网络 提高向量处置机性能的常用技术提高向量处置机性能的常用技术n链接技术链接技术n 向量指令的类型:向量指令的类型:n4321VjVkVin4321SjVkVi第一类向量指令第二类向量指令存储器7654321Vi存储器7654321Vi第三类向量指令第四类向量指令n向量运算中的相关和冲突n向量运算中的数据相关和功能部件冲突:采用顺序发射顺序完成方式(1) 写读数据相关。(2) 读读数据相关,或向量存放器冲突。(3) 运算部件冲突。V0 V1V2 V3 V1V2V3 V4 * V5 V6 V4 +V5(a)不相关的指令 (b)功能部件的预定V3 V1V2 V0 V1V2V6 V1
14、*V5 V3 V1 + V5(c) 操作数存放器预定 (d)功能部件和操作数存放器的预定3、向量链接技术(chaining) 结果存放器能够成为后继指令的操作数存放器两条有数据相关的向量指令并行执行,这种技术称为两条流水线的链接技术。 例如:有如下3条向量指令:V3 AV2 V0V1V4 V2V3第一、二条指令没有数据相关和功能部件冲突,可以同时开场执行。第三条指令与第一、二条指令均存在写读数据相关,可以链接执行。浮点加71 2 3 4 5 6MemV0V1V2V3V41 2 3 4 5 61 2 3 4 5 6浮点乘n三种执行方式比较:n(1) 假设向量长度为N,三条指令采用串行方法执行的时
15、间为:(1+6+1)+N-1+(1+6+1)+N-1+(1+7+1)+N-1 = 3N+22 拍n(2) 假设前两条指令并行执行,第三条指令串行执行,那么执行时间为:(1+6+1)+N-1+(1+7+1)+N-1= 2N+15 拍n(3) 假设采用链接技术,那么执行时间为:(1+6+1)+(1+7+1)+(N-1)=17+N-1=N+16 拍n实现链接的条件:n(1) 没有向量存放器冲突和运算部件冲突。n(2) 只需第一个结果送入向量存放器的那一个周期可以链接。n(3) 先行的两条指令产生运算结果的时间必需相等。n(4) 两条向量指令的向量长度必需相等。当向量的长度大于向量存放器的长度时,必需
16、把长向量分生长度固定的段,采用循环构造处置这个长向量,这种技术称为向量循环开采技术,也称为向量分段开采技术。例如:A和B为长度N的向量。for (i=1; iN; i+) ai=5*b(i)+c;当N为当N为64或更小时,产生A数组的7条指令序列是:1:S15.0在标量存放器内设置常数2:S2C 将常数C装入标量存放器3:VLN 在VL存放器内设置向量长度4:VoB 将B向量读入向量存放器5:V1S1 Vo B数组的每个分量和常数相乘6:V2S2V1 C和5 B(x)相加7:AV2将结果向量存入A数组向量循环开采技术向量循环开采技术向量处置机主要出自美国和日本。美国著名的向量计算机公司有:CR
17、AY、CDC、TI等日本公司有:NEC、Fujitsu、Hitachi等6.4 向量处置机实例(自学)机器型号美国和日本制造的向量处置机Cray IS配置特点有10条流水线的单处置机,12.5ns,COS/CF7 2.1第一台基于ECL的超级计算机,1976年问世Cray2S/4-256256M字存储器的4台处置机,4.lns, COS或UNIX/CF77 3.016K字的本地存储器,移植了UNIXV,1985问世向量处置机的历史与现状向量处置机的历史与现状机器型号Cray X-MP 416配置特点16M字存储器的4台处置机,128M字SSD, 8.5ns, COS CF77 5.0运用共享存
18、放器组用于IPC,1983年问世Cray Y-MP 832128M字存储器的8台处置机, 6ns, CF77 5.0XMP的改良型,1988年问世每台处置机2条向量流水线, 16台处置机, 4.2ns, Unicos/CF77 5.0CrayY-MPC-90最大的Cray机器1991年问世机器型号CDC Cyber 205配置特点有4条流水线的单处置机, 20ns, 虚拟OS/FTN200存储器到存储器系统构造,1982年问世ETA 10E单处置机, 10.5ns, ETAV/FTN 200Cyber 205的后继型号,1985年问世每台处置机4组流水线, 4台处置机, 2.9ns, F77S
19、X,22GflopsNECSX-X/441991年问世机器型号Fujitsu VP2600/10配置特点5条流水线的单处置机和双标量处置机, 3.2ns, MSP. EX/F77 EX/VP运用可重构微向量存放器和屏蔽,1991年问世512MB存储器,18条流水线的单处置机,4ns,FORT77/HAPV23-OCHitachi 820/8064个通道,最大传输速率288MB/S,1988年问世Cray Y-MP 816由1至8台处置机组成,多个处置机共享中央存储器、I/O子系统、处置机通讯子系统和实时钟。中央存储器由256个交叉访问的存储体组成。每个处置机对4个存储器端口的交叉访问。CPU的
20、时钟周期为6ns。4个存储器端口允许处置机同时执行两个标量和向量取操作、一个存储操作和一个独立的I/O操作。CRAY Y-MP向量处置机n每个CPU由14个功能部件组成,分为向量、标量、地址和控制四个子系统。n运用了大量地址存放器、标量存放器、向量存放器、中间存放器和暂时存放器。n可以实现功能流水线灵敏的链接。nI/O子系统支持三类通道,传输速率分别为6兆字节/秒,100兆字节/秒和1G字节/秒。CPU2CPU8CPU7CPU6CPU5CPU4CPU3中央寄存器处理机之间通信实时钟(64位)V寄存器8个寄存器每个V寄存器有64个64位分量寄存器T寄存器(8个64位寄存器)A寄存器(8个32位寄
21、存器)B寄存器(8个32位寄存器)S寄存器(8个64位寄存器)屏蔽寄存器(64位)向量长度(8位)指令缓冲区(512个16位指令区)交换参数寄存器指令输出发送寄存器可编程时钟(32位)I/O控制向量功能部件加/减、移位、逻辑(64位运算)标量功能部件加/减、移位、逻辑(32位运算)浮点功能部件加/减、倒数、乘、近似(64位运算)地址功能部件加/减、乘(32位运算)性能监控器状态寄存器外部设备I/O部分CPU1控制部分地址部分标量部分向量部分n以通用中小型机,或微机作为主机;向量处置部件作为外围设备,加速向量的处置速度。n向量协处置器是为中小型用户设计的,处文科学计算中大量向量处置义务的一种安装
22、。n与各种不同主机相连的向量协处置器,价钱和功能的变化范围很大。nFPS-164是最典型的向量协处置器,美国浮点系统公司消费。每个向量处置器有两个乘加部件,两组向量存放器,两组标量存放器。向量协处置器n每个乘加部件每个周期能输出一个结果。n向量存放器:2组?4个?个操作数,每个操作数个字节。n运算过程:标量处置器把原始数据装入向量存放器,把标量数据和指令广播到全部向量处置器。向量处置器就同步地运算,但它们处置的数据是各不一样的。n向量操作可以和标量处置器中的标量操作同时进展。n向量协处置器特别适宜于大规模的数值处置,用户购买需求台数的向量处置器,运用现有的处置机作为主机。标量运算部件协处置器主
23、存储器120 MB地址存放器间址存放器向量处置器向量处置器向量处置器标量存放器X存放器组Y存放器组向量存放器乘法流水线加法流水线与主计算机衔接FPS-164向量协处置器构造图衡量向量处置机性能的主要目的有: 向量指令处置时间Tvp、 最大性能R、半性能向量长度n1/2等。1、向量指令处置时间Tvp 执行一条向量长度为n的向量指令的时间Tvp表示为: TvpTs + Tvf + (n - 1) Tc 其中:Ts为向量流水线的建立时间。 Tvf为向量流水线的流过时间。 Tc为流水线“瓶颈段的执行时间。假设每段执行时间都等于一个时钟周期,那么有: Tvps + e + (n - 1) t其中:s为向
24、量流水线建立时间所需的时钟周期数。e为向量流水线流过时间所需的时钟周期数。 n为向量长度。t为时钟周期长度。把几条能在一个时钟周期内同时开场执行的向量指令称为一个编队,同一个编队中的指令一定不存在功能部件冲突和数据相关。6.5 6.5 向量处置机的性能评价向量处置机的性能评价例例1:假设一台向量处置机中功能部件的启动开销为:取:假设一台向量处置机中功能部件的启动开销为:取数和存数部件为数和存数部件为12个时钟周期、乘法部件为个时钟周期、乘法部件为7个时钟周期个时钟周期、加法部件为、加法部件为6个时钟周期。先把序列向量操作分成编队个时钟周期。先把序列向量操作分成编队,然后计算每个编队的开场时间、
25、获得第一个结果元素,然后计算每个编队的开场时间、获得第一个结果元素的时间和获得最后一个结果元素的时间。的时间和获得最后一个结果元素的时间。LV V1, Rx ;取向量;取向量x MULTSV V2, F0, V1 ;向量和标量相乘;向量和标量相乘LV V3, Ry ;取向量;取向量YADDV V4, V2, V3 ;加法;加法SV Ry, V4 ;存结果;存结果解:第一条指令解:第一条指令LV为第一个编队。为第一个编队。MULTSV指令和第二指令和第二条条LV指令为第二个编队。指令为第二个编队。ADDV指令为第三个编队。指令为第三个编队。SV指令为第四个编队。指令为第四个编队。 假设采用向量链
26、接技术不思索访问存储器的冲突,需求:12 + 7 + 6 + 12 + n 136 + n个周期。假设思索向量长度大于向量存放器长度时,那么需求分段开采。向量长度为n的一组向量操作的整个执行时间为:其中:Tloop为执行标量代码的开销,Tstart为每个编队的向量启动开销,MVL是向量存放器的长度。 Tloop可以看作是一个常数,Cray 1机的 Tloop 约等于15。例2:在一台向量处置机上实现ABs操作,其中A和B是长度为200的向量,s是一个标量。向量存放器长度为64。各功能部件的启动时间与上例一样。求总的执行时间。chimestartloopnTnTTMVLnT解:由于向量长度超越了
27、向量存放器的长度,所以要采取分解:由于向量长度超越了向量存放器的长度,所以要采取分段开采方法。每次循环主要由下面三条向量指令组成:段开采方法。每次循环主要由下面三条向量指令组成:LV V1, Rb;取向量;取向量BMULTVS V2, V1, Fs;向量和标量相乘;向量和标量相乘SV Ra, V2;存向量;存向量假设假设A和和B的分别放在的分别放在Ra和和Rb之中,之中,s在在Fs中。中。三条指令之间存在有写读数据相关,因此必需把它们三条指令之间存在有写读数据相关,因此必需把它们分成分成3个编队,个编队,Tchime= 3。T2004(15 + Tstart) + 2003 604Tstart+ 600 6604Tstart其中:其中:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025 高中信息技术数据与计算之算法的偏微分方程数值解法课件
- 2025 高中信息技术数据与计算之数据安全的量子加密移动支付应用课件
- 2026年春季火灾隐患排查整治工作方案与实施指南
- 2026年水电联产集成系统经济效益随产水量变化趋势分析
- 畜禽良种繁育技术与实践应用
- 2026年海上大规模压裂作业每分钟泵注12立方米砂浆实现路径
- 2026年商贸流通数据融合与智能供应链协同系统
- 2026年宁德时代九座零碳工厂四位一体解决方案
- 2026年度国家自然科学基金企业创新发展联合基金项目指南(第二批)全文
- 2026年合成生物技术助推医药产业创新发展路径
- 《消防训练基地建设标准》建标190-2018
- 母线槽的安装施工技术要求
- 普通地质学课件-第三章-岩浆岩
- 北京市房屋质量缺陷损失评估规程及条文说明
- 青春期性生理发育与性问题
- 掘进机工程机械类外文翻译、中英文翻译
- GB/T 5754.1-2015钢丝绳芯输送带纵向拉伸试验第1部分:伸长率的测定
- GB/T 3690-2017织物芯输送带全厚度拉伸强度、拉断伸长率和参考力伸长率试验方法
- GB/T 11334-2005产品几何量技术规范(GPS)圆锥公差
- 《教师专业发展》课件
- 现代汉语语法(2)短语课件
评论
0/150
提交评论