版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章计算机系统结构的基本概念【学习指南】一.本章是全书的基础,所以要透切理解本章所介绍的基本概念,例如计算机系统层次结构,系统结构定义,计算机组成定义,计算机实现定义,系统结构、组成与实现的三者关系,透明性,Amdahl定律,CPU性能公式,局部性原理,MIPS定义,MFLOPS定义等等。1 .计算机系统由硬件和软件组成,按功能划分为多级层次结构。2 .计算机系统结构作为一门学科,主要是研究软件,硬件功能分配和对软件、硬件界面的确定,即哪些功能由 软件完成,哪些功能由硬件完成。计算机系统结构,计算机组成和计算机实现是三个不同的概念。计算机系统结 构是计算机系统的软硬件的界面;计算机组成是计算
2、机系统结构的逻辑实现;计算机实现是计算机组成的物理实现。3 .计算机系统结构的分类(1) 通常把计算机系统按照其性能和价格的综合指标分为巨型、大型、中型、小型、微型等。(2) 按用途可分为科学计算、事务处理、实时控制、家用等。(3) 按处理机个数和种类,可分为单处理机、多处理机、并行处理机、关联处理机、超标量处理机、超流 水线处理机、SMP (对称多处理机)、MPP (大规模并行处理机)、机群系统等。(4)Flynn分类法。按照指令流和数据流的不同组织方式,将计算机系统结构分为以下四类: 单指令流单数据流 单指令流多数据流 多指令流单数据流 多指令流多数据流SISD (Single Instr
3、uction stream Single Datastream )SIMD (Single Instruction stream Multiple Datastream ) MISD ( Multiple Instruction stream Single Datastream ) MIMD ( Multiple Instruction stream Multiple Datastream )(5)冯式分类法。提出用最大并行度对计算机系统结构进行分类。分为: 字串位串WSBS 字并位串WPBS 字串位并WSBP 字并位并WPBP4 .计算机系统设计的定量原理 (1)加快经常性事件的速度(Wor
4、d Serial and Bit Serial )(Word Parallel and Bit Serial )(Word Serial and Bit Parallel )(Word Parallel and Bit Parallel )(Make the common case fast)。(2) Amdahl定律:系统中某一部件由于采用某种更快的执行方式后整个系统性能的提高与这种执行方式的 使用频率或占总执行时间的比例有关。Fe表示(改进前可改进部分占用的时间)/ (改进前整个任务的执行时间),Se表示(改进前改进部分的执行时间)/ (改进后改进部分的执行时间),则: 改进后的整个任务的
5、执行时间为:FeTn =T0(1 - Fe +),其中T0为改进前的整个任务的执行时间。Se改进后的整个系统加速比为:(3) CPU性能公式。CPU时间=CPU时钟周期数/频率;CPU时间=CPU时钟周期数*时钟周期长;平均时钟周期数 CPI=CPU时钟周期数/IC (指令的条数);CPU 时间=(IC*CPI ) /频率 f;时间局部性、空间局5系统结构的评价标准(1)性能(4)访问的局部性原理。 部性。MIPS ( Million Instructions Per Second )MIPS =指令条数 _ f执行时间*106 -CPI * 106MFLOPS (Million Floati
6、ng point Operations Per Second )MFLOPS =程序中的浮点操作次数执行时间*106 用基准测试程序来测试评价机器的性能。 综合基准测试程序。(2)性能比较 总执行时间。 加权执行时间。(3)成本 成本指标。 硬件考虑。6.冯?诺依曼计算机的特征可概括为:(1)存储器是字长固定的、顺序线形编址的一维结构。(2)存储器提供可按地址访问的一级地址空间,每个地址是唯一定义的。(3)由指令形式的低级机器语言驱动。(4)指令的执行是顺序的,即一般按照指令在存储器中存放的顺序执行,程序分支由转移指令实现。(5)机器以运算器为中心,输入输出设备与存储器之间的数据传送都途经运算
7、器。运算器、存储器、输入 输出设备的操作以及它们之间的联系都由控制器集中控制。二.通过做例题和习题,会做下列类型的计算题:(1).有效(平均)CPI计算题假设在一台40MHZi理机上运行200,000条指令的目标代码,程序主要由四种指 令组成。根据程序跟踪实验结果,已知指令混合比和每种指令所需的指令数如下。计算在单处理机上用跟踪数据运行程序的平均 CPI,并根据所得的CPI,计算相应的MIPS速率。 指令类型CPI指令混合比算术和逻辑160%高速缓存命中的加载/存储218%转移412%高速存储缺失的存储器访问810%解CPI = 1*60% + 2*18% + 4*12% + 8*10% =
8、2.24MIPS = f/(CPI*106) = (40*10 6)/(2.24*10 6) = 17.86 (2)Amdahl 定律应用20题假定我们利用增加向量处理模块来提高计算机的运算速度。计算机处理向量的速度比其通常的运算要快 倍。我们将可用向量处理部分所花费的时间占总时间的百分比称为可向量化百分比。1)求出加速比S和可向量化百分比 F之间的关系式。2)当要得到加速比为 2时的可向量化百分比 F为多少?解1)2)由上式,将S=2代入得:F = 10/19 = 0.53第二章指令系统【学习指南】一.首先透切理解以下基本概念:数据结构、数据表示、寻址技术、RISC指令系统、CISC指令系统
9、1 .指令系统(Instruction Set Architecture, ISA)是计算机系统中软件与硬件的接口;主要研究数据表示、 寻址方式等内容。2 .数据表示(1)基本的数据表示方法,包括定点数、逻辑数、浮点数、字符、字符串、堆栈等,以及一些新的数据表示方法和在数据表示方面的新的研究成果,如自定义数据表示、带标志符的数据表示法、数据描述符表示法及浮点数表示方面的研究成果等;(2)数据表示的原则: 缩短程序的运行时间 减少CPUT主存储器之间的通信量 数据表示的通用性和利用率(3)计算机内浮点数的表数范围、表数精度和表数效率,浮点数尾数基值的选择(4)浮点数的性质和设计方法(5)运用浮点
10、数进行四则运算3 .寻址方式(1)寻址技术研究的主要内容包括编址方式、寻址方式和定位方式等, 研究的对象主要有寄存器、主存储器、堆栈和输入输出设备等,其中以面向主存储器的寻址技术为主要研究对象;(2)编址方式是指对各种存储设备进行编码的方法,主要包括编址的单位、零地址空间的个数等;(3)寻找操作数及数据存放单元的方法称为寻址方式。在分析各种寻址技术优缺点的基础上,重点是能够在计算机系统中如何选择和确定采用哪种寻址技术;(4)程序的定位是指把指令和数据的逻辑地址(相对地址)转换成主存储器的物理地址(绝对地址)。定位方式可分为三种:直接定位、静态定位和动态定位。4.指令格式的优化设计(1)指令格式
11、优化设计的主要目标有两个,一是节省程序的存储空间,二是指令格式要尽量规整,以减少硬件译码的复杂程度。指令格式优化后,不应该降低指令的执行速度。(2)操作码的表示方法通常有三种:固定长度操作码、Huffman编码法和扩展编码法。要重点掌握Huffman编码法和扩展编码法;(3)固定长操作码的主要优点:规整,译码简单;主要缺点:浪费信息量(操作码的总长位数增加)(4)采用最优Huffman编码法操作码的最短平均长度可以通过如下公式计算:nH =-Z pi log2 pi其中:Pi表示第i种操作码在程序中出现的概率 i W固定长操作码相对于 Huffman操作码的信息冗余量为:采用Huffman编码
12、法操作码的最短平均长度可以通过如下公式计算:Huffman操作码的主要缺点: 操作码长度很不规整,硬件译码困难 与地址码共同组成固定长的指令比较困难(5)扩展编码法:由固定长操作码与Huffman编码法相结合形成;(6)缩短地址码长度的方法目标:用一个短的地址码表示一个大的逻辑地址空间 用间址寻址方式缩短地址码长度在主存储器的低端开辟一个专门存放地址的区域, 用变址寻址方式缩短地址码长度由于程序的局部性,变址寻址方式中的地址偏移量比较短, 用寄存器间接寻址方式缩短地址码长度,很有效的方法5.指令系统的功能设计(1)指令系统功能设计要求:完整性、规整性、高效率和兼容性;(2)基本指令系统包括数据
13、传送类指令、运算类指令、程序控制类指令、输入输出指令、处理机控制和调试指令;(3)指令系统的优化设计有两个截然相反的方向: 复杂指令系统计算机 CISC (Complex Instruction Set Computer )1)增强指令功能,设置功能复杂的指令2)面向目标代码、面向高级语言、面向操作系统3)用一条指令代替一串指令 精简指令系统计算机 RISC ( Reduced Instruction Set Computer)1)只保留功能简单的指令2)功能较复杂的指令用子程序来实现(4) RISC与CISC各自的特点和相互比较(5) RISC的关键技术 延迟转移技术, 指令取消技术 重叠寄
14、存器窗口技术 以硬件为主固件为辅二.通过做例题和习题,会做下列类型的计算题:(1)浮点数表示题在浮点数的尾数用原码、小数表示,阶码用移码、整数表示,尾数基值re = 2,阶码基值re=2, 阶码字长q=7,尾数字长p = 55,尾数符号和阶码符号各一位,总字长为 64位。这种浮点数表 示方式的各项主要性能如下:解:能表示的最大尾数值:(1-m-)=(1-25),即尾数数值部分的所有55个二进制位全部为都1;11绝对值最小的尾数值: 丁=不,尾数数值部分除最高一个二进制位为 1之外,其余54个二进 rm 2制位全部为0;能表示的最大阶码:req-1=27 -1=127 ,包括阶码符号位在内的所有
15、8个二进制位全部为1;能表示的最小阶码:-req = -27 = -128 ,包括阶码符号位在内的所有 8个二进制位全部为0;最大正数:(1-白韦科凶=(1-2巧227-1 = (1-2巧2127=1.70父1038;,27最小正数:工 +q2= 2/29 = 147 M 10,9 ;rm 1227最大负数:_25一阳=_12 =-229 = -147父10*9 ;rm 12最小负数:-(1-mf)"凶-(1-2 巧 227T = -(1-2巧 2127 = - 1.70父 1038;存储系统【学习指南】一.首先透切理解以下基本概念:存储系统的定义、存储系统的性能参数、地址映象与变换
16、方法、虚拟存储器、Cache存储器、命中率、替换算法1 .提高存储器性能的主要方法有层次存储器、并行存储器等。2 .典型的并行存储器包括并行访问存储器、低位交叉存储器和高位交叉存储器。低位交叉存储器的特点是地址相邻的信息存放在不同(相邻)的存储体中。高位交叉存储器的特点是地址相邻的信息存放在同一存储体中。3 .所谓存储系统是指两个或两个以上速度、容量和价格各不相同的存储器用硬件、 软件、或软件与硬件相结合的方法连接起来而成的系统。这个系统对应用程序员透明,并且,从应用程序员看它是一个存储器,这个存 储器的速度接近速度最快的那个存储器,存储容量与容量最大的那个存储器相等或接近, 单位容量的价格接
17、近最便宜的那个存储器。程序访问的局部性原理是层次存储系统构成的基础。4 .存储器的主要性能参数:(1)存取时间:从CPliU第i层存储器的往返时间。(2)存储器容量:第i层的字节或字的数量。(3)每字节成本:(4)传输带宽: 相邻层之间传输信息的速率。(5)传输单位:相邻两层之间数据传输的粒度(如字、块、页等) 。5 .层次存储器性质(1)包含性:内层的信息必然包含于其外层。所有的信息最初放在最外层。在处理过程中,其子集被一步步复制到内层。(2) 一致性:同一个信息项在后继存储器层次上的副本是一致的。如果在缓存中的一个字被修改过,那么在所有高层上该字的副本也必须立即或最后加以修改。维护一致性的
18、两种策略:写直达和写回。前者指如果在内层中修改了一个字,在外层中必须立即加以修改。而后者的处理方法是:在外层中的修改延迟到内层中被修改的字被替换时才进行。(3)局部性: 时间局部性: 最近的访问项很可能在不久的将来再次被访问。 空间局部性: 一个进程所访问的各项其地址彼此很近。 顺序局部性:在典型程序中,除转移指令产生不按次序的转移外,指令都是顺序进行的。6 .层次存储系统的设计的目的是使有效存取时间接近于最内层存储器的存取时间,使总体的平均每字成本接近于最外层存储器的每字成本,容量接近于最大存储器的容量。本章主要论述两个二级层次存储系统cache和虚拟存储器。要解决的问题主要有:(1) 块/
19、页的定位问题。(2) 替换问题。(3) 一致性问题。(写无效和写更新)7 .虚拟存储器由主存储器和联机工作的外部存储器共同组成。虚拟存储器有段式、页式、段页式等地址映像与变换方法。加快内部地址变换的技术主要有目录表、快慢表、散列函数等。页面替换算法主要有RAND FIFO、LRU LFU口 OP停算法。8 . Cache的地址映像与变换方法有全相联、直接相联、组相联和段相联几种。Cache的替换算法有轮转法、FIFO、LRU LFLK比较对法和堆栈法。Cache的实现全部是由硬件完成的。9 .影响主存命中率的主要因素有:(1) 程序在执行过程中的页地址流分布情况(2) 所采用的页面替换算法(3
20、) 页面大小( 4) 主存储器的容量( 5) 所采用的页面调度方法。10. Cache的命中率主要与如下几个因素有关: 1) 1) 程序在执行过程中的地址流分布情况 2) 当发生Cach啾失效时,所采用的替换算法 3) Cache的容量 4) 4)在组相联映象方式中,块的大小和分组的数目11.解决Cache与主存的不一致性问题,首先要选择合适的Cache更新算法。一般有两种 Cache更新算法,写直达法和写回法。二 . 通过做例题和习题,会做下列类型的计算题:(1) . 层次存储系统命中率、价格计算题在一个Cache存储系统中,主存储器的访问周期、存储容量和单位价格分别为 60ns、64MBf
21、fi 10元/MB, Cache的访问周期、存储容量和单位价格分别为 10ns、512KBW 100元/MB, Cache的命 中率为 0.98。(1)计算这个Cache存储系统的等效访问周期、存储容量和单位价格。(2)计算这个Cache存储系统的访问效率。解:(1)这个Cache存储系统的等效访问周期:T =Tc H + Tm (1-H)=10ns x 0.98 + 60ns x (1 0.98) 二11ns等效存储容量:S =64MB等效单位价格:C = (Cc Sc + Cm Sm / (Sc + Sm)=(100X0.5 +10X 64) / (0.5 +64)= 10.7(元/MB)
22、(2)这个Cache存储系统的访问效率: e =Tc/T= 10/11 = 0.91(2) 三种映射框图 题 假定计算机的主存储器按64 块组织,块大小为8 个字。高速缓存有8 个块框。试画出采用以下映射方法从主存储器到高速缓存的映射关系。尽可能清楚地画出所有的映射线。(1) 直接映射。(2) 全想联映射。 解 ( 1)直接映射方式( 2)全联想映射方式第四章 输入输出系统【学习指南】一.透切理解以下基本概念:DMAM理、通道处理机原理、中断原理数组多路通道、选择通道、字节多路通道、外部设备、I/O 性能评价1 输入输出系统(1)在计算机系统中,通常把处理机和主存储器之外的部分称为输入输出系统
23、,它包括输入输出设备、输 入输出接口和输入输出软件等。(2)输入输出系统的特点是异步性、实时性和设备无关性。(3)基本的输入输出方式有三种:程序控制输入输出方式、直接存储器访问方式( DMA )和中断输入输出 方式。(4)程序控制输入输出方式完全受CPU控制,数据的输入输出都要经过CPU,用于连接低速外围设备。(5)直接存储器访问方式(DMA )主要用于连接高速外围设备,它使得存储器既可被CPU访问,也可被外围设备访问。目前使用的DMA方式主要有三种:周期窃取方式、直接存取方式和数据块传送方式。(6)中断输入输出方式使得 CPU与外围设备可以并行工作,并可以处理例外事件。中断方式常用于连接低
24、速外围设备。2 .中断系统(1)中断系统通常由硬件和软件同时实现。软硬件的功能分配决定了中断响应时间。(2)中断响应时间是指从一个中断源向处理机发出中断服务请求开始,到处理机实际开始执行这个中断源 的中断服务程序时为止的时间。它由以下四个因素决定:最长指令执行时间、在一条指令执行完成后 处理其他更紧急的任务所用时间、从第一次关中断到第一次开中断所需的时间、找到中断服务程序入 口所需的时间。(3)中断源的识别有几种方法。最简单的一种方法是查询法,灵活性好,但速度慢。串行排队链法和中断 向量法用软硬件相结合的方法来实现中断排队,速度快,但灵活性和可靠性差。独立请求法克服了串 行排队链法可靠性差的缺
25、点,但灵活性差的缺点依然存在。(4)根据中断的紧迫性、设备的工作速度、数据恢复的难易程度和要求处理机提供的服务质量等,把中断 源分为优先程度不同的几个级别,称为中断源的优先级。处理机在执行某一个中断源的中断服务程序 时,只能响应比它优先级高的中断请求,不能响应与它同级或低级的中断请求。(5)为提高中断系统的灵活性,可以动态地改变中断源的优先级,这就需要设置中断屏蔽。设置中断屏蔽 还可以决定设备是否采用中断方式工作,或在多处理机系统中把中断请求分配到不同的处理机中。(6)中断屏蔽的实现方法主要有两种:一是为每个或每级中断源都设置一个中断屏蔽位,二是改变处理机 的优先级。3 .通道处理机(1)在大
26、型计算机系统中, 为把对外围设备的管理工作从CPU中分离出来,普遍采用通道处理机技术。采用通道方式组织的输入输出系统,多采用主机一一通道一一设备控制器一一IO设备四级连接方式。通道通过执行通道程序实现对 IO系统的统一管理和控制。在 CPU启动通道后,通道自动地去内存取出 通道指令并执行指令。直到数据交换过程结束向CPU发出中断请求,CPU才进行通道结束处理工作。(2)通道可分为三类:字节多路通道、选择通道和数组多路通道。字节多路通道常用于连接低或中速的设 备,选择通道和数据多路通道用于连接高速设备。(3)对于以上的三种通道,当每个通道上连接有P台外围设备,每台设备都传送n个字节时,总共所需的
27、时间分别为:T BYTE = (Ts + Td) *P * nTselect = (Ts / n + Td) * P * nTblock = (Ts / n + Td)P n其中Ts指设备选择时间,Td指传送一个字节所需的时间。(4)通道的流量是指一个通道在数据传送期间内,单位时间内能够传送的最大数据量。一个通道在满负荷 工作下的流量称为通道最大流量。三种通道的最大流量计算公式如下:f MAX (BYTE = (P .n) / (Ts + Td) * P * n = 1/ (Ts + Td)f MAX DELETE = (P , n) / (Ts / n + Td) * P * n = 1 /
28、 (Ts / n + Td)f MAX /LOCK = (P * n) / (Ts/ k + Td) P n = 1 / (Ts / k + T d)(5)字节多路通道的实际流量是指连接在这个通道上的所有设备的数据传输率之和。而选择通道和数据多 路通道的实际流量是指连接在这个通道上的所有设备数据传输率的最大值。PfBLOCK = max fii 14 .输入输出处理机在大型、巨型计算机系统中, 常采用输入输出处理机来分担中央处理机的输入输出任务。输入输出处理机是一台独立的处理机,具有一定的运算功能,它具有自己的存储器,不必通过主存储器就能完成与外围设备的数据交换, 大大提高了系统性能。二.通过
29、做例题和习题,会做下列类型的计算题:(1)字节多路通道实际工作流量、通道最大流量和工作周期设计(2)中断响应和中断处理时间的计算题一个字节多路通道连接 D1、D2、D3、D4、D5共5台,这些设备分别每 10ms、30ms、30ms、50ms和75ms 向通道发出一次数据传送的服务请求。a)计算这个字节多路通道的实际流量和工作周期。b)如果设计字节多路通道的最大流量正好等于实际流量,并假定对数据传输率高的设备,通道响应它的数据传送请求的优先级也高。5台设备在0时刻同时向通道发出第一次传送数据的请求,并在以后的时间里按照各自的数据传输率连续工作。 画出通道分时为各台设备服务的时间关系图,并计算这
30、个字节多路通道处理完各台设备的第一次数据传送请求的时刻。c)从时间关系图上发现什么问题?如何解决这个问题?解a)这个字节多路通道的实际流量为fBYTE = ( 1/10 + 1/30 + 1/30 + 1/50 + 1/75 ) = 0.2 (MB/s )。通道的工作周期为t = 1/f = 5 ms/B,包括通道选择设备的时间Ts和为设备传送一个字节所用的时间Td。 b) 5台设备向通道请求传送数据和通道为它们服务的时间关系如图所示。向上的箭头表示设备的数据传送请求,有阴影的长方形表示通道响应设备的请求并为设备服务所用的时间间隔,包括通道选择设备的时间和为设备传送一个字节所用的时间,这两部分
31、时间之和为5ms。在图中,5台设备在0时刻同时向通道发出第一次传送数据的请求,通道处理各个设备第一次请求时间如下:处理完设备D1的第一次请求的时刻为 5ms;处理完设备D2的第一次请求的时刻为 10ms;处理完设备D3的第一次请求的时刻为 20ms;处理完设备D4的第一次请求的时刻为 30ms;设备D5的第一次请求没有得到响应,直到第85ms通道才开始响应设备 D5的服务请求,这时,设备已经发出了两个传送数据的服务请求,因此,第一次传送的数据有可能要丢失。通道分时为D1D5各台设备服务的时间关系图c)当字节多路通道最大流量与连接的设备数据流量之和非常接近时,如果传输速度高的设备频繁发出服务请求
32、, 并且优先得到响应,那么某些低速设备可能在很长的一段时间内得不到响应。可采取以下几种方法:1)增加通道的最大流量。2)动态改变设备的优先级,如在3070ms之间临时提高设备 D5的优先级。3)增加一定数量的数据缓冲器,特别是对优先级比较低的设备。第五章标量处理机与流水线【学习指南】一.首先透切理解以下基本概念:数据相关、控制相关、资源冲突、静态流水线、动态流水线、流水线吞吐率、流水线效率、流水线加速比、多发射、超标量流水线、超流水线、超标量超流水线1. 流水线的原理、特点及其分类。流水线方式是把一个重复的过程分解为若干个子过程,每个子过程可以和其他的子过程同时进行,即所谓的时间并行性。 流水
33、线的工作可以用时空图来描述。流水线有以下的特征:为了提高流水线的效率,应该尽可能的为流水线提供连续的任务;流水线由很多相联的功能段组成,为了平衡功能段之间的速度差,功能段之间需要设置缓冲寄存器;流水线中每个功能段的时间应该尽量相等,以免形成“瓶颈”,否则应该对功能段再划分或者采用多个功能部件;流水线需要装入 和排空时间,只有在流水线完全充满时,它才能充分发挥效率。根据不同的角度,流水线可以被划分成 以下的类别:线性流水线,非线性流水线;指令流水线,运算操作流水线,宏流水线;单功能流水线,多功能流水线;静态流水线,动态流水线等。TP定2. 流水线的性能分析。衡量流水线性能的主要指标有吞吐率,加速
34、比,效率。流水线的吞吐率 义为单位时间内流水线所完成的任务数量或者输出的结果数量,基本公式如下:n为任务数,Tk是完成n个任务所用的时间。TP TkS=T0Tk流水线的加速比 S指完成一批任务,不使用流水线所用的时间与使用流水线所用的时间之比称为流水 线的加速比:其中T0指顺序执行所用的时间,Tk时使用流水线的执行时间。n个任务占用的时空流水线的效率E是指流水线的设备利用率,在时空图上,流水线的效率定义为 区与k个功能段总的时空区之比。n个任务占用的时空区E = :k个流水线的总的时空区二.通过做例题和习题,会做下列类型的计算题:(1)画时空图(这是本章计算题的基础,无论是否要求画出时空图,建
35、议画出时空图,这对计算其他参数都 有好处)(2)流水线吞吐率、加速比和效率的计算题假设一条指令的执行过程分为“取指令”、“分析”和“执行”三段,每一段的时间分别为&、2母和3 Ato在下各种情况下,分别写出连续执行n条指令所需要的时间表达式。(1)顺序执行方式。(2) “取指令”、“分析”和“执行”重叠。解(1)顺序执行时每条指令用时 =也+2 &+3 &=6出,因此n条指令所需要的时间=6n* &(2)第一条指令完成需要时间 =曲+2&+3&=6&,由于一条指令的“取指令”和“分析”阶段和下一条指 令的“执行”阶段重叠,因此,此后每3i
36、t完成一条指令,余下的 n-1条指令用时(n-1)*3 At.因此n条指令所需要的时间 =6#+(n-1)*3 At=3(n+1) At题一动态多功能流水线由6个功能段组成,如下图:其中:si、S4、S5、S6组成乘法流水线,S1、S2、S& S6组成加法流水线,各个功能段时间均为50ns。假定该流水线的输出结果可以直接返回流水线输入端,而且设置有足够的缓冲寄存器。若按照最快的方式用该流水5线计算 f =X xi yi zi。 i 1(1)请画出其处理过程的时空图。(2)计算其实际吞吐率,加速比和效率。解 :乘法操作用到的流水段有:S1、S4、S5、S6;加法操作用到的流水段有:S1、
37、S2、S3、S6。以最快的方式处理的流水线时空图如图所示:(2) : A部分所处理的是Oj =口xiyi ; B部分所处理的是qi =Yoizi; C部分所处理的是f =£ qi 。整个处理过程共需 22个时钟周期。而进行了 14次不同的运算,所以其实际吞吐率为:这些运算串行处理所需要的时钟周期为56个时钟周期,所以其加速比为:一、,56效率为:S = =42.4%22 6第六章向量处理机【学习指南】一.首先透切理解以下基本概念:向量、向量处理三种算法、向量处理机两种结构、链接、向量指令处理时间、最大性能R、半性能向量长度1 .把N个互相独立的数叫做“向量”,对这样一组数的运算叫做“
38、向量处理”。一条向量指令可以处理 N个或N对操作数。2 .向量处理的方式(1) .横向处理方式:向量计算是按行的方式从左至右横向进行。(2) .纵向处理方式:向量计算是按列的方式自上而下纵向进行。(3) .纵横处理方式:横向处理和纵向处理相结合的方式3 .向量处理机一般有如下两种结构:(1) .利用几个独立的内存模块来支持对相互独立的资料的并发访问,从而达到所要求的内存带宽,即在储器一存储器结构。在运算流水线的输入端和输出端增加了缓冲器以便消除争用内存的现象。(2) .构造一个具有所要求带宽的高速中间内存,并能实现该高速中间内存与主存储器之间的快速资料交换,即寄存器一寄存器结构。设计这种系统结
39、构的主要思想是使操作数离处理器很近,以保证处理器一直处 于忙状态。中间内存提供给处理器快速存取的资料,而成本又比较低。4 .提高向量处理机性能的常用技术(1) . 链接技术(2) .向量循环或分段开采技术5 .向量指令的处理时间Tvp =Ts Tvf(n-1)Tc其中,Ts为向量流水线的建立时间,它包括向量起始地址的设置、计数器加1、条件转移指令执行等。 Tvf为向量流水线的流过时间,它是一条指令从开始译码到流过流水线得到第一个结果元素的时间。Tc为流水线“瓶颈”段的执行时间。一组向量操作的执行时间主要取决于下面三个因素:向量的长度、向量操作之间是否存在流水功能部件的冲突和数据的相关性。9 最
40、大性能 R”表示当向量长度为无穷大时的向量流水线的最大性能。常在评价峰值性能时使用,单位为 MFLOPS。它可表示为:手_ ,浮点运算次数一时钟频率. 循环所花费的时钟周期 数因为分子的值与n无关,所以-小浮点运算次数m时钟频率浮点运算次数父时钟频率Rlim循环所花费的时钟周期 数Tn |lnm 7它表示为建立流水6. n1/2为达到一半R”值所需的向量长度。它是评价向量流水线建立时间对性能影响的参数。 线而导致的性能损失。二.通过做例题和习题,会做下列类型的计算题:(1)判别并行、链接的条件(2)计算向量处理时间题一台单处理机可以以标量方式运行,也可以以向量方式运行。在向量方式情况下,计算可
41、比标量方式快9倍。设某基准程序在此计算机上运行的时间为To另外,已知T的25%用于向量方式,其余的时间则以标量方式运行。(1)计算在上述条件下与完全不用向量方式条件下相比的加速比,并计算上述程序中向量化代码所占的比例«。(2)假设我们改进硬件使向量方式与标量方式之间的速度比加倍,试计算可达到的加速比。(3)如果要达到与(2)相同的加速比,用的方法是改进编译器,而不是改进硬件,那么,用向量化编译器 支持同样的基准程序,其新的向量化比率是多少?解(1)由于T中向量化代码所占的时间为0.25T,则串行代码用时=T-0.25T=0.75T ,所以完全不用向量方式执行该段代码用时=0.75T+
42、9*0.25T=3T,因此加速比=3T/T=3.根据Amdahl定律.-13 =;所以豆=75%a1 -: 一9(2)加速比=1 -0.75075 =3.43;18,一一八1一, 由题意:3.43 =;因此« = 80%a1 一二一9第七章互连网络【学习指南】一.首先透切理解以下基本概念:互连网络的作用、静态网络、动态网络、存储转发寻径、虫蚀寻径、线路开关 寻径、虚拟直通寻径1. 互连网络基本概念(1)互连网络互连网络是一种由开关元件按照一定拓扑结构和控制方式构成的网络,用来实现计算机系统内部多个处理机或多个功能部件之间的相互连接. (2)互连函数为了反映不同互连网络的连接特性,每种
43、互连网络可用一组互连函数来描述如果将互连网络的 N个输入端 和N个输出端分别用0,1,2,.,N-1来表示,则互连函数表示相互连接的输入端和输出端号之间的一一对应关系.或者说,存在互连函数f,在它的彳用下,输入i应与f(i)相连,这里0<=i<=N-1.表示互连函数常用两种方法 :函数表示法和 输入输出对应表示法.2. 互连网络的特性(1)网络规模:网络中结点数目;(2)结点度与结点相连的边数;(3)距离两结点间相连的最少边数;(4)网络直径:网络中任意两个结点间距离的最大值(5)等分宽度:网络被切成相等的两半时沿切口的最小边数(6)结点间线长:任两个结点间线的长度(7)对称性若从
44、任何结点看网络的拓扑结构都一样,则称该网络为对称网络.3. 网络的传输性能特性(1)频宽消息进入网络后,互连网络传输消息的最大速率,单位用bit/sec(或mb/s).(2)传输时间消息通过网络的时间,等于消息长度除以频宽;(3)" 飞行 " 时间消息的第一位信息到达接收方所花费的时间,它包括由于网络中转发或者其他硬件所引起的时延(4)传输时延它是消息在互连网络上所花费的时间,但不包括消息进入网络和到达目的结点后从网络接口硬件取出数据所花费的时间,它等于"飞行"时间和传输时间之和.(5)发送方开销处理器把消息放到互连网络的时间,包括硬件和软件所花费的时间
45、(6)接收方开销处理器把到达的消息从互连网络取出来的时间,包括软件和硬件所花费的时间.4. 互连网络分类( 1) 分类法 I静态互连网络:各结点间有专用连接通路且运行中不能改变的网络。动态互连网络:设置有源开关,可以根据需要借助控制信号对连接通路加以重新组合实现要求的通信模式的网络。( 2)分类法II共享介质网络:同一时间只允许一个设备进行存取;非阻塞网络:逻辑上的交叉开关网络,除非存在不同输入端口向同一输出端口发送消息;否则消息通信将不会阻塞;直接网络:指网络中的处理器是点到点连接的(静态网络)。间接网络:网络中的结点不是通过直接相连的通道进行消息通信,而是通过网络的开关机构进行;混合网络:
46、指一个互连网络中混合了多种以上网络。5. 消息传递机制( 1) 消息寻径方式线路交换存储转发寻径虚拟直通虫蚀寻径( 2) 死锁和虚拟通道虚拟通道虚拟通道是两个结点间的逻辑链,它是由源结点的片缓冲区, 结点间的物理通道以及接收结点的片缓冲区组成.死锁的产生和避免缓冲区或通道上的循环等待可能产生死锁.利用虚拟通道可以解决死锁6. 流控制策略( 1)包冲突的解决用缓冲实现虚拟直通阻塞策略扬弃并重发策略阻塞后绕道( 2)确定寻径和自适应寻径7. 选播和广播寻径(1)单播:对应于一对一的通信情况,即一个源结点发送消息到一个目的结点.(2)选播:对应于一到多的通信情况,即一个源结点发送同一个消息到多个目的
47、结点(3)广播:对应于一到全体的通信情况,即一个源结点发送同一个消息到全部结点.(4)会议:对应于多到多的通信情况.8. 通道流量和通道时延通道流量和通道时延是描述效率常用的两个参数.优化的寻径网络应该能以最小流量和最小时延实现有关的通信模式.然而这两个参数并不是毫不相关的,达到最小流量同时不一定能达到最小时延,相反的情况也如此.二.通过做例题和习题,会做下列类型的计算题:(1)网络通信时延计算(2)网络通道流量计算题假设一个网络的频宽为10兆位/秒,发送方开销和接收方开销分别等于230微秒和270微秒。如果两台机器相距100米,现在要发送一个 1000字节的消息给另一台机器,试计算总时延。如
48、果两台机器相距 1000公里,那 么总时延为多大?解:光的速度为.5公里/秒,信号在导体中传递速度大约是光速的50%,所以“飞行”时间可以计算出来了。那么相距100米时总时延为:消息长度T=发送方开销+ “飞行”时间+ +接收方开销频宽= 230s0.1Km0.5 299792.5Km/s1000 8位+10兆兆/秒270s二 230s 0.67s 800s 250s二1301s相距1000公里时的总时延为:第八章并行处理机和多处理机【学习指南】一.首先透切理解以下基本概念:并行处理机基本结构、SIMD计算机基本结构、阵列处理机基本结构、IMD计算机的优缺点、共享存储多处理机、分布存储多处理机
49、、多处理机系统的特点、MPP SMP机群系统。1. SIMD计算机模型(1) SIMD计算机的抽象模型在同一个控制部件的管理下,有多个处理单元。所有处理单元均收到从控制部件广播来的同一条指令, 但操作对象是不同的数据。(2) SIMD计算机的操作模型SIMD计算机的操作模型用五元组表示:M =(N, C, I, M , R)。其中,五元组中各符号的含义:N-机器的处理单元(PE)数;C-由控制部件(CU)直接执行的指令集,包括标量和程序流控制指令;I-由CU广播至所有PE进行并行执行的指令集,包括算术运算、逻辑运算、数据寻径、屏蔽以及其他由每个活动的PE对它的数据所执行的局部操作;M- 屏蔽方
50、案集,其中每种屏蔽将PE 集划分为允许操作和禁止操作两种子集;R-数据寻径功能集,说明互连网络中PE 间通信所需要的各种设置模式。( 3)可以用上述五元组描述一台具体的SIMD 机器。(4) 4) SIMD 计算机处理单元的粒度:细粒度、中粒度。2. SIMD 计算机的基本结构( 1 )分布式存储器结构分布式存储结构的体系模型、工作原理和特点。( 2)共享存储器结构共享存储结构的体系模型、工作原理和特点。3. SIMD 计算机的特点(1) SIMD 计算机的实质是利用了多PE 的空间并行性来提高计算速度。(2) SIMD 计算机与流水线向量处理机的相同与不同。4. 多处理机结构由如何台独立的计
51、算机组成,每台计算机能够独立执行自己的程序,又称多指令流多数据流( MIMD )结构。多处理机系统中的处理机之间通过某种方式(如互连网络)互连,从而实现程序之间的数据交换和同步。5. 使用多处理机的主要目的是利用多台处理机并发地执行一个作业,使得执行速度比单处理机快;有时候,使用使用多处理机的主要目的是提高可靠性而不是高性能,如果某台处理机出现故障,那么它的程序可以由系统中其它处理机来执行。6. 多处理机有两种基本的结构:共享存储器结构和本地存储器结构。共享存储器方案中,存储器和I/O 设备是独立的子系统,为所有处理机所共享,这是实现信息交换和同步最简单的办法,任何两台处理机都可以通过共享存储
52、器的单元实现通信。本地存储器结构每台处理机都有自己的存储器和I/O 设备,处理机之间通过点对点的信息交换实现通信。7. 多处理机的主要特点包括:(1) 结构的灵活性。与SIMD计算机相比,多处理机的结构具有较强的通用性,它可以同时对多个数组或多个标量数据进行不同的处理,这要求多处理机能够适应更为多样的算法,具有灵活多变的系统结构。(2) 程序并行性。并行处理机实现操作一级的并行,其并行性存在于指令内部,主要用来解决数组向量问题;而多处理机的并行性体现在指令外部,即表现在多个任务之间。(3) 并行任务派生。多处理机是多指令流操作方式,一个程序中就存在多个并发的程序段,需要专门的程序段来表示它们的并发关系以控制它们的并发执行,这称为并行任务派生。(4) 进程同步。并行处理机实现操作级的并行,所有处于活动状态的处理单元受一个控制器控制,同时执行共同的指令,工作自然同步;而多处理机实现指令、任务、程序级的并行,在同一时刻,不同的处理机执行着不同的指令,进程之间的数据相关和控制依赖决定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 送配电线路检修工复测知识考核试卷含答案
- 球团原料工安全应急模拟考核试卷含答案
- 影视烟火特效员创新方法评优考核试卷含答案
- 重冶固体原料输送工安全专项模拟考核试卷含答案
- 2026年新科教版初中九年级科学下册第一单元生物遗传规律应用卷含答案
- 铸轧工安全检查模拟考核试卷含答案
- 重冶配液工风险评估与管理考核试卷含答案
- 武夷学院《C语言程序设计》课件-第1章C语言概述
- 新药临床试验中的多中心协作伦理规范
- 新材料行业职业病危害因素的识别与监测数据
- 2026年及未来5年市场数据中国戒烟产品行业市场深度研究及投资战略规划报告
- 简阳市中小企业融资担保有限公司2026年招聘金融科技部工作人员等岗位笔试参考题库及答案解析
- 2026上海市闵行区区管国企招聘42人备考题库含答案详解(精练)
- 输变电工程可行性研究内容深度规定(2025版)
- 2026中国疾病预防控制中心人事处招聘工作人员笔试备考试题及答案
- 2025年内蒙古鄂尔多斯市康巴什区事业单位考试题及答案解析
- 培训餐厅服务员
- 2026年工业无人机焊接技术报告
- 《城市体检工作手册》(试行)下载
- 2025年甘肃钢铁职业技术学院辅导员考试真题
- 屋顶光伏施工技术规范
评论
0/150
提交评论