计算机体系结构之流水线工作原理与分类(ppt 96页).ppt

上传人：朱*** IP属地：江西上传时间：2020-03-10 格式：PPT 页数：96 大小：2.60MB 积分：12 举报 版权申诉

已阅读5页，还剩91页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

北京邮电大学计算机系科学与技术系流水线基础 PipeliningBasic 王春露 Prof ChunluWang wangcl 流水线技术相关性分析技术超标量处理机超流水线处理机超标量超流水线处理机流水线技术流水线是很自然的洗衣店的例子 A B C D 均有一些衣务要清洗甩干折叠清洗要花30分钟甩干要用30分钟叠衣物也需要30分钟还要花费30分钟的时间将衣物放在衣柜里 A B C D 顺序操作洗4个人的衣物顺序操作需要8个小时如果使用流水线作业将需要多少时间呢 30 任务顺序时间 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 6下午 7 8 9 10 11 12 1 2上午流水线作业流水线作业洗4个人的衣物只需要3 5个小时任务顺序 12 2上午 6下午 7 8 9 10 11 1 时间流水线流水线无法帮助解决单个任务的延迟有利于减少整个工作全部时间多个任务同时操作需要不同的资源可能的加速比流水线的段数流水线的速率受速度最慢的流水段的限制流水线各段长度不均会降低加速比充满流水线所需的时间和排空流水线所需的时间影响加速比会由于依赖而造成阻塞 6下午 7 8 9 时间任务顺序传统的流水线执行表示程序流时间轴为什么采用流水线呢因为有资源空闲指令顺序时间时钟周期 Inst 0 Inst 1 Inst 2 Inst 4 Inst 3 单时钟周期多时钟周期同流水线比较 Clk Cycle1 多时钟周期的实现 Cycle2 Cycle3 Cycle4 Cycle5 Cycle6 Cycle7 Cycle8 Cycle9 Cycle10 Load Load Store 流水线的实现 Store Clk 单时钟周期的实现 Load Store Waste R type R type Cycle1 Cycle2 为什么使用流水线设想我们要执行100条指令单周期的机器 45 ns cyclex1CPIx100 inst 4500 ns 多周期的机器 10 ns cyclex4 2CPI dueto inst mix x100 inst 4200 ns 理想的流水线机器 10 ns cyclex 1CPIx100 inst 4cycledrain 1040 ns Load指令的五个阶段 Ifetch 获取指令从指令存储器中获取指令 Reg Dec 获取寄存器指令译码 Exec 计算内存地址 Mem 从数据存储器中读数据 Wr 向寄存器文件写回数据 Cycle1 Cycle2 Cycle3 Cycle4 Cycle5 Load Pipelining 通过增加指令的执行阶段增强性能理想的加速比是流水线的段数我们能够获得这个加速比吗基本思想我们要将数据通路分割成不同的阶段需要增加些什么流水线数据通路流水线技术流水线是一种实现技术空间并行性设置多个独立的操作部件如多操作部件处理机超标量处理机时间并行性采用流水线技术不增加或只增加少量硬件就能使运算速度提高几倍如流水线处理机超流水线处理机流水线工作原理流水线的分类线性流水线的性能分析非线性流水线的调度技术流水线工作原理 1 流水线锁存器流水线的每一个阶段称为流水步流水步骤流水段流水线阶段流水功能段功能段流水级流水节拍等在每一个流水段的末尾或开头必须设置一个多个寄存器称为流水寄存器流水锁存器流水闸门寄存器等流水锁存器会增加每条指令的执行时间但采用流水线之后整个程序的执行时间会缩短为了简化在一般流水线中不画出流水锁存器 2 流水线的表示方法流水线的连接图表示方法表示流水线的逻辑关系流水线的时空图表示方法表示流水线的时间关系流水线的预约表表示方法将在非线性流水线中介绍一般处理机的指令流水线为4至12个级指令流水线等于和大于8级的称为超流水线处理机 3 流水线时空图一条简单流水线的时空图一个浮点加法器流水线的时空图由求阶差对阶尾数加和规格化4个流水段组成 4 流水线的主要特点只有连续提供同类任务才能充分发挥流水线的效率对于指令流水线要尽量减少因条件分支造成的断流对于操作部件主要通过编译技术尽量提供连续的相同类型的操作在流水线的每一个流水线段中都要设置一个流水锁存器时间开销流水线的执行时间加长是流水线中需要增加的主要硬件之一各流水段的时间应尽量相等流水线处理机的基本时钟周期等于时间最长的流水段的时间长度流水线需要有装入时间和排空时间 Latency throughput 流水线技术流水线技术在50年代后期被应用于处理器设计IBMStretch firstgeneral purposepipelinedcomputerCDC6600useload storedesigntoachieveefficientpipelining 流水线工作原理流水线的分类线性流水线的性能分析非线性流水线的调度技术流水线技术流水线的分类1 线性流水线与非线性流水线流水线的各个流水段之间是否有反馈信号线性流水线 LinearPipelining 每一个流水段都流过一次而且仅流过一次非线性流水线 NonlinearPipelining 在流水线的某些流水段之间有反馈回路或前馈回路线性流水线能够用流水线连接图唯一表示非线性流水线必须用流水线连接图流水线预约表等共同表示 2 按照流水线的级别来分处理机级流水线又称为指令流水线例如在采用先行控制器的处理机中各功能部件之间的流水线部件级流水线操作流水线如浮点加法器流水线处理机之间的流水线称为宏流水线 MacroPipelining 每个处理机对同一个数据流的不同部分分别进行处理 3 单功能流水线与多功能流水线单功能流水线只能完成一种固定功能的流水线 Cray 1计算机种有12条YH 1计算机有18条Pentium有一条5段的定点和一条8段的浮点流水线 Pentium 有两条定点指令流水线一条浮点指令流水线多功能流水线流水线的各段通过不同的连接实现不同的功能 Texas公司的ASC计算机中的8段流水线能够实现定点加减法定点乘法浮点加法浮点乘法逻辑运算移位操作数据转换向量运算等 4 静态流水线与动态流水线静态流水线同一段时间内多功能流水线中的各个功能段只能按照一种固定的方式连接实现一种固定的功能只有连续出现同一种运算时流水线的效率才能得到充分的发挥动态流水线在同一段时间内多功能流水线中的各段可以按照不同的方式连接同时执行多种功能 5 流水线的其他分类方法按照数据表示方式标量流水线和向量流水线按照控制方式同步流水线和异步流水线顺序流水线与乱序流水线乱序流水线又称为无序流水线错序流水线或异步流水线等 outoforder 流水线工作原理流水线的分类线性流水线的性能分析非线性流水线的调度技术标量处理机流水线技术线性流水线的性能分析衡量流水线性能的主要指标有吞吐率加速比和效率 1 吞吐率 ThoughPut 计算流水线吞吐率的最基本公式其中 n为任务数 k为完成n个任务所用的时间各段执行时间相等输入连续任务情况下完成n个连续任务需要的总时间为 Tk k n 1 t其中 k为流水线的段数 t为时钟周期吞吐率为最大吞吐率为各段执行时间不相等输入连续任务情况下吞吐率为最大吞吐率为流水线各段执行时间不相等的解决办法 1 将流水线的瓶颈部分再细分如果可分的话 2 加速比 Speedup 计算流水线加速比的基本公式各段执行时间相等输入连续任务情况下加速比为最大加速比为各段执行时间不相等输入连续任务情况下实际加速比为当流水线段数增加时需要连续输入的任务数也必须增加 4 流水线最佳段数的选择采用顺序执行方式完成一个任务的时间为t在同等速度的k段流水线上执行一个任务的时间为 t k d其中 d为流水锁存器的延迟时间流水线的最大吞吐率为流水线的总价格估计为 C a bk 其中 a为所有功能段本身的总价格 b为每个锁存器的价格A G Larson把流水线的性能价格比PCR定义为求得到PCR的最大值为 5 流水线性能分析举例对于单功能线性流水线输入连续任务的情况通过上面给出的公式很容易计算出流水线的吞吐率加速比和效率例用一条4段浮点加法器流水线求8个浮点数的和 Z A B C D E F G H解 Z A B C D E F G H 流水线工作原理流水线的分类线性流水线的性能分析非线性流水线的调度技术流水线技术非线性流水线的调度技术非线性流水线调度的任务是要找出一个最小的循环周期按照这周期向流水线输入新任务流水线的各个功能段都不会发生冲突而且流水线的吞吐率和效率最高 1 非线性流水线的表示线性流水线能够用流水线连接图唯一表示连接图不能用唯一表示非线性流水线的工作流程因此引入流水线预约表与流水线预约表对应的流水线连接图一张预约表可能与多个流水线连接图相对应一个流水线连接图对应与多张预约表 2 非线性流水线的冲突流水线的启动距离连续输入两个任务之间的时间间隔流水线的冲突几个任务争用同一个流水段 3 无冲突调度方法由E S Davidson及其学生于1971年提出非线性流水线的禁止启动集合预约表中每一行任意两个之间的距离都计算出来去掉重复的上例中为 3 4 6 由禁止启动集合得到冲突向量 C CmCm 1 C2C1 其中 m是禁止向量中的最大值如果i在禁止向量中则Ci 1 否则Ci 0 上例中C 101100 由冲突向量构造状态图把冲突向量送入一个m位逻辑右移移位器如果移位器移出0 用移位器中的值与初始冲突向量作按位或运算得到一个新的冲突向量否则不作任何处理如此重复m次对于中间形成的每一个新的冲突向量也要按照这一方法进行处理在初始冲突向量和所有的新形成的冲突向量之间用带箭头的线连接当新形成的冲突向量出现重复时可以合并到一起例一条有4个功能段的非线性流水线每个功能段的延迟时间都相等它的预约表如下 1 写出流水线的禁止集合和初始冲突向量 2 画出调度流水线的状态图 3 求流水线的最小启动循环和最小平均启动距离 4 求平均启动距离最小的恒定循环解 1 禁止集合为 2 4 6 初始冲突向量 101010 2 初始冲突向量逻辑右移2 4 6位时不作任何处理逻辑右移1 3 5和大于等于7时要进行处理初始冲突向量右移1位之后 010101 101010 111111 初始冲突向量右移3位之后 000101 101010 101111 初始冲突向量右移5位之后 000001 101010 101011 初始冲突向量右移7位或大于7位后还原到它本身中间冲突向量101111右移5位之后 000001 101010 101011 中间冲突向量101011右移3位之后 000101 101010 101111 中间冲突向量101011右移5位之后 000001 101010 101011 预约表与状态图是唯一对应但不同的预约表也可能有相同的状态图简单循环状态图中各种冲突向量只经过一次的启动循环简单循环的个数是有限的由简单循环计算平均启动距离 3 最小的启动循环为 1 7 和 3 5 平均启动距离为4 4 启动距离最小的恒定循环是 5 4 优化调度方法L E Shar于1972年提出流水线最小平均启动距离的限制范围 1 下限是预约表中任意一行里的最多个数 2 小于或等于状态图中任意一个简单循环的平均启动距离 3 最小平均启动距离的上限是冲突向量中1的个数再加上1 1992年 L E Shar又证明了上述限制范围最有用的是第1条预约表中最多的行一定是瓶颈流水段采用预留算法来调度非线性流水线可以达到最优调度 1 确定最小平均启动距离 MAL 预约表任一行中的最多个数 2 确定最小启动循环一般恒定循环作为最小启动循环 3 通过插入非计算延迟段修改预约表实现最小启动循环对于上面的例子最小平均启动距离为2 最小启动循环为恒定循环 2 任一行中与第1个的距离为2的倍数的周期都要预留出来每一行中与第1个的距离为2的倍数的位置都要预留出来 S3行的第2个从周期5延迟到周期6 为此 S2行的第2个要向后延迟一个周期从周期6延迟到周期7 S1行的第2个要向后延迟一个周期从周期7延迟到周期8 实际上只要在流水段S4的输出端到流水段S3的输入端中间插入一个非计算延迟D1 在非线性流水线中最多的流水段一定是瓶颈流水段实现最优调度的目标是使瓶颈流水段处于忙碌状态没有空闲周期最优调度方法能够使非线性流水线的吞吐率加速比和效率达到最优动态调度方法一个启动循环C 从C推导出各个起始之间所有可能的时间间隔集合Gc 称为启动间隔集合C 2 3 2 5 Gc 2 3 5 7 9 10 14 15 17 19 21 22 24 26 间隔并不限于两个相邻的起始取Gc modp p为循环周期 P 12的循环C 2 3 2 5 Gc mod12 0 2 3 5 7 9 10 在禁止起动集合为F的流水线中 iff F modp Gc modp 时周期为p和启动间隔集合Gc的启动循环C才是可以允许的高级流水线技术超标量流水线超流水线超标量超流水线超标量处理机基本结构单发射与多发射多流水线调度资源冲突超标量处理机性能三种主流处理机超标量处理机 Intel公司的i860 i960 Pentium处理机 Motolora公司的MC88110 IBM公司的Power6000 SUN公司的SPARC SuperSPARC UltraSPARC等超流水线处理机 SGI公司的MIPSR4000 R5000 R10000等超标量超流水线处理机 DEC公司的Alpha等基本结构一般流水线处理机一条指令流水线一个多功能操作部件每个时钟周期平均执行指令的条数小于1 多操作部件处理机一条指令流水线多个独立的操作部件可以采用流水线也可以不流水多操作部件处理机的指令级并行度小于1 超标量处理机典型结构多条指令流水线先进的超标量处理机有定点处理部件CPU 浮点处理部件FPU 图形加速部件GPU 大量的通用寄存器两个一级Cache 超标量处理机的指令级并行度 ILP 大于1 Motorola公司的MC88110 有10个操作部件两个寄存器堆整数部件通用寄存器堆 32个32位寄存器浮点部件扩展寄存器堆 32个80位寄存器缓冲深度为4的先行读数栈缓冲深度为3的后行写数栈两个独立的高速Cache中各为8KB 采用两路组相联方式转移目标指令Cache 存放一条分支上的指令单发射与多发射单发射处理机每个周期只取一条指令只译码一条指令只执行一条指令只写回一个运算结果取指令部件和指令译码部件各设置一套只设置一个多功能操作部件或设置多个独立的操作部件操作部件中可以采用流水线结构也可以不采用流水线结构目标是每个时钟周期平均执行一条指令 ILP的期望值为1 多发射处理机每个周期同时取多条指令同时译码多条指令同时执行多条指令同时写回多个运算结果需要多个取指令部件多个指令译码部件和多个写结果部件设置多个指令执行部件有些指令执行部件采用流水线结构目标是每个时钟周期平均执行多条指令 ILP的期望值大于1 超标量处理机一个时钟周期能同时发射多条指令的处理机必须有两条或两条以上能够同时工作的指令流水线先行指令窗口能够从指令Cache中预取多条指令能够对窗口内的指令进行数据相关性分析和功能部件冲突检测先行指令窗口的大小一般为2至8条指令目前的指令调度技术每个周期发射2至4条指令比较合理例如 Intel公司的i860 i960 Pentium Motolora公司的MC88110 IBM公司的Power6000等每个周期都发射两条指令 TI公司生产SuperSPARC PentiumIII每个周期发射三条指令操作部件的个数一般多于每个周期发射的指令条数通常为4个至16个操作部件超标量处理机的指令级并行度 1 ILP m m为每个周期发射的指令条数多流水线调度多条流水线的调度问题是一个NP完全问题顺序发射 in orderissue 与乱序发射 out orderissue 指令发射顺序是按照程序中指令排列顺序进行的称为顺序发射顺序完成 in ordercompletion 与乱序完成 out ordercompletion 指令完成顺序是按照程序中指令排列顺序进行的称为顺序完成多流水线的调度主要有三种方法顺序发射顺序完成顺序发射乱序完成乱序发射乱序完成 I1 LOADR1 A R1 A I2 FADDR2 R1 R2 R2 R1 I3 FMULR3 R4 R3 R3 R4 I4 FADDR4 R5 R4 R4 R5 I5 DECR6 R6 R6 1I6 FMULR6 R7 R6 R6 R7 1 顺序发射顺序完成6条指令按顺序分三个时钟周期发射共用10个时钟周期完成除了流水线的装入和排空部分之外还有8个空闲的时钟周期 2 顺序发射乱序完成与顺序发射顺序完成调度方法相比少了5个空闲时钟周期 6条指令总的执行时间为9个时钟周期与顺序发射顺序完成调度方法相比节省了一个时钟周期 3 乱序发射乱序完成必须使用先行指令窗口除了装入和排空之外没有空闲周期功能部件得到充分利用6条指令总的执行时间缩短为8个周期比顺序发射顺序完成方法节省2个周期比顺序发射乱序完成方法相比节省一个周期资源冲突如果操作部件采用流水线结构发生资源冲突的可能性很小如果不采用流水线结构发生资源冲突的可能性就大下面是一个由4条指令程序的程序 I1 FADDR0 R1 R0 R0 R1 I2 FMULR2 R3 R2 R2 R3 I3 FADDR4 R5 R4 R4 R5 I4 FMULR6 R7 R6 R6 R7 操作部件不采用流水线做完4条指令总共用了11个周期有5个空闲周期操作部件采用流水线做完4条指令共用8个周期少用3个周期在超标量处理机中操作部件采用流水线结构的原因分析假每个周期发射m条指令操作部件的延迟时间为k个周期如果操作部件不采用流水线结构则使用同一个操作部件的两条指令的序号应该至少相差m k 如果操作部件采用k个功能段的流水线结构则使用同一个操作部件的两条指令的序号只需要相差m或m以上指令流水线的段数k一般在4至10之间每个时钟周期发射的指令条数m在2至4之间取中间值 k 7 m 3 为了不发生资源冲突如果操作部件不采用流水线结构两条使用同一个功能部件的指令序号必须相差21或21以上如果操作部件采用流水线结构两条使用同一个功能部件的指令序号只需要相差3或3以上因此在超标量处理机中操作部件一般要采用流水线结构如果由于某种原因操作部件不能采用流水线结构则必须设置多个相同种类的操作部件普通标量处理机希望相同操作连续出现只有连续出现相同操作的指令序列时流水线才能不断流功能部件的效率才能得到充分发挥超标量处理机则正好相反希望相同操作不要连续出现相同操作的指令序列连续出现时会发生资源冲突要求相同操作的指令能够相对均匀地分布在程序中超标量处理机的这种要求正好符合一般标量程序的特点超标量处理机性能单流水线普通标量处理机的指令级并行度记作 1 1 超标量处理机的指令级并行度记作 m 1 超流水线处理机的指令级并行度记作 1 n 而超标量超流水线处理机的指令级并行度记作 m n 在理想情况下 N条指令在单流水线标量处理机上的执行时间为 T 1 1 k N 1 t在每个周期发射m条指令的超标量处理机上执行的时间为 T m 1 k t超标量处理机相对于单流水线标量处理机的加速比为 S m 1 超标量处理机的加速比的最大值为 S m 1 MAX m 超流水线处理机两种定义在一个周期内能够分时发射多条指令的处理机指令流水线的功能段数为8段或超过8段的流水线处理机提高处理机性能的不同方法超标量处理机通过增加硬件资源来提高处理机性能超流水线处理机通过各部分硬件的重叠工作来提高处理机性能两种不同并行性超标量处理机采用的是空间并行性超流水线处理机采用的是时间并行性指令执行时序每隔1 n个时钟周期发射一条指令即处理机的流水线周期为1 n个时钟周期在超标量处理机中流水线的有些功能段还可以进一步细分例如 ID功能段可以再细分为译码读第一操作数和读第二操作数三个流水段典型处理机结构MIPSR4000处理机每个时钟周期包含两个流水段是一种很标准的超流水线处理机结构指令流水线有8个流水段有两个Cache 指令Cache和数据Cache的容量各8KB 每个时钟周期可以访问Cache两次因此在一个时钟周期内可以从指令Cache中读出两条指令从数据Cache中读出或写入两个数据主要运算部件有整数部件和浮点部件如果在LOAD指令之后的两条指令中任何一条指令要在它的EX流水级使用这个数据

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机体系结构之流水线工作原理与分类(ppt 96页).ppt

文档简介

温馨提示

最新文档

评论

计算机体系结构之流水线工作原理与分类(ppt 96页).ppt

文档简介

温馨提示

最新文档

评论

相关文档