指令级并行ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-01-05 格式：PPT 页数：116 大小：8.59MB 积分：25 举报 版权申诉

已阅读5页，还剩111页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第4章指令级并行本章学习内容指令级并行的基本概念指令的动态调度动态分支预测技术多指令流出技术 2 4 1指令级并行指令之间存在的潜在并行性称为指令级并行 ILP Instruction LevelParallelism 只有将硬件技术和软件技术互相配合才能够最大限度地挖掘出程序中存在的指令级并行 3 1 流水线处理机的实际CPI 流水线处理机的实际CPI就是理想流水线的CPI加上各类停顿的时钟周期数 CPI流水线 CPI理想停顿结构冲突停顿数据冲突停顿控制冲突CPI理想即理想CPI 是衡量流水线最高性能的指标之一 4 IPC InstructionsPerCycle IPC 每个时钟周期内完成的指令条数 IPC是CPI的倒数提高IPC的途径之一是减少CPI流水线 5 2 基本程序块基本程序块一段除了入口和出口以外不包含其他分支的一个线性代码段因为程序往往平均每5 7条指令就会有一个分支而且指令之间还可能存在相关所以在基本程序块中能开发的并行性是很有限的很可能比基本块的大小要小很多为了明显地提高性能必须跨越多个基本块开发指令的并行性 6 3 开发指令级并行常用的方法 1 开发循环级并行循环级并行 Loop levelparallelism 循环程序不同迭代之间存在的并行性例 for i 1 i 500 i i 1 a i a i s 在每一次循环的内部没有任何的并行性每一次循环都可以与其他的循环重叠并行执行开发循环级并行性是增加指令之间并行性的最简单和最常用的方法 7 开发循环级并行的基本技术采用循环展开技术采用向量指令和向量数据表示 8 2 解决相关与流水线冲突问题相关是程序固有的一种属性它反映了程序中指令之间的相互依赖关系相关的三种类型数据相关名相关控制相关如果两条指令相关它们就不能并行执行或只能部分重叠执行由于相关的存在使得指令流中的下一条指令不能在指定时钟周期执行就是发生了流水线冲突相关的存在限制了指令级并行 ILP 的开发 9 流水线冲突的三种类型结构冲突数据冲突控制冲突结构冲突由硬件资源冲突造成数据冲突由数据相关和名相关造成控制冲突由控制相关造成具体的一次相关是否会导致实际冲突的发生以及该冲突会带来多长的停顿根据流水线的属性而定 10 解决相关与冲突的方法保持相关但避免发生冲突方法指令调度包括静态调度和动态调度通过代码变换消除相关 11 解决相关与冲突时需注意的问题由于相关的存在在开发指令级并行时如果可能影响到程序的正确性就必须注意保持程序顺序程序顺序由源程序确定的在完全串行方式下指令的执行顺序控制相关并不是一个必须严格保持的关键属性当存在控制相关时在对程序的正确性没有影响的前提下可以不遵守控制相关的依赖关系执行本来不该执行的指令 12 必须保持的最关键的两个属性要正确地执行程序必须保持的最关键的两个属性是数据流和异常行为保持异常行为无论怎么改变指令的执行顺序都不能改变程序中异常的发生情况原来程序中是怎么发生的改变执行顺序后还是怎么发生可弱化为指令执行顺序的改变不能导致程序中发生新的异常如果能做到保持程序的数据相关和控制相关就能保持程序的数据流和异常行为 13 例 DADDUR2 R3 R4BEQZR2 L1LWR1 0 R2 L1 如果不保持关于R2的数据相关程序的执行结果就会改变如果不保持控制相关把LW指令移到BEQZ之前就有可能产生一个新的访存保护异常如果R2 0 14 数据流指数据值从其产生者指令到其消费者指令的实际流动分支指令使得数据流具有动态性因为它使得给定指令的数据可以有多个来源仅仅保持数据相关性是不够的一条指令可能与多条先前的指令数据相关程序顺序决定了哪条指令真正是所需数据的产生者只有再加上保持控制顺序才能够保持程序顺序 15 例 DADDUR1 R2 R3BEQZR4 L1DSUBUR1 R5 R6L1 ORR7 R1 R8OR指令中使用的R1值取决于BEQZ指令分支的是否成功即OR与DADDU或DSUBU指令相关必须通过保持控制相关避免对数据流的修改以保证数据流的正确 DSUBU不能被移到BEQZ之前 16 有时不遵守控制相关既不影响异常行为也不改变数据流在这种情况下可以大胆地进行指令调度把失败分支中的指令调度到分支指令之前 17 例 DADDUR1 R2 R3BEQZR12 SkipnextDSUBUR4 R5 R6DADDUR5 R4 R9Skipnext ORR7 R8 R9如果已知R4在Skipnext后不再被使用而且DSUBU指令不会产生异常那么就可以把DSUBU指令移到BEQZ之前因为这个移动不会改变数据流 18 开发指令的并行性的方法硬件方法指令的动态调度动态分支预测多指令流出技术软件方法指令的静态调度循环展开技术软硬件结合方法显式并行指令计算EPIC 19 4 5循环展开和指令调度 4 5 1循环展开和指令调度的基本方法为了充分发挥流水线的作用必须设法让它满负荷工作因此要充分开发指令之间存在的并行性找出不相关的指令序列让它们在流水线上重叠并行执行增加指令间并行性最简单和最常用的方法开发循环级并行性循环的不同迭代之间存在的并行性在把循环展开后通过重命名和指令调度来开发更多的并行性 20 编译器指令调度能力的限制编译器完成指令调度的能力受限于两个特性程序固有的指令级并行性流水线功能部件的执行延迟浮点流水线延迟 Load指令的结果可以通过定向路径及时送给store指令所以延迟为0 不用插入停顿例4 6对于下面的源代码转换成MIPS汇编语言在不进行指令调度和进行指令调度两种情况下分析其代码一次循环所需的执行时间 for i 1 i 1000 i x i x i s 解该循环的不同迭代之间不存在相关所以多次迭代可以并行执行 23 MIPS汇编语言代码假设R1的初值指向第一个元素 8 R2 指向最后一个元素 Loop L DF0 0 R1 取一个向量元素放入F0ADD DF4 F0 F2 加上在F2中的标量S DF4 0 R1 存结果DADDIUR1 R1 8 将指针减8 每个数据占8个字节 BNER1 R2 Loop 若R1不等于R2 表示尚未结束转移到Loop继续执行其中整数寄存器R1 指向向量中的当前元素初值为向量中最高端元素的地址浮点寄存器F2 用于保存常数s 24 不进行指令调度的情况下程序的实际执行情况 Loop L DF0 0 R1 1 空转 2ADD DF4 F0 F23 空转 4 空转 5S DF4 0 R1 6DADDIUR1 R1 87 空转 8BNER1 R2 Loop9 空转 10每个元素的操作需要10个时钟周期其中5个是空转周期 25 指令调度以后程序的执行情况 Loop L DF0 0 R1 空转 ADD DF4 F0 F2 空转空转 S DF4 0 R1 DADDIUR1 R1 8 空转 BNER1 R2 Loop 空转 Loop L DF0 0 R1 DADDIUR1 R1 8ADD DF4 F0 F2 空转 BNER1 R2 LoopS DF4 8 R1 因为修改指针R1的减8操作提前了所以S D指令中变址指针的偏移量要从0改为8 26 指令流出时钟Loop L DF0 0 R1 1DADDIUR1 R1 82ADD DF4 F0 F23 空转 4BNER1 Loop5S DF4 8 R1 6一个元素的操作时间从10个时钟周期减少到6个其中5个周期是有指令执行的 1个为空转周期 27 例子中的问题及解决方案只有L D ADD D和S D这3条指令是有效操作占用3个时钟周期而DADDIU 空转和BEN这3个时钟周期都是附加的循环控制开销有效操作比例不高循环展开技术把循环体的代码复制多次并按顺序排列然后相应调整循环的结束条件 28 例4 7将例4 6中的循环展开3次得到4个循环体然后对展开后的指令序列在不调度和调度两种情况下分析代码的性能设R1的初值为32的倍数即循环次数为4的倍数因此不需要在循环体后面增加补偿代码方法消除冗余的指令并且不重复使用寄存器 29 分配寄存器不重复使用寄存器 F0 F4 用于展开后的第1个循环体F2 用于保存常数F6 F8 用于展开后的第2个循环体F10 F12 用于展开后的第3个循环体F14 F16 用于展开后的第4个循环体 30 展开后没有调度的代码 31 结果分析这个循环每遍共使用了28个时钟周期有4个循环体完成4个元素的操作平均每个元素使用28 4 7个时钟周期原始循环的每个元素需要10个时钟周期节省的时间从减少循环控制的开销中获得的在整个展开后的循环中实际指令只有14条其他14个周期都是空转结论效率并不高 32 对指令序列进行优化调度指令流出时钟Loop L DF0 0 R1 1L DF6 8 R1 2L DF10 16 R1 3L DF14 24 R1 4ADD DF4 F0 F25ADD DF8 F6 F26ADD DF12 F10 F27ADD DF16 F14 F28S DF4 0 R1 9S DF8 8 R1 10DADDIUR1 R1 3212S DF12 16 R1 11BNER1 R2 Loop13S DF16 8 R1 14 33 结果分析没有数据相关引起的空转等待整个循环仅仅使用了14个时钟周期平均每个元素的操作使用14 4 3 5个时钟周期通过循环展开寄存器重命名和指令调度可以有效地开发出指令级并行 34 循环展开和指令调度时要注意的问题保证正确性在循环展开和调度过程中尤其要注意两个地方的正确性循环控制操作数偏移量的修改注意有效性只有能够找到不同循环体之间的无关性才能有效地使用循环展开使用不同的寄存器否则可能导致新的冲突删除多余的测试指令和分支指令并对循环结束代码和新的循环体代码进行相应的修正 35 注意对存储器数据的相关性分析例如对于load指令和store指令如果它们在不同的循环迭代中访问的存储器地址是不同的它们就是相互独立的可以相互对调注意新的相关性由于原循环不同次的迭代在展开后都到了同一次循环体中因此可能带来新的相关性 36 4 2指令的动态调度静态调度依靠编译器对代码进行静态调度以减少相关和冲突不是在程序执行的过程中而是在编译期间进行代码调度和优化通过把相关的指令拉开距离来减少可能产生的停顿动态调度在程序的执行过程中依靠专门硬件对代码进行调度减少数据相关导致的停顿 37 指令的动态调度的特点能够处理一些在编译时情况不明的相关比如涉及到存储器访问的相关并简化了编译器能够使本来是面向某一流水线优化编译的代码在其他的流水线动态调度上也能高效地执行以硬件复杂性的显著增加为代价 38 4 2 1动态调度的基本思想到目前为止我们所使用流水线的最大的局限性指令必须按序流出和执行考虑下面一段代码 DIV DF4 F0 F2SUB DF10 F4 F6ADD DF12 F6 F14SUB D指令与DIV D指令关于F4相关导致流水线停顿 ADD D指令与流水线中的任何指令都没有关系但也因此受阻 39 在前面的基本流水线中译码功能段的工作 ID 检测结构冲突检测数据冲突一旦一条指令受阻其后的指令都将停顿解决办法允许乱序执行 40 为了允许乱序执行将5段流水线的译码阶段再分为两个阶段流出 Issue IS 指令译码检查是否存在结构冲突读操作数 ReadOperands RO 等待数据冲突消失然后读操作数 IS RO 检测结构冲突检测数据冲突 41 在前述5段流水线中顺序执行时是不会发生WAR冲突和WAW冲突的但乱序执行有可能发生例 DIV DF10 F0 F2SUB DF10 F4 F6ADD DF6 F8 F14 存在反相关存在输出相关可以通过使用寄存器重命名技术来消除相关 42 动态调度的流水线支持多条指令同时处于执行当中要求具有多个功能部件或者流水功能部件或者兼而有之假设具有多个功能部件指令乱序完成带来的最大问题异常处理比较复杂动态调度要保持正确的异常行为只有那些在程序严格按程序顺序执行时会发生的异常才能真正发生 43 保持正确的异常行为对于一条会产生异常的指令来说只有当处理机确切地知道该指令将被执行后才允许它产生异常即使保持了正确的异常行为动态调度处理机仍可能发生不精确异常 44 精确异常与不精确异常精确异常发生异常时处理机的现场跟严格按程序顺序执行时指令i的现场相同不精确异常当执行指令i导致发生异常时处理机的现场状态与严格按程序顺序执行时指令i的现场不同发生不精确异常的原因当发生异常设为指令i 时流水线可能已经执行完按程序顺序是位于指令i之后的指令流水线可能还没完成按程序顺序是指令i之前的指令不精确异常使得在异常处理后难以接着继续执行程序 45 4 2 2Tomasulo算法核心思想记录和检测指令相关操作数一旦就绪就立即执行把发生RAW冲突的可能性减少到最小通过寄存器换名来消除WAR冲突和WAW冲突原因 46 IBM360 91首先采用了Tomasulo算法 1 IBM360 91的设计目标是基于整个360系列的统一指令集和编译器来实现高性能而不是设计和利用专用的编译器来提高性能因此需要更多地依赖硬件 IBM360体系结构只有4个双精度浮点寄存器限制了编译器调度的有效性 360 91的访存时间和浮点计算时间都很长也是Tomasulo算法要解决的问题寄存器换名可以消除WAR冲突和WAW冲突 47 考虑以下代码 DIV DF0 F2 F4ADD DF6 F0 F8S DF6 0 R1 SUB DF8 F10 F14MUL DF6 F10 F8 输出相关 F6 导致WAW冲突反相关 F8 导致WAR冲突 48 消除名相关引入两个临时寄存器S和T把这段代码改写为 DIV DF0 F2 F4ADD DS F0 F8S DS 0 R1 SUB DT F10 F14MUL DF6 F10 T 两个F6都换名为S 两个F8都换名为T 49 基于Tomasulo算法的MIPS处理器浮点部件的基本结构保留站 reservationstation 每个保留站中保存一条已经流出并等待到本功能部件执行的指令相关信息包括操作码操作数以及用于检测和解决冲突的信息在一条指令流出到保留站的时候如果该指令的源操作数已经在寄存器中就绪则将之取到该保留站中如果操作数还没有计算出来则在该保留站中记录将产生这个操作数的保留站的标识浮点加法器有三个保留站 ADD1 ADD2 ADD3浮点乘法器有两个保留站 MULT1 MULT2每个保留站都有一个标识字段唯一地标识了该保留站 51 公共数据总线CDB CDB是一条重要的数据通路所有功能部件的计算结果都是送到CDB上由它把这些结果直接送到播送到各个需要该结果的地方在具有多个执行部件且采用多流出即每个时钟周期流出多条指令的流水线中需要采用多条CDB 52 load缓冲器和store缓冲器用于存放读写存储器的数据或地址load缓冲器的作用存放用于计算有效地址的分量记录正在进行的load访存等待存储器的响应保存已经完成了的load的结果即从存储器取来的数据等待CDB传输 store缓冲器的作用存放用于计算有效地址的分量保存正在进行的store访存的目标地址该store正在等待存储数据的到达保存该store的地址和数据直到存储部件接收 53 浮点寄存器FP共有16个浮点寄存器 F0 F2 F4 F30 它们通过一对总线连接到功能部件并通过CDB连接到store缓冲器指令队列指令部件送来的指令放入指令队列指令队列中的指令按先进先出的顺序流出运算部件浮点加法器完成加法和减法操作浮点乘法器完成乘法和除法操作 54 在Tomasulo算法中寄存器换名是通过保留站和流出逻辑来共同完成的当指令流出时如果其操作数还没有计算出来则将该指令中相应的寄存器号换名为将产生这个操作数的保留站的标识指令流出到保留站后其操作数寄存器号或者换成了数据本身如果该数据已经就绪或者换成了保留站的标识不再与寄存器有关系 55 Tomasulo算法的特点冲突检测和指令执行控制是分布的每个功能部件的保留站中的信息决定了什么时候指令可以在该功能部件开始执行计算结果通过CDB直接从产生它的保留站传送到所有需要它的功能部件而不用经过寄存器 56 指令执行的步骤使用Tomasulo算法的流水线需3段流出从指令队列的头部取一条指令如果该指令的操作所要求的保留站有空闲的就把该指令送到该保留站设为r 如果其操作数在寄存器中已经就绪就将这些操作数送入保留站r 如果其操作数还没有就绪就把将产生该操作数的保留站的标识送入保留站r 一旦被记录的保留站完成计算它将直接把数据送给保留站r 寄存器换名和对操作数进行缓冲消除WAR冲突完成对目标寄存器的预约工作消除了WAW冲突如果没有空闲的保留站指令就不能流出发生了结构冲突 57 执行当两个操作数都就绪后本保留站就用相应的功能部件开始执行指令规定的操作 load和store指令的执行需要两个步骤计算有效地址要等到基地址寄存器就绪把有效地址放入load或store缓冲器写结果功能部件计算完毕后就将计算结果放到CDB上所有等待该计算结果的寄存器和保留站包括store缓冲器都同时从CDB上获得所需要的数据 58 每个保留站有以下6个字段 Op 要对源操作数进行的操作 Qj Qk 将产生源操作数的保留站号等于0表示操作数已经就绪且在Vj或Vk中或者不需要操作数 Vj Vk 源操作数的值对于每一个操作数来说 V或Q字段只有一个有效对于load来说 Vk字段用于保存偏移量 Busy 为 yes 表示本保留站或缓冲单元忙 A 仅load和store缓冲器有该字段开始是存放指令中的立即数字段地址计算后存放有效地址 59 Qi 寄存器状态表每个寄存器在该表中有对应的一项用于存放将把结果写入该寄存器的保留站的站号为0表示当前没有正在执行的指令要写入该寄存器也即该寄存器中的内容就绪 60 设有指令 MULF0 F2 F4ADDF2 F0 F6 61 62 63 64 例4 1对于下述指令序列给出当第一条指令完成并写入结果时 Tomasulo算法所用的各信息表中的内容 L DF6 34 R2 L DF2 45 R3 MUL DF0 F2 F4SUB DF8 F2 F6DIV DF10 F0 F6ADD DF6 F8 F2 65 当采用Tomasulo算法时在上述给定的时刻保留站 load缓冲器以及寄存器状态表中的内容 66 VkMem 34 Regs R2 Reg F4 Mem 34 Regs R2 名称保留站 Load1Load2Add1Add2Add3Mult1Mult2 Busynoyesyesyesnoyesyes OpLDSUBADDMULDIV Vj QjLoad2Add1Load2Mult1 QkLoad2 A45 Regs R3 67 Tomasulo算法的主要优点冲突检测逻辑是分布的通过保留站和CDB实现如果有多条指令已经获得了一个操作数并同时在等待同一运算结果那么这个结果一产生就可以通过CDB同时播送给所有这些指令使它们可以同时执行消除了WAW冲突和WAR冲突导致的停顿使用保留站进行寄存器换名并且操作数一旦就绪就将之放入保留站 68 4 4多指令流出技术如果每次只能流出一条指令单流出则CPI不可能小于1 要想进一步提高性能使CPI 1 就必须采用多流出技术 69 单流出和多流出处理机执行指令的时空图 70 提高流水并行处理的方法增加流水部件套数超标量合并多条指令操作码超长指令字细化流水部件段数超流水 71 4 4 1超标量方法 Superscalar 在处理机内设置多个可并行操作的功能部件和多条流水线在一个时钟周期内启动发射多条指令进行并行处理使得CPI 1 超标量方法是采用资源重复的策略开发并行性超级标量机主要是借助对硬件资源重复来实现空间的并行操作 72 采用超标量技术时在每个时钟周期流出的指令条数不固定依代码的具体情况而定有上限设这个上限为n 就称该处理机为n流出可以通过编译器进行指令的静态调度也可以基于Tomasulo算法进行动态调度以实现超标量技术 73 理想的RISC机中指令流水的执行情况理想的RISC机 74 在超标量机中每个时钟周期可同时启动三条指令的情况每拍启动3条指令要求并行度 3 b 超级标量机配置多个功能部件多个译码器寄存器端口总线能同时执行多个操作 75 单发射与多发射发射处理机从指令存储单元取得指令的过程单发射处理机在单时钟周期内只能取出一条指令供执行处理机只有一个IF和ID部件但可以有多个运算部件多发射处理机在单时钟周期内可取出多条指令供执行处理机必须设置多个IF ID WR等部件 76 超标量机的典型结构 77 指令执行部件的功能存储器操作部件执行Load Store指令 ALU 执行整数运算转移控制部件执行转移指令 78 指令调度部件状态记录部件的功能进行流水动态调度依靠硬件在程序运行过程中对可能出现的相关情况加以检测从而保证流水线中的各个功能部件能最大限度的重叠工作对流水线中的各个功能部件的工作状态进入流水线中的各条指令的工作状态它们所使用的源寄存器和目的寄存器情况等进行集中的统一记录和调度在译码阶段状态记录部件根据所记录的状态决定是否将译码后的指令发送给有关功能部件进行处理 79 指令调度部件的主要检查内容指令要使用的功能部件是否已被流水线中的其它指令占用资源冲突指令的源操作数寄存器是否为其它指令的目的寄存器或者它所要写入的目的寄存器又正好是前面其它指令所要读出的操作数或是要写入的目的寄存器即检查是否存在RAW WAR WAW的数据相关 80 多流水线中指令的发射策略调度方法采用不同发射策略的目的减少相关性 1 从指令的发射顺序和完成顺序两个方面考虑顺序发射指令的发射顺序是按照程序中指令的排列顺序进行的乱序发射指令的发射顺序不是按照程序中指令的排列顺序进行的顺序完成指令的完成顺序是按照程序中指令的排列顺序进行的乱序完成指令的发射顺序不是按照程序中指令的排列顺序进行的 81 2 三种策略顺序发射顺序完成优点流水线的控制逻辑比较简单缺点使吞吐率和效率降低是调度策略的基础但死板不实用顺序发射乱序完成优点缩短了流水线中任务的总的执行时间提高了功能部件的利用率缺点指令执行时间长短不一控制逻辑比较复杂 82 乱序发射乱序完成优点功能部件的利用率最高流水线中任务的总的执行时间最短缺点需要硬件软件的支持控制复杂需设置先行指令窗口数据相关分析部件功能部件冲突检测部件等通常采用记分牌机制分析数据的相关性和功能部件的冲突通过优化编译对指令序列进行重组开发程序中指令的并行性 83 乱序发射乱序完成中的先行指令窗口指令译码后先行指令窗口功能单元未满不断送至窗口可用取窗口不断执行 84 目前许多高性能超标量处理机中均采用了乱序发射乱序完成的指令调度方法 85 超标量机的主要特点 1 配置有多个性能不同的处理部件采用多条流水线并行处理 2 能同时对若干条指令进行译码将可并行执行的指令送往不同的执行部件从而达到在每个周期启动多条指令的目的 3 在程序运行期间由硬件通常是状态记录部件和调度部件检查操作的并行性完成指令的调度 86 4 4 2超长指令字VLIW 超长指令字 VeryLongInstructionWord 以一条长指令来实现多个操作的并行执行以减少对存储器的访问在每个时钟周期流出的指令条数是固定的将这些指令构成一条长指令或者一个指令包在指令包中指令之间的并行性通过指令显式地表示出来指令调度由编译器静态完成 87 超长指令字的实现在处理机中设置多个可并行操作的功能部件在一条超长指令字的多个操作控制字段的直接控制下并行操作超长指令字是采用资源重复的策略开发并行性超长指令字的长度达上百位甚至上千位超长指令字的并发操作主要是在流水的执行阶段进行的 88 例在执行阶段并行执行三个操作 0 1 2 3 4 5 6 T 3个操作每拍启动一条长指令执行3个操作相当于3条指令要求并行度 3 超长指令字计算机 VLIW 的原理结构 89 超长指令机的主要特点 1 单一的控制流只有一个控制器每个周期启动一条长指令 2 超长指令字被分成多个控制字段每个字段直接独立地控制每个功能部件 3 含有大量的数据通路和功能部件由于编译器在编译时间已考虑可能出现的数据相关和资源相关故控制硬件较简单 4 在编译阶段完成超长指令中多个可并行执行操作的调度 90 例一个含有两个存取部件一个浮点加部件和一个浮点乘部件的VLIW机主存 VLIW中的操作字段 RF 寄存器堆 LD ST1 LD ST2 FADD FMUL LD ST1 LD ST2 FADD FMUL 存取1 存取2 浮点加浮点乘 91 在VLIW机中所有功能部件均由同一时钟驱动在同一时刻控制每个功能部件的操作字段组成一个超长指令字超长指令字的指令字长度与功能部件的数量有关超长指令字的生成是由编译器来完成的编译器将串行的操作序列合并为可并行执行的指令序列以最大限度实现操作并行性超长指令字的压缩技术可分为局部压缩和全局压缩两种方法 92 1 局部压缩在程序基本块范围内进行指令压缩表调度法是局部压缩方法中的一种例实现以下赋值语句 C A BK I JL M KQ C K若按串行操作进行则其所用的指令序列为 93 共需14个周期源代码源代码所需周期 C A B LOADALOADBC A BSTOREC 1111 K I J LOADILOADJK I JSTOREK 1111 L M K LOADML M KSTOREL 111 Q C K Q C KSTOREQ 21 94 压缩技术表调度法只需要6个周期超标量结构超流水线结构一般采用指令窗方法把一段指令长度为窗口的大小例为8 取到窗口中判断这段指令能否并行执行 95 2 全局压缩法全局压缩是指进行压缩的代码操作可在基本块之间移动全局压缩法可获得更好的压缩效果全局压缩的代码操作在基本块间移动需有一定的限制而且为了保持程序原来的语义某些代码操作移动后通常还需要增加一些辅助操作全局压缩主要有三种方法路径调度 Tracescheduling 渗透调度 Percolationscheduling 软件流水 Softwarepipelining 96 VLIW机与超标量机的比较 4 4 3超流水线处理机超流水线处理机将每个流水段进一步细分使流水线在一个时钟周期内能够分时流出多条指令对于一台每个时钟周期能流出n条指令的超流水线计算机来说这n条指令不是同时流出的而是每隔1 n个时钟周期流出一条指令实际上该超流水线计算机的流水线周期为1 n个时钟周期超流水方法是采用时间重叠的策略开发并行性 98 每个时钟周期分时流出两条指令的超流水线计算机的时空图在分解流水段时要根据实际情况有些流水段分解的流水级数可多些如译码 ID 流水段可以再细分为译码流水级取第一个操作数流水级和取第二个操作数流水级等有些流水段分解的流水级数可少些也的流水段可以不再细分如写回结果流水段一般不再细分 100 超流水线技术不用增加硬件而是采用时间重叠的方法将流水线中各功能段的延迟时间缩短利用超流水线技术可提高系统的时钟频率但是流水深度加深后当指令间出现各种相关时所引起的流水线的停顿时间也将增长 101 MIPSR4000指令流水线结构 102 各级的功能 IF 取指令的前半步根据PC值去启动对指令Cache的访问 IS 取指令的后半步在这一级完成对指令

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

指令级并行ppt课件.ppt

文档简介

温馨提示

最新文档

评论

指令级并行ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档