第七周学习报告容许时延乱序执行通过独立的并行操作来容忍多循环延迟

上传人：洞*** IP属地：北京上传时间：2023-03-25 格式：DOCX 页数：15 大小：846.45KB 积分：12 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Lecture13Out-of-OrderExecutionandDataQuestionstoOoOLatencytolerance(容许时延)：乱序执行通过执行独立的并行操作来多循环操作的延Tomasulo有效的/寄存器vs器，在寄存器和器之间基本的不同已知的寄存器依赖是静态的，器依赖是动态寄存器状态很小，器状态很在一个乱序机器中需要遵循器依赖，并且提供高性能的时候需要这样观察和问题：在一个load/store执行之前，器的地址是不知道2load/store3load/storeload/store指load保守型：在所有先前的store地址计算出了它们的地址（或者甚至从机器中退出来）之前，一直都阻塞load指令loadstore指令，则立即指定load指聪明型：如果load依赖于任何未知地址的store指令，用一个更高级的预测器来预测store-load依赖处在所有先前的store地址获得之前，一个load依赖状态是不可知store指令之前，OoOloadOption1store指令实现（不需要检查地址的匹配度）之前处于等待状Option2store缓冲区中，使一系列store指令处于等待状态并且检查load地址是否符合先前的store地址一个OoO引擎相比于先前的store指令，是如何对待一条load指令的Option1load依赖于所有先前的store指Option2load不依赖于所有先前的store指Option3：在一个显著的store指令中，预测一条load的依赖Option1loadstoreOption2loadstoreOption3storeloadstoresloads我们不能在程序命令之外更新-->storeloadloadstore指令的地址，两个问题仍storestoreloadloadsstores一个OoO一个现代OoO设计 Pentium Pentium4Alpha IBM2在每个核中，100个指令窗81.5MB，8条L2IBMPOWER数据流节点（DataFlow执行由数据的存在和触非常发掘不寻常的并行除错，没有精准的状中断/执行处理是的（什么是精准的状态语义在单纯的数据流模型中，实现动态的数据结构是很高开销（tag匹配，数据Model1ISAModel2：保持数据流的模式，但是在ISA水平上包含一些控制流以提升效率，发掘一些ISALecture SIMDProcessing（VectorandArrayFlynn’sTaxonomyof数据并行度（DataSIMDSIMD阵列vs在续的循环中，一个矢量指令在每个元素上执行一个操+高级常规的器获取模通过多个内存条，利用交错矢量数据元素提供更高的带宽（内存条延迟NM-bitVLEN的最大容量是从/向器中load/store矢loading/storingMemoryBanking（内存条如果所有的N有不同的条，那么能维持N矢量系如果间隔=1&&>=条的延迟，可以维持一个元素/循VectorChaining（矢量矢量loads和stores利用一 Idea：操作（Masked矢量/SIMD矢量/SIMD机器发掘常规的数据级并行记住AmdahlCRAY-1是在它所处时期最快的标量机器许多现存的ISASIMD操作Lecture GPUsSIMDSIMD流水线（如阵列处理器）SIMD指令vs.如vonann模式是通过OoO处理器来实现SPMDSIMD处理器（GPU）一个GPU是一个SIMD（SIMT）机SIMD利用线程（SPMD编程模式）SIMDvsSIMTSIMD：SIMD指令的一个单一的序列指令流-->SIMT：标量指令的多指令流-->线程动态的组织成SIMD能单独对待每个线程-->能独立执行每个线程（在一个种类的标量流水线上）-->MIMD能将线程组织成复杂的网状-->能组织那些本应该真正执行相同指令的线程-->动态的得到和最SMD处理的优点假设一包含32个线32K1K的可以在相同的流水线上交错-->细粒度多线程的一GPU的高级观察级FGMT交叉执行以隐藏延FGMT基于的SIMD指令vs.传统的SIMD指传统的SIMDISA包含矢量/SIMD在一个SIMD操作（如用所有的线程执行相同的指令）中，基于的SIMD包含多标量线ISA是标量的-->矢量指令能够态的组SIMD硬件上实现SPMD许多科学应用采用这种方法编程并且在MIMD现代GPUsSIMD在的SIMD中，线程能采取不同的路GPUs/SIMT一个GPU利用一个SIMD器分散（Memory现代GPUs有使主存的几率最小集成分支和器分散的方SISDSISDVLIW（VeryLongInstructionDecoupled被打包的指令是逻辑不相关的（和SIMD对照）VLIWRISC（JohnCocke，1970s，IBM801迷你电脑编译器做最的工作，将高级语言代码翻译成简单的指令VLIW（Fisher，ISCA编译器做最的工作从而发现指令级并行VLIW

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第七周学习报告容许时延乱序执行通过独立的并行操作来容忍多循环延迟

文档简介

温馨提示

最新文档

评论

第七周学习报告容许时延乱序执行通过独立的并行操作来容忍多循环延迟

文档简介

温馨提示

最新文档

评论

相关文档