西北工业大学1队_第1页
西北工业大学1队_第2页
西北工业大学1队_第3页
西北工业大学1队_第4页
西北工业大学1队_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三届全国大学生计算机系统能力培养大赛,NOP四发射乱序处理器设计 The Npu Out-of-order Processor,西北工业大学1队 队员:蔺嘉炜 严盛恢 杨冰 指导教师:王党辉 王继禾,Contents,处理器总体架构 处理器核心模块设计 Linux操作系统展示 总结,绘图风格参考自龙芯3A3000/3B3000处理器用户手册图3.1 GS464e结构图,处理器核心技术,9级流水线:3级取指、1级译码、1级重命名、2级发射、1级执行、1级提交 4发射乱序执行:同时执行2条算术指令+1条乘除法指令+1条访存指令 PHT+RAS+Target Cache+指令预解码的高精度分支预测器 通过统一物理寄存器重命名解决指令假相关问题 发射队列推测唤醒、数据前递 通过全检查点实现功能部件单拍恢复 8K 2路组相联LRU替换算法Cache 32项全相联TLB支持,处理器核心模块设计-分支预测,Branch型指令: PHT & Pre-Decoder J型指令: Pre-Decoder Call/Return指令: RAS 间接跳转指令: Target Cache,根据分支指令的转移条件(条件/无条件跳转)、转移地址(立即数/寄存器),设计了不同的功能部件,对其分别进行预测:,处理器核心模块设计-分支预测,对call型指令 地址的预测,对return型指令 地址的预测,CheckPointed-RAS 内部构造,参考文献:Stphan Jourdan, et al. Recovery requirements of branch prediction storage structures in the presence of mispredicted-path executionJ. International Journal of Parallel Programming, 1997, 25(5):363-383.,处理器核心模块设计-分支预测,超过半数程序准确率已达到95%以上,“自从二级转移预测器出现以来,预测精度一般都在92%左右”,处理器核心模块设计-寄存器重命名,解决指令间写后写(WAW)及读后写(WAR)假相关问题 为目的寄存器分配新物理寄存器 查询源寄存器对应的物理寄存器,1: add t0, t1,t2 2: add t0, t3,t4 #WAW,1: add p0, p1,p2 2: add p5, p3,p4,rename,寄存器重命名的单拍快速恢复,基于SRAM的寄存器重命名表,采用全检查点恢复的FreeList,处理器核心模块设计-发射队列,A: add p1, p2, p3 #p1=p2+p3 D: add p4, p5, p1 #p4=p5+p1,RAW dependency,推测唤醒、数据前递 多种选择策略(Age-ordered、Unordered)可配置 激进的唤醒方式:真相关单周期指令也可同一拍执行,主频下降15%(65-55),IPC 比值提升30%! (26-34),唤醒(wake-up):在发射队列中标识出数据依赖已经满足的候选指令,处理器核心模块设计-发射队列,Age-ordered select logic 通过递归的方式描述以下电路,将选择逻辑参数化,-,系统展示,通过QEMU+GDB分析硬件需求 通过修改Linux内核、裁剪内核减少指令需求 在龙芯杯初赛规定指令集基础上扩充指令集、完善异常处理、TLB模块 PMON、uCore、Linux均可正常运行,系统展示-PMON,系统展示-uCore,系统展示-Linux,总结,不一味追求主频,尝试更先进的优化方向,挑战高难度设计 自行开发trace比对机制,短时间内完成4发射超标量处理器 使用经裁剪的指令集启动Linux 分支预测精确到每一条指令,消除了分支别名问题 实现了真相关单周期指令在发射队列中同一拍选择、发射 集成了大量现代超标量处理器中广泛使用的关键技术(checkpointed-RAS, checkpoint recovery, age-ordered select, speculative wake-up, etc),Future Work,访存优化,实现Store Buffer、非阻塞Cache、数据预取,目前访存阻塞是限制处理器性能的最重要因素。,9fc017a4: 8fbf0014 lw ra,20(sp),由于访存优化不足,导致处理器频繁地因为store+load序列阻塞,严重制约处理器性能,END,请各位专家批评指正!,附录,参考文献,胡伟武. 计算机体系结构(第二版)M. 北京: 清华大学出版社, 2017. 姚永斌. 超标量处理器设计M. 北京: 清华大学出版社, 2014. 张宇翔. NaiveMIPS 设计文档EB/OL.2019-8-15 Stphan Jourdan.et al. Recovery requirements of branch prediction storage structures in the presence of mispredicted-path executionJ. International Journal of Parallel Programming, 1997, 25(5):363 383.,附录,NOP处理器指令实现情况,ADD ADDI ADDIU ADDU DIV DIVU MADD MADDU MSUB MSUBU MUL MULT MULTU SLT SLTI SLTIU SLTU SUB SUBU AND ANDI LUI NOR OR ORI XOR XORI MFHI MFLO MOVN MOVZ MTHI MTLO SLL SLLV SRA SRAV SRL SRLV BEQ BGEZ BGEZAL BGTZ BLEZ BLTZ BLTZAL BNE J JAL JALR JR LB LBU LH LHU LW LWL LWR SB SH SW SWL SWR SYNC CACHE PREF WAIT SSNOP NOP BREAK SYSCALL ERET MFC0 MTC0 TLBP TLBR TLBWI TLBWR,附录,NOP CP0寄存器实现情况,Index Random EntryLo0 EntryLo1 Context PageMas

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论