.第十章安腾高性能处理机体系结构_第1页
.第十章安腾高性能处理机体系结构_第2页
.第十章安腾高性能处理机体系结构_第3页
.第十章安腾高性能处理机体系结构_第4页
.第十章安腾高性能处理机体系结构_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章安腾高性能处理器体系结构、高性能处理器体系结构的演化安腾体系结构的基本设计理念安腾指令系统体系结构指令级别的并行机制双核安腾处理器的构成、10.1高性能处理器体系结构的演化、第一、IA体系结构的历史演进2、英特尔64位处理器的两个体系结构、10.1高性能处理器体系结构的演化、第一、IA体系结构的历史演进IA32体系结构:IA32系列的第一个32位Pentium架构3360 CISC shell和RISC核心的结构、10.1高效能处理器架构的演进、2、Intel 64位元处理器的两个架构1、64T(Intel 64)3360是明确的平行指令运算平行指令集运算(explicit paral

2、lel instruction compution,epic)2、安腾体系结构:和IA32指令系统兼容性。10.2安腾体系结构的基本设计思想安腾体系结构摆脱了IA32 CISC体系结构的束缚,但没有完全复制RISC处理器的设计思想。EPIC不是RISC或CISC,而是吸收CISC和RISC优点的新体系结构。主要是显式并行指令计算(EPIC)技术扩展指令分析器(VLIW)技术分支推断技术推断技术软件流技术寄存器堆栈技术,10.2安腾体系结构的基本设计思想,1,这些属性信息不是在指令执行过程中由处理器确定的,而是编译程序在编译时通过源代码的分析获取指令级别的并行性信息,并将其写入执行代码。这就是所

3、谓的显式并行概念。EPIC技术分析源代码,根据指令之间的相关性确定可以并行执行的指令(最大限度地提高指令级并行度),将并行指令放在一起,对其重新排序,提取并计划相应的指令级并行度,然后通过属性字段“指示”其并行度,通知指令可执行部件。10.2安腾体系结构的基本设计思想,2,VLIW(长指令)技术VLIW(长指令)技术是提高计算机系统并行性的有效手段。在VLIW系统中,命令字体最多可达数百个字符,编译器已优化为将多个可并行执行的命令合并为具有多个操作码的单个长命令,从而控制多个单独的功能组件操作。EPIC是基于长指令的设计。通过将多个命令放在一个较长的命令中,可以有效地提高处理器中运行的每个部件

4、的利用率。10.2安腾体系结构的基本设计思想,3种推理技术,将现有的“if”分支结构转换为无分支顺序/并行代码,从而避免了错误预测分支带来的成本。与其在处理器运行分支时执行典型的分支预测,并选择最可能的分支运行,不如开始以分支所有可能的后续路径并行执行多段代码,并暂挂每个段代码的运行结果,直到处理器可以确定分支是否正在传输。然后保留处理器应选择的路径中的命令执行结果。使用推断技术后,原始传输命令将转换为条件执行命令。原始传输指令的所有分支并行运行,因此,无论哪个分支被击中,都不会出现管道阻塞现象,从而消除了由于分支预测错误而导致的管道重载效率低下的现象。进一步,由于程序分支或命令依赖等因素,许

5、多无法并行执行的命令现在可以完全并行执行,从而提高了处理器的执行效率。技术推测技术,包括10.2安腾体系结构的基本设计思想、4、控制推测和减少存储访问响应时间影响的数据推测。控制估计技术和数据估计技术允许从内存单元到通用寄存器提前执行取水命令。如果程序有分支,控制猜测技术将提前几个周期执行位于分支命令后面的参数命令,从而消除访问等待时间并提高命令执行并行度。数据猜测技术用于解决提前提取命令后的数据相关性问题。推测技术可以防止由于缓存命中失败而导致访问内存延迟的丢失,并消除处理器空闲导致并行性下降的缺点。10.2安腾体系结构的基本设计思想,5,软件流技术安腾体系结构提供了强大的硬件支持,在循环执

6、行过程中,一个循环的代码执行和下一个循环代码执行在时间上部分重叠,即下一个循环阶段在上一个循环阶段结束之前开始。安腾体系结构引入了支持软件流的新机制,包括自动寄存器重命名、推理执行和特殊循环终止命令。因此,安腾处理器可以通过旋转寄存器机制为每个周期阶段提供其自己的寄存器,无需扩展环路。安腾体系结构的编译器管理软件管线的硬件支持使编译器能够生成简化的代码,以非常并行的方式执行重复任务。10.2安腾体系结构的基本设计思想,6,寄存器堆栈技术安腾处理器使用128个公共寄存器中的96个堆栈寄存器来实现寄存器堆栈,并在处理器内部设置寄存器堆栈引擎RSE来管理寄存器堆栈。如果96个堆栈寄存器不足,寄存器堆

7、栈引擎可以自动将寄存器堆栈停靠在内部内存中,将寄存器堆栈溢出的数据传输并存储到内部内存中,或者在寄存器堆栈弹出数据时执行反向操作。这样,编译器将看到没有容量限制的寄存器堆栈空间。10.3安腾指令系统结构,第一,在安腾处理器内部设置了多个执行单元,以提高执行单元和指令类型并行处理能力。这些执行单元分为四类:整数算术、逻辑运算、移位和位处理等命令、32位数据和执行指针操作的I单元:整数执行单元。m单元:内存执行单元,用于执行公共寄存器、浮点寄存器和内存之间的参数(load)命令、存储(store)命令和一些整数ALU计算命令。b单位:传输执行单位。用于发出传输分支类命令。f单位:浮点执行单元,用于

8、执行浮点运算命令。因此,安腾命令系统中的所有命令都分为6种类型,每种类型使用一个或多个执行单元。10.3安腾指令系统结构,第二,安腾寄存器结构类似于RISC体系结构,安腾体系结构广泛使用寄存器任务。以下页面图仅允许所有其他命令在寄存器中工作的参数加载和存储store命令访问内存。基于安腾的处理器内用户可直接使用的寄存器数远远超过主流RISC处理器。提高数据访问速度,减少访问延迟,并更好地支持并行操作。10.3安腾指令系统结构,iii,安腾指令格式一般指令格式:安腾的每个指令占41个字符。寄存器操作数需要7位选择128个公共寄存器或浮点寄存器。因此,基于R Krr的典型安腾命令需要21位来标识两

9、个源寄存器操作数和一个目标寄存器操作数。大多数指令还需要6位字段来选择64个推理寄存器中的一个,以支持推理执行、软件流等功能。command bundle格式安腾体系结构使用使用群集命令编写的长命令技术。10.3 itanium命令系统结构,命令组命令集相互之间读取和写入相关,与写入相关,可以并行执行的命令集。“指令捆绑模板”字段用于实现EPIC的设计理念。另一方面,编译器可以通过5位数模板字段指定每个指令插槽中的指令使用的执行单元。另一方面,编译器可以通过“模板”字段明确提供指令绑定或指令绑定之间的依赖性。10.3安腾指令系统结构,4,安腾汇编语言格式 P1.co

10、m p2dest=src mnemonic是指令助记符。Dest是表示存储计算结果的寄存器的目标操作数。Src是提供多个寄存器操作数或立即操作数的源操作数。qp选择64个推断寄存器之一。如果在指令执行时选择的1位推断寄存器的当前值为1,则该指令的执行结果最终将由硬件采用。否则,该命令的执行结果将被硬件销毁。对于不需要寄存器的命令,在机器命令中默认指定固定为0的推断寄存器0。因此,可以将所有命令视为有条件地执行。.comp1。Comp2是指令完成字符,进一步规定指令必须完成的操作。10.4命令级别并行机制,1,执行技术1的推理,分支对系统性能的影响分支选择两个命令序列中的一个来执行两个命令序列中

11、的一个。要决定最终执行哪个命令序列,必须等到什么条件确定命令执行结果。如果指令执行遇到分支转移,则在判定作业执行之前,多个功能零件无法确定程式的执行方向,因此会闲置等待,从而显着降低系统效能。根据分支预测,处理器管线功能部件、10.4指令级并行机制、2、安腾推断技术原理推断,通过使用多个功能部件并行运行每个分支,然后根据决定结果选择分支的执行结果,可以消除大多数传输,从而提高整个系统的运行速度。使用显式并行指令计算技术的安腾处理器将处理器多个功能部件的并行处理能力与编译器的强大功能相结合,使编译器在编译时优化程序并消除传输,从而提高效率。安腾处理器的命令系统允许为每个命令指定推断寄存器。10.

12、4指令级并行机制,3,推断执行的示例2审查了典型的if-then-else结构之一。If (x=0) then m=m 1 else m=m-1在现有超纯量体系结构中完成上述判断通常先计划比较语句x和0。取得比较结果后,选择执行then分支或else分支。相应的汇编语句大致如下:长度为CMP x,0;比较x和0相对于jel1。如果相同,则标签L1相对于sub m,1;M=m-1反转jmp L2无条件传输到标签L2;L1:addm,1;M=m l L2:10.4指令级别并行机制示例2继续,安腾处理器可以在优化删除条件语句中编译分支指令,将该结构转换为序列的估计执行结构。尾部cmp eq P1,p

13、2=0,x;/无条件运行:如果R4寄存器的值与0相比较,并且相等,则估计寄存器P1为1,P2为0,P2为1 (P1) addm=1,m /P1为1,则m 1为m (P2)add m=-1,m /但是,如果您能够将此示例与安腾体系结构结合使用,那么这个简单的示例将帮助您理解安腾处理器的设计理念。10.4指令级并行机制,4,安腾处理器设计思路首先,安腾指令系统中的每个指令都可以支持推理执行,因此第二和第三个指令的条件判断不需要使用特殊的判断指令。后两个命令由条件执行,但整体条件确定结构不再需要分支命令。第二,指令的推断工作由编译器在编译过程中执行,不需要在处理器执行指令的极短时间内动态安排单个指令

14、的条件执行。最后,可以为每个命令指定推断寄存器,但无需等待确定推断寄存器的值,以便执行命令、命令解码和执行操作。在10.4指令级别并行机制、第二,推测技术1、存储访问延迟和指令级别并行现代计算机体系结构中,多级别存储系统可以有效地提高存储系统的性价比。但是,多个功能单元在实现并行处理的处理器上执行命令的速度仍然受存储访问速度的限制。最新的RISC处理器使用专用指令访问内存,数字获取指令经常成为影响处理器性能的瓶颈。有关查找命令对处理器并行执行命令的影响,请参阅下图。10.4指令级别并行机制,2,控制处理器访问延迟问题的方法是尽快执行访问操作。在安腾处理器上,控制猜测技术用于解决与上述接收命令相

15、关的控制相关问题。10.4指令级别并行机制,3,数据猜测控制推测技术可以解决分支和收购操作中的控制相关问题,但在指令优化过程中也可能存在数据相关问题。10.5双核安腾处理器的配置,1,双核安腾处理器的基本特征1,并行处理技术2,显式并行指令计算技术3,超线程技术4,3级大容量高速缓存缓冲内存5,硬件辅助虚拟化技术6,高速缓存安全技术,虚拟化技术,所谓虚拟化,是指用一个处理器模拟多个处理器的并行操作,每个处理器在一个平台上同时运行多个操作系统应用程序在相互独立的空间中运行,不会相互影响,从而大大提高了计算机的工作效率。返回,超执行绪技术1/2,双核心itanium处理器中,Intel将Penti

16、um 4处理器中使用的超执行绪技术首次引入itanium处理器系列,每个处理器支援4个执行绪,应用程式执行绪的数量是早期单核心产品的4倍。超线程技术2/2、超线程技术在一个处理器芯片内设计多个逻辑处理器核心,这些处理器核心共享整数计算设备、浮点计算设备、二级高速缓存等资源,但模拟为多个物理核心芯片。从软件的角度来看,系统好像有多个独立的处理器内核,允许单个处理器在线程级别执行并行计算,并支持多线程操作系统和应用程序软件。但是,核心硬件资源只有一套。因此,如果多个线程同时访问一个资源,则必须暂时停止其中的一个线程,直到该资源空闲,然后导出该资源。10.5双核安腾处理器的配置、2、双核安腾处理器的组织结构1、命令执行单元2、处理器流水线3、高速缓存组织4、双核仲裁、本章中的小结论、英特尔和惠普联合开发了64位安腾体系结构,取代了IA32体系结构。安腾计算机体系结构是64位高性能计算环境中的主流体系结构之一。该体系结构吸收了以前高级处理器体系结构的优点,提高了指令执行的并行性,从而提高了整个系统的计算性能。安腾体系结构的核心是显式并行指令计算(EPIC)技术。expic编译器可以通过基于完善的超长指令技术的指令系统,将编译过程中发现的并行性明确地传递给处理器。与基于超纯量技术的传统处理器相比,处理器充分利用编译器的强大功能,而不是在短时间内快速确定一系列指令中的并行执行关系,从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论