高性能微处理器的先进技术及典型结构.ppt

上传人：x*** IP属地：四川上传时间：2020-03-25 格式：PPT 页数：66 大小：799KB 积分：15 举报 版权申诉

已阅读5页，还剩61页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第16章高性能微处理器的先进技术及典型结构本章主要内容高性能微处理器的先进技术高性能微处理器的典型结构 16 1高性能微处理器所采用的先进技术 16 1 1流水线中的相关及其处理技术流水线技术是实现多条指令并行执行的重要技术现在它已成为建造高速CPU的一项基本实现技术流水级数为n的流水线在理想情况下可以使处理器性能提高n倍但是在实际中有一些情况会阻止指令流中的下一条指令在预定的时钟周期内执行这种情况称为指令间的相关 dependency 或险态 hazard 指令间的相关会造成流水线的停顿使指令不能连续不断地进入流水线其结果是降低了流水线的工作效率指令间的相关是指后面一条指令需要等前面一条或几条指令的执行结果或者要等前面的一条或几条指令用完它们所需要的硬件资源如存储器后才能执行完也就是说后面一条指令必须等待前面一条或几条指令流过流水线后才能执行完指令间的相关可分为结构相关数据相关和控制相关下面分别说明这三种相关的不同特性产生原因及处理方法 1 结构相关结构相关 structuraldependency 亦称资源相关它是指令流水线中在不同流水级 stage 上重叠执行的指令之间争用同一硬件资源时所产生的相关例如在流水线执行过程中出现访问存储器冲突就是结构相关的一个例子要缓解结构相关引起的流水线停顿问题可以采用把具有访问冲突的资源配置成多套的办法来实现例如可以采用分开式的Cache 即由指令Cache和数据Cache分别提供指令和数据即所谓哈佛结构而且可以把这两个Cache的总线及存储器地址寄存器也分开成两套使得当一条指令在某流水级上访问指令Cache时另一条指令在其他流水级上可以在同一时间访问数据Cache 2 数据相关在流水线中重叠执行的指令中如果后一条指令依赖于前面一条指令的执行结果就会出现数据相关 datadependency 在指令流水线中重叠执行的读数和写数指令之间若要使用同一个存储单元或同一个通用寄存器时就可能发生数据相关这可通过下面的例子来说明设有相继的两条算术运算指令如下 ADDR3 R2 R1 R3 R2 R1SUBR4 R1 R5 R4 R1 R5假设采用4级流水且分别是取指 F 译码 D 执行 E 和写结果 W 则上述两条指令在流水线中执行的时间图可能会出现如图16 1 a 所示的情况图16 1数据相关及其处理方法从图16 1 a 中可以看到指令2从寄存器R1中取操作数是在流水级D 而指令1把结果送入寄存器R1是在流水级W 显然指令2取操作数是在指令1把结果送入R1之前所以指令2取来的是R1中先前未执行指令1时的旧内容从而发生错误要解决数据相关需要设置专门的检查数据相关的硬件在每次取操作数时把取数的地址同它前面正在流水线中尚未完成写数操作的所有写数指令的写数地址进行比较如果有相同的说明有数据相关存在就必须采取相应措施就本例而言解决数据相关最简单的办法就是推迟执行读数操作等待相关的写数指令完成写数操作之后再执行读数操作如图16 1 b 所示从图16 1 b 可见指令2要等待指令1在流水级W的操作完成之后才启动流水级D的操作指令2在流水线中停顿了两个时钟周期这种机制称为流水线互锁 pipelineinterlock 是通过硬件实现的也有的用软件编译程序的办法来实现无论是通过软件还是硬件显然推迟执行读数操作的办法总要影响流水线的效率为了尽量缩短数据相关时指令在流水线中停顿的时间还有其他一些方法在此不再详述共有三种类型的数据相关分别是先写后读相关读写相关即RAW ReadAfterWrite 先读后写相关写读相关即WAR WriteAfterRead 和先写后写相关写写相关即WAW WriteAfterWrite 上面给出的例子属于先写后读 RAW 相关 3 控制相关控制相关 controldependency 主要是由转移指令或其他能够改变程序计数器 PC 内容的指令在流水线中进行处理时引起的以转移指令为例如果发生转移则流水线中在转移指令之后的指令要全部作废需要重新按转移地址取指令后才开始执行转移指令又分为无条件转移和条件转移两种类型它们对指令流水线效率产生的影响有所不同无条件转移指令在指令译码发现它的同时已经知道了转移地址可以较早地采取措施因而对流水线效率的影响比条件转移指令要小对于条件转移指令虽然在指令流水线前端的指令译码时就能发现但是确定转移方向的条件码却要在指令流水线的末端的执行部件中产生所以一旦在指令部件中发现条件转移指令指令部件就要停顿下来等待转移指令前面一条指令在执行部件中执行完毕产生条件码以后才能确定转移方向此时整个流水线已经排空没有指令在里面流动了如果转移条件成立执行新的指令流就要从指令部件预取新指令开始如果转移条件不成立虽然指令部件中原来预取的指令还有用但也要从指令部件分析指令开始等到指令流到执行部件时执行部件已经停顿了相当一段时间所以条件转移指令对流水线效率的影响很大为了改进由于条件转移指令引起的流水线断流现象减少条件转移指令造成的执行部件停顿时间可采用多项措施和技术 1 双分支预取对于条件转移指令而言共有两个分支方向一个是顺序执行的方向一个是转移目标的方向双分支预取就是在发现条件转移指令后同时向两个分支方向预取指令即除了继续顺序预取指令外还要按转移方向预取指令最后根据条件码所确定的方向选取其中的一个分支的指令进行分析和执行这样无论是否发生转移总有一个分支的指令可以使用从而节省了等待读取指令的时间即减少了流水线的停顿时间 2 加快和提前形成条件码有的指令的条件码并不一定要等待指令执行完毕得到运算结果后才能形成例如对于乘法和除法指令其结果积和商是正还是负的条件码在相乘或除前就能够根据两个操作数的符号位来确定乘法和除法指令的执行时间很长所以这种提前形成条件码的措施对减少条件转移指令引起的流水线停顿时间很有益处 3 转移预测转移预测有静态预测和动态预测两种静态预测是在程序编译时进行预测而在硬件设计中则规定条件转移指令总是向一个固定方向执行指令在编译时应尽可能使程序的转移方向与硬件规定的方向一致动态转移预测用硬件来实现它是在现代微处理器设计中普遍采用的一种行之有效的方法在前面第7章介绍Pentium处理器结构时曾介绍过这种方法 16 1 2指令级并行要提高计算机系统的整体性能可以在两个方面做出努力一是改进构成计算机的器件性能如微电子电路的速度功耗等二是要采用先进的系统结构设计而在系统结构设计方面一个重要的手段就是要采用并行处理技术设法以各种方式挖掘计算机工作中的并行性并行性有粗粒度并行性和细粒度并行性之分所谓粗粒度并行性是在多个处理器上分别运行多个进程由多个处理器合作完成一个程序所谓细粒度并行性是指在一个进程中实现操作一级或指令一级的并行处理高性能处理器在指令处理方面采用了一系列关键技术大多是围绕指令级并行处理这个核心问题发挥作用的下面通过两个例子来说明指令级并行性的特点和含义 1 AddR1 R1 2 2 AddR1 R1 3SubC2 C2 C1并行度 3SubR3 R1 R2并行度 1LoadC3 50R2StoreR0 R3在上面的例子中 1 的三条指令是互相独立的它们之间不存在数据相关所以可以并行同时执行即 1 存在指令级并行性其并行度为3 可并行执行三条指令 2 的情况则完全不同在其三条指令中第二条要用到第一条的结果第三条又要用到第二条的结果它们都不能并行执行即 2 的并行度为1 指令间没有并行性与指令级并行性有关的一个指标是每条指令的时钟周期数CPI ClockPerInstruction 它是在流水线中执行一条指令所需的时钟周期数 CPI随指令的不同而异比如在RISC机器中大多数指令的CPI等于1 但有些复杂指令需要几个时钟周期才能执行完则其CPI大于1 通常可以用平均CPI来说明一个处理器的速度性能平均CPI是把各种类型的指令所需的时钟周期数按一定的混合比出现的频度加权后计算得到它同另一种表示处理器速度的指标MIPS 每秒百万条指令的关系是 f CPI MIPS 其中f为时钟频率以MHz为单位例如 f 300MHz CPI 0 6 则处理器的速度可达300 0 6 500MIPS 需要说明的是在单处理器中挖掘指令级并行性实现指令级并行处理提高系统总体运算速度是通过处理器和编译程序的结合来实现的对于用户是完全透明的用户不必考虑如何使自己编写的程序去适应指令级并行处理的需要即处理器中实现指令级并行处理是由编译程序和处理器硬件电路负责实现的目前已有几种典型的开发指令级并行的系统结构如超标量结构超长指令字结构及超级流水线结构 16 1 3超标量技术在早期采用流水线方式的处理器中只有一条流水线它是通过指令的重叠执行来提高计算机的处理能力的而在采用超标量结构的处理器中则有多条流水线即在处理器中配有多套取指译码及执行等功能部件在寄存器组中设有多个端口总线也安排了多套使在同一个机器周期中可以向几条流水线同时送出多条指令并且能够并行地存取多个操作数和操作结果执行多个操作这就是所谓超标量技术 Superscalar 采用超标量结构的处理器中流水线的条数称为超标度例如 Pentium处理器中的流水线为两条其超标度为2 P P 处理器的超标度为3等采用超标量技术不仅要考虑单条流水线中的重叠执行还要考虑在流水线之间的并行执行其相关问题比单流水线的处理器要复杂得多这需要通过专门的技术来解决超标量处理器工作的大致过程是首先取指部件从指令Cache中取出多条指令并送至分发部件的指令缓冲器中这个指令缓冲器有时又称为指令窗口在每个机器周期分发部件都对指令窗口进行扫描一旦发现可以并行发送的指令并且和这些指令相对应的功能部件是空闲的则同时将它们送到功能部件去处理一般地说超标量计算机具有如下特点 1 处理器中配有多套取指译码及执行等功能部件采用多条流水线进行并行处理 2 能同时将可以并行执行的指令送往不同的功能部件从而达到每一个时钟周期启动多条指令的目的 3 对程序代码的顺序可通过编译程序进行静态调度或通过处理器硬件在程序执行期间进行动态调度以达到并行执行指令的目的从原理上讲超标量技术主要是借助硬件资源的重复来实现空间上的并行操作 16 1 4超长指令字结构超长指令字VLIW VeryLongInstructionWord 技术是1983年由美国耶鲁大学的JoshFisher在研制ELI 512机器时首先实现的采用VLIW技术的计算机在开发指令级并行上与上面介绍的超标量计算机有所不同它是由编译程序在编译时找出指令间潜在的并行性进行适当调整安排把多个能并行执行的操作组合在一起构成一条具有多个操作段的超长指令由这条超长指令控制VLIW机器中多个互相独立工作的功能部件每个操作段控制一个功能部件相当于同时执行多条指令 VLIW指令的长度和机器结构的硬件资源情况有关往往长达上百位 VLIW技术的主要特点 1 只有一个控制器单一控制流每个时钟周期启动一条长指令 2 超长指令字被分成多个控制字段每个字段直接地独立地控制特定的功能部件 3 含有大量的数据通路及功能部件由于编译程序在编译时已考虑到可能出现的相关问题所以控制硬件较简单 4 在编译阶段完成超长指令中多个可并行执行操作的调度 16 1 5超级流水线技术资源重复和流水线技术是开发计算机并行性的两个基本手段通过上面介绍的超标量技术和超长指令字结构可以看到这两种技术主要是依赖资源的重复来开发指令级并行性从而提高处理器性能的而超级流水线技术则是通过另一种途径来改进处理器执行程序的能力一个程序在计算机中总的执行时间T可用如下公式表示 T N CPI t式中N是被执行程序的指令总条数 CPI是每条指令所需的平均时钟周期数 t是时钟周期可见改变CPI和改变时钟周期t可能对机器速度产生等效的影响虽然不可能孤立地通过改变N CPI和时钟周期t中的某一因素来改进处理器的性能但是不同体系结构对于这三个因素的侧重程度是可以存在差异的超级流水线技术是从减小t着手的即它是把执行一条指令过程中的操作划分得更细把流水线中的流水级分得更多由于每个操作要做的事情少了可以执行得更快些因而可以使流水线的时钟周期缩短即可以把上式中的t缩短这样的流水线就是超级流水线 Superpipeline 如果设法把t缩短一半则相当于起到了CPI减少一半的作用如果一个处理器具有较高的时钟频率和较深的流水级那么就称它采用了超级流水线技术超级流水线技术的实现方式一般是将通常流水线中的若干流水级进一步细分为两个或更多个流水小级然后通过在一个机器时钟内发送多条指令在一定的流水线调度和控制下使得每个流水小级和其他指令的不同流水小级并行执行从而在形式上好像每个流水周期都可以发送一条指令对于超级流水线结构的处理器其机器时钟和流水线时钟是不同的在这种情况下流水线时钟频率通常是机器时钟频率的整数倍具体数值决定于流水级划分为流水小级的程度例如在MIPSR4000处理器中流水线时钟频率就是外部机器时钟频率的两倍 16 1 6RISC技术 1 RISC结构对传统计算机结构的挑战在计算机技术的发展过程中为了保证同一系列内各机种的向前兼容和向后兼容后来推出机种的指令系统往往只能增加新的指令和寻址方式而不能取消老的指令和寻址方式于是新设计计算机的指令系统变得越来越庞大寻址方式和指令种类越来越多 CPU的控制硬件也变得越来越复杂然而往基本的简单指令集中不断添加进去的一些复杂指令其使用频率却往往很低人们研究了大量的统计资料后发现复杂指令系统中仅占20 的简单指令竟覆盖了程序全部执行时间的80 这是一个重要的发现它启发人们产生了这样一种设想能否设计一种指令系统简单的计算机它只用少数简单指令使CPU的控制硬件变得很简单能够比较方便地使处理器在执行简单的常用指令时实现最优化把CPU的时钟频率提得很高并且设法使每个时钟周期能完成一条指令从而可以使整个系统的性能达到最高甚至超过传统的指令系统庞大复杂的计算机用这种想法设计的计算机就是精简指令集计算机简称RISC ReducedInstructionSetComputer 它的对立面传统的指令系统复杂的计算机被称作复杂指令集计算机简称CISC ComplexInstructionSetComputer 为了说明RISC的基本特性再看一下前面给出的计算程序总的执行时间T的公式 T N CPI t 实际上为了减少程序的执行时间 CISC机器采取的办法是减少N 但要略微增加CPI 同时可能增加t 而RISC机器采取的办法是减少CPI和t 但通常会引起N的增加 1980年 Patterson和Ditzel首先提出了精简指令集计算机RISC的概念并由Patterson和Sequin领导的一个小组于1981年在美国加州大学伯克莱分校首先推出第一台这种类型的机器 RISC机 RISC结构是计算机技术发展中的重要变革对传统的计算机结构的技术和概念提出了挑战 RISC不仅代表着一类计算机它的特性所涉及的关键技术还代表着一种设计哲学概括而言 RISC机器的主要特点有 1 指令种类少 2 寻址方式少 3 指令格式少而且长度一致 4 除存数 Store 和取数 Load 指令外所有指令都能在不多于一个CPU时钟周期的时间内执行完毕 5 只有存数 Store 和取数 Load 指令能够访问存储器 6 RISC处理器中有较大的通用寄存器组绝大多数指令是面向寄存器操作的通常支持较大的片载高速缓冲存储器 Cache 7 完全的硬连线控制或仅使用少量的微程序 8 采用流水线技术并能很好地发挥指令流水线的功效 9 机器设计过程中对指令系统仔细选择采用优化的编译程序以弥补指令种类减少后带来的程序膨胀的弊病 10 将一些功能的完成从执行时间转移到编译时间以提高处理器性能 RISC机并没有公认的严格定义以上只是大多数RISC机具有的特点有的机器虽然有其中的几条不符合但仍称作RISC机 16 2高性能微处理器举例 16 2 164位处理器Alpha21064 Alpha21064是Alpha处理器系列的首次实现其组成结构框图如图16 2所示图16 2Alpha芯片组成结构框图 Alpha21064的主要性能参数如下 1 字长64位外部数据通道64 128位 2 32位物理地址可直接寻址的物理存储空间为4GB 3 64位虚拟地址使虚拟存储空间可达16 1018B 4 分别有8KB的指令高速缓存和8KB的数据高速缓存 5 整数流水线 7级流水线 6 浮点流水线 10级流水线 7 片内时钟频率200MHz 外部时钟频率400MHz 峰值速度400MIPS 由图16 2可见 Alpha21064处理器由四个独立的功能部件 I盒 E盒 F盒及A盒及片上高速缓存组成主要包括 1 中央控制部件Ibox I盒 2 整数执行部件Ebox E盒 3 浮点部件Fbox F盒 4 地址转换和装入存储部件Abox A盒 5 指令高速缓存 8KB 和数据高速缓存 8KB 下面对Alpha21064的各组成部件做概要说明 1 片内高速缓存Alpha21064片内分开设立两个高速缓存一个为指令高速缓存包含指令转移历程表标志及指令代码指令高速缓存的大小为8K字节另一个为数据高速缓存大小也为8K字节此外还允许在片外配置高速缓存第二级高速缓存 2 四个功能部件 1 整数部件整数部件称为E盒即常规定点运算部件包括加法器乘法器移位器及逻辑运算部件此外整数部件还有一个由32个64位整数寄存器构成的整数寄存器堆 2 浮点部件浮点部件称为F盒即浮点运算器包括加法器乘法器和专门的浮点除法器 3 地址转换和装入存储部件地址转换和装入存储部件称为A盒负责将整数浮点数装入整数寄存器浮点寄存器或者将寄存器中的数写入数据高速缓存 4 控制部件控制部件称为I盒它采用了超标量流水线技术 Alpha处理器采用多级流水并分设两条流水线整数流水线及浮点流水线从预取指令开始随后进行资源冲突分析通过流水线控制使指令按流水处理方式执行 3 总线接口部件Alpha处理器的总线接口部件允许用户配置64位或128位的外部数据通道调整所需要的外部高速缓存容量和访问时间控制总线接口部件的时钟频率使用TTL电平或ECL电平等 Alpha是真正的64位体系结构它的所有寄存器都是64位宽它绝不是扩展成64位的32位体系结构 Alpha的设计目标是高性能长寿命并能运行多种操作系统 16 2 2Itanium 安腾处理器 Itanium处理器的基本设计思想是 1 提供一种新的机制利用编译程序和处理器协同能力来提高指令并行度采用创新的技术充分利用编译程序提供的信息和调度能力来提高指令并行度 2 简化芯片逻辑结构为提高主频和性能开辟道路信守工程设计上的一条基本原则即不是越复杂越好而是越简捷越好事实上简捷的构思比复杂的构思更困难 3 提供足够的资源来实现EPIC 包括存储编译程序提供的信息以及提高并行计算效率所需的处理单元高速缓存和其他资源 4 充分利用丰富的寄存器资源采用寄存器轮转技术让指令按顺序循环使用寄存器使得处理器在非常繁忙的情况下也不会出现寄存器不足的情况 Itanium处理器能够提供远比RISC处理器丰富得多的资源后继推出的Itanium处理器比前期的Itanium处理器所提供的资源还有进一步增加图16 3展示了了Itanium2处理器的外观图16 4给出了Itanium2的组成结构方框图 Itanium2的晶体管数已达214M 2 14亿只主频1GHz 线宽工艺 0 18 m 系统总线接口128位片内3级缓存 L1Cache为32KB L2Cache为256KB L3Cache已达3MB 8级流水指令时钟周期 IPC 数为6 即每个时钟周期可以处理6条指令片内寄存器数达328个等图16 3Itanium2外观图16 4Itanium2的框图 Itanium处理器具有64位内存寻址能力能提供近180GB物理内存当处理非常庞大的数据集时这种巨大的物理内存空间对于服务器应用是非常重要的由于该处理器有充裕的并行处理能力其内部有9个功能通道 Itanium2为11个包括2个整数通道 I 2个浮点通道 F 3个分支单元 B 2个存取单元 M 所以对于执行代码中出现的分支处理器采用了一种非常有趣的处理方式同时并行执行分支判断左分支和右分支当分支判断执行完毕后根据分支判断的结果放弃没有被转向的分支继续执行保留的分支这样就避免了由于分支预测错误造成的流水线清空这种大大影响系统执行效率的操作 16 3多核处理器简介 16 3 1复杂单处理器结构所遇到的挑战在过去几十年里处理器的设计主要采用复杂单处理器结构设计人员一直通过不断提高处理器结构的复杂度和提升工作频率来改进处理器的运算能力随着半导体制造工艺的不断发展硅片上能够利用的晶体管和连线资源越来越多同时随着晶体管特征尺寸的不断减小晶体管本身的延迟越来越小而硅片上的互联线延迟相对于门延迟则不断加大因此设计人员越来越倾向于将片上的晶体管资源分开管理借此平衡门电路的延迟和互联线的延迟另一方面处理器晶体管数量的不断增长及运行频率的提升导致了处理器的功耗越来越大甚至已经到了无法容忍的程度芯片的功耗在很大程度上影响着芯片的封装测试及系统的可靠性对于目前的主流处理器来说芯片产生的热量已经严重影响到处理器工作频率的提高这个问题甚至被业界人士认为是对摩尔定律的一大挑战 16 3 2多核处理器的出现在公元2000年以前由于功耗问题还没有特别严重地影响到处理器的设计所以设计人员利用晶体管的方案一直是复杂的单处理器结构并在此基础上相继推出了多种复杂的微体系结构设计如指令转移预测寄存器重命名动态指令调度和复杂的Cache结构等然而这种复杂的单处理器结构所带来的性能上的提高相比以前已经大大降低了事实说明必须采用新的处理器设计思路即通过在单个芯片上放置多个相对简单的处理单元通过片上互联网络将这些处理单元连接起来充分利用应用程序的并行性来提高处理器的运算能力而不是单纯地依靠提升单个处理器的硬件复杂度和工作频率来提高处理器性能这就是多核处理器的基本设计理念并由此导致了多核处理器的出现产生多核处理器设计理念的基本原因复杂单处理器结构提高性能的途径通常是充分地利用负载程序内在的指令级并行性 ILP 采用的方法是加大流水线的发射宽度采用更加激进的推测执行和更为复杂的Cache结构这样做的结果是使处理器的硬件复杂度越来越高从而导致消耗庞大的晶体管资源和大量的设计验证时间目前负载程序的ILP的利用已渐渐逼近极限而负载程序的另一种并行性线程级并行性 TLP 则无法在复杂单处理器结构中得到有效利用虽然晶体管特征尺寸的减小会使晶体管的延迟进一步缩小但片内互连线延迟占每一级流水线的延迟比重则越来越大目前一些高性能的复杂单处理器的功耗已经高达上百瓦特了这样巨大的能量密度对于晶体管工作的可靠性和稳定性带来极不利的影响上述原因导致了设计人员必须把目光转向新型的处理器结构单芯片多核处理器结构 Single ChipMultiProcessor 简称CMP结构 CMP结构在单芯片上放置多个彼此独立的处理器核心并且通过片上互联网络将这些核心连接起来使得这些处理器单元之间可以高带宽低延迟地交换数据 CMP的结构特点可以很好解决前述复杂单处理器结构的技术瓶颈给现代处理器的设计展现出一片光明前景 16 3 3多核处理器结构的主要特点 1 降低了硬件设计的复杂度CMP可以通过重用先前的单处理器设计作为处理器核这样可以仅需微小的改动就可以搭建起一个高效的系统而复杂单处理器的设计为了达到很少的性能上的提高就需重新设计整个控制逻辑和数据通路这些控制逻辑由于紧密耦合而异常复杂因此需要耗费设计人员大量时间和精力 2 充分利用应用程序的并行性复杂单处理器结构通过多发射和推测执行来利用ILP以提高处理器性能但它无法利用应用程序的线程级并行性 TLP 相反 CMP将注意力集中于TLP的有效利用通过多处理器核并行执行应用程序的多个线程来提高处理器的整个性能 3 降低全局连线延迟晶体管特征尺寸的缩小导致了互连线延迟占据处理器周期延迟的比例在增大在复杂单处理器结构中由于各个功能模块紧密地耦合在一起运算部件的结果总线需要把运算结果传递到许多模块由于多发射的原因造成模块之间频繁地交换数据从而导致处理器整体性能下降相反 CMP结构的各处理器核是松散地耦合在一起的处理器核之间的数据交换通过片上互联网络来完成虽然全局连线延迟的增大同样会损失CMP的性能但是相比复杂单处理器结构这种交换共享数据的行为并不是经常发生的因此性能损失相对较小另外通过软件的方法仔细地分配各处理器核上的数据也可以减少需要在核间交互共享数据的频度从而获得处理器整体性能的提升 4 具有良好的功耗有效性复杂单处理器的紧密耦合结构及频繁的全局数据交换使其受到了难以逾越的功耗制约而CMP结构利用多个处理器核并发执行多个线程这样就减轻了每个处理器核的性能压力所以CMP不需要设计象复杂单处理器那样明显高功耗的复杂硬件 CMP也不需要象复杂处理器那样竭力提高运行频率来换取高性能相反可以适当降低空闲处理器核的工作频率这样虽然牺牲了单处理器核的性能但CMP的整体性能并不会受到明显影响即CMP结构具有较好的功耗有效性 16 4现代PC机主板典型结构主板 Motherboard 是PC机系统的核心组成部件它包括了构成现代PC机的一系列关键部件和设备如CPU 或CPU插座主存高速缓存芯片组 Chipset 及连接各种适配卡的扩展插槽等采用先进的主板结构及设计技术是提高现代PC机整体性能的重要环节之一图16 5给出了一个PC机主板的外观图示图16 5PC机主板外观图示 16 4 1芯片组桥芯片及接口插座在微型计算机系统中芯片组实际上就是除CPU外所必需的系统控制逻辑电路在微型计算机发展的初期虽然没有单独提出芯片组的概念和技术但已具雏形如IBMPC XT系统中的各种接口芯片如并行接口芯片8255A 串行接口芯片8251 定时计数器8253 中断控制器8259及DMA控制器8237等现代微型计算机中的芯片组就是在这些芯片的基础上不断完善与扩充功能提高集成度与可靠性降低功耗而发展起来的用少量几片VLSI芯片即可完成主板上主要的接口及支持功能这几片VLSI芯片的组合就称为芯片组采用芯片组技术可以简化主板的设计降低系统的成本提高系统的可靠性同时对今后的测试维护和维修等都提供了极大的方便芯片组有的由一块大规模集成电路芯片组成有的由两块芯片组成有的由三块或更多芯片组成它们在完成微型计算机所需要的逻辑控制的功能上是基本相同的只是在芯片的集成形式上有所区别在现代微型计算机中芯片组多数是由两块称为北桥及南桥的桥芯片组成的北桥芯片也称为系统控制器负责管理微处理器高速缓存主存和PCI总线之间的信息传送该芯片具有对高速缓存和主存的控制功能如Cache的一致性控制主存的动态刷新以及信号的缓冲电平转换和CPU总线到PCI总线的控制协议的转换等功能南桥芯片的主要作用是将PCI总线标准协议转换成外设的其他接口标准如IDE接口标准 ISA接口标准 USB接口标准等此外还负责微型计算中一些系统控制与管理功能如对中断请求的管理对DMA传输的控制负责系统的定时与计数等即完成传统的中断控制器8259 DMA控制器8237以及定时计数器8253的基本功能早期通常是将微处理器直接焊在主板上而现代微处理器则往往是通过一个焊接在主板上的符合一定标准的接口插座与主板相连这样便于在不更换主板的前提下就可以升级微处理器以提高整机的性能价格比常见的微处理器接口插座的主要类型有Socket5 Socket7 Socket8 Socket370等 Pentium 微处理器则采用了与过去微处理器不同的封装形式在主板上采用了Slot1接口标准该接口标准一改过去将微处理器贴在主板上的方法而是通过SEC封装形式将微处理器模块插接到主板的Slot1插槽内该插槽在外形上类似PCI总线插槽但引脚定义内部连接则完全不同 16 4 2PentiumPC主板结构 PentiumPC主板结构框图如图16 6所示该图中插在Socket7插座上的是Pentium75 2

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

高性能微处理器的先进技术及典型结构.ppt

文档简介

温馨提示

最新文档

评论

高性能微处理器的先进技术及典型结构.ppt

文档简介

温馨提示

最新文档

评论

相关文档