第3章(CPU).ppt_第1页
第3章(CPU).ppt_第2页
第3章(CPU).ppt_第3页
第3章(CPU).ppt_第4页
第3章(CPU).ppt_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3章 微型机的中央处理器CPU,性能指标 关键技术 功能结构 发展趋势,CPU中央处理器 MPU微处理器 Intel 4004(4位) 8080、Z80微机(8位) IBM PC简称PC(Personal Computer) 16位 Intel 8088(8086的简化版) 表31,第3章 微型机的中央处理器CPU,3.2 CPU的主要技术参数,位、字节和字长 时钟频率 主频、外频和倍频、 超频运行 L1和L2 Cache的容量和速率 扩展指令集 工作电压 总线宽度 地址总线宽度、数据总线宽度 制造工艺,3.2.1 位、字节和字长,位: 二进制位,“0”或“1”。 字节:8位二进制位 字:

2、两个字节 字长:CPU一次处理的二进制数的位数,常见的有1、4、8、16、32、64位。,3.2.2 时钟频率,时钟频率:周期性脉冲信号的频率,单位Hz。 主频:工作频率,CPU内核的实际运行频率。 外频:前端总线频率或系统总线时钟频率,由主板提供的时钟频率,是内存等的工作频率。 倍频系数:主频=外频倍频系数(486DX2),超频运行:使CPU工作在高于额定工作频率,3.2.3 L1和L2 Cache的容量和速率,L1和L2 Cache的容量和工作速率对提高微机速度起关键作用 L2 Cache对提高运行图形处理较多的软件速度有显著作用,3.2.4 CPU扩展指令集,增强CPU的多媒体、图形、图

3、像和Internet等的处理能力。 Intel MMXMulti Media eXtended ,多媒体扩展 SSEStreaming-Single instruction multiple data(SIMD)-Extensions ,单指令多数据流扩展 SSE2、SEE3 AMD 3DNow!3D no waiting Enhanced 3DNow!,3.2.5 工作电压,CPU正常工作所需的外加电压,电压越低功耗越小、运行速度越高。 早期(286486时代)一般为5V,CPU的发热量大,寿命短。 近年来CPU的工作电压有逐步下降的趋势 一般CPU工作电压低于3V,有的已低于2V。 笔记本

4、专用CPU工作的电压更低,1.2V。,3.2.6 地址总线宽度、数据总线宽度,地址总线宽度可访问的物理地址空间 如:32根地址线的寻址能力为4GB(232B) 数据总线宽度与二级高速缓存、内存和I/O设备间一次数据传输的位数,28=256 210=1K 216=65536=64K 220=1M 230=1G 232=22230=4G,3.2.7 制造工艺,线宽芯片上最基本功能单元(门电路)的宽度,也是连线的宽度,目前采用铜连线 。 第一代奔腾 CPU为0.35微米,266Mhz PII和赛扬为0.25微米,450Mhz 铜矿核心的奔腾为0.18微米,1.13Ghz Northwood核心的奔腾

5、4 CPU为0.13微米 Prescott核心的奔腾4 CPU为0.09微米 目前为65纳米,3.3 提高CPU性能的先进技术,3.3.1 流水线与超标量结构 指令的执行过程: 取指令FI:从内存读取这条指令。 译码D:将指令翻译成操作命令。 取操作数FO:从内存中读取执行该条指令所需的操作数。 执行指令E:CPU个部件实际执行这条指令。 回写W:将执行的结果送回内存或寄存器中。,取指令FI,流水线指令的执行过程,流水线(pipeline),在486中首次使用 在CPU中由不同功能的电路单元组成一条指令处理流水线,将一条X86指令分解后由这些电路单元分别执行。 目前,CPU的流水线已长达几十级

6、,流水线(pipeline),流水线的问题 相关 后面的指令需用前面指令的运行结果 解决的方法:乱序执行在两条相关指令中插入不相关的指令 转移 条件转移 解决的方法:分支预测,在没有得到结果之前预测下一条需执行的指令,目前能达到90%以上的正确率。,超标量技术(superscalar),Pentium是Intel家族中最早采用超标量结构的处理器 CPU中有一条以上的流水线 CPU集成了多个ALU、多个FPU、多个译码器,以并行处理的方式来提高性能。,3.3.2 高速缓存(Cache)技术,CPU的运算速度与主存的读写速度不匹配 在CPU与主存间加入容量较小、与CPU速度相当的SRAM(静态存储

7、器) Cache储存了主内存的映象,通过访问Cache 来完成数据的读写。 Cache全部技术由硬件实现,对应用程序和系统程序员均透明。,1.Cache的实现原理,Cache的工作原理是基于程序访问的局部性 时间局部性:如果一个存储项被访问,则可能该项会很快被再次访问。 空间局部性:如果一个存储项被访问,则该项及其邻近的项也可能很快被访问。 Instruction Cache(指令缓存)和Data Cache(数据缓存),Cache的工作原理,Cache的命中率,命中率:命中的访问次数和总访问次数之比 命中时间:访存Cache 失效率:失效的访问次数和总访问次数之比 失效时间:访问存储器 Ca

8、che的容量 大:命中率高、命中时间长 当超过一定值后,命中率随容量的增加并不会有明显地增长 小:命中率低;命中时间短。,Cache系统须解决的三个问题,1. 定位问题 处理器按主存地址访问存储器 通过主存Cache地址映象机构判定该地址的存储单元是否在Cache中 如果在(命中),按Cache地址访问Cache。 2. 替换问题 不命中时,要从主存储器调入数据到Cache 若Cache满,则按某种算法将Cache中的某一块替换出去,并修改有关的地址映象关系。,Cache系统须解决的三个问题,3. 数据一致性( Cache与主存储器数据一致性) Cache内的数据经过运算后比主存储器的数据新

9、何时将Cache 中得到的结果写到主存储器中,2.Cache的基本结构与地址映象方式,Cache通常由相联存储器实现 访问相联存储器时,将地址和每一个标签进行比较,对标签相同的存储块进行访问。,Cache的组成,Cache的地址映象与变换,1. 完全相联法(全相联映象),主存块可映象到任何Cache块 当Cache块全部装满后才会出现块冲突 命中率高、命中时间长,Cache的地址映象与变换,2. 直接映象法 主存块映象到Cache中指定的块 更新数据,原块将无条件地被替换。 命中率低、命中时间短。,Cache的地址映象与变换,3. 组相联法(组相联映象),将存储空间分成若干组 组采用直接映象

10、组内各块采用全相联映象,3.Cache与DRAM存取策略,读方式: 贯穿读出式(Look Through) 旁路读出式(Look Aside) 写方式: 写回式(Copy Back) 全写式(Write Through),贯穿读出式(Look Through),数据请求先送到Cache,不命中再将数据请求传给主存。 降低了对主存的访问次数,但延迟了对主存的访问时间。,旁路读出式(Look Aside),同时向Cache和主存发出请求,命中后切断对主存的请求 对主存访问无延迟,但占用总线。,写回式(Copy Back),写操作时信息只写入Cache,当替换时才将改写过的Cache块送回主存。 复

11、杂,数据一致性的问题,效率高,全写式(Write Through),写操作时,信息同时写入Cache和主存。 简单,写主存速度低、占用总线,效率低。,写一次式,第一次为全写式,以后采用写回式 数据一致性与效率间的平衡,PC中的Cache技术的实现,4.Cache的替换策略,先进先出(First In First Out,FIFO) 依据是数据在Cache中的时间,而不是其在Cache中的使用情况 最不经常使用(Least Frequency Used,LFU) 被替换的是两次替换间隔内CPU访问次数最少的。 近期最少使用(Least Recently Used,LRU),替换在近段时间里,被C

12、PU访问次数最少的,是LFU的拓宽,目前最优秀的。,5.Cache的分级体系设计,微处理器性能=k(f1/CPI(1H)N) K:比例常数 f:工作频率 CPI:每条指令执行需要的周期数 H:Cache的命中率 N:存储周期数。 提高处理器的性能 提高工作频率 提高指令级的并行度 提高Cache的命中率,5.Cache的分级体系设计,80%,16%,4%,5.Cache的分级体系设计,L1 Cache为内置(即在CPU内部)一般采用SRAM,容量有加大的趋势。 L2 Cache有内置和外置两种,内置与CPU同步工作,外置一般与CPU实现紧密耦合,如果CPU与L2 Cache集成在单芯片上,的耦

13、合效果可能更佳。 如CPU内已有L1和L2 Cache,主板上的称为L3 Cache。,3.3.4 扩展指令集,从P MMX开始,Intel和AMD的处理器在X86指令集的基础上各自开发了扩展指令集。 包含对多媒体、3D处理等方面的支持 需有必要的软件支持,1. MMX技术,是SIMD 技术在奔腾的具体实现 向下兼容与已有的操作系统和软件 处理定点数据 MMX技术核心 4种新的数据类型 8个64位宽的MMX寄存器 57条新指令,MMX技术的主要特点,1. “SIMD”型指令 一条指令可处理多个数据 2.“饱和运算” 当运算结果超出最大值时按最大值运算 当运算结果低于最小值时按最小值运算 3.“

14、积和运算” 执行:乘法运算+加法运算,MMX的SIMD,X=(1, 2, 3, 5, 8, 9, 0, 5),Y=(1, 2, 3, 5, 8, 9, 5, 7),Z=(2, 4, 6, 10,16,18,5,12),+ + + + + + + +,MMX的“饱和运算”,原信号波形 (无符号数),原信号波形经过非饱和运算放大,原信号波形经过饱和运算放大,MMX的“积和运算”,63 48 47 32 31 16 15 0,3. “3D NOW!”技术,AMD公司推出 第一种3D 加速指令集 “SIMD” 加速对象是的浮点运 算 主要针对三维建模、坐标变换和效果渲染等 Enhanced 3DNow

15、!指令集,2. SSE技术,最先运用于P III系列 提高处理器浮点性能 提升图像处理、浮点运算、3D运算、多媒体处理等应用能力 与3DNow!不兼容 包含了3DNow!中的绝大部分功能,从软件实际运行效果来看SSE比3D Now!更胜一筹。,4. SSE2和SSE3技术,SSE2和SSE3指令集主要用于P 4系列 SSE2包括:SSE和MMX SSE3划分为五个应运层 数据传输命令 数据处理命令 特殊处理命令 优化命令 超线程性能增强 超线程性能增强是一种全新的指令集,它可以提升处理器的超线程的处理能力,大大简化超线程的数据处理过程,使处理器能更加快速地进行并行数据处理。,3.3.5 64位

16、体系,64位计算:64位的处理器、操作系统和软件 64位计算的主要优点 快速进行更大范围的整数运算 例:64位加法:Z=X+Y 32位实现 ZL32 = XL32 +(半加ADD)YL32 ZH32 = XH32 +(全加ADC)YH32 64位实现 Z = X +(半加ADD)Y 可以支持更大容量的内存(一般为64位地址),3.3.5 64位体系,兼容X86的64位的主流技术 AMD的AMD64(X86-64、AMD64 ISA) ISA:Instruction Set Architecture Intel的EM64T(IA32Extension) IA:Intel Architecture

17、 EM64T:Extended Memory 64 Technology,IA-64,HP和Intel合作开发 不兼容现在的X86 32位处理器。 RISC和VLIW(超长指令字)的结合起来,采用EPIC(Explicitly Parallel Instruction Computing )技术,定义了新的64位ISA。 Itanium(安腾)系列,1. AMD 64位技术,兼容32位X86软件 支持64位长模式(Long Mode)和16/32位传统模式(Legacy Mode) 新增几组CPU寄存器提供更快的执行效率 Athlon(速龙)64、FX和Opteron(皓龙)系列,2. Int

18、el 64位技术(EM64T),兼容32位X86软件 支持IA-32扩展模式(IA-32e mode)和传统IA-32模式(legacy IA-32 mode) Xeon、P4 6和P4 EE系列,3.3.6 超线程技术(HT),CPU性能的提升,可以有多种不同的方法: 1、提高时钟速率 2、充分利用处理器资源 采用超级流水线 分支预测 超标量 容量更大的高速缓存 3、超线程技术(Hyper-Threading,HT) Intel处理器技术的重要里程碑,3.3.6 超线程技术(HT),3.3.6 超线程技术(HT),分配线程 支持HT的操作系统将一个P4“视作”两个虚拟(逻辑)处理器,为每个虚

19、拟处理器分配一个线程。 分配资源 在两个虚拟处理器间分配执行资源(高速缓存、执行单元和总线等),充分利用闲置资源。 多个线程同步执行 在多任务环境中,HT处理器可提高软件性能 在多处理器环境中运行的Windows应用程序可在基于HTP4系统中运行,3.3.6 超线程技术(HT),1、支持HT的Intel P4 2、支持HT的Intel芯片组 3、BIOS支持HT并被设为开启状态 4、针对HT而进行了优化的操作系统 Windows XP(Professional/Home),Intel建议为Windows XP Professional选择SP1。 Red Hat Linux 9(Profess

20、ional/Personal)、Red Flag Linux Desktop 4.0、SuSe Linux 8.2(Professional和Personal)和COSIX Linux 4.0。 5、针对HT的软件,3.3.7 多核心技术双核心,是CMP(Chip Multi Processors,单芯片多处理器)中最基本、最简单、最容易实现的一种类型 在一块CPU基板上集成两个处理器核心,并通过并行总线将各处理器核心连接起来。 处理器的运行起来象是一个双处理器架构,但实际上只是一个单处理器架构。 软件必须进行专门的设计才能够充分利用多个核心,3.3.7 多核心技术双核心,3.3.7 多核心技

21、术双核心,3.3.7 多核心技术四核心,3.3.7 多核心技术四核心,迅驰(Centrino)移动计算技术,构使笔记本更轻、更薄、更省电、功能更强 不只是一个CPU,是一套具备无线技术网络的移动系统!,P M 855芯片组 PRO/Wireless 2100无线网络接入适配器,酷睿2处理器移动版本平台,3.4 CPU的封装与接口类型,3.4.1 CPU的封装 封装是集成电路芯片的外壳,是制造的最后一步也是最关键的一步。 作用 安放、固定、密封、保护芯片和增强导热性 与外部电路的连接 封装材料 Organic有机 Ceramic陶瓷 Plastic塑料,3.4.1 CPU的封装,DIP(Dual

22、 In-line Package) LCC(Leaded Chip Carrier),3.4.1 CPU的封装,QFP(Quad Flat Pockage),3.4.1 CPU的封装,SECC(Single Edge Contact Cartridge),3.4.1 CPU的封装,3.4.1 CPU的封装,PGA(Pin Grid Array Package),3.4.1 CPU的封装,3.4.1 CPU的封装,3.4.1 CPU的封装,FCPGA(Flip-Chip PGA),3.4.1 CPU的封装,FCPGA2 增加HIS顶盖(Integrated Heat Spreader),3.4.

23、1 CPU的封装,LGA(Land Grid Array),3.4.1 CPU的封装,MMC(Mobile Mini-Cartridge ),3.4.1 CPU的封装,mPGAPGA(micor PGA),3.4.2 CPU的接口,CPU和主板连接的接口 主要有两类: 卡式接口SLOT,CPU竖立插在主板上,Slot 1插座,Slot A插座,3.4.2 CPU的接口,针脚/触点式接口Socket,CPU平放在主板上,Socket 8插座,Socket 370插座,3.4.2 CPU的接口,Socket 423,Socket 478,Socket 775/Socket T,3.4.2 CPU的

24、接口,Socket A/Socket 462,Socket 754,Socket AM2,3.5 CPU的内核(Die),CPU内核的类型制造商对内核给出的代号 版本变更的一般原因: 修正上一版存在的错误,并提升一定的性能。 制造工艺、核心面积、晶体管数量。 核心电压、电流大小(功耗)。 各级缓存的大小、前端总线频率(FSB)、主频范围、流水线架构、支持的指令集。 封装方式和接口类型,3.6 典型CPU介绍,Pentium (奔腾),1993年推出,内部代号是P54C, 即经典奔腾(Intel Pentium Classic),3.6 典型CPU介绍,Pentium Pro高能,1995年推出

25、,属P6系列。,3.6 典型CPU介绍,Pentium MMX多能,1996年推出,内部代号是P55C,3.6 典型CPU介绍,Pentium II,1997年5月推出,与Pentium Pro为同一个级别。,3.6 典型CPU介绍,第一代Pentium III处理器,SSE,3.6 典型CPU介绍,第二代Pentium IIICoppermine,FCPGA 370 封装,第三代Pentium IIITualatin,3.6 典型CPU介绍,Celeron “赛扬”,取消或减少了内部缓存器的 处理器 发展的八个阶段: 第一阶段:代号为“Covington”的赛扬266和300 没有片内L2缓

26、存。赛扬的浮点运算能力与PII一样,而其整数运算能力很差。 采用0.25微米,Slot 1架构。 第二阶段:代号为“Mendocino”的赛扬300和333、366、400 128K L2缓存,并以与CPU相同频率工作。 采用0.25微米,Slot 1架构。,Celeron “赛扬”,第三阶段: 采用了Socket 370架构 核心工作电压为2.0V,Celeron “赛扬”,第四阶段(赛杨2代): SIMD、SSE指令,全速L2(128K) PII结构,0.18微米。 外频66MHZ,主频533766MHZ。,第五阶段: 100M外频的赛扬800 0.18微米 1.70V核心电压 全速的L2

27、缓存,L2和CPU核心之间的通道是256位。,Celeron “赛扬”,第六阶段:(赛扬3) 起步频率为1.0GHz 采用0.13微米Tualatin核心 全速的32KB一级缓存和256KB的二级缓存 100MHz FSB 核心电压1.475V,Celeron “赛扬”,第七阶段:(赛扬4) 工作频率1.7G 400MHz的前端总线 基于Notherwood核心的 128KB二级缓存 0.18微米 核心电压1.7V,Celeron “赛扬”,Celeron “赛扬”,第八阶段:(Celeron D) FSB由400MHz 提升至533MHz SEE3 指令 LGA 775 采用了Prescot

28、t核心,L1 Data Cache 由8KB 增至16KB,L2 Cache 同样增大了一倍,达到了256KB。,3.6 典型CPU介绍NetBurst,NetBurst的特点,4倍频方式实现CPU、内存和FSB的配合 Trace Cache存储x86指令解码后生成的“微操作(micro-operation,OP)”指令,可按照不同的程序分支各自存储。 超长流水线 20层以上Hyper Pipelined Technology(超级流水线技术) 数据缓存容量是P3的一半,牺牲容量来降低等待时间 强化多媒体指令(SSE2/SSE3),1. Willamette内核,0.18微米的铝连线技术,六层

29、CMOS工艺 核心工作电压为1.7V 20级的超级流水线 1.3GHz2GHz,Socket 423,Socket 478,2. Northwood内核,工作频率:1.6GHz 6GHz(最高设计频率) 0.13微米, 3.4GHz采用0.09微米制造工艺。 核心工作电压为1.5V 512KB全速L2比Willamette 增加了一倍 采用PGA478封装设计,采用PGA478或LGA775 0.09微米,800MHZ前段总线频率 核心电压为1.4V 31级超级流水线 L2缓存增加到1M 支持HT 支持EM64T,3. Prescott内核,Gallatin内核,采用PGA478和LGA775架构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论