存储管理补充CPU究竟需要多大缓存_第1页
存储管理补充CPU究竟需要多大缓存_第2页
存储管理补充CPU究竟需要多大缓存_第3页
存储管理补充CPU究竟需要多大缓存_第4页
存储管理补充CPU究竟需要多大缓存_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

存储管理补充CPU究竟需要多大缓存第1页/共56页大缓存对于大会战作用很大第2页/共56页CPU缓存

CPU缓存(CacheMemory)是位于CPU与内存之间的规模较小的但速度很高的临时存储器,它通常由SRAM(静态随机存储器)组成用来存放那些被CPU频繁使用的数据,以便使CPU不必依赖于速度较慢的DRAM(动态随机存储器)不过限于它的昂贵成本,一般容量比内存要小第3页/共56页SRAM结构简图第4页/共56页DRAM结构简图第5页/共56页缓存的设计思路是用少量的速度较快的SRAM作为CPU与DRAM存储系统之间的缓冲区,起初是在芯片的外部,到了80486时期,这部分SRAM被集成到了芯片内,因此又叫片内Cache。片内Cache即是今天的一级缓存,这部分缓存的容量是很少的,486芯片内只有8KB,到了奔腾高档芯片就升级到了16KB,PowerPC可达32KB。后来Pentium微处理器改进片内Cache,采用数据和双通道Cache技术非常灵活、方便,极大地提高了微处理器的性能。第6页/共56页CPU产品的档次不只是可以按主频的高低划分,还可以按照缓存量的不同而区分开来,而且即使两款处理器的其他参数完全一致,只缓存量略有出入,那么这两款处理器的售价可以相差很多。缓存的容量目前一般都以MB计量,不同的处理器型号缓存量差别不小,有的拥有1MB二级缓存,而有些则可以高达12MB,而售价却差了好几倍,最高可以差十几倍,那么缓存对处理器的售价影响可见一斑,同时也说明缓存对处理器的性能影响很大。第7页/共56页缓存工作原理当CPU要读取一个数据时,首先会从缓存中查找,如果找到就立即读取并送给CPU处理;如果没有找到,就从速度相对慢得多的内存中读取并送给CPU处理,同时把这个数据所在的数据块调入缓存中,可以使得以后对整块数据的读取都从缓存中进行,不必再调用内存。第8页/共56页AMDVS.Intel一般AMD的处理器相比Intel拥有更少的缓存,比如速龙64X25000+缓存量为2X128KB+2X512KB=1.256MB定位在同档次的Intel奔腾E5200的缓存量只二级缓存就达到了2MBIntel的处理器性能相对更依赖缓存,1MB二级缓存的处理器要比同样架构的、具有2MB二级缓存的处理器性能差很多第9页/共56页为什么Intel的处理器更依赖缓存呢?这主要在于Intel与AMD的缓存逻辑结构设计有关。一般CPU读取的数据(包括指令)中有80%来自一级缓存,对于AMD来说一、二、三级缓存都是用来存储CPU将要处理器的数据的,因此在一级缓存中未找到(命中)的数据可以去二级缓存,甚至三级缓存里去找,而Intel的结构不是这样的第10页/共56页Intel一级缓存采用“数据代码指令追踪缓存”架构第11页/共56页“数据代码指令追踪缓存”架构不直接存储CPU可以直接用的数据,而且存储该部分数据的地址,而这部分数据则被存储在二级缓存甚至三级缓存里,这样CPU可以根据一级缓存的“地址目录”来在缓存里面快速找到所需要的数据,因此理论上讲对于Intel处理器二级缓存和三级缓存容量越大越好第12页/共56页一级缓存一般CPU中的一级缓存容量都很少,即使是售价高昂的六核酷睿i7-980X,一级缓存也只有2X6X32KB=384KB,还不到512KB既然都是最高端的旗舰了,那么为什么CPU厂商不多给这些CPU多设计些一级缓存呢?第13页/共56页前面提到了一级缓存是集成在芯片内部的,因此就要占用一定的晶体管,这对于核心面积有限的处理器来说更多的缓存意味着要提供更多的地方来添加这些晶体管其次更重要的是一级缓存的速度极快(达几十GB/S,二级缓存一般为几GB/S,一级缓存比二级缓存要快一个数量级)所以售价很昂贵,这就极大的限制了它的容量最后缓存是处理器中的发热大户,设计太大容量所带来的发热量是很“可观”的第14页/共56页那么如何应对这种情况呢?CPU厂商想出的一个办法就是给缓存分级,也就是引入二级缓存通俗来讲,二级缓存即便是一级缓存的缓冲,主要用来存储那些CPU处理时用到的、一级缓存无法存储的数据(三级缓存相对二级缓存也类似)这样采用缓存分级可以很好的解决延时问题而且效果不亚于增加一级缓存容量,成本也比较低第15页/共56页二级缓存酷睿2系列处理器的二级缓存容量从1MB到2MB、3MB、4MB再到6MB、8MB、12MB可以说让人眼花缭乱,那么为何二级缓存到了12MB就没有再增加了呢?第16页/共56页首先,二级缓存属于SRAM(静态RAM),成本虽然相比一级缓存有所降低,但仍然意味着较大的成本其次,SRAM虽然有着相比DRAM更高的性能但是却有它的缺点即集成度不如后者高,换句话说相同容量的DRAM内存可以设计得体积较小,而SRAM就需要很大的体积,这对于空间“寸土寸金、房价高昂”的CPU来说,显然不能设计太大容量最后,前面已经提到了给缓存分级,采用多级组织可以有效降低延时,提高cache的命中率第17页/共56页三级缓存二级缓存在达到了12MB后就没有再有增加,而且在增加L3缓存后容量有所降低,但是处理器的性能非但没有降低,反而有了更大的提升,那么这又是怎么一回事呢?第18页/共56页三级缓存可以看做是二级缓存的缓冲器,使用较快速的储存装置直接从较慢的内存中读取数据并进行拷贝,这对于有效得降低内存的延迟大有好处。第19页/共56页粉红色部分即为三级缓存第20页/共56页最早的L3缓存被应用在AMD发布的K6-III处理器上,当时的L3缓存受限于制造工艺,并没有被集成进芯片内部,而是集成在主板上在只能够和系统总线频率同步的L3缓存同主内存其实差不了多少后来使用L3缓存的是英特尔为服务器市场所推出的Itanium处理器,接着就是P4EE和至强MP第21页/共56页酷睿i7二级缓存核心独享第22页/共56页为什么酷睿i7的二级缓存反而随着三级缓存的采用而减少了呢?仔细观察酷睿i系列处理器的架构即可发现酷睿i7处理器的二级缓存不再是采用酷睿2处理器的共享设计,而是每颗核心具有自己独立的二级缓存,这样就没有必要设计那么大容量的公用资源区,而这一任务则交给了高达12MB的三级缓存,而且三级缓存和内存一样,容量越大,成本越低,这样将公用数据资源的任务交给L3缓存不仅同样解决了延时,同时也有效降低了成本。第23页/共56页

Intel的酷睿i系列处理器在Intel的酷睿i系列处理器中,三级缓存容量继续延续了酷睿2时代L2缓存容量“百花齐放”的局面酷睿i3-530具有4MB三级缓存,酷睿i5-750具备8MB三级缓存,酷睿i7-980X具有12MB三级缓存,三级缓存容量随核心数的增加而增加,可以简单理解为,越多的核心可以应对更大的数据量处理,因此更大的三级缓存就很有必要了。第24页/共56页三级缓存对处理器的性能影响到底有多大?实际上三级缓存的速度相比二级缓存要慢很多,但是三级缓存对于大数据量处理的贡献是很大的,尤其是在一些较依赖缓存、运算量较大的游戏中表现明显,而且三级缓存在服务器处理器中的作用也更为明显。第25页/共56页缓存的权衡一般来讲,缓存容量越大对处理器的性能提升越好,但是除了前面所说的成本、发热量限制等因素外,缓存容量并不能纯粹的保持越大越好。在实际应用中,CPU处理的数据中大多数都是0KB~128KB大小的数据,128KB~256KB的数据约有10%,256KB~512KB的数据有5%,512KB~1MB的数据仅有3%左右。因此这对于CPU来说,二级缓存容量从0KB增加到256KB对CPU性能的提高几乎是直线性的;增加到512KB对CPU性能的提高就要小一些;而从512KB增加到1MB,大多数情况下普通用户就很难体会到CPU性能有多大提高了。第26页/共56页经过实际测试,桌面级处理器的三级缓存从2MB增加到6MB只带来大约5%的性能提升,再增加带来的性能提升就更不明显了,这从在多数测试中酷睿i3-530处理器都性能直追酷睿i5-750上可以看出来,而且相比羿龙II四核处理器,AMD羿龙II六核处理器似乎只是增加了1MB的二级缓存,三级缓存容量仍然保持在了6MB,这样合理的控制缓存容量,不仅没有降低多少处理器的性能,还能更好的控制处理器的成本,这对于应对竞争激烈的最高形式——价格战是非常有利的。第27页/共56页总结处理器的制造工艺不断进步,处理器架构也不断更新,缓存在处理器中将会有何种形式的调整恐怕只有两大处理器巨头的技术工程师知道了,不过缓存作为CPU和内存间的缓冲器的作用在内存的速度赶上处理器速度之前是很难发生改变的。第28页/共56页IntelCPU笔记本电脑移动核心I3I5I7区别i3双核模拟四核心(即四线程),无睿频;i5双核模拟四核心(即四线程),除睿频技术外其他技术规格与i3相同;i7四核模拟八核心(即八线程),功耗大性能强;I3-i5的性能差距比i5-i7的性能差距小。

第29页/共56页台式电脑Corei3i5i7区别i5:基于Nehalem架构的四核处理器,采用整合内存控制器,三级缓存模式,L3达到8MB,支持TurboBoost等技术;i5和i7(Bloomfield)的主要区别在于总线不采用QPI,采用的是成熟的DMI(DirectMediaInterface),并且只支持双通道的DDR3内存;结构上采用LGA1156接口,i7采用的是LGA1366。i5有睿频技术,可以在一定情况下超频。i3可看作是Corei5的进一步精简版(或阉割版),i3最大的特点是整合GPU(图形处理器),即i3由CPU+GPU两个核心封装而成。由于整合的GPU性能有限,用户想获得更好的3D性能,可以外加显卡。显示核心部分的制作工艺仍会是45nm。I3和i5区别最大之处是i3没有睿频技术。第30页/共56页认识Clarkdale模组化设计再建新功,CPU中塞进GPU第31页/共56页Clarkdale是CPU史上首款整合有GPU的处理器,同时也是首款采用32nm制程技术的CPU,具有开创性的历史意义。在2010年1月8日,英特尔正式发布了Clarkdale核心的处理器,这样它与之前上市的Bloomfield核心和Lynnfied核心处理器组成了全新的Core(酷睿)处理器家族,即Corei7/i5/i3系列处理器,形成一个完整的高中低产品线。第32页/共56页Corei7以英特尔桌面旗舰处理器的身份统领高端消费市场;Corei5则是中端桌面处理器的领军人物;Corei3定位于Core家族入门处理器。在Core品牌之后,还有经典的Pentium品牌主导普通应用;Celeron系列提供入门级的解决方案;Atom处理器则是为上网本和手持设备量身定造。第33页/共56页Clarkdale:首款32nm制程CPU英特尔的“Tick-Tock”战略众所周知,“制程技术-微架构”交替更新,比如说在2008年将CPU制程技术升级到了45nm,在2009年将微架构升级到了Nehalem,在2010年伊始,英特尔就非常精准地将制程提升到了32nm,Clarkdale乘此东风,成为首款采用32nm制程技术的处理器。

每两年更新一次硅制程技术(“ticks”),同时,每两年更新一次架构(“tocks”)。第34页/共56页Clarkdale:首款整合GPU的CPUAMD在收购ATI后,首先提出了CPU与GPU融合的概念,然而一直停留在“纸上谈兵”的阶段。英特尔后发却先至,发布了首款整合GPU图形单元的处理器Clarkdale。

Clarkdale处理器,只是简单的将GPU和CPU封装在一起,并没有真正达到“融合”,一颗CPU里其实有两颗“芯”。这样双“芯”独立并存的方式可能是未来很长一段时间内的主流。Clarkdale中的CPU核心是采用的32nm制程技术,而GPU核心还是采用的45nm制程。两个核心采用MCP(Multi-ChipPackage)的方式封装在一起第35页/共56页45nm制程的Lynnfield(Corei7-800/i5-700系列)处理器核心大小为296mm2,晶体管数为7.74亿个;而32nm制程的Clarkdale处理器中CPUDie大小为81mm2(不含GPUDie),晶体管数为3.82亿个,除了制程上的影响外,CPUDie不再包含内存控制器和PCI-E控制器,再加上核心和L3Cache只有Lynnfield的一半,使得CPUDie的大小和晶体管数急剧减少;对于GPUDie来说,其大小为114mm2,晶体管数为1.77亿个。DMI:DirectMediaInterfaceClarkdale内核结构第36页/共56页认识Clarkdale第37页/共56页Core系列处理器家谱第38页/共56页第39页/共56页奔腾G6950(散)双核双线程2.80G/3MB/32nm/73W/GPU400酷睿i3-530(散)双核四线程2.93G/4MB/32nm/73W/GPU740酷睿i3-530(盒)双核四线程2.93G/4MB/32nm/73W/GPU650酷睿i3-540(散)双核四线程3.06G/4MB/32nm/73W/GPU600酷睿i3-540(盒)双核四线程3.06G/4MB/32nm/73W/GPU740酷睿i5-650(散)双核四线程3.20G/4MB/32nm/73W/GPU/Turbo1150酷睿i5-670(散)双核四线程3.46G/4MB/32nm/73W/GPU/Turbo1110酷睿i5-680(散)双核四线程3.60G/4MB/32nm/73W/GPU/Turbo1450酷睿i5-750(散)四核四线程2.66G/8MB/45nm/95W/Turbo1020酷睿i5-750s(散)四核四线程2.40G/8MB/45nm/82W/Turbo995酷睿i5-760(散)四核四线程2.80G/8MB/45nm/95W/Turbo1080酷睿i7-870(散)四核八线程2.93G/8MB/45nm/95W/Turbo1780酷睿i7-870(盒)四核八线程2.93G/8MB/45nm/95W/Turbo2000酷睿i7-920(散)四核八线程2.66G/8MB/45nm/130W/Turbo1210酷睿i7-930(散)四核八线程2.80G/8MB/45nm/130W/Turbo1260酷睿i7-940(散)四核八线程2.93G/8MB/45nm/130W/Turbo1370酷睿i7-950(散)四核八线程3.06G/8MB/45nm/130W/Turbo1530酷睿i7-960(散)四核八线程3.20G/8MB/45nm/130W/Turbo1560酷睿i7-980XExtreme(散)六核十二线程3.30G/6.4GT/12MB/32nm/130W/Turbo6300酷睿i7-980XExtreme(盒)六核十二线程3.30G/6.4GT/12MB/32nm/130W/Turbo6800酷睿i7-990XExtreme(盒)六核十二线程3.46G/6.4GT/12MB/32nm/130W/Turbo8000第40页/共56页Clarkdale平台架构第41页/共56页英特尔对Core处理器的定位第42页/共56页Bloomfield核心的Corei7将是发烧级玩家的选择,他们需要非常强劲的处理器性能,可以灵活搭配独立显卡,可以组建三通道内存,一台运算速度飞快的电脑是他们追寻的理想。Lynnfield核心的Corei7/i5以替代现在的Core2Quad为已任,它所面对的用户更注意性能与价格间的平衡,性能不可低,价格不可高,鱼与熊掌并非不可得兼。整合有GPU的Clarkdale核心处理器Corei5/i3将取代Core2Duo,它面向于高清HTPC市场和普通日常应用,这部分用户不需要很高性能的CPU,也不需要很强游戏性能的显卡,低功耗和高整合度是很多消费者的理想选择。Clarkdale整合的GPU强化了高清视频与音频输出品质,如支持xvYCC标准、支持DolbyTrueHD和DTS-HDMA无损音频输出,能够让它在HTPC市场大展身手。尤其是两款Corei3处理器,价格控制在千元以下,受众面更广。第43页/共56页总结:Clarkdale开创CPU新纪元

32nm:处理器制程技术迈进一大步

首次实现CPU整合GPU

“3I”平台初具雏形第44页/共56页Intel五年规划从45nm到22nm从Nehalem到Haswell第45页/共56页Westmere:Nehalem微架构的改良版Clarkdale核心处理器采用的是Westmere微架构,Westmere实际上是脱胎于大名鼎鼎的Nehalem微架构,并作了少少的增强设计,可以看作是Nehalem的改良版。Westmere微架构最主要的改进在于增加了AES指令集SandyBridge:Nehalem的继任者也是其工艺升级版,从45nm进化到32nm。SandyBridge将有八核心版本,二级缓存仍为512KB,但三级缓存将扩容至16MB。SandyBridge最大的亮点是将引入“高级矢量扩展”指令集,简称“AVX”,其重要性堪比1999年PentiumIII引入SSE。Intel宣称:用AVX取代SSE执行矩阵乘法等特定应用时可带来大约90%的性能提升。Haswell:第三代酷睿处理器有关SandyBridge的工艺升级版IVYBridge和架构升级版Haswell(22nm),具体架构情况不知,预计Haswell会普遍使用八核心设计,缓存架构会全面升级,节能技术也会有很大改进。预计将于2012年上半年正式亮相。第46页/共56页英特尔架构自1989年起英特尔就一直有条不紊地遵循着其称为“Tick-Tock模式”的新产品创新节奏,即每隔一年交替推出新一代的先进制程技术和处理器微体系架构,随着时间的推移,我们逐渐看到了这二者在处理器整体性能表现中所起到的作用已远远超出了处理器主频和缓存技术。第47页/共56页P5与P6架构奔腾采用P5架构,这被证明是伟大的创举。在英特尔的发展历史中,第一代奔腾绝对是具有里程碑意义的产品,这一品牌甚至沿用至今。尽管第一代奔腾60的综合表现很一般,甚至不比486强多少,但是当主频优势体现出来之后,此时所表现出来的威力令人震惊。奔腾75、奔腾100及133,经典的产品一度称雄业界。奔腾II,英特尔采用了专利保护的P6架构。P6架构与奔腾的P5架构最大的不同在于,以前集成在主板上的二级缓存被移植到了处理器内,从而大大地加快了数据读取和命中率,提高了性能。第48页/共56页NetBurst架构Netburst微架构是P6微架构的后继者,第一个使用这架构的是Willamette核心,于2000年推出。Willamette是第一代奔腾IV处理器所用的核心,而全部的奔腾IV处理器都是使用Netburst微架构。2001年推出的Foster(至强处理器)也是使用本架构,同时基于奔腾IV的赛扬、赛扬D,以及双核心的奔腾D、奔腾ExtremeEdition都是使用本架构。NetBurst微架构将频率提升超过了40%,虽然IPC值较低,但由于频率的增加弥补了不足(性能=频率×IPC),并且为最终用户提供了更高的整体性能。和P6微架构一样,英特尔NetBurst微架构凭借无序推测执行,尽管分支预测算法相当精确,但也不可能100%正确。为了使由于分支误预测而引起的损失降到最低并使IPC均值最大化,采用扩展深度流水线技术的IntelNetBurst微架构极大地减小了分支预测错误的数量,并提供了从这些错误恢复的快速方法。为了能使误预测引起的损失最小,英特尔NetBurst微架构实现了高级动态执行引擎和一个执行跟踪缓存。超流水线技术使得流水线的深度相比P6微处理器体系结构的提高了一倍,不过在后来的实际应用中表明提高流水线长度之后会令执行效率大幅度降低,弥补这个问题的办法只能是再次提高主频和增加二级缓存容量。不过由于当时处理器工艺制成的限制,导致处理器的主频的可提升空间越来越小,与此同时巨大的缓存容量也是一个负担,这不仅提高了成本,也令发热量骤升。这一点使得英特尔必须要及时地对处理器微架做出新的,根本性地调整。第49页/共56页Core微架构:2006年推出了具有革新意义的Core微架构抛弃了主频至上的处理器研发思路1.流水线效率大幅度提升2.全新的整数与浮点单元3.数据预读机制与缓存结构:Core架构的缓存系统令人印象深刻,双核心Core架构的二级缓存容量高达4MB,且两个核心共享,访问延迟仅12到14个时钟周期;每个核心还拥有32KB的一级指令缓存和一级数据缓存,访问延迟仅仅3个时钟周期。第50页/共56页Nehalem微架构经历Core微架构的辉煌之后,于2008年末推出了新的Nehalem微架构,基本是建立在Core微架构的骨架上,外加增添了SMT、3层Cache、TLB和分支预测的等级化、IMC、QPI和支持DDR3等技术,比起从Pentium4的NetBurst架构到Core微架构的较大变化来说,从Core微架构到Nehalem微架构的基本核心部分的变化则要小一些。1.QPI总线技术2.IMC整合内存控制器3.SMT:同步多线程(SimultaneousMulti-Threading,SMT)技术又重新回归到了Nehalem架构。4.全新设计的缓存体系:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论