继承与发展SandyBridge-EP架构解析.doc_第1页
继承与发展SandyBridge-EP架构解析.doc_第2页
继承与发展SandyBridge-EP架构解析.doc_第3页
继承与发展SandyBridge-EP架构解析.doc_第4页
继承与发展SandyBridge-EP架构解析.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

继承与发展,Sandy Bridge-EP架构解析2011-11-02破布 ilove微型计算机2011年10月上上期我们为大家介绍了QPI 1.1总线的相关内容。QPI总线作为英特尔多路系统中最重要的互联架构,在整个Sandy Bridge-EP中的重要性甚至不低于计算核心部分。本期,我们将带来Sandy Bridge-EP在CPU核心部分的设计介绍,并深入了解英特尔在多路系统上的设计思想。Sandy Bridge-EP处理器概览英特尔在今年早些时候已经面向消费者发布了基于Sandy Bridge的新架构处理器,而基于这个架构的部分服务器产品关闭了集成的核芯显卡,面向单服务器市场。由于制程改进和架构优势,Sandy Bridge处理器的消费级产品目前最高频率达到3.4GHz(Turbo Boost模式下可达3.8GHz),TDP也维持在95W。服务器产品方面,由于省去了内置核芯显卡,因此在相同的95W TDP下,服务器产品的频率可以达到最高3.6GHz(Turbo Boost模式可达最高4GHz)。服务器处理器无论是硬件架构还是内核功能基本上和桌面版本基本相同,但是可以支持ECC内存。总线方面,桌面处理器支 持PCI-Express总线和DMI总线,但是却不支持QPI总线。图1 市场上也有Sandy Bridge架构的Xeon E3系列处理器销售。实际上目前我们看到的Xeon E3系列服务器(即Sandy Bridge的服务器版本产品商品名称)处理器并非Sandy Bridge架构的真正服务器版本产品,采用Sandy Bridge架构的真正服务器版本被称为Sandy Bridge-EP,它的开发代号是Jaketown,这是一颗完全不同的芯片,它首次亮相在2011年的ISSCCC,计划发布时间则是2011年第四 季度。它的核心架构(core microarchitecture)并未被重新设计,但是非核心架构部分也就是un-core部分彻底重制。因此最终英特尔将推出32nm制程的,拥有 八个物理核心,共享的L3(last level cache,末级缓存)缓存、支持PCI-E3.0以及QPI 1.1总线、面积高达400平方毫米的一颗服务器处理器。Sandy Bridge-EP针对不同的市场设计了两个不同的接口。其中,顶级和高端市场使用LGA 2011,中低端市场使用LGA 1356。相比桌面市场的LGA 1155而言,新的插座拥有更多的引脚用于支持新增加的I/O总线、电源总线和地线。与前几代产品不同的是,这一代的Sandy Bridge将不会有EX版本(类似Core i7 990X,就是Nehalem的“EX”加强版本)新的最强版本将会随22nm工艺的Ivy Bridge一起发布。Sandy Bridge-EP的TDP目前尚未透露,不过根据过去的经验来看,即使集成了新的I/O接口,TDP最高也不会超过150W。在核心部分,Sandy Bridge-EP和消费级的Sandy Br idge使用完全相同的内核微架构,而且它的电压被设定在稍高的0.85V1.1V(消费级产品为0.65V1.05V)以加强运行的稳定性。核心频 率方面,根据目前的消息,Sandy Bridge-EP最高频率可以达到3GHz,一些其他方面的消息则认为,TDP为130W的产品频率将会设定为2.66GHz,而150W的型号则会达 到3GHz。但无论如何,这样的频率已经比目前的Westmere-EX的最高频率高出近400MHz(目前Westmere-EX的频率运行在 2.42.8GHz之间)。除此之外,再加上Sandy Bridge-EP的系统架构和桌面版本产品有本质不同(反而和Nehalem-EX 以及 Westmere-EX非常类似),因此它的性能还是相当可观。环路总线:包含式的L3缓存设计Sandy Bridge-EP的L3缓存是一个包容的、全覆盖、分布式、重点在于解决多处理器的系统带宽和延迟的设计方案。不过目前英特尔并没有披露Sandy Bridge-EP L3缓存的容量大小。但根据相关泄漏测试消息显示,Sandy Bridge-EP的L3缓存占据了116平方毫米,相比之下Westmere-EX拥有30MB的L3缓存,占据了199平方毫米面积。假设他们的每平 方毫米存储密度相同,那么Sandy Bridge-EP的L3缓存至少达到了17.5MB。当然,Sandy Bridge-EP在生产中缓存密度肯定得到了一定程度的改善,因此最有可能的方案是每个核心可以得到2.5MBL3缓存(平均计算值),然后整个L3缓 存的容量是20MB。根据英特尔的消息,Sandy Bridge-EP还有六核心版本,可能是用于高端桌面型号和一些入门级服务器。图2 Sandy Bridge-EP内部缓存和环路设计图。如英特尔以前的设计一样,Sandy Bridge-EP的缓存数据将根据物理地址散列至不同的节点上以防止争用,提升带宽。一般来说,在CPU内部的缓存数据处理中,往往会有专门的算法来分 配地址,这样做的好处是可以将数据块分配在多个缓存节点上,当多个处理核心要读取同一个数据块的时候,就能缓解争用的现象,也降低了对内存带宽的要求。不 仅如此,在缓存控制方面,每个缓存片区都有自己的控制器,负责响应访问请求,保持数据一致性。Sandy Bridge-EP的L3缓存设计类似于之前的Nehalem-EX,每个周期可以允许四次并行访问这种包含式的L3缓存囊括了一个核心有效位,以标识 哪一个核心持有缓存数据块的副本,它充当着监听过滤器的作用,减少了芯片间和芯片内为了保持缓存一致性而产生的数据通信次数。为了更为紧密的“捆绑”芯片,Sandy Bridge-EP继续使用了环路总线方案。它设计了11个不同的环路节点:8个代理点用于核心和L3缓存,1个代理点用于QPI总线,1个代理点用于内 存控制器,还剩余1个代理点给予其他的I/O设备。除此之外,还有3个插入在环上的计时站,和消费级产品不同的是,环路数据总线是双向的,每个方向是 32bit,这样可以令每个节点按照时钟周期交错式地运行在两个环路上,避免了碰撞(总线争用)和闲置(数据资源等待)情况的出现。当然,一个64bit 的数据载荷需要两个时钟周期才能交付(有一个周期处于交错产生的延迟当中)。这种方法的优点是,所有选路判定都可以由数据来源完成,并且环路无缓冲,也降 低了设计难度。Sandy Bridge-EP的反向旋转环路设计,优势在于能够将任意两个代理之间的跳跃降低一半。这种设计是服务器产品的关键,因为大量的数据跳跃将会很快损耗掉L3的带宽。除此之外,每次发生数据跳跃时,L3都会产生数据访问延迟。虽然L3缓存和处理器核心、环路总线使用了相同的电源控制域,但目前只有处理器核心拥有功率门控技术,因此只要有任何数据传输,L3必须时刻保证满 载,即使此时处理器核心已经处于“睡眠”状态。换句话来说,就算此时处理器核心已经处于“睡眠”状态,L3也必须保持“清醒”,以回应缓存一致性的需求。 所谓缓存一致性,主要是考虑到如果此时CPU某核心“睡眠”而别的核心不一定“睡眠”的话,别的核心的工作可能更改了它所持有的高速缓存数据,此时“睡 眠”核心所持有的L3缓存就必须与其他工作核心的缓存数据保持一致,这样才会避免由于数据错误产生的冲突。另外,Sandy Bridge-EP的环路和L3的设计和消费级产品也有较明显的不同。在消费级Sandy Bridge上,一个单独的100MHz参考时钟信号可以提供给所有的四个片区(核心和L3),每个片区利用另外的锁相环来控制相位差并乘以基准频率,最 终将频率提高到34GHz,所以L3和环路互联系统与核心的频率一致,环路上的每一跳都有一个周期的延迟。在Sandy Bridge-EP上,虽然目前真实的L3和环路频率还暂时不知道,但是可能是11.5GHz,这样才能提供足够的带宽给内存控制器和I/O单元。并 且,Sandy Bridge-EP要大得多,因此很难维持一个周期的延迟,这是因为每个环路节点存在时钟偏移和振荡(clock skew and jitter)的问题,并且相当明显,因此Sandy Bridge-EP每次L3命中都可能多耗费额外的延迟时间。此外,当一个核心没有正确命中L3缓存的时候,它必须监听并检查其他处理器中的L3缓存,如 果跨过一个环路节点需要一个周期延迟的话,那么内存访问延迟将会上升大约2(N+4)个周期,其中N是核心数量。这在实际应用中将会成为24个周期或者 约10ns的访问延迟。基于上述的原因,Sandy Bridge-EP中L3与环路互联系统所用的时钟控制域和PLL与核心独立,当数据从核心的时钟控制域跨越至环路时,只有一个周期的延迟。在环路和L3 内部就没有这种跨越时钟域带来的延迟代价,在环路上每过一个节点只需要一个时钟周期,这种方法的总体性能会更好。PCI-E 3.0控制器:是否还会存在?Sandy Bridge-EP拥有四通道DDR3内存,数据带宽可以达到1.6GT/s,其核心设计的两个本地代理包含了所有的内存控制器,并可以保证全系统高速缓 存的一致性。和Westmere-EX不同的是,Sandy Bridge-EP没有使用任何数据缓冲技术,使用常规内存可能会有轻微的延迟,但功率表现方面会好很多。不过性能劣势也比较明显,因为没有缓冲设计的 话,系统如果加入较多的DIMM插槽(用于扩充内存),会导致频率和内存带宽利用率的降低。出于市场价格因素,英特尔也推出了一个较便宜的B2版本的产 品,使用三通道内存以减少芯片面积和引脚,降低成本的同时提升产品性价比。图3 Sandy Bridge-EP支持四通道DDR3内存、PCI-E 3.0总线,大大缓解了数据传输和存储瓶颈。此外,Sandy Bridge-EP集成了PCI-E 3.0控制器,PCI-E 3.0每个数据引脚可以提供2倍于PCI-E 2.0的带宽,并可以保证向下兼容性。PCI-E 3.0的物理层运行带宽为8GT/s,从单纯数字来看相比PCI-E 2.0只有60%增加,但由于更为先进的编码技术的加入,PCI-E 3.0可以一次传输128bit(16字节)的数据以及2位的校验码。这种方法的缺点在于最小数据包的尺寸比较大,达到了128bit,但是可以大幅度降 低损耗带宽。最终结果是,PCI-E 3.0的每个数据线的带宽达到了2GB/s,在PCI-E x16的接口下可以达到32GB/s带宽,这对高性能I/O设备如图形处理器、SSD存储设备以及采用“Infiniband”互联技术的设备有巨大帮 助。相比之下,PCI-E 2.0提供了5GT/s的信号传输速率,但是为了确保电气性能,它使用了10bit编码,大约损失了20%的数据带宽用于校验数据。最终PCI-E 2.0每条数据线的带宽是1GB/s,只有PCI-E 3.0的一半。除此之外,PCI-E 3.0还有一个用于改善整体性能的协议。这个协议中规定PCI-E 3.0设备可以读写缓存,包括CPU和I/O缓存等,在读写完成后也不强制要求将数据复制回内存。另外,PCI-E 3.0在虚拟机上的一些改进使得设备本身可以被多个虚拟设备共享而不依赖于系统管理程序,这样可以降低系统负载。Sandy Bridge-EP的I/O控制器(北桥)已经和CPU部分融为一体,这将带来相当强大的性能和效率。目前我们知道的是,Sandy Bridge-EP的顶级产品使用Socket R插槽,拥有40个PCI-E 3.0通道,而高性价比的Socket B2拥有24条通道。所有的型号都拥有四个DMI 2通道,DMI 2本质上来说依旧是PCI-E 2.0,只是在某些地方做出改进而已。特别提示:由于目前PCI-E 3.0规范在实际研发中出现一些问题,因此最新消息称英特尔、AMD和NVIDIA都不准备在下一代产品中使用PCI-E 3.0的相关技术。但英特尔尚未就此事作出正式回应,因此在本文中,依旧按照英特尔之前的产品规划来介绍。Quick Path 1.1总线应用:并非照本宣科我们在上期为大家详细介绍了QPI 1.1总线的相关内容,本期我们将简单回顾这部分内容,并且介绍一下QPI总线在Sandy Bridge-EP上的具体应用情况。对这部分内容有疑惑或者对QPI总线技术相当感兴趣的读者,可以详细阅读我们上一篇的内容。Sandy Bridge-EP拥有两条全带宽、双向的QPI 1.1总线链接,每个方向上的运行速度为8GT/s(也就是16GB/s),比之前的QPI 1.0总线提升了25%。相对于现有的32nm工艺生产的处理器, 25%的提升幅度很大程度上是得益于QPI 1.1的电路改造,例如“接收方补偿”机制等。随着生产工艺改进,未来的新一代产品可能会继续将QPI总线的运行速度提升至9.6GT/s(大约 19.2GB/s),但这最早也要等到22nm产品问世。Sandy Bridge-EP仅有两条QPI总线设计意味着四路系统将不会完全互连(因此Sandy Bridge-EP暂时为双路系统设计)。如果强行连接四路系统,其中一个处理器将总是保持着和其他处理器两个跳跃的距离,这将在某些情况下带来严重的延 迟和带宽损失。虽然从理论上来说,两个QPI连接可以被拆分为四个半带宽连接,这样就可以使用半带宽连接三个处理器,不过这种情况下总有一个四分之一连接 的带宽会被浪费,因此这个方案也不太可能。与其他系统进行比较时,有一点相当关键:Sandy Bridge-EP的I/O数据流不再经由QPI来转发。目前的英特尔服务器处理器的的I/O Hub装备了36条PCI-E 2.0通道(这等同于每个方向上18GB/s的带宽),从I/O设备收发的信息仍然会经由QPI转发,在QPI上流动的大多数数据将会是一致性监听信息、 确认信息、无效告知以及反馈等信息这会消耗大约10%15%的QPI总线带宽。虽然数字并不高,但在实际环境中来考虑的话,除了CPU互联之外,一个 满载的千兆以太网接口会占用一个QPI连接10%左右的带宽,一个规模适中,包含4块硬盘的RAID阵列可以占用至5%,综合来看QPI总线带宽使用依旧 较为紧张,因此Sandy Bridge-EP将I/O数据流转发功能独立于QPI总线之外还是相当有意义的。在节能和安全性方面,Sandy Bridge-EP还包括了新的L0p状态。不过和我们上篇文章描述有所不同的是,根据英特尔在IDF公布的信息,实际使用中的QPI 1.1只能够将连接削减至半带宽状态,而四分之一(也就是一个象限quadrant)的通道状态由于实用性不高,并没有启用。一方面原因是目前半带宽只能 够节约1W的功耗,四分之一带宽的功耗节约更低,意义不大;从安全性角度来说,Sandy Bridge-EP并不是为最高可靠性的系统设计的,也不需要特别应对任意两个象限的QPI线路都出现数据故障的情况,因此也没有必要特别准备四分之一带 宽。总而言之,四分之一带宽的操作目前并不具备特别的吸引力,短期内英特尔还不会采用。在新特性方面,Sandy Bridge-EP使用了QPI 1.1中包含的主节点监听缓存一致性协议,但一致性目录的大小并不清楚。当前的英特尔的高端服务器使用类似的I/O目录,来减少系统中为了保持一致性而产 生的数据通信,考虑到Sandy Bridge-EP集成了IOH并且有希望扩展至4处理器系统,应该会有类似的技术采用。相比之下,基于Magny-Cours和推土机架构的AMD服务 器应用了监听过滤,并且在内存带宽上展示了令人印象深刻的提升。设计总结:大有扩展余地Sandy Bridge-EP被设计为面向双路系统,但它可以升级到更大的四路系统,从这一点来看,它就是Westmere-EP的下一代继任者。实际上英特尔需要 Sandy Bridge-EP能面向四路或更大系统,和具有更高可扩展性的Westmere-EX并存,以提供完整的产品线,这种共存主要是为方便PCI-E 2.1到PCI-E 3.0系统的过渡考虑,同时令更大的服务器系统有较为经济化的选择。另外,更大规模的服务器系统所占有的市场份额较小,这块平台的更新速度也就比较慢,因此英特尔和他们的合作伙伴必须确保产品有较长时间的市场生存 期,才能收回他们在开发和验证测试上投入的成本。从过往的例子来看,英特尔的高端服务器平台,通常有两代消费类产品的寿命,折算下来大约四年左右。例如 Boxboro平台与Nehalem-EX一同在2010年首度亮相,它在设计上完全兼容于Westmere-EX,并将持续服役直到最后被Ivy Bridge-EX取代。英特尔不会为Westmere-EX配备更新的QPI 1.1总线以及集成新的I/O设计这意味着改变插座和芯片组支持。但如果仅仅在同样的QPI接口上加倍I/O带宽也没有多大意义,这样系统本身将失去 平衡性。图4 Sandy Bridge-EP和其他几款主流服务器产品参数比较表格图4显示了目前x86服务器微处理器的规格情况。缓存数据显示的是某给定芯片的总缓存容量。在英特尔产品线上,与此相对应的是L3缓存,而 Interlagos则显示了每个Orochi核心L2和L3缓存的总和,并乘以2(Interlagos是由两个Orochi核心以多芯片封装方式封装 在一起)表中的I/O以及相关带宽数据均使用了实际数据吞吐量,QPI和HT总线要考虑CRC错误校验所耗费的20%带宽,剩余的才是实际数据传输带宽。正如图4所示,Sandy Bridge-EP相比之前的Westmere-EP堪称有巨大的进步。Sandy Bridge-EP的缓存比后者大了66%,较大的缓存加上内部环路互联系统可以大大提高性能。由于接口支持改变,Sandy Bridge-EP的内存带宽比后者高60%,增加了3个DIMM内存插槽。最重要的是缓存一致性和I/O带宽达到了原来的2.5倍,从之前的64GB /s提升到160GB/s。与Westmere-EX相比,这一优势就不如先前明显。Westmere-EX有着更多的QPI连接,能被配置为全相连,带有I/O专用连接的的 四路拓扑结构,这样一来,Westmere-EX在一致性带宽上就有20%的优势,延迟也更低,而Sandy Bridge-EP则有2.5倍的I/O带宽。这二者总的内存带宽相同,Sandy Bridge-EP的内存空载延迟(unloaded latency)更低,功耗更小,Westmere-EX的内存缓冲区有更大的容量,支持更高程度的并行访问。因此Sandy Bridge-EP是一个面向I/O负载的明智选择,而Westmere-EX对大内存的支持更好,也比较适合于应对苛刻的可靠性要求。除了自家的产品,对Sandy Br idge-EP形成真正挑战的是来自AMD的Interlago。这种处理器使用了推土机架构,采用了GlobalFoundries的新型32纳米工 艺。因为Sandy Bridge-EP和Interlagos仍有许多未知之处,核心频率、Sandy Bridge-EP的环路总线、Orochi/Interlagos的交叉开关矩阵所支持的带宽以及TDP等数据都没有公布,现在进行精确的对比比较困 难。然而,Interlagos的插槽与AMD现有的系统兼容,所以可以进行一些初步的分析,我们可以简单比较一下。Interlagos在一个封装里

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论