服务器硬件架构

上传人：精*** IP属地：广东上传时间：2020-03-27 格式：DOC 页数：45 大小：1.32MB 积分：28 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

精品文档 1欢迎下载从性能角度来看处理器内存和 I O 这三个子系统在服务器中是最重要的它们也是最容易出现性能瓶颈的地方目前市场上主流的服务器大多使用英特尔 Nehalem Westmere 微内核架构的三个家族处理器 Nehalem EP Nehalem EX 和 Westmere EP 下表总结了这些处理器的主要特性 Nehalem EPNehalem EPWestmere EPWestmere EPNehalem EXNehalem EXNehalem EXNehalem EX 商业名称商业名称至强 5500至强 5600至强 6500至强 7500 支持的最插座数支持的最插座数 2228 每插座最大核心数每插座最大核心数 4688 每插座最大线程数每插座最大线程数 8121616 MBMB 缓存缓存 3 3 级级 8121824 最大最大内存内存 DIMMDIMM 数数 181832128 在本文中我们将分别从处理器内存 I O 三大子系统出发带你一起来梳理和了解最新英特尔架构服务器的变化和关键技术一处理器的演变一处理器的演变现代处理器都采用了最新的硅技术但一个单 die 构成处理器的半导体材料块上有数百万个晶体管和数兆存储器多个 die 组织到一起就形成了一个硅晶片每个 die 都是独立切块测试和用陶瓷封装的下图显示了封装好的英特尔至强 5500 处理器外观图 1 英特尔至强 5500 处理器插座插座处理器是通过插座安装到主板上的下图显示了一个英特尔处理器插座用户可根据自己的需要选择不同时钟频率和功耗的处理器安装到主板上精品文档 2欢迎下载图 2 英特尔处理器插座主板上插座的数量决定了最多可支持的处理器数量最初服务器都只有一个处理器插座但为了提高服务器的性能市场上已经出现了包含 2 4 和 8 个插座的主板在处理器体系结构的演变过程中很长一段时间性能的改善都与提高时钟频率紧密相关时钟频率越高完成一次计算需要的时间越短因此性能就越好随着时钟频率接近 4GHz 处理器材料物理性质方面的原因限制了时钟频率的进一步提高因此必须找出提高性能的替代方法核心核心晶体管尺寸不断缩小 Nehalem 使用 45nm 技术 Westmere 使用 32nm 技术允许在单块 die 上集成更多晶体管利用这个优势可在一块 die 上多次复制最基本的 CPU 核心因此就诞生了多核处理器精品文档 3欢迎下载现在市场上多核处理器已经随处可见每颗处理器包含多个 CPU 核心通常是 2 4 6 8 个每个核心都有一级缓存 L1 通常所有的核心会共享二级 L2 三级缓存 L3 总线接口和外部连接下图显示了一个双核心的 CPU 架构图 3 双核心 CPU 架构示意图现代服务器通常提供了多个处理器插座例如基于英特尔至强 5500 系列 Nehalem EP 的服务器通常包含两个插座每个插座四个核心总共可容纳八个核心而基于英特尔至强 7500 系列 Nehalem EX 的服务器通常包含八个插座每个插座八个核心总共可容纳 64 个核心下图显示了更详细的双核处理器架构示意图 CPU 的主要组件提取指令解码和执行都被复制但系统总线是公用的精品文档 4欢迎下载图 4 双核处理器的详细架构示意图线程线程为了更好地理解多核架构的含义我们先看一下程序是如何执行的服务器会运行一个内核如 Linux Windows 的内核和多个进程每个进程可进一步细分为线程线程是分配给核心的最小工作单元一个线程需要在一个核心上执行不能进一步分割到多个核心上执行下图显示了进程和线程的关系精品文档 5欢迎下载图 5 进程和线程的关系进程可以是单线程也可以是多线程的单线程进程同一时间只能在一个核心上执行其性能取决于核心本身而多线程进程同一时间可在多个核心上执行因此它的性能就超越了单一核心上的性能表现因为许多应用程序都是单线程的在多进程环境中多插座多核心的架构通常会带来方便在虚拟化环境中这个道理一样正确 Hypervisor 允许在一台物理服务器上整合多个逻辑服务器创建一个多进程和多线程的环境英特尔超线程技术英特尔超线程技术虽然单线程不能再拆分到两个核心上运行但有些现代处理器允许同一时间在同一核心上运行两个线程每个核心有多个并行工作能力的执行单元很难看到单个线程会让所有资源繁忙起来下图展示了英特尔超线程技术是如何工作的同一时间在同一核心上有两个线程执行它们使用不同的资源因此提高了吞吐量精品文档 6欢迎下载图 6 英特尔超线程技术工作原理前端总线前端总线在多插座和多核心的情况下理解如何访问内存和两个核心之间是如何通信的非常重要下图显示了过去许多英特尔处理器使用的架构被称作前端总线 FSB 架构在 FSB 架构中所有通信都是通过一个单一的共享的双向总线发送的在现代处理器中 64 位宽的总线以 4 倍速总线时钟速度运行在某些产品中 FSB 信息传输速率已经达到 1 6GT s 图 7 基于前端总线的服务器平台架构精品文档 7欢迎下载 FSB 将所有处理器连接到芯片组的叫做北桥也叫做内存控制器中枢北桥连接所有处理器共享访问的内存这种架构的优点是每个处理器都可以访问其它所有处理可以访问的所有内存每个处理器都实现了缓存一致性算法保证它的内部缓存与外部存储器以及其它所有处理器的缓存同步但这种方法设计的平台要争夺共享的总线资源随着总线上信号传输速度的上升要连接新设备就变得越来越困难了此外随着处理器和芯片组性能的提升 FSB 上的通信流量也会上升会导致 FSB 变得拥挤不堪成为瓶颈双独立总线双独立总线为了进一步提高带宽单一共享总线演变成了双独立总线架构 DIB 其架构如下图所示带宽基本上提高了一倍图 8 基于双独立总线的服务器平台架构但在双独立总线架构中缓存一致性通信必须广播到两条总线上因此减少了总有效带宽为了减轻这个问题在芯片组中引入了探听过滤器来减少带宽负载如果缓存未被击中最初的处理器会向 FSB 发出一个探听命令探听过滤器拦截探听确定是否需要传递探听给其它 FSB 如果相同 FSB 上的其它处理精品文档 8欢迎下载器能满足读请求探听过滤器访问就被取消如果相同 FSB 上其它处理器不满意读请求探听过滤器就会确定下一步的行动如果读请求忽略了探听过滤器数据就直接从内存返回如果探听过滤器表示请求的目标缓存在其它 FSB 上不存在它将向其它部分反映探听情况如果其它部分仍然有缓存就会将请求路由到该 FSB 如果其它部分不再有目标缓存数据还是直接从内存返回因为协议不支持写请求写请求必须全部传播到有缓存副本的所有 FSB 上专用高速互联专用高速互联在双独立总线之后又出现了专用高速互联架构 Dedicated High Speed Interconnect DHSI 其架构如下图所示图 9 基于 DHSI 的服务器平台架构基于 DHSI 的平台使用四个独立的 FSB 每个处理器使用一个 FSB 引入探听过滤器实现了更好的带宽扩容 FSB 本身没多大变化只是现在变成点对点的配置了使用这种架构设计的平台仍然要处理快速 FSB 上的电信号挑战 DHSI 也增加了芯片组上的针脚数量需要扩展 PCB 路线才能为所有 FSB 建立好连接英特尔英特尔 QuickPathQuickPath 互联互联精品文档 9欢迎下载随英特尔酷睿 i7 处理器引入了一种新的系统架构即著名的英特尔 QuickPath 互联 QuickPath Interconnect QPI 这个架构使用了多个高速单向连接将处理器和芯片组互联使用这种架构使我们认识到了多插座和多核心通用的内存控制器是一个瓶颈引入多个分布式内存控制器将最符合多核处理器的内存需要在大多数情况下在处理器中集成内存控制器有助于提升性能提供有效的方法处理多插座系统一致性问题对大规模系统是至关重要的下图显示了一个多核处理器集成了内存控制器和多个连接到其它系统资源的英特尔 QuickPath 的功能示意图图 10 集成英特尔 QPI 和 DDR 3 内存通道的处理器架构在这个架构中每个插座中的所有核心共享一个可能有多个内存接口的 IMC Integrated Memory Controllers 集成内存控制器 IMC 可能有不同的外部连接精品文档 10欢迎下载 DDR 3 内存通道在这种情况下 DDR 3 DIMM 直接连接到插座如下图所示 Nehalem EP 至强 5500 和 Westmere EP 至强 5600 就使用了这种架构图 11 具有高速内存通道的处理器高速串行内存通道如下图所示在这种情况下外部芯片 SMB Scalable Memory Buffer 可扩展内存缓存创建 DDR 3 内存通道 DDR 3 DIMM 通过这个通道连接 Nehalem EX 使用了这种架构图 12 四插座 Nehalem EX 精品文档 11欢迎下载 IMC 和插座中的不同核心使用英特尔 QPI 相互通信实现了英特尔 QPI 的处理器也可以完全访问其它处理器的内存同时保持缓存的一致性这个架构也叫做缓存一致性 NUMA Non Uniform Memory Architecture 非统一内存架构内存互联系统保证内存和所有潜在的缓存副本总是一致的英特尔 QPI 是一个端到端互联和消息传递方案在目前的实现中每个连接由最高速度可达 25 6 GB s 或 6 4 GT s 的 20 条线路组成英特尔 QPI 使用端到端连接因此在插座中需要一个内部交叉路由器提供全局内存访问通过它不需要完整的连接拓扑就可以构建起系统了图 12 显示了四插座 Nehalem EX 配置每个处理器有四个 QPI 与其它三个处理器和 Boxboro EX 芯片组互联二内存子系统二内存子系统电子业在内存子系统上付出了艰辛的努力只为紧跟现代处理器需要的低访问时间和满足当今应用程序要求的高容量需求解释当前内存子系统之前我们先了解一下与内存有关的一些常用术语 RAM 随机访问存储器 SRAM 静态 RAM DRAM 动态 RAM SDRAM 同步 DRAM SIMM 单列直插式内存模块 DIMM 双列直插内存模块 UDIMM 无缓冲 DIMM RDIMM 带寄存器的 DIMM DDR 双数据速率 SDRAM DDR2 第二代 DDR 精品文档 12欢迎下载 DDR3 第三代 DDR 电子器件工程联合委员会 Joint Electron Device Engineering Council JEDEC 是半导体工程标准化机构 JEDEC 21 22 定义了从 256 位 SRAM 到最新的 DDR3 模组的半导体存储器标准现代服务器的内存子系统是由 RAM 组成的允许数据在一个固定的时间按任意顺序访问不用考虑它所在的物理位置 RAM 可以是静态的或动态的 SRAMSRAM SRAM 静态 RAM 通常非常快但比 DRAM 的容量要小它们有一块芯片结构维持信息但它们不够大因此不能作为服务器的主要内存 DRAMDRAM DRAM 动态 RAM 是服务器的唯一选择术语动态表示信息是存储在集成电路的电容器内的由于电容器会自动放电为避免数据丢失需要定期充电内存控制器通常负责充电操作 SDRAMSDRAM SDRAM 同步 DRAM 是最常用的 DRAM SDRAM 具有同步接口它们的操作与时钟信号保持同步时钟用于驱动流水线内存访问的内部有限状态机流水线意味着上一个访问未结束前芯片可以接收一个新的内存访问与传统 DRAM 相比这种方法大大提高了 SDRAM 的性能 DDR2 和 DDR3 是两个最常用的 SDRAM 下图显示了一块 DRAM 芯片的内部结构精品文档 13欢迎下载图 13 DRAM 芯片的内部结构内存阵列是由存储单元按矩阵方式组织组成的每个单元都一个行和列地址每一位都是存储在电容器中的为了提高性能降低功耗内存阵列被分割成多个内存库 bank 下图显示了一个 4 bank 和一个 8 bank 的内存阵列组织方式图 14 内存 bank DDR2 芯片有四个内部内存 bank DDR3 芯片有八个内部内存 bank 精品文档 14欢迎下载 DIMMDIMM 需要将多个内存芯片组装到一起才能构成一个内存子系统它们就是按著名的 DIMM 双列直插内存模块组织的下图显示了内存子系统的传统组织方式例如内存控制器连接四个 DIMM 每一个由多块 DRAM 芯片组成内存控制器有一个地址总线一个数据总线和一个命令也叫做控制总线它负责读写和刷新存储在 DIMM 中的信息图 15 传统内存子系统示例下图展示了一个内存控制器与一个 DDR3 DIMM 连接的示例该 DIMM 由八块 DRAM 芯片组成每一块有 8 位数据存储能力每存储字内存数据总线的宽度则共有 64 位数据存储能力地址总线有 15 位它可在不同时间运送行地址或列地址总共有 30 个地址位此外在 DDR3 芯片中 3 位的 bank 地址允许访问 8 个 bank 可被视作提高了控制器的地址空间总容量但即使内存控制器有这样的地址容量市面上 DDR3 芯片容量还是很小最后 RAS Row Address Selection 行地址选择 CAS Column Address Selection 列地址选择 WE Write Enabled 写启用等都是命令总线上的精品文档 15欢迎下载图 16 DDR3 内存控制器示例下面是一个 DIMM 的示意图图 17 DIMM 示意图上图显示了 8 个 DDR3 芯片每个提供了 8 位信息通常表示为 x8 ECCECC 和和 ChipkillChipkill 数据完整性是服务器架构最关注的一个点很多时候需要安装额外的 DIMM 检测和恢复内存错误最常见的办法是增加 8 位 ECC 纠错码将存储字从 64 位扩大到 72 位就象海明码一样允许纠正一位错误检测两位错误它们也精品文档 16欢迎下载被称作 SEC Single Error Correction 单纠错 DED Double Error Detection 双检错先组织存储字再写入到内存芯片中 EEC 可以用于保护任一内存芯片的失效以及单内存芯片的任意多位错误这些功能有几个不同的名字 Chipkill 是 IBM 的商标 Oracle 称之为扩展 EEC 惠普称之为 Chipspare 英特尔有一个类似的功能叫做 x4 单设备数据校正 Intel x4 SDDC Chipkill 通过跨多个内存芯片位散射 EEC 字的位实现这个功能任一内存芯片失效只会影响到一个 ECC 位它允许重建内存中的内容下图了显示了一个读和写 128 位数据的内存控制器增加 EEC 后就变成 144 位了 144 位分成 4 个 36 位的存储字每个存储字将是 SEC DED 如果使用两个 DIMM 每个包含 18 个 4 位芯片可以按照下图所示的方法重组位如果芯片失效每 4 个字中只会有一个错误但因为字是 SEC DED 的每 4 个字可以纠正一个错误因此所有错误都可以被纠正过来图 18 Chipkill 示例内存内存 RankRank 我们重新回到 DIMM 是如何组织的一组产生 64 位有用数据不计 ECC 的芯片叫做一个 Rank 为了在 DIMM 上存储更多的数据可以安装多个 Rank 目前有单双和四个 Rank 的 DIMM 下图显示了这三种组织方法精品文档 17欢迎下载图 19 DIMM 和内存排上图最前面显示的是一个单 Rank 的 RAM 由 9 个 8 位芯片组成一般表示为 1Rx8 中间显示的是一个 1Rx4 由 18 个 4 位芯片组成最后显示的是一个 2Rx8 由 18 个 8 位芯片组成内存 Rank 不能使用地址位选择只能使用芯片选择现代内存控制器最多可达 8 个独立的芯片选择因此最大可支持 8 个 Rank UDIMMUDIMM 和和 RDIMMRDIMM SDRAM DIMM 进一步细分为 UDIMM 无缓冲 DIMM 和 RDIMM 带寄存器的 DIMM 在 UDIMM 中内存芯片直接连接到地址总线和控制总线无任何中间部分 RDIMM 在传入地址和控制总线以及 SDRAM 之间有额外的组件寄存器这些寄存器增加了一个延迟时钟周期但它们减少了内存控制器上的电负荷允许内存控制器安装更多的 DIMM RDIMM 通常更贵因为它需要附加组件但它们在服务器中得到了普遍使用因为对于服务器来说扩展能力和稳定性比价格更重要精品文档 18欢迎下载虽然理论上带寄存器无缓冲的和 ECC 非 ECC DIMM 是可以任何组合的但大多数服务器级内存模块都同时具有 ECC 和带寄存器功能下图显示了一个 ECC RDIMM 寄存器是箭头指向的芯片这个 ECC DIMM 由 9 个内存芯片组成图 20 ECC RDIMM DDR2DDR2 和和 DDR3DDR3 第一代 SDRAM 技术叫做 SDR Single Data Rate 表示每个时钟周期传输一个数据单元之后又出现了 DDR Double Data Rate 标准其带宽几乎是 SDR 的两倍无需提高时钟频率可在时钟上升沿和下降沿信号上同时传输数据 DDR 技术发展到今天形成了两套标准 DDR2 和 DDR3 DDR 2 SDRAM 的工作电压是 1 8V 采用 240 针 DIMM 模块封装通过改善总线信号它们可以以两倍于 DDR 的速度工作在外部数据总线上规则是每 DRAM 时钟数据传输两次每次数据传输 8 个字节 64 位下表显示了 DDR2 标准表 2 DDR2 DIMM 标准名称标准名称 DRAMDRAM 时钟时钟频率频率每秒传输的数据每秒传输的数据百万百万模块名称模块名称峰值传输速峰值传输速率率 GB sGB s DDR2 400 200 MHz400PC2 32003 200 DDR2 533 266 MHz533PC2 42004 266 精品文档 19欢迎下载 DDR2 667 333 MHz667PC2 5300 PC2 54005 333 DDR2 800 400 MHz800PC2 64006 400 DDR2 1066533 MHz1 066PC2 8500 PC2 8600 8 533 DDR 3 SDRAM 在 DDR2 的基础上对以下这些方面做了改进将工作电压降低到 1 5v 减少功耗通过引入 0 5 8Gb 的芯片增加了内存密度单 Rank 的容量最大可达 16GB 增加了内存带宽内存突发长度从 4 字增加到 8 字增加突发长度是为了更好地满足不断增长的外部数据传输速率随着传输速率的增长突发长度传输的大小必须增长但不能超出 DRAM 核心的访问速度 DDR3 DIMM 有 240 针数量和尺寸都和 DDR2 一样但它们在电气特性上是不兼容的缺口位置不一样未来 DDR3 将工作在更快的时钟频率目前市面上存在 DDR3 800 1066 和 1333 三种类型下表对不同的 DDR3 DIMM 模块进行了总结表 3 DDR3 DIMM 标准名称标准名称RAMRAM 时钟频率时钟频率每秒传输的数据百每秒传输的数据百万万模块名称模块名称峰值传输速率峰值传输速率 GB sGB s DDR3 800400 MHz800PC3 64006 400 DDR3 1066533 MHz1 066PC3 85008 533 DDR3 1333667 MHz1 333PC3 1060010 667 DDR3 1600800 MHz1 600PC3 1280012 800 DDR3 1866933 MHz1 866PC3 1490014 900 三三 I OI O 子系统子系统精品文档 20欢迎下载 I O 子系统负责在服务器内存和外部世界之间搬运数据传统上它是通过服务器主板上兼容 PCI 标准的 I O 总线实现的开发 PCI 的目的就是让计算机系统的外围设备实现互联 PCI 的历史非常悠久现在最新的进化版叫做 PCI Express 外围组件互联特殊兴趣小组 Peripheral Component Interconnect Special Interest Group PCI SIG 负责开发和增强 PCI 标准 PCIPCI ExpressExpress PCI Express PCIe 是一个计算机扩展接口卡格式旨在替代 PCI PCI X 和 AGP 它消除了整个所有 I O 引起的限制如服务器总线缺少 I O 带宽目前所有的操作系统都支持 PCI Express 上一代基于总线拓扑的 PCI 和 PCI X 已经被点到点连接取代由此产生的拓扑结构是一个单根联合体的树形结构根联合体负责系统配置枚举 PCIe 资源管理中断和 PCIe 树的错误根联合体和它的端点共享一个地址空间通过内存读写和中断进行通信 PCIe 使用点到点链接连接两个组件链接由 N 个通道组成每个通道包含两对电路一对用于传输另一对用于接收南桥也叫做 ICH I O Controller Hub 通常会提供多个 PCIe 通道实现根联合体的功能每个通道连接到一个 PCI Express 端点一个 PCI Express Switch 一个 PCIe 或一个 PCIe 桥如下图所示精品文档 21欢迎下载图 21 PCI Express 根联合体根据通道编号使用不同的连接器下图显示了四个不同的连接器及单双向时的速度图 22 PCI Express 连接器在 PCIe 1 1 中通道运行在 2 5Gbps 可同时部署 16 条通道如下图所示可支持的速度从 2Gbps 1x 到 32Gbps 16x 由于协议开销支持 10GE 接口需要 8x 精品文档 22欢迎下载图 23 PCI Express 通道 PCIe 2 0 也叫第二代 PCIe 带宽提升了一倍从 2Gbit s 提高到 4Gbit s 通道数量也扩大到了 32x PCIe 4x 就足以支持 10GE 了 PCIe 3 0 将会再增加一倍带宽最终的 PCIe 3 0 规范预计会在 2010 年年中发布到 2011 年就可看到支持 PCIe 3 0 的产品 PCIe 3 0 能有效地支持 40GE 下一代以太网标准目前所有的 PCI Express 产品都是单根的 Single Root SR 如控制多个端点的单 I O 控制器中枢 ICH 多根 Multi Root MR 也发展了一段时间但目前还未见到曙光由于缺少元件和关注目前还有诸多问题 SR IOV Single Root I O Virtualization 单根 I O 虚拟化是 PCI SIG 开发的另一个相关标准主要用于连接虚拟机和 Hypervisor 四英特尔微架构四英特尔微架构英特尔 Nehalem 和 Westmere 微架构也被称为 32 和 45nm 酷睿微架构精品文档 23欢迎下载 Nehalem 微架构于 2009 年初引入了服务器也是第一个使用 45nm 硅技术的架构 Nehalem 处理器可应用于高端桌面应用程序超大规模服务器平台等代号名来源于美国俄勒冈州的 Nehalem 河根据英特尔的说法处理器的发展速度就象嘀嗒 Tick and Tock 钟声的节奏一样如下图所示 Tick 是对现有处理器架构进行缩小而 Tock 则是在前一代技术上发展起来的全新架构 Nehalem 就是 45nm 的 Tock Westmere 就是紧跟 Nehalem 的 32nm Tick 图 24 英特尔嘀嗒处理器开发模式 Nehalem 和 Westmere 在不同需求之间取得了平衡与新兴应用程序如多媒体相比现有应用程序的性能对轻量级或重量级应用程序的支持同样良好可用范围从笔记本到服务器全包括平台架构平台架构这可能是近 10 年来英特尔最大的平台架构转变包括多个高速点到点连接如英特尔的 QuickPath 互联集成内存控制器 IMC 等下图显示了一个双插座英特尔至强 5500 Nehalem EP 系统示例请注意 CPU 插座之间以及 CPU 插座与 I O 控制器之间的 QPI 链接内存 DIMM 直接附加到 CPU 插座精品文档 24欢迎下载图 25 双插座英特尔至强 5500 Nehalem EP 集成内存控制器集成内存控制器 IMC IMC 在 Nehalem EP 和 Westmere EP 中每个包含集成内存控制器 IMC 的插座支持三个 DDR3 内存通道与 DDR2 相比 DDR3 内存运行在更高的频率因此它具有更高的内存带宽此外对于双插座架构有两套内存控制器所有这些改进与前一代英特尔平台相比带宽提高了 3 4 倍如下图所示图 26 RAM 带宽随着时间的推移带宽以后还会继续增加有了集成的内存控制器后延迟也减小了精品文档 25欢迎下载其功耗也减少了因为 DDR3 的工作电压是 1 5V DDR2 是 1 8V 功耗与电压的平方成正比因此电压降低 20 功耗就减少 40 最后 IMC 支持单双和四 Rank RDIMM 和 UDIMM Nehalem EX 有一个类似的但不完全相同的架构在 Nehalem EX 中每个插座有两个 IMC 每个 IMC 支持两个英特尔可扩展内存互联 Scalable Memory Interconnects SMI 连接到两个可扩展内存缓冲区 Scalable Memory Buffers SMB 每个插座就可以连接到四个 SMB 如下图所示每个 SMB 有两个 DDR3 总线每条总线连接到两个 DIMM 因此每个插座可连接的 RDIMM 总量就是 16 图 27 SMI SMB Nehalem EX 系统的总内存容量与插座数量以及 RDIMM 的容量总结如下表所示表 4 Nehalem EX 内存容量精品文档 26欢迎下载 4GB4GB RDIMMRDIMM8GB8GB RDIMMRDIMM16GB16GB RDIMMRDIMM 2 sockets128 GB256 GB512 GB 4 sockets256 GB512 GB1 TB 8 sockets512 GB1 TB2 TB 英特尔英特尔 QuickPathQuickPath 互联互联 QPI QPI 所有的通信架构都从总线架构向点到点连接演变因为点到点连接架构具有更快的速度更好的扩展性在 Nehalem 中英特尔 QuickPath 互联已经取代了前端总线如下图所示图 28 英特尔 QPI 英特尔 QuickPath 互联是一个一致的点到点协议不局限于任何特定的处理器可在处理器 I O 设备和其它设备如加速器之间提供通信精品文档 27欢迎下载可用的 QPI 数量取决于处理器的类型在 Nehalem EP 和 Westmere EP 中每个插座有两个 QPI 如图 25 所示 Nehalem EX 支持四个 QPI 允许更多无缝的拓扑结构如下图所示图 29 Nehalem EX 拓扑结构英特尔至强 7500 处理器也与第三方节点控制器兼容可以扩大到 8 个插座以外实现更大规模的扩展 CPUCPU 架构架构在 Nehalem 中英特尔通过一些技术革新增加了每个 CPU 每秒执行的指令数如下图所示精品文档 28欢迎下载图 30 Nehalem 微架构创新其中有些创新是不言自明的我们将集中介绍最重要的性能和功耗方面的创新在比较性能和功耗时通常是 1 的性能增强就会增多 3 的功耗因为减少 1 的电压功耗几乎总是降低 3 英特尔最重要的创新就是增强 1 的性能而功耗仅增多了 1 英特尔超线程技术英特尔超线程技术英特尔超线程技术 HT 可在相同内核上同时运行多个线程在 Nehalem Westmere 中实现了两个线程提高了性能和能源效率超线程的基本思想是增加每个执行单元的复杂度对于单线程要保持执行单元繁忙是很困难的通过在相同核心上运行两个线程让所有资源保持忙碌的可能性更大这样整体效率就提高了如下图所示超线程使用的领域非常有限不到 5 但在多线程环境中极大地提高了效率超线程也不能取代多核心它是对核心的合理补充精品文档 29欢迎下载图 31 英特尔超线程技术缓存分级缓存分级一个理想的内存系统的需求是它应该有无限的容量无限的带宽和零延迟当然没有人知道如何构建这样的系统最接近的方法是使用分级的内存子系统从大到小从慢到快设计缓存级别在 Nehalem 中英特尔将缓存层增加到了 3 层如下图所示精品文档 30欢迎下载图 32 缓存分级结构与英特尔以前的设计相比一级缓存 L1 指令和数据没有发生变化在英特尔过去的设计中所有内核共享二级缓存 L2 如果核心数量限制为 2 那这种设计倒是可行的但 Nehalem 将核心数增加到了 4 或 8 二级缓存不能再继续共享下去因为带宽和仲裁请求都会变多可能会达到 8 倍为此英特尔在 Nehalem 中为每个核心独立增加了二级缓存指令和数据现在核心之间共享的只有三级缓存 L3 了模块模块 Nehalem 采用了模块化设计核心缓存和英特尔 QPI 都是组成 Nehalem 处理器的模块实例如图 30 所示这些模块都是独立设计的它们可以工作在不同频率不同电压下将模块粘接在一起的是一种新的同步通信协议它提供了非常低的延迟以前曾尝试过异步协议事实证明那样做的效率非常低集成功率门限集成功率门限这是一种电源管理技术它是时钟门控技术的进化版本所有现代英特尔处理器都使用了时钟门控技术遇到空闲逻辑时时钟门控会自动关闭时钟信号从而消除了开关电源但仍然存在漏电流漏电流引起了无用的功耗功率门控代替了时钟门控让一个空闲的核心消耗的电力几乎为零如下图所示对于软件和应用程序来说这完全是透明的精品文档 31欢迎下载图 33 Nehalem 功率门控从技术角度来看实现功率门控是很难的传统的 45nm 工艺就有明显的泄露它需要新的晶体管技术和大量的铜层 7mm 以前可从来没有这么做过如下图所示图 34 功率门控晶体管 Nehalem EP 和 Westmere EP 都拥有动态的功率门控能力当核心不需要执行工作负载时它可以完全关掉电源当工作负载需要核心的计算能力时核心的电源又重新激活 Nehalem EX 拥有静态的功率门控功能当个别核心失去工作能力时核心电源被完全关闭例如当 8 核心变成 6 核心时这些被停用的核心不能精品文档 32欢迎下载重新打开对于前一代处理器在工厂中停用的核心仍然会消耗一些电力但在 Nehalem EX 中电源是完全关闭的电源管理电源管理功率传感器是建设电源管理系统的关键上一代英特尔处理器内置有热传感器但没有功率传感器 Nehalem 既有热传感器又有功率传感器通过集成的微控制器 PCU 负责电源管理和监控如下图所示图 35 电源控制单元 Power Control Unit PCU 英特尔英特尔 TurboTurbo BoostBoost 技术技术功率门控和电源管理是英特尔 Turbo Boost 技术的基础组件当操作系统需要更好的性能时可以使用英特尔的 Turbo Boost 模式如果条件允许足够的制冷和供电能力例如因为一或多个核心被关闭英特尔 Turbo Boost 会提高活动核心的频率以及功耗从而提高核心的性能如下图所示但它算不上一个巨大的改进 3 11 但在无线程不是所有核心都被并行使用的环境中它还是很有价值的每上升一步频率提高 133Mhz 精品文档 33欢迎下载图 36 英特尔 Turbo Boost 技术上图显示了三个不同的可能性正常情况下所有核心都运行在标称频率 2 66GHz 在 4C Turbo 模式下所有核心的频率上升一步达到了 2 79GHz 在 4C Turbo 模式下两个核心的频率上升了两步达到了 2 93GHz 四硬件辅助虚拟化四硬件辅助虚拟化英特尔虚拟化技术 Virtualization Technology VT 扩展了核心平台架构可以更好地支持虚拟化软件如 VM 虚拟机和 Hypervisor 也叫做虚拟机监视器如下图所示精品文档 34欢迎下载图 37 虚拟化支持 VT 包含四个主要的组件英特尔 VT x 指的是英特尔 64 和 IA32 处理器中所有的虚拟化辅助技术英特尔 VT d 指的是英特尔芯片组中所有虚拟化辅助技术英特尔 VT c 指的是英特尔网络和 I O 设备中所有虚拟化辅助技术简化虚拟机移动的 VT Flex Migration a 英特尔 VT x 增强的功能包括一个新的更高特权的 Hypervisor 允许客户机操作系统和应用程序运行在他们设计的特权级别中确保 Hypervisor 有权控制平台资源基于硬件的转移在 Hypervisor 和客户机操作系统之间转移在硬件级得到了支持减少了复杂的计算密集的软件转换需求基于硬件的内存保护处理器状态信息在专用地址空间为 Hypervisor 和每个客户机操作系统保留着此外 Nehalem 还增加了 EPT Extended Page Table 扩展页表 VPID Virtual Processor ID 虚拟处理器 ID 客户机计时器优先 Guest Preemption Timer 描述符表退出 Descriptor Table Exiting 英特尔虚拟化技术 FlexPriority 暂停退出循环 Pause Loop Exiting VTVT FlexFlex MigrationMigration FlexMigration 允许在不同指令集处理器之间移动 VM 它是通过同步所有处理器都支持的最小指令集来实现的精品文档 35欢迎下载当 VM 第一次实例化时它会查询处理器获取指令集水平 SSE2 SSE3 SSE4 处理器返回商定的最低指令集水平而不是处理器本身支持的指令集水平这样就允许 VMotion 在不同指令集处理器之间移动 VM 了扩展页表扩展页表 EPT EPT EPT 是一种新的处于 Hypervisor 控制下的页表结构如下图所示它定义了客户机地址和宿主物理地址之间的映射图 38 扩展页表虚拟化之前每个操作系统负责虚拟应用程序地址和物理地址之间的程序页表转换使用虚拟化后这些地址就不再是物理的了而是在 VM 中的虚拟地址 Hypervisor 需要在客户端操作系统地址和真实物理地址之间转换在 EPT 出现之前 Hypervisor 通过软件的方式在重要的边界如 VM 的入口和出口更新它们以维护页表有了 EPT 后有一个 EPT 基指针和一个 EPT 页表允许直接从虚拟地址转换到物理地址不再需要 Hypervisor 的介入虚拟处理器虚拟处理器 ID VPID ID VPID 在 VPID 出现之前的虚拟化环境中每当 VM 转换时 CPU 会无条件清洗 TLB Translation Lookaside Buffers 转换后备缓冲区这样做的效率很低并会影响到 CPU 的性能有了 VPID 后 Hypervisor 用一个 ID 标记 TLB 允许更有效地清洗缓冲区中的信息客户机优先计时器客户机优先计时器有了这个功能后在指定的时间到了后 Hypervisor 可以让客户机优先执行在进入客户机之前 Hypervisor 会设置一个计时器值当计时器清零时 VM 就退出计时器会让 VM 直接退出没有中断精品文档 36欢迎下载描述符表退出描述符表退出通过预防关键系统数据结构被修改实现 VMM 保护客户机操作系统预防内部攻击操作系统操作是由一组 CPU 使用的关键数据结构控制的 IDT GDT LDT 和 TSS 如果没有这个功能 Hypervisor 就无法预防通过修改客户机的这些数据结构副本实现恶意软件在客户机操作系统上运行的攻击 Hypervisor 可以使用这个功能拦截修改这些数据结构的尝试禁止恶意软件入侵客户机操作系统 FlexPriorityFlexPriority 这是一个提升 32 位客户机操作系统性能的技术旨在加快虚拟化中断处理速度从而提高虚拟化性能 FlexPriority 通过避免访问高级可编程中断控制器时不必要的 VMExit 提高中断处理速度 RASRAS 高级可靠性高级可靠性与 Nehalem EP 相比 Nehalem EX 最大的创新之处在于高级可靠性方面更恰当地说应该是 RAS Reliability Availability 和 Serviceability 即可靠性可用性和可维护性如下图所示图 39 Nehalem EX RAS 特别是所有主要的处理器功能都具有 RAS 特性包括 QPI RAS I O Hub IOH RAS 存储器 RAS 和插座 RAS 精品文档 37欢迎下载纠错现在使用的是纠正机器检查中断 Corrected Machine Check Interrupts CMCI 信号另一个 RAS 技术是机器检查架构恢复 Machine Check Architecture recovery MCAr 它是 CPU 给操作系统报告硬件错误的一种机制有了 MCAr 后就可以从致命系统错误中恢复过来部分功能需要操作系统额外支持或需要硬件厂商实现和验证这项技术目前仅在 Nehalem EX 中含有高级加密标准高级加密标准 Westmere EP 增加了 6 个新指令专门给流行的 AES Advanced Encryption Standard 高级加密标准算法提速有了这些指令后所有 AES 运算都是通过硬件完成的不只是速度更快比软件实现也更加安全因此应用程序可以使用更强的密钥可以加密更多数据以满足监管要求除了更安全外对性能的影响也更小了这项技术目前仅包含在 Westmere EP 中可信执行技术可信执行技术英特尔可信执行技术 Trusted Execution Technology TXT 有助于检测和预防基于软件的攻击特别是尝试插入非信任的 VMM Rootkit Hypervisor 威胁到平台内存中机密的攻击 BIOS 和固件更新攻击英特尔 TXT 使用一个混合了处理器芯片组和 TPM Trusted Platform Module 可信赖平台模块的技术测量引导环境以检测软件攻击如下图所示精品文档 38欢迎下载图 40 英特尔可信执行技术这项技术目标仅包含在 Westmere EP 中芯片设计芯片设计如果你想获得高性能又想降低功耗那么有多个不同的因素需要平衡随着晶体管通道的长度逐渐减小可用的电压范围也变得越来越小如下图所示图 41 电压范围最大电压是由总功耗和高功率相关的可靠性下降限制的最低电压主要是由软错误特别是存储器电路中的错误限制的一般说来在 CMOS 设计中性能与电压是成正比的因为电压越高频率也越高精品文档 39欢迎下载性能频率电压功耗是与频率和电压的平方成正比的功率频率 x 电压 2 由于频率和电压是成正比的因此功率电压 3 能源效率等于性能和功耗之间比率因此能源效率 1 电压 2 从能源效率的角度来看减少电压才会凸现优势如下图所示图 42 功耗与性能的关系由于电路更容易遭受软错误的是存储器在 Nehalem 中英特尔加入了一个复杂的纠错码三重检测双倍纠正纠正错误此外缓存的电压和核心的电压是解耦的因此缓存可以保留高电压而核心工作在低电压上对于 L1 和 L2 缓存英特尔已经用新的 8 晶体管设计 8 T SRAM 取代了传统的 6 晶体管 SRAM 6 T SRAM 设计解耦了读和写操作并允许更低的电压如下图所示精品文档 40欢迎下载图 43 6 晶体管 SRAM 与 8 晶体管 SRAM 对比此外为了降低功耗英特尔又回到了能耗更低的静态 CMOS 技术如下图所示图 44 不同技术的功耗对比通过重新设计了一些关键算法如指令解码再次提升了性能芯片组虚拟化支持芯片组虚拟化支持除了 Nehalem 提供的虚拟化支持外在芯片组和主板级也增强了对虚拟化的支持这些改进对于提高 Hypervisor 按照英特尔的说法 Hypervisor 指的是 VMM 虚拟机监视器的 I O 性能很重要英特尔直接英特尔直接 I OI O 虚拟化技术虚拟化技术 VT d VT d forfor DirectDirect I O I O 精品文档 41欢迎下载服务器使用一个输入输出内存管理单元 Input Output Memory Management Unit IOMMU 将 DMA I O 总线如 PCIe 连接到主存储器和传统的内存管理单元一样它将 CPU 可见的虚拟地址转换成物理地址 IOMMU 会将设备可见的虚拟地址映射到物理地址这些单元也提供了内存保护功能 I O 虚拟化一个常见的需求是可以隔离和限制设备访问由分区管理设备拥有的资源 2008 年英特尔公布了 IOMM

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

服务器硬件架构

文档简介

温馨提示

最新文档

评论

服务器硬件架构

文档简介

温馨提示

最新文档

评论

相关文档