




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、英特尔与AMD处理器系统架构的分析、探 讨:长期以来,我们讨论计算机性能总是将 注意力放在各个子系统的技术参数上。例如 微处理器的速度、内存规范、用何种等级的 GPU等,而没有意识到这些部件的协同效率 会对系统产生怎样的影响,对于系统连接的 探讨也仅限于总线技术层面。这种惯有的模 式导致了人们对计算平台的技术水准难以产 生明确的认知,同时也产生了一个概念上的 模糊空间,让用户在厂商的宣传中无所适从。 本文所要探讨的对象便在于此:计算机的连 接架构。一辆法拉利跑车可以轻松达到300公里 以上的时速,但在普通公路上它却可能无法 超过80公里一道路不够宽阔、路上的行车和 弯道太多等都是影响速度的因素
2、。如果想让 它发挥应有的潜能,那么就应该提供一个专 用的赛道。其实对于计算机系统,情况同样 如此。计算机系统的性能取决于微处理器、内存、图形、硬盘等子系统,但即便配备顶 尖的硬件,也未必能保证它们以最高的效率 运行。事实上,微处理器、内存、图形、硬 盘只能决定自身的性能,它们的协作效率则 由总线技术以及连接架构所掌管一总线技术 决定带宽,类似于道路的宽敞以及平整程度, 允许数据在上面跑得多快;连接架构则定义 了两点间的连接方式,是直道或者弯道,路 径最短则最优,数据传达的效率自然最高。谁在说谎? “微架构”与“连接架构”的迷 思英特尔宣称Core架构远远领先于对手, 理由是指令性能更优越;AM
3、D也声称K8架 构更科学,理由是更高效的内存调用和更富 弹性的连接。双方的宣传都给出足够多的理 由,并且有充分的技术解释。对于这种各执 一词的说法,如果你对处理器技术稍有了解, 便会知道双方的论点都没错,但这就导致一 个矛盾的问题:究竟哪一个平台在架构上更 具优势?事实上,英特尔与AMD都没有对公众 做出详尽的解释,他们给用户留下一个模糊 的认知空间,回避了对方之长,宣扬自身的 优点。公正的说法应该是:英特尔“Core”处 理器的微架构胜于对手,而AMD K8处理器 家族则拥有更胜一筹的连接架构。在这里, 你会发现处理器架构的概念一分为二:其一 是“微架构”,其二就是“连接架构”,两者是 完全
4、不同的概念,它们从不同的角度影响着 系统的性能与扩展性。“微架构”通常是我们在衡量微处理器设 计细节时最先接触到的概念,它描述的是处 理器最基础的指令执行部分,包括执行的方 式和运算单元的构成等一它就好比是法拉利 跑车的引擎和车体框架,引擎决定了跑车所 具有的速度,车体框架则让跑车能够在高速 状态下保持稳定。正常来说,处理器的微架构通常都是非 常稳定的,寿命可在5年以上,而每一种微 架构往往都对应着一个处理器家族例如 Pentium II Pentium III都基于 P6 微架构, Pentium 4家族基于Netburst微架构,现行的 Core 2 Duo/Quad 则基于“Core”微
5、架构;AMD Athlon 64/X2、Opteron 系列、Turion 64/X2 系列则隶属于K8微架构。在x86领域,英特尔的Core微架构无疑 是佼佼者,它的特点在于具有四发射能力, 即每个周期可以同时对4条x86指令进行解 码,Core微架构还结合了微指令融合和宏指 令融合两项优化技术,同时可以对多达56 条指令进行处理。显然,在频率相同的情况 下,处理器的指令并行度越高,实际性能就 越强。正因为这方面的优势,Core 2 Duo处 理器才能够在较低的频率下保有超越高频 Pentium 4的卓越性能。相比之下,AMD K8微架构实际上只是 承袭于K7体系,它同时只能对3条指令进 行
6、解码,也没有任何指令优化技术,K8与 K7的主要区别仅在于集成内存控制器和64 位支持一若单单从指令执行的角度来衡量, 我们可以认为K8与K7隶属于相同的技术体 系,两者都只能同时解码3条指令,并行能 力远逊于英特尔的“Core”以及Pentium M家 族所采用的“P6增强”微架构。但是,AMD K8家族拥有更出色的连接 架构一微架构决定了芯片的指令执行效能, 而连接架构则决定系统输送指令的能力。如 开篇所述,连接架构就好比是道路,车再好 道路不行也跑不快;同理,倘若指令输送能 力无法跟上,处理器的执行性能再高都无济 于事,因为它不得不浪费很多的时间在等待 上面,导致有效工作时间的减少(类似
7、于堵车 等待,拖慢了平均速度)。AMD的K7和K8 在微架构方面变化极小,指令解码能力没有 获得增强,运算单元的数量也未增加,但K8 的指令执行性能却远高于K7,关键原因就在 于K8系列拥有更出色的连接架构。现在情况就变得明朗了:英特尔Core 平台拥有出色微架构,但连接架构落后于对 手;AMD K8平台微架构落后,但它拥有一 套非常先进的连接架构。这种情况导致竞争 双方各有长处和短处。对于微架构,之前就 有过很多探讨,这里就不作过多的论述,本 文的重点在于PC的连接架构,我们要解决 一些问题:连接架构对系统性能和扩展力有 何种程度的影响? PC的连接架构将向什么 样的趋势发展?来自80286
8、时代的架构一前端总线+北 桥芯片+南桥I/O芯片对于英特尔平台,前端总线、北桥芯片、 南桥芯片的概念从80286时代至今就没有多 少变化。处理器通过前端总线与北桥芯片连 接,北桥芯片包括图形接口控制器和内存控 制器两个逻辑单元,北桥芯片通过特定的总 线与南桥芯片连接,南桥芯片则负责I/O扩 展,包括存储、网络、音频、内部扩展总线 (PCI、PCI Express x1)、外部连接总线(并口、 串口、USB)等等。在过去二十年中,技术提升仅限于各个 子系统的规格,例如总线的速度、内存标准、 图形接口标准、磁盘接口标准等等,但都没 有对这套架构作什么本质性改变。尽管各个 子系统的规格升级能够让系统
9、性能获得显著 的提升,但僵化的连接架构同时也产生明显 的瓶颈,通讯延迟较长的缺点体现得非常明 显。英特尔965系列芯片组基于传统的南北桥 连接架构,这套连接在PC诞生之后就没有获得本质性的改变首先,我们来看处理器与内存的连接。 如图2,处理器必须通过“前端总线”与北桥 芯片相连,然后再经由单/双通道“内存总线” 才能与内存系统实现数据交换,那么这一数 据交换工序就涉及到两条不同类型的总线 只有当前端总线的带宽高于内存总线时,处 理器才能够充分利用内存资源。在与AMD 平台的对比测试中,Core 2 Duo平台内存性 能居于明显的下风(搭载相同的内存系统 时),原因就在于此。而由于技术上的限制,
10、 前端总线难有大幅度提升的空间,这就注定 内存瓶颈难以消除。第二个缺陷在于内存的 访问延迟由于需要前端总线和北桥芯片的中转,处理器的内存延迟较长,导致处理 器必须浪费很多时间在数据等待上,处理器 即便拥有一流的微架构,也难以充分发挥潜 能。计算机传统的连接架构,存在内存访问延迟 长、总线带宽瓶颈等弊端对服务器来说,这套连接架构就显得更 加糟糕:倘若服务器中包含两枚以上的处理 器,那么它们都必须经过前端总线访问内存 控制器,并共同分享内存资源,借此才能够 实现多处理器的任务协同。而在实际环境下, 多处理器共享内存经常会遭遇资源冲突现 象,即两个处理器同时要求对某个内存区域 进行读写操作,一旦遇上
11、这种情况,其中的 一枚处理器就必须停下等待,然后依顺序完 成。系统中处理器的数量越多,冲突几率就 越高,性能提升幅度也越来越小,一旦达到 极限值后继续增加处理器数量,反而会导致 系统性能的大幅度下滑。英特尔自身的Xeon 平台一直未能突破八路朝向高性能计算机迈 进(IBM EAX系列芯片组除外),主要原因就 在于连接架构的限制。Xeon平台的连接架构,处理器间无法直接通讯,共享内存又会遭遇资源冲突的难题英特尔现时的Core 2 Duo计算平台,乃 至未来的45纳米“Penyrn”平台都没有脱离这 套守旧的体系,连接架构依然沿用“CPU-北 桥(内存控制器+图形接口控制器)+南桥 (I/O)”的
12、传统模式,数据交换的效率不高,这 就限制了 Core平台性能的进一步发挥一当 然换个角度来看,我们可以认为Core平台显 然具有很高的性能增长潜力。Core 2 Duo当 前的性能水平,大概只发挥了 Core架构 70%80%的潜力而已。修建PC中的“高速公路”一集成内存控制器+ 芯片直连总线AMD在开发K8处理器时,即参照RISC 计算平台的经验,对平台的连接架构进行改 良。K8连接架构有两个基本的关键点:一是 将内存控制器集成于处理器内部,处理器核 心与内存控制器通过超高速、低延时的内部 总线连接;其二就是引入通用的HyperTransport总线技术,实现处理器与处 理器、处理器与I/O
13、芯片组之间的高速直连。 这两项技术有效改变了传统连接方案的弊 病,让处理器得以充分发挥自身潜能而不会 被内存系统拖后腿,同时也有利于构建更强 大的多路并行计算系统。首先我们来看集成内存控制器会带来哪 些增益。情况非常明显,现在内存控制器与 CPU核心紧密地结合在一起,两者通过芯片 内总线实现数据交换一芯片内总线可以轻而 易举地达到百GB/s级别的速度,并且访问延 迟极低,一举克服了传统平台前端总线的制 约。以此为依托,内存系统的性能可以得到 最高限度的利用,处理器获得数据的能力大 幅度增强,从而可以将更多的时间放在指令 执行而非数据等待上面。根据从K7到K8 的过渡经验来看,集成内存控制器设计
14、让内 存访问延迟降低了 50%,而K8的指令效能 比K7高出25%以上,其中的关键点便是该 技术的引入。将内存控制器集成于处理器内,可有效提升 内存性能,对整机性能的提升也相当可观在多路服务器领域,集成内存控制器的 设计更是获得广泛的认同。这一设计让每颗 处理器都拥有属于自己的内存系统,不会再 有任何因资源分享造成的性能降低或存取冲 突之类的问题,系统的多路扩展也变得更加 容易。不过,将内存控制器集成之后,前端 总线的概念就不复存在,为了解决处理器与 I/O芯片的信息交换问题, AMD引入了 HyperTranport 总线技术,不过 HyperTranport 更大的意义体现在多处理器的扩展
15、 AMD K8微架构中包含三个独立的 HyperTranport控制器,可支持三路 HyperTranport总线输出,这三路总线可以根 据需要同其他的处理器和I/O控制芯片连 接,进而建立起一套完整的高性能计算单元。 结合上述两项技术,K8微架构非常适合用于 构建超级计算机系统,其中最著名的案例当 属IBM为美国“洛斯阿拉莫斯”国家实验室 设计 制造的“RoadRunner”、克雷(Cray)的 “Red Storm”,等等,在超级计算机500强排 行榜上,AMD Opteron平台占有相当重要的 地位。借助 HyperTransport 直连总线,Opteron 平 台可实现高度弹性的扩展
16、,并可用于构建超 级计算机系统当然,PC不必考虑多路扩展的问题,先 进连接架构的优势更多体现在内存性能以及 可升级性。我们知道,芯片组中规格最经常 变动的就是内存支持,现在内存控制器由处 理器所整合,芯片组的功能仅剩下图形接口 控制器/整合图形和I/O扩展,这两个部分的 功能都非常稳定,没有迫切升级的必要,而 且处理器与芯片组连接的HyperTranport总 线也是非常稳定。换句话说,计算机的主板 就变成一个规格稳定的承载平台,用户如果 要进行硬件升级,只要更换处理器或升级内 存即可。AMD K8平台一开始并没有很好地 利用这一优势,它额外设计了如Socket 754、 Socket 939
17、等不同的插槽,直到Socket AM2 到来之后,K8平台才充分利用到该连接架构 可升级性强的优势,如我们既可以用单核 Athlon 64、也可以换为双核Athlon64 X2甚 至四核 Athlon 64 X4,即将出台的Socket AM2+接口也保持向下兼容。从用户的角度 来看,选择AMD平台可以让计算机拥有更 长的生命周期,相比之下,英特尔当前的 Core 2 Duo平台就缺乏这个优势。尽管AMD拥有先进的连接架构,但K8 平台在单机性能上已被Core 2 Duo所大幅度 抛下,这便是受到K8微架构落后之累。而 Core 2 Duo平台固然连接架构因循守旧,但 在Core微架构的帮助下
18、,能获得全方位的性 能领先。不过,来自市场的反馈并不如英特 尔所愿:Core 2 Duo平台增长速度不如预期, 处于叫好不叫座的局面,AMD性能落后的 Athlon 64/X2系列则势头未减,很大程度上 就在于K8平台先进的连接架构,更长的生 命周期保障以及丰富的芯片组/主板支援很 容易就会让人产生好感;而英特尔平台高中 低端泾渭分明,若你现在购买了低端平台, 那么就只能局限于低端的处理器和内存系 统,日后要通过升级来大幅提升性能几乎不 可能一英特尔似乎持有保守僵化的观念,这 不仅体现在市场定位上,产品技术策略同样 如此。AMD在多路系统的辉煌成功让英特尔 意识到K8直连架构的优越性,为此英特
19、尔 决定于2008年中期后开始引入类似的设计。 即将内存控制器集成于CPU内部,同时以一 条CSI(全称为 Common Serial Inter connect)” 高速直连总线建立多处理器之间,以及处理 器与I/O芯片之间的互联,事实上,这其实 只是K8连接架构的翻版,但在效率一流的 Core微架构的辅助下,英特尔仍有能力实现 平台性能的大幅度提升,AMD固然可以拿 出更有噱头的Fusion混合处理器、Torrenza 协处理器平台等更先进的连接架构,但如果 不及时拿出可以同Core抗衡的新一代微架 构,AMD就很难在平台性能方面获得领先, 更何况它的生产工艺整整比英特尔落后了一 代。强者
20、的到来一协处理器与混合处理器集成内存控制器、芯片间高速互联总线 等特性代表了 PC连接架构优化的开始,但 它远不是终结。上述两项技术都是以处理器 作为系统中枢,图形和其他PCI Express扩展 只是作为常规的I/O组件,在过去几年这套 架构大概是没什么问题。但随着DirectX 10 和统一渲染架构的引入,GPU具备越来越强 的可塑性,除了 3D图形渲染之后,GPU所 拥有的强大浮点性能可以用来完成诸如物理 计算、流处理、科学计算、影像解码加速、 图像处理加速等等许多要求高计算性能的场 合,但如此一来,GPU便要与处理器交换大 量的数据,尽管PCI Express x16总线(芯片组 -G
21、PU)和 HyperTransport 总线(CPU-芯片组) 都足够快,但数据中转过程必然导致存在总 线访问延迟较长的弊端。1.全方位出击一AMD Torrenza协处理器 与Fusion混合处理器架构AMD再度发起了连接架构的革新,它 首先提出Torrenza协处理器平台,该平台仍 然以HyperTransport为连接中枢,所不同的 是应用范围被扩大了,它可以用于连接浮点 协处理器、多媒体协处理器以及图形模块。 这样,这类协处理器就能够通过 HyperTransport直接与处理器进行高速通讯, 协处理器所处的地位与主处理器完全对等。 其中意义最大的当属图形系统,AMD通过 收购ATI成
22、功地获得了高端图形业务,这样, 它可以直接推出采用HyperTransport接口的 高端显卡一AMD现在已经推出HyperTransport 3.0标准,数据传输频率可达 到2.6GHz,若仍采用16位接口,那么GPU 与处理器之间可以10.4GB/S的超高速进行低 延时的数据交换,有效提升图形系统与主处 理器的协作紧密程度,倘若我们此时借助 GPU来完成一些通用计算任务,它也能够更 加轻松地完成。在这里,我们也不难发现PCI Express总线不再必要,它的作用被削弱为一 些无关紧要的系统I/O。AMD Torrenza协处理器平台,主处理器与 协处理器同样借助HyperTransport
23、总线实现 对等的高速直连Torrenza是一套开放且极具弹性的平 台,中高端GPU可以做成外置的图形模块, 而入门级别的GPU则可以直接集成于处理 器内部,这便是AMD提出的“Fusion混合处 理器计划。Fusion的构想也许有些石破天惊, 如图7所示,我们可以看到,GPU与CPU 功能直接耦合,两者共享二级缓存和内存控 制器,等同于将双核处理器中的一个CPU核 心,直接更换为GPU单元。在Fusion架构 中,GPU与CPU拥有等同的权力,它可以 根据需要获得既定的二级缓存资源,也可以 同内存系统进行高速通讯。事实上,此时显 存与主内存也合而为一。这套连接架构最大 的优点就在于具有极高的资
24、源利用效率,假 设系统搭载的是双通道DDR2 800,那么CPU 与GPU都能获得12.8GB/S的内存带宽,加 上有高速二级缓存的帮助,GPU性能可以获 得最大限度的保障。相较而言,现行K8整 合平台都是将GPU集成于北桥芯片内,北桥 再通过 HyperTransport总线与CPU 核心相 连,然后通过CPU获得内存控制器的分享 权,这套架构很难保证集成图形能够具有多 么出色的内存性能。事实上,AMD在设计 K8微架构时根本没有考虑到这一点,导致初 期整合芯片组难以获得内存资源,图形性能 极差,虽然AMD现在解决了这一问题,但 集成图形的内存效率仍谈不上出色,与Fusion混合处理器根本不
25、是一个层面的产 品。AMD Fusion混合处理器,CPU与GPU地 位相等,两者都可直接与内存控制器通讯, 实现内存性能的最佳化Fusion方案在成本方面也有明显的优 势。由于功耗的原因,Fusion只能整合入门 级的GPU,但也足够90%以上的人群使用; 而Fusion的图形性能将直逼中端显卡,购买 一块独立显卡不再那么必要;同时,由于芯 片组的职能遭到削弱,单芯片设计将进一步 流行,整机成本也都可以进一步降低;另外, 系统中现在只要Fusion混合处理器,一枚I/O 芯片就可拥有完整的计算功能,整机可以轻 松做到小型化,这些因素都能够显著降低整 机的成本。Fusion同时也具有更长的生命
26、周 期,若用户觉得有升级的必要,那么只要更 换一枚处理器,就可以同时升级CPU、图形 和内存支持。从这些情况来看,Fusion在移 动领域、中低端消费市场、商用领域显然都 拥有突出的优势,其中移动领域更是Fusion 的重中之重一在理想条件下,AMD可以做 到在25W功耗内实现CPU、GPU和内存控 制器功能,从而在平台功耗方面战胜对手, 为进入超轻薄和商用机型领域彻底扫除障 碍!无论从何种角度考虑,Fusion所代表的 连接架构都拥有足够多的技术噱头,即便 AMD未来得及对CPU微架构做出质的改 变,整体性能落后于对手,Fusion依然能够 扮演AMD在移动市场的杀手角色。Fusion的出台
27、意味着计算机图形系统也 拥有先进的连接架构。而在CPU方面,AMD 同样没有停步,很早就有关于AMD K9/K10 架构的研发消息,但至今AMD 一直守口如 瓶。我们过去曾经获得这样的消息:K9/K10 将直接集成PCI Express控制器,将I/O设备 与处理器更紧密地联结为一体,这样做的技 术难度并不大,至少原ATI就掌握了单芯片40个PCI Express通道的技术能力,将其整 合于处理器内完全可行。不过,我们不应指望集成PCI Express 控制器能带来多明显的性能改善,它的价值 更多体现在降低平台成本,因为芯片组的职 能进一步缩减,只要一枚拥有完整I/O功能 的南桥即可。由于南桥
28、的磁盘接口、音频、 网络、USB 2.0等功能都不会频繁升级,一 块主板即可应对整个架构生命的始终,当然 这得在处理器接口保持稳定的前提下。如果 你看到这一趋势,便会发现AMD平台的开 放性大打折扣,除了像NVIDIA这样拥有高 端图形技术的芯片组厂商可以依靠SLI来维 持高端市场外,主流和低端市场将逐渐归 AMD自家的芯片组掌控,VIA、SiS这样的 三方厂商将不断失去机会。也正是看到这一 趋势,NVIDIA现在积极开发通用处理器技 术,借此打造包含处理器、图形和芯片组的 一体化平台,AMD与英特尔也都在创建这 样的平台,看来未来计算机市场的竞争也更 多会是平台的对决,而计算机工业也很有可 能重返封闭时代。2.“给跑车装上多个发动机”一英特尔的 协处理器平台英特尔所倡导的协处理器架构便是披露 已久的Many Core计划。Many Core的关键 点是在处理器内集成数量庞大的加速单元, 例如浮点加速器、多媒体加速器、Java解释 器、Flash加速器等等,这些加速单元围绕着 若干枚CPU核心,接受来自CPU的任务分 派并将结果传回一与AMD Torrenza/Fusion
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 情绪管理在教育心理学中的应用
- 教育与科技融合的政策环境分析
- 创新应用教育技术助力特殊儿童学习与发展
- 教育与娱乐融合的婴幼儿产品市场趋势分析
- 教育小镇的全方位教育资源配置
- 中职数例课件
- 大数据驱动的精准教学模式在西安的实施与成效
- 从教育心理学角度看学生行为问题及应对
- 广东省惠州市惠港中学2025届物理高一下期末考试模拟试题含解析
- 浙江省湖州、衢州、丽水2025届高二物理第二学期期末监测试题含解析
- 品牌授权使用协议合同书
- 2024年天津市公安局滨海分局招聘警务辅助人员考试真题
- 报废汽车回收拆解前景
- 2025年广东省中考生物试卷真题(含答案解析)
- 2025至2030停车场项目发展趋势分析与未来投资战略咨询研究报告
- 第10课+辽夏金元的统治(大概念教学课件)2024-2025学年高一历史上册教学课件(统编版2019)
- 装置保运方案(3篇)
- 中国聚丙烯酰胺行业市场发展分析及前景趋势与投资研究报告2025-2028版
- 青年教师教学工作坊组织计划
- 驻非洲员工管理制度
- 2025年高考真题-物理(江苏卷) 含答案
评论
0/150
提交评论