AMD 推土机系列CPU构架_第1页
AMD 推土机系列CPU构架_第2页
AMD 推土机系列CPU构架_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《AMD推土机系列CPU构架》AMD推土机架构采用了模块化设计,每个模块内有两个整数核心和一个浮点核心,各自搭配专用的调度器,而且浮点核心可为两个整数核心所共享使用。因为有自己的调度器,浮点核心不必依赖整数调度器去安排浮点命令,也无需借助整数资源去执行256位命令。相比之下,Intel的架构中整数和浮点核心共用一个调度器,它必须同时处理整数和浮点命令。推土机架构图推土机架构会在指令集方面做出大幅度的扩展,加入支持SSSE3、SSE4・1/4・2、AVX、AES、FMA4、XOP、PCLMULQDQ等等,其中最关键的就是AVX。AVX指令集可以执行256位浮点指令,但需要澄清的是,并没有什么所谓的“256位命令〃。单精度命令都是32位的,双精度则是64位。使用今天标准的128位浮点单元,可以在一个时钟周期内并行执行四个单精度命令或者两个双精度命令。有了AVX效率就可以翻一番,亦即每时钟周期内执行八个32位单精度命令,或者两个64位双精度命令。当然了,这得要应用程序支持AVX才行,否则的话256位浮点单元只会运行在128位模式下一一正因为如此,AMD提出了弹性浮点单元。如今的典型数据中心负载都以整数运算为主,浮点运算只占很小一部分,所以绝大多数情况下一个庞大的256位浮点单元只会白白消耗内核面积和功耗,坐视整数单元忙得要死。推土机通过在两个整数核心之间共享一个256位浮点单元,既节省了内核面积和功耗,也能灵活满足实际负载需求。FlexFP弹性浮点单元由两个128位FMAC(乘法累加器)组成,每一个都可以在每时钟周期内执行FMAC、FADD(浮点加法)、FMUL(浮点乘法),而Intel的架构中只能通过单个FADD管线执行FADD指令,FMUL亦然。有了FMAC单元,乘法和加法命令不会像标准FADD、FMUL那样拥堵在一起,两个单元都可以灵活处理这些计算命令。如果一个程序只使用FADD,那么两个FMAC单元都可以全力执行FADD。这种设计的其他好处还有:支持FMA4指令而实现非破坏性DEST,降低寄存器的压力;消除中间反复步骤,提高精确度。顺便再说说AES。如果应用程序符合美国商务部FIPS197加密标准,AES就能为其实现硬件加速。推土机的FlexFP单元也能执行这些一次16个字节的指令,速度为每时钟周期一个,是现有带宽的两倍。FlexFP的设计理念对降低功耗也大有好处,能让设计人员在同样的功耗指标下放入更多繁忙的整数单元。事实上,FlexFP的设计目标之一就是将其空闲功耗降至峰值功耗的区区2%。FlexFP的美妙之处在于它既是单个256位浮点单元,又被两个整数核心所共享。每个时钟周期内,每个整数核心都可以通过两个128位指令或者一个256位指令来来操作256位并行数据,或者每个整数核心同时执行128位命令。这种硬件设计对BIOS、软件编程来说也并不复杂,可以随着每个处理器时钟周期儿变化,以满足特定时刻的需求。以下是每个周期内的四种可能场景:1、 核心1:两个128位AVX或者未编译SSE命令;核心2:无浮点命令2、 核心1:无浮点命令;核心2:两个128位AVX或者未编译SSE命令3、 核心1:128位浮点命令;核心2:128位浮点命令4、 核心1:无浮点命令;核心2:无浮点命令可以看出,浮点单元的弹性设计使得整个系统都更加灵活,也优化了每个周期内每个核心的性能。对于应用程序来说,256位AVX指令集需要它们重新编译才能充分利用,这显然需要时间和反复测试,因此AVX的普及也不会是一朝一夕的事情,而灵活的FlexFP浮点单元设计有望加速这一进程。TurboCore新技术同时AMD“推土机”中引入了一个全新的性能加速技术,叫做TurboCore,TurboCore技术主要是指对于一些没有完全消耗到最大程度的工作负载,去加快时钟速度。在多种不同工作负载上,使用了TurboCore可以最大增加500兆赫兹的性能。最重要的一点,TurboCore加速指的是所有核的加速,不同以往的核加速技术可能需要关闭一些核,只对部分核进行加速。dependingonCPUM^delGamtnggedter"ful 甘ad她twn蚌dependingonCPUM^delGamtnggedter"ful 甘ad她twn蚌AutomaticallyswitchtothreeturbochargedCOREsAMDTurboCOREtechnologyIgnttMPerformanceanDemandCreate,editrrenderandtransferHDvideowithoutskippingabeat1AMDTurboCOREtechnologyDigitalAudio,Internetwhenyouneedrawspeed1采用TurboCore技术采用TurboCore技术,最多可以使所有核增速500兆赫兹,如果再关闭一些核运转的情况下,加速将会超过500兆赫兹。同时AMD对内存控制器进行了进一步优化,从而提高内存的吞吐量。通过该技术关键是只在有工作负载要求时才加速,这也就意味着整个处理器达到高利用率时,这个技术才会启动从而导致能耗提高,一般情况下用户不会看到能耗提高。此外,所有Bulldozer架构处理器产品都会有TurboCore技术,而不是仅限

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论