版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Analyst MeetAugust 27, 2002SCST HIT Multicore ProgrammingAnalyst MeetAugust 27, 2002SCST HIT SCST 3 HIT 3SCST 4 HIT 4片上多处理器(片上多处理器(CMP,Chip Multiprocessor)- 基于单个半导体芯片上拥有两个或多个一样功能、基于单个半导体芯片上拥有两个或多个一样功能、完整的处理核心,多核心通常共享完整的处理核心,多核心通常共享2或或3级级cache。核的设计简单、功耗低。核的设计简单、功耗低。CMP可分为可分为同构多核同构多核和和异构多核异构多核 计算内核相同,
2、计算内核相同,地位对等地位对等的称为同构多核的称为同构多核 计算内核不同,计算内核不同,地位不对等地位不对等的称为异构多核的称为异构多核异构多核多采用异构多核多采用“主处理核主处理核+协处理核协处理核”的设计的设计 SCST 5 HIT 5多年来,在单线程性能方面已取得重大的进展多年来,在单线程性能方面已取得重大的进展为提高单线程性能,采用了各种微体系结构技术为提高单线程性能,采用了各种微体系结构技术超标量发射超标量发射乱序发射乱序发射超流水技术超流水技术推测执行推测执行但近年来,通过这些技术并未获得更好的性能但近年来,通过这些技术并未获得更好的性能能量和存储延时问题,已经成为提高单线程性能能
3、量和存储延时问题,已经成为提高单线程性能的障碍的障碍一些高频率芯片方案已被取消一些高频率芯片方案已被取消SCST 6 HIT 6能量消耗大约与主频成立方关系能量消耗大约与主频成立方关系P c * f 3处理器能量的消耗已经到了现有技术的极限处理器能量的消耗已经到了现有技术的极限对于有足够多线程的应用对于有足够多线程的应用加倍并发线程的数目,能量消耗加倍并发线程的数目,能量消耗*2减半线程的工作频率,能量消耗减半线程的工作频率,能量消耗/8故获得同等性能,能量仅为原来的故获得同等性能,能量仅为原来的1/4SCST 7 HIT 7SCST 8 HIT SCST 9 HIT SCST 10 HIT
4、10多处理器:两个或两个以上的多处理器:两个或两个以上的CPU及主板上及主板上的多个的多个CPU插槽插槽多核处理器:一颗多核处理器:一颗CPU搭载两个核芯,即搭载两个核芯,即1 die 2 cores ,即在一个单晶硅上集成了多,即在一个单晶硅上集成了多个核芯个核芯SCST 11 HIT 11SCST 12 HIT 12超线程:超线程:Hyper-Threading TechnologyHT是是Intel对对SMT的实现,在最近的的实现,在最近的P4和和Xeon处理器中有处理器中有2个硬件线程个硬件线程逻辑的、虚拟的双处理器逻辑的、虚拟的双处理器同时执行同时执行2个线程个线程性能提升性能提升S
5、CST 13 HIT 13SCST 14 HIT 14SCST 15 HIT 15SCST 16 HIT 16SCST 17 HIT 17SCST 18 HIT 18SCST 19 HIT 19SCST 20 HIT 201997,IEEE计算机分会组织学术界讨论计算机分会组织学术界讨论10亿晶体亿晶体管级别微处理器结构,多核心处理器管级别微处理器结构,多核心处理器(CMP)就被认就被认为是未来最有扩展潜力的方案为是未来最有扩展潜力的方案 Hammond L,Nayfeh B A,Olukotum K. A Single-Chip Multiprocessor. IEEE Computer,1
6、997,30(9):79-852006年年Yale Patt教授在教授在IEEE建立建立60周年纪念演周年纪念演讲中多核心发展已经不再是何时发生、如何进行的讲中多核心发展已经不再是何时发生、如何进行的问题,它已经是目前的趋势和已经发生的事实问题,它已经是目前的趋势和已经发生的事实Yale Pat. Computer Architecture Research and Future Mucroprocessor:Where Do We Go From Where? ISCA06 SCST 21 HIT 21AMD公司的多核心处理器公司的多核心处理器Intel公司的多核心处理器公司的多核心处理器I
7、BM公司的多核心处理器公司的多核心处理器SUN/HP公司的多核心处理器公司的多核心处理器SCST 22 HIT 22SCST 23 HIT 232005年针对企业级服务器年针对企业级服务器Opteron多核心处多核心处理器理器2005年年Athlon 64和和Sempron桌面芯片,桌面芯片,Turion移动芯片移动芯片2007夏季代号为夏季代号为“Barcelona”的真四核的真四核AMD皓龙皓龙处理器,处理器,AMD真四核真四核AMD皓龙处理器是全球首款皓龙处理器是全球首款将将4颗处理核心集成到一个硅片上的颗处理核心集成到一个硅片上的x86 CPU。 SCST 24 HIT 24Toled
8、o & Manchester 两个两个Venice核心整合,各自有独立的核心整合,各自有独立的512KB或或1MB二级缓存,共享二级缓存,共享Hyper Transport采用了采用了SRQ(System Request Queue,系统请,系统请求队列求队列)技术,每一个核心都将其请求放在技术,每一个核心都将其请求放在SRQ中,当获得资源之后请求将会被送往相中,当获得资源之后请求将会被送往相应的执行核心应的执行核心缓存数据的一致性不需要通过北桥芯片,直缓存数据的一致性不需要通过北桥芯片,直接在处理器内部就可以完成接在处理器内部就可以完成 SCST 25 HIT 25SCST 26 H
9、IT 26Large shared L3 cache shares data between cores efficiently while helping reduce latency to main memory Dedicated L1 and L2 cache per core helps performance of virtualized environments and large databases by reducing cache pollution associated with a shared L2 cache The L1 cache of AMD Opteron
10、processors can handle double the number of loads per cycle as Second-Generation AMD Opteron processors to help keep CPU cores busy SCST 27 HIT AMD 皓龙(皓龙(Opteron)AMD 速龙(速龙(Athlon64)AMD 闪龙闪龙(Sempron64) 处理器处理器AMD 羿龙羿龙(phenom)处理器)处理器AMD 炫龙炫龙 64(Turion64)核数:核数:2,3,4,6,8,1627SCST 28 HIT 28AMD公司的多核心处理器公司的多
11、核心处理器Intel公司的多核心处理器公司的多核心处理器IBM公司的多核心处理器公司的多核心处理器SUN/HP公司的多核心处理器公司的多核心处理器SCST 29 HIT 29ENERGY-EFFICIENT PERFORMANCETIMESingle-core, single-threadHyper-ThreadingDual CoreQuad-Core10s to 100sof coresSCST 30 HIT 302005年取消了年取消了4GHz主频的主频的P4处理器处理器终止了采用主频为处理器命名终止了采用主频为处理器命名2006,Woodcrest (Xeon 5100) 和和Clov
12、ertown四核,推出移动四核,推出移动(Centrino Duo Mobile/Core Due),桌面(,桌面(Pentium D/Core Due),工作站(),工作站(Dual-Core Xen),高性能服务器(),高性能服务器(Dual-Core Itanium2)Multi-everywhere 单芯片中处理器核心数目提高到单芯片中处理器核心数目提高到10100数量级,数量级,Tera-Scale项目要求处理万亿量级浮点运算能力项目要求处理万亿量级浮点运算能力 2015 yearSCST 31 HIT 31Homogeneous Multi-coreEach with its ow
13、n executionresourcesEach with its own L1 cache32K instruction and 32K data8-way set associative; 64-byte lineBoth cores share the L2 cache2MB 8-way set associative; 64-byte line size 10 clock cycles latency; Write Back update policyEXE CoreFP UnitEXE CoreFP UnitL2 CacheL1 CacheL1 CacheSystem Bus (66
14、7MHz, 5333MB/s)SCST 32 HIT 32Shared between the two coresAdvanced Transfer Cache architectureReduced bus traffic Both cores have full access to the entire cacheDynamic Cache sizingSCST 33 HIT 33Streaming SIMD Streaming SIMD Extensions (SSE) Decoder Extensions (SSE) Decoder Throughput ImprovementThro
15、ughput ImprovementSSE/SSE2 SSE/SSE2 Instruction Instruction OptimizationOptimizationFloating Point Floating Point Performance Performance EnhancementEnhancementNew Enhanced New Enhanced Streaming SIMD Streaming SIMD Extensions 3 (SSE3)Extensions 3 (SSE3)SCST 34 HIT 34SCST 35 HIT 35SCST 36 HIT Many I
16、ntegrated Core Architecture 36SCST 37 HIT 37AMD公司的多核心处理器公司的多核心处理器Intel公司的多核心处理器公司的多核心处理器IBM公司的多核心处理器公司的多核心处理器SUN/HP公司的多核心处理器公司的多核心处理器SCST 38 HIT 382001,双核,双核RISC处理器处理器Power42006,Cell处理器处理器SCST 39 HIT 39非对称多核CPU是将不同功能的专用内核整合到一个芯片上,等待处理的任务先由“任务分析与指派系统”分析其构成,然后把任务分解发送到各内核中,各内核只负责自己的工作,将运算结果交还“结果收集与汇总”。
17、 SCST 40 HIT 40* Cell Broadband Engine is a trademark of Sony Computer Entertainment, Inc.SCST 41 HIT 41Cell是以 IBM 所研发的 64 位元 Power 微处理器为核心,结合8个独立的浮点数运算单元所构成的非对称多核心处理器。它共有9个CPU内核采用“1+8模式”,一个Power架构RISC型64位CPU内核“PPE”和8个浮点处理用的32位8路SIMD型CPU内核“SPE”(Synergistic Processing Element)。Power微处理器内核是Cell处理器的大脑,
18、是运行设备的主操作系统,并为8个“协处理器”分配任务。SCST 42 HIT 42Cell的基本构成单元PPE可同时执行2个线程的SMT架构(类似于Intel的HT超线程技术),配备32KB的一级缓存(16指令缓存和16数据缓存)以及512KB的二级缓存。协处理核心SPE可同时执行2条指令超标量,并配备有128位128个的通用寄存器。1个SPE的最大单精度浮点运算速度为32GFLOPS。9个核心同步时钟运行。SCST 43 HIT 43Cell的8个SPE工作方式与普通的多核心处理器不同,各SPE分别在独立的地址空间中运行。因此,每个SPE备有256KB的名为“Local Store”的内存。
19、由于Local Store算作SPE的内存,所以不需要进行类似SMP的缓存一致性(Cache Coherency)控制。连接各内核的片上总线(OnChip Bus)采用环形。SPE各个之间的最大数据传输带宽高达192GB/s。SCST 44 HIT 44AMD公司的多核心处理器公司的多核心处理器Intel公司的多核心处理器公司的多核心处理器IBM公司的多核心处理器公司的多核心处理器SUN/HP公司的多核心处理器公司的多核心处理器SCST 45 HIT 45HP2004,PA-RISC8800双核处理器双核处理器SUN2004,UltraSPARC IV双核处理器双核处理器2011 Niagar
20、a 16核心核心SCST 46 HIT 46SCST 47 HIT 47核结构研究核结构研究: 同构还是异构同构还是异构 CMP的构成分成同构和异构两类,同构是指内部核的结构是相同的,而异构是指内部的核结构是不同的。从理论上来看似乎异构微处理器的结构具有更好的性能。核所用的指令系统对系统的实现也是很重要的,采用多核之间采用相同的指令系统还是不同的指令系统,能否运行操作系统等,也将是研究的内容之一。 SCST 48 HIT 48Cache设计设计: 多级多级Cache设计与一致性设计与一致性问题问题 处理器和主存间的速度差距必须使用多级Cache来缓解。CMP采用共享二级Cache的CMP结构,
21、即每个处理器核心拥有私有的一级Cache,且所有处理器核心共享二级Cache。 Cache自身的体系结构设计也直接关系到系统整体性能。但是在CMP结构中,共享Cache或独有Cache孰优孰劣、需不需要在一块芯片上建立多级Cache,以及建立几级Cache等等,由于对整个芯片的尺寸、功耗、布局、性能以及运行效率等都有很大的影响。 多级Cache又引发一致性问题。SCST 49 HIT 49核间通信技术核间通信技术 总线共享Cache结构是指每个CPU内核拥有共享的二级或三级Cache,用于保存比较常用的数据,并通过连接核心的总线进行通信。这种系统的优点是结构简单,通信速度高,缺点是基于总线的结
22、构可扩展性较差。 基于片上互连的结构是指每个CPU核心具有独立的处理单元和Cache,各个CPU核心通过交叉开关或片上网络等方式连接在一起。各个CPU核心间通过消息通信。这种结构的优点是可扩展性好,数据带宽有保证; 缺点是硬件结构复杂,且软件改动较大。 SCST 50 HIT 50总线设计总线设计 传统微处理器中,Cache不命中或访存事件都会对CPU的执行效率产生负面影响,而总线接口单元(BIU)的工作效率会决定此影响的程度。当多个CPU核心同时要求访问内存或多个CPU核心内私有Cache同时出现Cache不命中事件时,BIU对这多个访问请求的仲裁机制以及对外存储访问的转换机制的效率决定了CMP系统的整体性能。SCST 51 HIT 51 低功耗设计低功耗设计 低功耗和热优化设计已经成为微处理器研究中的核心问题。CMP的多核心结构决定了其相关的功耗研究是至关重要的课题。 同时在操作系统级、算法级、结构级、电路级等多个层次上研究。每个层次的低功耗设计方法实现的效果不同抽象层次越高,功耗和温度降低的效果越明显。 SCST 52 HIT 52存储器墙存储器墙 为了使芯片内核充分地工作,最起码的要求是芯片能提供与芯片性能相匹配的存储器带宽。同样,系统也必须有能提供高带宽的存储器。所以,芯片对封装的要求也越来越高,虽然封装的管脚数每年以20%的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 双鸭山市护士招聘面试题及答案
- 教师资格面试结构化试题及答案
- 26年宫颈癌靶向随访质控手册
- 26年公卫效果评估手册
- 大学操作系统试卷及答案
- 26年随访用药依从性评估指南
- 继发性乳糖缺乏护理查房
- 合同约定赠予协议书
- 宠物出院协议书模板
- 建房日照纠纷协议书
- 中国革命战争的战略问题(全文)
- 2024年江苏南京金陵中学特长生选拔考试数学试题(含答案详解)
- DB12T 1341-2024 消防产品使用和维护管理规范
- MOOC 质量管理学-中国计量大学 中国大学慕课答案
- 车间划线及颜色标准
- 中国超重肥胖营养专家共识
- 安吉热威电热科技有限公司年产4000万件电热元件生产线扩建项目环境影响报告表
- 人教版初中中考物理电学专题试题及答案详解
- GA 1807-2022核技术利用单位反恐怖防范要求
- GB/T 5330.1-2012工业用金属丝筛网和金属丝编织网网孔尺寸与金属丝直径组合选择指南第1部分:通则
- GA 676-2007警用服饰刺绣软肩章
评论
0/150
提交评论