




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、【Word版本下载可任意编辑】 多核处理器设计九大要素 CMP和SMT一样,致力于开掘计算的粗粒度并行性。CMP可以看做是随着大规模集成电路技术的发展,在芯片容量足够大时,就可以将大规模并行处理机构造中的SMP(对称多处理机)或DSM(分布共享处理机)节点集成到同一芯片内,各个处理器并行执行不同的线程或进程。在基于SMP构造的单芯片多处理机中,处理器之间通过片外Cache或者是片外的共享存储器来开展通信。而基于DSM构造的单芯片多处理器中,处理器间通过连接分布式存储器的片内高速交叉开关网络开展通信。 由于SMP和DSM已经是非常成熟的技术了,CMP构造设计比较容易,只是后端设计和芯片制造工艺的
2、要求较高而已。正因为这样,CMP成为了被应用于商用CPU的“未来”高性能处理器构造。 虽然多核能利用集成度提高带来的诸多好处,让芯片的性能成倍地增加,但很明显的是原来系统级的一些问题便引入到了处理器内部。 1 核构造研究: 同构还是异构 CMP的构成分成同构和异构两类,同构是指内部核的构造是相同的,而异构是指内部的核构造是不同的。为此,面对不同的应用研究核构造的实现对未来微处理器的性能至关重要。核本身的构造,关系到整个芯片的面积、功耗和性能。怎样继承和发展传统处理器的成果,直接影响多核的性能和实现周期。同时,根据Amdahl定理,程序的加速比决定于串行部分的性能,所以,从理论上来看似乎异构微处
3、理器的构造具有更好的性能。 核所用的指令系统对系统的实现也是很重要的,采用多核之间采用相同的指令系统还是不同的指令系统,能否运行操作系统等,也将是研究的内容之一。 2 程序执行模型 多核处理器设计的首要问题是选择程序执行模型。程序执行模型的适用性决定多核处理器能否以的代价提供的性能。程序执行模型是编译器设计人员与系统实现人员之间的接口。编译器设计人员决定如何将一种语言程序按一种程序执行模型转换成一种目标机器语言程序; 系统实现人员则决定该程序执行模型在具体目标机器上的有效实现。当目标机器是多核体系构造时,产生的问题是: 多核体系构造如何支持重要的程序执行模型?是否有其他的程序执行模型更适于多核
4、的体系构造?这些程序执行模型能多大程度上满足应用的需要并为用户所承受? 3 Cache设计: 多级Cache设计与一致性问题 处理器和主存间的速度差距对CMP来说是个突出的矛盾,因此必须使用多级Cache来缓解。目前有共享Cache的CMP、共享二级Cache的CMP以及共享主存的CMP。通常,CMP采用共享二级Cache的CMP构造,即每个处理器拥有私有的Cache,且所有处理器共享二级Cache。 Cache自身的体系构造设计也直接关系到系统整体性能。但是在CMP构造中,共享Cache或独有Cache孰优孰劣、需不需要在一块芯片上建立多级Cache,以及建立几级Cache等等,由于对整个芯
5、片的尺寸、功耗、布局、性能以及运行效率等都有很大的影响,因而这些都是需要认真研究和探讨的问题。 另一方面,多级Cache又引发一致性问题。采用何种Cache一致性模型和机制都将对CMP整体性能产生重要影响。在传统多处理器系统构造中广泛采用的Cache一致性模型有: 顺序一致性模型、弱一致性模型、释放一致性模型等。与之相关的Cache一致性机制主要有总线的侦听协议和基于目录的目录协议。目前的CMP系统大多采用基于总线的侦听协议。 4 核间通信技术 CMP处理器的各CPU执行的程序之间有时需要开展数据共享与同步,因此其硬件构造必须支持核间通信。高效的通信机制是CMP处理器高性能的重要保障,目前比较
6、主流的片上高效通信机制有两种,一种是基于总线共享的Cache构造,一种是基于片上的互连构造。 总线共享Cache构造是指每个CPU内核拥有共享的二级或三级Cache,用于保存比较常用的数据,并通过连接的总线开展通信。这种系统的优点是构造简单,通信速度高,缺点是基于总线的构造可扩展性较差。 基于片上互连的构造是指每个CPU具有独立的处理单元和Cache,各个CPU通过交叉开关或片上网络等方式连接在一起。各个CPU间通过消息通信。这种构造的优点是可扩展性好,数据带宽有保证; 缺点是硬件构造复杂,且软件改动较大。 也许这两者的竞争结果不是互相取代而是互相合作,例如在全局范围采用片上网络而局部采用总线
7、方式,来到达性能与复杂性的平衡。 5 总线设计 传统微处理器中,Cache不命中或访存事件都会对CPU的执行效率产生负面影响,而总线接口单元(BIU)的工作效率会决定此影响的程度。当多个CPU同时要求访问内存或多个CPU内私有Cache同时出现Cache不命中事件时,BIU对这多个访问请求的仲裁机制以及对外存储访问的转换机制的效率决定了CMP系统的整体性能。因此寻找高效的多端口总线接口单元(BIU)构造,将多对主存的单字访问转为更为高效的猝发(burst)访问; 同时寻找对CMP处理器整体效率的Burst访问字的数量模型以及高效多端口BIU访问的仲裁机制将是CMP处理器研究的重要内容。 6 操
8、作系统设计: 任务调度、中断处理、同步互斥 对于多核CPU,优化操作系统任务调度算法是保证效率的关键。一般任务调度算法有全局队列调度和局*列调度。前者是指操作系统维护一个全局的任务等待队列,当系统中有一个CPU空闲时,操作系统就从全局任务等待队列中选取就绪任务开始在此上执行。这种方法的优点是CPU利用率较高。后者是指操作系统为每个CPU内核维护一个局部的任务等待队列,当系统中有一个CPU内核空闲时,便从该的任务等待队列中选取恰当的任务执行,这种方法的优点是任务基本上无需在多个CPU间切换,有利于提高CPU局部Cache命中率。目前多数多核CPU操作系统采用的是基于全局队列的任务调度算法。 多核
9、的中断处理和单核有很大不同。多核的各处理器之间需要通过中断方式开展通信,所以多个处理器之间的本地中断控制器和负责仲裁各核之间中断分配的全局中断控制器也需要封装在芯片内部。 另外,多核CPU是一个多任务系统。由于不同任务会竞争共享资源,因此需要系统提供同步与互斥机制。而传统的用于单核的解决机制并不能满足多核,需要利用硬件提供的“读修改写”的原子操作或其他同步互斥机制来保证。 7 低功耗设计 半导体工艺的迅速发展使微处理器的集成度越来越高,同时处理器表面温度也变得越来越高并呈指数级增长,每三年处理器的功耗密度就能翻一番。目前,低功耗和热优化设计已经成为微处理器研究中的问题。CMP的多构造决定了其相
10、关的功耗研究是一个至关重要的课题。 低功耗设计是一个多层次问题,需要同时在操作系统级、算法级、构造级、电路级等多个层次上开展研究。每个层次的低功耗设计方法实现的效果不同抽象层次越高,功耗和温度降低的效果越明显。 8 存储器墙 为了使芯片内核充分地工作,起码的要求是芯片能提供与芯片性能相匹配的存储器带宽,虽然内部Cache的容量能解决一些问题,但随着性能的进一步提高,必须有其他一些手段来提高存储器接口的带宽,如增加单个管脚带宽的DDR、DDR2、QDR、XDR等。同样,系统也必须有能提供高带宽的存储器。所以,芯片对封装的要求也越来越高,虽然封装的管脚数每年以20%的数目提升,但还不能完全解决问题,而且还带来了成本提高的问题,为此,怎样提供一个高带宽,低延迟的接口带宽,是必须解决的一个重要问题。 9 可靠性及安全性设计 随着技术革新的发展,处理器的应用渗透到现代社会的各个层面,但是在安全性方面却存在着很大的隐患。一方面,处理器构造自身的可靠性低下,由于超微细化与时钟设计的高速化、低电源电压化,设计上的安全系数越来越难以保证,故障的发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 滑膜细胞因子基因调控-洞察及研究
- 智能交通数据可视化与决策支持系统-洞察及研究
- 2025年保险业数字化理赔服务智能客服系统建设研究
- 消防器材管理与维护实务手册
- 基于Kinect动作捕捉系统开发
- 氢燃料电池汽车加氢站建设成本与布局政策导向研究报告
- 幼儿园家长沟通与交流活动方案
- 小学语文学科重点古诗大全
- 废品合同(标准版)
- 三辊卷板机工艺设计方案
- 《服务器安装与维护》课件
- 金蝶K3供应链操作手册
- 老年患者护理心理护理
- 《食品经营许可证》延续申请书
- 电缆中间接头防火整改方案
- 城市照明工程投标书模板2024
- 项目担保合作协议范本
- 2024-2025学年湖南省“炎德·英才·名校联考联合体”高二第一次联考(暨入学检测)数学试题(含答案)
- 维修人员技能提升与企业绩效关联研究
- 2024新一代变电站集中监控系统系列规范第2部分:设计规范
- 洁净手术部技术要求
评论
0/150
提交评论