《嵌入式系统原理与技术》课件第7章-研究生-嵌入式与多核_第1页
《嵌入式系统原理与技术》课件第7章-研究生-嵌入式与多核_第2页
《嵌入式系统原理与技术》课件第7章-研究生-嵌入式与多核_第3页
《嵌入式系统原理与技术》课件第7章-研究生-嵌入式与多核_第4页
《嵌入式系统原理与技术》课件第7章-研究生-嵌入式与多核_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多核的背景多核出现的背景处理器的频率以前是处理器性能的唯一标尺在摩尔定律指引下保持高速发展CPU速度每18个月提高一倍而价格下降为原来的二分之一主频提高遭遇瓶颈由于晶体管数量倍增,会导致硅芯片所需要的电能、耗费功率大幅提升,甚至成几何级数的增加 4GHz成为了无法逾越的一道坎Intel发布3.8GHz的产品,宣布停止4GHz的产品计划AMD频率超过2GHz以后无法大幅度提升CPU可以煎蛋?CPU功耗增长双核处理器的发展高端的RISC处理器中在上个世纪末,HP和IBM已经提出双核处理器的可行性设计,成功推出了拥有双内核的HP PA8800和IBM Power4处理器Sun在2003年10月微处理

2、器论坛中,发表双核心UltraSPARC处理器 x86平台 AMD和Intel在2004年公布了各自的双核计划AMD率先在服务器和工作站领域引入双核架构Intel率先在台式机领域引入双核技术! 超线程技术超线程:Hyper-Threading Technology逻辑的、虚拟的双处理器同时执行2个线程性能提升什么是超线程技术?通过在硬件上的微小改变增加独立的一套指令指针、寄存器别名表、返回栈指针、高级编程中断控制器等一些硬件投入 利用特殊的硬件指令从软件和操作系统的角度来看,单处理器CPU表现为两个或更多的逻辑CPU逻辑CPU间采用共享的Cache、总线等重要 资源,从而能保持较低的成本增加

3、优点单处理器能使用线程级并行计算兼容多线程操作系统和软件减少了CPU的闲置时间,提高了CPU的运行效率有数据表明,超线程技术的使用利用5%的硬件投入使系统性能提高了25%!超线程技术的不足超线程技术主要有以下两个缺点单任务模式下逻辑处理器的闲置会造成资源浪费 解决两个逻辑处理器资源冲突时会产生延迟,冲突大量出现时会降低系统性能 当运行单线程应用软件时,超线程技术甚至会降低系统性能,尤其在多线程操作系统运行单线程软件时容易出现问题多核出现的背景(续)多核体系结构多核片上多处理器CMP(Chip Multiprocessor)在一块硅晶片上,集成多个计算核心每个计算核心都是一个完整而独立的计算单体

4、核之间通过特定的硅晶片内通信方式互连例如总线、共享缓存考虑多个处理核之间的功能分工、通信方式、存储层次和制造工艺等约束CMP最早出现在1991年的Datawave结构中设计可并行的处理器来解决视频处理中的大量数据计算根据处理器中各个核类型的不同,多核芯片可以分为同构多核体系(Homogeneous CMP)异构多核体系(Heterogeneous CMP)多核技术指标CPU的主要性能指标前端总线(FSB)总线频率,CPU与内存直接数据交换速度数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率前端总线的速度指的是数据传输的速度FSB已经被放弃!目前是QPI,网状结构FSB一般只有1.6G,

5、QPI可以到25GFSB是总线,QPI是点对点,实际不是总线,无需原来的总线仲裁CPU的位和字长字长CPU在单位时间内(同一时间)能一次处理的二进制数的位数目前主流是32位,也有64、128位字节和字长的区别8位称为一个字节字长的长度是不固定的对于不同的CPU、字长的长度也不一样CPU的主要性能指标缓存内存是非常慢的期间,需要缓存(cache)加速L1 Cache(一级缓存)CPU第一层高速缓存可分为数据缓存和指令缓存L2 Cache(二级缓存)L3 Cache(三级缓存)一般用于服务器CPU的主要性能指标处理器指令体系CISCComplex Instruction Set Computing

6、,复杂指令集IA-32:(IA,Intel Architecture)英特尔体系架构从486开始采用,32位IA-64:英特尔推出的64位CPU,采用EPIC指令体系x86-64:AMD公司,兼容于x86-32架构RISCReduced Instruction Set Computing,精简指令集EPICExplicitly Parallel Instruction Computing,显性并行指令计算集成RISC和VLIW各自的优势技术指令字长为128位,包含三个40位的指令和一个8位的模板代码CPU的主要性能指标指令集每款CPU指令系统不一样兼容机是基本一样Intel,AMD都是IA32

7、架构有各自的微架构指令的强弱不同指令集可分为复杂指令集和精简指令集两部分计算机专业会学习这两种指令集汇编扩张指令集多媒体、复数、压缩、编解码、矢量运算Intel的MMX、SSE、 SSE2、SEE3AMD的3DNow!CPU内核和I/O工作电压CPU的工作电压分为内核电压:驱动CPU核心芯片的电压I/O电压:驱动I/O电路的电压通常CPU的核心电压小于等于I/O电压低电压能解决耗电过大和发热过高的问题采用低电压的CPU的芯片总功耗降低了功耗降低,系统的运行成本就相应降低,这对于便携式和移动系统来说非常重要,使其现有的电池可以工作更长时间,从而使电池的使用寿命大大延长 功耗降低,致使发热量减少,

8、运行温度不过高的CPU可以与系统更好的配合 降低电压是CPU主频提高的重要因素之一封装与制造工艺制造工艺的微米是指IC内电路与电路之间的距离。高密集度是趋势密度愈高的IC电路设计,意味着在同样大小面积的IC中,可以拥有密度更高、功能更复杂的电路设计。制造工艺180nm130nm90nm (中国)65nm45nm(2007年)32nm(2008年)22nm(2009年)14nm(2014年?)多核核间通信核间通信机制多核CPU 的各个核心之间需要数据共享与同步片上高效通信机制主要有两种通过连接核心的总线进行通信共享的二级或三级Cache通过连接核心的总线进行通信简单、通信速度高可扩展性较差基于片

9、上的互连结构每个CPU核心具有独立的处理单元和Cache,各核心通过交叉开关或片上网络等方式连接在一起,各CPU核心间通过消息通信可扩展性好,数据带宽有保证硬件结构复杂,软件改动较大多核平衡设计Cache设计使用多级Cache来缓解处理器和主存之问的速度差距独立的Cache芯片面积较大、功耗较高一致性问题共享Cache一定程度上的带宽争用带宽缓解了带宽压力多核软件设计优化操作系统任务调度算法全局队列调度和局部队列调度多核的中断处理多核的各处理器间需通过中断方式进行通信同步与互斥机制多核的功耗低功耗已经成为与面积和性能同等重要的设计目标多核从一定程度上缓解了单核处理器功耗过高的问题只能在不影响芯

10、片工作频率的情况下相对地降低单个核心的功耗多核处理器结构双/多核心处理器双核心处理器在一块CPU基板上集成两个处理器核心通过并行总线将各处理器核心连接起来是CMP(Chip Multi Processors,单芯片多处理器)中最基本、最简单、最容易实现的一种类型RISC处理器领域双核心甚至多核心都早已经实现目前多核进入X86领域Intel和AMD相继推出自己的双核心处理器超线程技术与双核心技术的区别很多普通用户可能分不清楚超线程技术与双核心技术。例如,开启了超线程技术的Pentium 4 530与Pentium D 530在操作系统中都同样被识别为两颗处理器它们究竟是不是一样的呢?这个问题确实

11、具有迷惑性 从最简单的方面讲双核心技术可以理解为两个“物理”处理器,是一种“硬”的方式超线程技术只是两个“逻辑”处理器,是一种“软”的方式 超线程技术采用资源共享方法双核心技术采用资源重复方法超线程技术与双核心技术的区别(续)单核一位厨师在同一时间只能做出一道美味的菜肴下一道菜必需等上一道菜完成后才可以继续起一个炉头做饭Hyper-Threading一个厨师用两手同一时间熟两个食物效率比单线称处理好些有很多限制双核两个厨师分开煮两个食物双核心还会拥有Hyper-Threading技术,即代表两个厨师两只手,同一时间可以运作四个线程。四核处理器的典型结构(同构)左图:每二核共享二级缓存右图:四核

12、共享二级缓存Intel多核Intel的多核处理器2005年4月18日,英特尔历史上第一颗双核心处理器奔腾至尊版840以及配套的Intel 955X芯片组技术特征主频为3.2GHz前端总线频率为800MHz2M二级高速缓存(每个内核1MB)支持英特尔EM64T(64位扩展技术)CPU die尺寸约206平方毫米,共集成了2.3亿枚晶体管采用90nm工艺制造与超线程(HT)技术结合,同时处理四个软件线程2005年7月12日发布的奔腾D 820双核处理器英特尔第二款双核心处理器该芯片之前的研发代号为Smithfield“单一处理器中具有两个奔腾四处理核心简单把两个Pentium 4所采用的Presc

13、ott核心整合在同一个处理器内部两个核心共享前端总线每个核心都拥有独立的1MB二级缓存两个核心加起来一共拥有2MBcache数据的一致性问题处理器中的两个内核都拥有独立的缓存必须保证每个物理内核的缓存信息必须保持一致,否则出错双核心处理器需要“仲裁器”来作协调北桥芯片完成:两个核心需要同步更新处理器内缓存的数据时,需要通过前端总线再通过北桥作更新双内核英特尔至强处理器2005年11月2日,双内核英特尔至强处理器7000系列(原代号 “Paxville MP”)发布主频为 3.0 GHz带有 667 MHz 双独立系统总线该全新处理器将适用于采用英特尔 E8500 芯片组的现有平台,此芯片组专为

14、双内核而设计。第一款硬件支持虚拟化的英特尔处理器至强5000系列双核处理器2006年3月,英特尔低调推出了研发代号为Dempsey的至强5000系列双核处理器英特尔第一款采用65nm工艺制造的至强处理器除了制造工艺外,与之前的至强处理器相比主要有以下两点不同采用1066MHz前端总线,是先进的Bensley平台支持的第一款处理器由于性能有赖于频率,功耗过高、散热困难的NetBurst架构的终结产品Intel Core微架构nm级制造工艺14级指令执行管线和 四组指令编码器处理器流水线缩短了采用14级指令执行管线设计此前Northwood和Willamette核心的流水线为20级Proscott

15、核心的PD和Celeron流水线为31级流水线越长频率提升潜力越大缺点一旦分支预测失败或者缓存不中的话,所耽误的延迟时间越长如果一旦发生分支预测失败或者缓存不中的情况,Prescott核心就会有39个周期的延迟。这要比其他的架构延迟时间多得多内建四组指令编码器可在一个频率周期内,同时编码四个x86指令自从AMD的K5之后,x86没出现过四组指令编码器的设计x86指令编码器是非常难作的东西x86的指令长度、格式与寻址模式都相当的紊乱Intel的NetBurst微处理器架构,导入Trace Cache存放编码后的微指令,改进并不是很明显 指令取指单元在一个频率周期内,从第一阶指令缓存中,获取(fe

16、tch)六个x86指令至指令编码缓冲区(Instruction Queue)判定是否有符合宏指令融合的配对后将最多五个x86指令,交派给四组指令编码器四组指令编码器在每个频率周期中,发给(issue)保留站(Reservation Station)四个编码后的微指令保留站再将存放的微指令交派(dispatch)给五个执行单元多核处理器高效内存管理技术Memory Disambiguation技术内存数据相依性预测功能 降低Cache延迟方面有一个关键技术在存数和取数指令都乱序执行的情况下,保证取数指令都能取回它前面的最近一条对同一地址的存数指令所存的值比如如果一条取数指令在一条存数指令之后且两

17、条指令的地址相等,但取数指令先访问Cache,也要保证取数指令取回该存数指令的值。在处理器将数据回存内存的同时,预测后继的加载指令是否采用相同的内存地址,如果不是就可立即执行加载动作,毋需等待该回存指令,这可大幅改善非循序执行(Out-Of-Order Execution)核心的效率,以及缩短存取内存的延迟 如一条取数指令在一条存数指令之前且两条指令的地址相等,但存数指令先访问Cache,也要保证取数指令取回原来Cache中的值,而不是存数指令新存的值。这是有风险的。因为刚刚读的数据可能会在CPU内部的处理过程中发生变化,从而出现错误Intel称这个系统非常聪明,可以得到不会发生变化的数据Ca

18、che管理每个核心分别内建一组指令及二组数据预先撷取器共享的L2缓存控制器内建两组、可动态分配至不同的核心的数据预先撷取器可根据应用程序数据的行为,进行指令与数据的预先撷取动作,让所需要的内存地址数据,尽量存放在缓存之中,减少存取内存的次数 Smart Cache对二级缓存的设计改进一,缓存的共享设计两核共享一个2MB二级缓存当一个核心空闲时,另一个核心可以完全的访问所有2MB缓存。 增强了数据预取技术在缓存请求还未发生时可以猜测性的把数据预取到二级缓存数据缓存单元带(Data Cache Unit Streamer)优点可以更早的唤起一级缓存以增益二级缓存的预取性能 共享缓存相对独立缓存的一

19、个重要好处就是它降低了缓存的一致性复杂度 过采用动态缓存分配技术对两核进行智能的分配缓存使得两个核心协作,可以增大缓存利用率又减少缓存的命中失效情况发生 宏指令融合不使用宏指令融合使用宏指令融合宏指令:源程序中一段有独立功能的程序代码宏指令融合:2条宏指令融合为1条微指令节能机制缓存槽(cache ways) 深度睡眠(Deeper sleep) 增强型深度睡眠(Enhanced Deeper Sleep)Core 2 DuoIntel Wide Dynamic Execution(Intel宽位动态执行)Intel酷睿微架构拥有4组解码器,可以同时获取、分配、执行和退回多达4条完整的指令(比

20、Pentium M架构,包括Yonah增加一条)Intel酷睿微体系结构在新加入宏指令集融合(Macro-Fusion)技术,可以让处理器在解码的同时,将同类的指令融合为单一的指令,减少处理的指令总数,让处理器在更短的时间内,以更低的功率处理更多的指令。Intel Intelligent Power Capability(Intel智能功率能力)新一代处理器在制程技术方面做出优化,采用了先进的65nm Strained Silicon技术、加入Low-K Dielectric物质及增加金属层,相比上代90nm制程减少漏电情况达1000倍。而且通过先进的功率门控技术,来充分利用该微架构的超精细逻

21、辑控制,降低处理器的功耗及发热。Intel Advanced Smart Cache(Intel高级智能高速缓存)每个核心都可以动态支配100%的全部缓存,共享二级缓存,加强了多核心架构效率,大幅增加了缓存的命中率,也可关闭部分缓存降低功耗。这样可以降低缓存的命中失误,减少数据延迟,改进处理器效率,增加绝对性能和每瓦特性能。Intel Smart Memory Access(Intel智能内存访问)对内存读取顺序做出分析,智能、预测性的装载下一条指令所需要的数据,大幅提高了执行程序的效率。Intel Advanced Digital Media Boost(Intel高级数字媒体增强)拥有12

22、8bit的SIMD执行能力,一个时钟周期就可以完成一条指令,效率提升明显六核心的酷睿i9从酷睿i7开始,内存控制器已经被放到CPU里面i96核心12线程6x256KB二级缓存12MB三级缓存32nm安腾服务器双核安腾处理器2006年7月26日,之前研发代号为“Montecito”的安腾处理器,以英特尔安腾2处理器9000系列正式命名首发安腾处理器中首个在单一封装Die上面具备可并行执行双线程的内核和缓存级别的处理器集成了17.2亿个晶体管和其它服务器相关技术,包括虚拟化支持耗电量只有100瓦Intel凌动系列处理器采用45nmHigh-K CMOS工艺制造集成4700万个晶体管DIE核心面积均

23、为7.83.1毫米24.2平方毫米封装硅片体积13141.6毫米统一配备512KB二级缓存支持SSE3指令集、VT虚拟化技术、EDB防毒技术、高级散热管理技术功耗在800MHz频率下的Silverthorne只有不到0.65瓦的功耗1双核凌动英特尔Intel在2009年9月21日正式发布第一款双核心的Atom处理器型号“Atom 330”,定价43美元1.6GHz主频533MHz前端总线BGA 437接口二级缓存2512KB80核心处理器Intel展示了80核心处理器2007年2月代号为“Polaris”(北极星) “Terascale”工程的成果核心面积275平方毫米主频3.16GHz电压0

24、.95V数据带宽1.62Tb/sIntel称该处理器浮点运算能力可达到1.01TFlops(每秒万亿次)英特尔80核计算能力每秒2万亿次Larrabee众核图形支持 DirectX 和 OpenGL高吞吐率8到64个处理器核每个核是早期Pentium每个处理器核包含一个16路的SIMD处理单元包含固定功能的纹理处理单元整个芯片支持完整的cache一致性协议计算能力:1GHz的主频、32个处理器核的情况下,处理器的计算能力能达到1 TeraFLOPS汇编指令集变化提高电脑在多媒体、3D图形方面的应用能力 MMX57条多媒体指令 SSEStreaming SIMD Extensions 3D NO

25、W!3D加速指令集 怎么利用这些指令用专业编译器2009年的SSE4.24.1包括47条指令,4.2包括7条指令。4.2增加两类汇编:STTNI(STring & Text New Instructions)和ATA(Application Targeted Accelerators) 加速XML文本的字符串操作、存储校验XML的解析速度最高是原来的3.8倍。这就是为什么office2007采用XML,运行在新处理器上速度快?AMD多核AMD的多核处理器2005年的4月21日正式发布AMD的Athlon 64处理器内部整和了内存控制器在最初Athlon 64设计时就为双核心做了考虑采用了SRQ

26、(System Request Queue,系统请求队列)技术在工作的时候每一个核心都将其请求放在SRQ中当获得资源之后请求将会被送往相应的执行核心缓存数据的一致性不需要通过北桥芯片,直接在处理器内完成AMD双核心处理器的仲裁器在CPU内部而不是在北桥芯片上与主板芯片组无关Socket类型如今已经推出的Athlon 64处理器的socket类型主要分为757以及939两种。 Athlon 64 Socket 939多了185根针脚,控制第二条内存通道时钟频率处理器的时钟频率主要通过每秒的周期数量来表示。它根据型号的不同,分为从1800 MHz到2600 MHz不等。制造工艺晶体管制造工艺到底是

27、130nm还是90 nm 。由于更小的制造工艺,晶元大小被从150mm2缩小到83mm2,使得相同的晶元有可能多生产75的处理器AMD的双核是把两颗内核Core(s)集成在一块晶片硅上,而Intel的双核其实是用电路将两个独立的Packet(s)缝合在一起Intel的双核架构会遇到多个内核争用总线资源的瓶颈问题。AMD直连架构(也就是通过超传输技术让CPU内核直接跟外部I/O相连,不通过前端总线)和集成内存控制器技术,使得每个内核都自己的高速缓存可资遣用,都有自己的专用车道直通I/O,没有资源争抢的问题,实现双核和多核更容易AMD把两颗内核Core(s)集成在一块晶片硅上,这样做不仅提高了处理

28、器的并行处理能力,而且处理器的能耗和发热并不会有所提高在多个物理处理器及多个逻辑处理器之间正确分配数据流、平衡运算任务并非易事 AMD PhenomTM X3 3核处理器世界上仅有的三核 x86 处理器技术特点第二代直联架构的Phenom X3处理器基于65nm制造工艺核心面积为285平方毫米,内含4.5亿个晶体管三级缓存(L3)的引入,其每个核心具备128KB L1缓存(64KB指令+64KB数据)和512KB L2缓存,同时三个核心还配备了额外的共享式32路联合2MB L3缓存Phenom X3依然延续了上一代K8处理器所采用的集成内存控制器设计方式,最高可支持DDR2 1066MHz内存

29、3核的问题AMD内部工程师指出,在FAB工厂内部进行测试的时候,四核心处理器多个核心的频率会在某些时候发生不匹配的情况,比如三个核心能运行在2.6GHz,而第四个只能达到2.0GHzIBM多核Cell架构 CELL背景Sony,Toshiba和IBM(简称为STI联盟)为PlayStation 3设计的Cell 处理器承诺未来的计算能力将迅速达到极低的价格。后文中包含了Cell 体系结构,及其深远的影响,这些影响并不仅仅局限于游戏市场,它将遍布整个计算机工业界。 CELL组成Cell是一个高性能分布式计算体系结构由硬件和软件Cell构成硬件CELL一个Cell处理器包含三个主要组成部分。以一个

30、Power处理器单元作为主控处理器(PPE),另外两部分分别是八个单指令多数据流处理器(SPE)与一个可编程DMA控制器(DMAC)。 软件Cell包括数据和程序(称为apulets)被送往硬件Cell进行计算并返回结果处理器单元(PPE)64位的“Power 体系结构”处理器Power体系结构:PowerPC和Power处理器Power核心功耗巨大需要降低主频以降低功耗PPE实际上不过是控制器真正的运算在SPE上 附属处理单元(SPE)每一个Cell芯片包含8个SPESPE都有各自独立的向量处理单元包含128个128位寄存器达到32GFlops的流水浮点单元SPE同时包含一个256KB的本地

31、存储器而不是Cache结构SPE并不是协处理器,是独立的处理器PPE使用软件Cell建立SPE环境,并驱使他们开始运算SPE执行软件Cell中的 apulet直到完成或者被通知停止PPE通过远程过程调用RPC唤醒SPE,RPC并非直接送到SPE,而是通过执行所有存储器读写的DMAC来完成的 附属处理单元(SPE)SPE是向量(Vector或者SIMD)处理器可以在一条指令中同时完成多个操作每个SPE每周期可以完成4个32位操作(如果算上乘加操作则是8个)运行的程序必须被向量化视频,音频,3D图形和科学计算这样的应用领域非直接的Cache和虚存使得SPE的工作方式与传统处理器不同。这很可能让SP

32、E上的编程变得很困难,但这样的设计是为了降低复杂度并提高性能SPE本地存储为解决Cache设计带来的复杂性并提高性能,在Cell中使用了一系列的本地存储器,每个SPE一份,总共有8个本地存储器SPE通过寄存器操作来读写本地存储器。本地存储器以1024b的块来访问主存,但是SPE并不能直接访问主存。不使用Cache工作模式,设计师可以剔除很多复杂设计本地存储器只能由单一的SPE访问,并没有任何与SPE或者本地存储器直接相连的一致性访问机制 一致性Coherency虽然在SPE之间不存在一致性机制,但是有一种给RAM中某些额外数据在本地存储中加入额外“busy”的机制,以避免两个SPE同时访问相同

33、存储器时产生问题由于仅仅标记数据是否可读取以及哪一个SPE试图获取数据,这个系统是比保持Cache与最新内容一致简单得多的实现直接存取控制器DMACCell中非常重要的部分,充当着通讯集线器hub的功能PPE并没有直接将指令发往SPE但是会将他们发往DMAC并由后者选择合适的动作,这在载入和保存数据时显得特别重要,同时取消了PPE和SPE直接相连的必要性。显然DMAC是Cell设计中最重要的部分之一,虽然其本身并不做任何处理,但是必须满足任意两点之间数十GB/s访存数据流。如果预测正确的话,PS3将具有100GB/s的存储接口,如果均分倒4个Cell上,每个DMAC将需要每秒处理至少25GB。

34、同时要实现存储保护,能够保证 PPE和SPE之间访存和通讯的顺序,除了高速而外它还是高度复杂的工程部件硬实时处理某些流处理需要严格的时间并且“硬”实时数据处理器的设计也已经在考虑中一个“绝对时钟”被用于保证一个处理操作在说明的时间限制内完成这个实用的功能同时保证与下一代Cell兼容,因为定时器本身是和处理部分独立的存储器与其他处理器一样Cell体系结构中的存储系统也是针对raw speed设计的,它将同时具有低延时和高带宽前面提到过访存以1024位的块为单位存储保护在DMAC中有存储系统的保护措施Memory被分成沙盒“sandboxes”,用一个掩码来判定那一个或者一组SPE可以对其进行访问

35、这个检查过程是访问执行之前在DMAC中进行的如果用一个SPE试图读写错误沙盒,存储访问将会被禁止Cells和常用处理器的一大区别就是在Cell中SPE链接起来以流处理器方式工作的能力一个流处理器获取数据之后,按照一系列的步骤来处理它每一个步骤都可以用一个或者多个SPE来实现一个Cell处理器可以通过用一个或者多个SPE承担流中的一个步骤来执行流操作为了完成流操作,一个SPE从输入中读取数据进入其自身的本地存储器,执行处理步骤,然后将结果写入预先定义的RAM空间中第二个SPE取走刚刚写入的数据,进行处理并写入RAM中的第二个区域根据应用的需求,这一序列可以使用多个SPE,同时SPE可以读写多个R

36、AM块如果单个Cell的计算能力不足,在其他Cell中的SPE可以用来构成更长的链软件Cell软件Cell是一个包含数据和程序(Apulet)的容器,也包含这个apulet运行所需要的其他数据和指令软件Cell中包含源、目标和响应地址域,这些内容依赖于使用的硬件网络,软件Cell可以被发送到不同的硬件Cell中。也有独立于网络的地址来定义特殊的Cell使得可以在网络上的一台特定主机可以将一个软件Cell发送到任意的硬件CellSPE使用的是虚拟地址,然后一旦DMA命令发射出去虚拟地址就被映射成为实际地址软件Cell中包含这些DMA命令以从存储器中获得数据进行操作处理,如果SPE被用于处理流,C

37、ell中将包含描述何处读取数据,何处回写结果的命令一旦SPE初始化建立完毕就被驱使完成Cell 每个Cell系统都有其全球惟一的标识符UUID如果软件Cell必须穿过一个外部网络才能到达其目的Cell系统,那么它将会把自己封装到一个标准网络协议包,如TCP/IP包下图描述了Cell专利中描述的软件Cell穿越一个链接几个不同基于Cell系统的公用网络时的情形多Cell系统怪兽 整个Cell体系结构上的重要一环就是并行处理软件Cell可以漂亮的被送到任何地方,并且这一过程与特定的传输方法是相互独立的在动态运行时决定软件Cell在哪个硬件Cell上运行构成了Cell体系结构的关键特性如果需要更多的

38、计算能力,插上更多的Cell就可以了Cell应用游戏GAME游戏是当然的设计目标,Cell从一开始就是作为游戏终端进行设计的,如果在游戏上没有良好的表现那肯定有问题。Cell的设计师紧盯raw computing power而不是图形能力,因此我们将看到硬件功能被转移到软件上而开发者有更多的灵活性。现在的问题是PS3是否能成为第一个实时光影跟踪的游戏终端。 3D图形这又是Cell的重要设计目标领域,图形具有巨大的并行特性,可向量化和流化的各种问题可以让SPE得到完全的应用,因此使用的Cell越多就可以获得更快的图形性能。现在有很多不同高性能图形技术方面的研究,希望Cell能够被他们所使用,而这

39、些技术也能通过Cell使自己成为主流技术。如果你认为现在的图形技术已经足够好了,在Cell上你可能会得到某些惊喜。 其它还有视频,音频,数字图像处理,超级计算,服务器等等应用性能数据时钟频率Observed clock speed: 4 GHz峰值性能(单精度): 256 GFlops峰值性能(双精度): 26 GFlops每个SPU的Local storage的容量: 256KB面积: 221 mm采用90nm绝缘体硅技术(Silicon on Insulator)总晶体管数: 234MCELL前景极高性能并且廉价将会挑战PCPC有巨大软件基础的优势很多软件都可以在linux上运行并且逐渐脱

40、离了对x86处理器和MS的依赖高速 JIT模拟器Cell需要提高对PC的兼容能力?Cell在高性能的嵌入式应用领域被广泛使用产量、价格CELL永远结束了!2009年11月,IBM停止了Cell处理器的未来开发PoweXCell 8i是最后一款Cell处理器原因:并不比GPGPU强大,灵活性不如CPUIBM Power系列POWER 是 Power Optimization With Enhanced RISC 的缩写,是 IBM 的很多服务器、工作站和超级计算机的主要处理器。POWER 芯片起源于 801 CPU,是第二代 RISC 处理器。POWER 芯片在 1990 年被 RS 或 RIS

41、C System/6000 UNIX 工作站(现在称为 eServer 和 pSeries)采用POWER 的产品有 POWER1、POWER2、POWER3,POWER4, POWER5等。IBM智能计算机2009年11月18日发布大型脑皮层模拟器10亿个尖峰神经元10万亿个独立的学习神经键新的感知算法IBM公司与斯坦福大学共同合作采用“深蓝”超级计算机来测量人类大脑与模拟大脑之间的联系再利用磁共振弥散加权成像技术绘制了模拟大脑内部的神经连线路径智商水平已可以与猫类相比SUN多核SUN的opensparc芯片多线程技术(CMT) 2006年3月21日Sun公司在加利福尼亚州圣克拉拉举行的多核

42、博览会上为其多线程UltraSparcT1(Niagara)处理器发布了开源软硬件规范。UltraSparcT1现在叫OpenSparcT1 不收特许费的64位32线程处理器设计。去年12月Sun宣布准备为该处理器制定开源硬件规范。 具体说,Sun发布了用于该处理器设计的VerilogRTL代码、一个验证套件和模拟模型、一个指令集架构规范和Solaris10操作系统仿真图像。这些规范见OpenSparc网站UltraSPARC T22007年8月8, Sun 公司发布了全球速度最快的商用微处理器UltraSPARC T2拥有8个内核每个内核包含8个线程第一款实现商用批量生产的处理器功能包括虚拟

43、化、信号处理、网络连接、安全特性、浮点单元和加速内存访存性能高吞吐量处理能力 单芯片世界记录SPEC CPU分值是世界记录该处理器的8核和每核8线程这两个世界记录分别是:78.3 est. SPECint_rate2006和62.3 est. SPECfp_rate2006UltraSPARC T2处理器的线程计算能力是Sun的UltraSPARC T1处理器的两倍UltraSPARC T1处理器在10部Sun Blade T6300服务器组成的模块系统上创立了一个世界记录,即8253.21 SPECjAppServer2004 JOPSStandard网络连接两个可虚拟化的多线程的每秒10千

44、兆比特的以太网端口,具有内建的包分类功能,可确保快速的网络连接以及服务器对服务器的通信。 安全特性有8个密码加速单元,一共有10个独立的功能,可满足不断增长的安全需求,包括由NSA批准的算法,而在性能上没有任何损失计算功能有8个浮点单元,将CMT的技术优势扩展到了高性能计算领域,适用于各类科学应用,创立了单芯片SPECfp_rate2006世界记录和单芯片。 输入/输出(I/O)有8条通道,满足行业标准PCI Express I/O高速应用,如流媒体、数据库读/写,以及数据备份等。 内存访存有4个内存控制器,提供了每秒50千兆字节以上的内存访存速度。 软件支持具有海量线程特性的Solaris操作系统使高线程处理器UltraSPARC T2的技术优势得到充分发挥,拥有开放的、低成本的虚拟化功能SUN也结束了,被ORACLE购买!其他多核龙芯报告龙芯3号多核处理器设计及其挑战龙芯3号多核处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论