




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、CSE431 Chapter 7B.1Irwin, PSU, 2008第七第七章章 B: SIMDs, Vectors,and GPUsAdapted from Computer Organization and Design, 4th Edition, Patterson & Hennessy, 2008, MKCSE431 Chapter 7B.2Irwin, PSU, 2008Flynns Classification Schemeq现在,有些术语已经过时了qSISD 单指令流单数据流的单处理器l例如 单处理器 本学期一直在讨论的qSIMD 单指令流多数据流的多处理器l单个控制单元将操作
2、广播到多个数据通路qMISD 多指令流,单数据流l没有这样的机器 (尽管有些人将向量机归为此类)qMIMD 多指令流,多数据流l如多处理器 (SMPs, MPPs, clusters, NOWs)CSE431 Chapter 7B.3Irwin, PSU, 2008SIMD 处理器处理器q单个控制单元 (只需执行代码的一个副本)q多个数据通路 (处理单元 PEs) 并行执行lQ1 这些处理单元通常通过网格或圆环互相连接,并交换和分享控制单元控制的数据lQ2 每个处理单元在它自己的数据上进行相同的操作PEPEPEPEPEPEPEPEPEPEPEPEPEPEPEPEControlCSE431 Ch
3、apter 7B.4Irwin, PSU, 2008SIMD 机器的例子机器的例子MakerYear# PEs# b/ PEMax memory (MB)PE clock (MHz)System BW (MB/s)Illiac IVUIUC197264641132,560DAPICL19804,0961252,560MPPGoodyear198216,384121020,480CM-2Thinking Machines198765,5361512716,384MP-1216 MasPar198916,384410242523,000qDid SIMDs die out in the early
4、 1990s ?CSE431 Chapter 7B.5Irwin, PSU, 2008SIMD:多媒体扩展:多媒体扩展qSIMD目前使用最广泛的变种几乎在每个微处理器中都可以找到 已成为 MMX and SSE 指令的基础,引进这些指令的目的是提高多媒体程序的性能l将一个很宽的ALU分布到许多并行工作的小ALU上在x86中,现在已经有数百万条SSE指令,可用于支持多媒体的操作32 bit adder 16 bit adder 16 bit adder 8 bit +8 bit +8 bit +8 bit +l例如,一个硬件单元可以是一个64位ALU,也可以是两个32位ALU、四个16位ALU甚
5、至八个8位ALU。存储器操作位宽与ALU是相同的,这样无论是传输一个64位数据元还是传递两个32位数据元,四个16位数据元或八个8位数据元,程序员都可以认为数据传输指令都是相同的CSE431 Chapter 7B.6Irwin, PSU, 2008向量机向量机q向量机(例如,Cray)将ALU流水化,从而在低成本下获得高性能。向量体系结构的一个关键特征是拥有一组向量寄存器,用于保存操作数和结果。l从存储器中数据元,并将它们按顺序放到一大组寄存器中,然后在寄存器中对它们依次操作,最后将结果写回存储器l它们构成了1980s及90s超级计算机的基础q基于MIPS指令集体系结构进行扩展,增加向量指令和
6、向量寄存器,例如laddv.d 表示将两个双精度的向量相加,输入是一对向量寄存器laddvs.d and mulvs.d 表示将标量寄存器的内容加(乘)到向量寄存器中的每个数据元上llv and sv 分别代表向量的读入和写回,它们完成整个双精度数据向量的读入或写回CSE431 Chapter 7B.7Irwin, PSU, 2008MIPS vs VMIPS DAXPY 代码代码: Y = a X + Yl.d $f0,a($sp);读入标量 aaddiu r4,$s0,#512;读入的上界loop: l.d $f2,0($s0);读入 X(i)mul.d $f2,$f2,$f0;a X(i
7、)l.d $f4,0($s1);读入 Y(i)add.d $f4,$f4,$f2;a X(i) + Y(i)s.d $f4,0($s1);写回 Y(i)addiu $s0,$s0,#8;递增 X 的索引addiu $s1,$s1,#8;递增 Y 的索引subu $t0,r4,$s0;计算边界bne $t0,$zero,loop ;检查是否完成l.d $f0,a($sp);读入标量 alv $v1,0($s0);读入向量 Xmulvs.d $v2,$v1,$f0;向量与标量的乘法lv $v3,0($s1);读入向量 Yaddv.d $v4,$v2,$v3;将 Y 加到 a Xsv $v4,0($
8、s1);写回结果CSE431 Chapter 7B.8Irwin, PSU, 2008向量与标量的对比向量与标量的对比q向量对取址和译码带宽的需求显著降低了(功耗也会降低)l在VMIPS中,6条指令就接近完成了600条MIPS指令的工作( DAXPY 例子中)q硬件只需要在两条向量指令之间对每个向量操作数检查一次数据相关,而不是对向量内每个数据元检查一次。每条向量指令只会在每个向量的起始数据元阻塞,在随后的数据元会顺畅地通过流水线。控制阻塞不会存在。.lDAXPY例子中, MIPS 的流水线阻塞频率大约比VMIPS高64倍q易于编写数据级并行的应用程序代码q访问存储器有确定的存取模式,所以从交
9、叉存储器中取一个向量将会很快。主存延迟的开销看上去只有一次。CSE431 Chapter 7B.9Irwin, PSU, 2008向量向量机的例子机的例子MakerYearPeak perf.# vector ProcessorsPE clock (MHz)STAR-100CDC1970?1132ASCTI197020 MFLOPS1, 2, or 416Cray 1Cray197680 to 240 MFLOPS80Cray Y-MPCray1988333 MFLOPS2, 4, or 8167Earth SimulatorNEC200235.86 TFLOPS8qDid Vector ma
10、chines die out in the late 1990s ?CSE431 Chapter 7B.10Irwin, PSU, 2008The PS3 “Cell” Processor ArchitectureqComposed of a non-SMP architecture l234M transistors 4Ghzl1 个电源处理单元 (PPE) “控制” 处理器. PPE 类似一个Xenon 核- Slight ISA differences, and fine-grained MT instead of real SMTl8个支持 SIMD 类型指令的协处理单元 (SPEs)
11、. The real compute power and differences lie in the SPEs (21M transistors each)- An attempt to fix the memory latency problem by giving each SPE complete control over its own 256KB “scratchpad” memory 14M transistorsDirect mapped for low latency- 4 vector units per SPE, 1 of everything else 7M trans
12、istorsl512KB L2$ and a massively high bandwidth (200GB/s) processor-memory busCSE431 Chapter 7B.11Irwin, PSU, 2008流处理器的使用流处理器的使用CSE431 Chapter 7B.12Irwin, PSU, 2008图像处理单元图像处理单元(GPUs)qGPUs 是补充CPU的加速器,因此它们不必执行CPU的全部任务,它们专注于图形方面的资源。lCPU-GPU 组合 异构 多处理qGPU设计者不必考虑二进制指令的向后兼容性,可以不断地开发新的体系结构,使GPU的创新速度超过了CPUl
13、应用程序接口 (APIs),如 OpenGL 和 DirectX,与高层次图形绘制语言紧密结合,如 NVIDIA 的 Cg 和 CUDA 及 Microsoft 的HLSLqGPU的数据类型是顶点 (x, y, z, w) 坐标和像素 (red, green, blue, alpha) ,颜色成分qGPUs 是多线程执行的 (例如, vertex and pixel shading) ,并行 大量的数据级并行CSE431 Chapter 7B.13Irwin, PSU, 2008典型的典型的 GPU 体系结构特点体系结构特点qGPU不依赖像CPU一样的多级缓存来隐藏到存储器的长延时l每个GPU处理器都是高度多线程的qGPU借助广泛的并行来获得高性能l有广泛的 SIMD 指令集; 朝多核发展qGPU的主存是面向带宽的,而不是面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高血压课件的最后落语
- 电脑课件不能用的原因
- 高血压个人查房课件
- 医院护工派遣服务投标方案
- 电脑知识培训班课件
- 高考新闻比较阅读课件
- 建设工程劳务分包合同
- 电脑安装知识培训新闻课件
- qc小组组长考试答案及答案
- 电网电压知识培训
- 呼吸与危重症医学科
- 结直肠癌导致急性肠梗阻外科治疗中国专家共识(2025版)课件
- (人教版)初中英语九年级全册 各单元测试卷及答案共十四套
- 2025年储能电池热管理技术在船舶动力系统中的应用研究报告
- 慢性胰腺炎中西医结合诊疗专家共识(2025年)解读课件
- 售后服务转移合同协议
- 廊坊市广阳区2025年小升初素养数学检测卷含解析
- 高值耗材点评制度
- 人教版2024-2025学年七年级数学上册教学计划(含进度表)
- 隔声窗施工方案
- (高清版)DB11∕T687-2024公共建筑节能设计标准
评论
0/150
提交评论