




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、百度文库-让每个人平等地提升自我NVIDIA Tesla K10 及K20技术规格详解在GTC 2012大会上,NVIDIA老总黄仁勋公布了新一代 Tesla加速卡的详情,不过此次发布的 Tesla 显卡算是双胞胎,一款是基于双芯 GK104架构的Tesla K10,另外一款则使用了真正的新架构, 基于GK110 核心的Tesla K20 。K10和K20的特性有所不同,重点也不一样Tesla K20Single PrecisionMemory BandwttfttiHyper-Q, Dynamic ParallelismAv»4ab*e Now首先来看K10,它的物理外观与 GTX
2、 690显卡没什么区别,但是 NVIDIA公布的几项参数耐人寻 味, 单精度浮点能力为4.58TFLOPS ,带宽为 320GB/s ,作为对比的是GTX 680单精度运算能力3.09TFLOPS , 192GB/s 带宽,而 GTX 690 也有 5.62TFLOPS , 384GB/s 带宽,上一代 Fermi 核心浮点 运算能力为1.58TFLOPS ,带宽192GB/s 。从参数上看,K10达到了 NVIDIA所说的三倍于Fermi家族的单精度浮点能力,但是比 GTX 680 只提高了 50%,带宽也只高了了 67%左右,明显不如 GTX 690显卡。由于是同样的架构,Tesla K1
3、0很明显在核心和显存频率上做了妥协,由于 GK104架构的能效比 很高,而HPC领域对功耗、发热也不甚敏感,不知 NVIDIA为何将K10的规格定的比 GTX 690还低。现场的图片没有公布 K10的显存容量和 TDP信息,但是 GeForce GRID页面出现的K520显卡 规格与K10 一致,而显存容量是 8GB , TDP是250W ,二者其实都是双芯 GK104显卡,因此Tesla K10 也是8GB显存,250W TDP 。(这个功耗低于 GTX 690的300W ,或许是规格降低唯一可能的解释了)Tesla K10现在就可以出货,但是它并不是重点,个人觉得它只是个过渡产品,扮演救火
4、队员的角色,因为GK104先天孱弱的双精度运算能力注定了它不可能在HPC市场有多高的成就,NVIDIA之所以推GTX 690上阵是因为GK110架构来的比预期的还要晚。GK110是NVIDIA针对高性能GPU计算市场开发的架构,之前一直传1到今年8月份就会发布,但是NVIDIA给出的日期是今年第四季度,不论是28nm产能还是芯片自身的问题,这大半年的空白期总需要有人先顶上,这就是 K10的使命了。Tesla K20 与 GK110 架构NVIDIA对K20的描述是倍双精度浮点性能”,并有Hyper-Q、Dynamic Parallelism 等多种并 行计算技术加持,这些是现有的GK104架构
5、不具备的。NVIDIA 的PDF资料中介绍了 GK110的SMX架构,也是192个CUDA 核心SMFERMI5MxKtPLER3? CORES3XPERF/WATTFigured: SMX; 192 CUDA«omr32 Special Function Units 15 FU, and 32 L&ad/Stort unit* (LD/STl必须要承认,以前泄露的有关GK110架构的消息是错误的,GK110的SMX架构其实跟 GK104还是一样的,都是 192个CUDA核心,32组SFU单元以及32个LD/ST单元。GK110架构图除去其他的功能单元之外,GK110核心总共
6、有15组SMX单元,2880个CUDA核心,但是Heise 声称并非所有单元都是启用的,实际上可能只有13-14组SMX单元,实际CUDA核心是2496或者2688个。显存位宽是384bit ,已为黄仁勋和NVIDIA CTO确认。由于CUDA核心数已经低于之前的报导, 显存位宽降到384bit也是很自然的事,如果保持 GK104的6Gbps显存速率,那么 GK110的带宽将达到 288GB/S ,终于超过 AMD GCN 架构的 260GB /s 了。NVIDIA给出的3倍双精度浮点性能不知是跟 GF110显卡还是跟GF110核心的Tesla加速卡做的 比较,GF110的单精度浮点能力为 1
7、.58TFLOPS ,显卡中的双精度为单精度的 1/ 4,也就是0.4TFLOPS , 但是GF110核心的Tesla卡双精度能力可达单精度 1/2,大约是0.8TFLOPS。如此一来,如果以显卡为基础,GK110的双精度浮点卜iE能大约是1.2TFLOPS以上,如果是Tesla卡的3倍,那就是2.4TFLOPS以上,鉴于后者已经超出之前传闻的2TFLOPS的能力,GK110的双精度浮点能力应该是1.2TFLOPS或更高Tesla K20 配置了 6pin+8pin 供电接口核心面积和TDP未知,不过K20配备的是6pin和8pin供电接口,最大TDP不会超过300W。晶 体管数量也是一个70
8、亿,准确点说是71亿。 GK110并行计算技术介绍显卡规格方面的信息基本就是这么多了,再来看一下 NVIDIA为GK110所增加的新技术吧。Dynamic Parallelism (动态并行)GK110架构的首要目标之一就是使程序员更方便地调用GPU强大的并行计算能力。传统的模式下,GPU每次操作都需要 CPU的参与,而Dynamic Paralleliom 的存在使得GPU接收数据时会动态刷 新线程而无需 CPU参与。 由于内核有了独立加载工作负载的能力,动态并行技术允许程序直接在GPU上运行。这项技术的好处就是可以降低编程的复杂性,原本需要200-300行代码才能完成的工作在 GK110显
9、卡上只需要30行就可以了。Hyper-QHyper-QCPU Cores Simultaneously Run Tasks on KeplerFERMI1 MPl Task at 的 TimeKEPLER上一项技术强调的是简化操作,是给CPU减负,而Hyper-Q则是增加了 CPU同时加载工作的核心数,是在提升=高CPU的利用率,避免 CPU过多的闲置。Fermi架构中CPU只能同时运行一个 MPI (Message Passing Interface消息传递接口)任务, 但是在GK110架构中CPU同时运行的MPI任务数多达32个。传统的MPI任务主要基于多核 CPU应用,与GPU强大的并行
10、计算能力相比, CPU处理的MPI 任务量实在是太小了,往往会带来虚假的 GPU依赖性,导致 GPU的性能无法有效利用, Hyper-Q大幅 提高了 CPU可以分配给GPU的MPI任务量,如果同时传递32个任务给GPU,那么理论性能会达到 Fermi 架构的32倍,实际应用中虽然不会这么夸张,但是优化调度之后GPU的并行计算能力还是会有改善。GPU DirectGPU Direct直连是NVIDIA官方PDF中没有提到的,不过依然值得解释一下。NVIDIA已经推出了基于Kepler架构的GeForce GRID云游戏技术,那么使用 Kepler显卡的服务器就免不了要互相交换 数据。GPU Direct技术可以让服务器的中不同显卡直接读取显存的数据,甚至不同服务器之间的显卡也 可以通过网卡读取另一块显卡显存中的数据,简单来说就是提高了显卡的数据交换能力,所需的步骤更少,延迟更低。CUDA 5要想使用上面介绍的技术就必须使用新的CUDA 5 , GTC大会上NVIDIA已经发布了一个预览版的CUDA 5 SDK ,正式版将在今年三季度发布。Kepler显卡发布之后,Tesla家族也终于迎来架构更新, 而且很快就会有更新架构的Tes
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 出炉工安全培训课件
- 社区工作者面试题及答案大全-社区工作者结构化面试试题及答案
- 2025简化版私有房产买卖合同样本
- 2025二手物流运输车辆买卖合同
- 2025年合同避税与减轻行政风险的策略研究
- 2025年甲地土地使用权转让合同书标准范本
- 最后一次演讲语文课件
- 2025安置地皮转让协议书写【安置地转让合同】
- 八钢安全教育培训课件
- 社区高危人口管理办法
- 2025合作劳务外包协议范本
- 2025年燃气公司安全教育安全生产管理人员考试试卷(含答案)
- 2025年工会财务知识竞赛考试题库及参考答案
- 托管老师安全知识培训课件
- 2025年医疗器械网络销售监督管理办法培训试题及答案
- 医疗机构应急管理与急救技能手册
- 《急性肺栓塞诊断和治疗指南2025》解读
- 2025留置辅警笔试题库及答案
- 辽宁沈阳出版发行集团有限公司及所属企业招聘笔试题库及答案详解(新)
- 胸椎后纵韧带骨化症
- 2025年中级注册安全工程师《安全生产法律法规》十年真题考点
评论
0/150
提交评论