在FPGA上优化实现复数浮点计算_第1页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、在fpga上优化实现复数浮点计算应指出,矩阵大小并不相同。田纳西州高校结果是从512×512矩阵大小开头的。bdti基准测试达到了360×360矩阵大小。缘由是,矩阵规模较小时,gpu效率十分低,因此,在这些应用中,不应当用法它们来加速cpu。在规模较小的矩阵时,fpga的工作效率十分高。第二,bdti基准测试是基于每个cholesky内核的。每个可参数赋值的cholesky内核支持挑选矩阵大小,矢量大小和通道数量。矢量大小大致打算了fpga资源。较大的360×360矩阵用法了较长的矢量,支持这一fpga中实现一个内核,达到91gflop/s。较小的60×

2、;60矩阵用法的资源更少,因此,可以实现两个内核,总共是2×39=78gflop/s。最小的30×30矩阵支持实现三个内核,总共是3×26=78gflop/s。fpga看起来更适合解决数据规模较小的问题。缘由之一是由于计算负载随n3而增大,数据i/o随n2增大,终于,随着数据的增强,gpu的i/o瓶颈不再是问题。另一项考虑是吞吐量。随着矩阵规模的增大,因为每个矩阵的处理量增大,矩阵每秒吞吐量会大幅度下降。在某些点,吞吐量变得十分低,以至于无法满足无数应用的要求。在无数状况下,会分解大规模矩阵,处理每个小的子矩阵,以解决因为浩大的处理负载造成的吞吐量限制问题。对于f

3、ft,计算负载增强n log2 n,而数据i/o随n增大而增大。对于规模较大的数据,gpu是高效的计算引擎。作为对照,数据长度很短时,fpga是高效的计算引擎,更适合fft长度达到数千的无数应用,对于gpu,fft长度是数十万。gpu和fpga设计办法用法nvidia的专用cuda语言或者开放标准opencl语言对gpu举行编程。这些语言在能力上十分相像,而最大的不同在于cuda只能用在nvidia gpu上。fpga通常用法hdl语言或者举行编程。这些语言的最新版虽然采纳了浮点数定义,不用举行综合,但都不太适合支持浮点设计。例如,在system verilog中,短实数变量与ieee单精度(

4、浮点)对应,实数变量与ieee双精度对应。用法传统的办法,将浮点数据通路综合到fpga的效率十分低。xilinx fpga在cholesky算法上的性能很低,它用法了xilinx浮点内核生胜利能,这证明了这一点。而altera采纳了两种不同的办法。第一种用法基于的设计输入,称之为dsp builder高级模块库。这一工具包含了对定点和浮点数的支持。它支持7种不同精度的浮点,包括ieee半精度、单精度和双精度。它还支持矢量化,这是高效实现线性代数所需要的。而最重要的是,它能够将浮点高效的映射到目前的定点fpga体系结构中,如基准测试所示,规模中等的28 nm fpga,cholesky算法临近了

5、100gflop/s。作为对照,在不具有综合能力的规模相像的xilinx fpga上,实现同样的算法,用法密度相像的fpga,性能惟独20gflop/s。面对fpga的openclgpu编程人员比较认识opencl。面对fpga的opencl编译意味着,面对amd或者nvidia gpu编写的opencl代码可以编译到fpga中。altera的opencl编译器支持gpu程序用法fpga,不需要娴熟的开发典型的fpga设计。用法支持fpga的opencl,相对于gpu有几个关键优势。首先,gpu的i/o是有限制的。全部输入和输出数据必需由主cpu通过pci接口举行传输。结果延时会让gpu处理引

6、擎暂停,因此,降低了性能。fpga以各种宽带i/o功能而知名。这些功能支持数据通过千兆以太网和srio,或者挺直从和输入输出fpga。altera定义了opencl标准的供给商专用扩展,以支持流操作。即使与i/o瓶颈无关,fpga的处理延时也要比gpu低无数。尽人皆知,gpu必需有数千个线程才干高效的工作。这是因为存储器读取很长的延时,以及gpu大量的处理内核之间的延时。事实上,gpu必需有无数任务才干使得处理内核不会暂停等待数据,否则会导致任务很长的延时。而fpga用法了“粗粒度并行”体系结构。它建立了多个经过优化的并行数据通路,每一通路普通在每个时钟周期输出一个结果。数据通路的例化数取决于fpga资源,但普通要比gpu内核数少无数。但是,每一数据通路例化的吞吐量要比gpu内核高得多。这一办法的主要优势是低延时。降低延时在无数应用中都是关键的性能优势。fpga的另一优势是很低的功耗,极大的降低了每瓦gflop/s。正如bdti所测量的,cholesky等复数浮点算法的每瓦gflop/s是每瓦56gflop/s。普通很难举行gpu能效测量,但是,cholesky的gpu性能达到50gflop/s,典型功耗是200w,得到的结果是0.25每瓦gflop/s,单位flop/s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论