PowerPC和DSP对比.doc_第1页
PowerPC和DSP对比.doc_第2页
PowerPC和DSP对比.doc_第3页
PowerPC和DSP对比.doc_第4页
PowerPC和DSP对比.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PowerPC和DSP对比一、 主要性能参数对比TigerSHARC TigerSHARC PowerPCPowerPCParameterADSP-TS101SADSP-TS201SMPC7455PPC476FP(IBM 45nm SoI)Core Clock250 MHz500 MHz1,000 MHz1,600 MHzPeak Floating-pt Performance1,500 MFLOPS 3000 MFLOPS 8,000 MFLOPS 3,000 MFLOPSMemory Bus Size/Speed64-bit/100 MHz 64-bit/100 MHz 64-bit/133 MHz 128-bit/800 MHz External Link Ports4250 MB/Sec 4250 MB/Sec None User DefineI/O Bandwidth (inc. memory)1,800 MB/Sec 1,800 MB/Sec 1,064 MB/sec 64,00 MB/sec Bandwidth-to-Processing Ratio1.20 Bytes/FLOP 1.20 Bytes/FLOP 0.13 Bytes/FLOP 2.1 Bytes/FLOP 1024-pt cFFT Benchmark39 sec 19 sec 13 sec (est.) 83.2sec(双精度)Approx Cycles for 1024-pt cFFT9,750 cycles 9,750 cycles 13,000 cycles Predicted 1024-pt cFFTs/chip25,641 per Sec 12,821 per Sec 64,941* per Sec ASDP tigersharp主要参数Part#Clock Speed (MHz)MMACS (Max)On Chip MemoryExternal Memory SupportedOperating Temp RangePackageUS Price 1000-4999ADSP-TS201S600MHz480024MbitAsync, SDRAM-25 x 25 BGA$252.25ADSP-TS202S500MHz400012MbitAsync, SDRAM-25 x 25 BGA$209.51ADSP-TS203S500MHz40004MbitAsync, SDRAM-25 x 25 BGA$184.49ADSP-TS101S300MHz24006MbitAsync, SDRAM-40 to +8519 x 19 BGA, 27 x 27 BGA$193.88C6701C6201C6203MPC7410*PPC476Clock (MHz)1672003005001600Instruction Cycle (ns)653.332Instructions Per Cycle1 - 81 - 81 - 81 - 314Million Instructions/Sec.133316002400500Million Fixed-Point Ops/Sec.1333160024008000Million Floating-Point Ops/Sec.100020003000General-Purpose Algorithm Benchmarks on TIs C66x DSP Core at 1.25 GHz1Benchmark Speed Clock Cycle 32-bit algorithm 1k point FFT (Radix 4) 5.47 s 6840 64k point FFT (Radix 4) 0.58 ms 696588 FIR filter (per real tap) 0.2 ns 0.25 8x88x8matrix multiply (complex floating point) 1.06 s 1327 16-bit algorithm 256 point complex FFT (Radix 4) 0.6 s 752 主要DSP的浮点性能对比:Speed Scores for floating-point packaged processors BDTImark2000(BDTI认证结果)(BDTI主要是针对DSP的benchmark,没有MPC7410和Powerpc的数据)一些算法,像FFT,可以充分利用7410的矢量数学运算。1024点,浮点复数FFT可以在27us内完成,相比之下,C6701需要108us。其他算法,像无线应用中的turbo解码器,VLIW结构处理的更有效率。很明显,具有AltiVec核的PowerPC G4(74xx)具有较高的核时钟速率与性能。P O W e r P C 的核时钟速率几乎是目前T i g e r s H A R C的33倍(不久更快版本的TigerSHARC将发布)。AltiVec核每个周期执行单条指令,每128位向量包含4个独立的32位数据单元,这就是众所周知的sIM-D(单指令多数据)结构。当执行一次乘加(MAC)矢量运算时,达到峰值处理能力,每周期可完成8次浮点操作。对于1 GHz的MPC7455,峰值处理能力可达8000M 次s浮点运算。AltiVec每周期能执行8次整数或定点操作,峰值整数运算能力为8000MOPS(百万次操作s)。相反,TigerSHARC有两个独立的32位处理器核,或称MIMD(多指令多数据)结构。每个计算单元每周期能执行一次乘法以及和差分运算,对于300 MHz ADSPTSl0lS每周期完成6次浮点运算或1800MFLOPS峰值运算能力。当执行16位整数运算时,TigerSHARC 可以利用它的超标量体系结构, 分离两个独立3 2位计算单元成2个单独的16位S1MD单元。这样每个操作在两个数据单元, 每个周期总共12次操作。另外,TigerSHARC有另外两个专门的1 6位整数引擎, 每个周期可以增加超过1 2次的操作,这样每个周期共计2 4次整数运算,7200MOPS。1.二、 IBM 476FPE在FFT方面的性能评估FFT算法采用FFTW3.3.3的算法(),FFTW3.3.3算法是优化比较好的算法,性能得到肯定。测试程序采用benchFFT3.1().对比的三个芯片是IBM PPC476FPE,PowerPC7447A,Intel 四核Pentium 3.06GHz。以512和1024 transform-size为参考。配置情况说明:1. PPC476FPE,ubuntu9.0.4,GCC-4.3.3,2. Apple iBook G4. 1.06 GHz PowerPC 7447A, linux 2.6.15, gcc-4.0.2, g+-4.0.2, g77-4.0.2. Has Altivec (4-way single precision SIMD).Compilers and flags (unless overridden):C: gcc -O3 -fomit-frame-pointer -fstrict-aliasing -mcpu=7450C+: g+ -O3 -fomit-frame-pointer -fstrict-aliasing -mcpu=7450Fortran: gfortran -O3 -fomit-frame-pointer -fstrict-aliasing -mcpu=74503. Four-processor 3.06 GHz Intel Pentium 4, 512 KB L2. Linux 2.4.25, gcc-3.3.3, g+-3.3.3, g77-3.3.3, AMD Core Math Library (ACML) 3.0.0, Intel Math Kernel Library Version 8.0.1, Intel Integrated Performance Primitives v5.0. Has SSE (4-way single precision SIMD), SSE2 (2-way double precision SIMD). The benchmark uses one processor only.Mflops计算方法To report FFT performance, we plot the mflops of each FFT, which is a scaled version of the speed, defined by:mflops = 5 N log2(N) / (time for one FFT in microseconds) for complex transforms, andmflops = 2.5 N log2(N) / (time for one FFT in microseconds) for real transforms,where N is number of data points (the product of the FFT dimensions). This is not an actual flop count; it is simply a convenient scaling, based on the fact that the radix-2 Cooley-Tukey algorithm asymptotically requires 5 N log2(N) floating-point operations. It allows us to compare the performance for many different sizes on the same graph, get a sense of the cache effects, and provide a rough measure of efficiency relative to the clock speed.变换类型的说明transform-typeis a four-character string consisting of precision (double/single =d/s), type (complex/real =c/r), in-place/out-of-place (=i/o), and forward/backward (=f/b). For example,transform-type=dcifdenotes a double-precision in-place forward transform of complex data.transform-typetransform-sizeIBM PPC476FPEApple iBook G4四核 Intel P4, 476/G4476/G4476/P4476/P4mflopstimemflopstimemflopstimemflopstimemflopstimedcif512610.853.77E-05853.332.70E-052846.68.09E-060.721.400.214.66dcib512583.563.95E-05851.362.71E-0527518.38E-060.691.460.214.71dcif1024596.188.59E-05834.226.14E-052925.71.75E-050.711.400.204.91dcib1024574.758.91E-05834.226.14E-052844.41.80E-050.691.450.204.95dcif512x512419.030.0563036361.140.0653291282.20.01841.160.860.333.06dcib512x512419.410.0562529359.420.0656411273.70.0185231.170.860.333.04dcif1024x1024362.240.2894725377.740.2775913370.078430.961.040.273.69dcib1024x1024356.750.293922379.030.2766461346.90.0778510.941.060.263.78drif512688.821.67E-05834.031.38E-052174.95.30E-060.831.210.323.15drib512618.771.86E-05819.21.41E-052194.35.25E-060.761.320.283.54drif1024625.384.09E-05860.52.98E-052307.61.11E-050.731.370.273.68drib1024609.174.20E-05858.72.98E-052416.51.06E-050.711.410.253.96drif512x512423.90.0278287362.430.0325481501.20.0078581.170.860.283.54drib512x512459.760.0256577346.660.0340291487.60.007931.330.750.313.24drif1024x1024383.010.1368879344.840.152041351.80.0387841.110.900.283.53drib1024x1024385.810.1358926331.430.1581921415.10.037051.160.860.273.67dcof1024615.758.32E-05898.255.70E-053316.61.54E-050.691.460.195.39dcob1024607.628.43E-05898.255.70E-053303.21.55E-050.681.480.185.44dcof512700.473.29E-05985.672.34E-053429.26.72E-060.711.410.204.90dcob512691.13.33E-05983.042.34E-053397.66.78E-060.701.420.204.92scif1024629.968.13E-0529051.76E-055184.89.88E-060.224.610.128.23scif1024631.448.11E-0529051.76E-055285.29.69E-060.224.600.128.37从上表可以看到,在点数满足2的幂指数的情况下,ppc476FPE在双精度fft计算的性能至少达到7447A的性能70%。在二维的部分情况下,还有所超越。PPC476在计算单精度和双精度的情况下,速度没有变化(原因初步分析可能是ppc476就一个FPU单元,单元本身是双精度的(double format),做单精度和双精度的速度是相同的。)。MPC7447A双精度1024-pt cFFTs的完成时间为83.2us,单精度1024-pt cFFTs的完成时间为17.6us。因为Tigersharc和Altivec是多个32位精度的单元构成,做单精度的时候可以并行进行,速度提高了4倍。从以上对比来看,1. 从浮点运算能力来看,PPC476FP的最高浮点运算能力和TS201相当;但是PPC476是双精度的FPU,不支持SIMD,在处理单精度浮点运算时,速度没有提高,在单精度浮点的应用场合下,PPC476的性能显得落后。2. PPC476FP的带宽由于使用PLB6,具有更好的时钟频率和位宽,带宽远高于TS201;3. 外设接口来看,PPC476FP可以更灵活地使用PCI-E等外设接口,外设带宽更高。(PCI-E1.0 1x 2.5Gbps,(PCI-E1.0 4x 10Gbps),远高于TS201.4. MPC7448及MPC7448A目前在信号处理领域应用较多;IBM PowerPC系列目前应用较多的还是PPC4xx系列,主要作为系统控制芯片来应用,用以作为信号处理的很少或没有(完全没有相关论文)。PPC476系列虽然拥有很强的信号处理能力,但是PPC476系列推出的时间还较短,应用远不如MPC系列广泛。三、 PPC476 FPU介绍PPC476 FPU是双精度的浮点运算单元。浮点处理器兼容ANSI/IEEE Standard 754-1985, IEEE Standard for Binary Floating-Point Arithmetic (referred to as IEEE 754),所有浮点操作兼容IEEE标准。每个FPR包括64位,支持浮点双格式。所有解释FPR内容的浮点值的指令使用浮点双格式,单精度使用32位单格式来表示,双精度使用64位双格式来表示。四、 PowerPC 476FP coremarkProfile generation run parameters for coremark.CoreMark Size : 400Total ticks : 14179Total time (secs): 14.179000Iterations/Sec : 7757.951901Iterations : 110000Compiler version : GCC4.3.3Compiler flags : -m32 -O3 -ffast-math -DTOTAL_DATA_SIZE=1200 -DPROFILE_RUN=1 -lrtMemory location : Please put data memory location here (e.g. code in flash, data on heap etc)seedcrc : 0x4eaf0crclist : 0x6a790crcmatrix : 0x56080crcstate : 0xe5a40crcfinal : 0xbbb6Correct operation validated. See readme.txt for run and reporting rules.五、 PPC优势总结1. 浮点运算能力PPC476FP在1.6GHz的情况下,拥有超过3GFLOPS的浮点运算能力(LSI已有该内核芯片),具备了在需要大规模浮点运算场合应用的基础和能力。双精度1024点复数FFT可以在86us内完成。在实际的推广中,要充分了解客户的需要,是定点,还是浮点,单精度还是双精度,计算的需求量是多大等。2. 超标量处理器不仅有高的浮点运算能力,也很强的定点运算能力。具有高频率超标量PowerPC处理内核,在一个时钟周期可以利用8个独立的执行单元执行3个指令,即在一个时钟周期内最多可以执行8次计算,极大地提高了计算速度。同时具备了浮点运算能力和外设控制能力。3. 外部内存结构PLB6.0总线的位数128位位宽,总线速度达到CPU速度的50%,支持DMA,支持DDR3。提供足够宽的内存带宽。高速的数据总线有效的降低了传输延迟,使系统性能大大提高。4. AltiVec技术(PPC没有,只有freescale的e600有)AltiVec是Freescale半导体公司开发的并行向量处理引擎。该引擎为摩托罗拉的第四代PowerPC提供了卓越的处理性能,使其数据处理能力有了数量级的提升。例如PowerPC7410已具备4GFLOPS的处理能力,远远超过了目前绝大多数DSP芯片的处理性能。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论