chp7 DSP在实时处理中的应用.ppt_第1页
chp7 DSP在实时处理中的应用.ppt_第2页
chp7 DSP在实时处理中的应用.ppt_第3页
chp7 DSP在实时处理中的应用.ppt_第4页
chp7 DSP在实时处理中的应用.ppt_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DSP体系结构,王俊 203教研室 新主楼 F520 82339767,ADSP-TS201S应用实例,TS201S应用实例,DSP由于其强大的信号处理功能而被广泛应用在雷达信号处理领域 本PPT中给出了DSP应用于雷达信号处理领域的一个例子 PD-脉冲压缩雷达,TS201S应用实例,系统硬件结构 处理流程与算法映射 多处理器通信 程序并行优化 Flash程序加载 处理结果,系统硬件结构,典型的雷达信号处理硬件框图 双通道 高速ADC采样 DSP+FPGA,系统硬件结构,芯片选型 ADSP-TS201S: 用于大规模信号处理的高性能处理器,其采用静态超标量结构,通过内部的双运算模块同时工作实现

2、了单指令多数据(SIMD)引擎,支持32bit浮点、40bit扩展精度浮点以及8、16、32、64位定点运算。,系统硬件结构,静态超标量: 所谓静态即指令级的并行在解码和运行之前就决定了;超标量是指芯片内部具有多条流水线,可以同时发射多条指令,每周期可执行4条指令,6个浮点或24个16bit定点操作。,系统硬件结构,芯片选型 ADSP-TS201S: 采用了包括指令分支预测、互锁等新的技术。 指令分支预测: 指令分支预测是通过一个128位的分支目标缓存器(BTB)实现的,目的是为了减少分支延时 互锁技术: 当流水线复杂时,程序的执行不会被流水线延时而打乱,系统硬件结构,芯片选型 XC4VSX5

3、5: Xilinx的Virtex-4系列中的代表性产品 90nm铜工艺,使用300mm(12英寸)晶片技术生产 LX、SX和FX三个平台系列组成: LX系列针对逻辑应用; SX系列针对超高性能信号处理; FX系列针对嵌入式处理和高速串行连接。,系统硬件结构,芯片选型 XC4VSX55: 针对极高性能实时信号处理提供了极高比例的XtremeDSP逻辑片与嵌入式块RAM资源; 与其它FPGA解决方案相比,能够以大大降低的功耗提供突破性的DSP性能; 500 MHz XtremeDSP逻辑片可以级联使用,并且可全速工作;,系统硬件结构,芯片选型 XC4VSX55: 提供常用复合功能的IP核,包括DS

4、P、总线接口、处理器和处理器外设; 使用IP核,可以缩短开发时间、降低设计风险并获得优良的设计性能; 该系统提供简单的用户界面,用以生成针对FPGA优化的基于参数的核,系统硬件结构,DSP、FPGA各自特点 FPGA:低层的信号预处理算法处理的数据量大,对处理速度的要求高,但运算结构相对比较简单,适于用FPGA进行硬件实现 DSP:高层处理算法的特点是所处理的数据量较低层算法少,但算法的控制结构复杂,适于用运算速度高、寻址方式灵活、通信机制强大的DSP芯片来实现,系统硬件结构,DSP+FPGA结构 结构灵活,有较强的通用性,适于模块化设计,从而能够提高算法效率; 结构丰富,可通过FPGA的可重

5、构性实现多种接口。 同时其开发周期较短,系统易于维护和扩展,强大的处理能力适合于实时信号处理。,TS201S应用实例,系统硬件结构 处理流程与算法映射 多处理器通信 程序并行优化 Flash程序加载 处理结果,处理流程与算法映射,PD雷达 信号处理的流程 突出部分 在DSP中完成,处理流程与算法映射,处理流程到处理器的映射 FPGA1/2: 数字下变频 脉冲压缩 DSP1/2 多普勒滤波 求模 DSP3 恒虚警检测 状态判断 接收波门产生,处理流程与算法映射,流水实现 脉冲周期 帧周期 距离切片,优化前:接收、处理和发送三个操作串行完成 优化后:三个操作在一个周期内并行完成,TS201S应用实

6、例,系统硬件结构 处理流程与算法映射 多处理器通信 程序并行优化 Flash程序加载 处理结果,多处理器通信,DSP间通信 FPGA间通信 DSP与FPGA间通信,多处理器通信-DSP间通信,基于ADSP-TS201S构成并行系统的方式主要取决于采用的通讯方式: 紧耦合系统 通过全局存储器和一条并行总线进行通信,称为紧耦合式并行处理系统,用于运算密集型处理 松耦合系统 利用链路口来实现点对点通信,由此构成多种网格结构多处理器并行系统,又称松耦合式系统。,多处理器通信-DSP间通信,紧耦合系统 处理速度快,但是同时占用外部总线影响效率; 松耦合系统(本系统采用松耦合结构) 不占用总线 Link口

7、电路设计简单 单路速率高达1GByte/s TS201有针对Link的DMA,多处理器通信-DSP间通信,Link硬件连接,多处理器通信-DSP间通信,Link口PCB设计 每一个连接链路的LVDS接收对都需要接100(误差1)的电阻,且要靠近接收引脚放置。 链路口之间的连接应该是点对点的。 对高速4-bit操作,链路口时钟信号应放在四组LVDS数据信号之间。 链路时钟线应放置在链路数据线之间,且线间距离尽量大,线的长度尽量短,过孔尽量少,LVDS对之间不要有信号或过孔。,多处理器通信-DSP间通信,Link口相关引脚定义:,多处理器通信-DSP间通信,Link口发送流程:,多处理器通信-DS

8、P间通信,Link口初始化程序设计 _builtin_sysreg_write(_LRCTL0, 0 x10); /Initialize the LINK0 Receive Control Register _builtin_sysreg_write(_LRCTL0, 0 x19); _builtin_sysreg_write(_LTCTL0, 0 x10);/Initialize the LINK0 Transmit Control Register _builtin_sysreg_write(_LTCTL0, 0 x19); _builtin_sysreg_write(_LRCTL1, 0

9、 x10); /Initialize the LINK1 Receive Control Register _builtin_sysreg_write(_LRCTL1, 0 x19); _builtin_sysreg_write(_LTCTL1, 0 x10);/Initialize the LINK1 Transmit Control Register _builtin_sysreg_write(_LTCTL1, 0 x19);,多处理器通信-DSP间通信,Link口数据发送程序: TCB_temp.DI = (int*)LinkDatatoDevice2; TCB_temp.DX = 4

10、| (DATA_LEN_D1_TO_D2 16); TCB_temp.DY = 0; TCB_temp.DP = 0 x47000000; q = _builtin_compose_128(long long)TCB_temp.DI | (long long)TCB_temp.DX 32, (long long)(TCB_temp.DY | (long long)TCB_temp.DP 32); _builtin_sysreg_write4(_DC4, q); while(CheckDMA4State() asm(nop;);,多处理器通信,DSP间通信 FPGA间通信 DSP与FPGA间通信

11、,多处理器通信-FPGA间通信,FPGA之间的互联主要采用两种方式: 通过片内生成的FIFO直接相连 用于传输高速数据; 通过片内生成的SPI口互联 用于传输低速指令。,多处理器通信-FPGA间通信,1、FPGA之间的FIFO互联方式 用于FPGA间大规模数据的传输,多处理器通信-FPGA间通信,2、FPGA之间的SPI互联方式 传输控制较为方便,占用硬件资源少,但是传输速率相对也较低 用于FPGA之间关键数据、指令的传输,多处理器通信,DSP间通信 FPGA间通信 DSP与FPGA间通信,ADSP-TS201S和FPGA之间的互联是采用总线的方式,FPGA通过模拟DSP的总线时序,使DSP能

12、正常的对FPGA内部生成的RAM与寄存器进行操作。,多处理器通信-DSP与FPGA通信,多处理器通信-DSP与FPGA通信,需配置DSP的SYSCON使DSP和FPGA时序一致 例:FPGA如下图 配置DSP流水线深度为3个周期,无等待周期,数据传输之间插入空闲状态 总线配置寄存器为0 x00309443,SYSCON定义:,多处理器通信-DSP与FPGA通信,多处理器通信-DSP与FPGA通信,配置语句 /系统总线配置 _builtin_sysreg_write(_SYSCON,0 x00309443); 语句中两个参数分别代表被配置的寄存器的寄存器有待配置的值,上面的这条语句便意味着将16

13、进制数0 x00309443写入系统总线控制寄存器(SYSCON)。,TS201S应用实例,系统硬件结构 处理流程与算法映射 多处理器通信 程序并行优化 Flash程序加载 处理结果,程序并行优化,为保证系统实时性,一些比较核心的信号处理程序都是采用并行汇编语言实现,而在实现过程中的关键便是分析算法的运算过程与特点,将其与ADSP-TS201S处理器的各种并行机制结合起来,提高系统的处理效率。具体的主要有以下几个方面: SIMD处理 静态超标量结构与软件流水线 DMA传输 目标分支缓冲(BTB)与零开销循环 空间时间折衷与数据存储组织,程序并行优化,系统中多个程序采用了并行优化: FFT 加窗

14、 复数求模 CFAR(以CFAR为例),程序并行优化-CFAR,CFAR检测方法 在实际的系统中,由于不知道目标处于哪一个单元,所以CFAR时要进行滑窗处理。 在一次CFAR检测中,共有N个单元参与,测试单元位于中心,旁边各有一个或多个保护单元,这是为了减轻因目标主瓣跨过相邻多普勒单元而形成的自身干扰。,程序并行优化-CFAR,每次滑窗时都将16个参考单元重新求和并不是一个好的办法。,程序并行优化-CFAR,程序并行优化-CFAR,运算量分析(1) 两运算块同时执行取数 虽然分别使用JALU和KALU两个来加载两个距离门的数据,由于大多数情况下,相邻距离门的数据会放在同一个Memory Blo

15、ck中,考虑到这种情况,不应在同一周期执行FX和FY的加载操作 其他运算 两次加法,两次减法,一次乘法 一次比较,一次指针调整 两次Detect判断,程序并行优化-CFAR,程序并行优化-CFAR,程序并行优化-CFAR,TS201S应用实例,系统硬件结构 处理流程与算法映射 多处理器通信 程序并行优化 Flash程序加载 处理结果,Flash程序加载-工作模式,ADSP-TS201S有多种程序加载方式,但是采用最普遍、最方便的方法是通过Flash作为程序加载和引导。 读模式 写模式 复位 自动选择模式 擦除模式,Flash程序加载-接口连接图,地址线,数据线直接相连 通过片选信号MS0引脚将

16、Flash映射到bank0,Flash程序加载-操作流程,通过打包来将数据从8位对齐为32位 擦除操作和擦除状态的查询对Flash非常重要,因为任何Flash器件的写入操作只能在空或已擦除的单元内进行擦除操作可按6周期指令完成。 该操作将Flash的内容全部清零,然后从Flash的任意地址读取数据,与0相比较,判断擦除操作是否顺利进行。 实践证明使用Flash作为DSP的程序引导和加载是一种很方便的方式。针对不同的Flash,可适当的对程序作出修改,便可实现ADSP-TS201S的Flash加载,Flash程序加载-插件使用方法1,对于TS201 AnalogDevice公司在VisualDS

17、P+中给出了解决方案,AnalogDevice给出了Flash烧写的驱动程序 同时在VisualDSP+中集成了Flash烧写的插件。该插件的目录在菜单Tools下,Flash Programmer标签中,Flash程序加载-插件使用方法2,该插件有三个标签页,分别用于: 设置驱动程序(Driver标签) 设置烧写文件与烧写方式(Programmer标签) 设置Flash控制命令(Commands标签) 通常需要使用到的是Driver标签和Commands标签。 Driver标签下的内容: 通过Browse可以选择Ts201SEzFlash.dex驱动文件,点击Load Driver便能将Driver导入到插件中,Flash程序加载-插件使用方法3,Programmer标签下的界面: 该标签页下,能够配置擦除选项,烧写文件格式,烧写数据路径,然后点击Program按钮便能开始对Flash的烧写。Program

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论