(信号与信息处理专业论文)新型dsp器件在高速实时并行信号处理中的应用.pdf_第1页
(信号与信息处理专业论文)新型dsp器件在高速实时并行信号处理中的应用.pdf_第2页
(信号与信息处理专业论文)新型dsp器件在高速实时并行信号处理中的应用.pdf_第3页
(信号与信息处理专业论文)新型dsp器件在高速实时并行信号处理中的应用.pdf_第4页
(信号与信息处理专业论文)新型dsp器件在高速实时并行信号处理中的应用.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要雷达实时信号处理对速度的要求不断提高,需要实时并行处理系统不断使用高性能的处理单元新型d s p ( 数字信号处理器) 器件。本文研究的主要目的是开发新型d s p - - a d s p 2 1 1 6 0 ,应用到高速实时并行信号处理中,尝试着用之设计了一个简单的通用并行处理系统和开发了一些信号处理程序。前两章对新型d s p和实时并行处理技术加以必要的综述,第三章讲述了a d s p 2 1 1 6 0 的系统设计并给出了设计实例。第四章和第五章分别就这种新的d s p 软件开发过程中必然遇到的两个问题,从a d s p 2 1 0 6 x 到a d s p 2 1 1 6 0 的代码移植和单指令流多数据流( s i m d )优化,做了一定的研究。本文为新型d s p 在高速实时并行信号处理中的使用积累了经验。关键词:新型d s p 器件v实时并行处理系统设计代码移植单指令流多数据流优化va b s t r a c ts p e e dn e e d si n c r e a s i n gr e p e a t e d l yi nr a d a rr e a l - t i m es i g n a lp r o c e s s i n g p r o c e s s i n ge l e m e n tw i t hh i g hp e r f o r m a n c e ,n a m e l yn e wd s p , s h o u l db eu s e di nr e a l - t i m ep a r a l l e lp r o c e s s i n gs y s t e m as i m p l eg e n e r a l - p u r p o s ep a r a l l e lp r o c e s s i n gs y s t e ma n ds o m es i g n a lp r o c e s s i n gp r o g r a m sh a v eb e e nm a d et e n t a t i v e l y , w i t hap u r p o s et od e v e l o pa n da p p l ya d s p 2 11 6 0i nh i g h s p e e dr e a l - t i m ep a r a l l e ls i g n a lp r o c e s s i n g t h en e wd s pa n dt e c h n i q u ea b o u tr e a l - t i m ep a r a l l e lp r o c e s s i n gh a v eb e e ns u m m a r i z e di nf o r m e rt w oc h a p t e r s c h a p t e r3g i v e ss o m ea d v i c eo i la d s p 2 1 1 6 0s y s t e md e s i g na n da ne x a m p l e a d s p 2116 0c o d ep o r t i n ga n ds i m d ( s i n g l ei n s t r u c t i o n ,m u l t i p l ed a t a ) o p t i m i z a t i o nh a v eb e e ns t u d i e d ,r e s p e c t i v e l yi nc h a p t e r4a n di nc h a p t e r5 ,i nt h ec o u r s eo fs o f t w a r ed e v e l o p m e n tf o rt h en e wd s p t h ew o r ko ft h ep a p e rp r o v i d e dv a l u a b l ee x p e r i e n c ei na p p l y i n gt h en e wd s pi nh i g h - s p e e dr e a l - t i m ep a r a l l e ls i g n a lp r o c e s s i n g k e y w o r d s :n e wd s pr e a l - t i m ep a r a l l e lp r o c e s s i n gs y s t e md e s i g nc o d ep o r t i n gs i m do p t i m i z a t i o n第一章绪论第一章绪论1 1 论文产生的背景和意义自计算机问世以来,计算的速度已经增长了十万倍以上,特别是超大规模集成电路和计算机体系结构的更新,使得单处理机处理能力以l o 年一百倍的速度增长。然而,现在计算机的处理能力远没有满足人类对计算速度的无止境追求。在科学计算、气象预测、仿真模拟、图象处理以及实时信号处理领域,对速度的要求更为迫切。例如,在通信和语音信号处理中需要每秒几千万次到几亿次运算;在视频信号和图象处理中,每秒需要几亿到几十亿次运算;而在雷达、声纳信号处理中,常需要每秒几十至几百亿次运算。雷达信号处理系统通常规模较大,特别是一些新一代雷达信号处理机,其功能强,结构和信号处理方式都很复杂,要求在复杂的环境中实时得到处理结果。以一部1 8 通道的时空二维自适应信号处理为例,如果数据采样率为1 m h z ,处理机的数据运算速度在每秒百亿次。成像雷达也需要每秒1 0 亿次的运算速度。而现在适合于做实时信号处理的最快处理单元平均运算速度仅在每秒l 亿次左右,采用实时并行处理势在必行。要能对雷达、声纳、地球信息研究、气象预测等领域做到信号实时处理,就必须提高处理机的速度。要提高处理机的速度,就必须尽量提高单个处理单元的处理速度,并采用流水线和并行的办法设计出高效的并行处理网络。新型d s p 主频增高,例如a d s p 2 1 0 6 0 主频为4 0 m h z ,而最新的a d s p 2 1 1 6 0主频最高可达到】0 0 m h z :t m s 3 2 0 c 4 0 主频为3 0 m h z ,而t m s 3 2 0 c 6 7 主频达到1 6 7 m h z 。新型d s p 片内有更高的并行度。另外,实时信号处理需要有若干个处理单元构成高效的并行处理系统,而新型的d s p 更适合这方面的需要。新型d s p主要提供了两个功能,一,除了常用的与外部设备交换数据的外部总线、串口、中断、握手等信号,并行d s p 提供了多达6 个通信口链路口,每个通信口受独立的d m a 控制器、片内令牌逻辑、发送接受数据f i f o 缓冲的支持,可进行2 0 4 0 m b s 的高速数据传输,可以构成松耦合的分布式并行系统:另一功能是,各d s p 的外部总线可以连接到一起,依靠片内总线仲裁逻辑和d m a 控制器的支持,能够方便地构成紧耦合的共享总线共享存储器并行系统。另外,新型d s p 小型化,低功耗,以a d s p 2 1 1 6 0 为例,大小为2 7 m i n x 2 7 r a m ,功耗4 w 左右。本论文的目的,是开发应用新型d s p a d 公司的a d s p 2 1 1 6 0 ,通过利用这种d s p 构成简单并行处理系统和开发一些在a d s p 2 1 1 6 0 上运行的软件,摸索2新刑d s p 器件在高速实时并行信号处理中的应t f = i利用这种d s p 进行实时信号处理的规律。使用新型d s p 势在必行,开发使用这种新型的d s p 必将为雷达信号处理机的更新换代起着不可缺少的作用。1 2 国内外的发展和现状要能满足对雷达、声纳等的实时信号处理,必须研制出高速的信号处理机,提高其速度的关键在于提高单个处理单元的速度和采用实时并行处理技术用予设计并行网络,并行算法和任务分配方面。传统单处理机系统,受到v l s i 器件开关速度、连线延迟以及v l s i 理论特征尺寸的限制,运算速度的进一步提高变得越来越困难。处理单元的性能可以说是决定处理机系统性能的最基本因素。虽然,现在微电子的主频速度不断提高。但是,在半导体开关速度和光速这一理论极限值的限制下,提高主频的余地已经不大。理论上,单个处理单元的理论极限是每秒1 0 亿次运算。因此,满足对运算速度的巨大需求只能通过并行处理技术来实现。并行的含义包括流水线和并发。流水线指多个操作同时发生在重叠的时间段内,并发指多个事件同时发生在多个硬件资源上。这两种技术在高性能的处理器和并行处理系统设计上都被广泛使用【5 i 。在7 0 年代设计的微处理器中,指令按严格的冯诺依曼结构执行,一条指令经过取指、译码和执行三个完整过程,才开始下一条指令。8 0 年代,芯片设计利用流水线的概念,把指令的多个步骤交由芯片上的多种单元处理,从而在不提高时钟频率的基础上增加了操作速度;并且从结构上打破了冯诺依曼结构的限制,引入了哈佛结构和后来的超级哈佛结构,即采取分离独立的指令和数据总线甚至多数据总线结构,使得在一个指令周期内处理器可以完成取指和多次数据取存。9 0 年代在流水线的基础上引入了超标量技术,通过在芯片内部设置一个指令缓冲池,使多条流水线同时对几十条后续指令做相关分析,从而进一步提高速度。相对于流水线技术,并发具有更高的并行度,同样用于处理器级设计,并发对应的技术有:采用多芯片组装技术将多个处理单元和存储器封装在个器件上;设计指令长达4 8 - 6 4 位的超长指令字处理单元,一条超长指令定义了片内多个单元的同时操作;而并发性更多地利用在并行处理系统设计上,由于v l s i 技术的飞跃和并行处理理论的成熟化,通用并行计算机的峰值速度已经每秒千亿次运算速度。并行处理系统有多种分类方法,从数据流和指令特征 1 6 i 可以分为:s i m d( 单指令流多数据流) 、m i s d ( 多指令流单数据流) 和m i m d ( 单指令流多数据流) ;从并行处理机的处理单元之间的连接方式可分为:松耦合的分布并行处理机和紧耦合的共享总线处理机,不同类型并行处理机适合不同的应用场合。第一章绪论3并行算法仍是一个难点,虽然一些厂家推出了自己的并行语言,但仍不能满足人们开发并行性的要求。为了提高编译效率,不少开发者仍使用汇编语言进行开发。并行任务分配是为了达到各处理单元的平衡,包含静态分配方法和动态调度方法。新型d s p 主频的增高、单片内部并行度、i o 能力的提高,以及构造并行处理网络能力的加强,都为信号的高速实时并行处理提供了方便的条件。这些都推动新型d s p 器件在实时信号处理中的应用,极大的促进了高速实时并行信号处理水平的提高。1 3 本文的主要工作本文的主要工作如下:1 熟悉器件a d s p 2 1 1 6 0 。a d s p 2 1 1 6 0 是a d 公司推出的高性能的3 2 位数字信号处理器。a d s p 2 1 1 6 0 的代码保持与a d s p 2 1 0 6 x 的高度兼容。它是包含两个处理单元、高速s r a m 和较强i o 能力的处理器。2 根据并行处理机设计理论,利用这种器件,为了满足雷达实时信号处理的需要,设计了一个通用并行处理系统。因为这种d s p 与a d s p 2 1 0 6 x 同属于s h a r c 系列的高性能处理器,前者已经有了一些使用经验,设计时参考了以前的设计,也注意了新d s p 的特征。3 熟悉a d s p 2 1 1 6 0 的开发工具。a d s p 2 1 1 6 0 与a d s p 2 1 0 6 x 相比是一种较新的芯片,开发a d s p 2 1 1 6 0 用新的开发工具。在论文中,使用的开发工具是w h i t e m o u n t a i n 公司的v i s u a l d s p 。它同样支持以前的s h a r c 系列产品。v i s u a l d s p 是一种方便的可视化工具,其重要特征是支持多处理器系统开发。4 设计了些a d s p 2 1 1 6 0 的信号处理程序。由于利用这种d s p 的最终目的是完成雷达等领域的实时信号处理。因此,首要的是把a d s p 2 1 0 6 x 的代码移植到a d s p 2 116 0 上,虽然,两者代码兼容性较高,但是他们还是存在着一定差别,本人根据资料对代码移植工作做了总结。第二,a d s p 2 1 1 6 0 内部有两个处理单元,有单指令流多数据流工作模式( s i m d ) ,因此,开发s i m d 的并行程序才能充分发挥该新型d s p 的优点。通过开发f f t 、滤波,复数矩阵求逆等并行程序,总结了s i m d 程序设计的规律。本文的安排如下:第二章综述新型d s p 器件和实时并行处理技术:第三章讲解了a d s p 2 1 1 6 0 硬件系统设计;第四章讲述了怎样通过从a d s p 2 1 0 6 x 到a d s p 2 1 1 6 0 的代码移植,提高运算速度;第五章结合具体的例子,研究了怎样利用a d s p 2 1 1 6 0 的s i m d 工作模式进一步提高信号处理能力。4新型d s p 器件在高速实时并行信号处理中的应用第二章新型d s p 器件和实时并行处理技术综述2 1 引言雷达等高速实时信号处理需要在处理机的设计中采用并行处理技术和使用新型d s p 器件,本文的目的是开发a d 公司的一种新型d s p 器件,用于高速实时并行信号处理。因此,很有必要对新型d s p 器件和实时并行处理技术做个扼要的介绍。数字信号处理器是数字信号处理技术的核心和标志,是实时并行信号处理机中基本的处理单元。新型通用并行d s p 具有单片的高处理性能和很强的构造处理网络的能力,这都大大提高了处理机的设计水平。把它用于实际信号处理领域,可以提高并行处理机的性能。并行处理机的设计是一门综合性很强的应用领域,涉及到算法研究、v l s i 设计理论、系统结构、网络拓扑等多个方面。并行处理的目的是采用多个处理单元同时对任务处理而减少任务的执行时间,如何能以最短的时间完成任务是并行处理机设计者最关心的问题,对这一问题的反映表现在处理机的两个基本指标:加速比和并行效率。并行处理机的两个基本性能取决于组成并行处理机的三个要素:处理单元、并行处理网络结构、并行算法程序和任务分配方法,三者之间紧密联系,互相依赖。处理单元是并行处理的核心,高性能的处理单元可以提高系统性能、减少系统体积和功耗、降低结构复杂性和提高软件可维护性,通用并行d s p 是完成实时信号处理的最佳选择。并行处理时,处理单元之间的数据通信是不可避免的,并行处理机网络为各处理单元提供数据交换的通路并负责子任务传送和控制调度信号的传递。在不同的处理机规模时,共享总线和分布并行系统分别能达到较高的加速比和并行效率,分布式并行系统更适合大规模并行系统,而共享总线式系统在小规模的并行处理机上可以得到较高的性能。任务分配和并行算法的好坏直接影响并行处理机性能,并行算法的好坏主要以其并行度高低来衡量,并行算法和并行程序的设计复杂度远大于传统的串行算法和串行程序设计,它更依赖于处理机结构,现有的并行算法远不能满足并行处理的需要。任务分配方法也是很关键的,主要分静态分配方法和动态调度方法。在高速实时并行信号处理领域,d s p 器件是决定并行处理机性能的三要素之一,是并行处理机设计者的研究对象之一。只有不断应用新型d s p 器件于并行处第二章新型d s p 器件和实时并行处理技术综述5理机的设计中,才能提高信号实时处理的能力。2 2 新型d s p 器件介绍2 2 1 数字信号处理器的发展趋势数字信号处理器的采用是为了达到实时信号的高速处理,为了适应各种实际的应用,产生了多种类型、档次的d s p 。从使用的广泛性可以把d s p 分为通用的d s p 和专用的d s p ,从性能上可以按精度,动态范围和处理速度将其进一步划分。通用d s p 一般可以用指令软件编程,专用的只是针对一种应用,只能通过加载数据和控制参数或在引脚上加控制信号使其具有有限的可编程能力。衡量专用d s p 的主要指标是它完成相应的处理任务的速度以及字长;衡量通用d s p 最常用的指标是每秒百万次指令执行个数m i p s 。对定点d s p 来说,单周期内可以完成一次乘法和加法,对浮点d s p 来说单周期内可以完成2 3 次乘法和加法,每秒百万次浮点运算( m f l o p s ) 就成为衡量浮点d s p 的重要指标。专用d s p ,针对一种特定应用的成型产品,例如f f t ,乘加、横向滤波。由于是采用硬件实现,因此其具有最快的运算速度。缺点:需要外围设备和控制信号,精度和动态范围有限。通用d s p ,适合各种数字信号处理,可编程能力强,具有高速的数据输入输出能力,体积小,功耗低,并行数字信号处理器带有高速通信口,可以达到较高的并行效率,完成滤波和f f t 的速度很快。由通用d s p 构成系统所需的外围器件少,功耗低。最初的d s p 都是定点的,因为定点可以胜任大多数的数字信号处理,但在雷达、声纳等信号处理场合,数据动态范围很大,定点的可能会溢出,即使模拟浮点运算,速度也大大降低。因此,对浮点d s p 的需要不断增大,其成本、功耗,体积也不断下降,浮点化成为信号处理的趋势。近年来,通用d s p 的发展速度超过了专用d s p ,表2 1 列出了通用d s p 和专用d s p 完成常见数字信号处理的性能口i 。从表2 1 可以看出,除横向滤波外,通用d s p 完成其它几种数字信号处理的速度已经接近甚至超过了专用d s p 。特别是a d 公司最新推出a d s p 21 1 6 0 ,在芯片的设计上利用了并行技术,可以取代更多的专用d s p 。值得一提的是,通用并行d s p 所具备的浮点处理能力是专用d s p和专用a s i c 无法比拟的,而以t m s 3 2 0 c 4 0 和a d s p 2 1 0 6 0 为代表的通用并行d s p以其强大的处理功能和i o 带宽代表了高性能d s p 的发展方向。通常实时信号处理包含多种数字信号处理类型,因此,设计实时信号并行处理的首要选择是浮点通用并行d s p ,同时对于脉压、相关等长阶横向滤波运算,有些场合仍需用相应6新型d s p 器件在高速实时并行信号处理中的廊硝的专用d s p 完成。表2 1通用d s p 和专用d s p 完成常见数字信号处理的性能d s p ) 叫号应用数据类型2 5 6 点f f t1 0 2 4 点f f t每秒日万次乘法i n m o s a l 0 0横向滤波1 6 1 6 位定点,1 6 0p d s p l 6 2 5 6横向滤波1 6 x 1 2 位定点6 4 0p d s p l 6 1 1 6 十复乘器+1 6 位定点,8 0p d s p l 6 3 1 8复累加器a 4 1 1 0 2f f t 专用定点+ 块浮点1 0 2 坩8 1 9 t s,p d s p l 6 5 1 5f f t 专用定点+ 块浮点2 0 t s 9 8 脚,t m $ 3 2 0 c 4 0通用d s p浮点2 6 0 , u s1 3 0 0 p s3 0a d s p 2 1 0 6 0通用d s p浮点9 2 馏4 6 0 s4 0t m $ 3 2 0 c 6 7通用d s p浮点2 4 , t 嚣1 2 0 珊4 2 ( 片外操作)a d s p 2 6 0通用d s p浮点1 8u s9 0 m s1 0 02 2 2 通用d s p通用d s p 较强的处理能力、宽的i o 带宽,以及通用它适合构成并行网络的特点正在吸引更多的实时信号处理的开发者。通用d s p 具备高速运算、控制功能,针对实时信号处理,在结构、指令系统指令流程上,与其它类型的处理单元相比,其结构特点如下:】d s p 普遍采用数据总线和程序总线分离的哈佛结构以及改进的哈佛结构,比传统处理器的冯诺依曼结构有更高的指令执行速度;d s p 大多数采用流水技术,即每条指令都由片内多个功能单元分别完成取指、译码、取数,执行等多个步骤,从而在不提高时钟频率的条件下减少每条指令的执行时间。2 指令集小,而单条指令较复杂,一条指令包含了许多功能的操作;指令的针对性强,与实时信号处理的需要紧密结合,具有快速的乘加、f f t 等功能,针对滤波,相关、矩阵运算等需要大量乘法累加运算的特点,d s p大都有独立的乘法器和加法器,使得同一时钟周期内完成相乘和累加两个运算,如a d s p 2 1 1 6 0 可以同时进行乘、加、减运算,大大加快了f f t的蝶形运算速度。3 数据吞吐率高,寻址能力强,片内和片外i o 带宽大,片内有多条总线可第二章新型d s p 器件和实时并行处理技术综述7以同时进行取指令和多个数据存取操作,并且辅助寄存器用于寻址,它们可以在当前访问前后自动修改内容以指向下一个要访问的地址;许多d s p 还带有d m a 通道控制器,以及串行通信口等,配合片内多总线结构,数据传送速度大大提高,适合于高速数据交换的实时信号处理。4 配有中断处理器和定时控制器,具有软硬件等待功能,能与各种存储器接口,构成系统所需的外围器件很少,功耗低,可以方便的构成一个小规模系统。目前,t i 公司的t m s 3 2 0 c 4 0 和a d 公司的a d s p 2 1 0 6 0 是两种广泛使用的通用并行d s p 。两者结构相似,a d s p 2 1 0 6 0 的片内r a m 较大,相比较而言,a d s p 2 1 0 6 0 速度更快。t m s 3 2 0 c 4 0 通信口的使用更加灵活些,可以收发全双工工作。而a d s p 2 1 0 6 0 的通信口是半双工工作的。a d s p 2 1 1 6 0 和t m s 3 2 0 c 6 7 是当前两种典型的顶级d s p 。前者属于一种单指令流多数据流的并行结构,内部有两个对称的处理单元构成;后者采用超长的指令字( v l l w ) ,每条指令长8 x 3 2 b i t ,分别控制8 个运算单元( 其中6 个为浮点)的运算操作。c 6 7 依靠更高的主频取得了更高的峰值运算速度,但是在实时信号处理中,输入输出带宽必须同运算能力匹配平衡。在这方面a d s p 2 1 1 6 0 大大胜过了c 6 7 ,更重要的是a d s p 2 1 1 6 0 具有并行处理d s p 的特点,更易于组成并行处理系统。c 6 7 适合那种小处理量的单片实时处理系统,下面给出了两者比较【4 】。表2 2a d s p 2 1 1 6 0 同t m s 3 2 0 c 6 7 特点的比较指标t m s 3 2 0 c 6 7a d s p 2 1 1 6 0备注主频1 6 7 m h z ,1 0 0 m h z ,c 6 7 进一步提高主1 g f l o p s6 0 0 m f l o p s频的余地较小对外部存储5 n s2 0 n sa d s p 2 1 1 6 0 的外器速度要求存储器成本低a d s p 2 1 1 6 0 片内片内存储器l m b i t4 m b i tr a m 能同时接受更多访问指令字2 5 6 b i t4 8 b i t超长指令字编程难度大数据3 2 ,4 0 6 4 b i t3 2 4 0 b i t 浮点c 6 7 作双精度6 4格式浮点,3 2 b i t 定点1 6 3 2 b i t 定点位处理较合适累加器4 0 b i t8 0 b i t8新型d s p 器件在高速实时并行信号处理中的应用循环寻址缓冲8 个3 2 个d m a4 个1 4 个片外总线3 2 b i t6 4 b i t链路口无6 个8 b i t并行处无有理结构指令高复杂代数表达式串口2 个2 个功耗7 w5 w封装3 5 2 b g a4 0 0 b g a1 0 2 4 点复数f f t1 2 0 u s9 0 u s2 2 3a d s p 2 1 1 6 0 简介a d s p 2 1 1 6 0 是a d 公司在1 9 9 8 年下半年推出一种高性能的3 2 位数字信号处理器,它对a d s p 2 1 0 6 x 进行了扩充和完善。它保持着与a d s p 2 1 0 6 x 代码的高度兼容,该d s p 最重要的两个特征是高主频和s i m d ( 单指令流多数据流) 的内部结构,进一步提高了并行处理能力。该芯片用于雷达、声纳、通信、图象,语音处理、航天等实时信号处理领域。a d s p 2 1 1 6 0 与a d s p 2 1 0 6 x 同属于a d 公司s h a r c 系列的高性能数字信号处理器。a d s p 2 1 1 6 0 是在a d s p 2 1 0 6 x 的基础上研制出来的。因此,在介绍a d s p 2 1 1 6 0 之前,很有必要对a d s p 2 1 0 6 x 有个基本的介绍。a d s p 2 1 0 6 x 是a d 公司在1 9 9 5 年推出的3 2 b i t 浮点并行d s p 器件。它是一种通用并行d s p 。a d s p 2 1 0 6 0 是a d s p 2 1 0 6 x 的一个典型产品。a d s p 2 1 0 6 0 与同类产品t m s 3 2 0 c 4 0 的结构和性能指标相比,其中c 4 0 执行一条指令需要两个时钟周期,在效率上低于a d s p 2 1 0 6 0 ,而a d s p 2 1 0 6 0 的突出优点表现在两个方面:片内存储容量大,例如将它配置成6 4 k x 3 2 b i t 数据存储器和4 0 k x 4 8 b i t 指令存储器( 指令存储器也可存放3 2 x 4 0 b i t 数据) ,可以满足许多应用的需要,无需外带存第二章新型d s p 器件和实时并行处理技术综述9t储器,而且片内存储器的访问速度远快于片外存储器用a d s p 2 1 0 6 0 构成的系统具有面积小、成本低、功耗低的优点;特殊的共享总线功能,无需外部控制电路,多片d s p 就可以组成一个统一的存储空间,d s p 相互间既紧密耦合又相对独立,数据传送效率高的并行系统。以下对a d s p 2 1 0 6 x 系列d s p 作一个概括的介绍。图2 1a d s p 2 1 0 6 x 内部结构框图a d s p 2 1 0 6 x 处理器概述:图2 1 表示了a d s p 2 1 0 6 x 的内部结构框图和相应的外接引脚数目。a d s p 2 1 0 6 x 采用超级哈佛结构,有4 套独立的总线,分别用于双数据存取、指令存取和输入,输出接口,十分有效地将数字信号处理系统的主要功能集成在一片芯片上,它包括:一个与a d s p 2 1 0 2 0 兼容的运算控制单元处理器核、大容量双端口静态存储器、程序数据外部总线及多处理器接口、输入输出控制器。运算控制单元可以完成3 2 b i t 定点运算或3 2 ,4 0b i t 浮点运算,包括乘法器、加法器、移位器在内的运算单元具有1 2 0 m f l o p s 的峰值运算能力,配合以高速指令缓存,a d s p 2 1 0 6 x 可以在单周期内带条件判断地执行次乘、一次加、一次减和一次跳转。片内大容量静态存储器( s r a m ) 分成两块,一块用来存储程序指令及数据,成为程序存储区( p m ) ;另一块可以用来专门存放数据,成为数据存储区( d m ) 。这样,如果指令位于缓存,就可以在单周期内执行乘、加、减运算的同时,分别对p m 和d m 区的数据进行一次存取操作。除标准0新型d s p 器件在高速实时并行信号处理中的应用3 2 位字宽外,片内存储器可以灵活地设置成1 6 位字宽,以倍增片内存储空间。a d s p 2 1 0 6 x 有多种外部接口,首先是外部地址、程序数据总线,它可以全速工作在4 0 m h z ,它提供的多种外部控制信号可以使多片a d s p 2 1 0 6 x 无需外部控制逻辑就能直接相连,构成一个高效的紧耦合式并行处理系统;输入,输出控制器还提供了六套链路口和两个串行通信口,用这6 套链路口可以将大量的a d s p 2 1 0 6 x构成一个松耦合的并行处理系统。这样通过合理地分配并行处理子任务间通信、握手和运算处理时序,可以设计出高效的多处理系统。如图2 1 表示了a d s p 2 1 0 6 x 的内部结构框,内部功能主要包括:符合i e e e 浮点格式的3 2 位浮点运算单元,包括乘法器、算术逻辑运算单元,移位器,这些运算单元也可以完成定点运算。数据寄存器堆:r 0 一r 1 5 ( 用于浮点时称f 0 一f 1 5 ) ;数据地址产生器( d a g l ,d a g 2 ) ;程序控制和指令缓存;内部定时器;4 m 位双端口s r a m ;外部存储器接口,3 2 位地址,4 8 位数据;主机和多处理器接口;d m a 控制器,有l o 个d m a 通道;两套串行口;六套链路口,每个链路口有4 位数据线:j t a g 仿真测试口。对a d s p 2 1 0 6 x 介绍之后,下面介绍a d s p 2 11 6 0 ,它是a d 公司第二代s h a r c系列d s p 的第一款产品,虽然该产品定义的内部存储器空间有8 m 位,但是最初的产品只设计了4 m 位的片内静态r a m ,与a d s p 2 1 0 6 0 的片内r a m 大小相同。与这个产品有相同类型的产品,将根据市场的需要不断推出。a d s p 2 1 1 6 0 对并行形式的a d s p 2 1 0 6 x 的结构功能有了很大程度的继承,同样采用数据总线和程序总线分离的超级哈佛结构,具有上面所列出的a d s p 2 1 0 6 x的各种功能。它之所以属于s h a r c 系列的第二代产品,就是因为其内部有了另外一个处理单元( 共有两个相同的处理单元) ,总线宽度也增加了。a d s p 2 1 1 6 0不仅支持a d s p 2 1 0 6 x 的单指令流单数据流( s i s d ) 工作模式,而且有了新的单指令流多数据流( s i m d ) 的并行工作方式,这是a d s p 2 1 0 6 x 所不具有的,因此,a d s p 2 1 1 6 0 这类产品被a d 公司称作“s h a r cs i m dd s p ”。a d 公司发布了关于这种d s p 的资料,主要技术资料就是a d s p 2 1 1 6 0 的技术说明,具体的细节可以参看文献 2 1 1 3 。下面给出了a d s p 2 1 1 6 0 的结构框图,通过它与前代a d s p 2 1 0 6 x 的关系比较,容易理解它的结构功能,下面也列出了一笙三童堑型里翌堡堡塑壅堕茎堡竺垄垫查堡鲨一坚_ 。_ - - _ _ _ - _ _ _ _ - _ - - - 。1 。4 。一a d s p 2 1 1 6 0 有别于a d s p 2 1 0 6 x 的主要特征。图2 2a d s p 2 1 1 6 0 内部结构框图核结构1 0 0 m h z 主频;内部时钟是输入时钟的整数倍;两个并行的处理单元( s i m d 处理模式) ;内部总线宽度增加( 程序区的寻址也增加到3 2 位,a d s p 2 1 0 6 x 是2 4位;数据总线都增加到6 4 位,原来2 1 0 6 x 数据总线为4 0 位,程序数据总线为3 2 位) ;地址产生器可以完全寻址3 2 位地址。指令系统汇编原代码与以前的2 1 0 6 x 保持兼容;同时定义了一些新的指令来支持新的功能。存储器组织当工作在1 0 0 m h z ,存储器带宽增加到每秒1 6 0 字节;数据线宽度增加到6 4 位;修改的系统存储器支持每时钟周期的双字传输,控制寄存器也发生变化以支持s i m d 和新的l o p 功能。外部口为同步接口,提供了更好的支持;1 2新型d s p 器件在高速实时并行信号处理中的应用数据宽度增加到6 4 位;为d m a 提供了分裂传送能力。主机接口更好的支持同步接口;数据总线扩展到6 4 位。i ) m a 能力d m a 通道数增加到1 4 个比2 1 、0 6 0 多了4 个;数据采用了新的打包方式;内部缓冲增加;改进的总线仲裁。链路口数据宽度增加到8 位;更加灵活的时钟能力。串口串口速度提高。物理特征降低的电压:内部为2 5 伏,外部为3 , 3 伏;低功耗;2 7 m m 2 7 m m 的塑料b g a 封装。a d s p 2 1 1 6 0 与a d s p 2 1 0 6 0 比较:两者同属于a d 公司的s h a r c 系列的通用d s p ,a d s p 2 1 1 6 0 的代码与a d s p 2 1 0 6 0 的代码在汇编级上是兼容的,a d s p 2 1 1 6 0具备a d s p 2 1 0 6 0 的各种功能。主频为1 0 0 m h z 的a d s p 2 1 1 6 0 的时钟是a d s p 2 1 0 6 0的2 5 倍。有两个并行的处理单元,对于某些运算,其峰值运算速度是a d s p 2 1 0 6 0的5 倍,即6 0 0 m f l o p s ;a d s p 2 1 1 6 0 为1 4 个d m a 设备提供了各自d m a 通道( 链路口占6 个,外部总线占4 个,串口占4 个) ,而a d s p 2 1 0 6 0 只有1 0 个d m a通道,有4 个是复用的;外部总线是6 4 位,当设成双字传输时,外部输入时钟为4 0 m h z 时,其传输数据的能力是a d s p 2 1 0 6 0 的二倍;链路口采用8 位数据,而a d s p 2 1 0 6 0 是4 位数据,当它们以相同的时钟传输时,a d s p 2 1 1 6 0 的速度是a d s p 2 1 0 6 0 的二倍。a d s p 2 1 1 6 0 的链路口可以设成4 位的形式,并且在逻辑上与a d s p 2 1 0 6 0 是兼容的。因此,基本上保证了原适用于a d s p 2 1 0 6 0 的外部存储器和链路口的连接方式仍然适用。但是,这种芯片采用密集管脚封装( b g a ) ,这就增加了研制难度,印制版布线时大部分需要手工实现,这种封装制版和安装都较困难,并且做好后不易改动。以上从总体的角度,介绍了a d s p 2 1 1 6 0 。其中关于芯片对s i m d 的支持及其应用也是这种d s p 与前代产品相比具有特色的地方,本论文将在第五章再详细讨第二章新型d s p 器件和实时并行处理技术综述1 3论这部分内容。2 2 4a d s p 2 1 1 6 0 开发工具简介a d s p 2 1 1 6 0 和a d s p 2 1 0 6 x 的开发流程相同,也是由如图2 3 所示的几个部分组成。与a d s p 2 1 0 6 x 相比,只是开发工具有些差别,现在使用较多的a d 公司提供的d s p 开发软件包a d i - d s p3 3 0 版不支持a d s p 2 1 1 6 0 的开发。开发它有许多工具,主要有s h a r c 开发工具和v i s u a l d s p 提供的一整套软硬件开发工具。用来开发a d s p 2 1 0 6 0 6 2 的仿真器e z - i c e 支持开发a d s p 2 1 1 6 0 。o - 用户曩序- 忭 : - 开寰薰t 蹙肼口曩件开寰- 蕾簟图2 3 开发流程图在论文中,用的开发工具是v i s u a l d s p 。它是w h i t e m o u n t a i n 公司专门针对a d公司的d s p 器件而开发的一种使用方便的开发平台,它支持a d 公司s h a r c 系列a d s p 2l x x x 的各种产品。常用的硬件仿真器是s u m m i t - i c e 或m o u n t a i n i c e 。在论文期间,本人使用的仿真器是m o u t a i n - i c e 。v i s u a l d s p 软件也象a d id s p 3 3 0 版软件包一样包括汇编器、连接器、模拟器、引导加载程序,仿真器和c 编译器等,其最大特点就是它采用可视化图形操作将各个部分集成到一个窗口,v i s u a l d s p 同a d i3 的关系很象最初的_ d s p3 0w i n d o w s 操作系统同d o s 的操作系统之间的关系。v i s u a l d s p 将工程开发和调试环境集成在一起,可以方便的实现源文件的编辑,工程文件的构造以及可执行文件的仿真调试,并在这几者之间来回切换。它的基本软件包包括两个部分:v i s u a l d s pe n v i m n m e n t 和v i s u a l d s pd e b u g g e r 。v i s u a l d s pe n v i r o n m e n t 也称为i d e ( i n t e g r a t e dd e v e l o p m e n te n v i r o n m e n t ) 集成开发环境,它为d s p 应用程序的开发提供了非常灵活的工程式管理,包括了创建和调试d s p 工程的各种入口。i d e包含有文本编辑器,可以创建和修改源文件。它将用于生成可执行代码的一个或4新型d s p 器件在高速实时并行信号处理中的应用多个源文件及系统结构文件集中在一个工程下,并可以随时添加和删改。这些都是原来开发工具不具备的功能。i d e 以对话框的选择形式确定编译、链接的命令参数,在构造工程文件时,能很方便的生成可执行代码,而不用象原来用带参数的d o s 命令,要先生成目标文件,再生成可执行文件。v i s u a l d s pd e b u g g e r 是调试工具,它有两个平台:模拟器和实际的目标系统,它将程序代码加载后,在一个窗口工作环境内观察寄存器,存储器数值、单步执行、设置断点、统计某段程序的执行时间、以图形方式打印出存储器内容等。通过设置参数可以同时看到程序的原代码的执行过程。v i s u a l d s pd e b u g g e r 还有许多a d id s p 3 3 0 版软件包所不具备的功能。最突出的一个特点是它能在一个界面下同时调试多个处理器程序,这是实时应用中多处理器板优化的关键,此外它还能同时查看程序源代码和目标码,并在目标码上以亮条显示正在执行的语句,以字母d 、f 分别指示译码和取指的语句,大大方便了调试过程。总之,v i s u a l d s p 是一个方便的工具,它也可以开发以前系列的产品,这种软件也不断升级,最新的支持c + + 语言的v i s u a l d s p + + 已经推出。以上是对开发工具的总体介绍,关于之的详细内容可以参看文献 2 2 - 2 5 。2 3 并行处理机性能2 3 1 加速比和效率7 1定义2 1p 个处理器加速比s 。为sp = l 、| | p( 2 - 1 )这里f 1 是用一台处理机求解问题所用的时间,t p 是用p 台处理机计算同一问题所用的时间。定义2 2 并行加速比s :为sp = ts t q | tp这里f 。是用串行机求解问题所需的时间。应该指出在一般情况下,( 2 2 )第二章新型d s p 器件和实时并行处理技术综述15这是因为r ,是在并行操作系统下用单个处理器计算的结果,t s e q 所用的环境是串行操作系统,而并行操作系统的开销一般大于串行系统。设某个计算问题中只能串行执行的运算量的百分比为s ,其余的运算量由p台处理机并行执行的,所占百分比为1 s 如果忽略通信与同步等由并行引起的开销,加速比j 。应等于铲_ 由于上式中0 s s l ,可见无论p 是多少,s 。的上界为晦;这个公式通常称为a m d a h l 定律或称w a r e 定律。定义2 3 一个并行程序的效率定义为驴詈或云:蔓p( 2 3 )( 2 4 )式中p 为处理器个数。显然,加速比和效率互相关联,当且仅当e 。接近于1 ,加速比,。接近p 。影响并行效率的因素很多。首先,不能期望一个程序的所有部分都能完全并行。例如输入、输出部分。输出部分通常由单处理器完成。处理机之间的通信与同步都需要时间开销,各个处理机中所执行的程序量也不能完全相同,总会出现某些处理机负载不均衡甚至是处于闲置等待状态。2 3 2 任务时间模型【4 1加速比只是反映并行处理机的效率,而在实时信号处理中,任务的执行时间是反映并行处理性能最重要的指标,实时处理对时间的要求更为严格,当任务不确定时,最坏情况下的任务执行时间最为重要。下面给出任务执行时间的公式:瓦= k w + 气。+ 瓦w 。+ 瓦m ,l s k p( 2 - 5 )瓦为第k 个单元完成分配给它的子任务而执行的程序指令时间。z 乙,。是它和其它处理单元之间数据通信的时间。z 。是因为交换数据而必须等待的时间1 6新型d s p 器件在高速实时并行信号处理中的应用,反映了处理单元之间的同步丌销。咒,。则是最后一个子任务被某个处理单元执行完之前第k 个处理单元无任务执行的时间,反映了负载不平衡对性能的直接影响。定义完成所有子任务的时间即为并行处理时间z 0 :乙,= m a x ( 7 女) ,l 女p2 4 处理单元的选择( 2 6 )根据描述并行处理机的两个参数加速比和效率。在一些子任务间的数据通信和子任务量相当的情况下,由于处理单元的运算速度远高于通信速度,因此如果再加上任务分配不均造成的等待开销,使得采用不同的处理单元的并行算法得不偿失。因此在设计并行处理机时,要综合考虑处理单元、并行处理机网络、并行算法程序和任务分配方法。显然,在同样任务量的情况下,用高性能的处理单元构成的小规模系统,其效率要高于较低性能的处理单元构成的大规模系统。可见,处理单元的性能相当重要,它包含运算速度、存储器的i o 带宽、数据通信速度,即处理单元的运算速度和数据通信速度相当匹配。处理单元按应用范围大致可分为中央处理单元、专用a s i c 芯片、数字信号处理器。按应用范围的不同,数字信号处理器又可分为通用d s p 和专用d s p 两种。中央处理单元( c p u ) :发展最快,技术最先进,峰值性能指标高,适合控制。并且适合构成通用计算机和通用并行计算机,有着丰富的软件。缺点:输入输出速度有限,直接使用的难度大于d s p ,并且需要外围器件,功耗大。专用a s i c 芯片:它是针剥某种特殊用途的应用而设计的,它可以达到最高的处理速度,但设计周期较长,成本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论