




已阅读5页,还剩51页未读, 继续免费阅读
(信号与信息处理专业论文)基于标准总线的通用dsp并行处理系统设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所 罗列的内容以外、沦丈中不包含其他人已经发表或撰写过的研究成 果:也不包含为获得西安电子科技大学或其他教育机构的学位或证 书而使用过的材料:与我一同工作的同志对本研究所做的贡献均已 在论文中做了明确的说明并表示了谢意。 本人签名:缸j ! 酗日期2 翌三:型2 关于论丈使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规 定,即:学校有权保留送交论文的复印件,允许查阅和借阅论文; 学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或 其它复制手段保存论文。 本人签名:立咀一 导师签名:,墨丝窆 日期塑堕:l ,i 日期丞生兰! z :至 摘要 本论文主要讨论了通用d s p 并行处理系统的设计问题,目的在于发展一种 可重构的、可扩展的通用信号处理系统。一方面,可以通过灵活的软件编程来适 应处理问题的变化和算法的发展;另一方面,可以通过简单的硬件扩展来适应处 理规模的变化。文中首先介绍了d s p 并行处理技术,接着提出了基于两种标准总 线的接口电路实现方法:一种是基于p c i 总线的结构,一种是基于v m e 总线的 结构。这两种总线有着各自的特点,在系统设计中可以根据实际情况选用其中的 一种作为d s p 处理板的最终端接。文中提出了一种利用f i f o 去耦合的设计思想, 实现d s p 与标准总线之问的异步通信,并详细给出了两种总线接口电路具体实现 方法及部分功能模块的仿真结果。 关键词:通用d s p 并行处理系统d s p 并行结构p c i 总线v m e 总线 f i f o a b s t r a c t t h i sp a p e rd e a l sw i t ht e c h n i q u e so fd e s i g n i n ga l l p u r p o s ed s p sp a r a l l e lp r o c e s s i n g s y s t e m s ,a i m st od e v e l o ps i g n a lp r o c e s s i n gs y s t e m sw h i c ha r em o r er e c o n s t r u c t e da n d m o r es c a l a b l eo nt h eo n eh a n d ,w ec a l lm e e tt h er e q u e s to fp r o c e s s i n gt a s k sc h a n g e s a n da l g o r i t h md e v e l o p m e n tt h r o u g hf l e x i b l es o f t w a r ep r o g r a m m i n g ,o nt h eo t h e rh a n d , w ec a nm e e tt h er e q u e s to f p r o c e s s i n gs c a l ec h a n g e st h r o u g hs i m p l eh a r d w a r ee x t e n t i o n f i r s t ,t e c h n i q u e so fd s p sp a r a l l e lp r o c e s s i n ga r eg e n e r a l l y i n t r o d u c e dt h e nt w o s t r u c t u r e so fs t a n d a r db u s e si n t e r f a c e sa r ep r e s e n t e d o n ei sb a s e do np c ib u s ,t h eo t h e r i sb a s e do nv m eb u st h et w ok i n do fb u s e sh a v ef e a t u r e so fe a c ho u , t i e i t h e rc a nb e c h o s e na st h ef i n a li n t e r f a c eo fd s p sb o a r da c c o r d i n gt op r a c t i c a la p p l i c a t i o n st h c m e t h o do fi m p l e m e n t i n ga s y n c h r o n o u sc o m m u n i c a t i o n6 e n le e nd s p sm a ds t a n d a r d b u s e st h r o u g hf i f o si sd i s c u s s e di nd e t a i la n dm a n ys i m u l a t i o nr e s u l t so ff u n c t i o n a l m o d u l e sa r ea l s og i v e n k e y w o r d :a l l p u r p o s ed s pp a r a l l e lp r o c e s s i n gs y s t e m d s pp a r a l l e ls t r u c t u r ep c ib u sv m e b u sf i f o 第一章绪论 第一章绪论 1 1 通用d s p 并行处理系统概述 d s p 器件出现在2 0 世纪7 0 年代末和8 0 年代初。在当时,d s p 器件的主要目 的是要解决图象、语音等信号的处理问题。随着技术的发展,8 0 年代丌始,d s p 器件开始向其他应用领域发展,广泛用于通信,雷达与声纳信号处理,语音图象 信号处理,工业控制,计算机,医用电子学等几乎所有电子学领域,d s p 器件已 经成为电子技术应用的支柱芯片之一。 实际应用对处理速度的需求在不断增加,仅靠单d s p 系统已经不能适应超大 运算量的要求。尤其是雷达、声纳等领域中的信号处理,不仅运算量大,处理复 杂,数据吞吐量也很大,必须采用实时性强、精度高和具备高数据吞吐量连接网 络的大规模并行处理系统。设计d s p 大规模并行处理系统传统的设计方法可以描 述为“积木块式”的,即针对特定的应用问题选择合适的算法,然后根据算法的 流程确定系统的硬件结构,利用各种专用模块完成运算。这种设计方法带来的问 题是:当信号处理的内容、规模发生变化,或者出现新的算法时,整个系统都需 要重新设计,系统的通用性差。因此有必要发展一种可重构的、可扩展的通用信 号处理系统,。方面,可以通连灵活的软件编程来适应处理问题的变化和算法的 发展;另一方面,可以通过简单的硬件扩展束适应处理规模的变化。 我们想到的就是用一种基于标准总线的多d s p 电路板来组建信号处理系统。 即在一块单独的电路板上配置多片d s p 和必要的存储器,并设计成与通用标准总 线接口。通过这样的电路板组成并行处理系统只需要简单的硬件扩展,即增加电 路板数目就可以适应处理规模自j 变化,同时由于采用通用标准总线接口,一些厂 商提供的现成的板级产品都可以添置到系统中,因而具有很强的通用性。另外, 系统硬件结构的简单化使系统设计人员可以把更多的精力用在提高系统整体性能 上,不必再在系统的硬件搭建上花费宝贵的时间。 在通用d s p 并行系统的研究中,国外由很多厂商己经生产出基于标准总线 的多d s p 电路板产品。如s p e c t r u ms i g n a lp r o c e s s i n g 公司生产的单块板运算能力 达9 6 0 m f l o p s 的c v 8o c t a l 处理器板,该板配置了8 片t ic 4 x ,d s p 之间通过 p c i 总线( 次级总线) 连接,板与板之间通过v m e 6 4 总线( 初级总线) 相互通 信,多块v 8 板可以插入v m e 6 4 总线系统的插槽内,组成大规模并行处理系统。 i x t h o s 公司的i x z 8 电路板是基于v m e 总线的s h a r c 处理器板,在一个单独的 : 基于标准总线的通用d s p 并行处莲系统搜汁 6 uv m e 插槽内,其f l o p s 达到9 6 0 m 。同时板上配置了全局存储器刚于数捌暂 存,1 6 个s h a r c 链路口引到前面板,处理器间的数据传输速率可达到6 4 0 m b s : 圳内也有一些单位在进行这方面的研究。清华大学最近有关文献报道,研制出了 一种由5 片a d s p 一2 1 0 6 x 构成的多d s p 并行计算结构。基本组成是由5 片a d s p 一2 10 6 x 的数据总线及地址总线直接互连而构成的c l u s t e r 型多处理器,并辅以链 接j 互连的点到点通信、f l a g 标志互连的消息传递通信等功能。该系统并没有 :0 际数据吞吐量的测试报告,而且板的终端采用自定义的总线接口设计,芹未涉 及标准总线,因而没有做到完全意义上的通用。 组建通用d s p 信号处理系统,可以完全采用国外现成的基于通用标准总线的 多d s p 电路板,然而在许多实时信号处理领域中,往往需要用d s p 构建大规模 # 行处理系统需要较多这样的通用d s p 电路板,如果全部采用国外现成的产品, 会大大增加设训的成本,并且由于现成的处理器板并不是按照实际需要进行配 管,也会造成人量资源的浪费。为了降低成本,同时又要适应信号处理系统通用 。匕发展的趋势,就需要目己设计基于标准总线的多d s p 电路扳,进而缉建成具有 通目j 性的并行信号处理系统。 发计通用d s p 并行处理系统具有很广阔的发展前景和应嗣价值。以雷达信号 处理机为例,今后数年内雷达信号处理机模块化设计与实现的研究将成为一大热 ,r i 问题,雷达信号处理的特点是多任务、实时性、并行性。这些特点决定了雷达 暗号处理机的硬件结构应是多c p u 、多主从结构、多总线且具有两度并行处理能 力的高等计算机系统,系统总线采用通用标准总线成为必然。通用标准总线既然 2 成为种标准,它的性能已经为实践所证明,因而系统具有更高的可靠性。雷 达信号处理系统对数据的处理要求非常高数据量大,处理复杂,个信号处理 系统往往包括十几块甚至更多的电路板,以往设计者必须考虑如何进行扳与板之 间连接,一旦设计任务变化了,就要重新定义板间的通信方式,是一项非常复杂 和重复性的工作。如果设计不好,板与板之间进行高速数据通信时常会出现数据 传输错误的现象。开发出一种通用多d s p 板,设计者不用再考虑板与板之间如伺 进行通信,板上各个d s p 处理器之削可以通过各级总线系统,链路口 h 互进行数 据传输,板与板之间的d s p 处理器可以通过系统通用标准总线进行数据传输。设 汁者所要做的只是根据电路板上的资源情况将设计任务合理地配置到板上各d s p r p 大大缩短了设计周期。另外,采用通用标准总线还有许多方便之处。当今r j 乏甩于d s p 系统中的标准总线结构是v m e 总线和p c i 总线,、成百上干的电路扳、 机械硬件、软件、总线接口芯片的生产商生产出大量的v m e 总线产品。p c 市场 r 2 量的增加和日益激励的竞争又为p c i 系统提供了大量面向p c i 总线的高速图形 卡、外围设备及i o 板忙。众多的v m e 总线产品和p c i 总线产品可以随时应用 到雷达系统中,提高雷达信号处理系统的性能。此外,正如d s p 在其它领域,如 第一章绪论 通信、医疗、图形图像处理、仪器仪表、消费电子等领域中的广泛应用,通用d s p 并行处理系统将会推动这些领域更加飞快地发展。 1 2 总体结构 组建通用d s p 并行处理系统一方面是为了获得极大的运算能力:单块板上集 成的d s p 数据越多,在保证高数据吞吐量的前提下运算能力越强;另一方面,是 为了简化并行系统的硬件结构,可以相对不受限制地扩大并行系统规模。这就对 通用d s p 并行处理系统提出了三个方面的基本要求:尽可能多地在单块电路板上 集成适合并行处理的d s p 芯片;保证系统的高数据吞吐量,不要存在数据传输中 的瓶颈:系统总线的标准化。 对于增加板上d s p 芯片数目和提高数据吞吐量的要求,其实可以归结为一个 问题,就是要设计出高性能的d s p 并行计算结构。自从半导体生产f 商生产出一 系列适合并行处理的d s p 芯片,以t i 公司t m s 3 2 0c 4 0 和a d 公司s h a r c 处 理器为代表,d s p 荠行处理技术已经广泛为设计人员所采用。如通过s h a r c 处 理器的链路口或c 4 0 的通信口组成松耦合式的并行结构,通过将d s p 外部总线 连接在一起组成的紧耦合式的并行结构,以及将众多d s p 分组为若干共享总线子 系统,子系统之间用链路口连接的混合式多处理器系统。组建并行计算结构的技 术目趋成熟,因此这两个要求比较好解决:我们可以看到,主要问题还在于系统 总线的标准化上,如何设计d s p 系统与标准总线的接口便是本论文所要重点讨论 解决的。 本论文取材于雷达信号处理重点实验室,结合雷达信号处理处理系统模块化 发展的趋势,目的是设计d s p 系统与p c i 总线及v m e 6 4 总线接e i 电路,在此基 础上组建d s p 通用并行处理系统,为雷达信号处理系统提供更强的处理能力和更 大的灵活性。 对于设计多片d s p 并行计算结构部分,由于并行d s p 处理技术已经得到了 广泛的应用,论文是主要讨论并行结构设计中应注意的一些关键问题,如何实现 合理的任务分配,提高系统的数据吞吐量:对于d s p 系统与标准总线接厂 部分, 要求既能够利用标准总线的通用性,又不会带来总线中的数据传输瓶颈问题。 文中提出了两种标准总线结构,一种是基于p c i 总线结构的d s p 系统。虽然 p c i 总线不适合电路板数目较多的大规模并行处理系统,但p c i 总线的传输速度 较高,且开发成本也比其它一些总线低,因此对于组建规模不是很大的系统有很 大的价值。论文中对它的实现做了阐述,并详细介绍了一种利用f i f o 去耦合的 设计思想,消除d s p 外部总线与p c i 总线数据传输中的瓶颈问题。另一种是基于 丛,标准总线的通用d s p 并行处理系统殴订 剀11 基r 标准总线的d s p 多处理器系绩 v m e 6 4 总线的接口电路设计。由于v m e 6 4 总线良好的可扩展性以及当今国际上 众多电子产品中v m e 总线所占据的主流地位,我们认为d s p 信号处理系统设计 c 戈基于v m e 总线标准是更好的选择因此我们详细地介绍了v m e 总线的特点 以及接口电路的实现方法。 p c i 总线和v m e 总线是d s p 信号处理系统中通常使用的两种总线标准,然 而它们并不是互相排斥的,图1 1 就是将p c i 总线和v m e 总线同时臆用于d s p 处理系统中的一个例子,在基于v m e 总线的d s p 多处理器系统中,p c i 总线 12 0 m b s 的数据传输率有利于速度较慢的v m e 总线更接近它的峰值传输率,也 l 于p c i 总线的引入,使电路板h 能够配置一些面向p c i 总线系统的扳卡当然 这样的系统需要两级桥接电路,一级是d s p 与p c i 总线之间,另一级是p c i 总 线与v m e 总线之间: 论文的第二章简单介绍了多d s p 绍建并行计算结构的各种方法,对影侧数抓 吞吐量的几个关键问题进行了讨论并提出一些解决办法。第二章阐述r 基于p c i r 总线的d s p 系统的结构和接口电路设计方法。重点提出一种基于f i f o 的去耦合 ,墨想来实现d s p 与总线之间的异步传输机制。第四章详细介绍了v m e 总线接口 电路的设计实现。这两种总线接f 的部分功能模块作者都在f p g a 中进亍了实现 和仿真验证,论文中给出了部分的仿真波形结果。 第二章多处理器并行系统设计 第二章多处理器并行系统设计 组建d s p 并行结构并不是在芯片间进行硬件连接那么简单,虽然单块电路板 上配置的处理器芯片越多,理论上获得的m f l o p s 运算能力越大,但带来的难题 是,随着处理器数目的增多,设计者越来越难对设计任务合理分配,影响着数据 的吞吐量,进而影响整个系统的处理能力。因此,如何合理地选择器件和有效地 分配设计任务以实现高数据吞吐量,是多处理器并行系统设计中很重要的一个环 节。 t e x a si n s t r u m e n t sc 4 0 和a n a l o gd e v i c e ss h a r c 是适合组建并行处理系统的 d s p 典型的例子。它们有着各自适合并行处理的结构特点,如灵活的链路口通信 端口、全局总线结构可以直接构成分布式并行系统和共享存储式并行系统。 分布式并行系统是各处理器通过链路口髓信口连接在一起组成的并行系统。 这种并行系统可扩展性好,设计也比较灵活。但是,链路口,通信端口的数目毕竟 有限,如果并行处理系统中的d s p 数目较多则不能保证所有d s p 都相邻。不相 邻的两个处理器间进行通信就要限制其他处理器的链路口通信口被占用。这样, 虽然两个处理器之问的局部数据吞吐量很大,但由于通信通道上的链路口通信端 口不能再进行其他操作,整个系统的数据吞吐量将受到损失。 共享存储式并行系统是将d s p 的外部总线连接在。起构成的并行系统。多处 理器系统中,当处理器都需要从外部存储器获取数据时,带来的问题尤其明显。 多片d s p 的外部总线连接在一起,形成一个公用总线,用来对共享存储器进行存 取。每片d s p 的外部总线之间是相互独立的,也就是说,d s p 要访问共享存储器, 需要经过仲裁获得允许后才能对共享存储器进行存取。所以可以看出,连接在一 起的d s p 数目越多,对共享存储器进行访问时的竞争越大。 另外,针对不同的处理任务,选择合适的并行处理器芯片也是很重要的, s h a r c 处理器和c 4 0 由于内部结构的不同,在处理数据时有着各自不同的优势, 应该根据具体任务选择合适的处理器芯片。 为了提高d s p 并行处理系统的性能,我们在设汁中务必要考虑这些问题,加 以分析并寻求解决的办法。 在以下的各节里将分别就这些问题做以介绍。 2 1 并行处理器芯片简介 如上所述,不同的处理器芯片有着不同的结构特点,应该根据应用的场合选 垦丁标准总线的通j _ | ;jd s p 并行处理系统殴昔 择合适的处理器芯片,目前,适合组建并行处理系统的d s p 丰要有两类:丁t 公 司的c 4 x 和a d 公司的s h a r c 处理器,本小节对这两类d s p 并目的特点做一个 简单的介绍: t 1 公亏1 9 9 1 年推出了4 0 m h z 主频的t m $ 3 2 0 c 4 0 以后发腱了5 0 m h z 、 6 0 x i h z 的f m s 3 2 0 c 4 0 。c 4 4 产品。c 4 0 的主要特点为: 具有6 个用于处理器间高速通信的通信口。每个口的最人数掘吞吐嚣町 达2 0 m b y l e s 的异步传输速率。 6 个d m a 通道实现了i o 操作与c p u 操作的并行化= 每个d m a 通道 部具备目初始化的能力,无需c p u 来完成初始化的工作: c p u 的处理能力达2 7 5 m f l o p s ,数据吞吐量为3 2 0 m b n e s 两套分的外部数据、地址总线,支持共享存储器系统却高速数扼运率、 单周期传输。端f j 数据传输速率高达1 0 0 m b y :e s 。 片内分析模块支持高效的并行处理调试, 片内程序高速缓冲存储器( c a c h e ) 和双向存取译周期r a m 提两了存储器 访问的性能。 分丌的内部程序、数据和d m a 总线使程序和数据的i j o 操作高度乎丁 化,最大限寰地保证了c p u 的性能。 a d 公司在1 9 9 5 年推出了a d s p 一2 1 0 6 0 。相对于t m s 3 2 0 c 4 x ,它的突出 特征表现为:大容量的片内存储器,完全的片上总线控制逻辑可以将6 片d s p 直 接相连,构成共享存储器并行系统。其主要特点为: 处理速度高。4 0 m i p s 的处理速度,浮点运算在单指令周期完成= 在”内 采用并行计算语句可以达到1 2 0 m f l o p s 峰值浮点运算速度,8 0 m f l o p s 持续浮点运算速度: 动态范围丈。采用i e e e7 5 4 ,8 5 4 标准,直接支持3 2 位单精度和4 0 位扩 展精度浮点格式: 通信带宽大。外部总线接口的地址线宽3 2 位,支持多达4 g 的地址空问, 数据线宽4 8 位,可以达到2 4 0 m b y t e s 的数据传输率; 片h 集成快速、大容量的双端口s i c & m ( 可多达4 m b i t ) ,_ 以支持主处 理器和d m a 控制器同时访问。d m a 控制器中共有10 个通信速率为 第_ 二章多处理器并行系统设计 4 0 m h z 的d m a 通道,它们可以独立于主处理器并行存取数驾,利于隐 藏数据通信时延; 直接支持多d s p 并行结构。片上集成了分布式总线仲裁逻辑可以实现 多达6 片a d s p - - 2 1 0 6 x 共用总线时的无缝连接,多片a d s p2 1 0 6 x 的 内存空间统一编址,各芯片可以直接进行相互之间内存的访i o ,并且芯 片之间的访问还支持广播写方式,提高了数据交换的效率。 在每片芯片上提供了多达6 条的高速链路口,每条链路厂】的带蔗为4 0 m b s 可以实现高效的点到点通信; a d s p 一2 1 0 6 x 还提供了高速的同步阜行口( 可达4 0 m b s ) 、h o s t 微处理器 接口、f l a g 标志等功能。 2 1 3 两种并行d s p 性能比较 设计d s p 应用系统,选择d s p 芯片要考虑多种因素。如d s p 芯= 的运算速 度、价格、芯片的硬件资源、运算精度、开发l _ 具等等。对于我们所要讨论的并 行处理系统设计,应该将注意力集中于芯片的并行处理能力。影响芯,并行处理 能力的因素包括片内存储器容量、外部可扩展的程序和数据空1 日j 、总亥装口、i o 能力等。 表2 1 给出了t m s 3 2 0 c 4 0 和a d s p - - 2 10 6 0 在并行处理能力上的皇能比较。 从中可以看出,a d s p 2 10 6 0 的突优点表现存:片内存储器容量灭= 在许多数 据和程序量不是很大的应用中,无需外带存储器,而且片内存储器自j 问速度远 侠于片外存储器。t m s 3 2 0 c 4 0 的突出优点表现在:具有双套外部息袤:分开的 外部数据、地址总线给设计者带来了设计上的灵活性,增加了数据传带宽,缓 解了共享存贮器总线数据瓶颈问题。 表2 1a d s p 2 1 0 6 0 与t m s 3 2 0 c 4 08 0 m h z 对比 功能a d s p 2 1 0 6 0 4 0 m h zt m $ 3 2 0 c 4 0 8 0 m h z d m a 1 0 4 - d m a 通道6 i 、d m a 通道 链路口趣 6 个4 b i t 链路l j ( 各带2 个控制6 个8 b i t 通信口( 各带4 个控 信口线) 每个带宽4 0 m b s号) ,每个带宽3 0 m b + s 串口 2 个串口,每个带宽2 0 m b s无串口 双套外部总线,外总线凄 外部总线 单套外部总线带宽2 4 0 m b s 3 2 0 m b s ,总线写1 6 0 m bs 片内存储器 1 2 8 kx3 2 b i t2 kx3 2 b i t 基j 标准总线韵通用d s p 并行处理系统设计 2 2 两种并行结构 当一片d s p 处理器不能满足实际应用要求时,可以采用两种多片 作方式束 设训多处理器并行系统,即分布式多处理器系统和共享总线式多处理器系统,这 两种设计方式都存在各自的优缺点。 分】式并 亍结构是将d s p 用链路口通信口连接在一起,其外部总线用来存 取各d s p 的局部存储器= 图21 是以a d s p 2 1 0 6 x 为例的分扎式多处理器系统结 构的例子,这样组成的系统连线少,d s p 之间相互的耦合作用也较低,医此皂称 为松耦合系统t m s 3 2 0 c 4 0 和a d s p 2 1 0 6 0 都提供多达6 个两速链路口7 通信r , 所以这样的多处理器系统扩展性好,而且可以组成线型、星型、环型、树型、网 樟 型和超寺疗体等多种形式。 共享总线结构是将d s p 的外部t 2 , 线连接在一起:接在总线l 的,j 部存f , ;4 a ? ;f - l _ _ 各d s p 户内存储器都作为共享资源被各个d s p 疗问:舀22 是以a d s p 2 1 0 6 x r o j 的共享总线多处理器系统结构的例子,相比于分伟式系统,享总线系统。p 符 o f j :器、叫耦i ? 汴啊要k 的多,阿此叉称作紧祸合系统+ 紧耦合的珐享总线系统1 : i 十多情况下耍比松耦合系统有更高的数据传输速率和数掂交换效率:以 a d s p 2 1 0 6 0 为例,每个链路口的通信速度最高为4 0 m b s ,丽其享总线的数刹传 输速度j , j2 4 0 m b s ,链路口通信需要通信收发双方都要进行准备i 。作和读取数据 i 一作,而,e 2 , 线访问是卣接的,具有速度快、延迟小的优点。 图2 1 分靠式多处理器系统 第二章多处理器并行系统设计 图2 2 共享总线多处理器系统 2 3 并行系统设计方法研究 并行系统设计是一门综合性很强的应用领域,涉及到算法研究、v l s i 设计 理论、系统结构、网络拓扑等多个方面。并行处理的目的是通过采用多个处理单 元同时对任务处理来减少任务的执行时间,如何能以最短的时间完成任务成为并 行系统设计者最关心的问题。组成并行处理系统的三个要素:处理单元、并行处 理网络结构、并行处理任务的分配方法,三者之间紧密联系,互相依赖。这里我 们将围绕这三个方面对并行处理系统的设计中应该注意即问题进行迸一步的讨 诊。 23 1 处理单元的选择 处理单元的性能可以说是决定并行处理系统性能最基本的因素,高性能的处 理单元可以提高系统性能,减少系统体积和功耗、降低结z 自复杂性和提高软件可 维护性。 如前所述,t i 公司的t m s 3 2 0 c 4 0 和a d 公司s h a r c 是适合并行处理的两 类d s p 芯片。s h a r c 处理器,类似其它的d s p ,具有套高速的外部总线用来 外部存储器的存取。另外,它提供了6 个链路口,既可以增加数据传输能力,也 可用来通过点到点连接方式组成多片d s p 的各种拓扑结构。s h a r c 处理器的显 著优势在于它比其他一些d s p 的片内存储器容量大,使其大多数时间下的取指 令、存取数据都可以在各自片内完成,与外部总线无关。这样,各处理器可以较 高的效率独立工作,外部总线的压力大大减轻。类似于s h a r c ,c 4 0 具有6 个 基卜标准总线的通用d s p 并行处理系统设计 外部i o 口通信端厂| ,c 4 0 的片内存储容量没有s h a r c 处理器的大,似其显著 的特点在于具有两套外部总线使得外部数据存取的能力大大提高。c 4 0 和s h a r c r 2 内部结构不同,在应罔中应该结合各自的特点,选择最合适的器件 鼍! 二f 堂堂, v - o r圣r 蒹苎三盐岭徽f 。二i _ 。l 面岳良; r 图23t 、 $ 3 2 0 c 4 0 的双套总线降低了对共享资源的访问频率 对于s h a r c 处理器,由于具有大容量的片内存储器,因而适用于类似f f l 、 这类需要在片内存储程宇代码和数据的应用场合。s h a r c 指令系统包括一种适 合蝶形运算的指令,在1 个时钟周期同时完成乘法一加法一减法三种运算。利用 片内的程序代码和数据执行这样的一系列指令,将使运算能力达到其峰值 1 2 0 m f l o p s ,比其它任何d s p 的运算速度都要快。类似雷达信号处理这类往往 需要大量f f t 运算的应用场合就比较适合采用s h a r c 处理器。当然,在其他运 算中,如卷积这种乘法累加运算,三运算并行指令中的减法就派不上用场,因 而只能实现s h a r c 处理器峰值运算能力的三分之二。s h a r c 处理器大容量的片 内存储器使得各个处理器更有能力独立工作,减少对外部存储器的访问频率。再 加r s h a r c 处理器的链路口带宽高于c 4 0 处理器的通信口,因此s h a r c 乜更 适合于d s p 娄:目较多的分布式系统。 s h a r c 处理器的唯一缺撼就是它只具有一套外部总线,限制了对外部存储器 的数据存取速受。大多数d s p 运算需要在一个时钟周期同时对两个新的数据进行 操作,如果至少一个数据可以暂存在片内,则s h a r c 就完全有能力利用外部总 线对另一个数据进行更新。但是如果两个操作数都必须从外部获取,州晦次的n 1 a c 按作至少存在一个等待周期。 相比之f ,c 4 0 提供了两套外部总线。这样,c 4 0 就可以在个对钟阚期内同 时从外部存储器获取两个数据,其片内存储器容量较小的缺感也得到了棚应的弥 第二章多处理器并行系统设计 补。如图2 3 所示,双套总线也给设计者带来了设计上的灵活性,增加了数据传 输带宽,缓解了共享存贮器总线数据瓶颈问题。得到的结论是c 4 0 更适合于d s p 数目较多的共享存储器总线结构搭建的应用场合。 2 3 2 并行系统互连结构 用于并行处理系统中处理器间连接的互连结构有多种。但大体上都可归为 共享存储器结构和分布式结构。 共享存储器结构 t i 公司和a d 公司的d s p 都支持共享存储器结构,最简单的共享总线连接方 式就是将所有处理器都连到一个硬件联络通道上一一通常是一种背板总线,它既 可以作为处理器间通信的媒介,也可以用于处理器与共享存储器间进行数据传 输。采用这种共享总线的方案的优势在于数据传输的带宽远远大于直接连接的通 信端口。如v m e 6 4 系统中多达6 4 位数据总线。在理想情况下,共享总线能够比 处理器间通过链路口连接传输更快的数据。 许多并行处理系统采用共享总线来实现一种共享存储器通信机制。这种共享 存储器通信机制虽然仍被用来实现处理器间的数据传输,但是却已经慢慢显露出 它的不足。共享存储器通信机制在某些处理系统中表现性能不错,如m o t o r o l a 6 8 k 处理器构建的处理系统,在这种处理器中,对存储器的操作需要4 个和5 个时钟 周期,在一个处理器对存储器进行操作的时间罩,其他处理器可以完成内部的计 算任务。因此,只要系统中处理器的数目不是太多,整个系统的数据吞吐量不会 受到太大的影响。 然而,今天的大多数处理器( 如s h a r c j 都是单周期机制,即刘存储器的存 取都发生在一个时钟周期,这样,处理器都连接到、个共享存储器的系统中,势 必存在着总线竞争问题,存储器的数据吞吐量受到很大的影响。 在 3 与次级总线之量 f 同进行数据传输 f k + | m e m i-_ 图2 4 多d s p 板的“初级次级”总线网络设计 二j童 e 嘎倒中位于卅纽曲线:的某个处理器发起次数姑传输操作这翠假定 j j 级兰线帚执级0 线晴 数据吞时量是刁i 同的,桥接电路起到了数据缓冲的作用: 通过一种称为“初级次级”总线网络的思想可以缓解这种总线竞争。则陶14 昕示,在该系统中,先由个背扳总线作为初级总线体系,d m a 挎制器及f i f o 构成的桥接电路使初级总线和次级总线彼此分离,每个次级总线郡j 系统巾的一 部分d s p 处理器及存储器相连,这部分d s p 之间通过次线总线形成相邻的模式, 彼此通信只需要通过次级总线,不用影响初级总线和其他次级总线,从而缓解了 对共享总线的竞争。后面还将看到图24 给出的初级次级总线网络结掏并不是最 有效的方法,我们在其基础上,提出一种“去耦合”的思想,使之能够更有效地 缓解共享总线竞争问题,关于这种方法将在第三章中加以介绍。 付稍式结构 d s p 处理器可以通过链路口进行d s p - - d s p 之间的直接数据传输,这种数据 传输在硬件连接上比较灵活,虽然单个链路口的数据吞吐量不及使用全局总线方 j 传输快,例如s h a r c 链路口只有4 位数据总线,c 4 0 通信口只有8 他数据总 线,而它们的外部总线多达3 2 位。但由于多个链路口可以同时进行数据传输, 总体上的数据吞吐量仍然是很可观的。 应当注意的是,分布式系统结构中的d s p 数目越多,系统的硬件连接变得越 复杂,这不仅对设计人员的技术要求增加,也给后期的维护工作带来了难度。分 布式系统在数据传输的过程中并不是直接的,主处理器要从另一个处理器的片内 存储器某个位置块读取数据通常不能+ 步完成,需要先将数据块送到其他处理器 片内某块存储区,再 = 其他处理器间接地将数据块传送给主处理器。这样就占用 了其他处理器宝贵的片内存储器资源,在这种电路结构中,一个处理器要和另外 一个处理器进行通信,必须在它们问建立一个直接的通道。由于处理器本身也是 电路的一部分,这就意味着那些处于通信通道中的其他处理器必须“听命”于f 任通信的两个处理器。这样,虽然两个处理器之间的局部数据吞吐量很大,但由 f 通信通道 i 的链路口不能再进行其他操作,整个系统的数据吞吐量将受到损 失。 m e r c u r y 公司采用了。种r a c e 方案,由数据传输的发起一方同接受一万发 送个“路线崮请”数据包,然后从接受一方反馈回来握手信号告) i f :两行之川的 。1 径可 j ,耳丌始进行数据传输。r a c e 总线的峰值传输速度州达1 6 0 m b ,s ,这 种r a c e 方案不仅可用丁一个v m e 插葙中板与板之间连接,还可以月于多个v m e 插葙之f h j 的:童接。 第种万案相当于数据包转接网络,和瓦联网上的异步通信非常类似。需要 第二章多处理器并行系统设计 传输的数据首先分成较小的数据包,发起一方的d s p 处理器先将数据包传送给它 相邻的第一个d s p ,这个d s p 再将数据通过链路l 1 传递给相邻的下一个d s p , 依此类推,直到数据抵达目的地。 这就是s k yc o m p u t e r 公司的s k y c h a n n e lp a c k eu 总线结构,如图25 所示, 图2 5s k y c h a n n e a l 数据包总线结构 s k y c h a r m e l 接口上有当地结点d m a 控制器和数据包控制器,可使用高速双 向f i f o ,s k y c h a n n e l 是采用分离f i f o 连接的包交换体系结构,所有s k y c h a n n e l 进行f i f o 传输是通过从信源到信宿的通道写入的,克服了线路交换体系结构对 于端对端通讯的限制。无论是在一个机箱内还是旺多机箱间,连接两个s k y c h a n n e l c r o s s b a r 底板的线缆都可传输3 2 0 m b s e c 的数据。 s k y c h a n n e lp a c k e 【总线连接的电路板采用一种通用寻址方法,板级数据传 输是通过读写系统内1 6 兆兆字节地址空间实现的。控制电路对地址进行译码, 决定数据存储到板内,还是打包再向下一级传递。s k y c h a n n e l4 4 位的地址空间 增加了系统功能,方便了使用。系统设备接口n r 以利用t 6t e r a b y t e 的线性地址空 间通过简单的调用和存贮,直接访问任意设备的地址。完整的编址空问简化了编 程过程和处理器之间的数据传递过程。 23 3 并行处理任务的分配 c 4 0 和s h a r c 都具有适合组建并行处理系统的特点。组建并行处理系统时 应该十分注意任务的分配问题。所谓任务分配是指,根据电路板ei o 端口、存 储器、以及数据传输的拓扑结构合理将处理任务分配到各个d s p 中。一般的信号 处理系统中既需要分布式的,也需要共享存储器形式的数据传输。分布式的结构 d s p 之间耦合较小,可能只通过链路口进行通信,d s p 通过访目自身局部存储器 4 基于标准总线的通用d s p 并行处理系统设计 处理数据;而共亨存储器形式d s p 之间耦合紧密,都通过访问共享存储器处理数 据。因此,每个d s p 应有自身的局部存储器,同时又有共享存储器供多片d s p 访问。 分布式的结构适合多通道和流水线处理,在这种情况下,每户d s p 几乎独立 地进亍数掘处理。多通道处理中,每片d s p 都是执i j :相同的指令j 伯刈小嘲的数掘 进行处理,流水线操作中,每片d s p 都是对同一组数据进行处理,但不是同时操 作。由于,i i 存在对共享资源的竞争,分布式结构特别适合d s p 能够独立工作的情 况。当然也应认识到这种分布式结构对处理具有相关性的数据不是那么有效。例 如两片和更多片d s p 需要同时对一组数据进行处理,d s p 之间就需要不时进行数 据交换。 图象处理是个很典型的例子。如果采用分布式结构,每片d s p 就要对图象 巾的其中一部分进行处理,各片d s p 完成的功能都是相似的。当对图象进 某些 操作例如窗口变换,就需要全部d s p 参与处理,这时如果每片d s p 只有目己 约局部存储器,则每h + d s p 都得在存储器中存储共享的数据,共享的数据一经叟 i 也,每片d s p 的局部存储器的内容都得相应作出变动,这不仅降低了处理效率, 此给软件编程带采了困难。 因此,在信号处理的过程中,如果共享数据量很大,就应该采用共享存储器 结构;在共享存储器结构中,多片d s p 的外部总线连接在起,并和个共享存 储器相连。每片d s p 都可通过自己的外部总线,经过仲裁访问共享存储器。这样 就免去了分布式结构中必须对各个局部存储器内共享数据进行刷新的麻烦。共享 存储器结构的缺点f 如前面所提到的,是多片d s p 访问共享存储器时存在的总线 竞争问题。缓解这种竞争的种方法是采用双端l j 存储器:双端 的存储器能够 让两个d s p 同时对其进行访问。设计时可以将共享总线卜的d s p 分为两组,分 别连至存储器的两个端l ,这样就能使存取的速度加倍。利用双厂j 存储器坦存在 管问题, 一与而其价格昂贵,另一方面存储数据的容量受传统工2 的限制。另一 种缓解共享。e 2 , 线竞争的方法是利用c 4 0 的双套外部总线。设计时一套总线用丁挂 接局部存储器,另一套连接在一起挂接共享存储器:这样既可以实现双h 存储器 的存取速度,又1 。以保证存储器的容量足够大。 我们设计的系统中应该做到分布式结构和共享存储器结构兼顾。每片d s p 都 应有自己的专用俘储器,同时有共享存储器供全部的d s p 访问。d s p 的通信端口 皇应被允分利用,这样,整个系统的数据吞吐量刊。会达到满意的效果。 第三章s h a r c 与p c i 总线接口的设计 第三章s h a r c 与p c i 总线接口的设计 p c i 局部总线不仅是目前最新的计算机总线,而且是一种兼容性最强、功能 最全的计算机总线。研究d s p 处理系统与p c i 总线接口,能够有效地利用p c 机 资源和大量面向p c i 总线的处理芯片,降低开发成本,尤其通过p c 机的图形界 面操作极大地方便了d s p 系统调试,因而具有很大的应用价值。本章将以a d 公 司的s h a r c 处理器芯片为例,介绍a d s p - - 2 1 0 6 x 与p c i 总线的接厂 电路设计 方法。 在介绍如何迸行p c i 总线与d s p 接1 :3 设计之前,首先介绍种基于f i f o 的 设计思想,它是我们提出的通过f i f o 实现p c i 总线与d s p 之间异步数据传输的 理论基础,正是基于这样的思想,我们提出了后面的设计方法。 3 1 基于f i f o 的设计思想 高速数据传输是基于标准总线的数字信号处理系统必须考虑的一个重要特 性。总线瓶颈是各种基于总线系统影响高速数据传输的最常见,也是比较难解决 的一个问题。这里我们提出一种利用f i f o 将初级总线( 例如p c i 总线) 与次级 总线( 例如处理器总线) 进行去耦合的方法来减少和消除数据传输瓶颈,从而使 初级总线与次级总线之间的数据吞吐量尽量达到它的峰值速度。 3 1 1 数据传输莲颈产生的原因 第二章中我们提到过,多d s p 处理系统共享总线结构容易出现总线数传输瓶 颈这是由于当处理单元个数较多而且数据交换频繁时,处理单元等待孽线令牌的 时间增加造成总线冲突和处理效率的下降:在多d s p 电路板上,处理器要与其 他板上的处理器或存储器进行数据传输只能通过标准总线,也就是说标准总线是 并行系统中唯一通信的媒介,任何处理器使用总线时,其他处理器都将处于等待 状态,直到总线再次空闲。从这个角度看,总线接口上产生的数据瓶颈原因和共 享总线结构中的大体一样。 更具体讲,数据传输瓶颈通常是在两种信号处理环境中遇到:第。种是当数 据进行块传输的时候,这种情况下将占据大量的总线带宽,如果i o 带宽接近 v m e 6 4 总线或局部总线的带宽,则当进行i o 数据传输时,信号处理速度就会减 基丁- 标准总线的通埘d s p 并行处理系统设计 竖甚至停止。第二种情况是器件和电路的延迟,即从提出数掘传输申请钊真下丌 始进行数据传输之间的时间影响了数据传输的速度。 我们设计的目的就是解决这两种信号处理环境中的总线瓶颈问题,为此提出 一种基于f i f
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中介新员工培训体系
- 稽查小组奖励方案范本
- 培训机构回顾历程
- 2026届四川广安市化学九上期末质量跟踪监视试题含解析
- 水泥砖房施工方案
- 2026届四川省巴中市英语九上期末学业质量监测试题含解析
- 2026届四川省泸州市高中学阶段学校九年级化学第一学期期末达标测试试题含解析
- 2026届浙江省杭州市萧山区万向中学九年级英语第一学期期末统考模拟试题含解析
- 人事行政专员个人年终总结
- 钢筋质量重点培训
- 2024-2025学年人教版八年级上册地理每日默写知识点(背诵版)
- 《建设法规》教案+第1次课+法律体系
- 患者的卧位课件
- 中药香囊与车载香氛结合企业制定与实施新质生产力战略研究报告
- 2024年国网辽宁省电力有限公司招聘考试真题
- 取保候审后外出申请书
- 人教版劳动教育实践活动手册教案一年级
- 小狗钱钱全本(完整版)
- 2025关于咨询服务合同范本
- 传承伟大抗战精神心得体会
- 城镇开发边界局部优化方案编制要求
评论
0/150
提交评论