




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)面向图像处理的可重构计算系统结构.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 近年来,基于f p g a 的可重构处理器在加速图像处理应用方面显得越来越重要,主 要原因在于其同时综合了a s i c 和通用处理器的优点。然而,当前的体系结构并没有完 全结合程序的特征,处理单元和结构较为复杂。针对图像处理算法的特点,本文试图研 究一种有着简单的处理单元和结构并能通过重构机制达到结构与运算的最优结合的粗 粒度可重构体系结构。 基于图像处理算法的特点,文中介绍了一种粗粒度l e a p ( l o o pe n g i n eo na r r a y p r o c e s s o r ) 体系结构,这种结构基于循环流水化的执行方式,其本质上是一个加速核心循 环执行的数据驱动的体系结构,拥有可重构处理单元阵列( c p e ) 和可重构局部数据存储器 ( r o p e ) 。这个结构的目标是把高级语言程序直接映射到处理单元阵列上,通过操作在阵 列结构上的分布,处理单元阵列能够有效且自动地完成循环的计算任务,它提供了循环 自动流水化的执行机制,最大地开发程序的并行性。 为了说明l e a p 体系结构在图像处理算法硬化上的有效性和优越性,本文选取了三 个图像处理算法进行验证,分别是中值滤波算法、s o b e l 边缘检测算法和矩阵乘算法。 将三个图像处理算法在l e a p 结构上分别做了映射并进行了性能分析和比较。根据 l e a p 结构的特点,对中值滤波算法进行了改进,并对矩阵乘算法的硬件结构进行了优 化。 整个设计使用v e r i l o gh d l 硬件开发语言,在i s e8 2 和m o d e l s i m 等仿真软件环境 下开发的,通过e d k 进行硬件平台的搭建,在x i l i n xf p g a v i r t e x i ip r o 硬件平台上进 行了实现,所有测试都能正确执行,性能明显高于d s p 芯片和普通微处理器。 关键词:可重构体系结构;图像处理;循环自动流水化;f p g a 大连理工大学硕士学位论文 r e c o n f i g u r a b l ec o m p u t i n ga r c h i t e c t u r ef o ri m a g ep r o c e s s i n g a b s t r a c t c u r r e n t l yt h er e c o n f i g u r a b l ep r o c e s s o rb a s e do nf p g ah a sb e c o m ei n c r e a s i n g l y i m p o r t a n tf o ra c c e l e r a t i n gm u l t i m e d i aa p p l i c a t i o n sd u et oi t sc o m b i n a t i o no f t h ea d v a n t a g e so f b o t ha s i c sa n dg e n e r a lp r o c e s s o r s h o w e v e r ,r e c e n ta r c h i t e c t u r e sh a v ec o m p l e xp r o c e s s i n g e l e m e n t sa n da r c h i t e c t u r e sw i n l o mu t i l i z i n gt h ec h a r a c t e r i s t i c so fp r o g r a m s a c c o r d i n gt ot h e c h a r a c t e r i s t i co fi m a g ep r o c e s s i n ga l g o r i t h m s ,t h i sp a p e rt r i e st od e s i g nac o a r s e - g r a i n e d r e c o n f i g u r a b l ea r c h i t e c t u r ew i t hs i m p l ep r o c e s s i n ge l e m e n t sa n da r c h i t e c t u r e ,w h i c hc a l lg e t t h e o p t i m a lc o m b i n a t i o n o fa r c h i t e c t u r ea n dc o m p u t a t i o nt h r o u g ht h er e c o n f i g u r a b l e m e c h a n i s m b a s e do nt h ec h a r a c t e r i s t i co fi m a g ep r o c e s s i n ga l g o r i t h m s ,t h i sp a p e ri n t r o d u c e sa c o a r s e - g r a i n e dr e c o n f i g u r a b l ea r c h i t e c t u r en a m e dl e a p ( l o o pe n g i n eo na r r a yp r o c e s s o r ) , w h i c hi sb a s e do nl o o pp i p e l i n i n ge x e c u t i o nm o d e t h el e a pi sad a t a d r i v e na r c h i t e c t u r et o a c c e l e r a t et h ei m p l e m e n t a t i o no fc o r el o o p i th a sr e c o n f i g u r a b l ep r o c e s s i n ge l e m e n t sa r r a y ( c p e ) a n dr e c o n f i g u r a b l ed a t am e m o r i e s ( n a p e ) t h ea i mo ft h i sa r c h i t e c t u r ei st om a pt h e e x p r e s s i o ns t a t e m e n t so fh i g hl e v e lp r o g r a m m i n gl a n g u a g e so n t ot h ep r o c e s s i n ge l e m e n t s ,a n d a c c o m p l i s hl o o pc o m p u t a t i o n sa u t o m a t i c a l l y a n de f f i c i e n t l yt h r o u g h d i s t r i b u t i n g t h e o p e r a t i o n si na r r a ys t r u c t u r e i tp r o v i d e st h el o o ps e l f - p i p e l i n i n gm e c h a n i s mt od e v e l o pt h e p r o g r a m m i n gp a r a l l e l i s ma sm u c ha sp o s s i b l e i nt h ep a p e r ,t h r e ei m a g ep r o c e s s i n ga l g o r i t h m sa r ec h o s e nt oi l l u s t r a t et h ee f f i c i e n c ya n d e x c e l l e n c eo ft h el e a pa r c h i t e c t u r ei nm a p p i n gt h ei m a g ep r o c e s s i n ga l g o r i t h m s t h em e d i a n f i l t e ra l g o r i t h m ,s o b e le d g ed e t e c t i o na l g o r i t h ma n dm a t r i xm u l t i p l ya l g o r i t h ma r em a p p e dt o t h el e a pa r c h i t e c t u r e a n dt h ep e r f o r m a n c ei sa n a l y z e da n da l s oc o m p a r e dw i 也o t h e r p l a t f o r m s a c c o r d i n gt ot h ec h a r a c t e r i s t i co fl e a pa r c h i t e c t u r e ,t h i sp a p e ri m p r o v e st h e m e d i a nf i l t e ra l g o r i t h ma n do p t i m i z e st h eh a r d w a r ea r c h i t e c t u r eo fm a t r i xm u l t i p l ya l g o r i t h m t h ew h o l ed e s i g ni sd e v e l o p e du s i n gv e r i l o gh a r d w a r ed e v e l o p m e n tl a n g u a g eu n d e rt h e s i m u l a t i n gs o f t w a r ee n v i r o n m e n t ss u c ha s i s e8 2a n dm o d e l s i m t h eh a r d w a r ei s e s t a b l i s h e du s i n ge d ka n di m p l e m e n t e do nax i l i n xf p g av i r t e x - i ip r oh a r d w a r ep l a t f o r m a l lt h et e s tb e n c hc o d ec a i lr u ns u c c e s s f u l l ya n dt h ep e r f o r m a n c e ,i sb e t t e rt h a nd s pa n d g e n e r a lm i c r o p r o c e s s o r k e yw o r d s :r e c o n f i g u r a b l ea r c h i t e c t u r e ;i m a g ep r o c e s s i n g ;l o o ps e l f - p i p e l i n g ;f p g a i i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 学位论文题目:盘1 司网力秀蝴1 裾叼盐寸j :巧逮兰花巧亟向 作者签名: 纲i 嚣1 日期:2 竺蔓年监月上玺日 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 , 学位论文题 作者签名: 导师签名: 大连理工大学硕士学位论文 1绪论 1 1研究背景 图像处理指对图像数据如文本、数据、静态图像等的捕捉、存储、传输等操作。目 前,图像处理技术是国内外研究和开发的一个热点,应用也极其广泛,在通信科学、生 产与管理、多媒体技术、高清晰度电视、医用图像处理、商品电子化、目标跟踪等领域 起着十分重要的作用。随着人们对多媒体需求的增长,产生了各种各样的图象处理技术, 如图像增强和恢复,图像编码,图像识别等等。这些图像处理技术,从软件上和硬件上 都给处理器带来了新的挑战。 近年来,现场可编程门阵歹i j ( f p g a ) 作为专用集成电路( a s i c ) 领域中的一种半定制电 路而出现,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。 因此f p g a 成为可重复配置电路模块的最适宜的开发方式。f p g a 的发展遵循摩尔定律, 每1 5 年速度翻倍,时钟频率1 2 倍。f p g a 技术和性能已经比较成熟和稳定,这使得 可重构计算也得到了很大程度的发展。 。 随着图像分辨率越来越大,单纯使用软件来实现图像处理变得越来越困难,甚至力 不从心。基于f p g a 的可重构计算方法可以使得图像处理速度大大提高,这已成为目前 国内外研究的一个热门领域。 1 2 图像处理算法的发展现状 对于图像算法的处理可以用软件或者硬件来实现。通常来说,出于简便和成本考虑, 一般利用软件来实现大部分操作,除非需要更高的速度以满足性能指标。软件可以优化, 但有时是不够的。如果需要更高的速度,利用硬件来处理算法是一个不错的选择。 一般来说,图像处理速度的提高,主要有两种手段,一是改变图像处理算法,使算 法更简单。但最为耗时的图像低级处理算法已相当成熟,其运算的复杂性也相对固定, 所以改变算法同时又能够保证精度是非常困难的。二是改变实现算法的手段。目前,实 现图像处理算法的手段针对不同的应用需求主要有以下几种【h2 1 。一、通用计算机;二、 并行处理;三、专用集成电路( a s i c ) , 四、数字信号处理器( d s p ) ;五、现场可编程门 阵列( f p g a ) 。 ( 1 ) 通用计算机。通用计算机是基于冯诺依曼结构的,是一种使用软件编程的方法, 而且是一种最灵活的解决方案。通过高级语言( c ,c + + 等) 编写程序代码,经过编译后转 换成指令代码,处理器执行一组指令来完成计算任务,每一条指令代码又包括许多条微 指令,每条微指令都需要数个机器周期。通过改变软件,在不改变硬件的情况下改变系 面向图像处理的可重构计算系统结构 统的功能。对于一般的处理器来说,这种灵活性是由性能的降低作为代价。虽然现在通 用计算机技术发展非常快,但通用计算机属于标准串行机,大部分工作是存储器和舭 之间交换数据,整个过程是单指令单数据的串行处理过程,在很多情况下该系统结构上 的局限性使它对低级图像处理不能够满足实时高速的要求。另外,大量功耗和昂贵的价 格使其更不能满足嵌入式系统的要求,就算微处理器按照摩尔定理,密度每1 8 个月翻 一番,这样的速度也很难赶上嵌入式应用的需求。因此,基于通用计算机,采用高级语 言编程,它适合各种图像处理算法的验证,适用于一些实时性要求不高的场合。 ( 2 ) 并行处理机。在许多场合下,单个c p u 不能够实现实时数据处理的时候,采用 多个c p u 同时工作的并行处理为解决此问题提供了可能。各国学者在这方面作了大量 的工作,并已研究出多种并行结构和编程语言,它克服了单个处理器串行工作的局限性, 提高了系统的性能。虽然对并行处理进行了大量的研究,但这个领域仍不成熟。处理单 元负载不均衡,并行算法编程困难,理论上并行处理所应达到的性能和实际性能相比有 较大差距。 ( 3 ) 专用集成电路【3 】。专用集成电路( a s i c ) 是使用“硬连线”把一组独立的部件连 接在一起形成板级的解决方案,是针对于某一固定算法或应用而专门设计的硬件芯片。 a s i c 被设计用来完成特定的计算,其执行速度特别快,效率特别高。不像软件实现, a s i c 提供了一种对大多数应用都能实现大量并行性的自然的实现方式。另外,a s i c 不 需要有串行的取指过程,串行取指成了约束微处理器性能的致命的缺点。更重要的,a s i c 比其他的实现方式更能减少功耗。许多图像处理算法采用通用处理器和d s p 来实现难 以满足速度需要,而必须采用a s i c 来实现,在各种算法实现方案中使用a s i c 来实现 是最快的。 然而对于嵌入式应用a s i c 往往是不灵活、不经济的。a s i c 从设计到应用需要较 长的时间周期。a s i c 因为属于专用硬件芯片,所以需求数量较少,成本也就非常高。 由于a s i c 是为专用目的设计的,当设计成型并且流片成功就不能改动,所以在设计中 当算法因故需要改变时就要设计者重新设计芯片和硬件电路。当a s i c 里存在硬件设计 的错误时,并且在投入生产前未能发现的话,唯一解决的办法是把产品回收,而这样做 的后果往往是芯片商付出沉重的经济代价。a s i c 极低灵活度往往使其局限于非常有限 的应用中并容易产生性能瓶颈,因此由a s i c 构建的图像处理系统,缺乏灵活性。 ( 4 ) 数字信号处理器f 4 】。数字信号处理器( d s p ) ,是专门为快速实现各种数字信号处 理算法而设计的、具有特殊结构的微处理器,通常使用c 语言进行编程,其处理速度可 达到2 0 0 0 m i p s ,比最快的c p u 还快l o 5 0 倍。数字信号处理器的内部采用专用硬件实 现一些数字信号处理常用的运算,所以它进行这些运算速度非常快。如乘n ( m a c ) 运算 大连理工大学硕士学位论文 只需要一个时钟周期。但是从根本上来说,d s p 只是对某些固定的运算提供硬件优化, 其体系仍是串行指令执行系统,并且这些固定优化运算并不能够满足众多算法的需要, 这使得它的使用受到限制。v i s i c o m 公司的一份技术报告指出在中值滤波实现中,d s p 处理器需要6 7 个周期完成该算法,采用f p g a 器件只需要运行在2 5 m h z ,因为f p g a 可并行实现该功能,而d s p 要达到同样的性能则需要运行在超过1 5 g h z 的频率。在这 一特定的应用中,f p g a 解决方案比一个1 0 0 m h z 的d s p 处理器要强大约1 7 倍。 ( 5 ) 现场可编程门阵列。现场可编程门阵列( f p g a ) 器件是当今运用极为广泛的可编 程逻辑器件,也被称为可编程a s i c 。f p g a 器件在结构上具有逻辑功能块排列,可编 程的内部连线连接这些功能模块来实现一定的逻辑功能。f p g a 器件的功能由逻辑结构 的配置数据决定。工作时,这些配置数据存放在片内的s r a m 。使用s r a m 的f p g a 器件,在工作前需要从芯片外部加载配置数据,配置数据可以存储在片外的e p r o m 或 其他存储体上,设计者可以控制加载过程,在现场修改器件的逻辑功能,即所谓现场编 程。利用它用户不仅可以方便地设计出所需的硬件逻辑,而且可以进行静态重复编程和 动态系统重配置,使系统的硬件功能可以像软件一样编程来修改,从而可以实时地进行 灵活而方便的更新和开发,大大提高了系统设计的灵活性和通用性。与此同时,f p g a 自身也在迅速发展,其集成度、工作速度不断提高,包含的资源越来越丰富,可实现的 功能也越来越强。 f p g a 能在设计上实现硬件并行和流水线( p i p e l i n e ) 技术,而这些都不能在d s p 上实 现。因此,对于实时图像处理而言,与本质上仍然是依靠串行执行指令来完成相应图像 处理算法的d s p 系统相比,f p g a 有很强的灵活性,可以根据需要进行重构配置,有较 强的通用性,适于模块化设计。同时其开发周期短,系统易于维护和扩展,适合实时的 信号处理,能够大大地提高了图像数据的处理速度,达到了系统的实时性要求,因此采 用f p g a 器件是个不错的选择。 自2 0 世纪8 0 年代中期x i l i n x 公司推出其第一款f p g a ( f i c l dp r o g r a m m a b l eg a t e a r r a y s ) 以来,可重构计算技术逐渐受到人们的重视。可重构硬件可以通过改变内部配置 实现不同算法,它既有接近于a s i c 的速度,也有接近于通用可编程处理器的灵活性, 是灵活性和速度之间的一个折中。这就使得图像处理算法在可重构计算上的应用成为可 能 5 1 。 一个典型的可重构计算系统由一个或多个处理器和可重构功能单元阵列组成。处理 器执行串行或非关键代码,而能够有效地映射到硬件的代码均在可重构阵列上运行。最 早出现的可重构媒体处理器是由f p g a 实现的。f p g a 的重构基本元素是逻辑门、触发 器和连线,它允许设计者使用门级的器件,因此尤其适用于处理复杂的位计算。像定制 面向图像处理的可重构计算系统结构 的专用集成电路一样,映射到可重构阵列上的应用可以有效地利用硬件带来的并行性。 同时,嵌入式设计者能够在可重构阵列上得到功能单元和存储单元恰当的组合,从而可 以提供满足不同应用的计算结构。与a s i c 不同的是,不必为不同的应用设计不同的可 重构阵列,这就意味着可重构计算系统能够减少a s i c 实现时的设计时间。另外可重构 阵列的功能单元可以改变,随着嵌入式系统使用环境的改变,功能单元可以很快地匹配 新的环境。比如,使用可重构阵列的设备在某种模式下可以实现大量矩阵乘运算,在另 一种模式下,又可以实现大量的信号处理。 1 3f p g a 的发展现状 今年是f p g a 发明2 0 周年,去年是晶体发明6 0 周集成电路平面工艺发明5 0 周年。 在这几十年,尤其是f p g a 发明的二十几年内,集成电路产业得到了快速的发展。2 0 0 6 年x i l i n x 和a l t e r a 公司采用6 5 r i m 技术分别推出了最先进的f p g a 系列,v i r t e x 5 系列 和s t r a t i x 3 系列。f p g a 发展主要有以下几个方向: ( 1 ) 规模越来越大,集成度越来越高。早期的f p g a 规模只有几千门,2 0 0 6 年5 月 份,x i l i n x 公司推出世界上第一个6 5 n mf p g a 系列v i r t e x 5 。基于6 5 r i m 三极栅氧化层 技术、1 l 层铜布工艺、低k 材料、新型镍硅自对准技术、新型e x p r e s sf a b r i c 技术和 a s m b l 架构,可以提供3 3 0 ,0 0 0 逻辑单元( 可编程逻辑门约6 6 0 万门) 和1 2 0 0 个用户i o 。 ( 2 ) 速度不断提高,性能不断提升。x i l i n x2 0 0 6 年推出的v i r t e x 5l x 性能和利用率 很高,同时功耗大幅度降低。v i r t e x 5l xf p g a 比一代9 0 r i mf p g a 提供高出3 0 的性 能,少占用4 5 的硅片面积,以及提供比上一代9 0 r i mf p g a 低3 5 的业界最低动态功 耗。v i r t e x 5l x 系列还通过性能优化的口块拥有了5 5 0 m h z 时钟频率。高性能s e l e c t l o 特性提供了到6 6 7 m b p sd d r 2s d r a m 和1 2 0 0 m b p sq d r i is r a m 等外部存储器的最快 连接。a l t e r a 公司于2 0 0 6 年1 1 月份推出s t r a t i xi i i 的6 5 n m f p g a 系列,比前一代器件 快2 5 ,密度是前一代f p g a 的2 倍,功耗降低了5 0 ,支持四十多个i o 接口标准, 具有业界一流的性能、灵活性和信号完整性。 ( 3 ) 口库的利用。当前具有p 内核的系统级f p g a 的开发主要体现在两个方面:一 方面是f p g a 厂商将i p 硬核( 指完成版图设计的功能单元模块) 嵌入到f p g a 器件中;另 一方面是大力扩充优化的p 软核f 指利用h d l 语言设计并经过综合验证的功能单元模 块) ,用户可以直接利用这些预定义的、经过测试和验证的口核资源,有效地完成复杂 的片上系统设计。 ( 4 ) 价格越来越低。f p g a 市场的激烈竞争推动了价格的不断下调。基于s r a m 的 f p g a 的价格下降很快,每l 万门的单价在2 0 0 4 年底降至1 美元,到2 0 0 5 年降至0 5 大连理工大学硕士学位论文 美元。a l t e r a 公司于2 0 0 5 年第二季度开始批量生产的低端f p g ac y c l o n e l i ,其约3 3 万 门的产品将以2 2 美元的价格供货。相当于每一万门的单价为o 6 5 美元左右。 ( 5 ) 向可编程系统芯片( s o p c ) 方向发展。可编程系统级芯片具有a s i c 的高集成度、 低功耗、小尺寸、低成本的优点,同时具有f p g a 的低风险、灵活和快速上市的优点。 a l t e r a 推出的支持新款c y c l o n ei if p g a 系列的n i o si i 嵌入式处理器,允许设计者在很 短的时间内构建一个完整的可编程系统芯片,风险和成本比中小规模的a s i c 小。实现 s o p c 主要有两种途径,一种是在f p g a 中嵌入专用功能的口核,实现s o c 的功能,另 一种是将可编程逻辑i p 核嵌入到s o c 中。 1 4 基于f p g a 的可重构技术 1 4 1 可重构技术发展过程 最早的可重构计算机出现在2 0 世纪6 0 年代早期,是由u c l a 大学( u n i v e r s i t yo f c a l i f o r n i aa tl o sa n g e l e s ) 的g e r a l de s t r i n 提出并设计实现的固定+ 可变结构计算机( f i x e d p l u sv a r i a b l e f + vs t r u c t u r ec o m p u t e r ) ,其核心是一个不可更改的可编程处理器和一个可 更改的数字逻辑组件。f + v 体系结构及其软件系统成为现代可重构计算系统原型。限于 当时的技术条件,e s t r i n 只实现了一个粗糙的原型系统,但这种结构奠定了以后可重构 计算系统的核心基础。 随着微电子技术的进步,尤其是可编程器件在容量上不断增大,性能不断提高,以 及电子设计自动化( e l e c t r o n i cd e s i g na u t o m a t i o n ,e d a ) 技术的发展,可重构计算技术逐 渐投入实际应用,由原型系统演变为实际应用系统,并在各种应用场合表现出优越性能。 作为可重构计算的关键技术,早期f p g a 的成功应用当属a s i c 逻辑仿真。可重构计算 技术在高性能计算领域一个成功应用例子是s p l a s h2 ,在遗传学方面基因组分析的应用 中,它比当时的s p a r c l 0 工作站的运算速度整整快了2 5 0 0 倍;若做灰度图像的中值滤 波器,则比s r a r c l 0 快几乎1 4 0 倍。在近年的研究中,可重构计算技术在媒体处理、 信息安全、通信等计算密集的应用领域得到了广泛应用【6 】。 1 4 2 可重构技术应用前景 在当前的图像处理系统中,大量使用了通用处理器和专用集成电路实现关键功能。 可重构计算技术的出现为图像处理应用提供了另一个高效灵活的选择。与传统的采用通 用处理器和专用集成电路的图像处理系统相比较,利用可重构计算技术的系统具有以下 优点: ( 1 ) 高性能与高灵活性的结合 面向图像处理的可重构计算系统结构 可重构计算系统将微处理器的灵活性和a s i c 的高效性结合起来,其硬件不是静态 不变的,可以适应于更多的应用。通过这种自适应硬件,可重构处理器可以在比微处理 器具备更高效率的同时,取得比a s i c 更高的灵活性。表1 1 是可重构计算系统,通用 处理器和a s i c 器件在实现算法时,各方面的特性比较。由表1 1 可见,可重构系统填 补了传统软硬件之间的鸿沟,兼具有硬件系统的高性能和软件的灵活性,为计算任务的 实现提供了新的选择方案。 表l1a s i c 、可重构系统和通用处理器的比较 t a b 1 1t h ec o m p a r i s o na m o n ga s i c r e e o n f i g u r a b l es y s t e ma n dg e n e r a lp r o c e s s o r ( 2 ) 低能耗特征 在传统的处理器计算模式中,大量的能耗耗费在指令的取指、译码过程中:a s i c 模式则因为在硬件电路的设计过程中针对特定应用进行充分优化,具有较低的能耗损 失。在可重构计算系统中,能耗最高的计算核心部分转移到了可重构逻辑器件上执行, 减轻了通用处理器的负担,减少了相关的能耗。应用在可重构逻辑器件上执行时,可重 构逻辑器件还可以利用自己的器件特性做调整来达到减少系统能耗的目的。例如,在现 有的商业化可重构逻辑器件中,芯片上同时存在着多个时钟域,不同的时钟域可以具有 各自的时钟频率。可重构逻辑器件能够为芯片上用于执行应用的那部分资源提供高的时 钟频率以提高性能,同时可以将其他闲置部分的时钟频率降低以降低能耗,甚至有的器 件可以利用门控时钟对芯片上没有在执行计算任务的部分给予断电处理,进一步降低整 个系统的能耗损失。 ( 3 ) 容错特性 因为可重构逻辑器件的可重构特性为错误的检测、诊断提供了方便。同时,可重构 逻辑器件拥有大量的可重构逻辑资源,又为错误的掩盖、修复提供了基础。当可重构逻 辑器件上出现错误,导致系统故障的时候,可以将可重构逻辑器件上的一部分配置为测 大连理工大学硕士学位论文 试模式发生器,对器件上的某些区域做测试,同时还可以利用器件上的其他资源对测试 结果进行分析,以得到具体的错误信息。一旦将错误定位后,可以采用对可重构逻辑器 件重新配置的方法,避开产生错误的芯片区域,利用其周边的其他可重构逻辑资源组合 替代原本在出错区域上实现的功能。可重构计算系统的高容错性和极强的可靠性满足了 恶劣的工作环境对计算系统的苛刻要求,因此当前在航空航天军事等领域对可重构计算 系统的需求逐渐增大。 可以看到,可重构计算技术非常适合应用于图象处理系统中,是实现图象处理的一 种新的解决方案。 1 5 本文的主要工作和论文的组织结构 本文详细的讨论了一种粗粒度可重构计算的体系结构,l e a p 体系结构,该结构直 接针对以循环为核心的图像处理算法在运行时的特征,具有简单的处理单元,并通过灵 活的重构机制达到结构与计算的最优结合。在此基础上,本文对三种图像处理算法在 l e a p 结构上进行了硬化,并对其中的硬件映射进行了深入的分析和改进,取得了较好 的图像处理效果。 本文的研究内容主要包括以下几个部分: ( 1 ) l e a p 体系结构。l e a p 体系结构是一个加速循环执行的可重构体系结构,这是 在以往的阵列处理器体系结构研究成果上进一步研究提出的新型结构,其主要部分是处 理单元阵列,处理单元的设计影响整个计算性能。 ( 2 ) 循环自动流水化技术。研究循环流水化的特点以及l e a p 结构在硬件上如何保 证从高级语言到体系结构的直接映射,讨论循环与流水线的直接关系,研究循环自动流 水化技术的实现。 ( 3 ) 基于f p g a 的l e a p 原型设计和算法映射。研究如何针对f p g a 的特性进行原 型设计,讨论了如何将图像处理算法映射到结构上并充分利用结构的特性进行数据重 用。对传统算法,针对结构特征以及f p g a 的特点进行了优化和改进,使得处理速度有 了大大提高。最后对图像处理算法的应用进行了性能分析和比较。 全文的组织结构如下: 第1 章绪论部分,主要介绍了基于图像处理算法的可重构计算的研究背景。在分析 了图像处理算法特点以及发展现状的基础上,结合可重构计算的发展,提出了本课题研 究的意义。 第2 章可重构体系结构,主要介绍了可重构计算系统的分类和几种典型的可重构系 统,对可重构系统的研究现状进行了回顾和总结。在此基础上,介绍了l e a p 体系结构, 面向图像处理的可重构计算系统结构 详细描述了l e a p 体系结构的组成、主要特点以及处理单元。并讨论了循环自动流水化 技术在图像处理算法上的应用,说明了它的数据驱动架构的优越性。 第3 章图像处理算法介绍及分析,主要选取了图像处理中的三种算法分别是中值滤 波算法、s o b e l 边缘检测算法和矩阵乘算法,对每一种算法进行了介绍和分析,并对中 值滤波算法进行了改进,完成了算法优化。 : 第4 章算法实现及性能评测,首先对实现平台进行了介绍,针对l e a p 结构的特点, 对各个图像算法分别进行了硬件映射,介绍了硬件电路实现并给出测试结果。对矩阵乘 算法进行了硬件改进,完成了算法优化。通过对不同研究平台上的算法实现进行比较分 析,证明了l e a p 结构在以循环为核心的图像处理算法硬化上的正确性和优越性。 第5 章结论部分,对全文的工作做了总结,并给出了对未来工作的设想。 大连理工大学硕士学位论文 2 可重构体系结构 所谓可重构计算是指基于可改变的硬件,而且是可动态改变的硬件,以硬件适应算 法( e p 可重构特性) 、硬件定制和硬件并行的方式实现计算。 可重构计算的最大特点是可重构的特性,即硬件可改变,而且可动态改变。可重构 计算的计算模式是硬件适应算法,是介于冯诺依曼结构算法适应硬件和专用硬件固定算 法之间的第三种计算模式。 可以从以下四个方面来理解可重构计算的定义: ( 1 ) 可重构( r e e o n f i g u r a b l e ) 。可重构是指硬件可以改变,这是一个相对于软件的新 的概念。 ( 2 ) 动态( r u n - t i m eo rd y n a m i c a l l y ) 。动态可重构是指硬件不仅可以改变( 可重构) 一 还可以容易地改变,从而可以快速实现多次改变。可重构和动态可重构合起来就是文献 中适应性计算( a d a p t i v ec o m p u t i n g ) 的概念。 ( 3 ) 并行( p a r a l l e l i s m ) 。可重构计算实现算法是硬件直接实现,硬件具有天然的并行 性,这是硬件实现算法具有高性能的原因之一。 ( 4 ) 定锘u ( s p e c i a l i z a t i o n ) 。可重构计算实现算法可以实现高度的定制化,可以在位级, 也可以在a l u 、m a c 的单元级,实现算法是高效的,这是r c 具有高性能的又一个原 因。 可重构的特性使得可重构计算具有软件的灵活特性,具有很好的通用性。并行和定 制使得可重构计算具有硬件的特性,又具有很好的性能。 2 1可重构技术概述 典型的可重构计算系统由一个或多个处理器、可重构单元阵列和多个存储器组成, 处理器运行不能在可重构阵列上有效实现的操作,比如数据相关控制和可能的存储器访 问。 可重构计算系统是一种新的计算系统范例,它的架构介于通用处理器和a s i c 之间。 图2 1 是基于三种技术的处理器结构。传统的处理器采用固定的结构,应用程序通过编 译映射为一系列按时间顺序执行的控制指令,数据在指令序列的调度下通过j 6 儿u 或f p u 等通用计算单元来完成计算。a s i c 则使用专门的功能单元( 如加法器、乘法器等) ,通过 将应用程序直接映射成逻辑电路来实现计算任务,相当于计算的空间展开,原始数据顺 序流过逻辑电路就得到相应处理,形成最后的计算结果。可重构计算综合了二者长处, 通过对可重构设备( 主要为硬件) 进行配置,使之由一个通用的计算平台转化为一个专用 面向图像处理的可重构计算系统结构 的硬件系统,以完成具体的计算任务,相当于计算任务同时在时间和空间上展开,兼顾 灵活性和计算高性能【7 1 。 图2 1 基于三种计算技术的处理器结构 f i g 2 1 t h ep r o c e s s o rs t r u c t u r e so ft h r e ec o m p u t a t i o nt e c h n o l o g y 2 1 1 可重构计算系统分类 就目前来说可重构系统的历史很短其标准形式还没有形成现有的各种可重构系统, 无论是从重构单元的粒度、重构方式、系统结构等都有极大的不同。可以根据以下三种 方式对可重构计算系统进行大概的分类。 ( 1 ) 按重构的粒度划分 粒度是指可重构系统中映射工具可以寻址的最小的处理单元数据通路的宽度。根据 粒度分类,可重构系统可以分成粗粒度可重构系统和细粒度可重构系统。 细粒度系统具有较高的灵活性,重构单元的粒度较小,仅为元件级的重构,即 重构肘仅改变若干元件的逻辑功能,连线资源的分配状况不作修改,几乎可以实现各种 硬件结构,f p g a 便是典型的结构。但是,细粒度系统是以牺牲性能来换取灵活性,所 以使用细粒度的单元构成较大规模的功能模块时会增加系统的延时。 粗粒度系统一般布线资源较少,单个处理单元就能实现较复杂计算,效率较高, 但是,使用粗粒度单元实现位级操作或者不规则位计算时,远不如细粒度系统灵活,资 源利用率也会大大降低【s 】。 ( 2 ) 按配置模式划分 通常,可重构系统通过将配置字( 或配置比特流) 下载到器件上进行配置。配置的速 度和方法取决于器件的接口形式和配置实现方法。配置的时间一般正比于配置信息量, 因此,细粒度系统常比粗粒度系统需要更多的配置时间,这是由于粗粒度系统需要的配 置信息较少。配置时间带来了系统启动的延迟,对于实时性要求高的系统,这个启动延 二f , 3 9 理工大学硕士学位论文 迟需要被限定在一个可容忍的范围内,因此,如何将可重构单元进行分块配置和运行时 配置也是要关注的问题。为了提高系统的配置速度,研究者们提出了多种配置方法,根 据系统的配置模式,可以将可重构系统分成静态可重构系统和动态可重构系统两大类 别。 静态可重构系统。静态可重构系统是指系统配置和系统运行不可重叠,每次更 改配置,系统必须停下当前工作,然后对整个芯片重新进行编程。因为每次都需要对整 个系统进行配置,因此,这种系统又称作单上下文系统( s i n g l ec o n t e x t ) 。静态可重构系 统特点是结构比较简单,降低了硬件设计的复杂度,但是,它的重构代价太大,特别是 在只需要对系统一小部分进行更改的情况下,仍要系统停止工作,对整个芯片重新编程, 这对于一些实时性要求高的应用是不能容忍的。目前大部分f p g a 都是静态可重构系 统,如x i l i n x4 0 0 0 系列,x i l i n xv i r t e x i i 系列【9 】,a l t e r af l e x l o k 系列等。 动态可重系统。为了降低可重构系统的配置时间,研究者们提出了动态可重构 系统。动态可重构系统分成两种一动态全重构系统和动态部分可重构系统。动态全重构 系统又称为多上下文系统( m u l t ic o n t e x t ) ,更改这类系统的配置时,仍然需要对整个系 统重新编程,但是,由于这类系统带有片上配置缓存,可以将配置信息预先存储于配置 缓存中,重构时,配置信息直接从配置缓存中取出送入处理单元中,通过这种上下文高 速切换的方式,大大提高了配置速度,使得系统中断执行的时间很短,因此称作动态重 构。部分可重构系统则是在多上下文系统基础上的又一次性能提升,部分可重构系统允 许只对可重构器件的一部分进行配置,此时,另部分可以继续执行任务。这种机制既 可以减少配置的数据,又可以提高配置速度,将配置时间和系统执行时间重叠起来,可 以满足某些实时性要求高的应用。但是,部分可重构系统控制逻辑复杂,同时,对开发 工具提出的要求较高,如何对任务进行合理的划分,得出较优化的结果使得相邻任务重 构代价较小,是一个值得研究的问题。x i l i n x6 2 0 0 是一款支持部分动态可重构的f p g a 芯片。 ( 3 ) 按系统结构划分 按照可重构系统的结构,可以分为不规则型、流水线型和处理器集成型等。 不规则型的可重构系统中,部件之间没有统一、严格的组织形式,结构比较随 意。根据客观要求不同,系统可采用不同的结构,性能也各不相同。较早期的可重构系 统一般都采用这样的形式。 流水线型,就是系统的主要部件以流水线的形式协同工作。流水线的每一级或 其中若干级是可重构的部件,能根据需要改变结构,从而改变流水线的功能。这主要被 应用在先进先出的数据流的处理上,比如数字滤波、压缩解压、加密解密等。 面向图像处理的可重构计算系统结构 处理器集成型,就是把可重构部件集成到微处理器中,以扩展微处理器的功能。 在早期的这类系统,可重构部件充当处理器中运算单元的角色,也就是用可重构部件作 为算术处理单元( a l u ) 的扩充。但这样的扩展形式产生的处理器性能的提升并不大。另 一种形式是将可重构部件独立于处理器的原流水线之外,使其既能在处理器流水线之外 进行独立的运算,又能通过扩展的特殊指令实现与处理器内核的通讯。这样的改进使处 理器集成型的可重构系统性能大大提高。 2 1 2 典型的可重构系统 可重构计算技术近些年来得到了大力发展,国外很多研究机构都提出并设计了相应 的可重构计算系统。 ( 1 ) p a d d i 是u cb e r k e l e y 在19 91 年提出的一种v l r w ( v e r yl o n gi n s t r u c t i o nw o r d ) 静态可重构计算机研究计划,主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年反射疗法师大赛理论考试彩蛋押题参考答案详解
- 民生银行成都市双流区2025秋招笔试专业知识题专练及答案
- 农发行安庆市太湖县2025秋招笔试性格测试题专练及答案
- 农发行永州市零陵区2025秋招数据分析师笔试题及答案
- 2025年贵州铜仁市思南县事业单位招聘114人方案笔试模拟试题及答案详解1套
- 驾驶校车考试题目及答案
- 嘉兴二模考试题及答案
- 家政保洁考试题目及答案
- 民生银行潍坊市青州市2025秋招笔试英文行测高频题含答案
- 农发行北京市丰台区2025秋招英文面试题库及高分回答
- 风力发电机自动消防系统
- 公益性岗位业务培训课件
- 屋顶分布式光伏发电项目施工组织设计
- 学校安保培训课件
- 2025年湖北武汉理工大学管理人员招聘笔试模拟试题及参考答案详解
- 第4课 科技力量大 第三课时(课件)2025-2026学年道德与法治三年级上册统编版
- 异常处理管理办法
- 2025年东风校招测评题库及答案
- 怎样合理减肥健康教育
- 音乐核心素养培训课件
- 企业营销管理培训课件
评论
0/150
提交评论