(电路与系统专业论文)基于wishbone总线的图像处理芯片前端设计与实现.pdf_第1页
(电路与系统专业论文)基于wishbone总线的图像处理芯片前端设计与实现.pdf_第2页
(电路与系统专业论文)基于wishbone总线的图像处理芯片前端设计与实现.pdf_第3页
(电路与系统专业论文)基于wishbone总线的图像处理芯片前端设计与实现.pdf_第4页
(电路与系统专业论文)基于wishbone总线的图像处理芯片前端设计与实现.pdf_第5页
已阅读5页,还剩89页未读 继续免费阅读

(电路与系统专业论文)基于wishbone总线的图像处理芯片前端设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于w i s h b o n e 总线的图像处理芯片 前端设计与实现 专业:电路与系统 硕士生:凌国俊 指导老师:黄以华副教授 摘要 随着数字图像处理技术的发展,如今图像处理的硬件系统广泛应用于数字电 视、医学成像、消费电子等领域当中。但传统的硬件设计方法有着开发周期长、 成本高、缺乏灵活性、难以满足特定的要求等缺点。 针对上述问题,在详细分析设计成本和系统性能的基础上,本文提出了一个 低成本的图像处理芯片设计方案。该芯片设计基于a l t e r a 公司c y c l o n e i i 系列的 e p 2 c 8 。芯片将被设计为一个命令解释和数据处理中心,能与高性能的a r m 9 互连,构建一个图像处理平台。当中,a r m 9 负责传送的命令包和图像数据,而 芯片则对命令包进行解释,并执行相应的图像处理。处理后的图像数据将通过一 个c i 玎显示出来。 为了验证该芯片的性能,本文按照上述搭建了一个仿真平台。该平台上包括 三星公司的s 3 c 2 4 1 0 x ,a l t e r 公司的f p g ae p 2 c 8 以及n a n df l a s h , s d r a m ,a d v 7 1 2 3 等外围器件。平台的总体架构是a r m 9 芯片与f p g a 芯片 互连。a r m 9 是作为一个数据源,f p g a 作为一块图像芯片,对数据进行处理。 f p g a 接收到数据后,首先放在相应的s d r a m 位置中,接着芯片架构上的命令 解释器( c l ) 对数据包分别进行命令解释和图像处理,并且把处理后的数据 放回s d r a m 中的显存位置。与此同时,芯片架构上的v g a 控制器( v c m ) 则 不停地在显存区域中读取数据,图像将通过一个c r t 显示器显示。 目前整个仿真平台已经搭建完成,并且该芯片架构中的a r m 接口,s d r a m 控制器,v g a 控制器,c r m 模块( 命令解释与图像处理) 以及片上仲裁器已经 基于w i s h b o n e 总线的图像处理芯片前端设计与实现 得到板上验证。实际的测试中,芯片能接收来自a r m 的数据,进行基本的图像 处理,并得到相应的输出结果。该结果表明,本芯片能较好地满足图像处理的基 本要求。 关键词:w i s h b o n e ;图像处理;f p g a ;a r m a b s t r a c t t h ef r o n t - e n dd e s i g na n d i m p l e m e n t a t i o no f a ni m a g ep r o c e s s i n gc h i pb a s e do nw i s h b o n e m a j o r : n a m e : c i r c u i ta n ds y s t e m g u o - j u nl i n g s u p e r v i s o r :a s s o c i a t ep r o f e s s o ry i h u ah u a n g a bs t r a c t w i t ht h ed i g i t a li m a g ep r o e e s s i n gt e c h n o l o g yr a p i d l yd e v e l o p m e n t ,t h eh a r d w a r e s y s t e mo fi m a g ep r o c e s s i n gn o w i sw i d e l yu s e di nd i g i t a lt e l e v i s i o ns y s t e m s ,m e d i c a l i m a g i n g ,a n d c o n s u m e re l e c t r o n i c s h o w e v e r , t h et r a d i t i o n a lh a r d w a r e d e s i g n m e t h o d sh a v es u c hd i s a d v a n t a g el i k e :al o n gd e v e l o p m e n te y c l e ,t h eh i g hc o s t ,l a c ko f f l e x i b i l i t y , d i f f i c u l tt om e e tt h es p e c i f i cr e q u i r e m e n t s t ot h e s eq u e s t i o n s ,c o n s i d e r i n gt h ed e t a i l e da n a l y s i so ft h ed e s i g nc o s t sa n d s y s t e mp e r f o r m a n c e ,t h i sp a p e rp r e s e n t sa l o w - c o s ti m a g ep r o c e s s i n gc h i pd e s i g n t h e c h i pd e s i g ni sb a s e do ne p 2 c 8w h i c hi so n eo ft h ep r o d u c t so fa l t e r ac o r p o r a t i o n c y c l o n e l is e r i e s i no r d e rt ov e r i f yt h ef u n c t i o no ft h ec h i p ,as i m u l a t i o np l a t f o r mi sd e s i g n e di n t h i sp a p e r t h i sp l a t f o r mi n c l u d e ss a m s u n g $ 3 c 2 410 x ,a sw e l la st h ep e r i p h e r a l d e v i c e s ,l i k e :n a n df l a s h ,s d r a ma n da d v 712 3 h e r e ,a r m 9b e c o m e sad a t a s o u r c e ,i no r d e rt os e n dt h ed a t aa n dc o m m a n d st ot h ef p g a a n dt h ec h i p a r c h i t e c t u r ei sd e s i g n e di nf p g a w h e nt h ef p g ar e c e i v e st h ed a t a , f i r s t l yi tp u t s t h e mi nt h es d r a m a n dt h e nt h ec r m ( c o m m a n dr e n d e r i n gm o d u l e ) w h i c hi s p a r to ft h ec h i pa r c h i t e c t u r et r a n s l a t et h ec o m m a n di n t oi m a g ep r o c e s s i n go p e r a t i o n t h ed a t at h a ti sd e a l tw i l lb es e n tb a c kt os d r a mm e m o r y a n da tt h i st i m e ,t h ev g a c o n t r o l l e rw i l lg e tt h em e m o r yd a t at od i s p l a yc e a s e l e s s l y 基于、竺些堕旦! 璺垡竺里堡竺里堇丛堑堂堡盐皇壅墨 a tp r e s e n t , t h ew h o l es i m u l a t i o np l a t f o r mi sc o m p l e t e d a l s ot i l ea r mc h i p i n t e r f a c e s d r a mc o n t r o l l e r , v g ac o n t r o l l e r , c i 洲m o d u l e ( c o m m a n dr e n d e r i n g a n di m a g ep r o c e s s i n g ) 觞w e l la st h ea r b i t e rh a v eb e e nv e r i f i e d ,a n dt h ec h i pn o w c a n n mo nt h eb o a r d ,i no r d e rt og e tm eo u t p u ti m a g e sw h i c hh a v eb e e np r o c e s s e dt h r o u g h ac r t t h et e s tr e s u l t ss h o wt h a tt h ec h i pc a l lm e e tt h eb a s i cr e q u i r e m e n t so fi m a g e p r o c e s s i n g k e yw o r d s :w i s h b o n e ;i m a g ep r o c e s s i n g ;f p g a ;a r m i v 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:? 幻訇後 日期:2 0 哆年岁月工- 日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入 有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。 学位论文作者签名:3 妻j 要傻 日期:2 0 罗年广月,j 日 导师签名:t 参乃尹 日期:砷年,月i - 日 第l 章引言 第1 章引言 1 1 研究背景及意义 目前,图像处理技术被广泛地应用于数字电视、医学成像、消费电子、检测 测量、汽车电子等领域。本文希望通过f p g a 设计一个图像处理芯片的框架,使 得它配合删的控制,达到对画面处理的效果。由于该框架是基于w i s h b o n e 总线,在f p g a 上面实现的,所以它具有延伸性和可行性。当中,该框架包括数 据调入与存储,命令解释,图像处理与显示。 本文的芯片架构将用于图像处理。数字图像处理( d i g i t a li m a g ep r o c e s s i n g ) 是运用计算机抽离一幅图像的数据,并对它进行各种处理,如放大、缩小、旋转 等,从而达到要求的效果【i 】。对于图像来说,大多是二维数据,以二进制表示, 信息量较大。对于一幅6 4 0 4 8 0 的2 4 位彩色图像,就需要9 2 1 6 0 0 个字节来存 储。如果把这副图像制作为1 秒的视频,以6 0 帧s 的速度计算,则需要在一秒 中处理5 4 0 0 0 k 个字节。要处理如此庞大的一个数据量则需要处理速度较为可观 和存储单元较大的计算机。如今,图像算法的处理可以既能使用软件,也能使用 硬件实现。当成本因素为主导时,开发者会采用软件来实现大部分操作;而当速 度成为主导因素时,选用硬件处理则较为合适。所以在图像实时性要求比较高的 场合中,对于图像处理部分会独立处理,采用硬件解决的方法,对该处理形成一 个硬件结构。 本文所提出的芯片架构就是从硬件上实现图像处理操作。此外,本文还为此 搭建了一个测试平台,使得该芯片架构能被验证。本设计的研制成品能应用于消 费电子产品,如游戏机平台,达到较高的性能要求,并能大幅度地降低现有产品 的价格。 1 2 国内外研究现状 目前几种图像处理的硬件实现方法【2 1 :( 1 ) 专用集成电路( 2 ) 数字信号处 理器( 3 ) 现场可编程门阵列( 4 ) 专用视频图像处理芯片。 基于w i s h b o n e 总线的图像处理芯片前端设计与实现 ( 1 )专用集成电路( a s i c ) 专用集成电路是为某一具体应用而专门设计的i c 。与购买的现货供应的成 品i c 不同,a s i c 能够按照设计要求进行设计和制造【3 j 。它将根据用户的要求或 者产品的需求,将一些常用的信号处理算法( 如f f t 、卷积相关等) 嵌入到芯片 内部,实现特定的功能。a s i c 的产生是相对于通用数字集成电路来说的。后者 的通用性与批产使得成本的降低。随着电路的规模变大,搭建的系统就很难针对 用户的特殊要求而改变。而a s i c 的出现则是解决这一问题,它为了满足现今部 分电子通信产品的特殊性和速度性。当一些图像处理算法难以采用通用处理器和 d s p 满足其速度要求时,则必须采用专用集成电路来实现1 2 j 。由此可见a s i c 在 众多方案中最快的,算法实现方面是最快的。但是由于a s i c 的专用性,这使得 它有以下缺点【4 】:开发周期长。设计从前端设计、验证到后端设计、最后成品, 这需要一个较长的时间;成本昂贵。设计的前端需要用f p g a 进行原型验证,后 端设计需要流片,而流片的价格则是相当昂贵;缺乏设计灵活性。由于a s i c 是 为特定用户而设计的,当芯片投产后发现内部有硬件错误时,投产方只能回收产 品,并重复设计的流程以求排除错误。由于a s i c 这几个缺点存在,严重制约了 它的发展,在实际应用当中容易产生瓶颈。这也限制了它在图像处理系统当中的 应用与发展【5j 。 ( 2 )数字信号处理器( d s p ) 数字信号处理器是一种针对于实时数字信号处理操作的特殊形式的微处理 器,如数字滤波器和傅立叶变换( f f t ) 。d s p 具有运行时可被存取的快速硬件 乘法单元。这允许使用硬件对数据执行乘法操作,而这一点在缺少硬件乘法器的 通用处理器上实现是不可能的( 通用处理器通过在软件上使用移位操作和循环加 法操作来执行乘法运算,导致执行速度变慢) 口】。由于数字信号处理器是专门为 信号处理而设计的,所以它在这方面的处理能力特别高,甚至比最快的c p u 还 快上十倍【5 1 。t i 公司推出具有较高处理能力、对外接口灵活、开发工具齐全等特 性的高端系列芯片d s p s t m s 3 2 0 c 6 0 0 0 6 1 ,将被大多数嵌入式图像实时处理系统所 采用。其代表性器件t m s 3 2 0 c 6 2 0 4 的内部频率高达2 0 0 m h z ,采用了超长指令 字结构的核心和修正的哈佛总线结构,每秒可完成1 6 g 次运算,能大大缓解现 有的数据传输与处理速度对系统性能限制6 l 【7 1 。这一新技术使得d s p 在图像处理 2 第1 章引言 领域应用进一步推广。 ( 3 )现场可编程门阵列( f p g a ) 现场可编程门阵列( f p g a ) 也称为可编程a s i c 。对比a s i c ,现场可编程 门阵列灵活性和通用性高很多。用户可以在现场对其进行逻辑功能修改。此外 f p g a 在设计_ k f l 皂实现并行处理【引,因此它对于采用串行指令执行得d s p 来说, 具有灵活性。而且在图像处理的速度上,由于f p g a 是并行处理,它完成同样一 个算法所花的时间比d s p 少。然后由于f p g a 内部是内嵌乘法器单元,而这些 资源是有限的,所以在实现使用较多乘法单元的图像处理算法上,d s p 会较为实 用。此外,f p g a 的通用性较强,相对与a s i c 来说开发周期短、成本低,且易 于维护和扩展,适合实时信号处理。现今,随着电子技术的日新月异,芯片制造 工艺和内部集成度的提高,出现了数百万门的高性能f p g a ,内嵌了微处理器核、 高速i o 等f 9 1 。f p g a 凭借它的这些新的优势,被越来越多的图像处理系统所采 用。 ( 4 )专用标准电路( a s s p ) 专用标准电路( a s s p ) 1 0 l 是通用的标准的器件,应用范围广,可以为图像 处理提供一整套的解决方案,开发成本较低,开发周期较短。a s i c 和a s s p 都是 基于相同的设计流程和制造工艺,但区别在于a s i c 是面向特定的客户,特定的 要求,而后者的目的是出售给多个客户而不是单一的【9 1 。这点的存在( 面向适应 人群的数量) 就使得前者的开发成本昂贵,而后者较低。然后a s s p 也存在着一 些缺点。当新的算法或者标准提出时,a s s p 贝j j 显得升级困难,难以快速地适应 技术的发展【1 0 1 。由于a s s p 相对于f p g a 来说并不是一个可重复编程的器件,当用 户需求改变,市场变化,科技发展,a s s p 只能重新定做,而不能重复利用。这 一点使得它在应用上增加了成本,同时降低了性能。所以市场开始向f p g a 和d s p 的设计方案发展。截至2 0 0 3 年,大约只有5 0 0 0 家的a s s p 设计公司,而相反, f p g a 设计公司则有4 5 万家f 9 1 。 通过以上分析可看出,在图像处理应用系统中,f p g a 和d s p 设计都占有 较大的比例,而且基于这两种方案的系统也较多。而且,如今涌现了一些新的解 决方案,它并不是基于以上四种的某一种技术,而是与微控制器协调,形成一个 功能强大的系统。一般有m c u + d s p ( 1 1 1 ,d s p + f p g a 12 1 ,m c u + f p g a t l 3 1 。本 基于w i s h b o n e 总线的图像处理芯片前端设计与实现 文所采用的验证平台属于m c u + f p g a 。 目前,关于该方面国外的研究有:k a s s ea 等人于2 0 0 6 年提出的“用于超声 波图像处理系统的高效s o c 【1 4 ,w i d ok r u i j t z e r 等人于2 0 0 9 年提出的“智能 图像核的设计【i5 j 。前者的文中提到采用f p g a 做原型验证,在内部嵌入d s p 和a r m 核,增加图像处理速度。该系统能处理1 2 8 条扫描线,而每条扫描线上 有6 4 0 0 样本【i 钔。而后一篇研究则介绍了一种低成本,低功耗智能成像的i p 核。 该i p 核整合了a r m9 处理器,摄像头接口和两个特定的图像处理硬件模块:智 能成像协处理器和运动估计器。该设计能成功的在一块f p g a 原型板上得到验证 1 5 1 o 而目前国内也进行了相关的研究与系统实现。 基于f p g a 实现的图像处理系统分别在付昱强【1 6 1 和王啸林吲两人各自的研 究当中提及。研究中都提供了一个基于f p g a 的低成本图像处理解决方案。其中 前者在论文当中研究了中值滤波、顺序滤波、数学形态学、卷积运算和高斯滤波 等图像处理算法的硬件语言描述,并于此基础上得到一个效果较好的图像输出 【1 6 】。而后者提出的系统采用飞利浦公司的s a a 7 1 1 1 a 、s a a 7 1 2 8 h 以及x i l i n x 公司的s p a r t a ni i 。该系统处理后的图片减少了随机噪声,画面整体感觉较好f 1 7 】。 俞斌【1 8 1 等人提出一个基于t i 公司d s pt m s 3 2 0 c 6 7 11 的图像获取与处理系 统。该系统利用d s p ,配合视频解码器、c p l d 、高速缓存,实现了一个具有较 强实用性的图像处理系统。 基于d s p + f p g a 解决方案的系统在赵振华【i9 1 的研究中提出。当中介绍了并 行系统与并行算法间的关系,并构建了一个基于d s p + f p g a 结构的高性能可重 构数字图像并行处理系统。文中通过与其它架构的对比,分别得到各架构的性能 参数,验证了该系统架构能提高并行算法的执行效率,且有较强的通用性。而吴 作勇【1 3 l 等人则提出了基于a i 洲+ f p g a 的图像处理解决方案。方案集合了a r m 处理器( p 墟5 5 ) 和f p g a ( s p a r t a n 3x c 3 s 1 0 0 0 ) 两者的优势,能较好地 实现图像实时的采集传输和算法处理。 可见,目前的图像处理系统可选用a s s p 、a s i c 或d s p ,但这三种方法都 有各自的缺点:a s s p 缺乏灵活性又难以升级【1 0 1 ;a s i c 开发周期长,成本高【2 0 】; d s p 难以满足特定的需求【2 l 】。鉴于f p g a 开发成本较低和灵活性较高,本文提 4 第l 章引言 出的图像处理芯片架构,将采用f p g a 来进行原型验证。而且为了实现高性能的 图像应用,本设计参考了删+ f p g a 的解决方案,构建了一个高效可靠的硬 件测试平台。考虑后面工作的进行,此处可以把一个a r m 核移植到f p g a 内部, 取替了测试平台上的a r m ,实现一个更高性能的图像处理系统。 1 3 论文的主要研究内容 本文从开发成本和开发周期考虑,以a r m + f p g a 构成的图像仿真平台出 发,提出一个基于w i s h b o n e 总线的图像处理器架构。该架构的特点是功能较强 且结构简单,同时考虑到a r m 的控制功能,并体现了f p g a 的高度集成性,降 低了开发成本,缩短了开发周期,具有灵活性及可升级性【2 2 1 。 该硬件框架为本人从本科阶段开始研究,经过两年多的努力,如今已经把该 硬件模型的在f p g a 上面实现了,并且把配套的a r m + f p g a 仿真验证平台成 功搭建了。本人的主要研究内容如下: ( 1 )实现图像的正常显示:整个平台现能从a r m 中完整的调动一幅图像 的数据到f p g a 中,f p g a 把数据暂存在附属的s d r a m 中,当a r m 发起 启动命令时,f p g a 内部调动图像数据,并在c r t 显示器上显示。 ( 2 )设计高效片上总线:本芯片架构采用w i s h b o n e 总线,实现总线共享方 式,不但具有较高的性能,而且接口简单,对整个系统结构有优化作用。 ( 3 ) 高性能的平台处理器:本平台用于测试芯片架构的是三星公司的 a r m 9 ( s 3 c 2 4 1 0 x ) ,该控制器具有低功耗、高集成度等特点,同时运行速 度快,适合于图像数据运算量庞大的情况。 ( 4 ) 设计合理的仲裁算法:本文将探讨数种仲裁算法,如传统的固定优先 级,轮换优先级,并提出独特的基于博弈论的仲裁思想,对比这几种情况下 的仿真结果,为芯片架构选择一种合适的算法。 ( 5 )设计仿真验证平台的原理图:本研究把要求的平台从理论到实践中实 现出来,并设计f p g a 的下载方式可以通过跳线变为a s 、p s 、j a t g 三种 任意一种进行设计调试,方便易用。 此外,图像处理算法也能进行基本的图像变换。本人在测试平台上面,设想 了处理芯片框架的搭建、原理图的描绘,以及芯片内部的仲裁、命令解释、显示 基于w i s h b o n e 总线的图像处理芯片前端设计与实现 模块,并在此基础上进行了一系列的上板调试、验证,得出了一些较原始的数据 及效果图片。 1 4 论文安排 文章共分六大部分。 第一部分是背景介绍,简述论文的研究背景、和当前的论文贡献; 第二部分介绍了本芯片架构基于的技术和协议; 第三部分阐述了芯片的验证平台,重点分析了板上的器件选择,构造原理图, 以及分析f p g a 的下载方式; 第四部分阐述了本芯片内部的架构,包括五大模块:a r m 控制模块( a c m ) 、 命令解释模块( c l 洲) 、s d r a m 控制模块( s c m ) 、v g a 控制模块( v c m ) 、 仲裁争用模块( 剐 ) 。其中重点的分析了v c m 模块和a r b 模块的设计思路和 技术难点; 第五部分是第四章设计的芯片架构仿真。当中对芯片内部各个模块的r t l 框图和m o d e l s i m 仿真图做了相关的分析,验证了各模块的功能; 第六部分是总结和展望。它总结了全文并提出了进一步完善芯片构造的设计 方向。 6 第2 章f p g a 及w i s h b o n e 片上总线概述 第2 章f p g a 及w i s h b o n e 片上总线概述 本文研究的芯片架构基于w i s h b o n e 片上总线,且采用f p g a 对其进行硬件 实现。下面将简单介绍这两种技术。 2 1f p g a 技术 f p g a ,f i l e dp r o g r a m m a b l eg a t ea r r a y ,即现场可编程逻辑阵列,它是在p a l 、 g a l 、e p l d 等可编程器件的基础上进一步发展的产物。它是作为专用集成电路 ( a s i c ) 领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克 服了原有可编程器件门电路数有限的缺点【2 3 1 。f p g a 一般采用s r a m 工艺,其 集成度很高,从几万f - i n 数千万门。f p g a 的基本组成部分由可编程输入输出单 元,基本可编程逻辑单元,嵌入式块r a m ,丰富的布线资源,底层嵌入功能单 元,内嵌专用硬核等等【2 4 1 。 f p g a 的结构是基于基本可编程逻辑单元( l c ) 的规则阵列和一个包围逻辑 单元的可编程互连矩阵。基本可编程逻辑单元阵列和可编程互连矩阵形成了 f p g a 的核心。它被可编程i o 单元所包围。可编程互连被置于布线通道上。每 一个主要功能( 逻辑单元,可编程互连,可编程i o ) 的具体设计细节因公司不 同而异。例如,x i l i n x 在他们的f p g a 中利用逻辑块作为可重置逻辑块( c l b ) 。 c l b 基于一个或多个的查找表( l u t ) 和双稳。查找表由存储单元( s 洲单 元) 构成【2 4 1 。 2 2 片上总线w i s h b o n e 概述 w i s h b o n es o c 接口结构是基于半导体i p 核的重用设计,而提出的一种片 上总线解决方案。它定义了i p 核之间的标准数据传输,为i p 核的连接提供一个 通用的接口,从而有效的改善系统的便携性和可靠性,缩短了系统的开发时间。 在这拓扑结构下,每个i p 核各自的运作相对独立,外部则通过w i s h b o n e 的接口 7 基于w i s h b o n e 总线的图像处理芯片前端设计与实现 实现互联以及信息的交换。 2 2 1w i s h b o n e 的简介 w i s h b o n e 使用主从部件的架构。每次的数据传输由主部件发起通信,从部 件负责接受通信。从图2 1 w i s h b o n e 总线连接框图【2 2 1 可看出,除了主部件和从部 件还有一个叫s y s c o n ( s y s t e mi n t e r c o n n e c t i o n ) 的模块和i n t e r c o n 的模块。 s y s c o n ,类似于一个仲裁器i n t e r c o n 是主从器件通信进行数据交换时所需 的电路。此处可以用电信交换中“云的概念来描述。 8 图2 1w i s h b o n e 总线连接框图 2 2 2 w i s h b o n e 的连接方式 w i s h b o n e 一共定义了4 种i p 核的互连方式【2 5 】: 点到点( p o i n t t o p o i n t ) ,用于两个口核的直接互连; 数据流( d a t af l o w ) ,用于多个口核的流水作业; 共享总线( s h a r e db u s ) ,多个i p 核共享总线的方式; 交叉开关( c r o s s b a rs w i t c h ) ,能同时连接多个主从部件,可以理解为两套的 第2 章f p g a 及w i s h b o n e 片上总线概述 共享总线同时进行,增强系统的吞吐能力。 本芯片内部实现的是共享总线方式。下面本文将进一步看看有关共享总线的 内容。 2 2 3 共享总线( s h a r e db u s ) 共享总线方式适用于多个主部件和多个从部件的连接。它的结构框图如图 2 2w i s h b o n e 共享总线方式【2 2 】所示。在此拓扑结构当中,一个主部件向目标从部 件发起一个总线周期的请求,从部件接到主部件的握手信号后,响应主部件的请 求,与主部件进行数据交换2 5 1 2 6 】。 总线上挂着多个主部件,当同一时刻有一个以上的主部件发起对总线的请 求,此处就需要一个模块专门去处理这些请求,判断当前时刻允许哪个主部件占 用总线,该模块就是仲裁器。仲裁器犹如一个交通警察一般,它负责调配主部件, 合理利用总线资源。其常用的实现方法是:优先级法和轮换法【2 5 】【2 6 】。 图2 - 2w i s h b o n e 共享总线方式 9 基于w i s h b o n e 总线的图像处理芯片前端设计与实现 第3 章平台结构 芯片架构是建立在如图3 1 所示的仿真平台中。平台由主处理器a r m 与协 处理器f p g a 组成i l3 1 。a r m 是整个平台的控制中心,其任务是向f p g a 发出图 像处理命令和提供待处理图像数据。它外接一片f l a s h ( k 9 f 6 4 0 8 u o c ) 用于存 放图像数据,两片s d r a m ( k 4 s 5 6 1 6 3 2 c ) 用于程序运行;f p g a 提供内部的存 储单元以缓存来自a r m 的命令或图像。它外接一片s d r a m ( k 4 s 6 4 1 6 3 2 h ) 作 为图像处理命令及图像数据的存储空间,一片d a c ( a d v 7 1 2 3 ) 用于完成图像 数据的数模转换并输出给c r t 显示。 f p g ad a c s d r a m ,2s y s s y s r _ s t n c l k = = 怒靛ii j 酣一d t 譬 ;c l o c k4 锄 一b b n k n o- - - - b t a n k n 目 缪。c k 嘲e 4 - i 蜥一s c 戚k e 例细“镯匿 州一l o ( 7 o 】- + r 【9 2 】捌哪 钒镶车j 州_ 9 0 7 o 】_ + 、g 一2 】捌_ 罄船皇i 篱一。a d o 啦r 1 4 m 2 1 】i ” 一 a d _ b 一0 7 o 】_ - - b i g 2 j 捌 匿 。罐= 嚣噩嚣 吧麟e = :笳掣p 0 1 v g a h 一$ y l l c h _ s y n c v g a _ v _ s y e t vs y n cr 昏n w e n c a s e 一i - - - n n w s c e a 5 篙卜_ a a m ”n n w e j i v c m 陵显辫3 z m o 卜- - - - - - - - - n o a t a f ,3 k ;o 】晰【l so 】k ”一如t :- l o 1 $ o 】 g “ s d r a m 缝=:! = :r 7 。”u j c u ( o l q i 一 a r t n c l i t _ i s d c l l o_ 础兹 f l a s h g p c o- - - - + a i m t x d n 1 s d c k e _ o- - - - - + c k e 黟可砑:c l e h 盯1q - 1 _ t p g a b u s y _ os da d o 【1 1 o 】+ a 1 1o 】 $ ,。js db a _ o 1 o 】8 a 【1 o 】 , 隧 l e k 一 l e 1 s d n c s _ o- - _ n c s囊 垆 r ,n b 一r ,n b g l , s 0 1 i n f - t k o- - - - - - n r a s0 嚣m e 一n f 眭 4 s d n c o- n c s壤 p n n w c e e f “一 - - - “e c f f c w e e og e ln w e _ o- + n w e s d d o _ o x 5o 】_ d o t s 0 】 i 隧波五蹦7 “吁一晰【7 寥l ,乞。越。伽氅- 麓黟即艘叩 鲥一d q m _ o 1 。o 】 。- o q t 4 0 一o 】:幺荔 图3 1 系统框图 f p g a 内部集成了s d r a m 控制器,v g a 控制器及图像处理模块,可以进 行图像命令与数据的存取、分析、处理,并向视频接口输出处理后的图像。在下 一章节中,本文将就此平台,提出一个在f p g a 内部实现的,基于w i s h b o n e 总 线的图像处理架构,并进行一系列的分析及验证。 3 1a r m 选择 为了提高整个测试平台的性能、减低功耗,a r m 选择三星的$ 3 c 2 4 1 0 x 。 为了减少系统的成本,$ 3 c 2 4 1 0 x 包含着两个分离的1 6 k b 指令和数据缓存,用 1 0 第3 章平台结构 于管理虚拟内存的m m u ,l c d 控制器( s t n & t f t ) ,n a n df l a s h 启动装载 器,系统管理器( 芯片选择逻辑和s d r a m 控制器) ,3 通道u a r t ,4 通道d m a , 4 通道带有p w m 的计时器,i o 端口,r t c ,8 通道1 0 位a d c 和触摸屏接口, 1 2 c 总线接1 2 1 ,1 2 s 总线接口,u s b 宿主,u s b 器件,s d 宿主& 多媒体卡接口, 2 通道s p i 和时钟产生器p l l t 2 7 1 。 $ 3 c 2 4 1 0 x 是基于a r m 9 2 0 t 核,0 1 8 u mc m o s 标准单元和一个内存编译器。 它低功耗,简单,和全静态设计是对成本和功耗敏感的应用场合特别适用。它采 取一种新的总线结构叫做先进微控制器总线结构( a m b a ) 。此外a r m 9 2 0 t 执 行m m u ,a m b a 总线,和哈佛缓存结构【2 7 1 。 本测试平台a r m 的外围包括s d r a m ,n a n df l a s h ,u a r t ,而且由于图 像数据较大,所以要求a r m 的运行速度也要跟上。选择$ 3 c 2 4 1 0 x 能够降低系 统复杂度( 删内部为s d r a m ,n a n df l a s h 等集成控制器) ,完成图像数据 的实时处理。 3 2f p g a 选择 考虑芯片的成本,以及框架集成度问题,本芯片架构的设计是基于a l t e m 公司的c y c l o n ei i 系列中e p 2 c 8 。该型号芯片能最大限度地满足本文所提出的框 架要求,以及处理的速度要求。下面本文将简单的介绍该系列的相关特性。 表3 - 1 c y c l o n ei if p g a 简介 特性 e p 2 c 5e p 2 c 8e p 2 c 2 0 e p 2 c 3 5e p 2 c 5 0 e p 2 c 7 0 l e4 6 0 8 8 2 5 61 8 7 5 23 3 2 1 65 0 5 2 86 8 4 1 6 m 4 k r a m2 63 65 21 0 51 2 92 5 0 总比特数 1 1 9 8 0 81 6 5 8 8 82 3 9 6 1 64 8 3 8 4 05 9 4 4 3 2 1 1 5 2 0 0 0 锁相环224444 乘法器模块 1 31 82 63 58 6 1 5 0 针对低成本的f p g a 用户,a l t e r a 公司推出基于s t r a t i xi i 的9 0 n m 工艺的低 成本的c y c l o n ei if p g a 。c y c l o n ei i 器件提供了4 , 6 0 8 到6 8 ,4 1 6 个逻辑单元( l e ) , 并具有整套最佳的功能,包括嵌入式1 8 比特x 1 8 比特乘法器、专用外部存储 器接1 2 1 电路、4 k b i t 嵌入式存储器块、锁相环( p l l ) 和高速差分i o 能力【2 8 1 。 基于w i s h b o n e 总线的图像处理芯片前端设计与实现 其的具体特性可见表3 1c y c l o n ei if p g a 简介犯9 1 。 c y c l o n ei i 架构包含超过6 8 k 个纵向排列逻辑单元( l e ) 、嵌入式存储器块、 嵌入式乘法器和锁相环( p l l ) ,它们被i o 单元( i o e ) 包围在中间( 见图3 2 2 9 1 ) 。 高效互连、低歪斜的时钟网络在每个结构之间提供时钟和数据信号连接捌。 锁相 锁相 环 i o 单元 环 _逻 王 逻 荣 逻 王逻 _ o 辑 厶 辑冉辑 厶 辑 o 拯六 潲 阵 天 拯 爿i 阵 焙 阵 滓阵 爿i 列 列 薄 黯 列 列 锁相锁相 环 i o 单元 环 图3 - 2c y c l o n e i i 平面图 e p 2 c 8 ,它延续了c y c l o n e 的低成本定位,在逻辑容量、p l l 、乘法器和i o 数量上较c y c l o n e 都有很大的提高,应用c y c l o n ei i 进行图像处理开发有如下优 点【2 8 】: ( 1 ) 低成本高性能,适应图像处理要求较高的需要。 ( 2 )丰富的内嵌存储器资源,适应大量图像数据存取的需要。 ( 3 )丰富的硬件乘法器,适应图像处理算法的需要。 ( 4 )强大的时钟管理电路,适合与s d r a m ,和c r t 显示时序的精准调节。 3 3 测试平台硬件构造 对于该测试平台的搭建,为了能方便以后测试的进行,本设计大多采用了多 种方式并存,通过跳线的方式来实现各种模式的转换。如f p g a 的配置和a r m 的加载都采用了以上构思。此外平台上面资源丰富,与a r m 相连的是两块3 2m 1 2 第3 章平台结构 的s d r a m 和一块6 4m 的n a n df l a s h 。而f p g a 方面则与一块8m 的s d r a m 相连,足够一幅图像的乒乓存储。下面,本文讲就这几个主要的硬件的部件做一 个较为详细的分析。 3 3 1f p g a 配置方式 f p g a 的配置方式一共有三种【2 4 】:a s ( 主动配置) ,p s ( 被动配置) ,j t a g 方式。当中a s 方式需要用到配置芯片。由于本框架选用的器件是e p 2 c 8 ,考虑 成本和实用性,则该配置芯片型号选用e p c s l 。a s 方式的连接2 9 i 如图3 3 所示: a s荫d 图3 3a s 方式 a s 方式是一种主动式的下载方式。当f p g a 上点后,配置芯片将开始工作。 基于w i s h b o n e 总线的图像处理芯片前端设计与实现 它把器件内部的程序代码主动下载到f p g a 中,无需其它干涉,即可对f p g a 配置成功。 而p s 方式是由a r m 发起对f p g a 的配置,主动权是a r m ,只有当a r m 的配置完成了,f p g a 才进入工作。其原理图如图3 - 4 所示。 u l 图3 - 4p s 方式 p s 方式,顾名思义是一种被动的配置方式,它需要其它器件帮助。上图中, 由于外宿主的存在,使得p s 方式可行。本设计的外宿主为一块a r m 9 芯片。当 器件上电后,a r m 首先完成本身配置,然后根据程序代码,对f p g a 进行配置 复位,完成f p g a 的配置。 最后j a t g 方式1 2 9 j 如图3 5 所示,是主要用于调试。它用于芯片的在线调试, 设计者可以通过软件,利用j a t a 方式,监控芯片的运行情况,观察其波形。这 使得对程序的d e b u g 工作事半功倍。 1 4 第3 章平台结构 v c cv c cv c cv c c g n d j a t a 方式 图3 - 5j a t a 方式 ,口岱l o0 0l a s ( 2 弧旧 p s 融a 辩m 岫 w bw a 嘲嘲 j 2j 3 a s1 2i 2 p s 2 32 3 图3 6f p g a 的配置 = :|l 咝卫啵j 舭o 娜船 缸o 羽时 b 1 j 11j 唧唧 基于w i s h b o n e 总线的图像处理芯片前端设计与实现 本文设计的平台中,f p g a 部分采用了以上三种的配置方式,设计者可以通 过跳线来切换下载方式。这样的设计即方便设计者的调试,又可以通过a s 或p s 方式对f p g a 进行上电配置,使得平台能进行实际运行。电路的设计图如图3 - 6 所示。而该图由于边幅关系,只显示了a s 和j t a g 的具体连接,而p s 部分关 于a r m 的连接没有在图上表示出来。而且在图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论