已阅读5页,还剩83页未读, 继续免费阅读
(通信与信息系统专业论文)媒体处理器的设计和验证研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 住过;一1 年叶1 ,为r 满足人们h 茄增k 的对多媒体的需求,媒体处理器得到了b 速发 展,出现了各种备样的媒体处理器。根据其体系结构,媒体处理器可以分为号, 4 t 可编稗处理 器、通川i j f 编样处理器、专j :| ;j 处理器羽玎重配置处理器儿人类。各类处理器都针对多媒体处 理进行了扩展,增强其多媒体处理能力。通j | j 可编程处理器中的精简指令集处理器( r i s c ) 和号川可编转! 处理器中的数据信号处理器( d s p ) 各自具有小同的指令集结构和微结构特点, 适合r 不同的应州领域,出现了一系列r 1 s c 和d s p 融合体的r i s c d s p 架构,由丁既善丁 执行系统样序,义善丁执行信号处理程序,所以能够较蚶的适应复杂多媒体系统的要求。 奉文介纠由浙汀人学信息与电,l 群学系s o c r & d 小组开发的具有自主知识产权的, 媒体数字信号处理器m e d j a d s p 3 2 0 0 ( 简称m d 3 2 ) 系列的设计和验证流程。m d 3 2 将r i s c 与d s p 处理器的指令操作、寻址模式等要素充分融合,设计了并行操作、多媒体分裂模式 等指令操作,形成了融合r i s c 、d s p 、s i m d 特点的一种新的指令集结构,并在此基础上 、垃计了具有自身特色的r i s c d s p 微结构组成和统一的流水划分结构,使得r 1 s c d s p 体系 既能够发挥r 1 s c 处理器的系统执行能力又具有d s p 处理器的数据处理能力,既有精简 指令的优势,义有较强的算术运算能力,从而使m d 3 2 处理器更适合多媒体信息处理的需 要。 为了对m d 3 2 进行快速验证,本文详细介绍了基于f p g a 的媒体处理器通j 刳软硬件协 同仿真验证平台m p s p 的设计。这一平台采用f p g a 作为硬什仿真子平台,采用运行j 一上 位机上的控制和驱动软什作为软件仿真子平台。软什和硬件子平台都可以快速的进行重配 置,以适应4 ;同的媒体处理器和不同的仿真要求。m p s p 平台提供了一个可配置的i p 库和 一个包含人量a p i 接1 2 1 的软件库基于这些库,协同仿真环境的设计过程被大大加速了。 采川这平台,我们对m d 3 2 进行了快速仿真验证。 为了对芯片进行测试,在芯片的测试过程中就必须考虑可测试性设计,在芯片。p 增加测 试结构如扫描链等。媒体处理器的复杂度要求住其中采用多种测试结构。同时,完整的媒体 处理器的集成开发环境包括嵌入式硬什调试环境,还需要在处理器中设计嵌入式调试接口。 为此,本文介纠了基丁j t a g 的嵌入式调试接1 3 的设计,即实现了芯片的结构测试和功能测 试,也实现了硬件调试功能。基于这一接v i ,可以对媒体处理器进行边界扫描测试,也可以 进行硬件单步、断点、观察处理器状态等等复杂的硬件调试。 关键词:媒体处理器软硬件协同仿真f p g a 可测试性设计j t a g 嵌入式调试接l i a b s t r a e t m e d i ap r o c e s s o ri s d e v e l o p e dr a p i d l y i nt h el a s t t w e n t yy e a r st om e e tt h ef a s ti n c r e a s i n g d e m a n do fm u l t i m e d i aa p p l i c a t i o n m e d i ap r o c e s s o rc a nb ec l a s s i f i e di n t o s p e c i a lp u r p o s e p r o g r a m m a b l ep r o c e s s o r ,g e n e r a lp u r p o s ep r o g r a m m a b l ep r o c e s s o r , d e d i c a t e dp r o c e s s o ra n d r e c o n f i g u r a b l ep r o c e s s o r t h e s ep r o c e s s o r sh a v ei m p r o v e dt h ec o m p u t ep o w e rt om e e tt h em e d i a p r o c e s s i n gr e q u i r e m e n t r e d u c e di n s t r u c t i o ns e tc o m p u t e r ( r l s c ) a n dd i g i t a ls i g n a lp r o c e s s o r ( d s p ) h a v e d i f f e r e n ta p p l i c a t i o na r e a sd u et ot h e i rd i f f e r e n ti n s t r u c t i o ns e ta r c h i t e c t u r e ( i s a ) a n d m i c r o a r c h i t e c t u r e r i s c d s pi sah y b r i do ft r a d i t i o n a lr i s ca n dd s p p r o c e s s o r m e r i tt ob o t h c h a r a c t e r i s t i c so fr i s ca n dd s er i s c d s pi sm o r ec a p a b l ef o rc o m p l e xm e d i ap r o c e s s i n g t h i s p a p e r d e s c r i b ear i s c d s p p r o c e s s o r 一一m e d i a d s p 3 2 0 0 s e r i a l s w h i c hi s d e v e l o p e db yt h ed e p a r t m e n to fi n f o r m a t i o ns c i e n c ea n de l e c t r o n i ce n g i n e e r i n gi nz h e j i a n g u n i v e r s i t y m d 3 2i s ai s an o v e la r c h i t e c t u r e ,w h i c hf e a t u r e sw i t hb o t hr 1 s ca n dd s es i n g l e i n s t r u c t i o nm u l t i d a t a ( s 1 m d ) i s a l s o s u p p o a e d i nm d 3 2 ac h a r a c t e r i z e dr i s c d s p m i c r o a r c h i t e c t u r ea n du n i f i e dp i p e l i n ei sd e s i g n e db a s e do i lm d 3 21 s a i ti sn o to n l yg o o da t e x e c u t i n gs y s t e mt a s k sl i k er i s cp r o c e s s o r , b u ta l s oe x p e r ti nd i g i t a ls i g n a lp r o c e s s i n gl i k ed s p t h i sm a k e sm d 3 2m o r ep o w e r f u li nm u l t i - m e d i a s i g n a lp r o c e s s i n g t ov e r i f yt h e d e s i g n o fm d 3 2q u i c k l y , f p g ab a s e dm e d i ap r o c e s s o rh a r d w a r e s o f t w a r e c o - s i m u l a t i o np l a t f o r mi sd e v e l o p e d t h i sp l a t f o r mi n c l u d e saf p g ab a s e dh a r d w a r es u b - p l a t f o r m a n das o f t w a r es u b - p l a t f o r mr u n n i n go nh o s tp c b o t ht h eh a r d w a r ea n dt h es o f t w a r ec a nb e r e c o n f i g u r e dq u i c k l y t oa c c o m m o d a t ed i f f e r e n tm e d i a p r o c e s s o r f o rd i f f e r e n ts i m u l a t i o n s p e c i f i c a t i o n t h ed e s i g no fc o - s i m u l a t i o ne n v i r o n m e n to nm p s pi sb a s e do n l i b r a r y a r e c o n f i g u r a b l e1 pl i b r a r ya n das o i v a r ep a c kw i t ha p li n t e r f a c e sa r cp r o v i d e da sap a r to fm p s p b a s e do nt h i sp l a t f o r m ,t h ef p g ab a s e dc o - s i m u l a t i o np r o c e s s i n gi sg r e a t l ya c c e l e r a t e dm d 3 2i s s i m u l a t e do nt h i sp l a t f o r ma n dt h ed e s i g ni sv e r i f i e d t ot e s tt h ec h i p ,d f t ( d e s i g nf o rt e s t a b i l i t y ) s t r u c t u r es h o u l db ec o n s i d e r e do nt h ed e s i g n t e s ts t r u c t u r e ss u c ha ss c a nc h a i ns h o u l db ea d d e dt ot h ep r o c e s s or a n di c e ( i nc i r c u i te m u l a t o r ) i sai n d i s p e n s a b l ec o m p o n e n ti nt h ei n t e r g r a t e dd e v e l o p m e n te n v i r o n m e n to fm d i ap r o c e s s o r , i t r e q u i r e s a ne m b e d d e dd e b u gi n t e r f a c e s oa ne m b e d d e dd e b u gi n t e r f a c eb a s e do nj t a gi s d e s c r i b e do nt h i s p a p e r b a s e d o nt h i si n t e r f a c e ,b o t ht h es t r u c t u r ea n df u n c t i o nt e s ta n dt h e h a r d w a r ed e b u gs u c ha ss i n g l es t e p ,b r e a k p o i n ta n dw a t c hc a nb ea p p l i e dt om d 3 2 k e y w o r d s :m e d i a p r o c e s s o h a r d w a r e s o f t w a r ec o s i m u l a t i o n ,f p g a ,d f t j t a ge m b e d d e d d e b u g i n t e r f a c e 2 浙江人学硕i j 学位沦殳 筇一章绪论 随着人们对多媒体需求的不断增长,出现了一类专门针对多媒体信号处理应_ l | = i 的处理 器,即媒体处理器。本章介纠了媒体处理器的概念、分类羽l 优化技术,并重点介纠了多媒体 数字信号处理器的设计流程及其验证过稗。 1 1 媒体处理器综述 1 1 1 媒体处理器概念 多媒体处理指对多媒体对象如文本,于写体数据,音频对象,静态图像,2 - d 3 一d 图形, 动画以及全动态视频等的捕捉,存储,操作,传输等操作1 1 】。而执行多媒体处理的核心部件, 就是媒体处理器。 就在f 年以前,人们对媒体的需求还仅仅局限在文本,声音等有限的几个媒体上。如今, 人们对媒体的需求已经有了很大的发展。人们不仅仅需要文本,还希望有高保真的音视频享 受,逼真的3 d 虚拟现实体验或者实时的视频电话等等。而且,随着人们生活水平的提高, 人们对媒体的需求还在不断更新,不断增加。越来越多的媒体及应用将会出现在我们的生活 中。 随着人们对多媒体需求的增艮,产生了各种各样的媒体处理技术,如语音分析和综合, 字符识别,音频压缩,图形动画,3 - d 渲染,图像增强和恢复,图像,视频分析和编辑,视 频传输等等。这些媒体处理技术,从软件上和硬件上都给处理器带来了新的挑战。例如多媒 体标准m p e o j ,m p e g - 2 ,m p e g 一4 ,m p e g 7 ,h 2 6 3 ,h 2 6 4 以及j p e g 2 0 0 0 都包含了对复杂的媒 体处理任务实时执行的要求。视频处理计算复杂,数据量大。而3 d 虚拟现实技术的出现使 图形处理器需要在每秒内渲染上千万个多边形,同时处理光照,纹理等等特效。这些都使得 传统的处理器难以满足现代多媒体处理的要求。因此,针对各种多媒体处理技术,产生r 各 种各样的媒体处理器,应用了许多新的技术以增强媒体处理能力。 1 1 2 媒体处理器分类 对这些形形色色的多媒体处理器,可以根据其体系结构对其进行分类”1 ,如图1 1 所示。 第5 页 塑! ! ! 盔兰堕! ,堂垡堡;三! ; 图1 1 媒体处理器分类 一类是传统的通用可编程处理器,如各种工作站和个人电脑的中央处理器。这类处理器 义可以分为c i s c 和r i s c 两大类体系结构。前者的代表如i n t e l 的p e n t i u m4 处理器和a m d 的a t h l o n 处理器,而后者的代表有s u n 的s p a r c 系列处理器和i b m 的p o w e r p c 系列。c 1 s c 处理器着眼于采用复杂的指令系统,一条指令完成复杂操作以降低指令条数而提高性能,而 r i s c 处理器则着眼丁降低每条指令执行周期数c p i 以提高性能,吲此采用了简单的指令系 统。为了适应多媒体处理的需要,它们大都针对多媒体处理进行了扩展。其中一部分扩展了 指令集增加了专用的媒体处理指令,增强了媒体处理能力。如p e n t i u m 系列的m m x i ,s s e , s s e 2 1 ”指令扩展,a m d 公司的3 d n o w ! 1 1 0 h 峙自令扩展,u l t r a s p a r c i 处理器的v i s l l 2 1 和 p o w e rp c 的a l t i v e c l l 3 指令扩展。另外类处理器没有增加媒体处理指令,为了补偿这些处 理器没有特殊的指令集支持,他们都采用了如代码变换( c o d e m o r p h i n g ) ,超长指令字发射 ( v l i w ) 和fj 控时钟( c l o c k g a t i n g ) 等等技术来增强计算能力。例如全美达的“c o d e m o r p h i n g ”技术。该技术可以将x 8 6 命令组直接变换成1 2 8 b i tv l l w 命令组,由此可省略 执行x 8 6 命令的复杂电路,以简单的v l i w 型构造构筑硬件部分。 另一类可编程处理器是专用可编程处理器,如数字信号处理器( d s p ) 和视频立频处理 器。这类处理器为了专门的目的而设计,如d s p 专为数字信号处理如数字滤波器等等应用 而设计,网而专门针对特殊的应用作了一些优化。如d s p 处理器最典型的特性就是对乘累 加指令的硬件支持。同时,最新的媒体视频处理器不仅提供了乘累加指令的支持,同时提 供了对复杂图像处理任务如扭曲和透视变换的硬件支持。t i 公司的t m s 3 2 0 c 系列就是前者 的一个例r ,而p h i l i p 的t r i m e d i a t m 3 2 和m - p i r e l l 4 是后者的例子。具有代表性的d s p 芯 片包括t i 公司t m s 3 2 0 系列、a d 公司a d s p 系列、m o t o r o l a 公司m c 系列、s t a r c o r e 公司的s c 系列等d s p 处理器。其中,t m s 3 2 0 c 6 4 x x 采用v l i w 结构,具有类似r 1 s c 的 第6 页 塑坚查望塑! :兰竺笙兰 3 2 位简单指令,支持s 1 m d 襟作,包含片上指令c a c h e ,时钟频率高等特点,使其成为一代 d s p 处理器的典型产品1 15 1 。 与可编稗处理器不同,另一人类处理器是专t l i j 处理器。这类处理器采t 【;i j 全硬件实现特 定的多媒体处理算法,冈此其对特定算法的解决方案可以达到撮优,其芯片面积,功耗,多 媒体处理能力等等方面都比可编程处理器要好。这类处理器典型的例子如各种针对d c t ( 离 散余弦变换) 处理的专用处理器”l ,l s ll o g i c 的l 6 4 7 3 5d c t 处埋器芯片和三菱的 a d v a n c e d t e l e v i s i o n ( a t v ) 解码器。但专川处理器比较可编程处理器晒言丧失r 设计灵活性, 只能州丁特定的算法,其设计可重用性较差。在多媒体标准口新月异的今天,这类处理器逐 渐丧火了其优势。 随着多媒体算法的复杂疫霸l 多样性增加,产生r 一类新的解决力案,就是可重配置处理 器。随着现场可编程门阵_ 5 h j ( f p g a ) 在测试和验证电路中的j 1 泛应用,处理器的资源在运行 时重配置的思想开始发展起来。f p g a 包含了可配置逻辑块( c l b ) 阵列,可以实现各种各样 的逻辑功能。这一类处理器介丁可编程处理器和专用处理器之间,其性能比可编程处理器强 而又比专川处理器增加了灵活性。这类处理器的例子如m a t r i x 和x i l i n x 和a l t e r a 的f p g a 。 m a t r i x l l 9 1 含8 位宽的计算元素,存储器,a l u 和控制单元单片处理器。x i l i n x 和a l t e r a 的最新的f p g a 包含了一位计算单元,能够在小于+ 毫秒的时间内部分的重配置。x i l i n x 的 最新f p g a 还包含了最多达4 个的p o w e r p c 核和火量的可重配置片上资源和i p 核【2 0 】。 在可编程处理器、专用处理器和可重配置处理器三大类媒体处理器中,可编程处理器以 其成本低,设计灵活,上市时问( t i m e t o m a r k e t ) 短等优势占据了绝人部分的市场。随着片上 系统s o c 的发展,可编程媒体处理器的性能不断提高,除了数据处理能力外,其系统控制 能力也逐渐得到了重视,出现了一类新的r i s c 和d s p 的混合类型处理器,充分结合了d s p 数据处理能力强和r i s c 处理器系统控制能力强的特点。 1 1 3r i s c - d s p 混合类型处理器 随着人”j 对多媒体要求越来越高,多媒体算法日益复杂,m p e g 4 、h2 6 4 等新标准山现 除r 要求越来越高的处理能力和实时性外,还要求处理器具有较高的系统控制能力。传统 r i s c 处理器和传统的d s p 处理器各有自己的特点,单一采用其中一种处理器都难以满足复 杂的系统要求。传统的r i s c 和d s p 处理器的特点比较如表1 1 所示。 表1 1 ,r i s c 与d s p 处理器比较 r i s c 处理器d s p 处理器 简单指令集复杂的、专用的指令集 l o a d s t o r e 结构,面向寄存器的指令集面向存储器的指令集 人的通川寄存器文件具有特殊用途的专用寄存器 采州c a c h e 作为片上存储器采用片上r a m 作为片上存储器 跳转有延迟梢具有零开销循环指令 第7 页 浙 1 人学硕l 。学位论文 不具有乘累加单元等特殊硬什运算单元有乘累加单元等特殊硬件运算单元 需业较少的存储带宽需要更多的存储带宽 钉存储管理单元,通常采用查找映射表进行通常没有存储管理单元和黄找映射嵌,通常 虚实地址运算,需要操作系统进行资源调度在没有操作系统的情况下运行 为了提高程序执行效率,关键代码部分采用 利j | 编洋器j “牛汇编代码 手1 j 汇编进行优化 从表巾可以看出,d s p 处理器具有复杂的寻址模式,针对应j _ j 的专用硬件运算单元以 及针对应用的专川指令,冈此,针对特定应用其数据处理能力很强。但d s p 处理器通常没 有对操作系统的支持没有存储管理单元等,其系统控制能力不强。而r i s c 处理器指令集 简单,具有存储管理单元和查找映射表等,便于操作系统进行调度,系统控制能力较强,但 其数据处理能力不强。 如果能将r i s c 和d s p 两者的特点结合起米,无疑会更加适应应用领域的需要,并对 嵌入式系统处理器结构的设计方法产生深远的影响1 2 j - 2 3 。所以,r i s c 处理器和d s p 处理器 的融合是计算机体系柴构发展的必然趋势。在r i s c 处理器中加入支持d s p 处理的硬件组 成,以及扩展d s p 处理器使其更适应丁编泽器,这两方面构成了r i s c 处理器和d s p 处理 器之间的融台文化”1 。 事实上,目前嵌入式系统的发展趋势止在向着这一方向改变着,越来越多的嵌入式系统 处理器将传统r i s c 平d s p 处理器的结构和性能特点融台在一起,借鉴r 1 s c 和d s p 的设 计思想和方法,同时考虑系统成本、功耗及戍_ j 场合的限制【4 12 “,逐步发展出r i s c 与d s p 的混合类型处理器体系结构。 r i s c d s p 架构中的r i s c 部分最适于执行控制类代码( 如操作系统,用户接口,系统 控制等) ,而d s p 部分最适台信号处理应用,如f i r 滤波、f f t 变换、小波变换等。例如在 m p e g l 解码中,r 1 s c 处理器适合于进行系统级解码和音视频同步及系统调度等等系统控制 任务,而d s p 处理器适合于进行d c t 变换、 u f f u m a n 解码等等信号处理任务。仅仅采用一 个r i s c 或者一个d s p 处理器都难以满足任务要求,因此,传统的m p e g l 解码芯片i 勺部通 常都包含一个r i s c 核和一个d s p 核进行解码。例如e s s 的e s 3 8 9 0 内部包含一个m i p s x r i s c 处理器和一个专用的视频处理器1 2 4 】。可见,r i s c d s p 架构在这种处理场合是相当有 川的。 当前r l s c d s p 结构的融合手段,主要有两大类”: 一个处理器中包含r i s c 和d s p 两个处理器核的双核结构。 将r i s c 处理器和d s p 处理器融合到一个处理器核的单核结构。 蚓1 2 ( a ) 说明了在一个处理器中包含r i s c 核和d s p 核的双核结构示意图。图中d s p 与r i s c 核通过各自的i 0 接 _ l 与外界联系,相互之间具有较为复杂的通讯结构。图12 ( b ) 为r i s c 和d s p 融合的单核结构,图中r i s c 和d s p 被融合为一个处理器,具有较为简单 的结构,同时又兼具rr i s c 和d s p 的优点。 第8 页 浙江人学坝t 学位论义 o r l s c d s p i i l memoryunified o rs e p e r a t e d li l ( a ) ( b ) ( a ) r i s c d s p 双核结构( b ) r i s c d s p 融合的单核结构 图1 ,2 两种r 1 s c d s p 结构 文献 2 s 2 6 介绍的o m a p 架构便属丁r i s c 与d s p 般核结构,如图1 3 所示。它包含 一个t 1 的t m s 3 2 0 c 5 xd s p 处理器核,以及一个a r m 9 2 5 tr i s c 处理器核。两个处理器都 有各自的存储管理单元,通过各自的接口信号与外设进行通讯。 图1 3 0 m a p 结构 o m a p 架构中的r i s c 核负责执行控制类任务,如操作系统,用户接口,操作系统应用 等,而d s p 核负责执行信号处理任务,如m p e g 4 编解码等。两者分工明确,使其能适用 丁复杂多媒体任务要求。o m a p 架构的另一优势在于它所采用的两个处理器核具有成熟的 开发l :具,软件开发可以在”和a r m 提供的_ l 具平台上进行。但是,o m a p 结构中的两 个处理器核以及处理器核与外设之间的通讯存在着同步、交换等诸多问题。所以o m a p 类 似t - 一个多处理器系统,复杂的通讯机制使得整个系统的设计变得异常复杂,不可避免的增 加了系统成本。 相对丁r i s c 和d s p 相对独立的烈核结构,r i s c d s p 融合的单核结构通过对r i s c 指 令集进行扩展,添加扩展指令或者增加d s p 执行单元等d s p 特性,将r i s c 和d s p 的特点 融合在一个处理器核中。 第9 页 浙江久学硕j 擘位论文 1 9 9 4 年1 月推出的p a - r i s c 是第。个具有多媒体扩展指令( m a x 1 ) 的处理器1 2 ”。随 后,s u n 在s p a r ci s a 中加入_ v i s ( v i s u a li n s t r u c t i o ns e t ) 指令,1 9 9 7 年1 月,i n t e l 推出了带有m m x 指令的指令集处理器吼接着1 9 9 7 年,s g i 推出了m d m x ( m i p sd i g i t a l m e d i ae x t e n s i o n s ) ,摩托罗拉推出a l t i v e c 二p o w e r p cr i s c 处理器i ”l 。目前,儿乎人多数 处理器在原f i 指令的基础i :都扩展了多媒体处理指令米增强处理能力。 除,增加扩艘指令集外,一些r 1 s c d s p 单核结构处理器还在r i s c 处理器内增加r d s p 执行单元,例如文献 2 8 3 0 1 介绍的处理器e l 一3 2 。e 1 3 2 既可以作为通用处理器,又同时 有d s p 定点处理能力。它根据d s p 特点故造rr i s c 结构,在r i s c 结构中整合了个d s p 单元,该d s p 单元与算术运算单元a l u 、桶形移位器并行: 作,并访问同一个寄存器文件, 如图1 4 所示。处理器资源可以由通用目的程序卸d s p 程序算法公用,应用程序一1 。程师可 以利h | 所有的功能单元和结构指令来编弓应j j 程序。e 1 3 2 中的d s p 单元针对d s p 算法进 行了优化,并负责数字信号处理应用中的快速循环处理、人量数据进山处理和确定稗序流稗 的处理。 图1 4 e 1 3 2 结构框图 总之,双核结构虽然将r i s c 核与d s p 核拼接在一起,兼具了r i s c 和d s p 的特点, 但是系统效率也由于频繁的通信而降低,同时开发系统的设计也因为双核的通讯问题变得更 为复杂。另外,复杂的双核结构也忽略了嵌入式应用中最重要的两个嗣素:成本和功耗。而 在r i s c d s p 融合结构中,r i s c 和d s p 指令在同一个处理器中进行执行,同时支持r i s c 和d s p 的特性,而无需复杂的通讯结构和接e 1 信号同时单一处理器核结构比双核结构更 为简单,其面积和功耗都要低于双核结构的r i s c d s p 处理器。 目前几乎所有的处理器提供商都在它们的处理器结构中以某种形式加入了d s p 处理能 力,如表1 2 所示: 第1 0 页 浙江人学颂l 学位论文 表l2 兼有r i s c 与d s p 特件平结构的产。品 处理器提供商微处理器d s p 扩展 a r m a r m 9 e单周期整型m a c f u j i t s u s p a r c l i t ef a m i l y整型m a c 利多媒体辅助处理 h e w l e t l p a c k a r dp a 一8 0 0 0f a m j l vm p e g 解码寄存器 1 b mp o w e r p cf a m i l y整型m a c i n t e ip e n t i u mi l is 1 m d 扩展 m o t o r o l ap o w e r p cg 4向量处理器 s u nm i c r o s y s t e m s u l t r a s p a r cv i z 图像指令 所以r i s c 与d s p 处理器之间的区别正在逐渐减少,传统r l s c 与d s p 之间的界限已经不 像以前那么清晰了,嵌入式处理器架构止向着进一步融合各种体系架构设计特点的方向快速 发展。 1 1 4 多媒体处理器优化技术 刘处理器- 陛能通常采用处理器处理时间来衡量,如式1 1 所示【5 j 。 c p u 。= 指令数+ c p i4 时钟周期 1 + c p l ( 1 1 ) 其中,1 为程序指令数,c p i 为平均每指令执行周期,f 为处理器主频。c p u ,i 。为处理 器处理特定测试程序所用的时问,c p u 。越小,处理器性能越高。 根据这一处理器性能公式,优化处理器性能有三个主要方向:降低c p h 减少指令数; 提高处理器频率。 1 1 4 1 降低c p i 降低c p ij f 是r 1 s c 的核心思想所在。降低c p i 必须充分利用指令并行度,将指令并行 执行。当前处理器普遍采片j 了流水线技术以利用指令并行度,降低了c p i 值。通过深度流 水、乱序执行、转移预测等等手段,当前处理器的c p i 值已降低到接近1 的水平。为了进 一步降低c p i 使其降低到小于1 ,则必须采_ 超跃指令字或超标量等多发射技术。 a 超标量流水线 超标鼙技术是指同时发射多条指令,在流水线中同时执行。它采用硬件判断冲突,采用 寄存器重命名,乱序执行等等技术以解决冲突。 采_ l j 这一技术的如i n t e l 的p e n t i u m4 1 9 处理器和a m d 的a t h l o n 系列处理器ap e n t i u m4 处理器一周期内能够同时发射三条指令。其处理单元包含4 个a l u 单元和2 个浮点处理单 元,能够同时处理儿条指令。 第1 l 页 浙江凡学硕j :学位论文 超标龄技术的 个醇要难点就是冲突的处埋。当处理器叶1 执行的指令之问存在相关性时 将会产牛冲突而让指令完全没有相关性是不可能的。冈此在超标量结构处理器中有复杂的 控制电路处理冲突问题。计分板,寄存器重命名等等技术都被采用米处理对指令问对寄存器 访问羊【处理单元资源利川的冲突。超标量中一种有效的解决冲突的办法就是乱序执行,这种 技术就是打乱程序的执行顺序,当遇到冲突时将后而f | 勺和当前指令没有冲突的指令调到前面 执行。 采_ l j 乱序执行的例子如i n t e l 的p e n t i u m4 处理器,在p e n t i u m4 中采_ l _ j 了先进动态执行 ( a d v a n c e dd y n a m i ce x e c u t i o n ) 的功能,动态地为执行单兀提供执行指令,以防i i :执行单 元的执行停顿。例如在c a c h e 没有命中的情况下,必须从系统内存中重新读取数据而造成的 执行停顿。这时候动态执行就能将那些不需要等待数据的指令先送到执行单元执行,从而提 高执干j = 单元的效率。 乱序执行必须要进行转移预测,即事先预测转移方向,按照预测的方向执行。如p e n t i u m 4 的n e t b u r s t 微架构具有提供1 2 6 个指令之多的超大指令窗口,同时先进动态执行具有增强 的分支预测功能,具有4 k b 的分支目标缓存区,这是使n e t b u r s t 微架构能够最大限度地避 免分支预测火败的关键设计,在英特尔公司的报告中指出,这个功能使p e n t i u m4 比p e n t i u m 1 1 i 的预测失败少了3 3 。 然而乱序执行和转移预测也带来了很大的问题。当转移预测失败时,处理器需要花很人 的代价来恢复正确的指令执行。特别是采_ 【 超级流水线技术的处理器,由丁其流水线的深度, 转移预测火败的代价更火。因此,转移预测的准确性在超标量处理器的性能提高中至关重要。 超标量技术采_ 【;f j 硬件调度多条指令同时执行,囚此,其编泽软件设计简单。但由于调度 1 作由硬件完成,复杂的调度单元不可避免的耍占片j 大量的芯片面积和消耗人量的功率。斟 此,采埘超标量技术的处理器其面积和功耗较高,往往应用在桌面处理器上,而在嵌入式处 理器领域,基于成本和功耗的考虑,更多的采州超长指令字技术以降低c p i 值。 b 超k 指令字 超标量技术采用硬件动态调度的技术调度若十条指令同时执行,而超长指令宇( v l i w ) 技术则是通过软件在编译的时候进行指令调度,把若干条没有冲突的指令封装在一条k 指令 中州时执行。由于一条超长指令字中的指令之间没有相关性,阕此硬件可以放心的执行。 采用v l l w 的例子如i n t e l 的i a 6 4 指令系统和f u j i t s uf r 5 0 0 3 2 1 嵌入式微处理器和 p h i l i p s 的t m l 3 0 0 1 3 3 1 等等。 i n t e l 把它们的i a 一6 4 指令系统称之为e p i c 明确并行指令代码( e x p l i c i t l yp a r a l l e l i n s l r u c t i o nc o d e ) 。这娃种合并了超标量释l 超长指令字各自优势的技术。其中标准的指令束 长达1 2 8 位,包含了二个4 1 位的指令和个5 位的模版代码。所有的1 2 8 位信息被处理器 一次装载并解码。依靠指令的模版代码的信息,三条没有相关性的指令能住不唰的执行单元 同时执行。由于在程序编译时做过优化j 二作,指令束之间也没有相关性问题,可毫无顾虑地 爿彳i 执行。 第1 2 页 浙江人掌硕 ,学位论文 超k 指令字的另。个例子是f u j i t s u 的f r 5 0 0 处理器,它提供了一个v l i w ,4 路,变 长的指令发身j 。每条指令的k 度为3 2 位,包含整数,浮点,媒体( 定点) 操作指令。它宵 两个整数执行单元,两个两级流水的浮点执行单元和凹个两级流水的媒体执行单元。 p h i l i p s 的t m l 3 0 0 处理器是其t r i m e d i a 系列处理器中的个,它包含一个v l i w 处理 器和音频视频i 0f 系统。t r i m e d i a 系列处理器t m 3 2 每周期能够发射5 条指令,指向2 7 个功能单元的5 个。 v l i w 指令的一些关键特性如下: 指令字长度很长( 通常为每指令1 2 8 1 0 2 4 位) 。 每条指令包含多条”行没有相关性的操作。 每一个操作的完成的周期已知且稳定。 个中央控制器每周期发射一条长的指令字。 多个处理单元通过个全局共享的寄存器文件连接在一起。 这一技术简化了硬件的设计,然而却增加了编译软件的复杂度,其一陛能主要依赖于编译 软件的性能。对v l i w 编译器的一个例子是称为跟踪调度( t r a c es c h e d u l i n g ) ”1 。这 样的编译器综合了多种投术,通过大量可能分支预测出数量巨大的操作顺序,最终完成并行 任务的执行调度。 v l i w 技术的另一个缺点是其浪费了较大的指令空间。由于其指令长度同定,当存在冲 突无法填满一个指令字时通常会填入空指令,这大大增加了v l i w 技术的指令存储空间需 求,同时也将会加大处理器存储器之间的数据传输负担。 1 1 4 2 减少指令数 c p i 的降低受到指令间并行度的限制,超标量技术硬件设计复杂,功耗和面积较大,而 v l i w 则带来了编译器的设计困难。因此,人们重新开始注意到在不改变c p l 情况下从减少 指令数i 二提高系统性能。 减少指令数的方法即增加专_ j 指令,通过一条指令完成以前若干条指令序列完成的任 务。专f 【 j 指令土耍有:s i m d 并行指令和专用硬件滂处理指令。 a s i m d 指令 多媒体算法本质上具有重复性。典型操作如s a d 需要对没有相关性的多个像素或数据 作同样的操作。因此媒体处理算法在数据级 :存在大量的并行性可以加以利用,如对不同像 素的操作町以同时进行。 利刚数据级并行的技术目前主要是s i m d ( s i n g l ei n s t r u c t i o nm u l t i p l yd a t a ,单指令流多数 据流) 。这一技术已经在目前的媒体处理器上得到了广泛的应用。采用这一技术的c 1 s c 处 理器如i n t e l 的p e n t i u m 系列处理器中所采用的多媒体扩展m m x 指令,s 1 m d 扩展s s e 和 s s e 2 指令,a m d 的3 d n o w ! 技术等等,r i s c 处理器如i b m 的p o w e r p c 采h j 的a l t i v e c 指 令扩展等等。文献f 7 1 总结了媒体处理器的s i m d 指令扩展及对视频处理性能的提高。 第1 3 页 新江犬学碗l 学位诠空 采川s i m d 的另个重要原因就是日前的媒体处理器已经发展到了3 2 何处理器的时代, 而h 止往朝着6 4 位的方向发展。如i n t e l 采j _ ji a 6 4 指令集的i t a n i u m s 处理器及a m d 的 x 8 6 6 4 结构。而媒体处理如图像处理主要是对像素点进行处理,其所需要的字k 是8 ,1 6 或 者2 4 何,比处理器的数据通道宽度要小很多。为了充分利川3 2 位或者6 4 位数据通道的优 势,有必要把若干个8 位,1 6 位或者2 4 位的图像数据包装在一个3 2 能或者6 4 侥的宽的数 据格式中一起处理。冈此在i n t e l 的m m x 多媒体扩展中增加了包装解包的指令,并提供专 门的包装数据的计算指令,从而一次对多个数据同时进行操作,大大提高了多媒体性能。在 s u n 的s p a r ci s a9 中包含了v 1 s 指令扩展,这些指令也是州于在6 4 位浮点寄存器中封装 ) r 行的8 一,1 6 一,3 2 一位数据,并行处理。 往专朋可编程处理器中也广泛采川了s i m d 技术以增强处理器处理能力。如e q u a t o r 技 术公司的m a p l 0 0 0 a 采川了一个6 4 值的分量单元( 称作为图形单元) 和一个1 2 8 位分餐单 元( 称为媒体单元,进行s a d ,内积等运算) 充分利用数据级并行。 不论是通川可编程处理器还是专用可编程处理器,都纷纷采用了s i m d 技术以利用媒体 处理的数据级并行,通过增加s i m d 指令扩展采用宽的数据通道同时处理多个数据,大大优 化了媒体处理能力。 b 专川硬件协处理指令 另外一类专用指令是针对特定应用而增加专用的硬件协处理单元,用硬件在一条指令内 完成特定操作。 增加用硬件协处理单元最典型的例子即d s p 处理器中的m a c 单元。通过增加m a c 单元平lm a c 指令,d s p 处理器能够同时完成一次乘法和一次加法操作,人人加快了f i r 、 i i r 滤波等等典型数字信号处理算法运算速度。除了m a c 单元外,一些处理器还增加了对 复杂图像处理任务如扭曲和透视变换的硬件支持,如p h i l i p 的t r i m e d i a t m 3 2 和m p i r e 处 理器。另外还有图形处理引擎芯片针对3 - d 图形渲染也增加了专用的一些硬件协处理单元。 专用硬件协处理单元增加了芯片的资源消耗,因此,在设计时必须根据其性价比决定增 加什么硬件处理单元。而性能提高只有针对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2020年法考客观题必刷1000题及答案详解
- 2025年滑雪五级理论考试考点刷题包附全部答案
- 2020甘肃书记员招录考试法律岗专项试题及答案解析
- 2020智联招聘情景模拟测试题及标准答题答案
- 2023计量经济期中考试押题90分以上必刷试题集
- 2024物流专员笔试通关必刷200题带逐题答案解析
- 2026福州四中自招面试真题汇编及高分考生答题答案参考
- 2023年大学英语A级临考冲刺真题重组卷+模拟题附标准答案
- 湖南株洲渌口区四校联考2025-2026学年九年级下学期第一次阶段性练习物理试卷(含解析)
- 交通应急救援垫付协议书
- GB/T 30117.6-2025灯和灯系统的光生物安全第6部分:紫外线灯产品
- 新加坡安全培训考试题库及答案解析
- 2025年数据标注工程试题及答案
- 标准化项目立项管理流程优化研究
- 消费者就是学习者课件
- 2025年四川省从“五方面人员”中选拔乡镇领导班子成员考试历年参考题库含答案详解(5套)
- 《钢筋桁架楼承板应用技术规程》TCECS 1069-2022
- 中国智·惠世界(2025)案例集-中国人工智能产品和技术在亚洲、非洲、南美洲、欧洲等国家和地区赋能发展的生动实践
- 2025年春节后家具制造行业复工复产安全技术措施
- 2025年甘肃省中考英语试卷真题(含标准答案及解析)
- 中国历史常识吕思勉课件
评论
0/150
提交评论