




已阅读5页,还剩72页未读, 继续免费阅读
(电路与系统专业论文)视频dspxyvdsp中32位标量微处理器的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本论文的设计工作源于国家八六三项目视频数字信号处理i p 核的设计。论文 完成了其中的标量微处理器部分的研究与设计。 论文采用自顶向下的正向设计方法,完成了视频d s p x y - v d s p 芯片中的3 2 位标量微 处理器的体系结构设计、电路实现以及f p g a 验证。 本论文作者的主要研究与设计工作如下: 首先,论文作者参与研究和设计了整个视频d s p 系统的体系结构:在此基础上作者研 究提交了3 2 位标量微处理器的实现方案,并完全实现了其电路。其中,特别研究了合理选 择处理器数据通路中最主要的两个部件一加法器和移位寄存器的方法,并最终实现了3 2 位标量微处理器中的跳跃进位加法器和桶式移位寄存器。 其次,论文讨论了中断控制器和系统的内建测试功能的设计方案,并实现了其功能。 第三,对整个标量微处理器进行了功能级仿真,包括逐条指令仿真,特殊指令程序段 仿真和应用程序实例仿真,并且进一步与整个视频d s p 系统连在一起,对标量微处理器进 行了功能仿真。 最后,对3 2 位标量处理器进行了f p g a 验证。 ! 目前,该视频d s p 项目已经通过了国家八六三专家组的验收。该项目的研究成果,有 助于加快我国研制具有自主版权的视频d s p 芯片的进程,为视讯电子系统的核心芯片国产 化打下基础,具有重要的应用前景。j 关键词:视频d s p 标量微处理器中断处理器a l u 桶式移位寄存器 a b s t r a c t t h i st h e s i si s o r i g i n a t e df i - o m an a t i o n a l8 6 3p r o j e c t , t h ed e s i g no fv i d e od s pc o r e i t f o c u s e so nt h er e s e a r c ha n dd e s i g no f s c a l a rp r o c e s s o ro f v i d e od s px y - v d s e t h et h e s i sd e s c r i b e st h ed e s i g na n di m p l e m e n t a t i o no f3 2 b i ts c a l a rm i c r o - p r o c e s s o ri n x y - v d s pv i d e od s pw i t ht o p - d o w nd e s i g nm e t h o d o l o g y t h ef p g a p r o t o t y p ei sa l s ov e r i f i e d s u c c e s s f u l l y a c c o r d i n g t ot h er e s e a r c hp l a n ,t h em a j o rw o r kf u l f i l l e db yt h ea u t h o ri sf o l l o w s : f i r s t l y , t h ea u t h o ro f t h i st h e s i sp a r t i c i p a t e si ns t u d y i n ga n dd e s i g n i n go ft h ea r c h i t e c t u r eo f t h ev i d e od s et h e nt h ea u t h o ri n v e s t i g a t e sa n dp r e s e n t st h ed e s i g ns c h e m eo ft h e3 2 b i ts c a l a r m i c r o - p r o c e s s o r ,a n dp e r f o r m sc o m p l e t e c i r c u i td e s i g no f t h ew h o l e3 2 b i ts c a l a rm i c r o p r o c e s s o r e s p e c i a l l y , t h i st h e s i ss t u d i e st h ei m p l e m e n t a t i o no fa d d e ra n ds h i f t e r , w h i c h a r et h et w ok e y c o m p o n e n t si nt h ed a t ap a t hu n d e rr e s e a r c h i n g ,a n di m p l e m e n t sc a r r ys k i pa d d e ra n db a r r e ls h i f t e r i nt h e3 2 b i ts c a l a rp r o c e s s o r s e c o n d l y , t h i st h e s i sd i s c u s s e st h ed e s i g ns c h e m eo f t h ei n t e r r u p t i o nc o n t r o l l e ra n db u i l t - i n d e b u ga i d e s ,a n di m p l e m e n t s t h e i rf u n c t i o n s t h i r d l y , t h et a s ko f t h i st h e s i sg o e st h r o u 曲t h ef u n c t i o ns i m u l a t i o no ft h ew h o l es c a l a r m i c r o - p r e c e s s o r , i n c l u d i n gs i n g l e i n s t r u c t i o n s i m u l a t i o n ,s p e c i a l i n s t r u c t i o np r o g r a ms e g m e n t s i m u l a t i o na n da p p l i c a t i o np r o g r a ms i m u l a t i o n a n df u r t h e r m o r e ,t h ef u n c t i o ns i m u l a t i o no ft h e w h o l es c a l a rm i c r o p r o c e s s o ri sc o m p l e t e di nt h ee n v i r o n m e n to f v i d e od s e f i n a l l y , t h ew h o l e 3 2 b i ts c a l a rm i c r o p r o c e s s o rh a sv e r i f i e du s i n gf p g a p r o t o t y p i n g t h i sr e s e a r c hw o r kh a sb e e nc h e c k e da n da c c e p t e db yt h ee x p e r tg r o u po fn a t i o n a l8 6 3 p r o j e c ts u c c e s s f u l l y t h er e s e a r c hr e s u l t so f t h et h e s i sw i l lb eb e n e f i c i a lt ot h ed e s i g np r o c e s so f t h es e l f - d e v e l o p e dv i d e od s p p r o c e s s o ro f o u r o w nn a t i o n ,a n dw i l lh a v e s i g n i f i c a n ta p p l i c a t i o n s i nt h ef u t u r e k e y w o r d s : v i s i o n a ld s pp r o c e s s o rs c a l a rm i c r o - p r o c e s s o r i n t e r r u p t i o np r o c e s s o r a r i t h m e t i c & l o g i c u n i tb a r r e ls h i f t e r 第一章绪论 第一章绪论 自集成电路( i c ) 问世以来,设计人员集成在单个芯片上的晶体管数量就呈现 出令人惊讶的增长速度。从真空管到晶体管,到微电子时代以及相应的装配技术的 进步,都说明激励这种发展的一个简单目的就是要不断提高单位体积内的计算处理 能力。例如,1 9 5 8 年的晶体管尺寸大约为1 c m ,1 9 7 0 年为l o g m ,1 9 8 5 年为1 p m 。 预计到2 0 1 0 年每块芯片将能容纳1 0 亿个器件。概括地说,芯片的集成度大约是每 1 8 个月就翻一番,同时芯片的成本也将相应下降,这就是著名的“摩尔定律”。 为何计算机要越做越小? 原因是只有这样,才能使计算机越来越经济、可靠、高速、 方便与智能,从而才能使计算技术的应用达到“无孔不入”的普及程度。正如今天 我们所看到的那样,芯片变成了科技发展的媒介,所有高科技都是芯片带给我们的。 所以,为了在电子工业及其它工业领域取得领先地位,一些发达国家都争取要在芯 片制作与设计上取得领先地位。在国际上,计算机的设计总是与i c 的发展紧密联系 在一起的,大约从2 0 世纪8 0 年代初开始,就提倡将计算机的设计工作从p c b 设计 向芯片的m a s k 设计转移了。 随着网络技术和计算机体系结构以及微电子技术的迅速发展,人们对视频信号 的实时处理越来越重视,并对其提出了更高的要求。针对这种情况,我们开始寻求 对视频数字信号处理器芯片进行研究和开发。经过多人的努力,我们终于取得了成 功。 1 1 课题的背景和意义 本论文研究的任务来自国家八六三项目视频数字信号处理i p 核的设计。 目前在国际上,视讯通信系统核心部件解决方案主要包括两大类:一类是i c 解 决方案,其中视频编码芯片方面的主要供应商包括美国8 x 8 公司、台湾华邦公司等, 技术较为成熟,芯片性能稳定,但弱点是系统集成度不够高、产品设计复杂、功能 不够全面、性能表现不够理想:另一类是d s p 解决方案,主要供应商包括美国t i 公司、a d 公司、荷兰p h i l i p s 公司等,可以提供单片解决方案,支持功能设计上的 灵活性,但弱点是价位较高、对产品开发商要求较高。目前国内外视讯终端产品的 生产商,主要采用的是i c 解决方案,其中可视电话又以采用美国8 x 8 公司的解决方 案为主。 本项目受八六三支持:8 6 3 - s o c y 一2 1 6 !视频d s px y - v d s p 中3 2 位标量微处理器的研究与设计 在我国,目前用于图象处理的产品基本上都是采用进口通用d s p 芯片,如美国 t i 和 d 公司的通用d s p 芯片,其它专用的图象处理芯片价格也较贵,这就极大地 限制了应用产品的性能,致使产品价格居高不下,使得国产视频应用产品缺乏市场 竞争能力。 本项目研制的视频d s p 能极大地提高视讯终端产品的性能价格比,促使视频系 统应用由大型机构向中小企业和家庭普及,大大地拓展视频系统产品的市场空间。 视频d s p 将使视频终端产品的开发更加方便,超大规模单片集成视频d s p 芯片把视 频通信解决方案融集在单片芯片上,大大减少了应用产品的外围电路设计,使终端 产品更加小型化、智能化,使中小国有企业和民营企业涉足视频终端产品领域的梦 想成为可能。 目前,该视频d s p 项目已经通过了国家八六三专家组的验收,经鉴定达到国际 先进水平。该视频数字信号处理器的研究成果,有助于加快我国研制具有自主版权 的视频d s p 芯片的进程,为视讯电子系统的核心芯片国产化打下基础,具有重要的 应用前景。 l 。2 论文的主要研究与设计工作 论文采用自顶向下的正向设计方法,采用行为级仿真,功能级和结构级混合设 计,完成了视频d s px y - v d s p 中3 2 位标量微处理器体系结构设计,相关单元模块实 现与可测性设计工作。证明了当前采用的高层次设计方法,在进行d s p 处理器体系 结构设计上,是完全成功的。为了提高微处理器的性能,论文对跳跃进位加法器和 桶式移位寄存器进行了研究,提出了具有针对标量处理器应用特点的算术逻辑单元 和移位功能单元的体系结构,设计实现了快速a l u 和桶式移位寄存器,为高性能d s p 处理器的设计实现奠定了基础。完成了视频d s px y v d s p 芯片3 2 位标量微处理器部 分的体系结构设计以及电路实现。 本论文作者的主要研究与设计工作如下: 首先,论文作者参与研究和设计了整个视频9 s p 系统的体系结构:在此基础上 作者研究提交了3 2 位标量微处理器的实现方案,并完全实现了其电路。其中,特别 研究了合理选择处理器数据通路中最主要的两个部件加法器和移位寄存器的方 法,并最终实现了3 2 位标量微处理器中的跳跃进位加法器和桶式移位寄存器。 其次,论文讨论了中断控制器和系统的内建测试功能的设计方案,并实现了其 功能。 本项目受八六三支持:8 6 3 _ s o c - y 一2 _ 1 6 第一章绪论 第三,对整个标量微处理器进行了功能级仿真,包括逐条指令仿真,特殊指令 程序段仿真和应用程序实例仿真,并且进一步与整个视频d s p 系统连在一起,对标 量微处理器进行了功能仿真。 最后,对3 2 位标量处理器进行了f p g a 验证。 1 3 论文结构 论文共分l o 章。第一章为绪论,介绍了论文选题的背景和意义;第二章简要介 绍了数字信号处理技术的基本知识,以及视频d s px y - v d s p 芯片的体系结构和特 点;第三章介绍了视频d s p 的硬件结构以及作者的任务划分,并从软件角度介绍了 视频d s p 中标量处理器的指令集以及流水线和指令控制器;第四章首先讨论了芯片 核的设计方法,接着对3 2 位标量微处理器的原理设计进行了讨论;第五章具体论述 了3 2 位标量微处理器的实现,其中着重讨论了实现加法器和移位寄存器的方法;第 六章讨论了中断处理器功能;第七章介绍了视频d s p 的内建调试功能;第八章介绍 了标量微处理器的功能仿真过程,其中着重介绍指令的仿真测试;第九章介绍了 f p g a 验证过程;第十章给出了全文的总结和今后的工作方向。 本项目受八六三支持:8 6 3s o c _ y2 _ 16 一4 视频d s px y - v d s p 中3 2 位标量微处理器的研究与设计 第二章x y - s p 概述 视频d s p 作为一种处理器,有其独特的性质。下面就视频d s p 的定义、体系结 构及特点予以介绍。 2 1 视频d s p 的定义 数字信号处理( d i g i t a ls i g n a lp r o c e s s i n g ) 信号离散化后进行处理的现代信号处理技术, 字信号处理是当前发展相当迅速的一种技术, 和工业控制当中。 典型数字信号处理系统如图2 1 所示。 传 感 器 是用数字计算机对离散信号或将模拟 自身有其独特的计算方法和理论。数 普遍应用于无线通讯、语音视频处理 蜀【子瓤子惧t h a d 数字d ,a 换 信号信号信号 转换 信号转能 - - - - k - - - _ a x v 处理 : 器 r 换 器 器器 图2 - l典型数字信号处理系统 数字信号处理器是为数字信号处理而设计的微处理器。它是同数字信号处理技 术一同发展起来的。数字信号处理的应用领域迅速扩大与数字信号处理器的发展是 密不可分的。 为了快速地实现数字信号处理运算,数字信号处理器芯片一般都采用特殊的软 硬件结构。这些特点使得d s p 处理器芯片可以实现快速的数字信号处理运算,并使 大部分运算能够在一个指令周期内完成。由于d s p 处理器芯片本身也是处理器,因 此同样具有通用微处理器所具有的方便、灵活的特点。 视频数字信号处理器是为视频数字信号处理而设计的微处理器。最常用的视频 信号处理是视频数据的编解码,实时的图象压缩( 如m p e g 标准) 。一般的信号处 理器( d s p ) 也被用来进行视频信号处理,但是利用通用d s p 进行运动图象的显示 和传输时,效率低,编程工作量大,随着集成工艺的发展和集成度的提高,人们自 然想利用并行性来解决多媒体特别是视频信号的处理问题。近几年,国外出现了视 频信号处理器( v i d e os i g n a lp r o c e s s o r ) 芯片,如p h i l i p s 公司的媒体处理器t r i m e d i a 本项目受八六三支持:8 6 3 _ s o c1 0 2 - j _ 6 第二章x y - v d s p 概述 t m l 3 0 0 ,它利用图象并行性和超长的指令字进行视频信号处理。 我们开发的视频d s px y - v d s p 芯片是为了加快计算机图形图像处理的速度而 设计的微处理器,包括一个3 2 位标量处理器( s a u ) 和3 2 个1 6 位矢量运算单元 ( p a u ) 。标量处理器与矢量运算单元都由指令单元控制,并且两者进行并行操作。 其中,标量处理器为矢量运算器和自己提供运算所需操作数的内存地址和进行控制 结构,标量处理器也可以单独作为一个通用的3 2 位处理器。这种d s p 处理器的结 构提供丰富的适用于图形图像处理的数据类型,能在单周期内完成一条指令的运 算。 2 2 x y - v d s p 的体系结构 众所周知,计算机主要包含处理机、存储器和i 0 接口。计算机在执行程序时, 首先把要执行的程序和数据放入存储器,处理机从存储器中取指令并加以执行。典 型的处理机如图2 - 2 所示。 j 川 - 一 】l j 。l 划ph7 f 艘卜 存储器 fu 可行i 一:h ! 。 。、广 7 f 【 l 廿一 一 控制部件i lj 图2 - 2典型的处理机方框图 视频d s p 由于其处理图象数据的特殊性,一般都充分利用了并行处理技术。 2 2 1 并行性 我们把问题中具有可以同时进行运算或操作的特征,称为并行性。例如,在相 同延迟时间的条件下,采用n 位运算器进行n 位并行运算的速度,几乎是用位运 算器进行n 位串行运算的n 倍,这就是传统机器由串行到并行的典型实例。但是, 本项目受八六三支持:8 6 3 一s o c 二1 l 2 j 一6 第二章x y - v d s p 概述 t m l 3 0 0 ,它利用图象并行性和超长的指令字进行视频信号处理。 我们开发的视频d s px y - v d s p 芯片是为了加快计算机图形图像处理的速度而 设计的微处理器,包括一个3 2 位标量处理器( s a u ) 和3 2 个1 6 位矢量运算单元 ( p a u ) 。标量处理器与矢量运算单元都由指令单元控制,并且两者进行并行操作。 其中,标量处理器为矢量运算器和自己提供运算所需操作数的内存地址和进行控制 结构,标量处理器也可以单独作为一个通用的3 2 位处理器。这种d s p 处理器的结 构提供丰富的适用于图形图像处理的数据类型,能在单周期内完成一条指令的运 算。 2 2x y - v d s p 的体系结构 众所周知,计算机主要包含处理机、存储器和i o 接口。计算机在执行程序时, 第二章x y - v d s p 概述 t m l 3 0 0 ,它利用图象并行性和超长的指令字进行视频信号处理。 我们开发的视频d s px y - v d s p 芯片是为了加快计算机图形图像处理的速度而 设计的微处理器,包括一个3 2 位标量处理器( s a u ) 和3 2 个1 6 位矢量运算单元 ( p a u ) 。标量处理器与矢量运算单元都由指令单元控制,并且两者进行并行操作。 其中,标量处理器为矢量运算器和自己提供运算所需操作数的内存地址和进行控制 结构,标量处理器也可以单独作为一个通用的3 2 位处理器。这种d s p 处理器的结 构提供丰富的适用于图形图像处理的数据类型,能在单周期内完成一条指令的运 算。 2 2 x y - v d s p 的体系结构 众所周知,计算机主要包含处理机、存储器和i 0 接口。计算机在执行程序时, 首先把要执行的程序和数据放入存储器,处理机从存储器中取指令并加以执行。典 型的处理机如图2 - 2 所示。 j 川 - 一 】l j 。l 划ph7 f 艘卜 存储器 fu 可行i 一:h ! 。 。、广 7 f 【 l 廿一 一 控制部件i lj 图2 - 2典型的处理机方框图 视频d s p 由于其处理图象数据的特殊性,一般都充分利用了并行处理技术。 2 2 1 并行性 我们把问题中具有可以同时进行运算或操作的特征,称为并行性。例如,在相 同延迟时间的条件下,采用n 位运算器进行n 位并行运算的速度,几乎是用位运 算器进行n 位串行运算的n 倍,这就是传统机器由串行到并行的典型实例。但是, 本项目受八六三支持:8 6 3 一s o c 二1 l 2 j 一6 !视频d s px y - v d s p 中3 2 位标量微处理器的研究与设计 对并行性的理解不能只限于这种靠器件资源的简单重复实现的并行,应当有更广义 的理解。例如,单处理机内采用的重叠、流水方式工作,操作系统采用的多道程序 分时共行,都是更广意义上的并行。 为了提高计算机系统的并行性,可以通过各种各样的技术途径来达到,如时间 重叠、资源重复和资源共享等。 时间重叠是在并行性概念中引入时间因素,让多个处理过程在时间上相互错开, 轮流重叠地使用同一套硬件设备的各个部分,以加快硬件周转而赢得速度。流水线 就是这种方式的最典型的例子。 资源重复是在并行性概念中引入空间因素,通过重复设置硬件资源来提高可靠 性或性能。阵列处理机是这种方式的典型例子。 资源共享就是利用软件的方法让多个用户按定时间顺序轮流地使用同一套资 源,以提高其利用率,这样相应地也可以提高整个系统的性能。例如,多道程序分 时系统就是利用共享c p u 、主存资源,以降低系统价格,提高设备利用率的典型例 子。 2 2 2 并行处理系统 并行处理计算机是强调并行处理的系统,除了分布处理系统外,按其基本结构 特征,可以分为流水线计算机、阵列处理机、多处理机系统和数据流计算机四种不 同结构。在我们的视频d s p 设计中,我们主要用到了流水线计算机技术来获得时问 并行性,用阵列处理机技术来获得空间并行性。 ( 一) 流水线计算机 流水线是一种能够使多条指令重叠操作的处理机的实现技术,它己成为现代处 理机设计中最为关键的技术。流水线处理机把条指令的执行分成几个步骤,或称 级。每一级在一个时钟周期内完成。在每个时钟周期,处理机启动执行一条指令。 如果处理机的流水线有1 1 1 级,则同时可重叠执行的指令数将为m ,每条指令处在不 同的执行阶段。如果分级分得好的话,那么每一级都没有时间上的浪费。这是最理 想的情况。流水线处理机在这种理想的情况下,与非流水线处理机的性能加速比为 sixcpip x t 型竺:肼 i x c p i p t c p i v m 其中,i 为一个程序被执行的总的指令条数。它在流水线处理机和非流水线处理机 中是相等的。c p i 是每条指令总体平均所需的时钟周期数。c p i ( n p ) 是非流水线处 理机的c p i ,c p i ( p ) 是流水线处理机的c p i 。因为流水线处理机把一条指令的执 本项目受八六三支持:8 6 3 一s o c 二y _ 2 一j 6 第二章x y - v d s p 概述 行时间理想地分成了m 级,有m 条指令在同时( 重叠) 执行。最后的加速比为m , 即等于流水线的级数。但实际情况往往要受到很多条件的限制,如指令间的数据相 关、中断、程序分支及其它因素的影响,最大加速比是从来不可能完全达到的。很 多流水线周期浪费在由于执行顺序外指令所引起的等待状态中。 ( 二) 阵列计算机 阵列处理机是操作级并行的s i m d 计算机。通过重复设置大量相同的处理单元 p e ,将它们互连成阵列,在单一控制部件c u 控制下,对各自分配的数据并行执行同 一指令所规定的操作。处理单元p e 是不带控制部件的算术逻辑单元。 阵列处理机由于存储器的组成方式不同,有分布式存储器和集中式共享存储器 两种不同的基本构型。我们的视频d s p 设计中采用的是前一种构型。 阵列处理卡几的s i m d 处理方式和由它产生的特殊结构是以诸如有限差分、矩阵、 信号处理、线性规划等一系列计算问题为背景发展起来的。这些计算问题的共同特 点是可以通过各种途径把它们转化成为对数组或向量的处理,而阵列处理机正好利 用多个处理单元对向量或数组所包含的各个分量同时计算,从而获得很高的处理速 度。与同样擅长于向量处理的流水线处理机相比,阵列处理机利用的是资源重复, 而不是时间重叠;利用并行性中的同时性,而不是并发性。它的每个处理单元要同 等地负担起各种运算功能,但其设备利用率却可能没有多个单功能流水线部件那样 高。因此,只有在硬件价格有了大幅度下降及系统结构有了较大改进的条件下,阵 列处理机才能具有较好的性能价格比。在阵列处理机中,互联网络的结构形式限定 了阵列处理机适用的解题算法类型,也会对整个系统的多种性能指标产生明显的影 响。因此,互联网络的设计是重点。 在我们的设计中,交叉网络在控制单元的控制下,将1 2 8 位的数据信号以各种 数据类型的要求分别分配到3 2 个处理单元中。 2 3x y v d s p 的一般特点 实现各种复杂算法的d s p 处理技术需要提供很高的性能,进行重复的、数据运 算密集的工作。x y - v d s p 与大多数的d s p 处理器一样,具有一些共同的特性; ( 一) 乘累加m a c ( m u l t i p l y - a c c u m u l a t e ) 操作 算法中会出现大量的乘累加操作。 ( 二) 哈佛结构( 一个机器指令周期内完成多个存储器访问) 由于数字信号处理的主要操作乘累加的乘法操作,依次需要有至少2 个操作数 本项目受八六三支持:8 6 3 一s o c y 一2 - l 一6 !视频d s px y - v d s p 中3 2 位标量微处理器的研究与设计 进行乘法运算,所以必须提供足够的操作数带宽。 传统的冯诺曼结构是将指令、数据存储在同一存储器内,统一编址,依靠指 令计数器提供的地址来区分是指令还是数据,如图2 3 ( a ) 所示。取指令和取数据 都访问同一存储器,数据吞吐率低。 而哈佛结构则是不同于传统的冯诺曼结构的并行体结构,如图2 - 3 ( b ) 所示。 其主要特点是将程序和数据存储在不同的存储空间中,即程序存储器和数据存储器 是两个相互独立的存储器,每个存储器独立编址,独立访问。与两个存储器相对应 的是系统中设置了程序总线和数据总线两条总线,从而是数据的吞吐率提高了一倍。 图2 - 3 ( a ) 传统冯诺曼结构 图2 - 3 ( b ) 基本哈佛结构 图2 - 3 ( c ) 增强哈佛结构 在哈佛结构中,由于程序和数据存储器在两个分开的空间中,因此取址和执行 能完全重叠运行。大多数的数字信号处理器内部都设置了多条数据总线,以便用来 在每个机器指令周期完成多个数据存储器访问,从而提供进行乘累加操作需要的操 作数。为了进一步提高运行速度和灵活性,可以在基本哈佛结构的基础上进行改进, 如图2 3 ( c ) 所示,提供多个程序与数据存储器,并且允许数据存放在程序存储器 本项目受八六三支持:8 6 3s o c _ _ y _ 2 _ i _ 6 第二章x y - v d s p 概述 中,并被算术运算指令直接使用,增强了数字信号处理芯片的灵活性。 ( 三) 专用的地址形成部件 因为大多数的数字信号处理器都是采用了哈佛结构,所以内部都设置了多条数 据总线,以便在每个机器指令周期完成多个数据存储器访问。对于同时访问的每个 操作数的寻址方式可以各不相同,所以在数字信号处理器体系结构中,必须实现多 个专用的地址形成部件,来完成多个操作数的访问地址生成。 而且为了支持快速傅立叶变换( f a s tf o u r i e r t r a n s f o r m ,f f t ) 等算法,数字信 号处理器中也必须设计有专用的地址形成部件。 ( 四) 流水线 同大多数的通用处理器相似,x y - v d s p 同样广泛采用流水线以减少指令执行时 间,从而增强了处理器的处理能力。x y - v d s p 采用了五级流水线。 ( 五) 专用的重复计数器 由于x y - v d s p 算法具有连续性特点,所以在算法执行过程中,需要控制循环 和重复计算。这样的控制方式有利于控制算法执行过程中所需要的时间。 ( 六) 多个串行外部设备接口 d s p 处理器的主要应用就是通过对外部信号进行采集处理,然后再将处理后的 信号返回到外部。这些信号的采集和反馈一般都是通过a d 或d a 转换器,以及其 它一些设备完成。x y - v d s p 提供与这些设备接口的方式。 ( 七) 多个d m a 通道 d m a 控制器可以读写存储器中的任意单元,而不必影响中央处理器的操作。 因此采用d m a 方式,可以对相对较慢的外部存储器和外设接口进行访问,并且不 降低中央处理器的处理速度。在数字信号处理器中可以有多种d m a 的实现方式, 包括直接硬件实现及软件指令实现。硬件实现的d m a 控制器有自己的地址发生器、 源地址和目的地址寄存器及传输计数器。d m a 的软件实现就是数字信号处理器采 用专门的软件指令来完成d m a 操作。 x y - v d s p 的设计中,含有多功能串行d m a 端口和三个独立的半双工并行d m a 端口。其中串行d m a 端口可用于全双工立体声d m a 端口、可编程串行d m a 端口 和位压缩d m a 协处理器,并行d m a 端口可以在s d r a m 和外部端口之间以高速 率进行数据交换。 2 4 x y - v d s p 的新特点 由于x y - v d s p 视频处理具有实时性、处理重复性、数据规律性的特点,所以 本项目受八六三支持:8 6 3 s o cy _ 2 - l - 6 视频d s px y - v d s p 中3 2 位标量微处理器的研究与设计 它也就有新的特点: 高效、通用、高性能、低成本,适用于实时图象处理。 标量处理器为单周期执行r i s c 指令,并行处理单元使用1 0 0 m h z 时钟可达3 0 亿 m a c s 。其中运动估计协处理器可在单周期完成6 4 象素点的模式匹配计算。 与其它d s p 芯片相比,具有更快、更有效且易于使用的图象处理能力。 提供单芯片( 加扩展存储器) 、完全可编程、具有广播质量的实时图象压缩与解 压能力。 此外,该视频d s p 对于增强图象和视频处理具有如下性能: 并行处理单元有多达1 1 5 2 个1 6 位通用寄存器,以便存储大量的系数和运动估计 目标 数据c a c h e 的结构、页大小、容量和写策略等为适应图象处理而进行了最优化设 计 数据c a c h e 的容量足够大,以满足运动估计时大搜索距离的需要 有效的实现彩色视频数据的分解与重组 一个c p u 周期从存储器同时读或写1 6 个连续或8 个交替的8 位数据,以便快速 处理y u v 和s r g b 数据 存储器可以不需要先读即可写入,以便快速生成大量的中间结果或填充显示缓冲 区,且可节省存储器带宽 存储器读时可在一个c p u 周期内将1 6 个8 位有符号或无符号存储器操作数转换 为1 6 位符号数,在存储器写时可在一个c p u 周期内对1 6 个操作数进行饱和操作, 以有效地处理y u v 和s r g b 数据 总之,该视频d s p 项目充分利用了i c 的并行处理能力和计算机系统结构的最 新技术,针对图象处理的特点,采用了增强的s i m d 体系结构,所设计的视频d s p 芯片功能灵活,集成度高,价格低廉,处于国际先进水平。它将广泛应用于实时视 频图象的压缩和解压缩处理、多媒体数字设备、生物测量学、i n t e m e t 视讯应用和智 能卡产品中。 2 5 小结 本章首先介绍了数字信号处理的概念,接着结合我们的视频d s p 项目,介绍了 并行处理概念,最后给出了我们设计的x y - v d s p 的特点。 本项目受八六三支持:8 6 3 _ s o c y 一2 _ l _ 6 第三章3 2 位标量处理器软硬件介绍 第三章3 2 位标量处理器软硬件介绍 视频数字信号处理器的结构是多种多样的,这里,结合论文作者的任务,主要 对3 2 位标量处理器从软硬件两方面给予介绍。 3 1 硬件结构及任务块划分 我们设计的x y v d s p 芯片是一种高速的图象处理d s p 芯片,完成1 6 x 1 6 的运动 估计平均需要四个时钟周期。它具有高度并行的处理器结构以及巧妙的指令系统。 在每个我们设计的x y v d s p 芯片中,有一个标量处理器和八行四列的矢量处理器, 每行的并行处理单元后有一个运动协处理器专用于运动估计。其它部分包括交叉开 关、指令缓存、数据缓存、d m a 接口、内存接v 1 、中断处理器等。在长度为3 2 位的 指令中,包含标量操作部分和矢量操作部分,标量操作的重要用途之一就是为流水 线的下一级的矢量运算提供内存操作数地址。结构简图如图3 - 3 所示。 图3 - 3x y v d s p 芯片结构简图 论文作者的主要工作就是完成虚线框内部分的设计。即标量处理器,中断处理 器和指令单元三部分。它们以标量处理器为核心,相互之间有着紧密的联系。 3 2 软件系统及指令集分析 本项目受八六三支持:8 6 3 一s o cv2 1 6 里视频d s px y - v d s p 中3 2 位标量微处理器的研究与设计 x y v d s p 拥有比较复杂的指令体系,但总体上来讲,它仍是一种r i s c 集。在控 制、标量和矢量指令相结合的情况下,可以完成标量运算、矩阵乘、矩阵转置、卷 积、卷积对和运动估计的相应运算,这些是图象处理算法中d c t 、f f t 、小波变换和 运动估计等的基础。下面我们就功能、分类以及流水线的角度着重对标量指令进行 分析。 3 2 1 数据类型 数据类型是指令中非常重要的一部分,每一条指令都指明了所要使用的数据类 型。主要用于说明内存操作数存取存取方式和在并行处理阵列中的分配方式。在给 定操作码的条件下,根据数据类型的不同,所相应的操作也就不同,所以在指令分 析时应该将两者相结合,具体问题具体分析。 视频d s px y - v d s p 中有十几种数据类型,其中标量部分有六种。下面对标量 部分的数据类型予以介绍。 ( 1 ) 无符号字节( 8 b i t ) ( 2 ) 无符号字( 1 6 b i t ) ( 3 ) 无符号双字节( 3 2 b i t ) ( 4 ) 有符号字节( 8 b i t ) ( 5 ) 有符号字( 1 6 b i t ) ( 6 ) 有符号双字( 3 2 b i t ) 一指令格式 3 2 2 指令分析 本项目受八六三支持:8 6 3 _ s o cy 一2 1 _ 6 第三章3 2 位标量处理器软硬件介绍 如图2 4 所示,视频d s p x y - v d s p 的一般指令为3 2 位,包括一条标量指令和 一条矢量指令。长指令为6 4 位,增加的3 2 位存放立即数。 b i t3 1 2 82 7 2 32 2 1 81 7 1 4 1 3 98 43 0 图3 - 1x y - v d s p 的指令格式 二指令操作方式 ( 1 ) 标量( a o p s b 一 b ) 矢量( c o p v d 一 d 1 ( 2 ) 标量( a o p s b b ) 矢量( c o p v d l + e 一 e 其中,a :标量源操作数 b :标量目的操作数 c :矢量源操作数 d :矢量目的操作数 e :矢量累加寄存器 o p s :标量操作码 o p v :矢量操作码 三指令分类 x y v d s p 的指令共分十二类,即:控制、标量运算、标量堆栈、测试、移位和 循环、缓存i o 比较、矢量逻辑和算术运算、矢量乘和乘加、矩阵乘和乘加、卷积 和卷积对、运动估计( 分线性和交错算法两大类) 、行和列从内存的读写。标量部分 主要涉及前六类。 下面分别予以介绍。 ( 1 ) 控制指令 包括c a l l x x ,c a l l x x 一 ,j u m p x x 一 ,r e t 其中,第一个x 表示目标操作数 是立即数或者表示地址包含在标量寄存器中,第二个x 表示是绝对寻址还是相对寻 址。 为标量条件码。 ( 2 ) 标量运算指令 包括a l u 中的1 6 种算术逻辑运算指令以及两种( 有符号和无符号) 饱和操作。 其中饱和操作必须更新存储器。 ( 3 ) 标量堆栈指令 包括p u s h ,p o p ,p u s h a 和p o p a 。其中前两种指令使用堆栈指针( s p ) ,而后两 种指令使用地址指针( a p ) 。对p u s h 和p u s h _ a 指令,源可为标量寄存器或立即数; 本项目受八六三支持:8 6 3 _ s o c _ y _ 2 _ 1 _ 6 视频d s px y - v d s p 中3 2 位标量微处理器的研究与设计 对p o p 和p o p a 指令,目的必须是标量寄存器。 ( 4 ) 标量测试指令( st e s t 一 ) 其中 为标量条件码( 详见4 3 4 ) ,即如果条件满足,下一条指令被跳 过。 ( 5 ) 移位和循环指令 包括s f o r 一 ,s _ 1s r 一 ,s a s r 一 ,s 一1 s l 一 四种。其中( m 为移位和 循环位数,其范围为0 o x l f 。移位和循环指令的通用形式为s _ k x x y y y 一 s r a ,s r b 。这里,x x x 为a l u 操作,y y y 为移位和循环操作。例如,s a d d a s l 一8s r a ,s r b , 将s r a 左移8 位,结果与s r b 相加并存在s r b 中。 ( 6 ) 缓存、i o 和比较指令 包括i n ,o u t ,s _ f l u s h ,e i ,d i 。对i n 源为扩展寄存器,目的为标量寄存器;对 o u t 源为标量寄存器、立即数或存储器,目的为扩展寄存器。e i 和d i 分别使能和禁 止中断。 i n 指令的通常格式为i n x x xi o r e g ,s r b ,这里x x x 为标量a l u 操作,i o r e g 为扩展寄存器。 o u t 指令的通常格式为o u t x x xs r a ,s r b ,i o r e g ,这里x x x 为标量a l u 操作 1 0 r e g 为扩展寄存器,s r a 可以是立即数,不影响s r b 。 o u t 指令一种特殊格式为s _ x x x c o m ps r a ,s r b ,这里x x x 为标量a l u 操作,不 影响s r b ,但影响标量状态字。 3 。2 3 指令单元 视频处理器的指令单元负责取指令、指令译码与执行等操作。指令单元有个 多级流水线和多个控制器组成。流水线负责不间断地将指令送往控制器。控制器负 责只林个译码,并产生送往有关功能单元的控制信号。 水。 3 2 3 1 流水线 x y v d s p 中采用五级流水线,包括: ( 1 ) 取址、指令译码、标量执行、矢量执行第一级和矢量执行第二级共五级流 ( 2 ) 指令译码 本项目受八六三支持:b 6 3 s o c j t 1 - 6 第三章3 2 位标量处理器软硬件介绍 ( 3 ) 标量指令执行 ( 4 ) 矢量指令执行第一级 ( 5 ) 矢量指令执行第二级 五级流水线中与标量部分密切相关的是前三级。流水线第一级提取指令,流水 线第二级产生指令c a c h e 控制位,第三级产生标量处理器和数据c a c h e 控制位,第 四、五级产生矢量处理器控制位。流水线数据流程框图如图3 - 2 所示。 p i p e l i n es t a g e 1 p i p e l i n es t a g e3 p i p e l i n es t a g e 4 li n s t r u c t i o nc a c h e i c o n t r o lb i t s 图3 - 2 指令单元流水线数据流程 指令单元的执行流程: 程序计数器的内容用于访问指令c a c h e 中的标志r a m ,c a c h e 标志与程序计 数器进行比较,意见册所要求的地址是否存在。时钟周期结束时,标志r a m 寄存器被 装入。在每一个当前周期结束时程序计数器被装入或更新。 如果指令在指令c a c h e 中,就使用标志r a m 寄存器的内容访问指令c a c h e ; 否则就要执行c a c h e 失败操作,直到所要求的地址出现为止。若指令在数据c a c h e 中,译码寄存器的内容( 6 4 位) 被部分译码以决定接下来要译码的是3 2 位的基本 指令还是6 4 位的扩展指令。接着译码标量处理器操作数读入的控制信号,并完成取 本项目受八六三支持:8 6 3 _ s o c - - y - 2 1 6 厂。、l 2 萨 a啦眦 阵 p r l r1 视频d s px y - v d s p 中3 2 位标量微处理器的研究与设计 标量操作数。同时操作码的修正码被译码,以便对标量操作码字段进行二次译码
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天水中语文考试题及答案
- 2025年公需科目人工智能与健康试题及参考答案
- 装修仓库单据管理办法
- 专户资金存放管理办法
- 街道小区楼道管理办法
- 营销创业销售管理办法
- 行政服务提升管理办法
- 中国创新驿站管理办法
- 营养包发放管理办法
- 蚌埠公益岗管理办法
- 纺织企业安全生产知识培训
- 2025年秋新北师大版数学三年级上册全册教学设计
- 2025年全国小学生“学宪法、讲宪法”活动知识竞赛题库及答案
- 小学心理健康教育四级预警汇报流程
- 教案2025秋形势与政策纪念抗战胜利坚定民族信念抗战胜利80周年
- 2025-2026人教版(2024)物理九年级全册教学进度表
- 义务教育质量监测学校成绩分析报告
- 2025版房地产抵押按揭续贷合同
- 2025年秋季小学四年级上册语文教学计划及教学进度表
- 北京市西城区2024-2025学年七年级下学期期末道德与法治试题(解析版)
- 2025年广东省高考化学试题(含答案解析)
评论
0/150
提交评论