




已阅读5页,还剩92页未读, 继续免费阅读
(计算机科学与技术专业论文)ftc55lp程序流单元的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕士学位论文 摘要 数字信号处理器具有高效率、低功耗和低成本的特点,已成为通信、消费类 电子产品的核心部件。f t c 5 5 l p 是一款自主正向设计的高性能、低功耗1 6 位定 点可编程数字信号处理器芯片。本文在深入研究f t c 5 5 l p 体系结构的基础上,详 细讨论了f t c 5 5 l p 中程序流单元的性能要求和限定条件下的设计及其正确性验 证。 本文设计的f t c 5 5 l p 程序流单元主要由数据交换控制模块、程序控制模块和 流水线控制模块三部分组成。程序流单元的主要功能是完成程序地址产生,程序 执行路径和状态控制,程序中跳转、条件、循环等控制类指令的执行处理,中断 响应与处理,流水线的控制和冲突保护等。本文针对f t c 5 5 l p 的指令集特点和性 能、功耗需求,在程序流单元中设计了专门的条件计算逻辑和循环控制逻辑,有 效地提高了f t c 5 5 l p 中条件指令和循环指令的执行效率。另外,程序流单元中 f t c 5 5 l p 中断系统的设计与实现也有效提高f t c 5 5 l p 执行数字信号处理算法的 效率和拓展了其应用领域。 f t c 5 5 l p 内部采用了1 2 级的深度流水线,并具有自动的流水线冲突硬件保 护机制。因此,流水线控制的设计与实现成为能否实现f t c 5 5 l p 性能和功耗要求 的关键因素之一。在程序流单元的设计与实现的过程中,本文针对f t c 5 5 l p 的流 水线特别是其中的硬件自动保护机制进行了深入的研究与分析。在流水线的硬件 自动保护机制的设计中,分析比较了现有的几种通用流水线保护机制的优缺点, 针对f t c 5 5 l p 的流水线特点和性能、功耗需求提出了一种有效的基于资源分段访 问的流水线保护机制并建立了统一的分析模型。模型表明,这种流水线保护机制 有效提高了f t c 5 5 l p 的性能,降低了其硬件复杂度。 本文最后对所设计的程序流单元进行了模块级的功能验证。在底层模块的验 证过程中,本文采用了e d a 软件自动进行的代码覆盖率统计的验证策略;在顶层 模块的验证过程中,本文采用了e d a 软件自动进行代码覆盖率统计和进行用户自 定义功能点的功能覆盖率统计相结合的验证策略。验证结果表明程序流单元的设 计完全符合f t c 5 5 l p 的设计要求,功能完全正确。 主题词:数字信号处理器,程序流单元,流水线保护机制,功能验证,代码 覆盖率,功能覆盖率 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t d i g i t a ls i g n a lp r o c e s s o rc a nb eo p t i m i z e df o rh i g he f f i c i e n c y ,l o w - p o w e ro p e r a t i o n a n d1 0 wc o s t i tp l a y sa ni m p o r t a n tr o l ei nt h ea r e ao ft e l e c o m m u n i c a t i o n sa n dc o n s u m e r e l e c t r o n i c s t h ef t c 5 5 l pw i t hi n d e p e n d e n c ep o s i t i v e d i r e c t i o nd e s i g ni sah i g h p e r f o r m a n c ea n d l o wp o w e r16 - b i tf i x - p o i n tp r o g r a m m a b l ed i g i t a ls i g n a lp r o c e s s o r i n t h i sp a p e r , t h ep r o g r a mu n i t ( p t oo ff t c 5 5 l pi sd e s i g n e da n dv a l i d a t e du n d e rt h e p e r f o r m a n c ed e s i r ea n dl i m i tc o n d i t i o n ,b a s i n go nt h el u c u b r a t i o no ff t c 5 5 l p a r c h i t e c t u r e t h ep r o p o s e dp ui nt h i ss t u d yi sc o n s i s t i n go fd a t ae x c h a n g eu n i t ,p r o g r a mc o n t r o l u n i ta n dp i p e l i n ec o n t r o lu n i t t h ep up r o d u c e st h ep r o g r a ma d d r e s s ,c o n t r o l st h e p r o g r a me x e c u t i n gp a t ha n ds t a t e ,a n dd e a l sw i t ht h ec o n t r o li n s t r u c t i o ns u c ha sb r a n c h , c o n d i t i o n ,r e p e t i t i o na n ds oo n i ta l s oi n i t i a t e si n t e r r u p ts e r v i n gw h e na l li n t e r r u p ti s r e q u e s t e da n dp r o p e r l ye n a b l e da n dc o n t r o l st h ep i p e l i n ea sw e l la st h ep r o t e c t i o n t h e s p e c i a lc o n d i t i o nc a l c u l a t i n gl o g i ca n dr e p e t i t i o nc o n t r o l l i n gl o g i co fp ui na l l u s i o nt o t h ei n s t r u c t i o n sc h a r a c t e r i s t i c a n dt h ep e r f o r m a n c er e q u i r e m e n ta sw e l la st h ep o w e ro f f t - c 5 5 l p ,i si no r d e rt oi m p r o v et h ee x e c u t i n ge f f i c i e n c yo fc o n d i t i o ni n s t r u c t i o n sa n d r e p e t i t i o ni n s t r u c t i o n si nf t - c 5 5 l pa v a i l a b i l i t y i na d d i t i o n ,t h ef t c 5 5 l pi n t e r r u p t s y s t e md e s i g n e da n dr e a l i z e di np uc a ne n h a n c et h ee x e c u t i n ge f f i c i e n c yo fd i g i t a l s i g n a la r i t h m e t i ca v a i l a b i l i t ya sw e l la st h ea p p l i c a t i o nf i e l d t h ef t - c 5 5 l ph a sap i p e l i n ew i t h12s t a t e sa n dt h er e s o u r c ec o n f l i c ti sc o m p l e t e l y r e s o l v e d b y h a r d w a r e p i p e l i n ep r o t e c t i o nm e c h a n i s m t h e r e f o r e ,t h ep i p e l i n e c o n t r o l l i n gl o g i ci so n eo ft h em o s ti m p o r t a n tp a r t si nt h ed e s i g no ff t c 5 5 l p t h e t h e s i sd i s c u s s e st h ed i s a d v a n t a g eo fs o m ec u r r e n c yp i p e l i n ep r o t e c t i o nm e c h a n i s ma s w e l la st h ea d v a n t a g ed u r i n gd e s i g n i n gt h eh a r d w a r ea u t o m a t i s mp i p e l i n ep r o t e c t i o n m e c h a n i s m a ne f f e c t i v ep i p e l i n ep r o t e c t i o nm e c h a n i s mb a s i n go na c c e s s i n gs o u r c e s u b s e c t i o ni si n t r o d u c e da f t e rc o n s i d e r i n gt h ec h a r a c t e r i s t i co ff t c 5 5 l pp i p e l i n ea n d t h ec l a i mo ff t c 5 5 l pp e r f o r m a n c ea sw e l la sp o w e r t h i sp i p e l i n ep r o t e c t i o n m e c h a n i s mh a sb e e ne n h a n c i n gt h ef t c 5 5 l pp e r f o r m a n c ea n dr e d u c i n gt h eh a r d w a r e c o m p l e x i t y a tt h ee n do ft h i sp a p e r ,t h ev e r i f i c a t i o np r o c e s s i n go ft h ep ud e s i g n ,w h i c hd r o v e d b yc o d ec o v e r a g ea n df u n c t i o nc o v e r a g e ,i sp e r f o r m e d t h er e s u l t so fs i m u l a t i o ns h o w t h a tt h ep r o g r a mu n i tc a nf u l l ym e e tt h ep e r f o r m a n c er e q u i r e m e n t so ff t c 5 5 l pa s w e l la st h ef u n c t i o nr e q u i r e m e n t s k e yw o r d s :d i g i t a ls i g n a lp r o c e s s o r 。 m e c h a n i s m ,f u n c t i o nv e r i f i c a t i o n ,c o d e p r o g r a mu n i t ,p i p e l i n ep r o t e c t i o n c o v e r a g e ,f u n c t i o nc o v e r a g e 第i i 页 国防科学技术大学研究生院硕士学位论文 表目录 表2 1指令流水线的各段功能描述2 3 表3 1程序地址产生逻辑的寄存器描述3 0 表3 2 程序流单元的外部数据接口描述3 7 表3 3 指令码中( e o n d ) 条件字段描述4 0 表4 1 三种流水线保护机制的资源耗费对比6 3 表5 1数据移动顶层模块的功能点描述7 0 表5 2 程序控制顶层模块的功能点描述7 2 表5 3 流水线保护顶层模块的功能点描述:7 4 表5 4 程序流单元的验证结果8 1 第1 i i 页 国防科学技术大学研究生院硕士学位论文 图1 1 图1 2 图2 1 图2 2 图2 3 图2 4 图2 5 图2 6 图2 7 图2 8 图2 9 图2 1 0 图2 1 1 图2 1 2 图3 1 图3 2 图3 3 图3 4 图3 5 图3 6 图3 7 图3 8 图3 9 图3 1 0 图3 1 1 图3 1 2 图3 1 3 图4 1 图4 2 图4 3 图4 4 图4 5 图 目录 门控时钟电路7 f t c 5 5 l p 数据分离结构7 f t c 5 5 l p 的内部结构图13 f t c 5 5 l p 的c p u 框图1 4 指令缓冲单元框图17 程序流单元( pu n i t ) 框图18 地址数据流单元( au n i t ) 框图19 数据计算单元( du n i t ) 框图2 0 f t c 5 5 l p 存储器映射2l f t c 5 5 l p 的片内和片外存储器映射2 2 f t c 5 5 l p 的指令流水线2 4 流水线中功能部件的划分。2 4 流水线旁路机制示意图2 5 旁路电路示意图2 5 程序流单元( pu n i t ) 内部结构2 8 指令缓冲队列( i b q ) 结构2 9 程序地址产生逻辑的内部结构3 2 程序控制状态转换3 3 程序流单元的外部数据接口3 7 硬件循环控制逻辑内部结构。3 9 条件计算逻辑的内部结构。4 2 中断标志寄存器4 4 中断在流水线中的执行过程。4 5 中断系统的总体结构4 6 i q 模块的内部结构4 7 外部中断信号同步的状态转换4 9 无条件跳转导致控制相关时流水线的情况5 l f t c 5 5 l p 流水线对写后读冲突的处理过程5 5 基于记分牌技术的流水线保护机制的结构5 6 基于仲裁式电路的流水线保护机制的结构。5 7 x 处理器流水线中对a r x 的可能访问情况5 8 x 处理器中关于资源a r x 的仲裁电路5 8 第1 v 页 国防科学技术大学研究生院硕士学位论文 图4 6 图4 7 图4 8 图4 9 图5 1 图5 2 图5 3 图5 4 图5 5 图5 6 图5 7 图5 8 图5 9 图5 1 0 图5 1 l 图5 1 2 图5 1 3 图5 1 4 图5 1 5 图5 1 6 f t c 5 5 l p 流水线中各段资源访问的数据结构6 0 f t c 5 5 l p 中流水线保护机制的总体结构6 l 对f t c 5 5 l p 流水线中寄存器访问操作的抽象6 3 三种流水线保护机制的资源耗费对比6 4 验证与测试的比较6 5 模块的验证流程6 8 顶层模块的验证流程6 9 条件计算模块的外部接口7 8 条件计算模块的测试向量1 7 8 条件计算模块的测试向量1 的代码覆盖率7 9 条件计算模块的测试向量2 7 9 条件计算模块的测试向量2 的代码覆盖率8 0 模块pp c 测试波形图1 8 2 模块pp c 测试波形图2 8 2 模块pp c 测试波形图3 一8 2 模块pp c 测试波形图4 8 3 模块pp c 测试波形图5 一8 3 模块pp c 测试波形图6 8 4 模块ps t o r e 测试波形图l 8 4 模块ps t o r e 测试波形图2 8 4 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:童焦丞 日萁i j :纱刁年l 乞月乡日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名:乏鳖鱼毯日期:纱口7 年f 乙月日 作者指导教师签名:日期:纱幻罾年陟月刀日 国防科学技术大学研究生院硕士学位论文 第一章引言弟一早jii 本章首先提出课题研究的背景与意义;接着介绍国内外d s p 芯片的发展现状; 然后讨论了f t c 5 5 l p 实现的关键技术和设计流程;最后讲述本文的研究内容和结 构。 i i 课题研究的背景与意义 2 1 世纪是数字化的时代,随着越来越多的电子产品将数字信号处理( d s p ) 作为技术核心,d s p 已经成为推动数字化进程的主要动力之一。d s p 可以代表数 字信号处理技术( d i g i t a ls i g n a lp r o c e s s i n g ) ,也可以代表数字信号处理器( d i g i t a l s i g n a lp r o c e s s o r ) ,其实两者是不可分割的。前者是理论和计算方法上的技术,后 者是指实现这些技术的通用或专用可编程微处理器芯片。数字信号处理器是针对 数字信号处理需要而设计的一种具有特殊结构的微处理器,它是现代电子技术、 计算机技术和信号处理技术相结合的产物。由于数字信号处理器具有运算速度快, 可编程特性和接口灵活的特点,使得它在许多电子产品的研制、开发与应用中, 发挥着越来越重要的作用。采用数字信号处理芯片来实现数字信号处理系统是当 前其技术发展的主流趋势。 新一代消费性商品和宽带通信是d s p 技术的最重要的应用市场,如移动电话、 个人医疗设备等都采用电池供电,并需要有尽可能长的使用时间。d s p 芯片是这 些产品的核心器件,降低它的功耗可以延长电池的寿命,增加产品的使用时间, 减轻电池的重量。随着超大规模集成电路技术、d s p 芯片体系结构和先进的电源 管理设计技术的发展,d s p 芯片的功耗已越来越低,预计到2 0 1 0 年d s p 芯片的功 耗可下降到o 0 0 1 m w m i p s i j 。因此,高性能低功耗将是未来d s p 处理器发展的 主要方向,本文主要研究高性能、低功耗的可编程数字信号处理器基本功能单元 的设计与实现。 我国d s p 芯片的研究与开发还处于起步阶段,也有研究机构和生产企业已经 研制出几款可实用的d s p 芯片,但是技术水平还不能和国外的产品相提并论,仍 处于落后阶段。目前,t i 、摩托罗拉、杰尔和a d i 四家厂商占据了国内9 0 以上 的市场份额i i 列,绝大部分产品依赖进口。我国是亚洲乃至世界发展潜力最大的市 场,数码相机、移动电话和手持电子设备等数码产品在国内市场的迅速发展促进 了高性能低功耗d s p 的广泛使用。我国对d s p 芯片每年的需求量在不断增长,然 而d s p 芯片的供应市场却被国外厂商所垄断。这种状况对于我国的国防建设,科 技进步,乃至于整个国民经济的安全和发展会产生不利影响。以当前世界d s p 芯 第1 页 国防科学技术大学研究生院硕士学位论文 片的发展和应用需求为背景,我们在d s p 芯片的研究和设计方面展开了深入的工 作,并取得不错的效果。本文就是以这些工作为基础而展开和完成的。 近年来,随着互联网的高速发展、无线通信的日趋成熟以及便携式多媒体设 备的出现,市场对d s p 的性能提出了新的要求,从以前要求性能与速度转向更多 的要求功耗。消费者希望购买的手机、便携式音乐播放器设备等能够有较长时间 的待机而不是将时间浪费在充电与更换电池上,这就要求d s p 的设计者将目光更 多的投向芯片的功耗方面。 f t c 5 5 l p 芯片的研制项目正是在这样的背景下产生的,它与t i 公司的 t m s 3 2 0 v c 5 5 x 指令级兼容,来源于某预研项目“1 6 位定点低功耗数字信号处理 器c p u 核的研制 。本项目的目标是设计一种能够在有限功率条件下保持最好性 能的d s p 处理器核。本论文课题是该研制项目的一部分,任务是f t c 5 5 l p 程序 流单元的设计与实现。 1 2 国内外d s p 的发展现状与趋势 d s p 芯片诞生于2 0 世纪7 0 年代末,至今已经得到了突飞猛进的发展,并经 历了以下四个阶段【1 3 】【1 4 】【1 5 】。 第一阶段,d s p 的理论和雏形阶段( 2 0 世纪7 0 年代) 。在d s p 芯片出现之 前,数字信号处理只能依靠通用微处理器来完成,但是通用微处理器较低的数字 信号处理速度和高能耗无法满足数字信号处理高速实时的要求。在2 0 世纪7 0 年 代中期,库利( c o o l e y ) 和图基( t u k e y ) 发表了著名的快速傅里叶变换f f t ( f a s t f o u r i e rt r a n s f o r m ) ,极大地降低了傅里叶变换的计算量,从而为数字信号的实时 处理奠定了算法的基础。这个时期的d s p 芯片由于内部没有专门的单周期硬件乘 法器,使芯片的运算速度、数据处理能力和运算精度受到了很大的限制,其应用 仅局限于军事、航空航天等领域。 第二阶段,d s p 的初步发展阶段( 2 0 世纪8 0 年代) 。随着大规模集成电路技 术的发展,1 9 8 2 年t i 公司推出了其第一代d s p 芯片t m s 3 2 0 1 0 。这种d s p 芯片 采用微米n m o s 工艺制造,虽然功耗和尺寸比较大,但是它采用了改进的哈佛结 构,允许数据在程序存储空间与数据存储空间之间传输,大大提高了运行速度和 编程灵活性,在语音合成和编码解码器中得到了广泛的应用。d s p 从概念走向了 产品,t m s 3 2 0 1 0 所表现出来的出色性能和特性备受业界广泛的关注。到了8 0 年 代中期,随着c m o s 技术的进步与发展,第二代基于c m o s 工艺的d s p 芯片应 运而生,其存储容量和运算速度都得到成倍提高,成为语音处理、图像硬件处理 的基础构件。 第三阶段,d s p 的成熟阶段( 2 0 世纪9 0 年代) 。这个时期,国际上许多著名 第2 页 国防科学技术大学研究生院硕士学位论文 的集成电路厂家都相继推出自己的d s p 产品。如:t i 公司的t m s 3 2 0 c 2 0 、3 0 、 4 0 、5 0 系列,m o t o r o l a 公司的d s p 5 6 0 0 、9 6 0 0 系列,a t & t 公司的d s p 3 2 等。这 个时期的d s p 芯片在硬件结构上更适合于数字信号处理的要求,能进行硬件乘法、 硬件f f t 变换和单指令滤波处理,其运算速度进一步提高,其应用范围逐步扩大 到通信、计算机领域。到了9 0 年代中后期,d s p 芯片具有的主要特点是较高的时 钟频率,同时增加了一些功能单元( 如桶形移位器等) 和采用了较深的流水线设 计( 一般都超过5 级流水) ,并引入了低功耗设计技术等。典型的产品是a d s p 2 1 9 x , t m s 3 2 0 c 5 4 x 等。 第四阶段,d s p 的完善阶段( 2 0 0 0 年以后) 。这一时期的d s p 芯片不仅信号 处理能力更加完善,而且使系统开发更加方便,程序编辑调试更加灵活,功耗进 一步降低,成本不断下降,系统集成度更高,大大提高了数字信号的处理能力。 这一时期的d s p 芯片另外一个最大的特点是实现了指令的多发射,一般采用超长 指令字( v l i w ) 结构,还有一些采用单指令多数据流( s i m d ) 结构,其时钟频 率可高达1 g h z 以上,可在w i n d o w s 环境下直接用c 语言编程。这不仅使d s p 芯 片在通信、计算机领域得到了广泛的应用,而且逐渐渗透到人们日常消费领域。 目前,d s p 芯片普遍采用0 2 5 i t m 至0 0 6 5 皿n 的c m o s 工艺,芯片引脚从原 来的4 0 多个增加到2 0 0 个以上,需要设计的外围电路越来越少,成本、体积和功 耗不断下降。d s p 芯片的片内程序和数据存储器的容量达几十m b 以上,而片外 程序存储器和数据存储器的可用空间达到g b 数量级。现在的d s p 芯片内部均采 用多总线、多处理单元和多级流水线结构,加上完善的接口功能,使d s p 的系统 功能、数据处理能力和与外设的通信能力都有了很大的提高。近2 0 年的发展,使 d s p 的指令周期从4 0 0 n s 缩短到1 0 n s 以下,其相应的速度从2 5 m i p s 提高到 2 0 0 0 m i p s 以上【1 6 】。 d s p 芯片技术的发展,主要围绕兼顾如下三个因素展开:即性能 ( p e r f o r m a n c e ) 、功耗( p o w e rc o n s u m p t i o n ) 和价格( p r i c e ) 。总的说来,随着 超大规模集成电路( v l s i ) 技术的高速发展,现代d s p 芯片在价格显著下降的同 时,仍然保持性能的不断提升和单位运算量功耗的不断降低。但是,d s p 继续面 临的要求是处理速度更高、性能更多更加全面,功耗更低,存储器用量更少。所 以,d s p 芯片将会有以下一些发展趋势【1 7 】【1 8 】【1 9 1 。 d s p 走向多核与s o c d s p 的“多核”发展趋势可以从广度和深度两个方面进行分析。从广度上讲, d s p 的“多核 是指d s p 的型号或者说是面向不同类型的应用越来越多。如 t m s 3 2 0 c 6 0 0 0 系列面向最高性能,t m s 3 2 0 c 5 0 0 0 系列面向高性能与低功耗相结 合,t m s 3 2 0 c 2 0 0 0 系列面向结合类似m c u 的控制功能与d s p 的高性能等。从深 第3 页 国防科学技术大学研究生院硕七学位论文 度上讲,d s p 的“多核 是指一个d s p 中集成了多个d s p 核。在当今面向高速、 高密度数据信号处理应用中,多d s p 的糅合具有十分重要的必要性。如t i 公司在 最近公布的无线基础设施的多核d s p 中,已经有一款6 核方案,并计划在未来的 2 5 年内推出一个将集成百个处理器的d s p 芯片。然而对于那些不属于高数据密度 的应用,d s p 将来的发展方向是s o c ( s y s t e m so nc h i p ) 。s o c 集成系统将在系统 处理器的控制下,同时使用可编程d s p 和相应的硬件加速器。近来国际上流行的 达芬奇( d a v i n c i ) 平台就是一个s o c 的典型例子,它采用了d s p 和a r m 双核结构, 以及视频前端和视频加速器,专门针对数字视频的应用而设计。 d s p 越来越快 d s p 越来越快是指d s p 的运算速度越来越快,指令的执行时间越来越短,频 率越来越高,功能越来越强。d s p 芯片要在不提高时钟频率和显著改变硬件的条 件下改善其性能,就必须使其在每一个时钟周期内做更多的工作。一种方法是通 过增加片上运算单元的个数以及相应的连接这些单元的总线数目,就可以成倍地 提升芯片的总体运算能力。另一种方法是使用“并行 的结构。并行执行多条指 令的d s p 芯片的结构又分为两类,即超长指令字( v l i w ) 和超标量( s u p e r s c a l a r ) “ 结构。 d s p 越来越小 高集成度也是d s p 芯片的发展趋势之一。在通信领域为了用低功耗的小型器 件进行高水准的调制和解调算法处理,已经开发出包含有d s p 内核电路的单片算 法集成电路。当今随着微细化工艺技术的不断发展,在更多地采用0 0 6 5 i t m c m o s 工艺之后,集成度将会得到进一步的提高,而电压和功耗将会进一步降低,从而 能够在保证d s p 芯片功能多样化的同时其体积和面积不断减小。为了进一步缩小 d s p 芯片的体积,科学家们正在研制一系列的采用非硅材料制造的芯片,例如砷 化镓( g a a s ) 芯片、锗( g e ) 芯片以及硅锗( s i g e ) 芯片等。这些非硅d s p 芯片的体积 更小巧,能够用来制造轻、薄、短、小的数字通信设备。 d s p 存储器架构的变化 随着d s p 芯片主频的不断提高,存储器的访问速度日益成为系统性能提升的 瓶颈。在现有的制造工艺下,片上存储单元的增加将导致数据线负载电容的增加, 影响到数据信号的开关时间和增加整个芯片的功耗,这意味着片上高速存储单元 的增加将是十分有限的。为了解决存储器速度与c p u 内核速度不匹配的问题,新 的d s p 芯片采用了多级高速缓存( c a c h e ) 机制,如t i 的c 6 4 xd s p 就采用了两 级c a c h e 结构。研究表明,在很多情况下,采用这种多级缓存架构可以达到采用 完全片上存储器结构系统的约8 0 的执行效率【2 0 】。但是,采用c a c h e 机制也在一 定程度上增加了系统执行时间的不确定性,其对于实时系统的影响需要用户认真 第4 页 国防科学技术大学研究生院硕士学位论文 地加以分析和评估。 定点可编程d s p 芯片 可编程d s p 给生产厂商提供了很大的灵活性。生产厂商可在同一个d s p 平台 上开发出各种不同型号的系列产品,以满足不同用户的需求。同时,可编程d s p 也为广大用户提供了易于升级的良好途径。从理论上讲,虽然浮点d s p 的动态范 围比定点d s p 大,且更适合于d s p 的应用场合,但定点运算的d s p 器件的成本 较低,对存储器的要求也较低,而且功耗较低。因此,定点运算的可编程d s p 器 件仍是市场上的主流产品。 d s p 功耗越来越低 新一代消费性商品和宽带通信是d s p 技术的最重要的应用市场,其中大多数 产品采用电池供电,并需要有尽可能长的使用时间。d s p 芯片是这些产品的核心 器件,它的功耗将会越来越低。针对d s p 功耗的变化趋势,存在一个g e n e 定律。 g e n e 定律认为,d s p 功耗性能比每隔5 年将降低1 0 倍。 进入2 l 世纪后,d s p 芯片将向着高性能、低功耗、加强融合和拓展多种应 用的趋势发展,d s p 芯片将越来越多地渗透到各种电子产品当中,成为各种电子 产品尤其是通信类电子产品的技术核心。面对新世纪的网络产品、消费类电子产 品以及无线通信等领域不断涌现的新应用,d s p 芯片在不断地提高性能和增加功 能的同时,正在不断地降低功耗和减小体积,以便适应市场的需求。 1 3f t - c 5 5 l p 设计实现的关键技术和设计流程 f t c 5 5 l p 是我们设计的一款高性能低功耗的定点可编程d s p 芯片。f t c 5 5 l p 紧跟当今d s p 芯片的发展趋势,低功耗、低成本,在有限的功率条件下,保持最 好的性能。f t c 5 5 l p 对数字通信等便携式应用所提出的挑战,提供了有效的解决 方案。 为了实现f t c 5 5 l p 高性能低功耗的设计目标,我们在设计和实现f t c 5 5 l p 芯片的过程中就必须对f t c 5 5 l p 中提高性能和降低功耗的关键技术进行深入的 研究。 提高f t c 5 5 l p 芯片的性能 目前数字信号处理的对象越来越复杂,数据的处理量越来越大,这就必须努 力提高数字信号处理器的性能。由于数字信号运算的功能是由程序通过一系列的 指令来完成的,因此,可以认为在单位时间内d s p 所执行的指令数越多,即i p c ( 每时钟周期指令数) 越大,d s p 的性能越好。d s p 的性能与三个因素有关:第 一个因素是用户程序编译后,在d s p 中可并行运行的机器指令数量,即d s p 程序 的指令并行性,它与d s p 的指令系统和编译器有关。第二个因素是执行每条机器 第5 页 国防科学技术大学研究生院硕十学位论文 指令所需的平均机器周期数量,它与d s p 的系统结构设计技术有关。第三个因素 是每个机器周期执行时间的长短,它与d s p 的材料和加工工艺有关。因此,为了 提高f t c 5 5 l p 性能,可以从以下三个方面着手。 1 、f t c 5 5 l p 指令系统的改进 指令系统是用户软件与硬件的界面,不可能进行大规模的改变,否则将引起 软件的不兼容现象产生。在与以前系统兼容的基础上,f t c 5 5 l p 的指令系统进行 了一些特殊扩展技术,如支持双m a c 操作、块循环嵌套、寄存器内容互换等。 2 、f t c 5 5 l p 系统结构设计的改进 一个全新的结构虽然有利于性能提高,但是必然造成硬件、软件、外部设备 之间的不兼容现象。另外,新的结构必然导致加工工艺的重大改变,而这将造成 加工成本的大幅增加。因此,在d s p 设计技术中,往往在保证与以前的指令系统 兼容的基础上,改进d s p 的硬件结构。在f t c 5 5 l p 的体系结构设计中,采用了 超流水线、两路超标量、分支预测、指令预取和流水线自动保护等技术,有效地 缩短了执行指令所需的时间。 3 、f t c 5 5 l p 制造工艺的改进 提高d s p 工作频率一直是提高d s p 性能的重要方法之一。但是提高频率会带 来一系列问题,例如,d s p 工作温度升高,造成系统运行不稳定;d s p 时钟周期 加快,造成系统信号的时序匹配出错等。为了避免这些问题,在d s p 的制造工艺 中,往往采用减小线宽、改进硅材料和改进封装技术等方法,达到既能增加晶体 管数目,又能降低d s p 工作电压,达到提高d s p 性能的目的。 降低f t c 5 5 l p 芯片的功耗 c m o s 电路的功耗分为动态功耗和静态功耗两种。动态功耗又包括开关动作 功耗和短路功耗两类。开关动作功耗主要是指电路节点电平翻转时对负载电容的 充放电功耗;短路功耗主要是指状态跳变时源漏间短路所引起的功耗;静态功耗 是由漏电流引起的功耗。在典型的c m o s 电路中开关动作功耗是占主导地位的因 素。 c m o sf - j 的功耗在电路设计的各个阶段都可以得到优化,从体系结构设计到 r t l 代码实现,再到电路综合和版图实现都有相应的优化方法。对动态功耗优化 的技术有:降低电源电压、采用多种器件阀值、调整晶体管的尺寸减少开关电容、 通过资源分配降低开关活动性、时钟屏蔽技术、竞争相关消除、多输入逻辑门的 低功耗展开、分区供电等;对静态功耗的优化技术有:虚拟供电网络、最小漏电 流输入、浮动衬底电压、绝缘衬底掣2 1 1 。在体系结构的设计和r t l 级代码编写的 过程中,降低电路翻转率是实现低功耗设计的重要手段。下面介绍两种在r t l 级 进行功耗优化的主要技术:门控时钟和数据分离技术。 第6 页 国防科学技术大学研究生院硕士学位论文 门控时钟技术 门控时钟技术主要是用于降低寄存器文件的动态功耗,如图1 1 所示。 无门控时钟电路 do 一 青存鬻 有门控时钟电路 图1 1 门控时钟电路 门控时钟电路中,时钟信号( c l k ) 不再直接加到寄存器的输入端,而是由 数据输入的使能信号( e n a b l e ) 控制是否加到寄存器的时钟输入端口。当使能信号 ( e n a b l e ) 无效时,时钟信号( c l k ) 不会送到寄存器的时钟信号端,这样就减少 了寄存器的内部节点的电平翻转,降低了动态功耗。 数据分离技术 f t c 5 5 l p 芯片为了并行性的需要,c p u 内部有两个处于相同地位的乘累加 ( m a c ) 单元以及两个数据宽度不一样的算术逻辑单元( a l u ) 。但是,这些执 行运算单元不会所有时候都在流水线中参加运算,然而这些执行单元的数据输入 都来自同样的内部数据总线。如果在某一时刻只需使用一个m a c 单元或一个a l u 单元时,虽然其它运算单元的输出结果对程序来说都是无效的,但是由于它们的 输入数据信号发生了翻转,所以它们单元内部的信号也会发生翻转,即它们也参 加了运算,产生了不必要的动态功耗消耗。因此,我们对f t c 5 5 l p 采用了数据分 离技术,优化其内部的数据通路结构,如图1 2 所示。 d 单元 敝 臻作数 ii 控捌信号ll 臻作敦i 缝制信号ll 燎作数l 控钢信号 毒夺器 i 膏存薯 ll 寄存嚣i寄存嚣ll 鼍夺器l 鼍存基 毅舞息纽ll 使麓馕号控舅信号l i使麓信霉 数据总缝2 馕麓馕号控翻佳号i i 使麓德鼍控一信号i f 蕞能信号 倥麓德鼍 健健懂粤 图1 2f t - c 5 5 l p 数据分离结构 整翻信号i 使麓信号 第7 页 黼黑工作夺一臻鼍 国防科学技术大学研究生院硕士学位论文 如上图所示,f t c 5 5 l p 中各个运算执行单元不再使用相同的操作数,在每个 运算单元的前面加上单独的操作数寄存器,同时这些寄存器都有使能信号控制。 如果某个运算单元需要执行运算功能,相应的使能信号译码为高电平,在时钟上 升沿来临时,有效的操作数锁入操作数寄存器中,在下一个时钟周期,该运算单 元获得正确的操作数;其它运算单元的使能信号译码为低电平,操作数寄存器的 数据不会改变,也不会进行运算,即没有动态功耗的消耗。同样对各个运算单元 的控制信号也采用这种方式。 f t c 5 5 l p 的设计采用了正向设计流程,充分利用e d a 工具的处理能力。 f t c 5 5 l p 的设计目标是用r t l 可综合的源代码完成对f t c 5 5 l p 芯片c p u 的系 统结构实现,包括r t l 级系统描述和仿真、系统综合、网表生成和时序验证、功 耗优化等,最后在f p g a 上实现f t c 5 5 l p 的原型系统。 f t c 5 5 l p 的设计流程如下: l 、分析研究f t c 5 5 l p 的指令集,确定f t c 5 5 l p 内部c p u 的流水线及系统 结构,撰写相应的系统说明文档及设计目标。 2 、划分c p u 内部的单元组成,确定相应各个单元的功能描述,撰写各个功 能单元的概要设计文档。 3 、详细描述各单元的内部功能及相应指令的流水线执行过程,形成各功能单 元的详细设计文档。 4 、根据各个单元的详细设计文档,编写符合项目设计代码规范的r t l 级源代 码。 5 、各个单元进行模块级测试,并对各个单元的接口信号进行协调,最后形成 整个系统模块的r t l 级源代码。 6 、建立自动测试平台,对硬件复位、单指令、多指令、相关性指令、中断等 情况进行功能验证,使用仿真工具在r t l 级对f t c 5 5 l p 的c p u 进行仿真模拟。 7 、对数字信号处理算法的库程序进行仿真验证,验证处理器功能的正确性。 8 、进行f p g a 综合和仿真。验证电路的时序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电竞产业商业化方向探讨
- 数字化营销推广方案
- 体育行业健身挑战赛计划
- 环保科技创新项目方案书
- 在线职业技能认证平台项目建议书:构建技能型社会
- 安全教育培训结束课件
- 2025年新能源汽车电机绿色制造节能效果报告
- 【二手车】行业发展趋势报告:2025年市场规模展望新能源车占比5%
- 金属矿山尾矿处理技术2025年新突破与生态修复路径研究
- 2025年语言培训行业国际化课程国际化教学手段创新报告
- THNBX 膝痹(原发性双侧膝关节病)综合诊疗规范
- 2025年初级注册安全工程师考试练习题及答案解析
- 中科大环境与资源保护法学教案
- 【锐仕方达】2025低空经济产业发展及薪酬趋势研究报告623mb
- 网络安全知识培训资料
- 2025年统编版(2024)小学道德与法治二年级上册《教师节快乐》教学设计
- 手术后疼痛评估与护理团体标准
- dcs上墙管理制度
- 麻醉与内分泌系统
- 九一八《勿忘国耻吾辈当自强》班会课件
- 关于卫生院“十五五”发展规划(完整本)
评论
0/150
提交评论