




已阅读5页,还剩77页未读, 继续免费阅读
(电子科学与技术专业论文)dsp高效片内二级cache控制器的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院学位论文 a b s t r a c t n o w a d a y st h ed i g i t a ls i g n a lp r o c e s s o r ( d s p ) h a sg o tal o to fd e v e l o p m e n ta n db e e nw i d e l y u s e d a n dt h e “o n c h i pc a c h ea n dr a m ”s t r u c t u r ei sb e c o m i n ga ni n d i s p e n s a b l et e c h n i q u ei n t h ed e s i g no ft h eh i g hp e r f o r m a n c ed s p t h ed e s i g no fl e v e lt w om e m o r y ( l 2 ) c a c h ec o n t r o l l e r i sak e yp o i n ti nt h e “o n c h i pt w ol e v e lc a c h ea n dr a m ”s t r u c t u r e s oi ti sag o o dr e s e a r c ha r e a t l l a th o wt od e s i g na n dr e a l i z ea na c c u r a t e ,e 伍c i e n ta n df r e q u e n c y s a t i s f i e dl 2c a c h ec o n t r o l l e r f t c x xi sa3 2 b i tf i x e d - p o i n th i g hp e r f o r m a n c ed s pb e i n gd e s i g n e d i t sa r c h i t e c t u r ei s v e r yl o n gi n s t r u c t i o nw o r d ( v l i w ) a n d i tc a ni s s u e8i n s t r u c t i o n si nac y c l e i t sc p uw i l lr u na t t h ef r e q u e n c yo f6 0 0 m h z 。a n di t sp e r i p h e r a le q u i p m e n tw i l lr u na t3 0 0 m h z t h et o t a lc a p a b i l i t y o fl 2i so n em i l l i o nb y t e s w ed e s i g na n dr e a l i z et h el 2c a c h ec o n t r o l l e ro ff t c x x t h em a i n w o r ka n dc o n t r i b u t i o ni sa sf o l l o w s : f i r s t ,w er o u n d l yr e v i e wt h ec a c h et e c h n i q u e sa n dt h er e q u i s i t ep e r f o r m a n c ei nt h ep o p u l a r d s p t h ec a c h e r a ms t r u c t u r ei sd e s i g n e da n dr e a l i z e da n dt h ed a t ab a n k t a gb a n k a n dt h e a d d r e s sa c c e s s e dr u l ea r ef i x e d a n dt h ea s s o c i a t i v er u l e s ,c h o o s i n gc a c h ep o l i c i e s ,w r i t i n g p o l i c i e sa r ef i x e da n dr e a l i z e d ,t o o s e c o n d ,f a c i n gt h ef a c tt h a tt h el 2d a t ab a n kc a no n l yr u na tah a l ff r e q u e n c yo fc p u ,w e m a k es o m em e t h o d st or e d u c et h ec o s to fl 1 ( l 1 da n dl 1 p ) m i s s :1 ) ,t h el 1m i s sp i p e l i n ei s d e s i g n e d o n c et h ep i p e l i n eh a sb e e nt o t a l l yf i l l e d ,t h ei n c r e m e n tc o s to fan e wm i s sa v e r a g e s o n l y2c y c l e s 2 ) ,b e t w e e nl 1da n dl 2w ed e s i g nal 1dw r i t eb u f f e rw h i c hw i d t hi s6 4 - b i ta n d d e p t hi s4 t h ew r i t eb u f f e ra l l o w sm e r g i n go fw r i t er e q u e s t s i tc a nr e d u c et h ew r i t em i s sc o s t e f f i c i e n t l y 3 ) ,as c h e m ew h i c hc o u l ds o l u t et h en o n a l i g n e da c c e s sp r o b l e mi sd e s i g n e d a n dt h i s s c h e m e ,w h i c hh a sl i t t l eh a r d w a r ec o s t ,i sm o r ee m c i e n ta n dc o u l d n tm a k em u c hb u r d e nt ot h e c o m p l i e r t l l i r d w ea l s op r o v i d eag o o dm e t h o df o rt h ee d m a ( e n h a n c e dd i r e c tm e m o r ya c c e s s ) t o a c c e s st h es r a mo fl 2 t h ep o t e n t i a lp a r a l l e l i s mb e t w e e nt h ea c c e s s i n gi sb e i n gm a d eg o o du s e o f t h em e t h o dc o n t a i n ss u p p o r t i n gt h eb u r s ta c c e s s ( 8r e a d i n gb u r s ta n d4w r i t i n gb u r s t ) , p i p e l i n i n gt h es n o o p i n ga n ds e n d i n g ,r e d u c i n gt h et i m e so fs n o o p i n gb yr e c o r d i n gt h es n o o p i n g h i s t o r y a n dr e d u c i n gt h et i m e so fa c c e s s i n gt h el 2d a t ab a n kb yb y p a s sa n dm e r g i n g t h ec o s to f p e re d m a a c c e s si s2 - 3c y c l e s c o m p a r e dw i t ht h es e r i a la c c e s s ,i th a sas p e e d u po f2 0a tl e a s t a tl a s t ,a ne f f i c i e n tm e m o r yc o n s i s t e n c yp r o t o c o li sa l s od e s i g n e da n dr e a l i z e d o no n e h a n d ,v a r i o u sc a c h eo p e r a t i o n sa r ep r o v i d e d o nt h eo t h e rh a n d ,d i f f e r e n ts n o o p i n g sa n dd i f f e r e n t w r i t e - b a c k sa r eh a n d l e ds e p a r a t e l y t h ec o s to fs o m et y p i c a lr e q u e s t sh a sb e e nr e d u c e db y10 a tl e a s tf r o mo u re x p e r i m e n t i na d d i t i o n ,w ea l s oc o m p l e t et h ew o r ko fv e r i f i c a t i o na n ds y n t h e s i so ft h el 2c a c h e c o n t r o l l e r i nt h es m i c0 1 3 t mt e c h n o l o g y ,t h ed e s i g nm e e t st h ef r e q u e n c yr e q u e s tw h i c hi s 6 0 0 m h zi nt h ef a s tu n i t s 3 0 0 m h zi nt h es l o wu n i t s k e y w o r d s :“c a c h ea n dr a m s t r u c t u r e ,m i s sp i p e l i n e ,w r i t eb u f f e bw r i t em e r g e , n o n a l i g n e da c c e s s ,e d m as e r v i c e ,m e m o r yc o n s i s t e n c y 第i i 页 国防科学技术大学研究生院学位论文 表2 1 表2 2 表2 3 表2 4 表2 5 表3 1 表3 2 表3 4 表 表 表 表 表4 3 表4 4 表4 5 表5 1 表5 2 表5 3 表5 4 表5 5 表5 6 表目录 利用存储体编译器生成的1 m bs r a m 的延时和面积信息1 3 l 2 c a c h e 的大小与t a g 位、索引位和偏移量之间的关系1 4 l 2 c a c h e 的大小与访问t a g 体的地址及读出写入t a g 值的关系15 修改l r u 的规则1 6 根据l i 沁位替换某路的规则1 6 缺失流水线第三栈的状态简介2 5 接收发送指针与暂存有写缺失的b u f f e r 的关系。2 8 写双字中的字节与掩码的对应关系。3 3 缺失流水线的执行效率3 5 跨边界访问所花的节拍数3 7 模块级测试e d m a 访问l 2s r a m 效率的激励类型。4 5 e d m a 访问l 2s r a m 过程相关参数统计一4 6 e d m a 读l 2s 洲的开销( 周期) 对比4 6 e d m a 写l 2s r a m 的开销( 周期) 对比4 6 e d m a 访问l 2s 壬乙气m 的效率( 周期) 对比一4 6 c a c h e 应用编程接口函数及其描述。5 0 l 2 控制寄存器操作的详细描述5 0 侦听l 1 p 的类型及来源5 5 侦听l 1 d 的类型及来源5 5 l 1 d 写回操作的来源及处理通路5 7 数据_ 致性维护机制的效率对比:5 8 第1 v 页 国防科学技术大学研究生院学位论文 图1 1 图1 2 图1 3 图2 1 图2 2 图2 3 图 图 图 图 图目录 t io m a _ p 处理器体系结构框架4 a d s p 一2 11 6 1 n 功能结构图5 t ic 6 211 的l 2c a c h e r a m 结构6 f t - c x x 体系结构总体框图1 0 f t c x x 的存储结构示意图1 1 s r a m 的面积随容量的变化规律1 3 l 2 存储体的规划1 4 l 2c a c h e 的t a g 体示意图15 l 2 处理l 1 d 读缺失执行情况示意图1 8 l 1 d 失效流水执行示意图。1 9 图3 3 缺失流水线数据通路图2 0 图3 4l 2 数据体或t a g 体控制示意图2 1 图3 5 插入“气泡的流水线执行方式2 2 图3 6 尽力“流水 的流水线执行方式2 2 图3 7 缺失流水线第一栈结构图2 3 图3 8 缺失流水线第三栈状态转化图2 5 图3 9 不采用“写合并 和采用“写合并执行示意图2 6 图3 t 0l 1 d 写缺失缓冲结构图2 7 图3 11 写合并的r t l 级代码:2 9 图3 12 两个连续的双字。2 9 图3 1 3 程序员眼中的存储空间。3 0 图3 1 4 处理器眼中的存储空间。3 0 图3 1 5 跨边界读的操作流程3 2 图3 16 跨边界写的操作流程。3 2 图3 1 7l 1 d 跨边界读不可c a c h e 的数据时l 2 返回数据示意图3 4 图3 1 8 连续的l 1 d 读缺失请求命中l 2c a c h e 的波形图3 4 图3 1 9 连续的l 1 p 读缺失请求命中l 2c a c h e 的波形图3 5 图3 2 0 连续的l 1 d 写缺失请求命中l 2c a c h e 执行波形图3 6 图3 2 l 满足写合并的l 1 d 写缺失执行波形图3 6 图4 1e d m a 读l 2s r a m 一般的处理流程3 9 图4 2e d m a 读操作理想的两阶段处理过程3 9 图4 3e d m a 读l 2s r a m 的状态转化图4 0 图4 4e d m a 读操作实际的两阶段处理过程4 1 第v 页 国防科学技术大学研究生院学位论文 图4 5e d m a 读l 2s r a m 的侦听过程4 1 图4 6e d m a 读l 2s r a m 侦听返回数据的旁路机制4 2 图4 7e d m a 读l 2s r a m 读数据体的归并机制4 2 图4 8e d m a 写l 2s r a m 的一般处理流程4 3 图4 9 利用掩码写入结果合并过程示例。4 4 图4 1 0e d m a 访问l 2s r a m 的周期数直方图4 7 图5 1l 2 全局写回的执行过程5 2 图5 2l 2 控制寄存器部分操作状态转化图5 3 图5 4 典型请求的执行周期数对比5 9 图6 1c a c h e 行为的监视信息”6 2 图6 2 利用行为监视信息发现、定位和修订错误的过程6 2 图6 3 覆盖率分析驱动的方法的优越性6 3 图6 4 访问l 2 c a c h e 体的7 种操作6 4 图6 5 综合的流程6 5 图6 66 0 0 m 模块的最长路径6 7 图6 73 0 0 m 模块的最长路径:6 8 第v i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入己 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:堕里毫熬盐内三熟堡垒塾曼撞剑墨鲍遮进皇塞理 学位论文作者签名: 型l 鱼垦 日期:a 。a 子年 月卵 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阕;可以将学位论文的全部或部分内容编入有关数据库进行捡索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:墅直夔庄卤三堡垒星塾曼蕉型墨鲍遮盐生塞理 学位论文作者签名:丝i ! ! 兰 日期:& 神孑年f 月日 作者指导教师擀:j e 址日期:侈毋r 年f 月铲日 国防科学技术大学研究生院学位论文 第一章绪论 1 1d s p 芯片概述 数字信号处理器( d i g i t a ls i g n a lp r o c e s s o r s ,d s p ) 是一种用于数字信号处理的嵌入式专 用微处理器【l 】。目前d s p 设计技术已成为集成电路领域发展最快、竞争最激烈的高新技术 之一,也是促使当今科技进步的重要源动力。雷达、声纳、图像处理、蜂窝基站系统等要 求大量数据吞吐和有限时间内完成指定运算的领域,均需要高性能d s p 处理器作为支撑。 此外在数字移动通讯、网络应用、信息家电、马达控制、数码相机、助听器、m p 3 播放机 等消费应用领域,d s p 的应用也是层出不穷1 2 】。在未来的五年中,以下五大关键新兴应用 领域将为d s p 技术的进一步发展提供新的增长动力,即视频影像、汽车电子、基础设施、 工业应用和医疗电子,最具发展潜力的关键应用包括:视频监控分析系统吖汽车信息娱乐 系统、风力发电和个人医护设备p j 。 1 1 1d s p 的结构特点 数字信号处理中的数据操作具有高度重复的特点,特别是乘加操作,在滤波、卷积和 f f t 等常见d s p 算法中用得最多。d s p 芯片内部一般具有专门的硬件乘法器,广泛采用流 水线操作,提供特殊的d s p 指令,可以用来快速地实现各种数字信号处理算法【4 】,同时还 拥有高效的存储控制系统和众多的外设接口t 1 ) 专门的硬件乘法器。在通用处理器( g p p ) 中乘法操作往往通过微程序来实现, 需要1 0 0 多个时钟周期,非常费时。由于d s p 的应用特点,乘法操作是d s p 的一 个主要的操作类型。因此在d s p 内部都设有专门的硬件乘法器,以提高乘法的执 行速度。硬件乘法器是d s p 区别于g p p 的一个主要标志。 2 ) 多功能单元。为了进一步提高速度,很多d s p 芯片除了拥有乘加部件外,还拥有 多个独立的算术运算部件和逻辑运算部件,这些部件能够并行的工作,从而在相 同的时间内能够执行更多的操作。 3 ) 提供特殊的d s p 指令。这些指令能够加快某些运算的执行速度。 4 ) 拥有高效的存储控制系统。由于d s p 面向数据密集型应用,高效的存储控制系统 可以缓解数据瓶颈,充分利用d s p 强大的处理能力。 5 ) 片内集成众多外设控制器。d s p 一般在片内集成了外部存储控制器、串口、主机 口等可编程控制的外设接口,为用户开发和系统扩展提供了极大的方便。 1 1 2d s p 的发展历程 1 9 7 8 年a m i 公司发布的$ 2 8 1 1 是世界上第一个单片d s p 。1 9 7 9 年美国i n t e l 公司发布 第1 页 国防科学技术大学研究生院学位论文 了商用可编程器件2 9 2 0 ,它是d s p 芯片发展的一个重要里程碑。目前,国外主要的d s p 制造商有四家:德州仪器( t i ) 、摩托罗拉( m o t o r o l a ) 、朗讯科技( l u c e n t ) 和模拟器件公 司( a d i ) ,其中德州仪器公司对d s p 芯片的发展起到了巨大的作用。 自上世纪7 0 年代末问世以来,d s p 芯片已经从最初的仅能满足简单乘加运算需要为 特征的第一代发展到现在的以单指令多数据( s i m d ) 和超长指令字( v l l w ) 相结合为特 征的第四代1 6 。其结构经过数次重大变革,如专有乘法器、哈佛总线的结构、多功能单元 和流水线技术以及v l i w 体系结构的引入等等,每一次体系结构上的重大改变都使d s p 的性能得到了一次飞跃。 1 9 9 7 年t i 公司发布的c 6 2 x x 系列,以其开创性地引入v l i w 结构使d s p 设计技术进 入一个新时代。随后各d s p 公司在性能增强上,尤其在开发指令级并行性上进行了很多创 新性设计,如流水线、v l l w 、r i s c 、s u p e r s c a l a r 、s i m d 等技术都被融入到d s p 结构中。 现在成功的高性能d s p 都将v l i w 技术和s i m d 技术结合起来。t m s 3 2 0 c 6 4 x 是t i 公司 于2 0 0 0 年推出的v l i w 结构的高性能d s p 7 1 ,目前1 g h z 的t m s 3 2 0 c 6 4 x 是国际上性能 最高的主流d s p ,每秒可以执行8 0 亿条指令,完成4 0 亿次1 6 位m a c 运算,或者8 0 亿 次8 位m a c 运算。c 6 4 x 运算能力强、片上存储器容量大、外设丰富,代表了高性能d s p 发展的一个方向。a d i 公司的t i g e r s h a r c 系列【8 j 也在其传统的s i m d 结构中融入了许多 v l i w 的特征。此外现在还出现了一种把d s p 核与g p p 核结合起来的h y b r i d 体系结构【9 】, 它保留了g p p 指令集,以及不能被g p p 指令替换的d s p 专用指令,如s h d s p 芯片。 1 1 3d s p 的发展趋势 随着应用对d s p 的要求越来越苛刻以及设计方法和工艺的日益进步,我们相信未来高 性能d s p 将向下列几个方面发展【l o j : 1 ) 向更高性能方向发展。增加并行性和提高频率是提高性能的主要途径。在今后一 段时间内,v l i w 仍将是高性能d s p 的主流体系结构。s i m d 是提高d s p 性能的 有效方法,将在更多的d s p 中得到应用。为了提升时钟频率,d s p 将不断采用更 先进的制造工艺。 2 ) 多个微处理核的m i m d 技术。随着集成电路集成度的提高、多核体系结构的日益 成熟和开发环境的日益完善,多核d s p 将会在高性能应用中占有更加重要的地位。 3 ) 向更低功耗方向发展。消费类d s p 系统尤其是便携式手持产品的迅速发展,对于 低功耗有很高的要求。在提高性能的同时降低功耗一直是d s p 设计者追求的目标。 4 ) 系统软件与应用程序开发环境日趋丰富和完善。d s p 的应用开发越来越依赖于开 发环境,世界上各大d s p 厂商都非常重视提供高效易用的系统软件和开发环境。 5 ) d s p 与m c u 的结合。将d s p 的运算能力和m c u 的通用结构相结合已成为不可 逆转的潮流。将d s p 核与r i s c 微控制器结合在一起,或在通用的c p u 结构上提 供d s p 扩展也是d s p 发展的一个重要方向。 第2 页 国防科学技术大学研究生院学位论文 6 ) 实现可配置的d s p 核。可配置d s p 核可满足不同用户的需求,更加灵活方便。 1 2d s p 片内存储体系结构 1 2 1d s p 存储结构的发展现状与趋势 在9 0 年代中期d s p 体系结构引入了v l i w 和s i m d 技术,从此d s p 的性能得到了长 足的发展。如n 公司的t m s 3 2 0 c 6 4 x 系列【7 j ,频率可达l g h z ,每秒可执行4 0 亿( 1 6 位) 个m a c 操作,a d i 的t i g e r s h a r ct s 2 0 x 系列哺j ,频率也可达到6 0 0 m h z ,每秒可执行4 8 亿个( 1 6 位) m a c 操作。如此强的计算能力,加上v l i w 结构下程序代码比别的结构更 耗费存储资源,要求芯片必须具备足够的存储容量和存储带宽与之相适应,使得宝贵的计 算资源能够得到充分的利用。一 d s p 主要面向数据密集型处理,而且d s p 的实时处理要求决定了c p u 必须在规定的 时间内得出正确的计算结果,太慢的数据存取访问速度势必无法满足应用的需求。与之相 对的是,处理器的性能以每年6 0 的速度在发展,而d r a m 访问时间每年的改善还不到 1 0 ,这就是常说的“存储墙”问题i l 。虽然人们对存储系统性能的提高进行了大量的研 究,从一定程度上缓解了这种矛盾,但是数据存取带来的延迟始终很难得到完好的解决, 存储系统始终是性能提高的瓶颈所在。 当今高性能d s p 都有很先进的片内存储子系统,最明显的特征就是大容量的片内存储 器、高带宽的数据存储通路和高效率的d m a 控制系统。以目前最先进的两款商用d s p : t i 公司的t m s 3 2 0 c 6 4 1 5 t7 j 和a d i 公司的t s 2 0 1 为例【8 i t 3 】,t m s 3 2 0 c 6 4 1 5 的片内l 2s r a m 已经做到了1 m b ,而t s 2 0 1 更是在片内集成了多达3 m b ( 2 4 m b i t ) 的e d r a m 。与这些 大容量片内存储器相匹配的是高带宽的总线。t m s 3 2 0 c 6 4 1 5 的二级存储器与一级指令 c a c h e ( l 1 p ) 之间的数据总线为2 5 6 位,只需一个周期就可以将一个c a c h e 行的数据送至 l 1 p ,与一级数据c a c h e 之间则拥有2 5 6 位的读数据总线和2 5 6 位的写数据总线;而片内 与片外间的数据总线宽度也达到8 0 位,采取双存控机制,拥有两个片内存储控制器:6 4 位的e m i f a 和1 6 位的e m i f b ,使搬移数据到片内的效率提高了至少一倍。t s 2 0 1 也有着 丰富的总线资源,t s 2 0 x 的内部工作频率为6 0 0 m h z ,拥有四条1 2 8 位的内部总线,内部 带宽为6 0 0 4 x1 2 8 比特秒。在d m a 控制方面,c 6 4 提供了多达6 4 个的数据传输通道, 支持p d t 传输和不同结构数据传输的链接;t s 2 0 1 则包含1 4 个专用d m a 通道即4 个外 部d m a ,8 个l i n kp o r td m a 和2 个a u t od m a ,而且在进行数据传输时对c p u 核的影响 更小。 d s p 新的体系结构的不断提出,性能的不断提高,对片内存储系统也提出了很多新的 挑战,总体上来说就是要求拥有更高的带宽、更快的速度、更多的端口、更大的容量和更 低的功耗。从单总线的冯若依曼结构到多总线的哈佛结构,到增加功能单元个数和总线宽 度,采用分体的存储器,引入c a c h e 技术,再到运用v l i w 、s i m d 、m i m d 技术和多处理 第3 页 国防科学技术大学研究生院学位论文 机技术,d s p 的存储系统在不断地适应新的变化。图1 1 是美国t i 公司发布了一款新的嵌 入式多媒体处理器及开发平台0 m a p ,其目的是满足下一代嵌入式设备的需求,主要用于 2 5 g 和3 g 无线手持设备、p d a 和其它多媒体设备【i4 ,c 5 5 xd s p 中加入了数据c a c h e 和 指令c a c h e ,a r m 核有一个1 6 k b 的指令c a c h e 和一个8 k b 的数据c a c h e ,由a r m 微处 理器核配置d s p 核中的m m u 决定d s p 核应该以怎样的方式访问外部的存储器。芯片的 1 9 2 k b 的内部存储器由a r m 和d s p 共享,流量控制器( t c ) 用于控制对外部存储器的访问, 由它内部的仲裁器来决定哪个核有权访问外部存储器,以及是否可以让两个核同时访问外 部存储器。o m a p 还包含一个高性能的9 通道直接存储器访i h - j ( d m a ) 控制器。这个9 通道 d m a 控制器允许芯片和不同的外围部件间高效进行数据传输,而无需a r m 核的干预【l5 1 。 图1 1 t io m a p 处理器体系结构框架 1 2 2d s p 片内c a c h e 技术的重要性和发展要求 从数据处理方面来讲,d s p 与g p p 最大的不同是要接受“实时性 和“确定性”的考 验【1 8 】: 实时性:d s p 进行的是数据密集型运算,其处理对象往往是一个个的数据块,处理完 一个后马上进行下一个的处理,数据吞吐量大,片内与片外间数据交换频繁,数据块与数 据块之间的处理间隔不能过长,这就是d s p 中的“实时性的问题。 确定性:由于d s p 的实时处理要求太高,什么时候数据块处理完,什么时候新的数据 块要送到,程序员都必须有一个清楚的规划预算,这就是d s p 中的“确定性”问题。 由于d s p 的“实时性 和“确定性”的要求,在早期和一些不追求高性能的d s p 存 储系统中并没有引入c a c h e 结构,而是采用一种“c p u 核+ 片内r a m ”的平板结构,片 内只使用r a m ,用于存放程序和数据。r a m 中的数据通过i o 接口和d m a 从片外加载, 第4 页 国防科学技术大学研究生院学位论文 如a d s p - - 2 1 1 6 1 n ( 如图1 2 所示) 。 a d s p 2 1 1 6 1 nf u r t c t i o n u l8 o d rd 幻r a n t 图1 2a d s p 一2 11 6 1 n 功能结构图 在这种平板方式的存储结构中,数据传输必须由程序员来支持,通常的方式是在程序 中利用d m a 机制在c p u 核处理当前数据块时提前将下一个数据块搬到片内r a m 中。这 种策略在早期的d s p 设计和开发中是能够满足需求的。但是进入上世纪9 0 年代以来,随 着信号处理应用领域的不断扩大,需求的不断增加,d s p 应用程序也变得愈加复杂和多样。 程序代码越来越庞大,根本无法全部放到片内。以实现m p e g - 4 编解码为例 2 0 1 ,代码量将 近3 0 0 k b ,其运算过程中所需哈夫曼表、数据堆栈等要占将近5 0 0 - - 6 0 0 k b 左右的空间。 如果全部依靠程序员显式处理这些数据的搬入搬出,工作将会非常繁杂和低效。程序员驾 驭d s p 底层的负担日益繁重,迫切需要新的存储结构的出现。 使用c a c h e 技术能够自动进行片内外数据交换,降低程序员配置搬移数据的负担。但 c a c h e 技术也有其自身缺点:一旦c a c h e 不命中,从片外到片内的失效延迟根本无法满足 应用程序的“实时性要求,其失效的不确定因素也不利于程序员对程序运行的全盘掌握。 所以仅用c a c h e 来自动实现片内与片外的数据交换是不可取的,d s p 程序员在某些情况下 必须要进行干预。此外使用c a c h e 还涉及到数据一致性的维护等问题。 一种好的方式是将c a c h e 与r a m 结合起来,片内存储器既包括c a c h e ,又包括r a m , 即“c a c h e + r a m 技术。程序员可以将一些核心代码和数据结构全部放入r a m 中,需要 处理的实时数据也通过d m a 控制器进行搬移,以此来完成d s p 的“实时性 要求。而对 于那些非核心的代码和数据结构则放在片外,利用c a c h e 而不是d m a 来进行片内外数据 的交换,这样既满足了d s p 的“实时性 要求,也减少了程序员的工作负担。 第5 页 国防科学技术大学研究生院学位论文 片内存储器容量变大以后,就有可能和c p u 的频率不匹配,可以利用分级的c a c h e 层次来解决容量命中时间之间的矛盾。其中一级c a c h e 主要解决速度的问题,容量较小, 频率和c p u 保持一致;二级c a c h e 容量较大,主要解决容量问题,频率不一定要和c p u 保持一致。 0 0 0o o l0 1 00 1 11 1 1 l 2 m e m o r y 爹j 拶”j 徽:硝警- 嘲 矿o ,1 6 k b7 j 囊爹 一一 镰 o 二jo ,7 。j - ;鬻荔 一,- 二,- ,:z 荔 ; 磐 + 1 6 k b :; 豁 , 貂 = i :5 一 。 ;, 1 6 k b 1 6 k b 图1 3t i c 6 2 1 1 的l 2c a c h e r a m 结构 目前的高性能d s p 的片内存储结构也确实是朝着“两级c a c h e + r a m ”方向发展的。 如t i 公司的较早期一款定点d s p 芯片c 6 2 11 ,采用的就是这种“两级c a c h e + r a m 结 构【l2 1 ,如图1 3 所示。它的二级存储器l 2 大小6 4 k b ,可以配置其r a m c a c h e 的比率, 将一部分配置成r a m ,而另一部分则作c a c h e :四分之一做一路组相联的c a c h e :或者二 分之一做二路组相联c a c h e ;或者四分之三做三路组相联c a c h e ;或者全做c a c h e 。其他 c 6 2 x 系列产品如c 6 2 0 2 ( 2 5 6 k b ) ,c 6 2 0 3 ( 7 9 6 k b ) ,也是在这种存储结构基础上进行的扩 充【1 9 】。 “两级c a c h e + r a m ”的存储结构在d s p 的设计中是非常有效和重要的。c a c h e 技术 从提出来至今已有了很大的发展。研究者们围绕“减小失效率”,“降低命中时间,“减小 失效延迟”三大内容提出了很多c a c h e 优化措施。其中效果最明显的,还是增大c a c h e 容 量。而且随着半导体技术的飞速发展,特征尺寸持续减小,晶圆尺寸持续增大,芯片上可 集成的晶体管数量也急剧增长,所以d s p 芯片片内存储器的容量也越来越大。因此可以针 对存储体本身电路做研究,如怎样更有效地减小c a c h e 存储体尺寸、提高集成度,如何加 快提高数据读出速度,如何降低存储器的功耗等等。 另外针对c a c h e 控制器,也有许多值得研究的地方。如降低c a c h e 的片外失效开销, 简化c a c h e 数据一致性维护协议,优化d s p 算法,利用编译器优化代码提高c a c h e 性能等 等【2 l 】【2 2 1 。c a c h e 结构的加入也使程序员在编程时必须改变以往的传统思维方式,要了解目 标芯片的c a c h e 特性,掌握“c a c h ea w a r e 的编程方法【2 引。d s p 芯片的设计者也要不断优 第6 页 国防科学技术大学研究生院学位论文 化设计以增强程序员控制c a c h e 方式的灵活性和方便性,如更灵活方便地对c a c h e 可编程 控制寄存器编程,更灵活方便地控制c a c h e 的容量、工作方式、作废方式等。 1 3 相关研究 s a i l i i v ea g a r w a l a 等人通过理论分析和实验验证刚,认为两级c a c h e 结构和同样大小的 平板式片内洲相比,在体系结构、性能、频率、功耗、硬件开销等各方面,能够给整个 d s p 系统带来更大的好处,并认为“两级c a c h e + r a m 结构是未来d s p 片内存储系统发展 的趋势。 w a y n ew o l f 等人对多媒体程序的运行特点作了一系列研究【2 5 1 。在对二十三组典型的多 媒体处理程序进行模拟分析之后,得出多媒体程序在空间局部性和时间局部性方面比传统 应用程序更具有优势,更能充分发挥c a c h e 的性能。 p a b l oi b & i e z 等人在研究d s p 程序中的l o a d s t o r e 指令执行特点的基础上,提出一种单 块前瞻顺序预取机制【2 6 j ,以降低l 1 与l 2 之间的失效延迟。同时也指出增加l 1 的行大小亦能 获得接近的效果,但方式更直接简洁。 j a s o nf r i t t s 等人建立了模拟两级c a c h e 存储结构下处理器运行多媒体应用程序的性能 分析相关模型【z ,通过对c a c h e 容量、行大小、存储器接口带宽等因素的考察,认为影响 两级c a c h e 存储性能的最主要因素仍然是外存访问速度,其次是外存接口带宽。并且提出 一种多层次数据预取的模型。 u j k a p a s i 等人提出一种“i m a g i n e ”的流媒体存储体系结构 2 5 1 ,i m a g i n e 的主要特点是 访存带宽高,其存储结构包含三级层次:局部寄存器文件、全局寄存器文件和片外存储器, 可以有效地利用流媒体的数据局部性访问特点开发流数据的并行性,具有结构简单、片外 通讯少、带宽压力轻的特点。国内的张春元、文梅等人也对这种流式存储层次进行了深入 的研究【2 9 1 。 马驰远等人在某e p i c 结构处理器二级c a c h e 设计研究中,对二级c a c h e 进行流水分 站处理,并利用地址低位交叉、自动重发等技术减少了流水线停顿。对如何降低两级c a c h e 机制下数据一致性维护带来的额外开销方面也进行了深入的分析【3 0 】。 f t d s p 课题组的马鹏勇完成了支持两条并行存储的指令数据c a c h e 的设计【3 l 】;程由 猛完成了y l td 1 片内二级c a c h e 控制器的设计【3 2 1 ;张丹瑜设计了l 2 与e m i f 之间的直接通 道和对一级数据c a c h e 的失效请求流水处理以优化了原来的设计【3 3 1 。卢晏安从增大存储器 容量,改进部件间的接口协议等方面对原来的设计进行了优化【3 4 1 。 1 4 课题的来源、目标及研究意义 “f t - c x x 高性能d s p 是一款正在进行的正向设计的高性能d s p 芯片,其研制和实 现将对我国的新一代高性能d s p 的发展具有重要推动作用,并将带动我国的军用微电子产 第7 页 国防科学技术大学研究生院学位论文 业快速向前发展。 目前该项目的第一阶段任务c p u 核的设计已经展开,本课题的主要任务是为该芯片设 计合适的二级c a c h e 结构,并进行简洁高效的控制,以便尽可能快地为一级c a c h e 和e d m a 提供数据,弥补c p u 和外存之间的“存储墙”。 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保密知识竞赛试题及答案(填空题+判断题)
- 2025党员领导干部反腐倡廉规章制度知识竞题库及答案
- 妈咪爱影响依恋的个体差异-洞察及研究
- 冲压厂安全培训记录课件
- 冰箱清理课件
- 网络销售提成管理办法
- 湖南公务接待管理办法
- 电网故障处理管理办法
- 2025工程监理委托合同范本
- 职业教育与在线教育市场可持续发展研究报告
- 高考数学一轮复习高频考点精讲精练(新高考专用)第11讲拓展四:导数中的隐零点问题(高频精讲)(原卷版+解析)
- 高校军事理论教育课教案
- 汉字历史-汉字的起源及形体演变(古代汉语课件)
- 八年级(上)+道德与法治+课程纲要
- 人教版部编版统编版一年级语文上册《我爱我们的祖国》课件
- 住院医师规范化培训临床小讲课的设计与实施培训课件
- 振动型式试验报告范本
- 基因工程与生命伦理
- 糖尿病酮症酸中毒抢救流程
- 结婚彩礼借款协议书
- 配电终端功能构造
评论
0/150
提交评论