(电路与系统专业论文)基于微处理器应用的低功耗高性能高速缓冲存储器(cache)设计.pdf_第1页
(电路与系统专业论文)基于微处理器应用的低功耗高性能高速缓冲存储器(cache)设计.pdf_第2页
(电路与系统专业论文)基于微处理器应用的低功耗高性能高速缓冲存储器(cache)设计.pdf_第3页
(电路与系统专业论文)基于微处理器应用的低功耗高性能高速缓冲存储器(cache)设计.pdf_第4页
(电路与系统专业论文)基于微处理器应用的低功耗高性能高速缓冲存储器(cache)设计.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘 要 中文摘要 本文4重讨论j 微处理器中占整体功耗比重最大的模块之一一片上高速缓冲 存储u( c a c h e ) 一的低功耗设计方法。首先介绍了所设计的 8 k b四路组相联 c a c h e 的整体电路结构和读写时序。在满足嵌入式 r i s c处理器的速度要求的基础上,本 文提出j 一种串 行访问,t a 留 d a t a s r a m的 方式来 降低 微处理 器的 组相联c a c h e 的 功耗。 在串行 访问t a g / d a t a s r a m以 降 低c a c h e 访问 功耗的 基础上,本 文还设计 了 省 略t a g 查 找的指 令c a c h e 来进一 步降低 指令c a c h e 的 访问 功耗。 接着,详 细 介绍了对组相联 c a c h e在速度和功耗上优化的电路级实现方案,包括一种新的电 流灵 敏放人器 电 路、 分裂式 动态 t a g比 较器电 路等高 速电 路 模块, 同时 还采用自 定时技术实现 了s r a m的自定时读写操作,自 定时技术能够有效降低工艺以 及环 境条件对电路的影响,还能够有效地降低静态存储器阵列的读写功耗。在 s m i c 0 . 1 8 u m c m o s .1 _ 艺下,本文具体设计了一个 3 2 位 r i s c微处理器的 8 k b四路组 相联的指令 c a c h e 模块和数据 c a c h e 模块, 并根据电路仿真结果对所设计的c a c h e 模块与传统的组相联c a c h e 进行了功耗比较。 关键词:低功耗,c a c h e , s r a m,灵敏放大器,比较器,自定时技术 摘 要 英文摘要 a b s t r a c t i n t h i s p a p e r , w e f o c u s o n t h e d e s i g n o f lo w - p o w e r s e t - a s s o c i a t i v e c a c h e s , w h i c h c o n s u m e a s ig n i f i c a n t f r a c t i o n o f t h e o v e r a l l m i c r o p r o c e s s o r d y n a m ic e n e r g y . f i r s t w e in t r o d u c e t h e s c h e m a t ic o f t h e 8 k b f o u r - w a y s e t - a s s o c ia t i v e c a c h e m e m o r y a n d t h e t i m in g o f i t s r e a d / w r it e o p e r a t io n . w e t h e n p r o p o s e a s e q u e n t i a l a c c e s s p r o c e d u r e t o r e d u c e t h e p o w e r c o n s u m p t i o n o f s e t - a s s o c i a t i v e c a c h e m e m o r y . t o f u r t h e r o p t i m i z e t h e p o w e r fe a t u r e o f i n s t r u c t i o n c a c h e , w e p ro p o s e a t a g - s k ip p r o c e d u r e w h i c h s k i p s t a g a c c e s s in c o n s e c u t i v e a d d r e s s 1 - c a c h e a c c e s s . n e x t s e v e r a l h i g h - p e r f o r m a n c e c i r c u it m o d u le s i n c l u d i n g c u r r e n t - m o d e s e n s e a m p l i f i e r a n d s p l it d y n a mi c t a g c o m p a r a t o r a r e in t r o d u c e d . i n t h e p r o p o s e d s e t - a s s o c i a t i v e c a c h e , s e lf - t i m e t e c h n iq u e i s a d o p t e d to e ff e c t i v e l y e l i m i n a t e t h e a ff e c t o f o p e r a t in g e n v i r o n m e n t a n d f o u n d r y t e c h n o lo g y . a s e l f - t i m e d r e a d a n d w r i t e w a s im p l e m e n t e d t o c o n s e r v e p o w e r . u n d e r s mi c , 0 . 1 8 u m c mo s t e c h n o l o g y , w e d e s i g n t h e 8 k b f o u r - w a y s e t - a s s o c i a t i v e 1 - c a c h e a n d d - c a c h e m o d u l e s o f a 3 2 - b it r i s c m i c r o p r o c e s s o r . w e a l s o c o m p a r e t h e p o w e r p e r f o r m a n c e o f t h e p r o p o s e d a n d t r a d i t io n a l s e t - a s s o c ia t i v e c a c h e . k e y w o r d : l o w - p o w e r , c a c h e , s r a m, s e n s e a m p l i f ie r , c o m p a r a t o r , s e l f - t i m e t e c h n i q u e 第章 引言 第一章 引言 低功耗设计的动因 在半导体 7 一 艺水平还没有进入深亚微米阶段,集成电路芯片集成度还小是很 高的时候,集成电路设计者们在设计中遇到的最大约束是系统的工作速度要求和 芯 片的最小面 积要求, 而功耗问 题并 不是 集成电路设计 者们的首要考虑。 随着 半 导体上业的迅速发展,集成电路工艺水平进入深亚微米乃至超深亚微米阶段,在 二十ili 纪九 卜 年代随着集成电路的工作速度和芯片集成度不断提高,集成电路芯 片的功耗已经在很多设计领域成为了首要关注的问题,低功耗设计已经成为当 前 集成电路设计研究领域的一个重要课题。 低功耗设计 在当前集成电路设计领域的重要地位主要是由以 卜 几个方面的原 因引起的。tm 一 先是笔记本电 脑、掌上电 脑、手提电话等便携式设备的出现及市场 需求的迅速增长,这些便携式系统都是由电池供电的,而便携式系统中的电池山 于受系统的尺寸和重量的限制,其供电能力的增长有限,远远跟不上系统耗电量 的增加。 采用低功 耗设 计技术来降 低便 携式系统的整 体功耗, 增长电 池的 供电 寿 命是关键的解决方式。其次是集成电路芯片的散热问题。集成电路 系 统消耗的能 量绝大部分转化为热量散发出来,如果芯片产生的热量不能及时有效地散发,就 会导致芯片温度 匕 升,电路将由于各种热现象导致的物理原因而失效,不能够正 常工作。采用低功耗技术一方而可以减少芯片产生的热量,降低电路失效的可能 j性,另方ld也 可以降低对芯片封装的要求,从而节省芯片的封装成本。可靠性 问题也是引起设计者们对低功耗设计技术高度重视的原因之一。集成电路的峰值 功耗和平均功耗是影响集成电路上作的可靠性和信号完整性的重要因素。当集成 电路整体功耗较大时,金属 连线上的电 迁移( e l e c t r o - m i g r a t i o n ) 和电 源线上的 i r d r o p 都会 影响电 跻的可 靠性,导 致电 路 失效。 低功耗设 计技术 还是节 约能源的 重 要 途径。 据美国 环境保护组 织估计, 在 办公室电 子设备 所消耗的电能 , , ,8 0 是 消耗 在计 算机设备中, 因此采用 低功耗技 术降低计算 机设备中的集 成电 路芯片 耗 电是降低办公室电能消耗,节约能源与保护资源的重要途径之一。 .2低功耗设计技术的现状 在数 字c m o s 电 路 ,功 耗是由 三 部分 构成的 i , 即: p . = p , , - - ,. + 气。 十 p - . x ( 1 . 1 ) 其中p d r n a m lc 是电路翻转时产生的动态功耗, p a . 。 是p管和 n管同时导通时产 生 的短 路功耗, p ie . w g e 是由 扩散 区和衬 底之间的 反向偏置 电流引 起的功耗。 在 很多 第常 引言 也 最大:电路级( 晶体管级) 优化所能带来的功耗降低量最少,但是相应的功耗沾计 误差也最小 。 .3低功耗高速缓存设计的意义 嵌入式微处理器是干提电脑和手持通信设备等便携式系统的核心部件,目前 对这些便携式系统中的微处理器的主要性能要求是高速、低工作电压和低功耗。 在以 微处 理器为 核心部 件的v l s i 系统中 , 片上高 速缓 存( c a c h e ) 是系 统取得.司 数 据 传 输率的关 键部件。 在微处理器中, 片 r . 高 速缓 存( c a c h e ) 的 功耗通常占 总功耗的 很大部分( 见 表 1 . 2 ) ,因此设计低功耗 c a c h e 对于设计低功耗的微处理器具有重要 意义 表 1 .2不同微处理器中c a c h e 所占功耗* 一应巫不 匹a c h e ,丛 6 a r p e n t i u m p r o 3 3 叹. a l p h a 2 1 2 6 4 1 6 % s t r o n 必r m s a - i 1 0 4 3 % * 表 格中数 据分别来自 文献 3 4 ( 5 根 据映射方 式的不同, c a c h e 可以分 为下 种: 直接映 射c a c h e ( d i r e c t m a p p i n g c a c h e ) .组相联映射 c a c h e ( s e t - a s s o c i a t iv e c a c h e ) 和全相联映射 c a c h e ( f u l ly a s s o c ia t iv e c a c h e ) 。 在这三 种c a c h e i , 全 相联c a c h e 的命 , 率最高, 但是它的 访 存时间是三种 c a c h e中最长的,同时访问功耗也是最高的;直接映射 c a c h e 能够 取得最快的 c a c h e访问速度,但是其命中率最低:而组相联 c a c h e的命中率、访 问时间的综合性能是共 种 c a c h 。中最优的,因此在目前的微处理器中通常采用组 相联 c a c h e作为片上高速缓存,而通常讨论的低功耗 c a c h e 设训 技术就是指低功 耗组相联c a c h e 的设计。 .4本文工作 本文的卞要下作是设计实现了 个高性能的低功耗四路组相联 c a c h e ,该 c a c h e是本实验室自 行设计的3 2位高性能嵌入式微处理器的片上高速缓存口论文 的主要 作川以概括为以 下 儿个方面: ( i ) 在满 足嵌 入 式微处理器 对组相联c a c h e 的 速度要求 前提下, 采 用串 行访问 t a 以 d a t a s r a m的方式 实现了 该8 k b 四路 组相联c a c h e , 从而 大幅 度降 低了c a c h e 的访问功耗; ( 2 ) 本论文 的z作是为 3 2位嵌入式微处 理器设 训 8 k b四路组 相联的 指令 c a c h e ( i - c a c h e ) 和数据c a c h e ( d - c a c h e ) ,其中 不仅 - c a c h e 和d - c a c h e 都采用了 串 行访问 f a g / d a t a s r a m的方 式来降 低c a c h e 访问功 耗, 在! - c a c h e 中 还采用了 连续 第章弓 ! 舀 地 址访 问时省 略t a g 查找的i 7 式来 进一步降 低访 问 指令c a c h e 的功 耗; ( 3 )在本沦文 的设计中,为了消除金属连线的延时对字线选通脉冲的影响, 采 用了白定时读写技术来实现 d a t a s r a m存储阵列的读写操作。白定时技术与采用 反相器链产生字线选择信号不同,并不需要留出较大的裕量,因而可以提高读写 速度,同时消除了读写操作时字线选通信号对金属连线延时的影响,提高了电路 工作的稳定性; ( 4 ) 电 流灵 敏放 大器是影响c a c h e 一作 速度的重 要电 路模块之一, 本文 提出了 种新的 高速电 流灵敏放大器 结构,井风 仿真结果 表明该电 流灵敏放大器的 放大 速度对位线电容不敏感: ( 5 ) t a g 比 较器的 l时是 组相联c a c h e 关 键路径延 时的 重要组成部 分,为了 减 少 f a g比 较器的比 较延时, 本文 提出了 一 种分 裂式 动态比 较器结 构, 这种结 构有 效 地减少j t a g 比 较的延 时,从 而提高了c a c h e 整 体电 路的上作 速度。 5本论文的 组织结构 本论文由六章组成。 第 一 章为引言,首先介绍了低功耗设计技术的动因及其现状,然后解释了低 功耗w i 速缓存设计的重要性,最后简要介绍了本论文的主要工作。 第 二 章介绍了本文设计实现的8 k b四路组相联c a c h e 的设计指标、总体电路 结构和读写时序。 第三章介绍了组相联 c a c h e的低功耗设计方法。首先详细介绍了本文采用的 串 行访 问 方式实 现的8 k b四路组 相联 c a c h e 。在 此基 础上 , 本文 在对指 令 c a c h e 进行连 续地址访问 时,在 指令c a c h e 中 省略t a g 比 较, 这样可以 进一步减 少访问 指令c a c h e 的功耗。 在本章最后比较了采用这两种低功耗技术实现的组相联c a c h e 与传统并行访问组相联c a c h e 的功耗。 第四章首先具体讨论了两个对 c a c h e 关键路径延时具有重要影响的关键模块: 灵 敏 放大器 模块和 t a g比较 器模块。 本文 提出 了一 种新的 高速电 流灵敏放 大器结 构,该灵敏放人器具有灵敏放大延迟时间短,对位线负载电容不敏感等优点:本 文提出 种分裂i 弋 动态比较器,它具有比较速度快的优点,能够最大限度地减少 t a g比 较延 迟, 从而 提高 c a c h e 访问 速 度。 本章 还介绍了 采用自 定 时技术实 现的 d a t a s r a m读写。 自定时技术能够有效地消除金属连线对 s r a m字线延迟的影响, 从而提高电路稳定性,而且是提高电路工作速度的有效措施,本文设计了一种电 路简单而可靠性高的自定时读写电路来提高c a c h e 整体电路的性能。 第五章给出了 c a c h e整体电路的功能仿真结果,井日 . 对该 8 k b 四路组相联 c a c h e 的速度、 功耗等性能进行了比较与分析。本章还具体讨论了在c a c h e 的全定 第章 引 言 制版图设计时要注意的问题。 第六章总结本文的研究成果,井展望今后的研究工作。 第一草 8 k b四路组相联c a c h e 的总体电路以计 2 . 1 . 3 c a c h e 性能 指标 c a c h 。 的几个基本性能指标如下: c a c h e 的 命中率 ( h it r a t e ) : c p u访a c a c h e 时c a c h 。 命中的次 数占总 访问 次 数的比例:相应的c a c h e 失效率可以表示为 m i s s r a t e=1 - h it r a t e : ( 2 . 1 ) c a c h e 的 平均 访16 1 时间: c a c h e 的 平均 访问 时 间( a v e r a g e a c c e s s t i m e ) 可 以 用式 2 .2表, j 又 : a v e r a g e a c c e s s t i m e=h it a c c e s s t im e+mi s s p e n a lt y * mis s r a t e ( 2 . 2 ) 其 中, h i t a c c e s s t i m e 是c a c h e 命中 时的访ia 时if n j . m i s s p e n a l t y 是当c a c h e 失效时所需要花费的访问 c a c h e的时间。一般情况下,c a c h e失效时的访问时间 m is s p e n a l t y 要远人于c a c h e 命中时的 访问时 k h i t a c c e s s t im e .因 此减少c a c h e 的平 均访问 时问的 关键在于 降低c a c h e 的 失效 率。 c a c h e 的平均访问功耗:与c a c h e 的平均访问时间相似,c a c h e 的平均访问功 耗由c a c h e 命中时的访问功耗. c a c h e 失效时的访问功耗和c a c h e 的失效率三者决 定,由于c a c h e 失效时的访问功耗又包括两个部分:一部分是 c a c h e 失效时c a c h e 电路的功耗,另一部分则是下一级存储系统的访问功耗,而这部分功耗直接由 卜 一级存储系统的性能决定,因此通常进行低功耗 c a c h e设计时主要着眼于降低 c a c h e 的 访i. a l 功 耗( 命中 和不命中 ) 。 2 .2 8 k b四 路组相联c a c h e 的设计指标及 基本参数 选择 2 .2 . 1 c a c h 。 的 设计指标 本文的工作目 标是设计实现用于3 2 位嵌入式微处理器s r i s c的低功耗组相联 c a c h e ,具 体的设 计目 标如下 : ( i ) 设计两个容量为 8 k b的 c a c h e , 一个指令 c a c h e ( - c a c h e ) 和一个数据 c a c h e ( d - c a c h e ) ; ( 2 ) 支 持 三种类型的 指令 操作 r 支持基本的l o a d 指令 i 支持基本的s t o r e 指令 r 支 持s r i s c 特权指令p r e f , c a c h e . 即7 i 以 对t a g / v a l id / d a t a s r a m单 独进行读写操作; ( 3 ) d a t a s r a m和v a l id s r a m支持两 种选中 方式 尸 根 据内 部t a g 比 较器的比 较结果产 生选中 信号 r 外部直接指定一路选中 ( 4 ) 支持数 据的字 ( 3 2 6 i t ) 、 半字 ( i 6 6 it ) 和字节 ( 8 6 it ) 的读写 操作; 第章 8 kb四路组相联c a c h e 的总体电路设汁 ( 5 )具有全局复位功能,即全局r e s e t 信号有效后, v a l i d s r a m全部清零,显 示c a c h e 所存内容无效: 对该 纠相联c a c h e的速度和功耗的要求分别为: ( i ) 最高一作速度高于2 5 0 mh z ; ( 2 )山j , 指令c a c h e 和数据c a c h e 的总功耗通常占整个处理器芯片功耗的相当 大 一 : 部 分 ( 3 0 % - 5 0 % 左右) , 因此采 取 低功 耗设汁 方法来 减少 - c a c h e 和。 - c a c h e 的 功耗能够有效降低处理器芯片的整体功耗。 口 前 0 . 1 8 u m c m o s 1 : 艺 容量为 8 k b 的四 路组 相联c a c h e 在 i . 8 v / 2 5 0 m h z 下 的典 型功耗 约为3 0 0 m w 7 1 , 因 此本文 所 设i i 的8 k b四路组相联 c a c h e 在 1 . 8 v / 2 5 0 m h z f 的z作功耗应该低于3 0 0 m w o 2 . 2 . 2 c a c h e 的 基本参数 选择 没汁高性能的组相联 c a c h e的第一步是合理选择 c a c h e的各项基本参数,包 括容量、组织方 式、l i n e s iz e . b l o c k s iz e .写策略以及替换策略等。这些参数的 选取,需要综合考虑c a c h e 的命中率、 c a c h e 的平 均访问时间以及 c a c h 。 的平均访 问功耗等性能。合理的基本参数选取应该在保证满足c p u对c a c h e 的速度和命中 率等 性能要 求的 基础上尽 可能减少c a c h e 的 硬件开 销( 容 量、 电 路复杂度 等) 。 t s %_ _ _一_ _ _ _ _ 1 2 %卜- 一 l 、 一 1!1阵 肠 9 . , 一一 卜 毛 叫介 一 : 卜 卜 卜 二三 一二二 三 二 一二 丁 wo - y 佣 归 臼 . y e gl n , v a y h s a o c u u v 匆一 , k b . + 1 6长 日 一 2 k b - * 3 2 k s . . 4 k b .一 6 4 k b - 一 8k8一1 28 k h 图2 . 3 c a c h e 的组相 联数目 与c a c h e 失 效率的关 系 首先要决定的是 c a c h e的组织方式,即 c a c h e的组相联数目。一 般而言,组 相联 数h 越高, c a c h e 的失 效率就 越低( 见图2 . 3 ) 5 ,但同 时c a c h e 的电 路复杂 度 增加,硬件开销增大,并且 c a c h e的平均访问时间也增长,因此应该综合考虑微 处理器系统对命, i , 率和命, ! , 时问的要求来选取 c a c h e的组相联数h。木设计, 】 , 选 第二章 8 k b四路组相联c a c h e的总体电路设计 取 c a c h e 为四路组相联。 c a c h e 容量不仅影响c a c h e 的命中率和访问时间, 还决定了c a c h e 的版图而积 和访问功耗等性能。 c a c h e 容量太小则命中率低, 性能差; c a c h e 过大, 则访问c a c h e 的 时间 和功耗都会 增大 ,因 此要 综合考虑 这两方 面的 影响。文 献 6 中 对 c a c h e 容 量 和访 存性能 进行了 研究, 本文参 考其 研究结果 , 确定 选用8 k b y t e 的c a c h e 容量。 4 0 % 一一 一 一 氏 3 5 %、 _升 二 三 三了 0%5ok0% 1 5 % f 山布的5一乏 0 % 匕 b la c k s a e (b y t e s ). 1 kb - . 8 k8 - * 1 6 kb - * 6 4 kb - 今 2 5 6 k b 图2 . 4 b lo c k 大小 与不同 容量c a c h e 的失 效率的 关系 c a c h e 的块 ( b l o c k ) 的 大小 选择也是影 响c a c h e 命中 率、 访问 时间和 访问 功 耗等 性能的重要参数。一般 b l o c k 越大,同一地址附近能够连续访问的数据越多,空间 局部性原理利用得就越充分, c a c h 。 的命中率就越高口 但是如果相对于固定的c a c h e 容量b lo c k 太大, 反而会因为大大减少了c a c h e 中存储的b lo c k 数目而降低命中率。 同时b lo c k 过大也 会增加c a c h e 失效时替换数据的时间从而增加c a c h e 的平均访问 时 p o c a c h 。 的b l o c k 大小 对不同 容量c a c h e 的失 效率的 影响见图2 . 4 8 。 本设计 中 选取c a c h e 容 量为8 k b ,而b lo c k 的大 小 为4 w o r d s ( 即l 6 6 y t e s ) o 综 卜 所述,我们在综合考虑了 c a c h e命中率、 卜 均访问时间和访问能量等性 能后, 选 择c a c h e 容量为8 k b , 组织方式 为四 路组 相联, b l o c k 人小为l 6 6 y t e a 2 .3 c a c h e 的 基本操作时序 本文 所设计的 8 k b四 路组相联 c a c h e由 四路 相同的 结构构成, 每一路 都有 d a t a , t a g 和v a l i d = : 个 存储阵列, 其中d a t a s r a m存 储3 2 位的 数据, t a g s r a m 存 储2 1 位地址 标签, 而v a l id 存储一位标 志位 ( 有效 位) 。 由于 本c a c h e 的设 计 指标 要 求能够 分别访问d a t a , t a g 和v a l id s r a m, 同 时 支持一 般的l o a d / s t o r e 指令 ( 即 同 时访问d a t a , t a g 和v a l i d s r a m ) , 因此 在时钟 的前半 周期 进行t a g s r a m的 读 第t? s k b四路组相联c a c h e 的总体电路设计 写操作,后半周期进行 d a t a s r a m的读写操作,而v a l id s r a m 的读操作在前半 时钟 周期 进行, 写 操作在后 半周期 进行。 c a c h 。 的基 本 操作 有五种: i n d e x m o d e d a t a s r a m i 卖 写、i n d e x m o d e t a g s r a m 读写、i n d e x m o d e v a l id s r a m 读写、 t a g - c o m p a r is o n - h it m o d e d a t a s r a m 读 写 ( 即 l o a d / s t o r e 操 作 ) 和 t a g - c o m p a r i s o n - h it m o d e v a l i d s r a m i 卖 写( 特权指 令i n v a l id a t e ) 。下 面结合时 序图 分别说明这五种基本操作。 2 .3 . 1 i n d e x mo d e d a t a s r a m 读写 图2 .5为i n d e x mo d e d a t a s r a m的读写时序图。即直接由外部选择 路d a t a s r a m进t y i 卖 写。 山外部输入信号 w s d a t a 选择一路 d a t a s r a m进行读写 同步读写,均在时钟后半周期完成 相关指令: c a c h e - i n d e x s t o r e d a t a , c a c h e - i n d e x l o a d d a t a . f i l l. w r it e b a c k 。数 据写入时间: t , -d a t a : 数据读出 时间: t r d - d a ta i厂一 ,_ ws d a 叫 3 0 1 c o m p a re a d d , 仁 1 勺 2 1 a d d - t . 又 一 we d a t a d amom 图2 . 5 i n d e x mo d e d a t a s r a m i 卖 写时序 2 . 3 . 2 t n d e x m o d e t a g s r a m读写 图2 .6 为i n d e x m o d e t a g s r a m的 读写 时序图,即 直 接由 外部选 择 路t a g s r a m进行i 卖 写。 由 外部 输入信号w s t a g 选择 一路t a g s r a m进行读 写 同步1卖 叮,均在时钟前半周期完成 # l 关 指令 : c a c h e - i n d e x s t o r e t a g , c a c h e - i n d e x l o a d t a g , f i l l 数 据写入时间 : - f w r - n o ; 数据读出 时间: t rd - t a g 第一4 8 k b四路组相联c a c h e的总体电路设1十 w5 i x g l3 j _ 口 水 _ _ _ _二 三 二万- - 一 一_ _ 二 。 m p a re a d d rl 10 a 1 a d d - 1 w e _ we . i a g l n _ 二三 (一 一一 一 一一 爪 一1 一- 一- - -一 丫 f 八工 卫 . 仑 卫 p b ! x 一一 二 二_ 一 一下份一一二水 i 1 l a g o w 三咪 t 川 汀 . g 图2 .6 i n d e x m o d e t a g s r a m读写时序 2 . 3 . 3 i n d e x mo d e v a l i d s r a m 读写1 图2 .7是i n d e x m o d e v a l id s r a m读写的时序图, 即直接由外部选择路 v a l id s r a m进行l 卖 写。 。 _ 少- 一入/ 4 d 山 j l “ 月 ada r 已 臼 1 ) rd en一 一 一一 一一 号 一 :一 下 回、 一 图2 . 7 i n d e x - mo d e v a lid s r a m读写时序 由 外部输入 信号w s v 选择一路v a l i d s r a m进行 读写 同步读写,在时钟前半周期进行读操作,时钟后半周期进行写操作 。相关指令: c a c h e - i n d e x i n v a l id a t e , c a c h e i n d e x wr it e b a c k i n v a l id a t e , c a c h e - i n d e x s t o r e t a g , c a c h e - i n d e x l o a d t a g , f i l l, p r e f 。数 据读 出时问: t , d - v ;数 据写入时 问: t _ . v 第牡# 8 k 8四路组相联c a c h e 的总体屯路设汁 2 .3 . 4 1 a g - c o m p a ri s o n - h i t mo d e d a t a s r a m读写 图2 .8 是c a c h e 进行l o a d / s t o r e 操作的时 序图, 即 根据t a g 比 较的结果 选择一 路 d a t a s r a m进行读写。 二 1 . .】 皿 . ji l l 图2 . 8 t a g - c o m p a r i s o n - h it m o d e d a t a s r a m读 写时 序 根据c a c h e 内 部t a g 比较 器的比 较结果 选择一路d a t a s r a m进 行读 写 在时 钟前判a j 期完 成四 路t a g s r a m和v a l id s r a m的读 操作 在 时 钟 下 降 沿, t a g 比 较 器 进 行 比 较 , 根 据w a y - h it 3 :0 选 择 路d a t a 进 行 读 写 相关指令:l o a d , s t o r e , c a c h e - h i t wr it e b a c k 数据写入时间:t .+ _,数据读出时间 t i . d 2 . 3 . 5 l a g - c o m p a ri s o n - h i t m o d e v a l i d s r a m写 操作 图2 . 9 是根 据t a g 比 较结果 选择 一路v a l id s r a m进 行写操作 的时序图 。 d 1 c a c h e 内 部t a g 比 较器的比 较结 果w a y h it 3 :0 选中一 路v a l i d s r a m进行写 操作 第代章 8 k b四路组相联c a c h e 的总体电路设计 在时钟 前半 周 期, 完成四 路t a g s r a m和四 路v a l id s r a m的读 操作 在 时钟f p 11 r ; 1 f 始t a g 比 较, 根据比 较结果w a y _ h i t 3 : 0 选中一 路进仃 写操作 相关指令:c a c h e - h it i n v a li d a t e . c a c h e - h it w r it e b a c k i n v a l i d a t e 。数据写人时间:t ,. - i ,d e . 一 1c _ _ 华n 令 三 二oooa 图2 . 9 t a g - c o m p a r is o n - h it m o d e v a l i d s r a m w r it e 2 .4 c a c h e 电 路设计 木文的主要工作是采用s mi c 0 . 1 8 u m工艺设计了3 2 位嵌入式微处理器的指令 c a c h e 和数据c a c h e 。在设汁中采用的低功耗技术将在下一章中着重介绍,本节将 结合电路图介绍所设计的8 k b四路组相联c a c h e 中各电路模块的设计。 2 . 4 . 1 c a c h e 的 关键路径 延迟 山于 本义的工作目 标是设计实现工作频率高于2 5 0 mh z 的高速 c a c h e因此其 关键路径延迟必须 4 n s 。在设计各部分电路时,都必须保证该部分电路的延迟满 第 气章8 k b 四路 组 相 联 c a c he 的总 体 电 路 设 汁 足关 键路径延迟对各部分电路延迟的要求。图2 . 1 0 是本文所设计c a c h e 的关键路 径延退。 份一一 一 4 n s一 争 泌 2 n s - 卡 - 0 .7 n s m 1.3nss 图2 . 1 0本文所设计c a c h e 的关键路径延迟 在时 钟前半 周期, c a c h e 完成的操 作是t a g s r a m的 读出 ( 包括有效 位v a l i d 的 读出) ,同 时内 存管理单元( m e m o r y m a n a g e m e n t u n i t - m m u ) 控制高 速页表缓存 t l b ( t r a n s l a t io n l o o k a s id e b u ff e r - t l b ) 进行虚实 地址 转换, 将处理器 给出 的虚 拟地 址转换为物理地址,以便于在下半周期访问d a t a s r a m之前将物理地址和前半周 期读出 的t a g 进 行比 较。 由 于t l b 进行虚实 地址 转换所需 要的时间 约为1 . 6 n s 2 4 , 而fa g s r a m 读 出 所需 要 的 时 间 约 为0 .9 n s 7 , 因 此 前 半 周 期 进 行 的 坪 作 都 能 够 满 足关键路径的要求。 在时 钟后半 周期,首先要由t a g 比 较器 对物 理地址p a 和t a g s r a m中 读出 的t a g 进行比 较,然 后根据 比较结果 选中 一路d a t a s r a m进行 数据读 出。 d a t a s r a m的阵列 结构为 ! 2 8 x 1 2 8 个存 储单元, 采用4 选1 的 多路 选择器 进 行列选择。目前在 0 . 1 8 u m工艺下这个规模的s r a m存储阵列的读出延迟通常为 1 .3 n s 左 右( 包括数 据输出 缓 冲的 延迟) 7 . 因 此t a g 比较 的延迟 应该低于0 . 7 n s 。 在 设计d a t a s r a m阵列 ( 包括灵敏 放大器 等外围电 路 ) 和t a g 比 较器时 , v- , 须分别 使其 延迟低于 i . 3 n s 和。 .i n s ,从而满足关键路径延迟小于4 n s 的指标。 2 . 4 . 2 c a c h e 总体电路结构 图2 . 1 0 是8 k b 四路组 相联c a c h e 的顶 层电 路图。 由图中 可以 看出 ,该c a c h e 由四 路 相同的结 构组成, 其中每一 路都包 括d a t a s r a m . t a g s r a m和v a l id s r a m 个存 储阵列, d a t a s r a m中 存储的是3 2 位的数 据, t a g s r a m中存 储的是2 1 位的地址标签,而 v a l id s r a m 中存储的是一位有效位( 标志位) 。每路的 d a t a s r a m的 容量为2 k b 。 存储阵 列结构为1 2 8 行 x 1 2 8 列; t a g s r a m的 存储阵列为 1 2 8 行 x 2 1 列; v a l id s r a m的存储阵 列则为1 2 8 行x 1 列 . d a t a s r a m和t a g s r a m 的存储单元都是传统的六管s r a m存储单元,而v a l id s r a m由于要实现能够由 第 几 章 8 k b四路组相联c a c h e的总休电路设汁 n 含 七 侧 罗 卜 da t a ar r a y 2 da t a a r r a y 0 o ca 匕 试 勺 ) 侧 卜 c o m paro tors e n s e a mps e n s e ampc o m pam w r 煞,ro to rs e n s e a m p 卜 公 , 勺 0 o 公 口 s e n s e ampc om p aro tor r 甲 、 爵 匕 留 卜 da t a ar r a y 3 da t a a r r a y 1 图2 . 1 ! 8 k b四路组相联c a c h e 的项层电路图 r e s e t 信号控制全局清零,采用了七管结构,增加了一个清零管。除了 存储阵列, 电 路中 的主 要 模块 包括地址 译码电 路、 电 流灵 敏放大器电 路、 t a g 比 较器电 路 和时 序控制电路。下面分别介绍各1 i 9 分电路的设计。 2 . 4 .3 s r a m存储单元的设 计 d a t a s r a m和t a g s r a m的 存储单 元都采 用了 传统 的六管s r a m存 储单元电 路,其结构如图2 . 1 2 所示。 w l vd d vd d bln 图 1 1 2六管s r a m单元电路图 存储 单元的 性能 对于s r a m的 整体电 路性能的 影响是 很关 键的, 它直 接影响 到存储阵列的面积,其次要保证存储单元的稳定性,从而确保整个 s r a m 电路在 工艺制造的边界条件以及工作环境变化的情况下仍能正常工作。在设计s r a m存 第 几 章 s k b四路组相联c a c h e 的总体电路设汁 储单元时,要 在尽可能使用较少的版图面积的基础上,保证存储单元的读写速度 足 够快, 并li 存 储单元的可 靠 性高( r ij 静 态噪声容限s n m高 ) 。 文 献 9 x s r a m存 储 i p , i: 的 静态噪声 容限 进行了 分 析, 下 面我们 就根据文 献 9 的推导 对六 管 s r a m 存储 单7 的静 态噪,: 容限 s n m 6 t ( s t a t ic n o i s e m a r g i n ) 进行具 体分析。 在图 2 . 1 2 所示的六管 s r a m单元中,假设该单元存储着 i 信脚 、 ,即a点 为高电平,b点为低电平。在 wl被选中前,b l , b l n 均被预充至高电平。当 w l 被选中 后, 位线高电平 通过q 3 i q 4 向a , b 节点 充电, q i , q 2 可 能同 时接 地。 在 完全 理 想对 称的 情况下高电平 节点a 放电 速度必 然比 低电平 节点b 慢, 则q l 截 止, q 2 导 通, 存储单元的 存储 信息不 变。 实 1 - 几 由于制造时工艺偏差和芯片操作环境变化引起的各种不对称性总是存 在的 如 果a电平 端的门 管q 3 相对于 低电 平端的门

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论