




已阅读5页,还剩47页未读, 继续免费阅读
(计算机系统结构专业论文)片上内存控制器性能评估和优化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘兹 摘要 存储系统的性能足影响现代计算机系统性能的重要因素之一。近二卜年来,芯片结 构以及制造工艺的不断改进使得处理器和内存的工作效率部得到了相应的提高。但足, 从现在的发展趋势来看,内存工作频率提高的速度远远低于处理器主频提高的速度,这 使得处理器的访存性能越来越成为制约系统性能的瓶颈。 工业界和学术界一直致力于缩小处理器和存储器之间的差距,提高处理器的访存效 率。最近5 年来在硬件方面主要出现了下面三种相关技术,这些技术的出现为存储系统 的优化带来了新的机会和问题, d d r i i i 等新型内存设备( d d r l i ls d r a m ) 片内集成内存控制器( o n - c h i pm e m o f yc o n t r o l l e r ) 多核多线程架构( m u l t i c o r ea n dm u l t i t h r e a d i n g ) 结合龙芯2 号处理器的结构特点,本文系统的讨论了上述新的硬件技术对内存控制 器设计的影响。本文的贡献主要分成评估和优化两个方面: 基于程序周期行为的性能评估方法 准确快速的性能评估环境和方法是进行各种性能优化的前提,考虑到硬件结构设计 的特殊性,软件模拟器正逐渐成为性能评估的重要手段。本文用统计建立了一种基于程 序周期行为的快速性能评估方法,在不损失精确度的前提下大大提高了软件模拟的速度 在详细的龙芯模拟器上,把s p e c 2 0 0 0 基准测试程序的模拟时间从l o 天缩短到4 0 分钟 内,i p c 误差率控制在5 左右。 片上内存控制器的访存调度 在处理器内部集成内存控制器以后,内存控制器可以直接访问处理器的访存队列, 这为访存调度提供了很大的优化空间。本文比较了传统的地址映射机制和x o r 机制在 d d r s d r a m 下对p a g e 局部性的影响,讨论了单核处理器下和p a g e 模式结合的访存调 度策略以及多核处理器访存公平性的问题。实验数据表明,和o p e np a g e 模式相比,单 核片上访存调度可以使龙芯2 号处理器运行s p e c2 0 0 0 测试程序的平均i p c 提高8 左 右,s t r e a m 测试程序的访存带宽提高2 3 对于多核处理器运行s p e c 程序的一部分组 合,系统的整体性能可以提高7 。 关键词:龙芯处理器;内存控制器;快速模拟方法:访存调度;p a g e 管理;地址映射 f l i f f 7 靛 i 7 f ,沦卫j :i 内仔f j l 器竹能r r 估年| l 优化 p e r f o r m a n c ee v a l u a t i o na n do p t i m i z a t i o no fo n c h i pm e m o r yc o n t r o l l e r y a h t a n g d i r e c t e db yz h i m i nt a n g m e m o r ys y s t e mi st h eb o t t l e n e c ko fp e r f o r m a n c ei m p r o v e m e n tf o rm o d e mc o m p u t e rs y s t e m s o v e rt h ep a s tt w e n t yy e a r s ,a d v a n c e si nm i c r o a r c h i t e c t u r ea n dp r o c e s sh a v ep r o d u c e da n a n n u a li n c r e a s ei np r o c e s s o rs p e e do f6 0 ,w h e r e a sd r a ms p e e dh a so n l ya ni n c r e a s eo f a p p r o x i m a t e l y10 i n d u s t r ya n da c a d e m i cc o m m u n i t ya r ea l w a y sm a k i n gt h e i re n d e a v o rt o n a r r o wt h eg a pc a u s e db yt h ei m b a l a n c e dd e v e l o p m e n to fm i c r o p r o c e s s o ra n dm e m o r y d e v i c e s r e c e n t l y i nh a r d w a r ea r c h i t e c t u r ee m e r g e st h r e en o v e lt e c h n o l o g i e s ,w h i c hp r o b a b l y w i l lp r o v i d ec h a n c e sa n dc h a l l e n g e sf o rm e m o r ys y s t e mo p t i m i z a t i o n :d d ri i is d r a m , o n - c h i pm e m o r yc o n t r o l l e r , m u l t i c o r ea n dm u l t i t h r e a d i n g t h i sp a p e rf o c u s e so nt h e e v a l u a t i o na n do p t i m i z a t i o no fo n - c h i pm e m o r yc o n t r o l l e r , w i t ht h e c o n s i d e r a t i o nf o rt h ec h a r a c t e r i s t i c so fg o d s o n1 7m i c r o p r o c e s s o r t h em a i nc o n t r i b u t i o n so f t h i sp a p e ra r ea sb e l o w : p e r f o r m a n c ee v a l u a t i o nm e t h o db a s e do ns t a t i s t i c a lc l u s t e r i n g af a s ta n da c c u r a t ep e r f o r m a n c ee v a l u a t i o ne n v i r o n m e n t m e t h o di st h ep r e c o n d i t i o nf o ra n y s u b s e q u e n to p t i m i z a t i o n i nh a r d w a r ed e s i g nf i e l d ,s o f t w a r e - b a s e ds i m u l a t o r sa r eb e c o m i n ga t o o lo fi m p o r t a n c ef o rp e r f o r m a n c ee v a l u a t i o n , b u tt h e i rs p e , e di sm a n yo r d e r so fm a g n i t u d e s l o w e rt h a nt h eh a r d w a r es i m u l a t e d w ep r e s e n taf a s ts i m u l a t i o nm e t h o db a s e do ns t a t i s t i c a l c l u s t e r i n g w h i c hs i g n i f i c a n t l yr e d u c e st h e s i m u l a t i o nt i m eo fs p e c2 0 0 0f r o m1 0d a y st o4 0 m i n u t e sw i t he r r o rr a t i os m a l l e rt h a n5 w ee m p l o yt h i sm e t h o di nt h es u b s e q u e n t p e r f o r m a n c ee v a l u a t i o no f o n c h i pm e m o r yc o n t r o l l e r m e m o r ya c c e s ss c h e d u l i n gi no n - c h i pm e m o r yc o n t r o l l e r t h ea d v a n t a g eo fo n c h i pm e m o r yc o n t r o l l e rt oa c c e s st h el a r g em i s sq u e u ei nt h ep r o c e s s o r c o r eg r e a t l yi n c r e a s e st h ep o t e n t i a lf o rm e m o r ya c c e s ss c h e d u l i n g :w ef i r s tc o m p a r et h e i n f l u e n c e so nt h ep a g el o c a l i t yo f c o n v e n t i o n a la d d r e s sm a p p i n ga n dt h ex o rm e t h o di nd d r s d r a m ,w h i c ho n l yh a s4 o r8b a n k s w et h e nd i s c u s st h em e m o r ys c h e d u l i n gs t r a t e g i e s w i t ht h ei n t e r a c t i o no fp a g em a n a g e m e n ti ns i n g l ec o r ep r o c e s s o r , a n da tl a s tw ea n a l y z et h e i s s u eo fm e m o r ya c c e s sb a l a n c ei nc m p t h ee x p e r i m e n tr e s u l t ss h o wt h a tc o m p a r e dw i t h o p e np a g em o d e m e m o r ys c h e d u l i n gw i l li n c r e a s et h ea v e r a g ei p c o f s p e c2 0 0 0r o u g h l y8 m e m o r yb a n d w i d t ho ft h es t i 也a mb e n c h m a r kh a s2 3 i m p r o v e m e n t f o rs o m e c o m b i n a t i o no fm u l t i c o r ea p p l i c a t i o n s ,b a l a n c e dm e m o r ys c h e d u l i n gw i l li m p r o v et h es y s t e m o v e m l lp e r f o r m a n c ea b o u t7 k e y w o r d s :o n - c h i pm e m o r yc o n t r o l l e r ;s t a t i s t i c a lc l u s t e r i n g ;m e m o r ys c h e d u l i n g ;p a g em o d e 目录 图目录 图1 ic p u - d r a m 性能发展趋势对比。 图1 2 片外内存控制器系统架构 图1 3 片上内存控制器系统架构。 图2 1 现代d 黜w 芯片内部逻辑结构图 图2 2d r a m 存储单元原理图 图2 3d r a m 存储体结构示例 图2 4s d r a m 时序参数 8 图2 5d d rs d r a m 和s d rs d r a m 访问时序的差别1 2 图2 6 访存顺序调度技术对访存延时的优化1 6 图3 1a p p l ui p c 随时间变化曲线 图3 2 基本块执行次数和跳转关系向量。 图3 3b b e d g e 和s i m p o i n t 模拟的加速比 图3 4b b e d g e 和s i m p o i n t 的误差率比较 图4 1c l o s ep a g e 和o p e np a g e 模式下的读操作状态转换 图4 2s p e c2 0 0 0 测试程序p a g e 命中率 图4 3x o r t g 址映射下p a g e 局部性 图4 ax o 对电址映射示意 2 5 2 7 2 8 2 9 3 2 图4 5d d rs d r a m 控制器的整体框架3 3 图4 6 访存调度框架 图4 7 不同的访存调度策略对i p c 的影响 图4 8 不同的访存调度策略对访存带宽的影响 图4 9 片上多核和内存控制器互连 v 3 7 3 8 士i 科学院硕十学位论文片卜内存控制器性能评估和优化 图4 1 0 多核访存调度系统i p c 比较。 表目录 表3 1s p e ci n t2 0 0 0 表3 2s p e cf p2 0 0 0 4 0 表3 3s t r e a m 操作定义 表3 4s i m - g o d s o n 模拟器配置 表3 5g a p 的s i m p o i n t 和b b e d g e 聚类结果比较 表4 i 传统地址映射方法 表4 2 访存调度策略。 表4 3 单独运行时的i p c 表4 4 组合运行时的i p c v i 加 甜 趁 始 勰 ” 弘 声明 本人声明所呈交的论文足我个人在导师指导下进行的研究工作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:勿焉 日期:加,甲如 关于论文使用授权的说明 中国科学院计算技术研究所有权处理,保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印, 缩印或其它复制手段保存该论文。 作者签名:饧焉导师签名: 期:2 e 9 9 眨;d 第一牵引二 第一章引言 存储系统的性能足影响现代计算机系统性能的重要因素之一近二十年来,芯片结 构以及制造工艺的不断改进使得处理器和内存的工作效率都得到了相应的提高但是, 从现在的发展趋势来看,内存工作频率提高的速度远远低于处理器主频提高的速度,这 使得处理器的访存性能越来越成为制约系统性能的瓶颈。工业界和学术界一直致力于缩 小处理器和存储器之问的差距,提高处理器的访存效率最近5 年来在硬件方面主要出 现了下面三种相关技术: d d r f i i 等新型内存设备( d d r s d r a m ) 多核多线程架构( m u l t i c o r ea n d m u l t i t h r e a d i n g ) 处理器片内集成内存控制电路( o n - c h i pm e m o r yc o n t r o l l e r ) 这些技术的出现为存储系统的优化带来了新的机会和问题首先,原来有效的优化 策略现在可能不再合适。在d d rs d r a m 成为主流以后,以前针对r a m b u sd r a m 多 通道多体的优化显得不切合实际;其次,原来难以实施的优化现在可以进行。处理器片 上集成内存控制器以后,内存控制器可以直接访问片上c a c h e 的访存队列进行访存调度; 最后,原来不存在的问题现在需要特别注意。在片上共享内存控制器的时候,需要考虑 多个处理器核访问内存的公平性。 本文主要讨论在新的硬件架构下,片上内存控制器的性能评估和优化。准确快速的 性能评估环境和方法是进行各种性能优化的前提,考虑到硬件结构设计的特殊性,软件 模拟器正逐渐成为性能评估的重要手段。在不损失精确度的前提下提高软件模拟的速度, 是本文在性能评估方法方面的一个贡献在完善了龙芯的模拟器平台,建立了快速模拟 方法以后,片上内存控制器的性能优化是本文讨论的另一个重点 本章首先回顾处理器和存储器性能的发展趋势,说明进行存储系统性能优化的意义; 其次,对内存和处理器的架构做一个简单的介绍,结合工业界的最新进展说明进行片上 内存控制器优化的意义;接着,给出对存储系统的性能进行量化的指标最后,总结本 文的主要工作并给出后续章节的框架。 1 1 存储系统性能优化的意义 在目前的计算机系统中,内存设备通常是由d r a m ( o y a m i er a n d o ma c c e s s m e m o r y ) 组成近二十年来。芯片结构以及制造工艺的改进使得处理器和内存的工作效 率得到不断的提高然而,从现在的发展趋势来看,处理器工作效率和内存工作效率的 值得庆幸的是,研究人员发现程序的执行一般都具有一定的局部性程序的局部性 原理保证程序在执行过程中在一个相对较短的对问内访问的指令和数据都是蠢运磊三_ 使得现代计算机系统可以使用多级存储层次在一定程度上弥补处理器和d r a m 之茜晶 苎詈7 由于一级c a c h e 的访问延迟一般是一个处理器内核的时钟周期,对于访存行为局 部性比皎好的程序,c a c h e 技术为处理器的性能带来了很大的提高。 。竺号c a c h e 技术所能捕捉的局部性是很有限的,随着应用程序变得越来越复杂,数 孽苎璺来越大,特别对于某些流媒体或者典型的在线数据库查询,由于程序本身的局磊 ! 警差,c a c h e 对这些应用就显得力不从心增加片上c a c h e 的容量是一个相对简单的 墅决方法,但是它会带来诸如功耗,供电,非均一访问等一系列问题,也不是夏;衷嚣 学术界关于提高访存效率的研究工作大多数都是在c a c h e 级别上进行的截至到 2 0 0 0 年,已经有2 0 0 0 多篇关于c k h e 的文章发表在体系结构领域顶级的釜议或;嘉荔 2 第牵引育 上【5 】但是目前处理器和d r a m 之日j 性能的差距导致一次c a c h e 欠效可能会引起几十 个时钟周期,甚至是上百个周期的性能损失。因此,当处理器和d r a m 差距过大时, 减少每次c a c h e 失效的损失,切实降低存储器级别的访问延迟是一个研究的热点【6 1 。 1 2 存储器和处理器架构 计算机系统是由处理器,存储器以及f o 设备等组成的。由于目前处理器和内存设 备以及f o 设备之问的工作频率和接口标准存在一定差异,处理器直接和内存以及i o 设备进行交互存在一定的困难因此,在现在的计算机系统中,围绕着处理器出现了各 种芯片组,而这些芯片组的核心部件就是负责处理器和内存,i o 设备以及显示设备之 问的交互。通常,这些核心部件被称为存储控制系统以及i o 控制系统,在工业界通常 也被称为北桥( n o r t h b r i d g e ) 和南桥( s o u t h b r i d g e ) 北桥除了负责c p u 。内存,a g p 以及p c i 设备之间数据的传输之外,通常还提供 对c p u 的类型和主频,系统的前端总线频率。内存的类型和最大容量,i s a 停a ,a g p 插槽,e c c 纠错等支持,为了加速图形的显示,有的北桥还集成了显示核心南桥一般 负责对一些低速i o 设备的控制。 1 2 1 片外内存控制器架构 传统的片外内存控制器的系统架构如图1 2 所示。在图1 2 中,北桥芯片是离c p u 最近的芯片组,主要负责与c p u 的联系并控制内存,a g p ,p c i 数据在存储控制系统内 部传输,它在连接处理器和内存设备以及设备中起主导作用。 图1 2 片外内存控制器系统架构 内存控制器是北桥中最重要的控制系统,负责控制和仲裁各种设备和内存之问的数 据交换在这样的架构下,处理器的访存请求需要经过前端总线发送给北桥,经过北桥 的仲裁转发给d r a m 芯片,从d r a m 返回的内存数据也要经过北桥转发给c p u 可以 h h 学院硕七宁位沦文一h 卜内存控制器性能评估和优化 看出,这时北挢是系统的枢纽。控制着主板级别各个芯片组的互连,北桥的性能特别是 其中内存控制器的性能和整个系统的性能息息相关此外,前端总线是处理器和外围设 备的唯一接口,因此,前端总线的频率和带宽限制着处理器的数据吞吐量是系统的一 个瓶颈 1 2 2 片上内存控制器架构 随着处理器对内存访问效率的要求变得越来越高,目前已经出现在处理器内部集成 内存控制电路,此时的系统架构如图1 3 所示a m da t h l o n 6 4 系列的c p u 是这方面成 功的商业典范,a m d 把内存控制器集成在片上,同时使用f i t ( h y p e r t r a n s p o r t ) 的前 端总线,提高系统的i o 性能。i n t e l 最近也宣布将在片上集成内存控制器,这是种大 的趋势 c p i j m a m o q , 图1 3 片上内存控制器系统架构 片上集成内存控制器以后,处理器通过单独的通道直接访问内存,避免了和其他设 备竞争总线,在降低访存延迟的同时提高了访存带宽这样的架构中,片上内存控制器 可以访问一个或多个处理器核的访存队列,在没有相关的前提下对访存请求进行调度, 平衡多个处理器之间的访存请求,保证发送给d r a m 的访存请求满足d r a m 结构上的 局部性要求。这种架构带来的一个问题是,所有的访存请求都需要经过处理器,比如从 高速以太网传来的数据包或者采用集成显卡时,需要访问内存中的共享显存,在一定程 度上加重了处理器的负担。 从上面的架构分析可以看出,在计算机系统中影响访存性能的主要因素有: 存储器本身的类型和性能 4 第- 荜引言 连接处理器和存储器的总线 存储控制系统对不同设备的仲裁策略 存储控制系统对访存序列的优化策略 由于工业界使用的内存设备趋于成熟和稳定,d d rs d r a m 已经成为从桌面系统到 服务器的标准配置,因此在设备方面没有太多的优化余地。而连接处理器和存储器的总 线协议一旦发生改动,现存的很多内存设备和芯片接口都需要重新设计,也不是一个实 际的方法考虑到目前在处理器内部集成内存控制器正在成为学术界和工业界所公认的 趋势,研究片上存储控制器的仲裁和调度策略是一个可行并且有效的方案并且,随着 d r a m 芯片在底层提供越来越多的工作模式,比如o p e np a g e 模式,c l o s ep a g e 模式, 低功耗模式等等,在控制电路级别可以更好的利用这些特性。因此,在某种程度上控制 电路的设计会直接决定系统访存的效率 1 3 存储系统性能量化指标 处理器访存的延迟,指处理器通过系统总线发出内存访问请求到该请求被存储控制 系统处理结束所耗费的时间。处理器访存的延迟和系统总线传输效率,存储控制系统内 部仲裁机制,内存类型以及内存控制电路的控制策略有关。由于处理器通过系统总线发 出访存操作时,存储控制系统中内存数据通路可能被其他设备占用,这样处理器的访存 时间就不会固定;另外,在使用o p e np a g e 技术的内存控制策略中。p a g e 是否命中也会 影响到处理器访存的时间长度。所以,我们这里所指的延迟是指在定条件下,处理器 的一次内存访问请求的平均访存延迟。 带宽是指处理器和存储控制系统之问有效数据传送的速率,单位时间内通过总线传 输的有效数据的量,即吞吐率由于处理器和存储控制系统之问的主要数据传输是处理 器的访存操作,处理器或者存储控制系统的总线带宽不但和总线的信号交互协议以及总 线的工作频率有关系,而且和存储控制系统对内存设备的控制策略有密切的关系因此, 在系统总线工作频率不变的情况下,为了增加处理器和存储控制系统之间数据传输的带 宽,必须提高总线的利用率以及提高存储控制系统的访存性能 这里需要特别指出的是,尽管本文的主要工作是评估和优化系统的访存效率,但是, 其根本目的还是提高计算机系统的整体性能所以,最后评价片上内存控制系统性能还 是要经过标准的全系统基准测试程序,比如s p e c 2 0 0 0 等来进行验证单一的提高带宽 或者降低延迟不见得有实际的意义,甚至有时会得到相反的结论 1 4 论文的组织 本文第一章论述了存储系统性能优化的意义,比较了片外和片上内存控制器的架 构,说明进行片上内存控制系统评估和优化的原因,并给出存储系统性能量化的指标 5 h h 学院硕卜学位论文片1 - 内存控制器性能评估和优化 第二章介绍d r a m 内存结构以及存储控制系统的研究现状,分析目前工业界通用 的d r a m 种类。着重介绍d d rs d r a m 的特点和现有的内存控制优化策略。 第三章介绍龙芯处理器的结构和龙芯模拟器的性能评估环境,提出了种基于统计 分类的快速模拟方法。这种方法在保证模拟结果精确度的前提下大大缩短了模拟的时问, 是目前龙芯进行模拟器级性能评估的重要手段。 第四章提出片上内存控制器的调度优化策略,针对单处理器和多处理器的不同要 求,分析和比较了不同的调度算法的优劣。 第五章总结全文并提出下一步的工作设想 6 第单存伸控制系统现状 第二章存储控制系统现状 存储系统的性能和存储系统的控制和调度策略密切相关,而存储控制系统的策略往 往是针对特定的内存设备和处理器架构进行的。对于存储控制系统来说,只有根据内存 设备的特征和处理器特定的访存模式,定制有针对性的策略才能有效地优化系统的访存 效率 本章首先说明d r a m 内存的结构,在此基础上介绍工业界通用的d r a m 种类和 d d r s d r a m 的结构和延迟特征。其次,分析目前内存设备的各种控制优化策略,作为 本文工作的基础和对比。 2 1d r a m 结构简介 1 9 6 6 年,i b mt h o m a sj w a t s o n 研究中心的r o b e r th d e n n a r d 博士发明了单晶体管 d r a m ,并于1 9 6 8 年和i b m 公司获得该项技术的专利工业界可用的d r a m 是从1 9 7 0 年i n t e l 公司生产的l 1 0 3 d r a m 芯片开始,该d r a m 芯片使用p m o s 逻辑电路来存储 数据由于d r a m 芯片价格相对低廉,并且具有很高的存储密度,所以在现代的计算 机系统中,d r a m 已经成为构建内存系统的首选。 2 1 1d r a m 存储单元 d r a m 存储体内部逻辑结构如图2 1 所示,d r a m 存储体主要由行列缓存以及存储 单元所构成的存储阵列组成。 图2 1 现代d r a m 芯片内部逻辑结构图 7 h 科节院硕十学位论文l ;r 内存控制器性能评估和优化 存储单元是d r a m 存储体的核心,这些存储单元的结构决定了d r a m 的工作原理, 图2 2 为d r a m 存储单元原理图,d r a m 存储单元由m o s 管t ( 开关) 和电容c ( 存 储单元) 组成,电容的电位决定了存储单元的逻辑是l 还是0 。电容的电位为v c c 时, 存储单元的逻辑是l ;电容的电位为g n d 时,存储单元的逻辑是0 。d r a m 存储单元的 访问延时和电容值有关,电容值越小,访问d r a m 所需要的时问越短 b i t l j n e b i t l j m h d l i n e 崮 州vc c c c d c d 图2 2d r a m 存储单元原理图 d r a m 存储单元读,写操作具体原理如下,在读数的时候存储单元被字线和一对位线 激活,字线控制m o s 管t 的开关,电容存储的电荷由位线读出或写入电容里的电荷及 位线上的寄生电容共同形成了一个新电位。在打开m o s 管t 之前,位线b l ;和 b l “先被预 充( p r e c h a r g e ) 到同一电位1 2 v c c 。m o s 管t 打开后,不论c 的电位是v c c 还是g n d , 混合后都将得到一个新的电位。然后感应放大器根据b l 和b l * 这对位线上的差分电压来 决定c 中存储的逻辑是l 还是0 ,位线b l 上的电平被上拉至t j v c c 或下拉至f j g n d ( b l 上 的电平被下拉到q 或上拉2 f t j v c c ) ,并送到输出端口然而此时存储单元电容里的电 位被破坏了,从v c c 或g n d 变成了1 2 v c c + - 0 1 v ,因此,当对一个存储单元完成读操 作以后需要预充电。当存储单元的数据被感应放大器截获并锁存后,位线b l 将作为存储 单元的原始状态,如果为l 贝t b l 将对单元的电容充电,并将其上拉到v c c ;如果为0 则 电容c 将放电,并将其下拉到g n d 如果对单元进行写操作,将数据放到两个位线b l , b l * 上,当位线b l 上的电压达至u v c c 或g n d 时,感应放大器将l 或0 写入单元中由于 电容有漏电流的存在,数据不能长时问地保存在存储单元中而需要周期性更新,这过 程称作刷新( r e f r e s h i n g ) 。刷新操作与写入操作很相似,打开字线,感应放大器对每个 1 表示低电平有效 8 第:串存储控制系绕i 弛状 单元读出后再写入。d r a m 支持两种刷新机制:a u t o - r e f r e s h 及s e l f - r e f r e s h ,通常情况 下d r a m 采用a u t o - r e f r e s l 词0 新机制,a u t o - r e f r e s h 包含一个片内的刷新计数器,其刷新 时序与典型的刷新时序相似不需要提供外来的刷新地址。当d r a m 处于低功耗模式时, 它采用s e l f - r e f r e s l 蠕4 新机制,此时只需要4 m a 的电流来维持刷新操作 2 1 2d r a m 存储体 为了提高d r a m 内部逻辑单元访问的并发性,目前的d r a m 芯片颗粒通常由称为 体( b a n k ) 的d r a m 存储阵列组成,如图2 3 从逻辑结构上来看,d r a m 芯片是一个 3 d 的存储单元,一个存储单元的地址是由体号,行地址以及列地址组成。 c lxc k ec sr a sc a s e d u 0 图2 3d r a m 存储体结构示例 对于d r a m 存储器来说,除了通常提到的延迟和带宽,一个容易忽视的重要参数 是并发度d r a m 的并发度可以来自两个方面,一个是通道数,如果使用双通道的内存 技术,内存控制器可以在两个不同的数据通道上分别寻址,读取数据另一个是存储体 数目,不同体的访问在刷新时序保证的情况下是可以并发进行的,典型的d d rs d r a m 有4 个体。在d r a m 层次发掘并发度的一个主要的思路就是从处理器的访存队列中尽 可能选择可以并发执行的访存请求发给d r a m 芯片 2 1 3d r a m 时序特征 一个完整的d r a m 芯片访问分为三个阶段:行选周期( a c t i v ec y c l e ) ,列选周期 ( c o m m a n dc y c l e ) 和预充周期( p r e c h a r g ec y c l e ) 每个体都有一个行缓冲区( r o w 9 阳科学院顾+ 学位i 仑文一片 内存控制器性能许估和优化 b u f f e r ) 行缓冲区中的数据构成了一个页( p a g e ) 。当一个体收到行地址时,它进入行 选周期,锁存行地址并将这一行读出放大到行缓冲区中:当一个体接收到列地址和命令 时,它进入列选周期,根据送来的命令进行相应的操作;操作完成后,d r a m 进入预充 周期,它负责将行缓冲区中的数据写回d r a m 存储体。d r a m 支持o p e np a g e 模式, 如果连续访问i j 一个体的同一行,那么可以在第一个访问结束后将p a g e 保持打开状态, 这样做可以省去后续访问的行选周期和预充周期。 t c i g1n 几门厂、几门n 几几nn o a d q j 20 1 联 甄以至e k 巫d 3 a n k s e l 1o 】( :二二二:联:_ :二:一 s c s 厂_ 、厂- 厂 厂一 r a s c a s d w r s d a t a 6 30 i 图2 4s d r a m 时序参数 如图2 4 ,s d r a m ( s y c h r o n o u sd r a m ) 重要的时序参数有: c l ( c a s 术l a t e n c y ) c l 是指从c a s * ( 列选) 信号有效到采样出第一个读请求数据的系统总线时钟周期数, c l 通常为2 或者3 ,其具体设置视系统总线时钟频率与d r a m 频率的对比关系而定 t r c d ( r a s 丰t oc a s * ) t r c d 是指从r a s * ( 行选) 有效到c a s * 有效的系统总线时钟周期数,t r c d 通常为 2 或者3 t r p ( r a s * p r e c h a r g e ) t r p 是指从p r e c h a r g e ( 预充) 至下一个r a s * 事务发生的系统总线时钟周期,1 印通 常为2 或者3 从图2 4 可以看出,s d r a m 访问的延时主要由行选延时( t r o d ) 和列选延时( c l ) 组成,如果采用o p e np a g e 策略而又发生p a g e 冲突时,预充电延时( t r p ) 也给d r a m 访问性能带来一定的负面影响。 2 2d r a m 的种类及特征 目前,工业界存在多种类型的d r a m 设备,但实际上,这些d r a m 设备的内核, 即存储单元都是类似的所谓的差异主要体现在存储单元的大小及数量,外围电路如何 针对存储单元读,写数据以及这些d r a m 设备和内存控制电路之间的接口等然而,正 l o 笫。革存储控制系统现状 是这些差异导致各种d r a m 设备之间在性能上存在着较大的差别。 传统d r a m ( c o n v e n t i o n a la s y n c h r o n o u sd r a m ) 传统d r a m 采用行列地址分离的技术,但是行列地址复用一条总线,并使用 r a s * c a s * 信号来标识在地址线上传输的信号是行地址还是列地址,这主要是因为当 时d r a m 芯片的i o 引脚数决定着芯片的成本行地址有效时,存储阵列的一行数据被 读出放大到感应放大器中,列地址有效后便可以在感应放大器中选出正确的数据了 由于d r a m 必须在工作一段时问后进行刷新,传统d r a m 的刷新是靠内存控制电 路来完成的,这种刷新机制的好处是内存控制电路可以选择一个访存的空闲时刻来进行 d r a m 内存的刷新,但是也增加了内存控制电路的复杂度,现在的d r a m 大多数在芯 片内存集成了自刷新机制。 f p md r a m ( f a s tp a g em o d ed i 乙u ) f p md r a m 是传统d r a m 的一种改进,它首次实现了p a g e 模式【n 9 9 2 】连续访问 同一行的数据时,行地址保持不变,这样可以连续的访甸感应放大器中的数据,无需再 次进行行激活操作,因此使得d r a m 访问的延时减少,同时并没有增加芯片的面积或 者控制逻辑 e d od r a m ( e x t e n d e dd a t ao u td r a m ) e d od r a m i b m 9 8 a 有时也被称作h y p e r - p a g em o d ed r a m 它和传统d r a m 之 问的区别是在感应放大器和d r a m 输出引脚之间增加了一个锁存器( l a t c h ) 。锁存器可 以保持输出引脚的状态并且允许c a s * 信号快速复位,可以使得存储阵列很快进入 p r e c h a r g e 周期为后续的访问做好准各。 b u r s t e d o d r a m b u r s te d od i 认m 在设计上和e d od m m 有些相似,只是在内部增加了一个计数 器来自动产生列地址。b u r s t e d od 洲在芯片的引脚上增加了b u r s t 控制信号用作b u r s t 访阿和标准访问方式的选择开关。对于一次b u r s te d od r a m 的访问操作,一旦访问的 列首地址给出,每次列地址对应的数据被访问结束后,b u r s t e d o d r a m 就会自动给出 下一个列地址,直到达蛩| b u r s t 固定的长度,这种b u r s t 技术已经被目前几乎所有的d r a m 存储设备所借鉴 s d r a m ( s y n c h r o n o u sd r a m ) 传统d r a m ,f p md r a m ,e d od r a m 和b u r s te d od r a m 都是由处理器或者内 存控制电路异步控制的存储阵列,它们的访存延迟不是处理器时钟周期的整数倍 s d r a m 的所有信号都和时钟信号同步,通过时钟信号来控制数据输入输出,因此,有 效地消除了时间偏移现象,并且使得每个时钟周期都可以访问存储阵列 由于s d r a m 内部数据可以用时钟进行锁存,所以相对传统d r a m 来说,不再是从 一次访问开始一直到结束为止不允许其他访问进行,而是允许行选操作和数据访问同时 q 科学院硕十学位论文一片卜内存控制器性能评估年l 优化 进行,因此在访存带宽上有了很大的改善。 d d rs d r a m ( d o u b l ed a t ar a t es d r a m 、 d d r 是在s d r a m 的基础上进行改进的,改进之处在于数据传输上实现了时钟上升 沿和下降沿都进行采样或驱动。因此相对d d rs d r a m 来说,传统的s d r a m 又被称 为s d r ( s i n g l e d a t a r a t e ) 。图2 5 给出了d d r s d r a m 访问时序和s d r s d r a m 访问 时序的差别。 c l o c k : s d r s d r a m : : : a d d r e s s d a t a _ d 参g 埏胁 丽气一 d d r s d r a m : : : :!。 a d d r e s s d a t a _ 涸跺治卜一 r 丽嚣矿r 一 : 图2 5d d rs d p , a m 和s d rs d r a m 访问时序的差别 由于d d rs d r a m 具有较高的数据传输带宽并且在价格上又相当便宜,这两点正好 迎合了构建内存系统需要考虑的两个主要因素,所以目前产业界所用的内存大多是用 d d rs d r a m 来构建,本文关于内存控制电路的优化也是针对d d rs d r a m 的。 d d r 2 d d r 2 是j e d e c 4 2 3f u t u r ed r a mt a s kg r o u p 制定的针对点对点( p o i n t - t o - p o i n t ) 的传输应用的d d rs d r a m 的下一代产品,主要是考虑到未来的信号传输将具有高频低 压的特征而制定的。d d r 2 相对d d rs d r a m 访问方式最大的区别就是允许列激活操作 ( c a s ) 在行激活操作( r a s * ) 之后立即发出,所以具有更高的地址总线利用率 r a m b u sd r a m s r a m b u sd r a m s 通常指由美国r a m b u s 公司设计的系列d r a m 芯片。传统的 i m r a m ( c o n v e n t i o n a lr a m b u sd r a m ) 芯片使用l 字节的地址,数据复用总线与内存控 制电路相连,上升沿和下降沿同时采样,在数据的传输上使用包交换协议。由于r d r a m 允许构成r d r a m 内存的单个芯片独占内存条系统接i :l ,因此由r d r a m 构成的内存有 很多的b a n k ,而b a n k 的增加会增强访问的并发性,这样使得r d r a m 内存访问具有较 高的带宽 1 2 第:睾存储控制系统现状 i n t e l 和r a m b u s 公司于1 9 9 6 年指定了d r d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 不锈钢开水瓶项目投资可行性研究分析报告(2024-2030版)
- 2025年职称中药师试题及答案
- 2025年土建类专业试题及答案
- 中国酒店前后台系统行业市场发展前景及发展趋势与投资战略研究报告(2024-2030)
- 2025年中国二手家电行业发展前景预测及投资战略研究报告
- 2025年上海中学 试题及答案
- 矿山采掘施工方案与技术措施
- 2025年中国锁紧挡圈行业市场发展前景及发展趋势与投资战略研究报告
- 灾害应急服务保障整改措施
- 古代军事间谍与战争舞蹈考古学合同
- 螺栓连接培训课件
- 2025年农村三资试题及答案
- 2025-2030中国环保设备行业市场深度调研及前景趋势与投资发展研究报告
- 陪诊师课件教学课件
- 行车安全培训课件
- (高清版)DB34∕T 5154-2025 基于云制造的工业互联网架构要求
- 村网络文明活动方案
- 2024年空中乘务专业人才培养方案调研报告
- 执业药师资格考试《中药学专业知识二》真题及答案(2025年新版)
- DZ/T 0275.3-2015岩矿鉴定技术规范第3部分:矿石光片制样
- T/CASTEM 1007-2022技术经理人能力评价规范
评论
0/150
提交评论