




已阅读5页,还剩60页未读, 继续免费阅读
(计算机系统结构专业论文)龙芯2号片外存储系统性能分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 访存性能是现代计算机系统性能的主要瓶颈。近二十年来,由于生产工艺、电路设 计等方面的进步导致处理器主频每年以6 0 的速度提高,而d r a m 的工作频率每年却 只有1 0 左右的提高。处理器与d r a m 工作频率的差距导致一个c a c h em i s s 操作可能 会引起几十个周期、甚至上百个周期的等待,大大降低了整个系统的性能。因此,如何 提高访存性能已经成为计算机体系结构研究的一个重要方向。存储系统性能主要表现在 两个方面:延迟和带宽。片外存储系统的访存延迟主要由d r a m 延迟决定,带宽则是 由内存总线的数据传输率所决定。 d r a m 存储单元由一对m o s 管一电容对组成,电容的电位决定了存储单元的逻辑是 1 还是0 。在访问d r a m 存储单元之前,必须将位线预充( p r e c h a r g e ) 到1 2 v c c ,预 充操作是执行其他d r a m 命令的基础。所以,一个完整的d r a m 访问包括三个部分: 行选、列选和p r e c h a r g e 。 现代d r a m 支持两种p a g e 策略:c l o s ep a g e 和o p e np a g e 。采用c l o s ep a g e 策略时, d r a m 延迟由行选时间和列选时间两部分组成,访问结束后d r a m 立即进入p r e c h a r g e 周期。采用o p e np a g e 策略时,若下一个请求访问b a n k 的同一行( p a g e 命中) ,则d r a m 延迟仅包括列选时间;否则还需要额外的p r e c h a r g e 时间。应该采用哪种p a g e 策略是由 应用程序的访存模式决定的。另外,d r a m 还支持不同b a n k 的并发访问( m u l t i - b a n k i n t e r l e a v i n g ) 。p a g e 策略和b a n k 并发访问为开发d r a m 系统性能提供了空间。 本文主要讨论龙芯2 号片外存储系统性能,介绍了s d r a m 控制器的建模方法,分 析了o p e np a g e 和b a n ki n t e r l e a v e 对系统性能的影响,评价了不同地址映射方式对p a g e 命中和b a n k i n t e r l e a v e 的影响。为了了解p a g e 不命中时程序的访存行为,我们从连续p a g e 命中的访存序列长度,最近3 2 次访问的平均p a g e 距离,以及p a g e 替换距离等角度分析 了s p e c c p u 2 0 0 0 的访问模式。在此的基础上提出了扩展p a g e 的概念,并对其优化效果 进行了初步评估。最后总结已完成的实验内容以及未来工作的一些方向。 关键词;s d r a m 控制器;o p e np a g e 策略:b a n ki n t e r l e a v e :地址映射方式;访存模式 p e r f o r m a n c e a n a l y s i s o f o f f - c h i pm e m o r y a r c h i t e c t u r e x i e y o n g m e i ( c o m p u t e r a r c h i t e c t u r e ) d i r e c t e d b y h uw e i w u m e m o r ya c c e s sp e r f o r m a n c ei s t h em a j o rb o t t l e n e c ko ft h ep e r f o r m a n c eo fm o d e m c o m p u t e rs y s t e m o v e rt h ep a s tt w e n t yy e a r s ,a d v a n c e s i np r o c e s st e c h n o l o g ya n dc i r c u i t d e s i g nh a v ep r o d u c e da na n n u a li n c r e a s ei np r o c e s s o rs p e e d o f6 0 ,w h e r e a sd r a m s p e e d h a so n l yi n c r e a s e da ta na n n u a lr a t eo f a p p r o x i m a t e l y1 0 t h em e m o r yg a p c a u s e sd o z e n so f c y c l e s ,e a e - f l h u n dr e d so fc y c l e ss t a l l ,w h e nac a c h em i s so c c u r s i tg r e a t l yd e c r e a s e st h e p e r f o r m a n c e o fe n t i r es y s t e m t h u s ,h o wt oi m p r o v em e m o r ya c c e s sp e r f o r m a n c eh a sb e e na n i m p o r t a n td i r e c t i o ni nco m p u t e ra r c h i t e c t u r er e s e a r c h t h ep e r f o r m a n c e of m e m o r ys y s t e m e m b o d i e si nt w oa s p e c t s :l a t e n c ya n db a n d w i d t h o f f - c h i pm e m o r yl a t e n c y i s m a i n l y d e t e r m i n e d b yd r a m l a t e n c y , a n d m e m o r y b a n d w i d t h i s d e t e r m i n e a b y d a t a t r a n s f e r r a t e t h r o u g h t h em e m o r yb u s t h eb a s i cd r a mc e l li sc o m p r i s e do fat r a n s i s t o ra n dac a p a c i t o r ,t h ed i g i tt h a ti ss a v e d i nt h es t o r a g ece l li sd e t e r m i n e da sl o g i c1o r0 ,b yt h ev o l t a g ep o t e n t i a ls t o r e di n s i d et h e c a p a c i t o r b e f o r ea c c e s s i n gt h eb i tc e l l ,t h e b i tl i n e sn e e dt ob ep r e c h a r g e dt o1 2 v c c , p r e c h a r g i n go p e r a t i o ni st h em o s tf u n d a m e n t a ls t e pf o ra l lt h ec o m m a n d s o ro p e r a t i o n so ft h e d r a m t h e r e f o r e ,ac o m p l e t ed r a ma c c e s sc o m p o s e st h r e ep o r t i o n s :r o wa c t i v a t i n g , c o l u m na c c e s s ,a n d p r e c h a r g e m o d e r nd r a m s s u p p o r tt w op a g es t r a t e g i e s :c l o s ep a g ea n do p e np a g e i nc l o s ep a g e s t r a t e g y , d r a ml a t e n c yc o m p o s e sr o wa c t i v a t i n gl a t e n c ya n dc o h m m a c c e s sl a t e n c y t h e c l o s ep a g es t r a t e g ya l l o w st h ep r e c h a r g et ob e g i ni m m e d i a t e l ya f t e rc u r r e n ta c c e s s i no p e n p a g es t r a t e g y , i f t h en e x ta c c e s st ot h es a m eb a n kg o e st ot h es a m ep a g e ( p a g e h i t ) ,o n l y c o l u m na c c e s si sn e c e s s a r y h o w e v e r , i ft h en e x ta c c e s si sap a g em i s s ,a d d i t i o n a lp r e c h a r g e c y c l e i sn e e d e d w h i c h s t r a t e g y w i l lw i nm a i n l y d e p e n d s o nt h ea c c e s s p a t t e r n s o f a p p l i c a t i o n s m o d e md r a m s a l s os u p p o r tm u l t i b a n ki n t e r l e a v i n g p a g es t r a t e g ya n db a n k i n t e r l e a v em a k e s p a c eo f i m p r o v i n gt h ep e r f o r m a n c eo f d r a ms y s t e m t h i sd i s s e r t a t i o nm a i n l yf o c u s e so nt h ep e r f o r m a n c eo fo f f - c h i pm e m o r ys y s t e m i t i n t r o d u c e sh o wt om o d e ls d r a mc o n t r o l l e ri nc l a n g u a g e ,a n a l y z e st h ei m p a c to f o p e np a g e a n db a n ki n t e r l e a v e ,a n de v a l u a t e st h ee f f e c to f p a g eh i ta n db a n ki n t e r l e a v eb yd i f f e r e n t a d d r e s sm a p p i n gm a i m e r i no r d e rt of i n do u tt h eb e h a v i o ro f a p p l i c a t i o n sw h e n ap a g em i s s o c c u r s ,w ea n a l y z e t h em e m o r ya c c e s s m o d e o f s p e c c p u 2 0 0 0 pr o g r a m s f r o m t h e p o i n t v i e wo ft h el e n g t ho fc o n s e c u t i v ep a g e - h i ta c c e s s ,a v e r a g ep a g ei n t e r v a lf o rt h er e c e n t3 2 i i a c c e s s e s ,a n dd i s t a n c ef o rp a g er e p l a c i n g b a s eo nt h e s e ,w ep r o p o s ean e w c o n c e p t i o nn a m e d e x t e n d e dp a g e ,a n dp r e l i m i n a r i l ya n a l y z ei t si m p a c t f i n a l l y , i t p r e v i e w ss o m es u b j e c t st ob e i n v e s t i g a t e di nt h ef u t u r ew o r k k e y w o r d s :s d r a mc o n t r o l l e r , o p e np a g es t r a t e g y , b a n ki n t e r l e a v e ,a d d r e s s m a p p i n g m a n n e r , m e m o r y a c c e s sm o d e 1 1 1 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:铆廿习g 睹 日期:2 舻峰年1 同 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名:解,永确导师签名:寸8 中斌日期:2 中绎了用 第一章引言 计算机系统对存储性能的需求是无止境的。现代计算机系统都是以存储器为中心, 系统正常运转所需要的所有程序代码和数据都存放在特定的存储介质( 譬如硬盘、软盘、 移动存储、磁带或者e p r o m ) 上。从计算机启动开始,操作系统或者引导程序必须将 存放在存储介质上的程序代码和数据读到物理内存,程序才能开始运行。这是因为物理 内存是唯一可以被处理器直接访问的存储部件。因此,访存性能是计算机系统性能的重 要组成部分。随着多媒体、数据库等访存密集型应用的推广,访存需求正在快速增长。 因而,人们提出了存储系统的概念以缓解系统对存储性能的需求。存储系统充分利用了 访存局部性原理,由一系列性能、成本、容量都不同的设备组成。这个系统对应用程序 员是透明的,它在性能上接近性能最好的存储设备,在成本上接近成本最低的存储设备, 在容量上接近容量最大的存储设备 郑9 8 】。存储系统在很大程度上解决了访存需求快速 增长的问题,促进了计算机系统性能的提高。 1 1 研究背景 存储系统性能是现代计算机系统性能的主要瓶颈。近二十年来,由于生产工艺、电 路设计等方面的进步导致处理器主频每年以6 0 的速度提高,而d r a m 的工作频率每 年却只有1 0 左右的提高 w i l k e s 0 0 1 。处理器与d r a m 工作频率的差距导致一个c a c h e m i s s 操作可能会引起几十个周期,甚至上百个周期的性能损失。为了弥补处理器与 d r a m 工作频率的差异,处理器设计者尝试着以增大片内c a c h e 容量的办法来弥补访存 性能损失,然而随着应用程序变得越来越复杂、数据集越来越大,这种方法的效果正在 逐渐减弱。与此同时,d r a m 制造厂商也一直不断推出s d r a m ,e s d r _ a m ,r a m b u s d r a m 等新型d r a m 系统,访存带宽已经有了较大幅度的提高 c u p p u 9 9 1 。但是,随着 指令发射宽度的增加、多媒体和数据库等访存密集型应用的推广,系统对访存带宽的需 求越来越大,这导致存储系统对系统整体性能的瓶颈作用越来越大 b a r r o s 0 9 8 1 。因此, 如何提高存储系统性能仍然是计算机体系结构研究的热点。 访存性能主要体现在两个方面:延迟和带宽。 访存延迟包括五部分:c p u 内部排队a ( 包括时钟域转换的开销) 、总线上传输b f 、 协议处理c 、m e m o r yc o n t r o l l e r 调度d 和d r a m 延迟e ,如图1 1 所示。其中,c p u 内部排队开销和总线上传输延迟是由处理器体系结构决定的,而协议处理、m e m o r y c o n t r o l l e r 调度和d r a m 延迟这三部分开销则是由内存控制器的结构决定的。 中国科学院硕士学位论文一龙芯2 号片外存储系统性能分析 a c p u 内部排队开销( 包括时钟域转换开销) b - - c p u 到m e m o r yc o n t r o l l e r 的总线传输开销 c 一系统总线请求到d r a m 命令序列的转换开销 d - - m e m o r yc o n t r o l l e r 调度开销 e 1 - - c a s 延迟( o p e n p a g e 策略,p a g e 命中) e 2 一r a s + c a s 延迟( c l o s ep a g e 策略) e 3 一p r e + r a s + c a s 延迟( o p e np a g e 策略,p a g e 不命中) f - - m e m o r yc o n t r o l l e r 到c p u 的总线传输开销 访存延:迟= a + b + c + d + e + f 图1 1 访存延迟组成 片外访存延迟主要由d r a m 延迟决定。典型的d r a m 延迟( c l o s e p a g e 策略) 包括 行选时间和列选时间两部分。现代d r a m 大都支持o p e np a g e 策略,因而d r a m 延迟 是可变的。采用o p e np a g e 策略时,若下一个请求访问b a n k 的同一行( p a g e 命中) ,则 d r a m 延迟仅包括列选时间;否则还需要额外的p r e c h a r g e 时间,d r a m 延迟包括 p r e c h a r g e 时间、行选时间和列选时间三部分。访存延迟反映了单个访存请求的响应速度, 由于目前的d r a m 系统仍然采用行,列地址总线复用的技术,延迟方面并没有得到明显 的改善 c u p p u 9 9 。 访存带宽则主要取决于内存总线的数据传输率。带宽是存储系统的重要性能指标, 它反映了存储系统的整体性能。d b u r g e r ,j r g o o d m a n 等人的研究表明带宽是存储系 统性能的主要瓶颈,像我们熟悉的媒体处理程序就是受访存带宽影响最大的一类程序。 1 2d r a m 简介 d r a m ( d y n a m i cr a n d o ma c c e s sm e m o r y ) 是动态随机存储设备的简称,广泛应用 于现代p c 中。 第一章引言 1 2 1d r a m 存储单元 d r a m 存储单元由m o s 管t ( 开关) 和电容c ( 存储单元) 组成,如图1 t 2 所示。电容的电位决定了存储单元的逻 辑是1 还是0 。电容的电位为v c c 时, b i tl i n e + 存储单元的逻辑是1 ;电容的电位为 g n d 时,存储单元的逻辑是0 。在读数 血l 1 ” 的时候存储单元被字线( w o r dl i n e ) 和 一对位线( b i tl i n e ) 激活,字线控制 m o s 管t 的开关,电容存储的电荷由位 线读出或写入。电容里的电荷及位线上 的寄生电容共同形成了一个新电位。在 打开m o s 管t 之前,位线b l 和b l * 先被预充( p r e c h a r g e ) 到同一电位 w o r dl i n e ,。,i 一1 s e n s e i 11 日匹i 曼d i t i 厂_i j _ 吼 。 一l 。 广0 v c i = 二二。c 中,由于a t h l o n 6 4 集成了内存控制器,每一个处理器都将具有独立的内存予系统,处理器之 间通过h y p e r t r a n s p o r t 技术相连,带宽可达到6 4 g b s 。因此无论在物理上还 是在逻辑上都可以更加高效、智能地进行资源分配,这对网络服务器和数据 库服务器具有极其重要的实际意义。 中国科学院硕士学位论文一龙芯2 号片外存储系统性能分析 图4 1a t h l o n 6 4 内存控制器结构 如图4 1 所示,处理器内部封装了内存控制器( m c t ) 和d r a m 控制器( d c t ) 。 m c t 是处理器核心和d c t 之间的连接界面,它不因为外部内存的类型而改变。而d c t 则是专门针对d r a m 的内存连接界面,可以通过改变d c t 来实现对不同类型内存的支 持。 a t h l o n6 4 的内存控制器可以兼容d d r 2 6 6 3 3 3 4 0 0 ,工作在6 4 b i t ( 单通道) 或者 1 2 8 b i t ( 双通道) 下,由于面向的是高端市场( 特别是服务器市场) ,所以内存控制器也 支持e c c 校验。 4 1 2n f o r c e 2 芯片组i g p n f o r c e 2 芯片组没有沿用市场上广为接受的北桥概念,而是采用所谓的综合图形处 理器 g p ( i n t e g r a t e dg r a p h i c sp r o c e s s o r ) 的概念。其i g p 是从最初的c r u s h1 1 1 2 的i g p 演化而来的,增加了新的图形核心和功能特性,采用支持双通道d d r 内存模组的架构。 n f o r c e 2 采用g e f o r c e 4 m x 的图形内核,该图形核心的频率将锁定在2 5 0 m h z ,这与市 面上的g e f o r c e 4 m x 4 2 0 的工作频率相同。n f o r c e 2 的i g p 还支持外接的a g p 8 接口, 有利于图形加速卡升级。 所谓双通道技术,就是指在北桥芯片组内设置两个内存控制器,每个内存控制器控 制一个数据通道。北桥可以在两个不同的数据通道上分别寻址、读取数据。因此双通道 技术可以使普通d d r 内存达到1 2 8 b i t 的位宽,如果是d d r 3 3 3 的话,可以达到d d r 6 6 7 的效果,内存带宽增加一倍。由于采用了双通道技术,1 2 8 位的d d r 内存将在性能上 给n f o r c e 2 带来超越i n t e t8 5 0 e 芯片组的巨大潜力,但前提条件是必须打开整合的图形 单元。但是若关闭i g p 图形功能,第二个d d r 通道基本上就不起作用了。 2 2 第四章s d r a m 控制器建模 4 1 3i n t e l1 9 15 1 9 2 5 芯片组内存控制器 新一代1 9 1 5 、1 9 2 5 芯片组除了支持5 3 3 m h z 及8 0 0 m h z 前端总线外,还支持d d r - i i 、 p c i e x p r e s s 、a z a t i a 音效等新技术。 1 9 1 5 、1 9 2 5 北桥内存控制器不仅支持双通道d d r 内存技术,还引入了对d d r - i i 内 存的支持。支持d d r i i 相对d d r 的优势: d d r i i 最大改进之处在于改良了i ob u f f e r 部分,改用四位预取架构( 4 b i t p r e f e t c h ) 。这样d d r i i 每次传输数据达到4 位,比d d r 多一倍。四位的预 取技术有点类似于r a m b u s 的四倍r a m b u s 信号模型技术,它可以在核心频率 较低的情况下实现较高的数据传输率。 d d r 1 1 支持内存信号终结器( o d t ) 、更小的分页大小( 用更低的电压就可 以启动) ,而且d d r i i 采用了p o s t e dc a s 技术以支持r a s 讯号结束后,直 接完成c a s 操作。 d d r - i i 不再使用t s o p 封装,而改用f b g a 封装。除了线路更短,噪声更低 辨,f b g a 封装的体积更小,志存单元懿密度更离。另外,d d r 1 1 模块电医 由2 5 伏降低至1 8 伏,大大降低了功耗,有利于提高内存工作频率。 d d r - i i 还对内存予系统进行了重新设计,其写入过程延迟与以往有所不间: 传统d d r 内存可以在写入指令下达后的个周期记录数据,而d d r - i i 内存 常因为更高的时钟频率丽有所不同。写入延迟,要用读数延迟减去一个时钟 周期来计算,因此延迟时间有所降低。延迟时间介于1 8 n s 到2 2 n s 之间( 由 厂商根据工作频率设定) ,远低于d d r 的2 9 n s 。 d d r - 1 1 与双遥道技术的区别是:d d r - l i 是新一代内存标准,其最小带宽是每个引脚 4 0 0 m b i t s ,工作起始频率2 0 0 m h z 。由于d d r - i i 采用了4 、4 3 7 数据预取技术,而1 日的d d r 标准则为2 位预取,所以理论上d d r - i i 的速度是d d r 的两倍。因此,d d r i i 彳艮容易与双 通道技术混淆。但是,d d r i i 内存是工作在单通道1 2 8 位下,而双通道则是两条d r a m 分妫工作在6 4 位下,其带宽总和为1 2 8 位。 从上面的分析不难看出,片外内存控制器大都朝着提高带宽的方向发展,而片内内 存控每l 嚣却可以扶延迟和带宽两方面来提高访存性麓。这是因为,北桥上的内存控错j 器 受前端总线的限制比较大,访存性能提升空间相对较小。由于带宽是存储系统性能的主 要瓶颈 b u r g e r 9 6 ,所以j l 桥厂商大都致力予提离访存蒂宽:将内存控制器踅于处理器 芯片内部有效地克服了前端总线的限制,所以片内内存控制器使得访存性能明显提高, 因丽已经成为内存控制器市场的发展趋势。但是,由于内置的内存控制器缺乏主板生产 厂商的支持,在短期无法迸步推广,所以片外内存控制器仍然是主流产品。因此,本 文针对片外内存控制器进行建模与分析。 中国科学院硕士学位论文一龙芯2 号片外存储系统性能分析 4 2 参考模型 建模的参考模型是m i p s 北桥g t - 6 4 2 4 0 a 的s d r a mc o n t r o l l e r 。它支持最多4 个 b a n k ,每个b a n k 按地址空间可以划分为4 个v i r t u a lb a r t k 。每个v i r t u a lb a n k 都包括一个 行缓冲区( r o w b u f f e r ) ,行缓冲区中的数据构成了一个p a g e 。s d r a m c o n t r o l l e r 支持1 5 位的地址总线和6 4 位的数据总线。它负责控制s d r a m 完成c p u 、d m a 或者p c i 发 起的渎写请求,各个主设备可以通过u m a 总线仲裁协议共享s d r a m 总线。s d r a m c o n t r o l l e r 支持u n b u f f e r e d 和r e g i s t e r e d 两种d r a m m a r v e l l 0 1 。 4 2 1c p u 接口 g t - 6 4 2 4 0 a 的c p u 接口包括2 5 6 字节的写缓冲区和6 4 字节的读缓冲区。写缓冲区 最多可以容纳8 个c a c h e1 i n e 。c p u 接口采用p o s t 方式处理写请求,即先将数据写到写 缓冲区直到目标设备空闲时才将数据真正地写回。写缓冲区可以有效地提高c p u 接口 的输入带宽。读缓冲区最多可以容纳两个c a c h el i n e 。数据读出时,如果s y s a d 总线忙, 那么数据暂时保存在读缓冲区直到s y s a d 总线空闲时才将数据返回给处理器:如果 s y s a d 总线空闲则c p u 接口直接将数据送到s y s a d 总线上。 g t - 6 4 2 4 0 a 还支持s p l i tr e a d 操作。北桥中的c p u 接口可以接收多个读请求,而且 读请求的响应数据可以乱序返回处理器。 4 2 2s d r a mc o n t r o l l e r g t - 6 4 2 4 0 a 的内存控制器s d r a mc o n t r o l l e r 遵循p c i 3 3 规范,其最高工作频率为 1 3 3 m h z ,峰值带宽可达到1 g b y t e s e c 。它支持o p e np a g e 、b a n ki n t e r l e a v e 等优化选项, 打开这些选项可以有效地提高访存带宽。 s d r a mc o n t r o l l e r 负责控制处理器与内存、p c i 设备与内存的数据传输。它包括两 个5 1 2 字节的写缓冲区和两个5 1 2 字节的读缓冲区,可以处理四个写请求和四个读请求。 s d r a mc o n t r o l l e r 的读、写缓冲区的大小与c p u 接口部分的读、写缓冲区大小不相等, 这是因为s d r a mc o n t r o l l e r 除了响应处理器的访问请求以外还响应p c i 设备的访问请 求,所以s d r a mc o n t r o l l e r 的缓冲区比c p u 接口的缓冲区要大一些。 当发生写事务时,数据首先写到w r i t eb u f f e r 中,直到s d r a mc o n t r o l l e r 调度写请求 时才将w r i t eb u f f e r 中的数据真正写回到s d r a m 。w r f f eb u f f e r 允许s d r a mc o n t r o l l e r 在为先前的访问请求服务的同时接收新的访问请求。当发生读事务时,s d r a mc o n t r o l l e r 在命令周期结束后开始采样从s d r a m 中读出的数据( 采样窗口依赖c l 参数) ,然后 将采样到的数据放到r e a d b u f f e r 中,并在s y s a d 总线空闲时将数据返回给处理器。如果 r e a db u f f e r 为空,s d r a m c o n t r o l l e r 可以直接将数据返回给处理器,这样做有利于获得 最小的读延迟。如果r e a d b u f f e r 非空,则表示由于s y s a d 总线忙而导致先前读请求的数 第四章s d r a m 控制器建模 据还未返回给处理器,那么读请求的数据必须先写到r e a d b u f f e r 中。 4 2 ,3 调度策略 s d r a mc o n t r o l l e r 的调度策略非常简单,采用顺序的调度方式。一且访问请求到达 s d r a mc o n t r o l l e r 就将它加入请求队列中。当s d r a mc o n t r o l l e r 接收到访问地址后,立 即访问s d r a m 。 4 24b u r s t 操作 s d r a m 设备支持多种b u r s t 长度和b u r s t 顺序,可以在模式寄存器m o d er e g i s t e r 中 进行设置。模式寄存器的格式如图4 2 所示。 m o d e r e g i s t e r ( 可编程) i i1 0987 64320 l t m o d e 域 图4 2 模式寄存器 b i t s ( 6 5 4 )c a s 1 a t e n c y 0 1 02 0 1 13 其它保留 w t 域 b i t ( 3 ) w r a d t y p e ol i n e a r li n t e r l e a v e 中国科学院硕士学位论文一龙芯2 号片外存储系统性能分析 b l 域 b i t s ( 2 1 0 ) b u r s tl e n z t h 0 0 0l 0 0 1 2 0 1 04 其他保留 b u r s t 地址顺序 b u r s ti e n 甄hs t a r tb i ti n t e r l e a v el i n e a r 2o0 ,1o ,1 2l1 ,o1 ,o 40 00 ,1 ,2 ,30 ,l ,2 ,3 40 l1 ,0 ,3 ,21 ,2 ,3 ,o 4l o2 ,3 ,o ,l2 ,3 ,0 ,l 4l l3 ,2 ,1 ,o3 ,0 ,1 ,2 s d r a m c o n t r o l l e r 模式寄存器的缺省设置:b u r s tl e n g t h 为4 ,b u r s to r d e r 为l i n e a r 。另 外,s d r a mc o n t r o l l e r 还可以在适当的时钟窗口边界向s d r a m 发送地址和控制信号,以 适应不同长度的b u r s t 访问。s d r a m 访问并不一定都是b u r s tl e n g c l l 的整数倍,当处理器 发起一个短的b u r s t 请求时,s d r a mc o n 仃o l l e r 可以通过发送p r e c h a r g e 命令来提前结束 b u r s t 访问,如图4 - 3 所示。 第四章$ d k a m 控制器建模 t c i k1n 几厂弋nn 几几n 几,n d a d r 1 2 :0 b a n k s e l 1 :0 $ c s + 、厂_ 、厂、厂 r a s _ 、皇盟塑厂_ 、! 蛐厂_ 、型塑厂 c a s _ 、业险厂一 d w r * 1 i r 1 s d a t a 6 3 :0 soqm厂 一 图4 3 提前结束b u r s t 操作 处理器访问s d r a m 时,b u r s t 长度通常是一个d o u b l e w o r d ( u n c a c h e d 访问,访问长度 从1 个字节到8 个字节都有可能) ,或者四个d o u b l ew o r d ( c a c h e d 访问,访问长度为一个 c a c h el i n e ) 。其他设备访问s d i 认m 的b u r s t 长度可能比b u r s tl e n g m 还要长,当发生跨越 b u r s tl e n g t h 对齐边界的访问时,s d r a m c o n t r o l l e r 需要发出新的列地址。 4 2 5o p e np a g e o p e np a g e 选项使得s d r a m c o n t r 0 1 l e r 可以在完成一个访问请求后将p a g e 保持o p e n 状态等待下一个s d r a m 访问的到来。如果后面的s d r a m 请求访问相同的行( p a g e 命中) ,则后面的访问请求可以直接进入列选周期访问数据,而不必进入行选周期。连 续访问相同p a g e 的时序行为如图4 4 所示。 t o l k1 几nn n 八n 几八几几八 d a d h l 2 0 】k 匦瑚k 亟d 旺正 b a n k s e l 1 :o 】l := :) ( 二:二 i c 二 s c :s “ n 厂 厂 r a s 缝! 塑厂一 c a s 弋曼幽厂 塑! 厂一 o w r t r 1 r 1 r 一 3 。酬6 3 :0 】叫疆目匠疆匿近匿匦x 委至阳 图4 4 连续访问相同的p a g e 中国科学院硕:b 学位论文一龙芯2 号片外存储系统性能分析 4 2 6b a n ki n t e r l e a v e b a n k i n t e r l e a v e 选项使得对不同b a n k ( 物理b a n k 或者v i r t u a l b a n k ) 的访问流水起来, 可以大幅度地提高访存带宽。s d r a i v lc o n t r o l l e r 在发送完一个s d r a m 的行、列地址后, 便会检查是否存在另外一个对不同b a n k 的访问:如果存在s d r a m c o n t r o l l e r 便会调度 那个访问,这样前面访问的p r e c h a r g e 周期和后续访问的行选周期、列选周期在时间上 重叠起来。 t c l k1 厂、几几几几几厂、几n 几n 八 d a d r 1 2 :0 e a n k s e l 1 :d s c s 一 厂_ 厂_ 、厂_ 厂_ 、厂一 r a s 。_ 、盎鲤! ,_ 、垒型骘广盟也厂一 c a $ 璺型厂、釜趔厂一 d 科r r r 一 s d a t a 6 3 :0 图4 5 多体并发访问 第四章s d r a m 控制器建模 4 3s d r a m 控制器总体设计 s d r a m 控制器从功能上可以分为五部分:基本数据结构、控制寄存器、c p u 接口、 s d r a m 接口和状态转换机( f s m ) 。 4 ,31 基本数据结构 图4 6 内存控制器结构图 建模的目的是评价处理器的访存性能,所以我们只考虑内存控制器对处理器的响应 而没有考虑对其他外围设备( 如p c i 设备) 的响应。因此,参照g t - 6 4 2 4 0 a 的c p u 接 口读、写缓冲区的设置,s d r a m 控制器模型采用2 项的读请求队列r e a db u f f e r 、8 项 的写请求队列w r i t e _ b u f f e r 和1 0 项的控制队列c t r lq u e u e ,可以处理两个读请求( c a c h e d 读和u n c a c h e d 读) 和八个写请求( c a c h e d 写和u n c a c h e d 写) ,c t r ln u e u e 集中地控制读、 写请求访问s d r a m 。每个队列都是一个静态循环链表,包括头指针和尾指针,即 r e a d b u f h e a d 和r e a d b u f t a i l 、w r i t e b u f h e a d 和w r i t e b u f t a i l 及c t r l q h e a d 和 c t r l q j a i l ,头指针指向队列头,尾指针指向队列中下一个空闲项。 队列空、满的条件分别是: b u re m p t y 5 ( b u f h e a d b u f _ t a i t ) & & ( b u f f e r b u r _ h e a d s t a t e - - e m p t y ) b u rf u l l5 ( b u f h e a d 。b u r _ t a i l ) & & ( b u f f e r b u f _ _ h e a d s t a t e ! = e m p t y ) 中国科学院硕士学位论文一龙芯2 号片外存储系统性能分析 1 ) r e a d _ b u f f e r r e a db u f f e r 中每一项的结构 s t r u c tr e a d _ b u f f e r b i t 一2 s t a t e ; u c h a r c 订u d ; d a ,遣6 4d a t a 4 ; u c h a r b l o c k _ m a s k ; u c h a r f i r s t _ d w o r d ; ; + s t a t e 表示读缓冲区的状态,共有四种:e m p t y 、r e a d y 、i s s u er o w 和 i s s u ec o l 。e m p t y 表示此表项空闲;r e a d y 表示此表项是有效的读请求,但未 s d r a m 发送行、列地址;i s s u er o w 表示已向s d r j m 发送完行地址,但未发 送列地址;i s s u ec o l 表示己向s d r a m 发送完列地址。 +c t r li d 表示此项在控制队列中的位置。 + d a t a 4 保存从s d r a m 中读出的数据。 b l o c k _ m a s k 表示b u r s t 访问的长度。1 表示c p u l t 来的请求是u n c a c h e d 访问,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年企业运营管理能力提升课程试题集及解析
- 2025年9月遗传生殖门诊护理理论考试题及答案
- 北京市门头沟区2023-2024学年七年级上学期期末质量监测数学考试题目及答案
- 北京市门头沟区2023-2024学年九年级下学期初中学业水平考试(一模)语文考试题目及答案
- 四川省成都市金牛区外国语学校2026届化学高一第一学期期末预测试题含解析
- 2026届甘肃省武威市民勤县第三中学化学高二第一学期期末联考模拟试题含答案
- 2025年政府办遴选公务员面试模拟题集及解析
- 2025年投资顾问招聘面试模拟题及应对策略
- 2025年软件开发工程师招聘面试题把握机会一展技术实力
- 血透室课件教学
- FZ/T 01137-2016纺织品荧光增白剂的测定
- 分镜头脚本设计-课件
- 2020数学花园探秘决赛三四年级A卷
- 冀教版四年级数学下册小数进位加法说课稿
- (精选word)2019《普速铁路线路修理规则》
- 《信念永恒》(朗诵稿)
- 开具生效证明申请书(申请开具生效证明用)
- 瑞吉欧活动-人群课件
- 大学生生命教育与心理危机应对
- 四年级语文上册第一单元【教材分析】课件
- 物流公司财务管理制度
评论
0/150
提交评论