(计算机系统结构专业论文)高性能存储系统研究.pdf_第1页
(计算机系统结构专业论文)高性能存储系统研究.pdf_第2页
(计算机系统结构专业论文)高性能存储系统研究.pdf_第3页
(计算机系统结构专业论文)高性能存储系统研究.pdf_第4页
(计算机系统结构专业论文)高性能存储系统研究.pdf_第5页
已阅读5页,还剩113页未读 继续免费阅读

(计算机系统结构专业论文)高性能存储系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着存储系统的访问速度与处理器的运算速度的差距越来越显著t 访存性能已成为 提高计算机系统性能的瓶颈。如何通过设计高性能存储系统弥补处理器与存储系统性能 的差距长期以来是体系结构领域的研究热点。 本文从提高处理器的i p c 值和优化处理罂的访存延时及带宽的角度出发,结合分析 龙芯2 号处理器运行s p e cc p u 2 0 0 0 测试程序的访存行为特征,对存储系统性能优化技 术进行研究,提出了一系列存储系统的性能优化技术并对所提出的优化技术进行性能评 测与分析。本文主要的e 新点及贡献包括; 1 通过对c a c h e 写失效行为的分析,提出一种新的提高处理器带宽利用率的c a c h e 写失效处理策略c a c h e 自适应写分配策略。该策略在访存失效队列中收集全修改 c a c h e 块,对全修改c a c h e 块采用i 写分配策略,并能够自适应地切换为写分配策略。 与传统的c a c h e 写失效处理策略相比,c a c h e 自适应写分配策略硬件代价小,避免了不 必要的数据传输,降低c a c h e 污染,减少存储管理队列阻塞的频率。结果表明,采用c a c h e 自适应写分配策略,s t r e a m 基准测试程序带宽平均提高6 2 6 ,s p e cc p u 2 0 0 0 程序 的i p c 值平均提高5 9 。 2 通过对栈访问行为的分析,提出一种栈高速缓存方案快速地址计算的自适应 栈高速缓存组织方案。该方案将栈访问从数据高速缓存的访问中分离出来,充分利用栈 空间数据访问的特点,提高指令级并行度,减少数据高速缓存污染,降低数据高速缓存 失效率,并采用快速地址计算策略,减少栈访问的命中时间。该拽高速缓存在发生栈溢 出时,能够自适应地关闭,以避免栈切换对处理器性能的影响。栈高速缓存标志中增加 进程标识,进程切换时不需要将数据写到低层存储系统中,适用于多进程环境。s p e c c p u 2 0 0 0 程序运行结果表明,采用快速地址计算的自适应栈高速缓存方案,2 5 8 的访 存指令可以并行执行,数据高速缓存失效率平均降低9 4 ,i p c 值平均提高6 9 3 通过对指令c a c h e 和数据c a c h e 失效行为的分析,提出一种预取策略结合 访存失效队列状态的预取策略。该预取策略保持了指令和数据访问的次序,有利于预取 流的提取。并将指令流和数据流的预取相分离,避免相互替换。在预取发起时机的选择 上,结合访存失效队列的状态,减小对处理器正常访问请求的影响。通过流过滤机制提 高预取准确性,降低预取对访存带宽的需求。结果表明,采用结合访存失效队列状态的 预取策略,处理器的平均访存延时减少3 0 ,s p e cc p u 2 0 0 0 程序的i p c 值平均提高 8 3 。 4 通过对内存访问地址的空间局部性分析,提出一种内存控制策略处理器核 指导的内存p a g e 模式控制策略。该策略由处理器核指导,自适应地根据程序访存地址的 空间局部性特征动态调整p a g e 模式,融合o p p a g e 策略和c l o s ep a g e 策略的优点处 理器核通过真实的未来访存行为进行内存p a g e 模式的指导,比现有的动态p a g e 模式控 制策略根据历史信息进行预测更加准确。处理器核在发送访存请求时,结合已经发出请 求的p a g e 信息进行调度,使p a g e 模式控制策略更好地发挥作用a 结果表明,采用处理 器核指导的内存p a g e 模式控制策略,s p e cc p u 2 0 0 0 程序的i p c 值平均提高7 1 。 关键词:龙芯2 号;高速缓存;存罐系统:写失效:栈:快速地址计算;预取:p a g e 模 式控制;自适应 r e s e a r c ho nh i g hp e r f o r m a n c ec a c h ea n dm e m o r ys y s t e m h u a nd a n d a n ( c o m p u t e r a r c h i t e c t u r e ) d i r e c t e db yp r o f e s s o r sl i uz h i y o n ga n dh uw e i w u w i t ht h ep r o c e s s o r - m e m o r yp e r f o r m a n c eg a pc o n t i n u i n gt og r o w , t h ep e r f o r m a n c eo f m e m o r ya c c e 8 5b e c o m e st h em a j o rb o t t l e n e c ko ft h ep e r f o r m a n c ei m p r o v e m e n tf o rm o d e m m i c r o p r o c e s s o r s i tb e c o m e sah o ts p o to f r e s e a r c ha c t i v i t i e st op r o p o s en e w c a c h ea n dm e m o r y c o n t r o lm e c h a n i s m sa n d p o l i c i e si no r d e rt h a t 妒e c e s s o r - m e m o r yg a p w i l lb ed e c r e a s e d b a s e do ni n v e s t i g a t i o n so fm e m o r ya c c e s sb e h a v i o r , t h r o u g he x p e r i m e n t a t i o n so fs p e c c p u 2 0 0 0b e n c h m a r k sr u n n i n go ng o d s o n 一2p r o c e s s o r , s e v e r a lp o l i c i e st h a tc a ni m p r o v e p e r f o r m a n c eo fc a c h ea n dm e m o r ys y s t e ms i g n i f i c a n t l ya r ep r o p o s e da n de v a l u a t e di n t h i s d i s s e r t a t i o n t h ep r o p o s e dt e c h n i q u e sc a ni n c r e a s em e m o r ya c c e s sb a n d w i d t hw h i l ed e c r e a s e a c c e s sl a t e n c ys ot h a ti p co ft h ep r o c e s s o ri si n c r e a s e d f o l l o w i n gc o n t r i b u t i o n sa l ep r e s e n t e d i nt h i sd i s s e r t a t i o n 1 c a c h ea d a p t i v ew r i t ea l l o c a t ep o f i c yt h a ti m p m v e st h eb a n d w i d t ho fm i c r o p r o c e s s o r s i g n i f i c a n t l yi sp r o p o s e db yi n v e s t i g a t i n gc a c h es t o r em i s s e s c a c h ea d a p t i v ew r i t ea l l o c a t e p o l i c yc o l l e c t sf u l l ym o d i f i e db l o c k si nm i s sq u e u e f u l l ym o d i f i e db l o c k sa r ew r i t t e n t ol o w e r l e v e lm e m o r yb a s e do nn o n - w r i t ea l l o c a t ep o l i c yw h i c hc a ns w i t c ht ow r i t ea l l o c a t ep o f i c y a d a p t i v e l y c o m p a r i n gw i t ho t h e rc a c h es t o r em i s sp o l i c i e s ,c a c h ea d a p t i v ew r i t ea l l o c a t e p o l i c ya v o i d su n n e c e s s a r ym e m o r yt r a f f i c , r e d u c e sc a c h ep o l l u t i o na n dd e c r e a s e sm e m o r y q u e u ef u l lr a t ew i t h o u ti n c r e a s i n gh a r d w a r eo v e r h e a d e x p e r i m e n tr e s u l t si n d i c a t et h a t o n a v e r a g e6 2 6 m e m o r yb a n d w i d t hi ns t r e a mb e n c h m a r k si si m p r o v e db yu t i l i z i n gc a c h e a d a p t i v ew r i t ea l l o c a t ep o l i c y t h ep e r f o r m a n c eo fs p e cc p u 2 0 0 0b e n c h m a r k si s a l s o i m p r o v e de f f i c i e n t l y t h ea v e r a g ei p cs p e e d u p i s5 9 2 a d a p t i v es t a c kc a c h ew i t hf a s ta d d r e s sg e n e r a t i o np o l i c yi sp r o p o s e db yi n v e s t i g a t i n g s t a c ka c c e s sb e h a v i o ro f p r o g r a m s a d a p t i v es t a c kc a c h ew i t hf a s ta d d r e s sg e n e r a t i o np o l i c y d e c o u p l e ss t a c kr e f e r e n c e sf r o mo t h e rd a t ar e f e r e n c e s , i m p r o v e si n s t r u c t i o n l e v e lp a r a l l e l i s m , r e d u c e sd a t ac a c h ep o l l u t i o n , a n dd e c r e a s e sd a t ac a c h em i s sr a t i o s t a c ka c c 嘲l a t e n c yc a nb e r e d u c e db yu s i n gf a s ta d d r e s sg e n e r a t i o ns c h e m ep r o p o s e dh e r e a d a p t i v es t a c kc a c h e 、i t l if a s t a d d r e s sg e n e r a t i o np o l i c yc a l la l s oa v o i du n n e c e s s a r ym e m o r yt l a 伍c s t a c kc a c h e 伽b e d i s a b l e da d a p t i v e l y w h e ni ti so v e r f l o w i tc a na l s ob ea p p l i e dt om u l t i t h r e a ds c h e m eb ya d d i n g t h r e a di d e n t i f i e r o u re x p e r i m e n tr e s u l t si n d i c a t et h a ta b o u t2 5 8 o fa l lm e m o r yr e f e r e n c e i n s t r u c t i o mi ns p e cc p u 2 0 0 0b e n c h m a r k sa r ee x e c u t e di np a r a l l e lb ya d o p t i n ga d a p t i v es t a c k c a c h ew i t hf a s ta d d r e s sg e n e r a t i o n o na v e r a g e9 4 d a t ac a c h em i 鹞i sr e d u c e d t h e p e r f o r m a n c e i si m p r o v e ds i g n i f i c a n t l y t h ea v e r a g ei p c s p e e d u pi s6 9 3 p r e f e t c h i n gp o l i c yu s i n gm i s sq u e u ei n f o r m a t i o ni sp r o p o s e db yi n v e s t i g a t i n g i n s t r u c t i o nc a c h em i s s e sa n dd a t ac a c h em i s s e s t h ep r e f e t c h i n gp o l i c yi n c r e a s e st h ee f f i c i e n c y m 高性能存储系统研究;a b s t r a c t o fs t r e a ma l l o c a t i o nb ym a i n t a i n i n gt h es e q u e n c eo fi n s t m c l i o nc a c h em i s s e sa n dd a t ac a c h e m i s s e s p r e f e t c h i n gi si n i t i a t e d , w h e n1 1 0f u t u r em e m o r ya a o 嘟r e x l u e s ma r ci nm i s sq u e u e t h u si tr e d u c e st h en e g a t i v ee f f e c to nb a n d w i d t h t h ep r e f e t c h i n gp o l i c yh a sf i l t e rs c h e m e w h i c hi n c r e a s e st h ea c c u r a c yo f p r e f e t c h i n ga n dd e c r e a s e st h ew a s t eo f b a n d w i d t h e x p e r i m e n t r e s u l t si n d i c a t et h a to na v e r a g e3 0 m e m o r ya c c e s sl a t e n c yi sd e c r e a s e d t h ep e r f o r m a n c ei s i m p m v c ds i g n i f i c a n t l y t h ea v e r a g ei p cs p e e d u p i s8 3 4 p r o c e s s o rd i r e c t e dm e m o r yp a g em o d ec o n t r o lp o u c yi sp r o p o s e db yi n v e s t i g a t i n g m e m o r ya c c 圮s sa d d r e s ss p a t i a ll o c a l i t yc h a r a c t e r i s t i e s i p l o c e s s o rd i r e c t e dm e m o r yp a g em o d e c o n t r o lp o n c yc a ns w i t c hp a g em o d e a d a p t i v e l yi na c c o r d a n c 圮w i t ht h ed i r e c t i o n so fp r o c e s s o r i tc o m b i n 嚣t h ea d v a n t a g e so fc l o s ep a g ep o l i c ya n d o p e np a g ep o l i c y t h ep r o c e s s o rd i r e c t e d m e m o r yp a g em o d ec o n t r o lp o l i c yi sb a s e do nf u t u r em e m o r ya o 豁b e h a v i o r c o m p a r i n g w i t ht h ed i r e c t i o ni n f o r m a t i o nw h i c hi sb a s e do nt h eh i s t o r yo fm e m o r ya o c i 翳b e h a v i o ri n o t h e rd y n a m i cm e m o r yp a g ec o n t r o lp o l i c i e s , t h ed i r e c t i o ni n f o r m a t i o no fp r o c e s s o rd i r e c t e d m e m o r yp a g em o d ec o n t r o lp o l i c yi sm o r ea c c u r a t e m e m o r ya e c e a sr e q u e s t so fp r o c e s s o ra r c s c h e d u l e db a s e do nt h ep a g em o d ec o n t r o lp o l i c yb e f o r es e n d m gt om e m o r y t h ep e r f o r m a n c e i si m p r o v e de f f i c i e n t l y o u re x p e r i m e n tr e s u l t si n d i c a t et h a to na v e r a g e7 1 i p ci si m p r o v e d b yt h ec o n t r o lp o l i c y k e y w o r d s :g o d s o n - 2 ;c a c h e ;m e m o r ys y s t e m ;s t o r em i s s ;s 饥妞f a s ta d d r e s sg e n e r a t i o n ; p r e f e t c h ;p a g em o d ec o n t r o l ;a d a p t i v e i 、r 图目录 图1 1c p u d r a m 的性能差距随时间变化 图1 2 各种理想配置下s p e c 矾咖程序的i p c 值 3 图1 3 各种理想配置下s p e cf p 2 0 0 0 程序的i p c 值4 图1 4 多级存储层次结构 图1 5g o d s o n 2 e 面积功耗分布 图1 6 采用x o r 散射机构的c a c h e 与内存地址映射 图1 7 访存顺序调度技术对访存延时的优化 5 图1 8d d rs d r a m 和s d rs d r a m 访问时序比较 图1 9 四路交叉存储器结构 图2 1 龙芯2 号处理器存储子系统微体系结构 图2 2 龙芯2 号访存失效队列项状态转换 图2 3 龙芯2 号内存控制器结构 7 1 3 1 4 1 5 2 0 2 2 图3 1 每千条指令中写失效指令数 图3 2 全修改c a c h e 块占写失效c a c h e 块的比例 图3 3 每执行干条指令收集全修改c a c h e 块数 图3 4 全修改c a c h e 块访问比例 图3 5c a c h e 自适应写分配策略处理流程 2 3 3 1 3 2 3 2 图3 6c a c h e 自适应写分配策略的访存失效队列项状态转换 图3 7 存储管理队列阻塞率 图3 8 内存占用率降低比例 图3 9c a c h e 白适应写分配策略i p c 值提高比例 图3 1 0 s t r e a m 带宽 3 4 3 5 3 6 图4 1 局部变量c a c h e 结构 i x 高性能存储系统研究:图目录 图4 2s t a c k v a l u ef i l e 结构 图4 3 栈访问指令占访存指令的比例 图4 4 每千条指令中栈访问指令数 图4 5 栈访问地址距离初始化栈底的距离随空间变化( 单位:字节) 图4 6 栈访问地址距离初始化栈底的距离随时间变化( 单位;字节) 图4 7 覆盖连续访问所需栈高速缓存的大小( 纵轴采用对数坐标) 图4 8 栈访问使用各寄存器作为基址寄存器的比例 图4 9 采用快速地址计算的自适应栈高速缓存方案的存储子系统微体系结构。4 5 图4 1 0 利用s p 寄存器预测正确率 图4 1 1 数据c a c h e 与栈c a c h e 并行执行的指令占访存指令的比例 图4 1 2 数据c a c h e 失效率降低比例 图4 1 3 程序的i p c 值 图5 1s t r e a mb u f f e r 结构 4 8 4 9 4 9 图5 2s t r e a mb u f f e r 过滤装置 图5 3 数据和指令失效的比例 图5 4 指令c a c h e 失效的空间局部性( 单位:c a c h el i n es t r i d e ) 图5 5 数据c a c h e 失效的空间局部性( 单位:c a c h el i n es t r i d e ) 图5 6 每执行千条指令发生c a c h e 失效次数 图5 7 采用结合访存失效队列状态的预取策略的存储子系统微体系结构 图5 8 结合访存失效队列状态的预取策略的预取电路逻辑结构 图5 9 结合访存失效队列状态的预取策略c a c h e 失效的处理流程 图5 1 0 结合访存失效队列状态的预取策略的访存失效队列项状态转换 图5 1 1 结合访存失效队列状态的预取策略的流过滤控制电路工作过程 图5 1 2 流提取有效性、预取及时性、预取覆盖率、预取准确性 图5 1 3 采用结合访存失效队列状态的预取策略i p c 值提高比例。 x 5 9 5 9 6 0 6 1 6 3 6 4 6 7 6 9 6 9 仉 札 记 记 “ * 高性能存储系统研究:图目录 图5 1 4 内存占用率 图5 1 5 流提取有效性随s t r e a mf i l t e r 项数的变化情况( s t r e a mb u f f e rn u m b e r :1 6 ) 7 2 图5 1 6 程序的i p c 值随s t r e a mf i l t e r 项数的变化情况( s t r e a mb u f f e rn u m b e r :1 6 ) 7 2 图5 1 7 流提取有效性随s t r e a mf i l t e r 项数的变化情况( s t r e a mb u f f e rn u m b e r :3 2 ) 7 3 图5 1 8 程序的i p c 值随s t r e a mf n t e r 项数的变化情况( s t r e a mb u f f e rn u m b e r :3 2 ) 7 3 图5 1 9 流提取有效性随s t r e a mb u f f e r 个数的变化情况 图5 2 0 程序的i p c 值随s t r e a mb u f f e r 个数的变化情况 图6 1d r a m 访问过程示意 图6 2c l o s ep a g e 模式下d r a m 读操作状态转换及时序 图6 3o p e np a g e 模式下d r a m 读操作状态转换及时序 图6 4 p a g e 命中比例 图6 5 每执行千条指令访问内存次数。 图6 6 内存访问中读写操作的比例 图6 7 处理器核指导的内存p a g e 模式控制策略d r a m 读操作状态转换8 4 图6 8 处理器核指导策略控制电路 图6 9 内存p a g e 模式控制流程8 6 图6 1 0 p a g e 命中率比较 图6 1 1 避免的p a g e 冲突比例 图6 1 2 读操作延时随p a g e 命中率变化曲线 图6 1 3 处理器的访存延时组成 图6 1 4 各种p a g e 模式控制策略的s t r e a m 带宽对比 图6 1 5 各种p a g e 模式控制策略的程序i p c 值对比 x l 似 弭 蔼 为 跎 眩 昭 昭 豁 叽 s s 表2 1 处理器的微体系结构配置 表目录 表5 1s p e cc p u 2 0 0 0 测试程序指令c a c h c 和数据c a c h e 失效率。 表5 2 s t r e a m 过滤表 2 4 2 6 x 5 7 6 6 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:铆再丹 日期:, 年年目,s 司 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名:研丹冉 导师签名: 棚即咖 1 1 引言 第一章绪论 随着微处理器设计和生产工艺的快速发展,存储系统的访问速度与处理器的运算速 度的差距越来越显著,并且这个差距以每年5 0 的速度增长,访存性能已成为提高计算 机系统性能的瓶颈 w u l f 9 5 1 。访存效率成为影响处理器性能发挥的重要因素,存储系统 的性能优化从而成为处理器性能提高的关键。如何通过设计高性能存储系统弥补处理器 与存储系统性能的差距长期以来是体系结构领域的研究热点 本章首先分析了目前c p u 和存储系统的发展趋势,结合龙芯2 号处理器的存储系统, 阐述进行存储系统研究的必要性。然后,对存储系统的研究现状进行综合论述。最后, 总结本文的创新点,并给出后续章节介绍。 1 2 存储系统研究的必要性 处理器系统结构技术的快速发展以及生产制造工艺水平的不断改进使得处理器和内 存的工作效率不断得到提高。但处理器工作效率和内存工作效率的提高并不是以相同比 例进行的,处理器的性能提升速度明显高于内存一方面,处理器的主频每年以6 0 的 速度迅速增长。这主要取决于半导体工艺生产技术的进步使得c p u 主频得以迅速提高; 以及先进的结构技术,如动态流水线技术、精简指令集技术( r i s c ) 、超长指令字技术 ( v l i w ) 、多部件及并行部件技术等,在控制与运算系统中的应用缩短了指令的执行周 期。另一方面,d r a m ( d y m m i cr a n d o m a c c e s sm e m o r y ) 芯片虽然由于其低廉的价格 以及很高的存储密度被桌面处理器和服务器的内存采用,但d r a m 存取速度进步缓慢, 内存的工作频率每年只有1 0 0 3 的提高 p a t t e r s o n 9 7 w d t 9 5 。图1 1 给出了以1 9 8 0 年的 性能为基准,c p u 和d r a m 的性能差距随时间的变化曲线 h c n e s s y 0 2 。从图中可以看 出,d r a m 性能的增长速度与处理器性能的增长速度相比严重滞后,处理器和内存的性 能差距以每年5 0 的速度在增长处理器与主存速度差距的加大大大加剧了处理器中运 算和访存的矛盾,存储系统速度的提高在整个处理器系统性能提高中的关键地位日益突 出。 处理器设计者提出了很多技术来弥补处理器与内存速度的差距。其中一种行之有效 的方法就是在处理器的芯片上使用s r a m ( s t a t i cr a n d o ma c c e s sm e m o r y ) 构建一定容 量的存储单元,称为高速缓冲存储器( c a c h e ) ,存放的数据是处理器芯片外存储器数据 的一部分。与d r a m 的访问延时相比,s r a m 的访问延时小很多,但是它的成本却很 高。现今的计算机系统己普遍采用了c a c h e 结构,乃至多级c a c h e 结构,作为提高存储 中国科学院博士学位论史一高忭能存储系统研究 系统性能的有效方法和提高处理器处理能力的重要措施。由于由快速的s r a m 构建, c a c h e 的访问延时远小于内存的访问延时,位于处理器内部的一级c a c h e 的访问延时通 常只需要一个处理器时钟周期。 , c p u 吼嗽慨 z 掣一一一t j # _ 4 妒妒妒守争妒雩事妒雩妒妒矿 攀 图1 1c p u - d r a m 的性能差距随时间变化 c a c h e ( 乃至整个层次存储结构) 的有效性是基于程序访问的局部性原理 s m i t h 8 2 p e t e r 0 5 。程序访问的局部性体现为时间局部性和空间局部性。时间局部性指的是被处 理器访问过的指令或数据,在一定的时间内会被处理器重复访问;空间局部性指的是被 处理器访问过的指令或数据,其邻近存储空间的指令或数据很有可能也被处理器访问。 基于局部性原理,采用c a c h e 存放处理器最近使用过的指令或数据,可以减少由于进行 内存访问引起的处理器等待。事实上,当且仅当存储于c a c h e 中的数据能被运算部件反 复访问的情况下,或者说c a c h e 中的数据具有高复用率的情况下,c a c h e 的效能才能充 分发挥。在处理器访问c a c h e ( 包括指令和数据) ,而指令或数据不在c a c h e 时就会出现 c a c h e 访问失效。当c a c h e 访问失效时,处理器将向低一级的存储器发出访问请求。由 于处理器和内存之间的性能增长的不均衡性,内存的速度远远低于处理器的速度。当处 理器c a c h e 访问失效时,就会使得处理器需要花费数十甚至数百个处理器时钟周期的时 间来等待相应数据从内存蝴 b u r g e r 9 7 。 随着体系结构技术的不断突破,能够充分挖掘处理器中各个层次的并行性的先进体 系结构出现,对访存的延时有了一定程度的容忍,但对访存带宽的需求却进一步加剧。 这些并行性包括指令级并行性( t ) 、数据级并行性( d i e ) 、以及线程,进程级并行性 ( t l p p l p ) 。 指令级并行性包括通过流水线技术实现指令之间重叠,通过多发射或超长指令字技 术实现空间蘑复,以及通过乱序执行技术充分发挥流水线效率。指令级并行技术对延时 2 帅 姗 m 第一章绪论 的容忍程度,依赖于能够并行执行的指令数。由于指令问相关性的存在,为了寻找更多 不相关的指令并行执行,需要扩大指令窗口。但是不断扩大指令窗口的效果却不断减小, 最后当指令队列大到某一值后即使继续增大也无法再找到不相关的指令,而且增大指令 窗口也面临硬件代价大和复杂度高的问题。因此,指令级并行对访存延时的容忍程度是 有限的【d i e f e n d o r f e 0 0 l 。 数据级并行性主要使一条指令完成对不同数据的多个相同操作,主要包括向量处理 技术以及单指令流多数据流( s i m d ) 技术。数据级并行技术主要面向科学计算、媒体 处理等特定应用领域,加速的应用程序有限。数据级并行技术加速的应用程序一般是数 据敏感型( d a t ai n t e n s i v e ) 应用,需要有足够的访存带宽支持。 线程,进程级并行性包括单处理器的多线程,进程技术以及多处理器的多线程进程技 术。在线程级并行方面目前比较突出的工作包括同时多线程( s m t ) 技术以及单芯片多 处理器( c m p ) 技术。线程进程级并行技术利用多个不相关的线程来提高处理器每拍执 行的指令数。然而,不同线程间对于c a c h e 资源的竞争导致访存数量的增加,要求存储 系统必须能够提供更高的带宽。 总之,存储系统性能的提高在整个处理器系统性能提升中起着关键作用,先进体系 结构的并行性对于存储系统访问延时的容忍程度有限并会进一步增加对访存带宽的需 求,因此对处理器的存储系统优化技术进行研究是非常必要的。 在龙芯处理器的设计过程中,为研究其潜在的性能提升空间,进行了深入的性能分 析。研究了存储系统对处理器性能的影响,分别对指令c a c h e 和数据c a c h e 在永远命中 的理想情况下程序达到的i p c 值进行分析。结果表明,存储系统性能已成为影响处理器 系统性能的关键因素。图1 2 和图1 3 给出了龙芯2 b 处理器,在各种理想配置下s p e c c p u 2 0 0 0 定点和浮点程序的口c 值。p e r f i c a c h e 表示指令c a c h e 访问永远命中;p e r f c a c h e 表示指令c a c h e 和数据c a c h e 都永远命中。 1 8 1 6 1 4 1 2 纪 l “0 8 0 6 0 4 o 2 o ”一 ” + g 0 d s o l l 2 b + p e r f i c a c h ep e r f c a c h e 厂 三志雳曳众睾v 歹 y 、 专 芑 :; 箸 墨 磊 薹i 西譬 d邕邕 s p e ci m 2 0 b e n e l m a r k s 善l差 删 图1 2 各种理想配置下s p e ci n t 2 0 0 0 程序的h c 值 3 “o-t日磊j_g 中国科学院博士学位论文高性能存储系统研究 图1 3 各种理想配置下s p e c f p 2 0 0 0 程序的i p c 值 理想指令c a c h e 即p e r f i c a c h e 的性能与g o d s o m e b 相比,定点程序的i p c 值平均提 高1 9 ,浮点程序的i p c 值平均提高6 。由于指令c a c h e 的失效率和程序的代码规模 是直接相关的,各程序的i p c 值提高程度差别较大。定点程序中,g c c 、c r a f t y 和v o i t e x 提高约7 0 ,t w o l f 和g a p 提高约2 0 ,c o n 提高3 0 - 5 0 ,其它程序提高的效果并不明 显。浮点程序中s i x t r a c k 提高约4 0 ,e q u a k e 提高9 。结果表明,如果目标工作负载规 模比较大,指令访存性能具有一定的提升空间。 理想c a c h e 配置即p e f f c a c h e 的性能与g o d s o n 2 b 相比,定点程序的i p c 值平均提高 8 2 ,浮点程序的i p c 值平均提高1 1 0 。除t w o l f 提高1 8 2 、v p r l 提高3 4 1 、e o n c o o k 提高4 4 8 、e o n r u s h m e i e r 提高4 9 6 、m e s a 提高2 1 8 和w u p w i s e 提高2 7 1 外,其 余程序的加速比都超过5 0 ,其中有1 0 个程序的加速比超过1 0 0 ,a p s i 和积分别达 到4 7 5 和5 4 2 。可见,龙芯处理器的存储系统优化潜力非常大,有待于进行深入的研 究。上面的数据进一步验证了现代高性能微处理器中,访存是主要的瓶颈所在,对处理 器的存储系统优化进行研究具有重要的商业前景和学术价值。 1 3 存储系统的研究现状 学术界和工业界提出许多存储系统优化技术。对于c a c h e 性能的优化技术主要关注 于如何减少c a c h e 命中时间、降低c a c h e 失效率和减小c a c h e 失效的代价。对内存访问 的性能优化技术主要关注于如何降低访存延时和提高访存带宽。 1 3 1 多级存储层次结构 为了减少一级c a c h e 失效的代价,处理器在一级c a c h e 和内存之间增加片内二级 c a c h e ( 或多级c a c h e ) ,构成多级存储层次结构。图1 4 给出了采用多级存储层次结构的 4 第一章绪论 存储系统。第一级c a c h e 的时延小到足以与快速的c p u 运行时钟周期相匹配。为发挥二 级c a c h e ( 或多级c a c h e ) 的作用,其容量必须能够大到足以捕捉到大部分的一级c a c h e 失效。 c p i ) l ll l c a c h e i l l1 2 c a c h e l l 1 1 3 c a 曲e l l l h m o r y 图1 4 多级存储层次结构 多级c a c h e 间的包含策略有两种,一种是满足包含关系即多级包含( m u l t i l e v e l i n c l u s i o n ) ,另一种是不满足包含关系即多级互斥( m u l t i l e v e le x c l u s i o n ) 。满足多级包含 关系的处理器,i o 和c a c h e 之间的一致性以及多处理器的c a c h e 一致性能够通过二级 c a c h e 的检查完成。多级包含的缺点是为了保持这种包含关系,在二级c a c h e 中的块被 替换出去时,要使一级c a c h e 中的对应块无效。这将导致一级c a c h e 的失效率有所升高, 同时增加了一级c a c h e 端口的占用率,而且二级c a c h e 中需要保存一级c a c h e 的冗余副 本造成容量浪费。多级互斥c a c h e 结构避免了容量浪费,适用于二级c a c h e 比一级c a c h e 的容量大得不多的情况。例如,a m d a t l d o n 芯片指令c a c h e 容量6 4 k b 、数据c a c h e 容 量6 4 1 0 3 、二级c a c h e 容量2 5 6 k b ,采用多级互斥的策略。在多级互斥的c a c h e 结构中, 由于不保持多级包含关系,一级c a c h e 替换的块不能直接写到二级c a c h e 中,需要设置 写回队列来缓解写回的压力,写回队列满则会阻塞一级c a c h e 的填充 采用多级c a c h e 结构可以很好地回答处理器设计者为解决处理器和存储系统的速度 差异问题而一直思考的两个问题:如何使c a c h e 和c t u 的速度一样快? 如何使c a c h e 的容量足够大,以克服c p u 和主存之间不断加大的性能差距? 然而大容量的片内c a c h e 配置不仅使得物理设计困难,而且带来严重的芯片面积增大和功耗升高等问题,导致硬 件成本增加。图1 5 给出了采用5 1 2 k b 片内二级c a c h e ( s c a c h e ) 的龙芯2 e 处理器的面 积功耗分布。从图中可以看出,片内二级c a c h e 占到了整个处理器核面积的4 4 ,功耗 的3 8 2 。处理器的低成本关系到它的竞争力,面积和功耗关系到它的应用领域,因此 依靠处理器片内采用大容量的二级c a c h e 或多级c a c h e 技术来缓解访存压力是有局限性 的。学术界曾提出用s t r e a m b u f f e r 进行预取可以起到替代片内二级c a c h e 的作用。 5 中国科学院1 璋士学位论立高性能存储秉统研究 1 3 2c a c h e 性能优化 减少一级c a c h e 前f 中时间 减少一级c a c h e 命中时间最简单的方法是采用容量小、结构简单、相联度低的c a c h e , 降低c a d l g 的读取时间。目前的处理器一级c a c h e 的读取时间通常限制了处理器的时钟 频率,因此减少c a c h e 读取时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论