




已阅读5页,还剩109页未读, 继续免费阅读
(计算机科学与技术专业论文)值预测技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
斟防科学技术大学研究生院学位论文 摘要 随着集成电路技术的快速发展和应用需求的不断变化,微处理器体系结构的发展正 面临新的挑战和创新机遇。一方面,多线程、多处理器等新技术得到广泛研究,拥有广 阔的应用前景,尤其是在服务器和嵌入式应用领域:另一方面,多线程、多处理器技术 的显式并行模型可能会导致软件模型相应改变,同时这些技术在开发细粒度、低层次并 行性方面还存在一定困难。同多线程、多处理器技术的显示并行模型比较起来,指令级 并行技术对程序员和应用的影响要小的多,因此开发指令级并行依然具有重要意义。 开发指令级并行需要解决程序中存在的数据相关、名相关和控制相关。其中,数据 相关决定了指令结果产生的顺序,并决定了程序中可开发的并行性的上限,因此克服指 令间的数据相关对提高微处理器的性能具有重要意义。近年来,为克服数据相关,值预 测技术获得了广泛的研究。 值预测技术通过预测指令的产生结果,并允许后继与之存在数据相关的指令利用此 结果前瞻执行,从而可以克服程序中存在的数据相关。除可应用于超标量结构,近年来 的研究表明值预测技术与其他技术,如多线程、多处理器和v l l w 等结合使用亦可获 得较高的性能提升。 本文存广泛深入了解当前微处理器体系结构发展与值预测技术研究现状的基础上, 对值预测技术进行了全面深入的研究。主要工作与创新点包括: 1 全面分析了各种因素对值预测机制设计的影响,构建了值预测机制研究平台。 研究了理想值预测机制和现有各种主要值预测机制的性能,总结了值预测在不 同环境下的工作特点。 2 为在性能和设计复杂度间获得更好折衷,提出了增强型步长值预测器r s v p 设计。通过对传统步长值预测器的改进,实现了值预测能力的增强。实验结果 表明增强型步长值预测器比其他值预测器具有更高的性价比。 3 为减少r s v p 的能量消耗,提出了公共子数据存储设计。通过避免信息的冗余 存储,有效降低了r s v p 的资源占用和能量消耗。研究了多种降低功耗的典型 方法在r s v p 中的应用。实验结果表明,通过低功耗设计,r s v p 的性能仅有 略微下降,但功耗和资源占用会大幅减少。 4 将值预测机制引入指令预取和数据预取机制中,利用r s v p 预测预取地址,并 设计了一种有效的更新反馈机制。实验结果表明,值预测技术、指令预取技术 和数据预取技术混和使用可以获得较大的性能提升。 综合来说,值预测是克服程序数据相关提高微处理器性能的一种有效技术。实验结 果表明:对s p e ci n t 2 0 0 0 基准测试程序集,通过低功耗设计,仅用约5 k 字节,增强 型步长值预测器可获得4 7 的平均性能提升,此时值预测器能量消耗约为0 3 3 n j ;值 第1 x 负 凼防科学技术大学研究生院学位论文 预测机制、指令预取机制和数据预取机制混和使用,最大可狭得2 6 5 的性能提升,平 均性能提升为1 4 。对理想值预测机制的研究表明,值预测还有很大的性能提升空间。 如何在传统超标量结构和各种新型体系结构中充分开发值预测的性能提升潜力有待进 一步研究。 关键词:值预测,前瞻执行,性能评估,低功耗设计,指令预取,数据预取 第x 页 国防科学技术大学研究生院学位论文 a b s t r a c t m i c r o p r o c e s s o ra r c h i t e c t u r ei su n d e rr a p i dd e v e l o p i n gn o w a d a y s n e wt e c l i l o l o g i e sa n d n e wa r c h i t e c t u r e ss u c ha sm u l t i p r o c e s s o r s 肌dm u l t i m r e a d i n ga r eb e m gm d e l ys t u d i e da i l d w i l lb ee v e n t u a l l yi m p l e m e n t e di nm o d e mc o m p u t e rd e s i g n ,e s p e c i a l l yf o rs e r v e ra i l d e m b e d d e d 印p l i c a t i o n s m e a n w h i l e ,e x p l o i t i n gi l p 、v i l lc o n t i 肌et op l a yab i gr o l eb e c a u s eo f i t ss m a l l e ri m p a c to np r o g r a n u n e r sa j l da p p l i c a t i o n sw h e nc o m p a r c dt oa ne x p l i c i t l yp a m l l e l m o d e lu s i n gm 1 1 l t i p l et l l r e a d sa n dp a r a l l e lp r o c e s s o r s t be f r e c t i v e l ye ) 巾l o i ti l pi np r o g m m s ,r e s e a r c h e r sn e e dt of i n dd e p e n d e n c e sb e t 、v e e n i n s t m c t i o n sa n da v o i ds u c hd e p e n d e n c e sc a u s i n gp i p e l i n es t a l l s a m o n gt 1 1 ed 印e n i 弛n c e s ,d a t a d e p c n d e n c ei so f t h em o s ti m p o r t a n c es i n c ei tl 妇i t s 廿l e 锄o u n to f i n s 协j c t i o n l e v e lp a r a l l e l i s m w ec a ne x p l o i t i nr e c e n ty e a r s ,d a t av a l u ep r c d i c t i o nh a sb e e nw i d e l ys t u d i e dt ob r e a k 廿l l ed a t a d e p e n d e n c e s b yp r e d i c t i n go n ei n s 仇l c t i o n sr e s u l t ,d a t av a l u ep r e d i c t i o ns c h e m e sa l l o wl a t e r d a t ad e p e n d e n ti n s t m c t i o n st og e te x e c u t e ds p e c u l a t i v e l yb e f o r et h ei n s t n l c t i o n sf i n a lr e s u l “s g e n e m t c d m o r e o v e r ,r e s e a r c h e r sh a v ea l s os h o w nt h a tm u c hb e n e f i tc a nb eo b t a i n e dw h e n i m p l e m e n t i n g v a l u ep r e m c t i o nm t h i no t h e ra k m t e c t u r e ss u c ha sm u l t i p r o c e s s o r s , m u l t i t l l r e a d i n ga 1 1 dv c r yl o n gi n s 扪k t i o nw b r d ( v l i w ) e t c t h ed i s s e r t a t i o nf o c u s e so nt h er e s e a r c ho f d a t av a l u ep r e d i c t i o n a no v e r v i e wo f c u r r e n t r e s e a r c h e so nm i c r o p r o c e s s o ra r c h i t e c t u r ea n dd a t av a l u ep r e d i c t i o nt e c l l l l o l o g yi sm a d e p e r f b r n l a n c ei m p a c t so fd i 丘b r e md e s i g nd e c i s i o n so nv a l u ep r e d i c t i o ns c h e m e s 孤ea n a l y z e d r e v i s e ds t r i d ed a t av a l u ep r e d i c t o r ( r s v p ) i sp m p o s e d e x p e r i m e n t a lr e s l l l t ss h o wt l a tr s v p h a sb e t t e rc o s t p e r f b r t l l a i l c et h a i lo t h e rd a t av a l u ep r e d i c t i o ns c h e m e s 。l o w p o w e rd e s i g no f r s v pa n dn e w 印p l i c a t i o nf o rr s v pi i lp r e f e t c h i n ga r ea l s od i s c u s s e d t h ew o r ko ft l l i s d i s s e n a t i o ni n c l u d e s : 1 p e r f o n i l a l l c ei m p a c t so fd i 艉r e n td e s i g nd e c i s i o n so nv a l u ep r e d i c t i o ns c h e m e sa r e a n a l y z e d a 行a m e w o r kf o rd a t av a l u ep r e d i c t i o nr e s e a r c hi sb u i l t p e r f o 瑚a n c e so f d i f f 色r e n td a t av a l u ep r e d i c “o ns c h e m e su n d e rd i 丘色r e n te n v i r o l m l e n t sa r ee v a l u a t e d 2 r e v i s e ds 打i d ed a t av a l u ep r e d i c t o r ( r s v p ) i sp r o p o s e d w i t hal i t t l ea u g m e n t so n t r a d i t i o n a is 们d ed a t av a l u ep r e d i c t o lr s v po b t a i n sm o r eb e n e f i 招e x p e r i m e n t a l r e s u l t ss h o wt h a tr s v ph a sb e t t e rc o s t p e r f o m l a n c et h a no 也e rd a t av a l u ep r e d i c t i o n s c h e m e s 3 f o rl o w p o w e rr s v pd e s i g n ,s t o r ec o m m o ns u b - d a t av a l u e ( s c s ) m e t h o di s p r o p o s e d s c sr e d u c e sr s v p sh a r d w a r ec o s ta n dp o w e rc o n s u m p t i o nb ya v o i d 缸g 第x i 页 国防科学技术大学研究生院学位论文 r e d u n d a md a t ai n f o m l a t i o ns t o r a g e e n e 唱ya n dp e r f o m a j l c ei m p a c t so fo t h e r 1 0 w p o w e rd e s i g nt e c h n i q u e so nr s v p a r ea l s oa i l a l y z e d 4 d a t aa n d o ri n s t r u c t i o np r e f b t c h i n gb a s e do nd a c av a l u ep r e d i c t i o ni ss t u d i e d i ns u c h as c h e m e ,r s v pi su s e dt op r o v i d ep r e f e t c h i n ga d d r e s s e s ,an o v e lf e e d b a c ks c h e m e i sd e s i g n e df o re 伍c i e n tp r e f c t c h i n ga d d r e s sp r e d i c t i o n c o n c l u s i v e l y ,d a t av a l u ep r e d i c t i o ni sa ne 仃e c t i v em e t h o dt ob r e a kt n d a t ad e p e n d e n c e s e x i s ti np r o g r a m s e x p e r i m e n t a lr e s u l t ss h o wt h 砒n l r o u g hl o wp o w e rd e i g n ,埘ma b o u t5 k i l o b y t c s a i l d0 - 3 3 n j p o w e rc o n s u m p t i o n , r s v po b “n s 4 7 a v e r a g ep e r f o m a l l c e i m p r o v e m e n tf o rt h es p e ci n t 2 0 0 0b e n c h m a r ks u i t e d a t av a l u ep r e d i c t i o n ,d a t ap r e f 音t c h i n g a n di n s t r u c t i o np r e m c h i n gt o g e t h e rd b t 撕n s2 6 5 m a x i m a la n d1 4 a v e r a g ei n 即o v e n l e n t c 0 n s i d e r i n gi n o s tp r o g r 锄sb e n e f i t i n gg r e a t l y 行o mi d e a ld a t av a l u cp r e d i c t i o n ,r e s e a r c h e r s s t i un e e dt oc o m i n u ee x p l o i t 血gt 1 1 ep e r f o m l a n c ep o t e n t i a lo fd a t av a l u ep r e d i c t i o ni n s u p e r s c a i a ra n do t l l e re m e 唱i n ga r c h i t e 曲l r e s k e y w o r d s :d a t av a l u ep r e d i c t i o n ,s p e c u l a t i v ee x e c u t i o n ,p e r f o r m a c ee v a l u a t i o n , l o w p o w e rd e s i g n ,i s t r u c t i o np r e f e t c l i i n g ,d a t ap m f e t c h i n g 第x i l 页 国防科学技术大学研究牛院学位论文 图目录 图1 1自1 9 8 0 年以来,微处理器与存储器性能差距口益增大3 图2 1 最近值值预测器l v p 1 0 图2 2 步长值预测器s v p 1 l 图2 32 d e l 诅步长值预测器1 2 图2 4 二级值预测器2 l p 1 3 图2 5 有限上下文值预测器f c m 1 4 图2 6 基于步长值预测器和二级值预测器的混合型值预测器s 2 p 一1 5 图2 7c h e n 和b a e r 提出的数据预取机制的基本结构1 9 图2 8 前瞻访存预测2 0 图3 1 s i m p l e s c a l a r 流水线中,数据相关指令i 、j 和k 的执行过程2 4 图3 2s i m d l e s c a l a r 流水线中扩充值预测机制2 4 图3 3 在不同t ,。曲和t 嫡。取值下数据相关指令i 、j 和k 的流水线执行2 7 图3 4 理想值预测性能一3 3 图3 5 理想值预测时不同分类的适于前瞻执行指令的前瞻执行率( s r ) 3 3 图3 6 配置c o n f 4 下,t 曲。= o 且访存地址不允许被预测时值预测器的性能3 4 图3 7 配置c o n f 4 下,t 曲;。e l 且访存地址不允许被预测时值预测器的性能3 4 图3 8 配置c o n f 4 下,t 砒。e o 且访存地址不允许被预测时指令的前瞻执行情况3 5 图3 9 配置c o n f 4 下,t r 。i s s 。;l 且访存地址不允许被预测时指令的前瞻执行情况3 5 图3 1 0 配置c o r 出下,t 。i s s 。= o 且仅允许访存地址被预测时值预测器的性能3 7 图3 1l 配置c o n f 4 下,k i s s 。= 1 且仅允许访存地址被预测时值预测器的性能3 7 图3 1 2 配置c o n f 4 下,t 豳。= o 且仅允许访存地址被预测时指令的前瞻执行情况3 7 图3 1 3 配置c o n f 4 下,t f e 。f 0 时值预测器的性能3 8 图3 1 4 配置c o n f 4 下,t t 。f l 时值预测器的性能3 8 图3 1 5 配置c o n f 4 下,t r e i 。= o 时指令的前瞻执行情况3 9 图3 1 6 配置c o n f 4b p 下,t 。s s 。= 0 时不同值预测器的性能4 0 图3 1 7 配置c o n f 4b p 下,t 曲。= l 时不同值预测器的性能4 0 图3 1 8 配置c o n f 4b p 下,k 。= o 时彳i 同类型指令的前瞻执行情况4 0 图3 1 9 配置c o n f 8 下,t r c i s 。= 0 时不同值预测器的性能4 1 图3 2 0 配置c o n f 8 下,t r e i s 。一1 时不同值预测器的性能4 1 图3 2 1 配置c o n f 8 下,t 。i s s 。e - 0 时1 i 同类型指令的前瞻执行情况4 2 图3 2 2 配置c o n 舟b p 下,t r 。f 0 时不同值预测器的性能4 3 图3 2 3 配嚣c o n f 8 一b p 下,t f e i s 。= 1 时不同值预测器的性能4 3 第v 页 国防科学技术大学研究生院学位论文 图3 2 4 配置c o n f 8b p 下,t 豳。= 0 时不同类型指令的前瞻执行情况4 3 图4 1公式e q l i 正确预测情况下,不同类型系数比例分析4 7 图4 2 增强型步长值预测器结构图4 8 图4 3 域s 在数据序列步长发生一次变化情况下的作用机理示例4 9 图4 4 常数型数据序列5 0 图4 5 非0 型等步长数据序列5l 图4 6 长度为2 的重复型数据序列5l 图4 7 不同大小增强型步长值预测器的性能5 3 图4 8 信心系统机制对l o a d a l u 预测器影响5 4 图4 9 信心系统机制对l o a d 地址预测器影响5 5 图4 1 0 值预测机制性能比较5 6 图4 1 1l o a d a l u 预测器中c l 、c s 和c r 计数器正确错误值预测分类5 6 图4 1 21 0 a d 地址预测器中c l 、c s 和c r 计数器正确错误值预钡4 分类5 7 图5 1增强型步长值预测器结构6 0 图5 2不同大小r s v p 的面积占用、访问延迟和能量特性6 0 图5 3 访问端口数列值预测器面积占用、访问延迟和能量消耗的影响6 l 图5 4 不同大小设置时增强型步长值预测器的性能6 2 图5 ,5不同大小r s v p 的s p k b 和s p n j 计算结果6 3 图5 6 值预测器访问端口数对r s v p 性能影响6 4 图5 7r s v p 性能随t a g 域位数变化情况6 5 图5 8l o a d a i ,u 预测器中域v o 和v 1 位数长度对值预测器性能影响6 6 图5 9l o a d 地址预测器中域v 0 和v 1 位数长度对值预测器性能影响6 6 图5 1 0 公共子数据存储6 7 图5 1 l 增强型步长值预测器的分体实现6 9 图5 1 2 分体设计时增强型步长值预测器性能7 0 图5 1 3 不同分体配置下r s v p 的访问延迟、面积占用和能量消耗7 0 图5 1 4 五种不同配置下增强型步长值预测器的访问延迟、面积占用和能量消耗7 l 图5 1 5 优化配置后,不同大小增强型步长值预测器的性能7 2 图5 1 6 不同配置的增强型步长值预测器的s p k b 和s p n j 结果7 3 图6 1 数据预取机制结构7 6 图6 2 数据预取机制中增强型步长值预测器查询更新过程7 7 图6 _ 3 一i 同一级数据c a c h e 配置下数据预取性能一7 9 图6 4 数据预取机制性能比较8 0 图6 5l 1 、l 2 和l 2 s 数据预取下一级数据c a c h e 和二级c a c h c 访问量变化情况8 0 图6 6l 1 、l 2 和l 2 s 数据预取下增强型步长值预测器发出预取操作数量8 1 图6 7l 1 、l 2 和l 2 s 数据预取下增强型步长值预测器被查询更新数量8 1 图6 8 增强型步长值预测器大小对数据预取机制性能影响8 1 第v i 页 国防科学技术大学研究生院学位论文 图6 9 增强型步长值预测器信心系统机制对数据预取机制性能影响 图6 1 0 预取缓冲大小对数据预取机制性能影响 图6 1 l 已预取缓冲人小对数据预取机制性能影响 图6 1 2 指令预取机制结构 图6 1 3 指令预取机制性能比较 图6 1 4l l 指令预取机制下一级指令c a c h e 和二级c a c h e 访问量变化情况 图6 1 5 增强型步长值预测器信心系统机制对指令预取机制性能影响 图6 1 6 预取缓冲大小对指令预取机制性能影响 图6 1 7 不同大小已预取缓冲下,程序v o , 蹦的值预测器访问分类 图6 1 8 已预取缓冲大小对指令预取机制性能影响 图6 1 9 值预测( v ) 、数据预取( d ) 和指令预取( i ) 机制的性能 图6 2 0 值预测器发出的指令预取和数据预取数量统计 图6 2 1 对程序印r ,数据预取机制中已预取缓冲大小对值预测器访问的影响 图6 2 2 程序憎,中,c l 型数据预取操作发生示例 图6 2 3 一级数据c a c h e ( l 1 d c ) 访问量变化情况 图6 2 4 一级指令c a c h e ( l 1 i c ) 访问量变化情况 图6 2 5 二级c a c h e ( l 2 c ) 访问量变化情况 8 2 8 2 8 3 8 3 8 5 8 5 8 6 8 6 8 7 8 7 8 8 8 9 8 9 9 0 9 1 9 1 9 1 第v i i 页 望堕型兰垫查奎兰竺垒生堕兰垡丝苎 表目录 表3 1 测试程序、输入集、测试起始点及值预测指令比例2 9 表3 2 微处理器不同配置3 0 表3 3 功能部件延迟3 0 表3 4 值预测器配置3 0 表3 5未应用值预测机制时基准测试程序在不同配置下的i p c 3 1 表4 1微处理器配置5 2 表4 - 2 基准测试程序i p c 5 2 表4 3 信心系统机制5 3 表5 1不同大小r s v p 的字节占用、平均性能提升和能量消耗6 2 表5 2 访问端口数量对值预测器访问延迟、面积占用和能量消耗的影响6 4 表5 3l o a d a l u 预测器和l o a d 预测器不命中率6 5 表5 4t a g 域对r s v p 面积占用、访问延迟和能量消耗特性的影响6 5 表5 5 部分数据位存储对值预测器访问延迟、面积占用和能量消耗的影响6 8 表5 6 不同配置下r s v p 的字节空间占用、平均性能提升和能量消耗7 2 表6 1一级数据c a c h e 和二级c a c h e 不命中率7 8 表6 2 不同配置的一级数据c a c h e 7 9 表6 3 一级指令c a c h e 和二级c a c h e 不命中率8 4 筇v l i i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:焦亟型盐盔盟壅 学位论文作者签名: 当照 日期: 训哆年罗月9 曰 学位论文版权使用授权书 本入完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以呆用影印、缩印或扫描等复制手段保存,汇编学位论文 ( 保密学位论文在解密后适用本援权书。) 学位论文题目:焦亟巡撞盔亟寇 学位论文作者签名:毯璺日期:加心年罗月方日 作者指导教师签名:z 堕茎丝 日期:;。f 年罗月z 占日 固防科学技术大学研究生院学位论文 第一章绪论 程序的指令问存在三种类型的相关( d e p e n d e n c e ) ,即数据相关、名相关和控制相 关 1 】。指令问相关对程序可并行性的程度及如何去开发这种并行性具有决定性影响, 因此如何发现指令间相关和有效减少其对微处理器性能提升的阻碍一直是研究设计人 员关心的一个主要问题。 近年来,值预测作为一种潜在的解决指令间数据相关的有效方法得到研究人员的广 泛重视。值预测是一种前瞻机制。通过预测指令的产生结果,并允许后继与之存在数据 相关的指令在被预测指令实际结果产生前即利用值预测结果前瞻执行,值预测机制从而 能够克服程序中存在的数据相关。 本课题在广泛深入了解当前微处理器体系结构发展与值预测技术研究现状的基础 上,分析了当前各种值预测机制的优势与不足,提出了增强型步长值预测机制设计,研 究了多种可以有效减少值预测机制能量消耗的方法,探讨了如何将值预测机制引入数据 预取和指令预取,使三种技术有效结合以提高微处理器性能。以课题研究中构建的值预 测机制研究平台为基础,我们验证了课题各项工作的有效性。 1 1课题研究背景 在过去三十多年的发展过程中,微处理器的性能借助集成电路技术和体系结构的进 步获得了飞速提升。伴随着性能的提高,计算机在各个领域的应用获得了巨大成功,产 生了良好的经济效益和社会效益。随着工艺水平的进一步发展和应用需求的不断变化, 微处理器体系结构的发展正面临新的挑战和创新机遇: 一方面,根据半导体工业协会s i a ( s e m i c o n d u c t o r i n “s 姆a s s o c i a t i o n ) 的预测【2 】, 莫尔定律在2 0 1 5 年前依然有效【1 。s 1 1 联盟( s o n y t o s i l i b a a n d i b m ) 最新发布的c e l l 处理器主频达到4 g h z ,集成有近3 亿晶体管 3 】。当前,集成电路工艺仍在快速发展, 6 5 眦工艺即将投入应用,4 5 n m 工艺也正处在研发过程中。如何有效利用芯片上辛富的 晶体管资源仍是微处理器体系结构研究面临的一个巨大挑战 4 6 】。工艺进步带来晶体管 性能提升的同时,也使得线延时 7 】和功耗等问题日益突出,例如p e n t i u i l l4 【8 】中需要2 个时钟周期传输指令结果。 另方面,多媒体等的广泛应用【9 ,要求处理器有更强的运算能力。而移动计算 的需求则要求处理器必须进行低功耗设计。当前,晶体管资源的极大丰富促进了微处理 器从3 2 位结构向6 4 位结构的过渡。如何充分利用和发挥6 4 位结构的优势,如何保证 原有3 2 位软件的兼容性是研究设计人员必须考虑的问题。主要微处理器生产厂商i n t e l 和a m d 对此采取了不同的技术途径,虽然i a 6 4 1 0 1 和a m d 6 4 ( x 8 6 6 4 ) 1 1 1 e m 6 4 t ( e x t e n d e dm e m o r y6 4t e c h n o l o g y ) 1 2 】各自的前景还不明朗,但后者在现阶段的竞争中 第1 页 篷爨秘学投拳大学戮完生貔学缱谂文 已经处于优势地位。 l 。1 1凇s c 蘩橡酌彰灏 在2 0 世纪7 0 年代,主要借助集成电路技术的发展,微处理器性能大致每年提升 3 0 ;颓进入8 0 年代后,随着瓤体系结构的应用,尤其是r i s c ( r e d u c c d i n s t r u c t i o l l s e t c o m 扩u 钕) 结构懿发藤,激楚疆器往筢撵秀平均每年在5 0 瑷上。瓢s c 绪搀兹发袋链 进了两种关键技术,即通过流水线和多发射开发糨序中的指令级并行l i ,p ( i n s t m c t i o n l e v e lp a r a l l e l i s m ) 队及c a c h e 的膨用。2 0 世纪8 0 年代末9 0 年代初,通,e f j 、 高挫能处理器市场上同时存在支持不同指令熊的多静r i s c 处理器,如a i 抽a 、m i p s 、 p a 一瓣s c 、p o w e f p c 耱s 弘r c 等。 r j s c 结构的发展对x 8 6 结构( i a 3 2 ) 产生了重要影响。1 9 9 3 年,p e n t i 啪处理器 中采用了顺序超标蹙流水线。其后i n t e l 公司又在p e n t i u m p r o 处理器中应用了乱序代码 执行鄹分支预测逻辑。当前x 8 6 结构的微处理器中基本上均包含一个翦旗( 彝d n e 融 , 负费取指令并将x 8 6 结构酶指令译碣和映射戚篱单斡a l u 操作、访存操作或分支操作, 以使其可以在r i s c 类型的流水线处理器上遮行【1 。 幽于兼容性原因,x 8 6 结构的微处理器柱目前的桌面处理器和服务器市场上占据统 连蟪位;蠢在嵌入式应鼹中,粼s e 粪型熬处瑗器剐占据缀大饶势。 1 1 2 生频提升的影响 扶2 0 整纪9 0 年代起,徽处溪器生产厂襄主要蔹赣时镪频率鹃增长以提裹微处瑗瓣 的佼能。这种技术瓣路在i n t e l 公司x 8 6 系列徽处理器的发矮历程中表域的尤为疆显。 1 9 8 9 年i n t e i 发布的8 0 3 8 6 微处理器使用l u m 工艺,主频为3 3 m h z ;而2 0 0 5 年发布的 p e n t j u m4e e 则使用9 0 n m 工艺,主频达到3 7 3 g h z 。时钟频率的飞速增长得益于晶体 篱毪簸戆快速提舞爨受深滚拳线熬应瑶嚣方 l 嚣戆影穗【5 】。 时钟频率的掇商既是过去十几年中微处邂器性能提升的主要来源,也是体系结构演 进的主要动力。工业界对高主频的追求带来了多方面影响: _ 功耗闽题目蠡突出。c m o s 熄当兹微处理嚣的主流工艺技术,c m o s 电路戆基本璐 耩可醛篱擎煞镄算为取c 玩巍1 3 】。其中挝燕信号蘸转静裰率,c 是魄路的有效受载 电容,是暾源电压,是电路的工作频率。随着工愁的进步,负载电容和电压谶 渐降低,但芯片上晶体管数量的极大增加以及时钟频率的飞速提升仍使得微处理器 豹动耗处于增长约趋势。嗣羽,工艺兹避一步发震毽要求设计人员必矮毒效骐块澄 漏功耗( 1 e 酿a 鐾ep o w e r ) 阊避。 减少每时钟周期的等效逻辑数量( 1 0 9 i c p e r _ c l o c kp e r i o d ) 已逐渐接i 睚极限。研究袭 明每时钟周期的时阔闻隔远小于1 0 个f 0 4 ( 磊m o u t o 矗f o u r ) 反相器延迟是不会避 豹f 1 4 ,| 习,瑟2 0 0 3 年p e n t 戳1 4 跫理器中每辩锌两麓约隽 2 至1 6 个f 0 4 反褐嚣, 第2 页 国防科学技术大学研究牛院学位论文 因此微处理器频率提升遇到越来越大的阻力。同时,泄漏功耗问题也制约着频率的 提升。目前工业界已经停止对高主频的单一追求,a m d 公司和i n t e l 公司已经先后 取消用频率命名处理器型号。 追求高主频延后了进行新指令集设计的需求。由于r j s c 指令集和x 8 6 微操作( p o p ) 可以有效支持流水线设计,因此新指令集的发展较为滞后。随着主频提升的逐渐放 缓,新指令集设计将得到更广泛的研究。 1 1 3 存储墙 由于v l s i 工艺的差异,微处理器和存储器性能的提高并不同步,存储器访问速度 每年提高大约7 ,远落后于微处理器性能提高的速度。当前计算机系统中,微处理器 速度远远超过了存储器的速度,而且可以预见这种差异在未来一段时期内将会进一步扩 大。以1 9 8 0 年时的性能为基准,图1 1 给出了1 9 8 0 年以来微处理器性能和存储器性能 随时间提高的变化曲线图【1 】。 为弥补微处理器与存储器速度的巨大差距,同时基于性价比考虑,当前计算机系统 中大都采用层次存储系统,即把存储系统组织成层次式结构,将速度较快、容量较小的 存储器放置在离微处理器较近的地方,而把速度较慢、容量较大的存储器放置存离微处 理器较远的地方。计算机系统典型的层次存储结构一般包括寄存器、片内c a c h e 、片外 c a c h e 、内存和大容量低速存储设备( 如硬盘、磁带等) 。由于c a c h e 的应用,特别是随 着c a c h e 容量的持续增加,程序的多数访存操作均可由c a c h e 满足。但是c a c h e 不命中 时的长延迟访存操作依然严重影响了计算机系统的性能,因此存储系统仍将是影响系统 性能的一个关键瓶颈。 r 一 7 斟 一r 一, 一一一一一一一一-_-一一 1 9 8 01 9 8 21 9 8 41 9 8 61 9 8 81 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 0 2 0 0 22 0 0 4 y e a r 图1 1自1 9 8 0 年以来,微处理器与存储器性能差距日益增大 预取,包括指令预取和数据预取,是一种常用的延迟隐藏技术。预取技术通过将所 需要的数据指令提前从存储体系的低层( 如内存) 放置到高层( 如一级数据手旨令c a c h e ) 而达到延迟隐藏的目的。理想预取应能满足数据在即将被访问时才被放置于存储体系的 高层。数据过早被预取可能会导致其他有用数据被替换或预取数据在被访问前已被替 第3 页 加 。 旦堕型兰垫查查兰塑茎生堕兰垡丝苎 换,而过晚的数据预取则只能达到部分隐藏访问延迟的效果。预取可以通过软件方法、 硬件方法或软硬件结合的方法实现。软件预取通过编译器在程序中显式插入预取指令实 现;硬件预取不需要预取指令,由专门的硬件机制根据学习到的指令访存地址的规律特 征预测预取地址或通过超前执行未来指令得到访存地址,并发出预取操作。 1 1 4 微处理器体系结构研究现状 随着集成电路技术的发展,芯片上晶体管资源极大丰富,如何有效利用这些资源是 研究设计人员在进行微处理器设计时必须考虑的问题。一方面,可以继续沿袭超标量技 术开发指令级并行( i l p ) ,如p a t t 等提出的超宽乱序超标量处理器【6 】和l i p a s t i 等提出 的依赖深度数据前瞻的s u p e r n o w 结构 1 6 】。但如何有效控制这类宽发射超标量结构的 设计复杂度、测试验证时间和微处理器功耗等h 益成为一项严峻考验。传统超标量技术 采用硬件开发i l p 的另一个困境是使用硬件复杂性换取性能的效率日益降低。 为此,研究人员提出多种新技术,主要包括开发程序执行中的中粒度并行性的多线 程技术( m u l t i t h r e a d i n g ) 、单芯片多处理器技术( c h i pm u l t i _ p r o c e s s o r 简称c m p ) 、t r a c e 处理技术和由软件开发i l p 的超长指令字显式并行指令计算技术( v l l w e p i c ) 等。 多线程技术通过在单个处理器上支持多个控制线程来增大指令窗口,强调对硬件资 源的有效利用。典型例子包括同时多线程( s i i l l u l t a n c o u s 眦l t i t h r e a d i n g ,简称s m t ) 【1 7 和前瞻多线程( s p e c u l a t i v e m u l t i t h r e a d i n ga r c h i t e c t u r c ,简称s m a ) 【1 8 2 0 】等。i n t e l p e n t i u m 4 处理器中即实现了两个线程的s m t ,称为超线程技术( h y p e r - t h r c a d i n g ) 【2 1 】。 c m p 2 2 ,2 3 】利用:卷片上大量可用资源,集成多个简单处理器,以单芯片内低互联 延
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025临时用地补偿合同范本
- 金属综合回收利用项目建筑工程方案
- 高端化学试剂和助剂生产项目风险评估报告
- 120万千瓦光伏项目经济效益和社会效益分析报告
- 法基础试题及答案搜狐
- 开发区污水处理厂扩容提质建设项目环境影响报告书
- 物流学基础试题及答案
- 天然气管网互通改造项目规划设计方案
- 电商平台商家信用贷款合同续签及信用评估协议
- 创意离婚协议书范本:共同财产创意管理方案
- 记叙人称及叙述视角课件-2025年中考语文二轮专题
- 殡葬业务科管理制度
- JG/T 404-2013空气过滤器用滤料
- 大米委托加工合同范本
- 学校物品捐赠协议书
- 2025-2030国内地热能行业市场发展现状及竞争格局与投资发展前景研究报告
- 《财务报表分析课件》
- 《科研经费的使用与管理》课件
- 超市售后服务管理制度
- 贵州省考试院2025年4月高三年级适应性考试数学试题及答案
- 钢筋修复方案
评论
0/150
提交评论