




已阅读5页,还剩117页未读, 继续免费阅读
(计算机系统结构专业论文)多核处理器的访存模拟与优化技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学博士论文摘要 摘要 在工艺和应用的双重推动下,多核结构成为当前高性能微处理器的发展趋势。多核 对单芯片有限c a c h e 、带宽等存储资源的竞争将进一步凸显访存的瓶颈,同时伴随着更加 多样的目标应用,微体系结构研究采用的性能评估环境面l 缶新的要求。本文的研究主要 围绕多核处理器的性能模拟和存储子系统的性能优化展开,工作涵盖了软件平台建设和 结构逻辑设计两个层次,论文的贡献与创新之处包括: 。 1 本文设计并实现了基于龙芯c p u 的多核全系统模拟器s i m o s g o d s o n 。通过 采用所设计的备份回滚、值预测检验等算法,解决了因为功能与时序分离的 组织形式而带来的精确异常、存储一致性等关键难题,经过了与真实处理器 模型的误差校正,实现了方便高效的调试、控制与统计功能,较好地协调了 速度、灵活、精确三方面的关系。s i m o s - g o d s o n 的平均指令模拟速度超过 3 0 0 尉秒,处理器模型误差小于1 5 ,其不但可以为多核体系结构研究提供 基于软件的性能模拟环境支持,同时也是龙芯多核芯片的硅前系统开发平台。 2 从有效利用带宽、提高访存性能出发,本文提出了一种乱序调度与模式预测 相结合的多核访存控制器管理策略。乱序调度借助多核访存更加密集的特点, 将请求队列作为调度窗口,使位于同一p a g e 的请求能连续执行。模式预测根 据历史窗口的访存次数来识别热点线程,通过抽取热点流进行p a g e 模式的预 测,减轻多核访存请求交织对空间局部性预测的干扰。结合两种优化技术实 现的访存控制器能够有效利用d r a m 芯片的o p e np a g e 特性来降低访存延 时,对典型多线程应用的性能提升平均可达8 6 。 3 针对多核共享和私有c a c h e 结构各自的优点与局限,本文提出了一种新型的 异构c m pc a c h e 结构,采用两类具有不同c a c h e 层次的结点组成多核芯片, 设计了基于间接索引的c a c h e 容量复用等技术,协调c a c h e 访问局部性与容 量利用率之间的冲突,提供了容量有效且访问迅速的片上存储层次。实验结 果表明:对于单进程应用,异构c m pc a c h e 平均可获得1 6 2 的性能提升; 对于多线程应用,性能提升为9 1 。异构c m pc a c h e 还具有硬件结构相对 简单的特点,可降低设计和验证的难度,具有较好的工程可实现性。 关键词:多核;性能模拟;访存调度;模式预测;存储层次;异构;间接索引c a c h e 中国科学技术大学博士论文 a b s t r a c t r e s e a r c ho nm e m o r ys i m u l a t i o na n do p t i m i z a t i o n si nc m p s g a ox i a n g ( c o m p u t e r a r c h i t e c t t a ) d i r e c t e d b y p r o f e s s o r h u w e i w u d u et o t e c h n o l o g yp u s ha n da p p l i c a t i o np u l l ,t h ec h i pm u l t i p r o c e s s o r s ( c m p s ) h a v e b e c o m et h et r e n do ft h e1 1 i g hp e r f o r m a n c em i c r o p r o c e s s o r s w mt h e 咖c o n t e n t i o nf o rt h e l i m i t e dm e m o r yr e s o l l l 傥o nas i n g l ec h i p t h el a t e n c yo fm e m o r ya c c e s sb c c o m 船t h em a j o r b o t t l e n e c ko ft h ec m pp e f f o r m m c e m e a n w h i l e , s i n c et h et a r g e tw o r k i o a d so fc m p s8 r e d i v e r s i f i e d ,t r a d i t i o n a lp c d o m 恤c ce v a l u a t i o n a n ds i m u l a t i o ne n v i r o n m e n t sf a c en e w r e q u i r e m e n t s 1 m et h e s i sf o c u si so nm u l t i c o r es i m u l a t i o n , e f f e c t i v ed e s i g n so ft h ec 母 c a c h e - h i e r a r c h ya n do p 6 m i z 蛳o n so ft h ec m pm e m o r yc o n t r o l l e r t h ec o n t r i b u t i o n so ft h e t h e s i si n c l u d e : 1 b a s e do nt h es i m o sf u l l s y s t e mc n v i r o n m e n t an e wm u l t i c o r ef u l l - s y s t e ms i m u l a t o r f o rg o d s o n p r o c e s s o r s , s i m o s - g o d s o n , h a s b e e nd e s i g n e da n di m p l e m e n t e d t h e s i m o s - g o d s o nd e c o u p l e st h ef u n c t i o ns i m u l a t i o na n dt i m i n gs i m u l a t i o n i ta d o p t san e w v a l u e - p r e d i c t i o na p p r o a c ht oi m p l e m e n tm e m o r yc o n s i s t e n c yi nt h es i m u l a t i o ne n v i r o n m e n t m c r e d i b i l i t ya n da c c u r a c yo fs i m o s - g o d s o na r ea c h i e v e db yc r o s s - v a l i d a t i n gt h es i m u l a t o r w i t ht h ea c t u a lh a r d w a r e t h es i m u l a t o ri n h e r i t st h eb e n e f i t ss u c ha sh i g hs p e e da n dh i g h f l e x i b i l i t yf r o mt h et r a d i t i o n a lu s e r - l e v e ls i m u l a t o r s i ta l s oh a st h en e wb e n e f i t ss u c ha s a c c u r a c y , f u l l - s y s t e ms u p p o r ta n de a s yt ou s e b yp o r a n gt h ee n t i r el i n u xo s ,a n a l y s i sa n d e v a l u a t i o no ft h em i e r o a r e h i t e e t u r ea n dw o r k l o a d sc a nb ec o n d u c t e de a s i l yi nt h e s i m o s g o d s o nf u l l s y s t e me n v i r o n m e n t o nam a c h i n eo fp a n f i u m 43 0 g h z , t h e 删o f s i m o s - g o d s o ne x c e e d s3 0 0 ki n s 打u c t i n n sp e rs e c o n d s i m o s - g o d s o nw i l lp l a yak e yr o l ei n t h er e s e a r c ho f f u r l r eg o d s o nm u l f i c o r ea r c h i t e c t u r e 2 t h et h e s i sp r e s e n t sad y n a m i cp a g em a n a g e m e n ts t r a t e g yf o rc m pm e m o r yc o n t r o l l e r t h ep e r f o r m a n c ee v a l u a t i o na n dp r o g r a mb e h a v i o ra n a l y s i si nt h et h e s i ss h o w st h a ti n d i v i d u a l t h r e a da c c e s ss t r e a mi nm u l t i - t h r e a da p p l i c a t i o n sh a sg o o dp a g el o c a l i t y , b u tt h ei n t e r l e a v e d a c c e s sc o n t e n t i o nb r o u g h tb ym u l t i - c o r ew i l lh e a v i l yd a m a g et h ep a g el o c a l i t ys e e nb yt h e s h a r e dm e m o r yc o n :c r o l l e r an o v e lh i s t o r y - b a s e dp r e d i c a t i o ns c h e m e , w h i c hc a l ld e t e c th o t - c o r e a c c e s s , i sp r o p o s e dt op r o v i d ea c e n r a t ep r e d i c a t i o nf o rc m pp a g em a n a g e m e n t s w i t l lt h e c h a r a c t e r i s t i c st h a tt h ec m pm e m o r yc o n t r o l l e rw i l lh a v eal a r g e rs c h e d u l i n gw i n d o w , a n o u t - o f - o r d e rs c h e d u l i n gp o l i c yf o rm e m o r ya c c e s si sd e s i g n e dt or e d u c et h eu s e l e s sp r e c h a r g e l a t e n c y a d o p t i n gt h et w ot e c h n i q u e s t h ed y n a m i cs t r a t e g y c a nd e l i v e r8 6 i n c r e a s ei n p e r f o n n 肌c ef o rm u l t i t h r e a d e da p p l i c a t i o n s 3 d u et ot h ew i r ed e i a yp r o b l e ma n dd i v e r s i t yo fa p p l i c a t i o n s ,n e i t h e rp r i v a t en o rs h a r e d c a c h e sc a l lp r o v i d eb o t hl a r g ec a p a c i t ya n df a s ta c c e s si nc m p s w e p r e s e n ta n o v e lc m pc a c h e d e s i g n , h e t e r o g e n e o u sc m pc a c h e ( h c c ) i nw h i c hc h i p sa r ec o n s t r u c t e db yt i l e so ft w o l 中国科学技术大学博士论文a b s t m e t d i f f e r e n tc a t e g o r i e s i n c o r p o r a t i n gi n d i r e c t - i n d e xc a c h et e c h n o l o 雹jt os h a r ec a p a c i t yb e “ d i f f e r e n th i e r a r c h i e s ,h c cp r o v i d e sb o t hc a p a c i t y - e f f e c t i v em a da c c e s s - f a s to n - c h i pm e m o r y s u b s y s t e m d e t a i l e df u l l - s y s t e ms i m u l a t i o n sa r cu s e dt oa n a l y z et h eh c cp e r f o r m a n c ef o r v a r i o u sp r o g r a m s ,i n c l u d i n gs p e cc p u 2 0 0 0 ,s p l a s h 2a n dc o m m e r c i a lw o r k l o a d s t h er e s u l t s h o w sh c ci m p r o v e sp e r f o r m a n c eb y1 6 2 f o rs i n g l e - t h r e a d e db e n c h m a r k sa n d9 1 f o r m u l t i - t h r e a d e db e n c h m a r k s h c ci se a s yt oi m p l e m e n ta n dt h ed e s i g ni d e a sw i l lb eu s e di nt h e f u t u r em u l t i - e o r ep r o c e s s o r so f g o d s o ns e r i e s k e y w o r d s :c h i p - m u l t i p r o c e s s o r s ;p e r f o r m a n c es i m u l a t i o n ;m e m o r ya c c c s ss c h e d u l i n g ;p a g e m o d ep r e d i c a t i o n ;c a c h e - h i e r a r c h y ;h e t e r o g e n e o u s ;i n d i r e c ti n d e xc a c h e i v 中国科学技术大学博士论文 图目录 图目录 图1 1 :摩尔定律描述的集成电路发展图2 图1 2 :晶体管增长与性能提升的关系3 图1 3 :s t a n f o r dh y d r a 处理器结构图5 图2 1 :u m a 模型1 l 图2 2 :采用u m a 模型的多处理机结构1 2 图2 3 :n u m a 模型 图2 4 :c o m a 模型。1 4 图2 5 :n o r m a 模型1 4 图2 6 :基于监听一致性协议的s m p 系统1 6 图2 7 :基于目录一致性协议的c c - n u m a 系统。1 7 图3 1 :c p u 与d r a m 性能对比2 2 图3 2 :晶体管与引脚的数量增长趋势2 2 图3 3 :两种基本的c m p 结构2 4 图3 ,4 :p i r a n h a8 核处理器结构2 6 图3 5 :p o w e r 系列处理器结构图2 7 图3 6 :s u nn i a g a r a 处理器结构图2 8 图3 ,7 :c e l l 处理器顶层结构图2 9 图3 8 :d - n u c a 结构3 l 图3 9 :c m p 。n u r a p i d 组织结构3 1 图4 ,1 :时序与功能分离的模拟实现图4 3 图4 2 :读“虚假”的写值示例4 4 图4 3 :龙芯2 号访存系统结构简图4 5 图4 4 :多级分支误预测机制图4 9 中国科学技术大学博士论文圈目录 图4 5 :多级分支误预测机制4 9 图4 6 - s i m o s g o d s o n 结构图5 l 图4 7 :在线交叉验证5 2 图4 8 :进程切换分析5 3 图4 9 :多核全系统环境中的线程切换5 4 图5 1 :d r a m 存储单元原理图“ 图5 2 :现代d r a m 存储体内部逻辑结构图6 5 图5 3 ;d r a m 读写时序图6 6 图5 4 :s d r a m 读操作时序图6 7 图5 5 :d d rs d r a m 与s d rs d r a m 读操作时序差异图。6 7 图5 6 :c l o s ep a g e 状态转换图 图5 7 :o p e np a g e 状态转换图6 9 图5 8 :未调度情况下访存操作时序7 l 图5 9 :调度后的访存操作时序7 1 图5 1 0 :楣邻访存的p a g e 命中率7 3 图5 1 l :访存请求项数分布图7 4 图5 1 2 :热点核访存次数随时间变化图7 5 图5 1 3 :d r a m 访存系统结构7 7 图5 1 4 :访存调度控制流程7 8 图5 1 5 :o p e np a g e 模式的预测率8 0 图5 1 6 :p a g e 在o p e n 模式下的后续访问命中率。8 l 图5 1 7 :p a g e 模式的预测失误率8 l 图5 1 8 :运行时间比较8 2 图5 1 9 :每1 0 0 0 拍内的访问次数8 2 图6 1 :h c c 结构图8 7 x 中国科学技术大学博士论文圈目录 图6 2 :h c c 一致性状态转换图8 9 图6 3 :单进程i p c 比较9 3 图6 4 :单进程片上c a c h e 命中率比较9 3 图6 5 :单进程命中距离分解9 3 图6 6 :多线程i p c 比较9 4 图6 7 :多线程c a c h e 命中率比较9 4 图6 。8 ;多线程命中距离分解比较9 5 图6 9 :容量复用率9 5 x i 中国辩学技术大学博士论文 表目录 表目录 表1 1 :i t r s 对高性能m p u 产品代、尺寸等的预测2 表2 1 :c m p 与其它并行结构的比较1 9 表3 1 :i t r s 对线延迟的预测。2 3 表4 1 :s p e c 1 2 0 0 0 5 5 表4 2 :s p e c - f t v 2 0 0 0 。 5 5 表4 3 :c h a t 的线程数量表5 7 表4 4 :s p e cc p u 2 0 0 0 程序验证结果5 8 表4 5 :l m b e n c h 程序验证结果5 9 表4 6 :s i m o s g o d s o n 的模拟速度5 9 表5 ,l :内存设备b a n k 访问历史信息表 表5 2 :程序运行的规模7 2 表5 3 :微结构配置参数7 3 表5 4 :处理器核访问历史次数表7 9 表5 5 :内存设备b a n k 访问历史地址表8 0 表6 1 :s 结点t a g 字段表 表6 2 :处理器核配置9 0 表6 3 :程序运行的规模9 1 中国科学技术大学学位学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究 工作所取得的成果。除已特别加以标注和致谢的地方外,论文中 不包含任何他人已经发表或撰写过的研究成果。与我一同工作的 同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权, 即:学校有权按有关规定向国家有关部门或机构送交论文的复 印件和电子版,允许论文被查阅或借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:受掏 作者签名:鲤翌塑 阳月年6 旯b 中田科学技术大学博士论文第一章绪论 第一章绪论 随着集成电路逐渐由深亚微米转向纳米工艺,高性能微处理器的体系结构面 临新的挑战与创新机遇。根据世界半导体行业共同制订的2 0 0 3 年国际半导体技 术发展路线图及其2 0 0 4 、2 0 0 5 年更新,未来1 5 年集成电路仍将按摩尔定律持续 高速发展。特征尺寸持续降低带来的集成度提升使得单芯片上可容纳的晶体管数 将达到数十亿个。半导体技术的进步为处理器芯片的设计者提供了更多的资源来 实现更高性能的芯片,从而有可能在单个芯片上创造更复杂和更灵活的系统。与 此同时,目标工作负载也在不停地变化,从早期以科学计算为主到今天个人桌面 应用、服务器事务处理、电子商务应用和各种嵌入式应用并存。面对应用需求和 半导体工艺水平提升的双重推动,在海量集成度下如何构建高性能微处理器成为 当前重要的研究课题。 1 1 半导体工艺发展趋势及其对结构的影响 半导体工艺是微处理器发展的基础,一直是微处理器发展的最主要动力。微 处理器的研究直接受限于半导体工艺水平参数,超大规模集成电路的发展对微处 理器有着深远的影响。自1 9 5 8 年半导体集成电路发明以来,为了提高性能、增 大产量、降低成本,集成电路的特征尺寸不断缩小,制作工艺的加工精度不断提 高,同时硅片的面积不断增大。如图1 1 所示,4 0 多年来,集成电路芯片的发展 基本上遵循了i n t e l 公司创始人之一的g o r d o ne m o o r e1 9 6 5 年预言的摩尔定律, 即每隔3 年集成度增加到4 倍,特征尺寸缩小l ,2 。集成电路芯片的特征尺寸已 经从1 9 7 8 年的1 0 微米发展到现在的9 0 _ _ 6 5 纳米:硅片的直径尺寸也逐渐由2 英寸、3 英寸、4 英寸、6 英寸、8 英寸发展到1 2 英寸。根据世界半导体行业共 同制订的2 0 0 5 年国际半导体技术发展路线图0 t r s ) i t r 0 5 ,摩尔定律描述的这 种发展趋势至少在今后1 5 年内还将依然有效。 现在,9 0 纳米的c m o s 工艺技术已进入大规模生产,4 0 纳米乃至l 纳米的 器件已在实验室中制备成功,研究工作已进入纳米级技术阶段,不断缩小芯片的 特征尺寸满足了芯片微型化、高密度化、高速化、高可靠化和系统集成化的要求。 如表1 1 所示,i t r s 预测到2 0 1 0 年,高性能c p u 芯片上可集成的晶体管数将 超过2 0 亿个( 到2 0 1 8 年超过1 4 0 亿个) ,片上局部时钟频率将达到1 5g h z ( 到 2 0 1 8 年达到5 3 g h z ) 。半导体技术现在已经允许将许多种不同类型的晶体管( 如, p 型和n 型沟道m o s 晶体管,p n p 和n p n 双极性晶体管,浮动栅器件,熔丝 和反熔丝) 集成到同一个衬底上,并允许将处理器和动态存储器集成到一块芯片 上。半导体技术的这些进步带来晶体管数量的激增和种类丰富提供了更多更好的 中国科学技术大学博士论文 第一章绪论 资源来实现更高性能的微处理器芯片。 m o o r e sl a w t r a n s i s t o r s 7 07 37 67 9 8 2 8 5 8 8 譬1 9 4 9 72 0 0 0 s o u r c e ;l r i t e l 图1 1 :摩尔定律描述的集成电路发展图 表1 1 :i t p , s 对高性能删产品代、尺寸等的预测 年份 2 0 0 42 0 0 2 0 l o2 0 1 32 0 1 6 技术结点 h p 9 0 h p 6 5h p 4 5 h p 3 2h p 2 2 版图栅长( 璐) 5 3 3 52 51 81 3 物理栅长( ) 3 7 2 51 81 39 晶体管数( i v 0 5 5 31 1 0 62 2 1 24 4 2 48 8 4 8 主频( g h z ) 4 1 7 19 2 8 51 5 12 3 04 0 ,0 封装后成本( $ ) 1 8 8 - o1 3 2 79 5 26 7 24 7 8 允许功耗( w ) 1 5 81 8 92 1 82 5 1 2 8 8 根据i t r s 路线图对历史数据的分析,每代微处理器最大的片内时钟频率是 上代产品的两倍,其中1 4 倍来源于器件的按比例缩小( 它最终要受氧化层厚度 和其它因素限制) ,另外1 4 倍来源于流水级中逻辑链长度( 或逻辑门数目) 的 减少( 如1 8 0 纳米结点时是3 2 个等效4 扇出反相器的延迟,而在1 3 0 纳米时只 有2 6 个等效4 扇出反相器延迟) 。但是以下原因使得这个历史趋势在将来很难再 延续下去:一是不可能使用少于6 8 个等效4 扇出反相器产生出波形好的时钟脉 冲:二是流水线结构的效率会越来越低;三是由封装承受能力引起的热包封限制 使得难以实施很深的互连流水线结构;四是结构和电路的创新将越来越多地用于 2 伊伊1 6 伊 伊舻彤伊 t t l t , l t l 1 中国科学技术大学博士论文 第一章绪论 减轻给互连r c 效应带来的不良影响而不太可能直接改善频率响应。最新的预测 表明,最小可实现的逻辑深度近似于1 0 - 1 2 个四扇出反相器延迟考虑到控制流水 线的锁存器( 1 a t c h ) 本身的延迟,在这种情况下,实际留给有效处理工作的逻辑 只剩下了6 9 级f 0 4 。i n t e l 微处理器研究实验室主任f r e dp o l l a c k 在分析了i n t e l 的微处理器发展历史后,曾提出过著名的p o l l a c k 规则:对于给定的工艺技术( 如 c m o s ) ,新一代的处理器微体系结构和前一代的微体系结构相比要多占l - 2 倍 的面积,但只能提高4 0 - 6 0 的性能,如图i 2 所示。根据i n t e l 公司的资料,从 4 8 6 到p e n t i u m 4 ,频率提高了5 0 多倍( 其中1 3 倍来自工艺的改进、4 倍来自结 构的改进) ,性能提高了7 5 倍多( 其中1 3 倍来自工艺的改进、6 倍多来自结构 的改进) 。随着片上集成的晶体管数量从目前只在几千万到一亿的水平,提高到 未来的数十亿个,必然需要有崭新的结构出现,才能有效地组织和利用。 3 5 3 2 5 2 1 5 1 o 5 o 一 人 一安。一 、 、囡 3 8 6 4 8 6 4 8 6 奔腾奔腾奔2奔2 奔3奔3 奔p 4 i + 晶体管增长率 卜性能增长率i 图1 2 :晶体管增长与性能提升的关系 集成电路工艺进入深亚微米阶段带来的一个显著变化是互连线的延迟取代 门延迟而成为主导时延的主要因素。集成电路中信号的延迟由门延迟和互连线延 迟两部分构成,由晶体管搭建的逻辑门的延迟可以随器件特征尺寸的缩小而不断 减小,而因为线宽变窄引起的电容和电感耦合作用导致互连线延迟却反向增加。 线延迟超过门延迟对处理器体系结构的设计带来了前所未有的挑战,传统的处理 器设计只需要关注流水级之间的逻辑操作,而深亚微米时代后日益突出的线延迟 问题将导致单拍内信号的传播不可能覆盖整个芯片,逻辑部件之问物理布局和几 何距离成为影响和制约设计决策的重要因素。 此外,集成度提高带来功耗不断增大的现象也给处理器体系结构设计带来了 新的约束:如果沿用目前的电路和结构,到2 0 1 8 年左右,c p u 芯片的功耗将超 过封装功耗极限( 2 0 0 w r a m 2 ) 的4 倍( 即达到l k w m m 2 ) 。因此,必须探索新 中国科学技术大学博士论文第一章绪论 的结构,否则,摩尔定律延续所带来的晶体管收益将无法被有效地利用。 1 2 传统结构的局限 过去3 0 年高性能通用微处理器芯片主要采用冯诺依曼模型,以开发单处理 器指令流中的指令级并行度( i n s t r u c t i o n - l c v e lp a r a l l e l i s m ,简称i l p ) 和提高芯 片主频为设计指导,性能以每年5 0 6 0 的速度攀升。 从流水线结构的角度看,目前指令级并行性的开发有两种基本思路:一是采 用超流水结构,通过深度切分逻辑操作的流水级来提高主频,从纵向角度增加流 水线上每个时钟周期执行的指令数:另一种是采用超标量或超长指令字( v l l w ) 结构增加指令发射和执行的并行度,每个周期发射多条指令到多个功能部件上执 行,从流水线横向角度来提高每个时钟周期执行的指令数。其中,超标量用硬 件动态地从指令窗口中调度相互独立的指令,发射到空闲的功能部件执行;v u w 则是依靠编译器找出程序指令流中存在并行度,静态地调度这些相互独立可同 时处理的指令执行。 对指令级并行度的开发在9 0 年代后期和2 1 世纪初达到了颠峰,在此期间出 现的p e n t i u m 4 、a l p h a 2 1 2 6 4 和i t a n i u m 以及我国自行研制的龙芯2 号等处理器, 普遍了采用超标量,超流水技术、前瞻推测技术、增强取指和转移预测技术、踪 迹高速缓存技术等,共同的特点是组织发射度更宽的实现结构,设置更多的功能 部件,芯片内安装多级大容量缓存,显著提高内存带宽,强化转移预测功能,增 加多媒体指令和专用电路,以激进的数据和控制预测来实现高效的指令乱序 ( o u t - o f - o r d e r ) 并发执行。 然而。指令级并行度的开发也存在诸多的问题。首先,从硬件实现角度来看, 超标量等指令级并行技术使得处理器核越来越向复杂化方向发展。指令级并行度 的提高要求在流水线上同时执行更多的指令,需要硬件支撑更宽的指令窗口、更 长的发射队列以及更大且端口更多的寄存器堆等。由于多功能部件的控制复杂度 与部件数日成平方关系增长,其资源利用率低,电路延时大。更高指令级并行度 使得微结构复杂度和芯片规模( 包括功能和晶体管数) 不断上升,由此带来的设 计和验证的难度不断增加,这都大大限制了更高指令级并行性和资源利用率的开 发。其次,应用程度中存在的指令级并行度依赖于程序运行时的控制与数据相关 行为,而已有的大量研究 w a l 9 3 都表明,在硬件可实现的指令调度窗口之内, 单进程指令流中存在的指令级并行度是有限,在已有结构基础上通过进一步增加 处理器核的复杂度来挖掘指令级并行度的效果已经十分有限。 因此,进一步提高指令级并行度的设计已经面临越来越严重的障碍,实际的 商用微处理器性能的提高更多地得益于时钟频率的提高。目前通用微处理器的指 令并行度一般维持在平均每个周期完成不到2 条指令,甚至不到1 条指令。相 4 中国科学技术大学博士论文第一章绪论 比之下,在9 0 年代的1 0 年中,微处理器的主频由9 0 年的3 3 m h z 提高到2 0 0 1 年的2 g 以上,每年大约提高4 0 ,仅由时钟频率带来的性能提高就占4 5 。时 钟频率的提高一方面源于工艺的进步提供了开关速度更快的晶体管;另一方面更 多地源于深度流水的结构设计,但随着深度流水线设计接近每一级流水门数6 - 9 级f 0 4 最低下限,流水深度的增加即将终止。此后,时钟频率的提高将只能依 赖门电路速度的提高。 这些现象表明,指令级并行度开发已达到了其应用极限,高主频的设计也已 逼近了其物理极限,不可能继续沿用传统思路来设计更高性能的处理器。 1 3 多核处理器结构 为了有效依托摩尔定律进一步延续带来的工艺支持构建更高性能的微处理 器,需要依赖能挖掘和开发更高层次并行度的设计思路与方法。从前两节论述的 工艺趋势和结构本身特性来看,过去流行的不断提高主频、结构日趋复杂的处理 器结构设计已经走到了尽头。未来的微处理器芯片更需要一种简单的、分布式控 制的结构,即芯片的体系结构越来越强调结构的层次化、功能部件的模块化和分 布化,让每个功能部件都相对地简单,部件内部尽可能保持连线的局部性。 在此情况下,更高并行度的片上多核结构应运而生。片上多核处理器( c m p , c h i pm u l t i p r o c e s s o r ) 是在2 0 世纪9 0 年代出现的一种体系结构设计,最初是由 美国斯坦福大学的研究人员提出,其思想是在单个芯片上利用丰富的晶体管资源 集成多个处理器核,通过多核并行执行的方式开发指令级、线程级等各个层次并 行度来提高性能。s t a n f o r d 大学研制的h y d r a 多核处理器,其结构如下图3 4 所 示。h y d r a 处理器在片上集成了4 个单发射的m i p s 处理器核,4 核共享i m 的 片上二级c a c h e ,采用了基于监听的一致性协议来维护多核间数据的一致。 图1 3 :s t a n f o r dh y d r a 处理器结构图 c m p 结构是利用海量集成度构造新型高性能处理器的重要探索之一,主要 5 中田科学技术大学博士论文 第章绪论 特点包括: 易扩展。由于c m p 结构已经被划分成多个处理器核来设计,在整体芯 片架构下,基本的处理器核可以比较复杂也可以比较简单,有利于优化 设计,是一种具有随工艺水平发展灵活伸缩的结构。 设计可复用。c m p 一般采用现有的成熟单处理器作为处理器核心,从 而可缩短设计和验证周期,降低研发风险和成本。 低功耗。由于传统技术需要通过提高处理器主频来改善性能,而处理器 的功耗与主频成正比关系,提高主频会带来严重的功耗问题;而c h 伸 主要依靠集成多个c p u 核来提高性能,具有明显的低功耗优势。c m p 还可以实时监控各核的负载分配情况并对齐进行调度优化,通过动态调 节电压频率,来有效降低功耗。 容忍线延迟。c m p 中绝大部分信号局限于处理器核内,只有少量的全 局信号,因此线延迟对微结构的影响比较小,可以较容易地实现设计要 求的主频。 软件兼容性好。c m p 的实现不需要对i s a 作出修改,体系结构也与传 统的对称多处理器( s m p ) 系统接近,应用软件几乎可以不经任何修改 从传统的单处理器或s h 佃平台移植到c m p 环境中。 c m p 以其良好的可扩展性、可重用性、兼容性、低功耗和容忍线延迟等优 点被学术界和工业界所广泛看好和接受,已经成为目前高性能微处理器体系结构 的发展趋势。进入2 l 世纪后,主要微处理器制造厂商开始开发基于多核微架构 的处理器。工业界的典型单片多处理器包括:i b mp o w c r 4 t d f 0 2 、i b mp o w e r 5 、 a m do p t e r o n k e v 0 5 、s u nu i t r a s p a r c + 【k e y 0 5 、s u nm a j c t r e 9 9 、s u n n i a g a r a k a 0 0 5 、i n t e lm o n l 6 e , e i t o k e v 0 5 、c o m p a qp i r a n h a b a g 0 0 、c e l l 处理 器( i b m 、s o n y 和t o s h i b a 联合研发) 【p h b 0 5 等。例如,i b mp o w e r4 芯片上集 成了2 个i g h z 主频的双发射超标量处理器。c e l l 处理器片上集成了9 个处理 器核;s u n n i a g a r a 在片上集成了8 个处理器核。学术界的典型c m p 项目包括: s t a n f o r d 大学的h y d r a 系统 h a h 0 0 、c m u 大学的t l s s t m 9 8 1 ,m i t m - m a c h i n e k e c 9 8 ,w i s c o n s i nm s s p z i l 0 2 等。本章第三章将这些项目进行详细 的论述。 1 4 本文研究内容 存储问题向来是制约处理器性能的关键因素,运算性能的发挥在极大程度依 赖于访存子系统对运算数据的高效供应。在片上多核处理器环境中,多核同时运 行的多线程竞争单芯片有限的c a c h e 、带宽等存储资源,造成访存冲突加剧,传 统的访存瓶颈将变得更加突出。从设计实现来看,集成电路工艺进入十亿晶体管 6 中国科学技术大学博士论文第一章绪论 时代后,功耗和线延时的影响日益突出,为高效存储系统的设计带来诸多制约, 本文的研究内容将主要围绕多处理器核的性能模拟和访存系统的结构优化展开, 包含下面三方面的内容: 多核处理器的性能模拟技术。模拟器通常可分为全系统模拟和用户态模 拟两种方式。全系统模拟指对操作系统和外设进行模拟( 如s i m o s ) , 能够运行操作系统,对于评价经常陷入内核的应用( 如o l t p 等商业应 用) 比较准确,但全系统模拟器开发时间长,模拟速度相对较慢。用户 态模拟器只进行处理器用户态的模拟,对评价某些应用不够准确,但开 发相对容易,模拟器速度快。相对于全系统模拟,用户态模拟器实现更 简单、修改也更灵活,因此曾被广泛应用于超标量处理器时代的微体系 结构研究。然而随着处理器结构的发展和新应用的出现,传统的用户态 模拟已难以满足对新结构和新应用的研究需要,采用全系统模拟将是今 后微体系结构研究的必然趋势。本论文将研究全系统环境下的多核模拟 技术,使得所设计并实现的多核全系统模拟器具有灵活、快速、准确等 特征,为多核结构的研究提供可行的性能模拟与评估环境。 多核处理器片上c a c h e 层次的设计从国际上的研究现状来看,c m p 存储系统层次有共享和私有两种典型实现方式。在私有结构中,c a c h e 本地命中率高,且命中延时低,但多核间会出现数据副本,容量利用率 不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民用航空气象人员执照(气象信息系统)考试题库-上(单选、判断题)
- 蒙古北京八中乌兰察布分校2026届高二化学第一学期期末监测模拟试题含答案
- 河北省兴隆县2025年上半年公开招聘城市协管员试题含答案分析
- 河北省肃宁县2025年上半年事业单位公开遴选试题含答案分析
- 河北省乐亭县2025年上半年公开招聘村务工作者试题含答案分析
- 2025年度物流仓储设备采购合同模板集合2
- 2025版通信行业人才培训与咨询服务合同
- 2025年度写字楼公共区域清洁作业合同范本
- 2025店长聘用协议:超市连锁店店长招聘与聘用标准
- 2025年度国际项目外籍工作人员劳动合同书
- (2025年标准)动火安全协议书
- 2026届广州市高三年级阶段训练(8月市调研摸底) 数学试卷(含答案解析)
- 动物防疫检疫试题(附答案)
- 沙石码头经营方案(3篇)
- 2025年粉笔辅警考试题库
- 2025个人房屋租赁合同范本下载
- 水声传感器技术研究与应用
- 督脉刮痧配合刺血治疗急性乳腺炎
- 能源环保管理办法
- 锂电行业仓储管理办法
- 《老年康体指导》课件-项目一 运动健身活动健康评估
评论
0/150
提交评论