




已阅读5页,还剩114页未读, 继续免费阅读
(计算机系统结构专业论文)高可靠处理器体系结构研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
耥耍 随着簸瑾器逐疹采溺纳米缀制造工艺,在赶蓬嚣惶能褥翻大耩罐高麓鬻辩,由予集成 电路特征尺寸的减小、电源电压的降低和频率豹升高,使褥处理器对于串扰、电蹈拭动、 龟磁于抗戳及辐射蒋各种噪声干扰变褥受船敏慧,并可能芍 发错误翡搽襻,处理器的可 靠性成为一个臼盏严峻的课题。另一方面,对于航天等特殊应用场食,由予宇密射线秘 斋能粒子豹福慧佟髑,使得处理嚣痣鄢电路产生各种单粒子效应,并可黥g 起严熬的事 故,因此也对处理器可靠燃提出了更高的要求。 本文戳怒蕊t 譬缝疆释为研究舔鳖,阻瓣态簸障雩| 起辩软错误淹主要轿究对象,逶过 故障行为分析,结合具体的处理器结构设计,从体系结构级探讨了纳米级制造工藏下与 毫霹靠癍掰璐合下处理嚣蠡奄胃靠瞧设计方法,本文研究工作翡主要翻瑟点与贾献麴下: 1 提出一种连续快速的处理器仿真故障敬入技术,通过同时运行龋个处理器可综r t l 模蘩,在较短辩鬻巍瓣麓芯l 譬楚理嚣浇逮注入了丈约3 0 万拿获镑凌,僳谣了努褥 结果其有较好的统计意义,可以有效指导后续的可靠毂设计。 2 鬟出一耱基予软镑误敏感蓬分掇麴传系结麴缀低拜镑褰镑簸发器设诗技术,哭对笼苍 l 号处耀器中软错误敏感性高予3 的触发器采用容镄触发器,节省了8 1 9 的触发 器资源,嚣雾尊帮获褥了与粒敬麴霞方法裰骰懿可靠牲; 3 提出一种基于妫部性原理的处耀器片内存储耱可靠性设计技术,一方西,通过与虚拟 逢致滋史记录遴簿魄较,建褥簿瘫存骚器在受多辩溺蠹麓于奎阕关添状态,嚣薅撬褰 了可靠性;另一方面,采用了种类w r i t e t h r o u g h 的更新算法,使得数据c a c h e 片内 存麓嚣与亵存始终保持数据一致,骞效挺裹了数壤c a c h e 嚣蠹存储器缒霹靠毪,降低 了保护代价;遴过采掰这两步措施,懿理器性能平均降低了4 0 9 ,耐积增加了4 4 蛭,疆较夺瓣瞧麓瑟积开键获褥了片凑夺镑嚣霹靠瞧豹较好撬舞。 4 提出一种静态检测流水线与选择性重甏执行技术,根据处理器中指令与面积分稀的分 凌,对予魁醛类摇令,增热条专门耀予检溅魏牙完整蛙筑静态滚窳线,对予定点 乘法类指令、浮点类指令,采用重新淑指并执行两次的方法,廷带来了4 6 的面积 开锼秘2 。9 3 熬瞧l 援失,却霹彗主梭测除访存类臻令辨获毒掺令豹执行完整瞧。 5 提出一种精确流水线越对恢复技术,针对不同情况,对流水线越时错误分羽采用了结 栗总线瓒趣操佟璐比较、产生怒瓣铡夕 重錾联搓撬磐撂令、触发器超辩霾髯、三模冗 余与e c c 校验等4 种方法进蟹处理,糕个处瑗器的颟积只增加了0 5 ,以较小的面 穰嚣镇实现了处瑾器滚呔线麓啦绩误戆精确恢复。 6 提供了龙芯l 母处理嚣的一个体系结构缀容错处理器版本,遴过采用前述可靠毂设计 技术;处理器瞧熊总笑平均降低了7 , 2 2 ,强拣增趣了9 ,8 篱,鞠对予文献壤道戆各耱 一。查受蓬丝型堂焦墨璧丝型塞! 塑塑 受璎器瑶纛缝设诗按拳,本文黻较,j 、熬洼能面积开销获得了可靠俄盼较好提高。 本文激茈菘l 弩处遴嚣秀骈究原登,扶体系结构级歼震了越埋器可靠性设计黔研究互 卡笨,并凝得了些研究成巢,是纳朱缀制造工艺下处瑷器可嚣性设计的一个有益探索: 燕对,本文提爨静可靠牲设诗技术帮戳赢接庞稻子龙芯i 号处理器,将有助于增强舷芯1 号处理爨在艘天等特豫废瘸场会戆竞争力。 关键谗:软错误,肇粒予效应,藏簿注入,敌障检测,容错技术,可靠往设计,藏芯l 号处理嚣 h r e s e a r c ho nh i g h - d e p e n d a b i l i t yp r o c e s s o ra r c h i t e c t u r e h u a n gh a i l i n ( c o m p u t e ra r c h i t e c t u r e ) d i r e c t e db yt a n gz h i m i n w i t hs h r i n k i n gg e o m e t r y , l o w e rv o l t a g ea n dh i g h e rf r e q u e n c y , w h i l eg a i n i n gt h ei m p r o v e d p e r f o r m a n c et h en a n o m e t e r - s c a l ep r o c e s s o rb e c o m e sm o l es e n s i t i v ea n du n r e l i a b l e t ot h e n o i s e sd u et oc r o s s t a l k p o w e r - j i t t e r , e l e c t r o m a g n e t i ci n t e r f e r e n c ea n dr a d i a t i o n ,e t c a tt h e s a m et i m e ,i nt h eh a r s hc o s m i ca p p l i c a t i o nt h ep r o c e s s o rr e l i a b i l i t yi sa l s oas e r i o u sc o n c e l t l b e c a u s eo f t h es i n g l ee v e n te f f e c t sc a u s e db yc o s m i cr a y sa n dh i g h m e n e r g yp a r t i c l e s - w i t hg o d s o n - 1p r o c e s s o ra st h er e s e a r c hp r o t o t y p e , ar e a lc h i pd e v e l o p e db yi c t c a s ,t h i s d i s s e r t a t i o nd e a l sw i t hs o f te r r o r sa n df o c u s e so nr e s e a r c ho fh i g h d e p e n d a b i l i t ya r c h i t e c t u r e f o rn a n o m e t e r - s c a t ep r o c e s s o ra n dh a r s h - a p p l i c a t i o np r o c e s s o r t h em a i ni n n o v a t i v ec o n t r i b u t i o n so f t h i sd i s s e r t a t i o ni n c l u d e : 1 an o v e lf a s ta n dc o n t i n u o u ss i m u l a t i o n - b a s e df a u l ti n j e e t i o nt e c h n i q u ei sp r e s e n t e d b y r u n n i n gt w os y n t h e s i z a b l ep r o c e s s o r r t lm o d e l ss i m u l t a n e o u s l y , a b o u tt h i r t yt e nt h o u s a n d s o f te r r o r sa r em j e c t e di n t og o d s o n ls u c c e s s f u l l yt od i r e c tt h ed e s i g no faf a u l t - t o l e r a n t a n dd e p e n d a b l eg o d s o n 一1p r o c e s s o rw i t hg o o ds t a t i s t i c a ls i g n i f i c a n c e 2 ,a na r c h i t e c t u r a ll o w - c o s tf a u l t - t o l e r a n tr e g i s t e rt e c h n i q u ei sp r e s e n t e d c o m p a r i n gw i t h t h ec o a r s em e t h o dt h a ta l lt h ep r o c e s s o rr e g i s t e r sa r eh a r d e n e dr o u g h l ya n db l i n d l y , t h e e c o n o r a i c a lm e t h o dt h a to n l yt h e 羚棼s t e r s 诚也3 s o f te r r o rs e n s i t i v i t yo ra b o v ea r e h a r d e n e dw i t ht h ef a u l t t o l e r a n tr e g i s t e rc a na c h i e v ea l m o s te q u a ld e p e n d a b i l i t yw h i l e r e d u c i n g8 1 。9 r e g i s t e rr o s o u r c e s , 3 an o v e lo n - c h i pm e m o r yd e p e n d a b i l i t yt e c h n i q u eb a s e do nl o c a l i t yi sp r e s e n t e d 。f i r s t l y , t h ea c c e s sa d d r e s s e sa r ec o m p a r e dw i t ht h eh i s t o r i c a lv i r t u a la d d r e s st ok e e pt h ep r o c e s s o r m e m o r y i ni d i es t a t el o n g e rt i m e s e c o n d l y , aw r i t e - t h r o u g h l i k es t r a t e g yi sf u r t h e ra d o p t e d 钯k e e pd a t ac o n s i s t e n c yb e t w e e n d a t ac a c h ea n dm a i nm e m o r y w i t ht h e s et w os t e p st h e o n c h i pm e m o r yb e c o m e sm o r er e l i a b l ea n dc a nb ep r o t e c t e dw i t hl e s se f f o r t sw i t ho n l y 4 。0 9 p e r f o r m a n c ec o s ta n d 霹。4 a r e ac o s t 。 4 as t a t i cc h e c k i n gp i p e l i n ea n ds e l e c t i v er e * e x e c u t i o nt e c h n i q u ei sp r e s e n t e d b ya n a l y z i n g t h ei n s t r u c t i o n sa n da r e ar a t i o so fd i f f e r e n tp r o c e s s o rm o d u l e s ,as t a t i cp i p e l i n ei sa d d e d s p e c i a l l yt oc h e c kt h ei n t e g r i t yf o rt h ea l ui n s t r u c t i o n s ,a n da l lt h ef i x - p o i n tm u l t i p l ya n d f l o a t - p o i n ti n s t r u c t i o n sa l er e e x e c u t e do n c ef o rt h e i ri n t e g r i t y b yt h i st e c h n i q u ea l lt h e i n s t r u c t i o n si n t e g r i t ye x c e p tf o rm e m o r yi n s t r u c t i o n sc a r lb ec h e c k e dw i t ho n l y4 6 a r e a c o s ta n d2 ,9 3 p e r f o r m a n c ec o s t 圣溅!熊!篓登:銎麓!i篷受型!堡墼!i垒塑!鳖 5 a ne x a c tr e s u m i n gt e c h n i q u ef o rp i p e l i n et i m e o u ti sp r e s e n t e d f o u rs t r a t e g i e sf o rd i f f e r e n t c a s e s , i n c l u d i n gc o m p a r i s o nw i t ht h ea d d e do p e r a t i o nc o d ei n r e s u l tb u s ,r e - f e t c h a n d r 譬e x e e u t i o nw i t hat i m e o u te x c e p t i o n ,r e s e t t i n gt h ef i m e o u t - s e n s i t i v er e g i s t e r s ,t m ra n d e c c a r ei n t r o d u c e dt ob r i n gt h et i m e o u tp r o c e s s o rb a c kt on o r m a ls t a t ew i t ho n l y0 5 a r e ac o s t 6 a na r c h i t e c t u r a lf a u l t t o l e r a n tg o d s o n - ip r o c e s s o ri sp r o v i d e db yt h i sd i s s e r t a t i o n t h e a b o v e m e n t i o n e da r c h i t e c t u r a lf a u l t - t o l e r a n tt e c h n i q u e sa r ei n t e g r a t e di n t ot h eg o d s o n i s y n t h e s i z a b l er t lm o d e ls e a m l e s s l yo n l yw i t ht o t a l7 。2 2 p e r f o r m a n c ec o s ta n d9 8 簌c o s ta v e r a g e l y t h i sd i s s e r t a t i o ni se n g a g e di nt h er e s e a r c ho i lh i g h - d e p e n d a b i l i t yp r o c e s s o ra r c h i t e c t u r e a n ds e v e r a ln o v e la r c h i t e c t u r a lf a u l t - t o l e r a n tt e c h n i q u e sa 妣p r e s e n t e d ,t h er e s e a r c hi n t h i s d i s s e r t a t i o ni sas i g n i f i c a n te x p l o r a t i o n c o u r s ef o rf a u l t - t o l e r a n ta n dd e p e n d a b l e n a n o m e t e r - s c a l ep r o c e s s o r a n dt h ep r a c t i c a lf a u l t - t o l e r a n tg o d s o n - ip r o c e s s o rc a ns e r v e 糕勰 o p t i o n a lh i g h d e p e n d a b i l i t yp r o c e s s o ri nt h eh a r s hc o s m i ca p p l i c a t i o n k e y w o r d s :s o f te r r o r , s i n g l ee v e n te f f e c t s ,f a u l t 避e c t i o n ,f a u l td e t e c t i o n ,f a u l t - t o l e r a n t , d e p e n d a b i l i t y , g o d s o n 一1 图爨录 糊2 i 龙芯l 母处理器的传粪故障注入平台组成框图2 0 蹲2 。2 仿真赦辩注入原瑗黼2 1 瀚2 3 燕蕊1 罨缝璎器枣对缀发器透孽亍敷簿注入豹敬漳磁镶劳嚣鬻暴。2 3 潮2 4 龙芯1 号处理器中附关键控制蒲峙进行故障淀入的故障沌僦分配图示2 3 闼2 5 仿真救障注入过程承意图+ 2 5 圈3 ,l 致据粒 孛与译筠鄄镑懿款疆谟敏感程3 0 阕3 2 操作队列的软错误敏感性3 3 图3 3 通用寄存器,浮点寄襻器定点弊术逻辑单元,寇点乘法器的软错误敏感憔3 5 强3 4 浮点冀术逻辑单元f a i 。i ,和浮点浆法器f m u l 的软稽误敏感性3 7 强3 5 遗蛙逡算熟释翡款镣误敏感靛3 奎 豳3 6t l b 部件的软错误敏感性4 l 图3 7c a c h e 部件的软错误敏感性数据4 4 强3 8 翼重镑壤转换黎终与接霜_ 蠡替匏软锩误敏感牲4 5 图4 1d f i a f 3 1 1d 触发器绺褐以及多晶磁退耦电阻插入位置4 譬 豳4 2 容错钟控c m o s 触发器电路结构圈5 0 鼹4 1 3 粳模冗余褰镫越发嚣结构强5 l 圈4 4 三模冗余容错融发器结牵哿强。5 l 图4 5 龙芯l 号处理器不阉部件中需要进行容错设计麴触发器比例分配图示5 2 阉5 。l 龙芯1 号处理器访襻部件设计结构5 8 瀚5 + 2 楚蕊i 号薤瑾器各璇缒部转豹鬣积使露绩凝转 圈5 3t l b 内部各部分的磁积占带情况6 0 圈5 4 根据廉拟地址历史记录进彳亍比较的t l b 设计结构( 以i t l b 为例) 6 2 溷5 5 根据纛缀蟪蛙历史谗浸进行院较鹣c a c h e 设诗缭擒( 戳d c a c h e 舞弼) 。6 3 豳5 6 龙芯l 号处理嚣的必键路径,6 4 豳5 7 龙芯1 号处理器的功耗分布情况6 6 图5 。8w r i t e - b u f f e r 进行写含并蓠盾对比情况6 9 强5 9 采鼹黉w r i t e t h r o u g h 更薪算法鹃数器c a c h e 缎槐框图+ 7 l 圈5 1 0w r i t e - b u f f e r 结构椭图7 2 阁5 1 11 6 位数据位4 位谢偶校验玛豹交叉编码图示7 3 烫6 1a r - s m t 楚理器王豫舔毽委,镪 强6 2t m r - e o r e 原璞图示7 7 i x 菇可靠处理器体系结构棼 究t 溪醛蒙 闰6 3s s d 技术原理图示7 8 瀚6 4 戈芯1 号处理器结构撰翌,7 9 图5 5 戈芯l 号处理器餐劝能部件的礤积使用情况,8 l 图6 6 静态检测流水线承意图8 1 图6 7 静态捡铡流永线继掏框强8 2 强6 。8 选择魏垂复技孬避程示意嚣,8 5 图7 1 结聚总线增加操作鹤比较的设计结构9 2 图7 2 结果总线增加操作码比较之后寇点乘法器的t i m e o u t 错误减少情况+ 。9 3 藩7 + 3 续菜慧线溪趣操掺磁魄较之震怒轰乘法嚣豹w r o n g 。t r a c e 镶误减乡蘩援9 3 图7 4l i n u x k e r n e l 程序下操律队列部 串的超时错误l a t e n c y 分布愿9 4 图7 5q u e u e a l u m u i i l b 部件中越时例外可以恢复的超时错误比例9 4 装謦粢 装5 1 不湖模式tc a c h e 的软锗谖教生率( 每个闳期) 。5 7 豢5 2t l b 麓谗秘频率。一,辨 袭5 , 3c a c h e 豹谤麓鬃搴。,番l 表5 4 掇瓣嫩熬遮蜒嬲史记录送簿撼较之薅煞t l br a m 访闻狻数,6 2 表5 ,5 根瓣虚拟地址掰史记录进行魄枝之孵豹c a c h er a m 访问次数,6 3 袭s 毒躐少片蠹雾赣嚣谤藕凌鼗乏盛麓糕耩惩蘩爨一一。螽7 表5 7 采粥菸w r i t e - t h r o u g h 更耨舞法与w r i t e - b a c k 鞭新算法的处鬻嚣睫耱蛾较,7 2 袭6 1 龙端l 号处理器中攫令在不剃髓能都 睾中执行操佟数分搬情况,8 0 袭6 2 龙落i 号熬理嚣漾瓣选择魏整笈捷磐技零魏犍能魏羧,8 7 声翡 我声明本论文是我本人在导师指导下进行的磺究工作及取褥敬研究成 果。尽我所知,除了文中特涮加以标淀和致谢的地方外,本论文中不包含其 链入邑经发表或摸霉过豹镊究成果。与我一弱王豫酌麓恚对本磺究所徽的任 何爨献均邕在论文中终了蹋镌静说明菇表示了谢意。 箨袁签袭葫毫棣 蹶例。纭| 9 论文版权使用授权书 本入授权中匿辩学院计算技寒研究掰可淡保留并定雷象有关部门蛾撬 构送交本论文的复印 孛秽电子文档,允许本论文拨查阅和偌阕,可以将本论 文酌垒部或部分内容编入肖关数据库进行检索,爵以采用影郫、缩邸或搦攒 等复制手段保存、汇编本论文。 ( 保蓉论文在察密后适爝零授权书。 燃确靛黜名弘黼砧纰 1 1 研究背景 第一章绪论 1 1 1 开展处理器可靠性研究的必要性 随着处理器逐步采用纳米级制造工艺,处理器的集成度越来说高,功能越来越强大, 处理器的应用也空前广泛,已经在人们的生活中无处不在,从普通的消费电子到高性能 的服务器,再到国防航天等特殊领域,都可以看见处理器的身影。然而,在处理器性能 得到大幅提高的同时,由于集成电路特征尺寸的减小、电源电压的降低和频率的升高, 使得处理器对于串扰、接地反弹、电磁干扰以及辐射等各种噪声干扰变得更加敏感,并 可能引发错误的操作,大大降低了处理器的可靠性因此,人们在关注处理器性能的同 时,不得不面临可靠性这一日益严峻的课题另一方面,对于各类特殊应用场合,例如 火控、宇航等,由于宇宙射线和高能粒子的辐照作用,使得处理器内部电路产生各种单 粒子效应,同样也可能引起错误的操作,并导致致命的错误,因此也对处理器的可靠性 提出了更高的要求。 处理器在运行过程中产生的错误可以分为硬错误和软错误两种;硬错误是由于电路单 元产生了不可恢复故障引起的,是永久性的错误:而软错误则是由于噪声干扰或者高能 粒子撞击而引起的瞬态错误,是可以恢复的错误。我们将出现在处理器内部并引起电路 单元状态发生改变的瞬态故障称为软错误( s o i te r r o r ) ,关于软错误的概念,不同文献的 定义略有不同但本质没有区别。 研究表明,计算机系统中8 0 9 0 的失效都是由于瞬态故障引起的 1 】 2 】,这表明瞬态 故障是引起计算机系统失效的主要原因,即使是系统中一个状态位发生错误的改变,都 有可能引起系统致命的错误。在纳米级制造工艺下,以及在航天等特殊应用场合,瞬态 故障也将是引起处理器以及计算机系统失效的主要原因,并且随着特征尺寸的减少,这 一趋势将会越来越明显。因此,为了提高纳米级制造工艺下或者航天等特殊应用场合下 处理器的可靠性,消除瞬态故障所引起软错误( s o f te r r o r ) 的有害影响是一个重要的任务 1 1 2 处理器发生软错误的主要原因 电路单元发生状态改变所需要的最小电荷量称为临界电荷,根据临界电荷的计算公 式:q 啪f c v ,随着处理器逐步采用纳米级制造工艺,电路单元的电容越来越小,供电 电压越来越低,使得处理器中电路单元改变状态所需要的临界电荷也越来越小,因此处 中固科学院博士学位论文:高可! f f i 处理器体系结构研究 理器对于串扰、电压扰动、接地反弹、电磁干扰以及辐射等各种噪声干扰变得更加敏感, 微小的干扰都可能使内部电路单元发生错误的信号翻转,大大降低了处理器的可靠性。 在处理器的各种干扰源中,放射性粒子对芯片的辐射作用是使得处理器产生软错误的 重要原因之一,在处理器中产生软错误的辐射源主要有三种【3 】:( 1 ) 低能中子粒子,低能 中子束源于太空,当半导体材料中存在硼1 0 元素时,两者就会发生核反应而释放出a l p h a 粒子;但是另一方面,只有当半导体材料中存在硼1 0 元素时低能中子才能对处理器可靠 性产生影响。( 2 ) 处理器内部产生的a l p h a 粒子,半导体材料以及封装材料、互连材料中 的放射性杂质( 例如铅) 在衰变过程中会释放出a l p h a 粒子,并且只需要很少量的放射性 杂质就会对处理器的可靠性造成影响( 3 ) 高能中子粒子,高能中子也来源于太空,过去 主要在高海拔地区对处理器的可靠性产生影响,但随着处理器特征尺寸的减少,即使是 在海平面也将会产生影响;每个高能中子可以产生1 0 倍于a l p h a 粒子的电子空穴对,因 此将会严重影响处理器的可靠性。尽管通过优化工艺与精选材料的方法可以减少a l p h a 粒子的干扰作用,但却无法完全消除这种影响,并且代价十分昂贵,这对于商用器件来 说显然是不合适的;同时,优化工艺与精选材料的方法无法消除高能中子的辐射影响, 并且目前也没有其他有效办法:因此,应当在处理器计阶段采取更为廉价、有效而全面 的方法来缓解放射性粒子对处理器的辐射影响。 1 1 3 冗余技术分类 为了消除软错误的影响,提高处理器的可靠性。一方面可以从工艺制造以及封装屏蔽 的角度出发,采用具有优良软错误免疫能力的集成电路材料与工艺技术,以及采用具有 增强保护功能的封装与屏蔽防护材料另一方面。可以在设计阶段采用容错与可靠性设 计技术,通过冗余容错的电路设计以及体系结构设计,使得处理器具有容错功能,能够 屏蔽、隔离或者消除绝大多数软错误的有害影响:这种方法由于与具体工艺无关,仅仅 通过设计就可以提高处理器的可靠性,因此成为处理器可靠性设计的主要技术,同时也 是人们研究的重点。 容错技术总是同冗余的概念联系在一起的,冗余技术可以基本分为如下几类: 硬件冗余:对关键部件进行备份,并使之同时工作: 软件冗余:对关键操作配备若干个可供选择的程序; 信息冗余:用纠错码或者校验码来表达信息; 时间冗余:在同一部件上对关键操作执行若干次。 对于提高处理器可靠性的各种容错与可靠性设计技术,一般都采用了上述冗余技术分 类中的一种或者若干种,由于分类角度的不同,在本文的后续论述中将不再对此进行仔 细区分。 2 第一章绪论 1 1 4 可靠性衡量指标 对于处理器的可靠性分析,目前没有标准化的衡量指标,常用的一些指标主要有 m t r f ( m e a n t i m e t o f a i l u r e ,平均无故障时间) 、m t b f ( m c a n t i m e b e t w e e n f a i l u r e s , 平均故障间隔时间) 、f i t ( f a i l u r e si n1 0 9o p e r a t i o nh o u r s ) 等,这些指标一般是根据相关行 业标准经过推算得到,与设定的环境以及工作条件相关,可能会产生偏差,因此在处理 器可靠性研究与设计中,一般很少采用这些指标来进行对比分析更常用的方法是采用 各种故障注入方法进行加速故障注入,主要包括硬件故障注入方法、软件故障注入方法 以及仿真故障注入方法等,通过对容错加固处理器与未容错加固处理器进行各种加速故 障注入试验,由试验结果可以对比处理器的容错与可靠性设计效果,根据对比结果还可 以进行一些定量与定性的分析,并用以指导进一步的可靠性设计。 1 2 研究现状 我们将从如下几个方面来介绍当前处理器可靠性设计与容错技术的研究现状: , 在f p g a 上实现可以灵活重构的容错处理器; 单芯片微处理器的容错与可靠性研究:主要从工艺、电路、结构以及软件设计等若千 方面分别采取措施以提高微处理器的可靠性。是处理器可靠性研究的主流方向; 处理器阵列的容错与可靠性研究:主要通过设计具有容错功能与灵活可配置的互联结 构来提高处理器阵列的可靠性; 计算机系统的可靠性研究:由于计算机系统越来越复杂,可靠性逐步成为计算机系统 必须考虑的重要因素之一,因此如何提高整个系统的可靠性成为计算机系统研究的重 要内容之一,也代表了容错技术的发展趋势; t 业界研发现状:主要介绍工业界在容错处理器方面的工作。 1 2 1 在f p g a 上实现可重构容错处理器 由于f p g a 具有可编程改变逻辑的功能,因此在一些需要高可靠性的应用场合,可 以利用f p g a 芯片的现场可编程特性,在工作单元出现故障时,通过对芯片进行重新布 局布线以及网表数据重载,实现芯片逻辑功能的现场重构和修改例如文献 4 】在x i l i l l x x q v r 6 0 0 上实现了一个可配置的三模冗余容错处理器,可以支持辐射环境下的在轨道升 级、重配置以及修改处理器的体系结构。 中困科学院博 学位论文:离廿印处理器体系绿构研究 1 2 2 单芯片处理器的容错与可靠性研究 为了提高单芯片处理器的可靠性,可以从工艺、电路、结构以及软件设计等若干方面 分别采取措施,有关处理器可靠性的研究大多数集中于此,足处理器可靠性研究的主流 方向,这一部分内容将在1 3 节中进行更为详细的介绍 1 2 3 容错处理器阵列的可靠性研究 一些特殊的应用场合需要采用处理器阵列,例如图象处理、气象预测等,通过采用灵 活可配置的互联结构以及冗余技术,使得某些处理器单元在产生故障时可以映射到正常 工作的冗余处理器单元上,因而提高了处理器阵列的可靠性。容错处理器阵列代表了一 大类研究方向,文献 5 】对容错处理器阵列的各种主要技术进行了归纳与分类。 1 。2 4 计算机系统的可靠性研究 传统的容错计算更多的局限于特定的软硬件以及特定的应用系统,然而随着计算机技 术的发展,计算机系统的计算能力得到了显著的提高,整个系统也交得越来越复杂,可 靠性,可用性、可信性以及可维护性等逐步成为计算机系统必须考虑的重要因素:传统 的容错技术也进一步扩展为可恢复技术,不管是硬件组件( 例如处理器) 还是整个计算 机系统发生了运行错误,都应该能够自动恢复过来,使得硬件组件或者整个系统能够继 续正常工作,下面以b e r k e l e y s t a n f o r d 的r o c ( r o c o v e r y - o r i e n t e dc o m p u t i n g ) 技术和m m b l u eg e n e 超级计算机的自愈( s e l f - h e a l i n g ) 技术为例进行简要介绍。 r o c - 面向恢复的计算技术 长期以来,性能一直是计算机系统的主要考虑因素,而可靠性、可维护性、安全性以 及使用总费用t c o ( t o t a lc o s to f o w n e r s h i p ) 等因素却往往不被重视;例如t c o 一般是 购买价格的5 1 0 倍,这一点虽然广为人知,然而人们往往更关注购买价格,实际上不可 靠系统使用过程的消耗和维护总费用往往比购买价格高得多,并且随着集成电路、机群 系统以及丌源软件的发展,软硬件价格进一步下降,将使得这一趋势越来越明显。 b e r k e l e y s t a n f o r d 联合研究的r o c 技术【6 致力于提高i n t e m e t 服务器的可靠性、可用性 以及服务能力,并由此降低了整个服务器的t c o ,代表了容错计算的发展趋势r o c 技 术将人为因素、软件、硬件等引起的错误视为不可避免的事实,而不是必须解决的问题, 因此r o c 技术不会局限于解决某一类具体的故障问题,而是从整个系统的角度考虑如何 应付所有可能的运行错误;特别地,r o c 技术将人为操作引起的故障作为一个重要的考 虑因素,这一点与以往所有的可靠性设计都不相同。 r o c 技术主要通过软硬件协作来提高整个系统的可靠性与可维护性,包括故障节点 4 第一章结论 的隔离、系统范围内的u n d o 恢复机制、集成的诊断支持功能、恢复机制在线验证以及高 度模块化设计等 7 】。r o c 技术与其他相关工作的不同之处主要体现在两个方孟 6 1 ,第一, r o c 技术全面地考虑了可恢复性,可以应付系统任何层面以及任何类型的失效;第二, r o c 技术比现有其他技术覆盖了更为广阔的失效空间,不必考虑发生的具体失效类型, 而传统的容错技术则往往以特定类型的失效为研究模型。 在b e r k e l e y s t a n f o r d 的r o c 技术之前,研究人员在存储系统、操作系统以及数据库 系统等方面也有过类似的研究【6 】;传统的容错计算领域也时常会涉及到可恢复设计。但 往往是针对特定的应用;尽管b e r k e l e y s t a n f o r d 并不是第一个提出可恢复计算思想,但 由于r o c 技术系统地进行了可恢复计算的研究,因而代表了容错技术的一个重要发展趋 势。 b l u e g e n e 的自愈( s e l f - h e a l i n g ) 技术【8 1 2 0 0 4 年1 1 月8 日,m m 宣布其1 6 个机架的m me s e r v e r b l u e g e n es o l u t i o n 超级计 算机以每秒7 0 7 2 万亿次浮点运算速度创造了新的世界纪录,成为全球最强大的超级计算 机m m 的b l u eg e n e 超级计算机计划始于1 9 9 9 年,主要应用于生物蛋白质的研究m m 研究人员将b l u eg e n e 的体系结构称为s m a s h 结构( s i m p l e 、m a n y 和s e l f - h e a l i n g ) , 其中s i m p l e 表示基本体系结构的简单性,大大减少了每个处理器需要执行的指令数; m a n y 表示b l u eg e n e 可以允许大量的处理器并行工作:而s e l f - h e a l i n g 则表示b l u eg e n e 具有增强的容错功能与系统可靠性,可以自动克服单个处理器故障或者计算线程失效。 为了完成复杂的蛋白质模型分析,b l u e g e n e 一方面必须尽可能地提高计算能力:但另一 方面,由于计算过程预期需要一年才能完成,对于大量的处理器以及每个处理器8 个计 算线程来说,在计算过程中不可避免地会存在一些毛刺或者干扰,预计平均每四天就有 一个处理器会产生运行失效,因此需要有一种方法使b l u eg e n e 能够容忍运行过程中出现 的错误或者从运行错误中恢复过来,s e l f - h e a l i n g 技术则提供了这样的功能。 在b l u eg e n e 中,通过使驻留软件尽可能简单,并严格保证关键软件子系统的正确性, 可以认为软件出错的可能性很小;而大量的硬件组件在运行过程中则很可能产生故障, 因此硬件故障是运行错误的主要原因为了提高b l u e g e n e 的可靠性,设计人员采取了三 个方面的措施,一方面采用了容错加固的硬件组件,例如具有容错功能的p o w e r p c 处理 器以及容错存储器;另一方面软件周期性地检查计算线程的状态,如果发现故障则重新 执行计算线程或者隔离故障单元;除此之外,b l u eg e n e 的所有计算节点构成三维阵列, 通过容错的网孔路由算法可以实现故障节点的隔离与替换【9 】。如上所述,通过软硬件配 合以及容错网孔路由,b l u eg e n e 能够容忍在计算过程中产生的运行错误或者从运行错误 中恢复过来,即提供了自愈( s e l f - h e a l i n g ) 的功能。 除了i b m 公司,h p 、s u n 等公司也提供s e l f - h e a l i n g 方面的技术 1 0 】,这里不再一一 叙述 中陶科学 壳博士学位论文t 高可靠处理器体系结构研究 1 2 5 工业界研发现状 工业界很少有专门从事容错处理器研发的厂家,目前可见报导的只有i r o c t e c h n o l o g i e s 公司;而一些公司则把容错处理器作为业务之一,例如a t m e l 公司在2 0 0 5 年推出耐辐射3 2 位s p a r cv 8 处理器a t 6 9 7 i r o ct e c h n o l o g i e s 是一家专门从事软错误 研究的法国公司【l l 】,可以提供在a s i c s 、f p g a 、s o c 以及存储器中消除软错误的解决 方案在容错处理器方面,i r o c 公司提供了一款名称为r o c s s l 的3 2 位r i s c 容错处理 器d 2 ,该处理器兼容s p a r c v 8 指令系统,采用0 2 5 u m s r l 造工艺,最高频率可达1 0 0 m h z , 功能上等同与l e o n 处理器。r o c s 8 1 主要采用了两方面的容错技术来提高可靠性;一 方面,r o c s 8 1 采用了基于时间冗余的触发器设计技术。对所有的触发器都增加一个冗余 触发器,并用原始时钟偏移占相位作为新增触发器的同步时钟,当组合逻辑或者触发器 由于单粒子翻转等干扰因素的影响产生错误信号翻转时,这种方法可以检测到软错误并 给出指示信号;另一方面,r o c s s l 在指令c a c h e 、数据c a c h e 、寄存器堆中采用了奇偶 校验以及相关恢复机制,可以检测和消除存储器中的软错误仿真表明,采用上述两种 设计方法之后,r o c s 8 1 可以检测出接近1 0 0 的软错误,而面积开销大概为1 3 。为了 迸一步对比容错设计效果,将r o c s 8 1 和原始l e o n 处理器进行加速重离子试验,并分 别进行了静态与动态测试;在静态测试中,将片外数据读入到处理器片内存储器中,进 行重离子试验之后再读出与原始数据进行比较,测试结果表明存储器保护机制具有1 0 0 的有效性;而在动态测试中,r o c s s l 在辐射环境下执行复杂的运算,测试结果表明逻 辑块( 包括组合逻辑与触发器) 对软错误很敏感,只保护片内存储器不会有效增强整个处理 器的可靠性。除r o c s 8 1 处理器之外,i r o c 还提供了几款其他的容错处理器,这里不再 一一介绍。 大的处理器提供商一般都开展了处理器可靠性相关的研究工作。例如m m 、i n t e l 、 m o t o l o r a 等。商用处理器一般只在片内集成部分容错与可靠性设计电路,例如对于c a c h e 片内存储器采用奇偶校验或者e c c 校验相对来说,服务器用处理器通常采用了较多的 容错与可靠性设计措施,例如m m ss 3 9 0g 5 处理器将整个i - u n i t 和e u n i t 进行了复制, 增加了一个专门用于提高可靠性的r - u n i t ,并从处理器片内提供专门支持以提高s m p 系 统的可靠性【1 3 】;而i n t e l i t a n i u m 处理器采用了e c c 校验、e r r o r p r o m o t i o n 、d a t a p o i s o n i n g 等技术来提高i t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电网财务知识培训课件
- 第15课 十月革命的胜利与苏联的社会主义实践 课件 统编版必修中外历史纲要下册
- 2023年住建安C题库(法律法规、安全管理、土建综合安全技术)专项测试题有答案
- 公司政策宣贯与培训的在线学习平台
- 在全镇教师座谈会上的讲话
- 电子商务实习报告
- 某县社会工作专业人才队伍建设情况调研报告
- 培训教学课件评选
- 财政基层培训课件
- 洗衣工的培训课件怎么写
- 水果和蔬菜深加工技术项目可行性研究报告
- 老年患者体位护理
- 2025新译林版英语八上单词默写表(先鸟版)
- 2025年执业医师考试临床技能试题及答案
- 洽谈互赔协议书
- 应急管理局职能介绍
- 2025-2030全球及中国ITSM工具行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 航运基础知识考试题库单选题100道及答案
- 大学生安全教育课件
- 名创优品购销合同协议
- 乡镇卫生院手术分级管理制度
评论
0/150
提交评论