




已阅读5页,还剩70页未读, 继续免费阅读
(计算机科学与技术专业论文)基于检查点的作业自动容错技术研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院工学硕士学位论文 摘要 目前,高性能计算系统在经济、军事、科技等各个领域得到了越来越广泛的 应用,代表着一个国家的综合科技水平。高性能计算系统的发展呈现出大型化、 复杂化的趋势,系统结构及应用的规模都不断扩大,而系统发生故障的几率呈指 数增长,计算作业执行的时间也越来越长。因此,研究高性能计算系统中容错技 术,致力于提高高性能计算系统可用性,具有十分重要的意义。 本文针对当前高性能计算系统中容错技术的不足,在深入研究当前容错关键 技术的基础上,对基于高性能计算资源管理系统的作业自动容错技术进行了研究 与实现,主要工作和创新包括: 1 深入研究当前容错关键技术,针对当前高性能计算系统中容错功能的不足, 提出了基于资源管理系统的作业自动容错框架,实现了作业自动容错功能,提高 了系统可用性和系统效率。 2 深入研究现有的故障检测与诊断技术,针对当前高性能计算系统中故障检 测技术的不足,提出了基于节点组件的故障检测模型,对模型中关键技术进行研 究与设计,并结合现有的高性能计算系统中故障检测技术,对该模型进行了评价。 3 深入研究现有的并行作业检查点技术,针对当前的高性能计算系统中没有 实现作业的自动检查点恢复功能的不足,设计并实现了资源管理系统中基于作业 的自动c h e c k p o i n t r e s t a r t 机制,并对机制中关键技术进行研究与设计,实 现了并行作业检查点的周期性自动设置与自动恢复功能,从而节约了大量的重复 计算时间,并降低了对用户的维护管理技术要求。 4 采用n p b 测试程序集,在测试环境中分别从功能和性能两个方面对本文所 实现的系统进行了测试。测试结果显示,系统有效实现了故障的自动检测及并行 作业的自动c h e c l o o i n t 依e s t a r t 功能,并且检查点时间开销和存储开销均较 低。因此得出结论,本文设计的系统,在增加了较小的额外开销的情况下,有效 地实现了并行作业的自动容错功能,提高了高性能计算系统可用性。 关键词:高性能计算,容错,r o c ,s l u r m ,c h e c k p o i n t r e s t a r t 第i 页 国防科学技术大学研究生院工学硕士学位论文 a b s t r a c t r e c e n t l y ,h p cs y s t e m s ,w h i c hr e f l e c tt h eo v e r a l ls c i e n c ea n dt e c h n o l o g yl e v e lo fa c o u n t r y ,a r ei m p l e m e n t e di nm a n yf i e l d ss u c ha sm i l i t a r y ,e c o n o m y ,s c i e n c ea n d t e c h n o l o g y ,e t c w i t l lb o t ht h es t r u c t u r ea n dt h ea p p l i c a t i o ns c a l eb e c o m i n gm u c hh u g e r , h p cs y s t e m st e n dt ob eg r e a t e ra n dm o r ec o m p l e x c o n s e q u e n t l y ,t h ef a u l tr a t i or i s e s e x p o n e n t i a l l y ,a n dt h ej o bt i m ei sm a r k e d l yl o n g e r h e n c e ,i t ss i g n i f i c a n tt h a tw es t u d y t h ef a u l tt o l e r a n tt e c h n o l o g yi nh p cs y s t e m st oi m p r o v et h ea v a i l a b i l i t y a i m i n ga tt h el a c ko ff a u l tt o l e r a n tt e c h n o l o g yi nh p cs y s t e m s ,t h i sp a p e rs t u d i e s t h ek e yf a u l tt o l e r a n tt e c h n o l o g i e si nr e s o u r c em a n a g e m e n ts y s t e m ,d e s i g n sa n d i m p l e m e n t st h ea u t o m a t i cj o b sf a u l tt o l e r a n tt e c h n o l o g yb a s e do nr e s o u r c em a n a g e m e n t s y s t e m t h em a i nw o r k sa n di n n o v a t i o n sa r ea sf o l l o w s 1 t h ef a u l tt o l e r a n tt e c h n o l o g yi sa 1 1i m p o r t a n tw a yt oi m p r o v et h ea v a i l a b i l i t yo f h p cs y s t e m s a i m i n ga tt h ef u n c t i o nd e f e c ti nr e c e n tf a u l tt o l e r a n tf u n c t i o no fh p c s y s t e m s ,t h i sp a p e rp u t sf o r w a r dt h ea u t o m a t i cjo b sf a u l tt o l e r a n tf r a m e w o r kb a s e do n r e c o u r s em a n a g e m e n ts y s t e m u n d e rt h ef r a m e w o r k ,t h ea u t o m a t i cj o b sf a u l tt o l e r a n t f u n c t i o ni s s u c c e s s f u l l yi m p l e m e n t e d ,a n dt h ea v a i l a b i l i t ya n de f f i c i e n c yo fh p c s y s t e m sa r ei m p r o v e d 2 a i m i n ga tt h ef u n c t i o nd e f e c ti nr e c e n th p cs y s t e m s t h i sp a p e rs t u d i e sr e c e n t f a u l td e t e c t i o nt e c h n o l o g y ,a n dp u t sf o r w a r daf a u l td e t e c t i o nm o d e lb a s e do nn o d e c o m p o n e n ti nh p cs y s t e m s c o m p a r e dw i t hi n t e r r e l a t e dt e c h n o l o g yi nr e c e n th p c s y s t e m s ,t h ec h a r a c t e r i s t i co ft h i sm o d e li se v a l u a t e d 3 a i m i n ga tt h el a c ko fa u t o m a t i c o bc h e c k p o i n tf u n c t i o ni nr e c e n th p cs y s t e m , t h i sp a p e rs t u d i e sr e c e n tp a r a l l e la p p l i c a t i o nc h e c k p o i n t ,d e s i g n sa n di m p l e m e n t s a u t o m a t i cc h e c k p o i n t r e s t a r tm e c h a n i s mb a s e do nr e s o u r c em a n a g e m e n t s y s t e m w i t ht h ea u t o m a t i cc h e c k p o i n 吖re s t a r tf u n c t i o ni m p l e m e n t e db yt h e m e c h a n i s m ,l o t so fr e s o u r c ew a s t ec a u s e db yr e p e a t e dc o m p u t i n gi sa v o i d e d m e a n t i m e ,t h et e c h n i q u er e q u i r e m e n ti sr e d u c e df o ru s e r st op e r f o r ms y s t e m m a n a g e m e n t 4 w i t ht h en a sp a r a l l e lb e n c h m a r k ,t h i sp a p e re v a l u a t e st h es y s t e mi nt e r m so f b o t hf u n c t i o na n dp e r f o r m a n c e t h er e s u l t si n d i c a t et h a tt h ea u t o m a t i cf a u l t sd e t e c t i o n f u n c t i o na n dj o b sc h e c k p o i n t r e s t a r tf u n c t i o na r ei m p l e m e n t e d ,a n dt h e o v e r h e a di sl o w s ow eg e tac o n c l u s i o nt h a ti no u rd e s i g n , a u t o m a t i cf a u l tt o l e r a n t f u n c t i o ni si m p l e m e n t e dw i t hl o wa d d i t i o n a lo v e r h e a d ,a n dt h ea v a i l a b il i t yo fh p c s y s t e m si sr e m a r k a b l yi m p r o v e d k e yw o r d s :h p c ,f a u l tt o l e r a n c e ,r o c ,s l u r m ,c h e c k p o i n t r e s a r t 第i i 页 国防科学技术大学研究牛院工学硕士学位论文 表目录 表1 12 0 0 8 年6 月份全球高性能计算机t o p l 0 参数1 表1 2 高性能计算机c r a yx t 3 上应用的规模2 表4 1 数据聚类分析示例3 3 表5 1 检查点相关命令4 2 表6 1 结构体j o br e c o r d 部分域的名称及含义5 2 表6 2 结构体c h e c ki o bi n f o 部分域的名称及含义5 2 表6 3 检查点功能a p i 参数及功能5 5 表6 4 检查点文件存储开销6 0 表6 5 检查点设置及恢复开销占作业正常执行时间比例6 2 第1 v 页 国防科学技术大学研究生院工学硕士学位论文 图目录 图2 1t h r e e r s 模型结构图1 0 图2 2 检查点文件信息一1 2 图2 3 并行应用分布式全局状态15 图3 1s l u r m 体系结构1 7 图3 2s l u r md a e m o n 组成结构1 8 图3 3s l u r m 中交互式作业执行过程2 0 图3 4s l u i 泓中作业状态图2 1 图3 5s l u r m 中节点状态图2 1 图3 6 作业自动容错技术原理框图2 3 图3 7 容错框架中作业执行流程2 4 图3 8 基于作业检查点的资源管理系统容错框架2 5 图4 1p i n p o i n t 框架结构2 7 图4 2 基于学习的动态组件划分原型结构2 9 图4 3 基于节点组的递归重启系统结构3 1 图4 4 高性能计算系统中基于节点组件的故障检测系统结构3 2 图5 1 线程回调及作业线程同步过程3 6 图5 2 分布式检查点文件管理3 8 图5 3 两级检查点文件管理机制3 9 图5 4 并行作业c h e c k p o i n t 瓜e s n 幔t 体系结构4 0 图5 5c h e c k p o i n t r e s t a r t 机制下m p i 作业通讯4 3 图5 6s t u nc r 主要功能序列图4 4 图5 7 并行作业c h e c k p o n t 爪e s t a i 汀整体流程4 5 图5 8 并行作业检查点设置过程4 7 图5 9 作业检查点恢复过程。4 8 图6 1 故障时处于不同执行阶段的作业5 9 图6 2 检查点设置及恢复时间开销6 1 图6 3 不同检查点周期下作业执行时间6 2 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文作者签名:日期:伽醒年i 月f8 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文作者签名:兰爱堕! 生日期:伽刁8 年i 月艿日 作者指导教师签名: 国防科学技术人学研究生院工学硕士学位论文 第一章绪论 本章首先说明课题的研究背景及意义,然后在介绍国内外相关研究的基础上, 概括本文的主要工作和创新,最后给出全文的组织结构。 1 1 课题背景及意义 高性能计算( h i g hp e r f o r m a n c ec o m p u t i n g ) 是计算机学科的一个比较前沿的分 支,它主要研究超级计算机的系统结构,以及并行算法和并行软件的开发应用, 致力于开发高性能计算机,拓展高性能计算的应用。随着社会信息化、数字化的 不断深入发展,高性能计算机已经不仅仅纯粹应用于科学计算领域,越来越多的 领域开始走上了高性能计算应用之路。高性能计算大大推动了社会朝着信息化方 向发展,其发展水平已经成为衡量一个国家高新科技水平和综合实力的重要标志。 目前,航空航天、核模拟实验、军事情报搜集处理、天气预报等等领域都越来越 依赖高性能计算。随着高性能计算应用的飞速发展,高性能计算系统的规模越来 越趋于大型化。而随着各高性能计算应用领域技术的不断发展,对高性能计算的 需求也不断提高,各领域中应用的规模都不断扩大。 表1 12 0 0 8 年6 月份全球高性能计算机t o p l 0 参数 1 排名计算机,年份生产商地点处理器核数峰值速度焉 t f l o p s 。 1r o a d r u n n e f f 2 0 0 8 f l b m d o e n n s a l a n l ,u s 1 2 2 4 0 01 0 2 6 0 0 2b l u e g e n e 舢2 0 0 锨b m d o e n n s a l a n l ,u s 2 1 2 9 9 24 7 8 2 0 3b l u e g e n e p 2 0 0 7 i b ma n lu s1 6 3 8 4 04 5 0 3 0 4 t a n g e r 2 0 0 8 s u n t e x a sa d v a n c e d6 2 9 7 63 2 6 c o m p u t i n gc e n t e r u n i v o f t e x a s 5 c r a yx t 4 2 0 0 8 c r a yi n c d o e o a kr i d g en a t i o n a l3 0 9 7 62 0 5 0 0 l a b o r a t o r y 6j u g e n e f z j ,g e r m a n y 6 5 5 3 61 8 0 0 0 b l u e g e n e p 2 0 0 7 i b m 7e n c a n t o t 2 0 0 7 s g ln m c a c u s1 4 3 3 61 3 2 8 0 8e k a 2 0 0 8 h p c r l ,t a t as o n s , 1 4 3 8 41 3 2 8 0 i n d i a 9b l u e g e n e p 2 0 0 8 i b m i d r i s ,f r a n c e 4 0 9 6 01 1 2 5 0 1 0s g ia i t i xl c e8 2 0 0 t e p ,f r a n c e 1 0 2 4 01 0 6 1 0 e x 2 0 0 8 s g i 表1 1 列出了2 0 0 8 年6 月份全球高性能计算机5 0 0 强中排名前十位的高性能 计算机的大致参数【l 】,其中排名第二的b l u e g e n e l 【2 1 超级计算机的处理器核数达到 第1 页 国防科学技术大学研究生院t 学硕十学1 1 i ) = 论文 了2 1 2 9 9 2 个,。可见当日订高性能计算系统的规模十分庞人。因此对发展高性能计算 机的关键技术,如体系结构、电路工艺、软件系统和并行算法等方面提出了更高 的要求。 另一方面,在当前各高性能计算应用领域,应用的规模也日益趋于大型化, 从而对高性能计算系统的运算性能、运行可靠性等方面提出了更高的要求。表1 2 列出了高性能计算机c r a yx t 3 上的部分领域的应用进行有关的计算所需要的处理 器核的数目f s l 。 表1 2 高性能计算机c r a yx t 3 上应用的规模 7 应用领域处理器数 7 n a m dm o l e c u l a rd y n a m i c s1 9 1 2 0 c h a m + +p a r a l l e lc + + ( u s e db yn a m d )1 9 1 2 0 l s m s m a t e r i a l ss c i e n c e 1 6 0 0 0 w r fw e a t h e rr e s e a r c h &4 0 9 6 f o r e c a s t i n g h y c o mo c e a nm o d e l i n g4 0 9 6 l a m m p sm o l e c u l a rd y n a m i c s4 0 9 6 l e on u m e r i c a lr e l a t i v i t y4 0 5 6 g a s o l i n e n b o d ya s t r o p h y s i c s 3 0 7 2 g a m e s s q u a n t u mc h e m i s t r y 2 0 4 8 q u a k ee a r t h q u a k em o d e li n g 2 0 4 8 c p m dc a r - p i r a n d e l l om 0 1 d y n a m i c s2 0 4 8 z e u s - m p a s t r o p h y s i c s 1 7 2 8 n e k t a rh pf i n i t ee l e m e n tc f d1 0 2 4 q c h e m q u a n t u mc h e m i s t r y 1 0 2 4 随着高性能计算系统结构及其应用规模的不断扩大,系统在计算过程中发生 故障的几率呈指数增长,同时由于高性能计算系统通常为多用户使用,其负载、 资源等具有较大的变化特性。另外,大规模科学计算作业执行时间都较长,一旦 某计算结点发生故障,可能会导致整个并行计算过程的失败,从而造成大量的计 算资源和时间的浪费。要使大规模高性能计算系统得以广泛、可靠的应用,必须 对系统的容错技术进行研究开发,致力于提高系统的可用性。 容错技术包括两个重要的方面:系统故障检测技术及故障恢复技术。要提高 高性能计算系统的可用性,在系统发生故障的时候,必须能够迅速地对故障进行 定位,这就要求对故障检测技术进行研究。高性能计算系统中的故障检测技术应 该能够在庞大、复杂的系统中准确、及时地发现故障,并且占用尽量小的系统开 销。同时,为了避免大量的重复计算时间浪费,要求作业在系统从故障中恢复后 能够继续执行,而不是从头开始执行。检查点设置与回卷恢复( c r r ,c h e c k p o i n ta n d r o l l b a c kr e c o v e r y ) 一儿4 2 j 技术作为一种后向恢复技术,通过在系统正常运行过程中 第2 页 国防科学技术大学研究生院工学硕士学位论文 设置检查点( c h e c k p o i n t ) ,保存系统当前状态。在系统发生故障后,将相关进程回 卷( r o l l b a c k ) 恢复到故障前保存的某时刻的检查点状态并继续执行,而不需要重新 执行整个程序,从而有效地节约了计算时间和计算资源。 本课题致力于研究和开发基于高性能计算资源管理系统实现的作业自动容错 技术,在现有资源管理系统的基础上,进行功能扩展,实现故障的自动检测及作 业检查点的自动设置与恢复,从而提高高性能计算系统可用性,对提高高性能计 算系统性能、拓展其应用具有重要的意义。 1 2 研究现状 本节对当前主要的高性能计算资源管理系统进行研究,分别对其容错方面的 功能进行比较与分析,研究其不同的特点及适用性,并对其局限性进行研究与分 析。 1 。2 。1 现有的高性能计算资源管理系统 1 z 1 1c o n d o r c o n d o r 1 9 j 是由威斯康星大学开发的高吞吐量计算环境,它最初是建立在 u n i x 系统上的分布式批处理系统,能够管理不同个体拥有的大量电脑系统,如 p c s 、工作站和集群。c o n d o r 环境使用一种层次化架构,为串并行应用提供了强 劲、灵活的资源管理服务。c o n d o r 监测网络中所有节点的状态,一旦某台计算机 被认为空闲,便把它纳入到资源池中执行作业。c o n d o r 系统特别关注计算机所有 者的权益,资源所有者可以自定义使用条件,将他们的资源置于c o n d o r 池中。 c o n d o r 可以通过较强的远程系统调用能力,在执行机器上保存作业的源机器环境, 一旦资源所有者要使用机器时,c o n d o r 作业自动设立检查点,并且能按照需求在 工作站间迁移,以保证作业的最终完成。 1 2 1 2s l u l u 讧 s i m p l e l i n u xu t i l i t yf o rr e s o u r c em a n a g e m e n t ( s l u r m ) t 1 0 j 是由l a w r e n c e l i v e r m o r e 国家实验室开发的一种适用于各种规模的l i n u x 集群系统的资源管理系 统【1 0 j ,完成集群系统中资源分配及作业管理功能。s l u r m 具有如下一系列良好的 特性,使其得到了非常广泛的应用: 简单性;s l u r m 使用c 语言编写,代码简单,有需要的用户可以很容易地读 懂它的代码,并根据自己的需要进行功能的扩展;开源的:s l u r m 是完全开源的 软件,用户可以很容易的在互联网上下载到它的源代码;良好的可移植性:代码 用c 语言编写,适用于各种版本的u n i x 操作系统。s l u r m 提供良好的插件机制, 第3 页 国防科学技术大学研究生院t 学硕十学位论文 可以实现对各种类型插件的支持,如检查点插件、作业调度插件等等;另外, s l u r m 具有良好的可扩展性、容错性、用户认证安全机制,并可以支持多种网络 连接方式,提供了非常简单、友好的管理员操作功能。 1 2 1 3l o a d l e v e l e r l o a d l e v e l e r l 2 5 是i b m 开发的成功地运行在i b ms p 2 集群系统上的资源管理系 统。l o a d l e v e l e r 相当于一个任务调度器,提供了有效执行串行或并行批作业的能 力,同时允许用户在同构或异构的集群系统中提交批处理交互式作业。它支持多 种主流u n i x 平台,提供命令行和g u i 两种方式进行人机交流。l o a d l e v e l e r 能优 化选择合适的机器给要执行的作业。 1 2 1 4l s f l s f 9 是加拿大p l a t f o r m 公司研制的工作站网络模式的商业集群资源管理软 件,主要用于网络资源管理和网络资源负载均衡管理,使用户能充分利用分布式 异构网络环境中的各种资源,从而扩展计算能力。l s f 支持多种操作系统,支持 批处理交互式、串行并行作业,能够自动、全面地收集负载和资源信息,具有良 好的容错性,提供多种调度策略、进程迁移和断点检查功能等;l s f 因其功能强 大而得到广泛的应用,它不仅用于科学计算,也可用于处理企业事务。但是l s f 系统还没有能够实现检查点的自动恢复,另外在故障的检测、诊断功能方面,仍 有一定的局限性。 1 2 。1 5j o s s 曙光集群作业管理系统j o s s 作为我国自主开发的一个资源管理系统,在设计 和实现时都根据曙光3 0 0 0 的设计原则进行,充分利用了曙光3 0 0 0 系统的优势, 而且在系统的用户界面、可扩展性及调度策略的选择方面都作了很好的努力,力 图使它成为一个成熟的集群资源管理系统。但是它存在一些不足之处,例如系统 未提供检查点操作和进程迁移功能;不能挂起运行中的作业,因此在作业运行过 程中发生异常时,无法重新调度,安全性不高。 1 2 2 基于资源管理系统实现容错技术 高性能计算系统中的资源管理系统是系统软件的重要组成部分,它可以根据 用户的需求,统一管理和调度高性能计算系统的软、硬件资源,保证用户公平合 理地共享资源,形成对用户透明的单一管理系统,提高资源的利用率和吞吐率, 从而达到更高的总体性能,并负责进行作业迁移、节点增加或减少后的系统重构 等功能。 检查点作为面向恢复的技术,被广泛应用于高性能计算资源管理系统中,实 第4 页 国防科学技术大学研究生院t 学硕十学位论文 现作业的容错功能,避免了大量的重复计算时间和资源浪费。另外,通过将检查 点技术集成到资源管理系统中,可以进一步增强资源管理系统的功能,通过资源 管理系统的资源分配、作业调度功能,可以给检查点技术的实现提供更高级的平 台,增强了检查点技术在高性能计算系统中的容错、资源抢占、作业调度等方面 的功能。 对个资源管理系统的检查点应用方面进行评价,主要看系统是否提供了检 查点操作的功能,以及支持何种类型的检查点操作。本论文列举了如下几个当今 颇具代表性和影响力的资源管理系统:p b s ,c o n d o r ,l s f ,l o a d l e v e l e r 和国 内曙光公司开发的集群资源管理系统j o s s 。其中p b s ,c o n d o r 是研究产品, l s f ,l o a d l e v e l e r 是商业软件。除p b s ,j o s s 外,都提供了有限的检查点操作 和进程迁移功能,其中尤以c o n d o r 的检查点功能实现得较为全面。l s f 提供了 内核级、用户级和应用程序级的断点检查功能,实现了良好的容错性,在网络或 系统故障修复时,保证作业能够继续运行;c o n d o r 提供了用户级检查点功能, 用户只需与库函数重新链接便可使用c o n d o r 提供的检查点和进程迁移功能。 以上介绍的几种高性能计算资源管理系统都在各自的领域得到了一定的应 用,但是又都有各自的局限性。在检查点设置和自动恢复方面,开源的几种系统 如o p e n p b s 做的都还不够完善。l s f 在容错性方面具有较大的优势,但是也没有 能实现检查点的自动恢复和故障分类检测、分析。所以我们需要选择一种开源的、 有良好可扩展性、实现相对简单的资源管理系统,针对我们具体应用需求,进行 自动恢复、故障检测等功能扩展。 1 3 主要工作和创新 课题的目标是研究和开发高性能计算系统中的作业自动容错技术,实现系统 故障自动检测与作业检查点自动设置与恢复功能,从而有效地提高系统可用性。 在对当前主要的高性能计算资源管理系统及其容错功能进行深入研究与分析的基 础上,选择一种具有良好性能的系统,在其基础上进行容错功能扩展。本论文主 要工作和创新点有以下五个方面: 第一,通过对当前常用的高性能计算资源管理系统进行研究分析,本论文选 择s l u r m ( s i m p l el i n u xu t i l i t yf o rr e s o u r c em a n a g e m e n t ) 作为原型系统,对其体 系结构、源代码进行深入学习研究,熟练掌握系统的安装、调试、使用,深入理 解重要数据结构、作业执行流程、系统功能接口等,为下一步对原型系统的功能 扩展工作打下基础。 第二,深入研究当前容错关键技术,针对当前高性能计算系统中容错功能的 不足,提出了基于资源管理系统的作业自动容错框架,包括故障的自动检测模块 第5 页 国防科学技术大学研究生院工学硕士学位论文 及并行作业的自动c h e c k p o i n t r e s t a r t 机制。 第三,研究现有的故障检测与诊断技术,提出了高性能计算系统中基于节点 组件的故障检测模型,对模型中关键技术进行研究与设计,结合现有的高性能计 算系统中故障检测技术,对该模型进行了评价。 第四,研究现有的并行作业检查点技术,提出了s l u r m 中基于作业的自动 c h e c k p o i n t i 也s a r t 机制。在s l u r m 原有检查点支持的基础上进行改进和扩 展,设计并实现了并行作业的自动c h e c k p o i n t 瓜e s t a i 订体系结构,结合现有 的检查点库技术,实现了并行作业的自动周期性检查点设置与自动恢复功能。 第五,在集群系统中,采用n a s 并行应用b e n c h m a r k s 对设计的容错系统进行 功能测试。测试结果显示,该系统有效地实现了作业检查点的自动设置与恢复功 能,增强了系统容错性,减少了作业重复执行时间,从而节约了大量的计算资源。 另外,在虚拟机系统中对系统性能进行测试。测试结果显示,系统检查点设置及 恢复过程的时间开销较低,检查点文件存储开销较小。 以上工作中,基于检查点的作业自动容错框架设计、基于节点组件的故障检 测模型的研究,以及并行作业的自动c h e c k p o i n t i 也s t a i 汀机制的设计与实现 是课题要解决的核心问题。 1 4 论文结构 本文作为工作的一个总结,全文共分为六章。 第一章,首先说明课题的研究背景及意义,然后在介绍国内外相关研究的基 础上,概括本文的主要工作和创新,最后给出文章的组织结构。 第二章,研究高性能计算系统中容错关键技术,主要包括故障检测技术的研 究、面向恢复的计算技术研究、检查点技术研究以及并行应用同步机制研究,为 高性能计算系统中容错技术的设计提供基础。 第三章,研究原型系统s l u r m 的特点及体系结构,并对s l u r m 中作业执行 过程及s l u r m 中原有的容错设计进行介绍。针对当前高性能计算系统中容错技 术不足,提出了基于资源管理系统的作业自动容错框架,对该框架的特点以及流 程进行分析,并对其体系结构和主要功能模块进行介绍。 第四章,针对现有高性能计算资源管理系统中故障检测功能不完善的问题, 对当前主要的故障检测技术进行深入研究,提出了高性能计算系统中基于节点组 件的故障检测模型,应用基于组件的故障检测机制,设计了高性能计算系统中基 于节点组件的故障检测体系结构。 第五章,在深入研究当前检查点技术及并行作业检查点功能的基础上,提出 了高性能计算资源管理系统中基于作业的检查点机制,设计了并行作业的自动 第6 页 国防科学技术大学研究生院t 学硕十学位论文 c h e c k p o i n t i 迮s t a r t 机制,对该机制中的关键技术进行研究和设计,主要包 括基于作业的检查点机制、并行作业同步机制以及检查点文件管理机制,并对系 统流程及相关控制策略进行介绍。 第六章,介绍了资源管理系统中基于检查点的作业自动容错系统的具体实现。 主要包括相关作业数据结构的扩充,检查点功能a p i 的设计与实现,作业的周期 性自动检查点设置与自动恢复的具体实现。在测试平台上,从功能和性能两个方 面对实现的系统进行测试,并对测试结果进行分析。 第七章,概括全文,总结课题所做的工作及研究成果,并对进一步的研究进 行展望。 第7 页 国防科学技术大学研究生院t 学硕十学位论文 第二章高性能计算系统中容错关键技术研究 高性能计算系统的应用越来越广泛,对提高系统可用性的需求日益紧迫,因 此高性能计算容错技术的研究与开发得到了越来越多的重视。本章对容错相关技 术的当前研究现状进行研究。 r o c 作为面向故障恢复的技术,从计算机诞生之日起就引起了人们的重视, 目前其思想更是在高性能计算系统中得到了广泛的应用。故障检测技术致力于在 故障发生后尽快地对故障进行定位,降低故障造成的损失,有效地提高系统容错 性能。另外,针对当前高性能计算系统及其应用规模日益大型化的特点,检查点 技术保存作业状态至检查点文件,并在系统发生故障后实现恢复,避免了故障导 致作业从头执行,显著地改善了高性能计算系统的可靠性及可用性。目前检查点 技术的研究取得了一系列显著成果,并在高性能计算系统中得到了有效应用。 2 1 故障检测技术研究 在当前的高性能计算系统中,系统结构及应用的规模日趋大型化,各种软硬 件故障种类繁多,且表现出的症状具有一定的相似性及交叉性。因而高性能计算 系统中的故障检测成为一项比较困难的技术,但是仍然取得了一定的研究成果。 当前应用比较广泛的高性能计算资源管理系统,如p b s 8 1 ,l s f 9 1 ,s l u r m 1 0 1 等,都 提供了一定的故障检测功能。常用的故障检测技术主要基于心跳信息检测和系统 定时巡检两种方式l 4 4 j 。 l 、心跳信息检测 心跳信息( h e a r t b e a t ) 3 9 】基于监听机制,节点通过互联通道周期性地对外广 播本节点的健康状态,并接受其他节点的健康状态。心跳信息检测指的是各个节 点周期性地发送和接收本节点和其它节点的心跳信息,根据心跳信息的情况判断 当前系统的工作状态。当发现心跳信息异常或心跳信息超时,则采取相应措施, 保证系统能够正常地连续工作。心跳信息检测技术中一个关键问题即检测周期的 设置。设置的周期时间过短,检测过于频繁,将占用较多的系统资源,影响系统 的运行性能;设置的周期时间过长,则检测会比较迟钝,或者错过一些瞬时故障, 影响故障检测的时效性,最终影响到整个系统运行的正确性。 2 、系统定时巡检 系统在正常运行过程中执行故障检测程序,周期性地对系统软硬件工作状态 进行巡检,得到整个系统的健康报告。巡检的结果可以作为心跳信息的主要内容 传递给其它节点,也可以作为本机工作状态转换的判定条件报告给系统管理员。 第8 页 国防科学技术大学研究生院工学硕+ 学位论文 系统巡检技术的关键问题有两个:一是故障检测覆盖率,二是故障检测判定 阈值的设定。故障检测覆盖率是影响计算机系统可靠性的重要因素。检测系统中 尽可能多的潜在故障点,对于提高系统可用性具有直接的意义。但是随着故障检 测覆盖率的提高,检测的难度和开销也相应增大。因此应在两者之间进行权衡, 选取折中的方案。故障检测的判定阈值的设定为判定检测出的异常情况是否属于 系统故障提供了标准。判定阈值的设定也是故障检测技术的一个难点。阈值过宽, 会造成故障的漏判,从而影响系统的可用性;阈值过于严格,又可能造成故障的 虚判,从而增加系统的故障处理开销,甚至会因为对一些正常过程的误判导致系 统无法正常运行。 高性能计算系统中一般包括两种类型的故障,分别是永久故障和瞬时故斟4 6 j : 永久故障是由于结点断电、硬件故障等原因导致某结点不可再用:瞬时故障包括 瞬时硬件问题、操作错误等,大部分瞬时性的功能失常虽然基本上是与硬件相联 系的,但却往往通过类似于控制流或指令错误的软件错误表现出来。针对不同的 故障类型一般采用不同的检测方法: 针对系统永久故障,一般采用心跳信息检测技术,由系统管理进程周期性 地向各结点发送检测消息,各结点收到检测消息后返回应答消息,若在一 定时间内管理进程没有收到此消息,即认为该结点发生了故障。 而系统瞬时故障可被操作系统核心错误检测机制检测到。一旦发现这种故 障,有关进程将被系统核心信号杀死。用户任务检测模块可利用用户进程 号来获得该进程退出状态值,由此来确定进程是正常退出,还是由于发生 瞬时故障而引起的异常退出。 2 2 面向恢复的计算技术研究 2 2 1r o c 技术概述 评价计算机系统可用性主要通过两个参数:系统两次故障之间的平均时间间 隔,即平均无故障时间( m t t f ) ;系统从故障中恢复所需要的平均时间,即平均 恢复时间( m t t r ) 。提高系统的可用性可以通过两种方式:第一种是设计具有高 可靠性的系统,致力于减少或杜绝故障的发生,提高系统的平均无故障时间 ( m t t f ) ;第二种是面向恢复的计算技术( r o c ,r e c o v e r yo r i e n t e dc o m p u t i n g ) , 其思想是允许故障的发生,并使系统在故障发生后尽快地实现恢复,从而降低系 统的平均恢复时间( m t t r ) 。根据可用性的定义【5 1 : a v a f l a b f ,f t y = 砀两m t 丽t f mtt + ml | k 第9 页 国防科学技术大学研究生院t 学硕士学位论文 对上式进行变换得到: k m t t f 册t f k m t t f + m t t r k n l f + l a c r r r k 可见,系统平均无故障时间提高为原来的k 倍,对系统可用性的改善与系统 平均修复时间减小为原来的1 k 是等效的。另外,要从根本上避免错误的发生是不 切实际的,特别是在计算机服务领域,人为误操作造成的系统故障占很大一部分, 而且要求系统管理员不犯错误是不现实的【6 1 。因此研究r o c 技术对提高计算机系 统的可用性更有意义。 2 2 2u n d o 模型技术 r o c 技术中应用最广泛的一个方面即系统级u n d o 模型方法【5 】,其主要思想是: 在系统正常运行过程中,通过一定的方式记录系统的历史状态,当故障发生时将 系统恢复到之前保存的某时刻的状态。系统记录历史状态可以通过逻辑和物理两 种方式。 逻辑方式 系统通过记录操作指令表示历史状态,并通过调用历史指令的反运算或改变 初始指令使其具有反向作用实现u n d o 操作。另外,用户可以通过在恢复过程中插 入新的指令实现可定制的u n d o 操作。逻辑方式的实现需要满足以下假设:每条历 史指令都要有反向指令;每条指令都可以准确无误地执行。 物理方式 系统将历史状
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年绿色金融市场政策支持体系构建与绿色金融投资策略研究报告
- 重庆市实验外国语学校2025-2026学年高三上学期9月月考生物试题(有答案)
- 安健环与文明施工管理协议
- 巡检光伏区注意事项
- 屋顶光伏逆变器课件
- 输液空气栓塞课件
- 电商平台存货抵押融资服务合同
- 小鸭上桥课件
- 农业用地磅购置与运营维护合同
- 输液原则注意事项
- GB/T 21063.1-2007政务信息资源目录体系第1部分:总体框架
- GB/T 14977-2008热轧钢板表面质量的一般要求
- GA/T 1661-2019法医学关节活动度检验规范
- 小学生(成语故事100个)讲解
- 楷书毛笔课件
- 急危重症患者的抢救应急处理预案及流程
- 班主任基本功大赛评分标准
- 额窦手术课件
- 财务代理记账报税合同模板
- HY_T 0330-2022 海滩养护与修复工程验收技术方法
- 十四条经络养生课件
评论
0/150
提交评论