大规模高性能计算系统主动容错优化方法研究_第1页
大规模高性能计算系统主动容错优化方法研究_第2页
大规模高性能计算系统主动容错优化方法研究_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大规模高性能计算系统主动容错优化方法研究近年来, 为了应对各应用领域飞速增长的计算能力需求 ,高性能计算 HPC(High Performanee Computing)系统的规模不断增大导致可靠性问题逐渐凸显 容错已成为新型HPC系统的必备能力。然而,系统规模增长导致故障率增加的同 时, 又会引起容错开销不断增大。如何解决容错导致HPC系统实际性能大幅下降的问题,已成为高性能计算面 临的主要挑战之一。 基于故障预测对可能出现的故障进行提前处理的容错方式被 称为主动容错。与被动容错相比 , 主动容错能够降低相关容错操作的执行频率 , 在容错开销 方面具备一定优势。随着HPC系统规模进一步增大,由

2、于缺乏高效的主动故障处 理方法 PA(Proaetive Aetion )和相应的优化策略 , 现有主动容错方法的开销依 然不理想。本文面向大规模HPC系统,对主动容错的开销优化方法进行了研究。本文的 主要奉献和创新点有 :1. 提出了一种基于预测故障类型的主动容错方法 PTFPF。针对PTFPF的优化问题,提出了开销平衡的PA选择策略OBPAS以及收益感 知的两级主动检查点存储策略 GTPCS由于HPC系统会发生多种类型的故障,且 目前尚不存在一种能够以较小开销处理所有类型故障的 PA,采用单一 PA的主动 容错方法的开销并不理想。由于超大规模系统的故障率很高 , 这种主动容错方法被用于此类

3、系统中时容 错开销较大。本文对主动协同CR和任务迁移相结合的主动容错方法进行了研究 提出了一种基于预测故障类型的主动容错方法PTFP F并提出了相应的优化方法。首先,针对预测故障类型失误问题对 PTFPF开销的影响,本文建立了 PTFPF 的性能模型,并基于模型提出了开销平衡的 PA选择策略OBPASSOBPAS通过对 不同PA的开销期望进行估计,使系统始终能够选择开销期望较小的 PA处理预测 结果。然后,本文针对PTFPF中检查点存储开销较大的问题,研究了多级主动检查 点存储方法 , 并针对预测引擎误判故障等级的问题提出了收益感知的两级主动检 查点存储策略GTPCS GTPC冷亡够估算存储不

4、同等级检查点可能产生的优化收益 和额外开销 , 并能够基于估算结果推导存储等级的切换时机。针对PTFPF的有效性评估说明:在预测引擎无法准确判断故障类型的情况 下,0BPASSh够降低PTFPF勺8%1 勺容错开销;系统物理处理器数量超过一百万的 情况下,PTFPF相比于现有主动容错方法最多能够降低约 20%勺容错开销。针对多 级主动检查点存储方法的有效性评估说明:GTPCS能够减少故障等级误判对两级 PTFPF容错开销的影响;系统物理处理器数量到达两百万的情况下,基于GTPC的 两级主动检查点存储方法能够进一步降低 PTFPF约12%勺容错开销。2. 研究了面向预测时间失真的主动非协同 CR

5、方法PUCRDg出了极小集消息 记录法MSL以及主动消息存储优化策略SPPM。由于潜在的多米诺效应问题,非 协同CR需要与消息记录方法配合工作。针对现有消息记录方法开销较大的问题 , 本文面向主动容错提出了极小集消 息记录法MSL并基于MSL提出了主动消息记录方法 PML MSL能够基于预测引擎 的定位能力,通过仅记录故障相关消息的方法减少消息记录开销。然后,为了进一步优化PUCR的容错开销,本文研究了 PML勺消息存储优化问 题,提出了一种主动消息存储优化策略 SPPMLSPPM通过估计不同消息存储方式对PUCR容错开销的影响,指导系统按需地调整消息存储方式仿真结果说明:MSL能够降低PML

6、勺83%勺消息记录开销;与HMPL 方法相比,基于MSL勺PML能够降低超过95%勺消息记录开销;相对于传统消息存 储策略,SPPML能够降低PUCR约6%勺容错开销。综合评估说明,在系统物理处理 器数量超过一百万的情况下,PUCRD勺容错开销比现有主动容错方法低约 25%3. 研究了统一主动时间冗余容错方法 UTPF提出了常用时间冗余PA的统一 性能模型UMTPA常用时间冗余PA的统一运算周期优化方法 UPOT以及面向PML 的UTPF最少分组策略MGSUP由于现阶段缺乏能够统一描述主动时间冗余容错 方法开销的抽象模型,本文基于层次化CR思路,研究了统一的主动时间冗余容错 方法UTPF并提出

7、了常用时间冗余PA的统一性能模型UMTPAUMTPAg用于三种常用的基于时间冗余的 PA主动协同CR主动非协同CR以及任务迁移。为了进一步优化UTPF的开销,本文提出了常用时间冗余 PA的 统一运算周期优化方法UPOTPUPOT通过模型微分的方法对UTPF的最优运算周期进行估计。虽然本文通 过研究发现PML的开销会随着分组数量的增加而降低,但由于增加分组数量会增 加故障定位失误的概率,并且UTPF的开销无法随分组数量的增加而线性降 低,UTPF不适合使用最大分组策略。为了平衡它们之间的关系,本文面向PML提出了 UTPF勺最少分组策略MGSUP MGSU通过对UTPF勺容错开销与分组数量之间的

8、关系进行评估,使系统能够在尽 量减少分组数量的情况下获得较好的开销优化效果。仿真结果说明:UMTPA能够较准确地描述三种时间冗余 PA的容错开销;UPOTP 能以较小误差估计常用时间冗余 PA的最优运算周期。此外,虽然基于MGSU获得 的分组数量G*v/sup的值较小,却能够有效优化UTPF勺开销。如果最大分组策略能够获得的优化效果为 1,那么UTPF通过G*v/sup 获得的优化效果超过0.98。综合评估说明,与PTFPF和PUCR方法相比,在系统 物理处理器数量到达两百万的情况下 UTPF能够分别获得约22呀口 17%勺开销优势。4. 提出了基于时间片和相关性表的稀疏表示方法 SRTC并提出了基于SRTC 的日志预处理方法SRCP0志预处理方法中过滤无效记录的准确率和召回率不 仅会影响事件路径法仿真实验中基于日志的事件路径的有效性 , 还会影响预测引 擎的虚警率和漏警率。针对现有日志预处理方法过滤准确率较低的问题 , 本文提出了改良的稀疏表 示方法SRTCSRTC不仅能够提高日志预处理方法的过滤准确率,而且能够保障过 滤召回率所受的影响很小。实验结果说明:相对于现有预处理方法,SRCP能够在过滤召

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论