曙光4000A可用性测量与应用可完成性计算_第1页
曙光4000A可用性测量与应用可完成性计算_第2页
曙光4000A可用性测量与应用可完成性计算_第3页
曙光4000A可用性测量与应用可完成性计算_第4页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、曙光4000A可用性测量与应用可完成性计算* 本研究得到了中国科学院知识创新工程重要方向项目新一代机群关键技术研究(KGCX2-SW-116)的支持由渊霞1,2孟丹1薛刚31(中国科学院计算技术研究所国家智能计算机研究开发中心 北京 100080)2(中国科学院研究生院 北京 100039)3(上海超级计算中心技术支持部上海201203)通信作者:由渊霞,yyx摘要:本文介绍了对大规模计算系统曙光4000A进行可靠性与应用可完成性评价的工作。文中介绍了在生产型系统中收集分析数据的方法,建立了可用性和可完成性模型,最后给出曙光4000A的可用性与应用可完成性指标计算结果。关键字:大规模计算系统,

2、可用性,应用可完成性Evaluation of Availability and Application Achievability in Dawning4000AAbstract: This is an evaluation work on the availability and application achievability of Dawning4000A. This paper introduces the method to collecting and analyzing error data in productive environment, and established

3、 the availability and achievability models. The availability and application achievability of Dawning4000A are calculated based on this model and collected error data.Keywords: Large-scale Computing System, Availability, Application Achievability51. 引言大规模计算系统的可靠性测量与评价,是一项十分重要的工作,对于评价机群质量,指导后续提高可靠性的工

4、作,以及构建更大规模的系统,具有极大的意义。然而近年来,大规模生产型计算系统的可靠性测量评价工作明显不足。随着计算系统规模的不断增大,应用需求的不断提升,迫切需要研究现有生产型系统的可靠性。除此之外,用户也越来越关心大规模计算系统的另一项指标,即,应用在特定系统,特定配置下,能够在一定时间内正确完成的能力。定义为应用可完成性。这项指标目前研究的比较少,且缺乏适当的评价模型。评价大规模计算系统的可靠性、可用性与应用可完成性,主要工作包括:通过可靠通信机制实现可靠性数据的收集,建立可靠性数据库并对数据进行有效分析,建立可靠性评价模型,描述应用的特征,建立应用可完成性计算模型,推导可靠性估算公式,计

5、算节点、整机可靠性和应用可完成性,描述可靠性随着系统配置不同而变化的规律等等。本文在528节点规模的曙光4000A系统上,建立了故障和可靠性数据收集系统,计算了大规模计算系统的可用性,揭示了应用可完成性的规律。计算过程中使用到的基本参数如下:n:所有节点个数k:状态为活动的所有节点个数:失效率,一般远小于0.01%:修复率,一般远大于99.99%。2. 机群可靠性测量环境的建立2.1. 概述可靠性数据收集系统建立过程从2005年6月1日至2005年8月1日。目标系统是安装于上海超级计算中心,并进行正常生产运行的曙光4000A。其节点规模为,正常运行的计算节点448个,存储节点16个,备用节点6

6、4个。因为系统软件可根据用户的需要进行选择,因此本研究只考虑硬件故障的情况。由于要从生产型系统中收集数据,在充分考虑用户利益的前提下,所使用的方法应该遵循以下原则:l 系统变更最少l 在网络带宽、IO能力等方面,对用户应用的性能影响最小l 保证在某些节点出现故障时收集到尽可能多的故障前数据2.2. 可靠性数据测量平台的建立方法基于以上原则,我们选用Linux操作系统中已有的SYSLOG机制,并进行最简单的配置。方法如下:1. 根据节点逻辑分区和应用部署分区的具体情况,选择一个或多个分区作为可靠性日志采集的对象(称为客户机),并采用百兆管理网络作为SYSLOG的传输网络,这样将不会影响到计算节点

7、对存储节点的访问2. 再选择一个管理节点或任务不算重的节点作为日志服务器logserver3. 对这些客户机和日志服务器进行时钟同步4. 在logserver上运行install.client脚本,向待收集日志的所有客户机中的syslog.conf中增加*.warning logserver,并重新启动客户机的syslogd5. 用远程方式启动日志服务器上的syslogd以上是可靠性数据搜集的初始化阶段。在系统运行过程中,我们还应该进行以下工作:l 每天用logrotate进行日志转储l 客户机中出现节点崩溃或不可用等情况时,记录起始时间,在日志中进行标记,并在客户机节点恢复之后搜集其本地日志

8、信息l 对每次系统异常的原因进行分析2.3. 可靠性数据测量对系统运行时带宽和存储的影响估计为了在日志收集启动之前,预测日志收集对网络带宽的影响,可根据系统运行的实际情况,选择若干具有代表性的节点,根据运行过程中产生的本地日志,估算日志规模和不同时段的带宽。对于曙光4000A而言,根据系统管理员的经验,存储节点产生的日志量较多,因此选择连续四周内存储节点的日志作为统计和估算的基础。表1是四周内全部16个存储节点产生的日志总量和网络流量统计。由此表可见,在全部528个节点上收集日志数据,不会对系统带宽和存储造成明显压力。3. 机群可靠性的计算方法3.1. 模型描述机群可靠性测量的一般模型可描述为

9、n个节点,其中有k个活动节点3,如图1示。图1中:PD表示Power-Dog,监视每个节点是否发生故障,在曙光4000A中是各个节点上的监测部件;WD表示Watch-Dog,在曙光4000A中是指心跳系统;SS表示Switching System,指应用重做、Checkpoint等;带数字的圆形表示节点,n=464,k=64。3.2. 描述机群可靠性的Markov链曙光4000A是同构可修复系统,各个节点的故障率、修复率完全相同。目前,我们使用连续时间Markov链作为描述机群系统可靠性的工具。假设,节点故障率为,修复率为。整个机群的连续时间Markov链可建立如图2所示。Markov链的常规

10、解法是运用Chapman-Kolmogorov方程,假设P(t)是一个向量,它的元素Pi(t)表示系统在t时刻处于i个节点失效的概率,M是转换矩阵,在描述P随时间演化的差分Chapman-Kolmogorov系统方程中,M代表方程的系数。Chapman-Kolmogorov方程如下所示:根据图2所示的n+k型机群系统可靠性Markov链,可列出描述机群系统可靠性的Chapman-Kolmogorov方程如下:P0(t)= *P1(t)-n*P0(t), i=0Pi(t)=n*Pi-1(t)+*Pi+1(t)-(n*+)*Pi(t), i=1, n-kPi(t)=(i+1)*Pi+1(t)+*P

11、i-1(t)-(i*+)*Pi(t), i=n-k+1, n-1Pn(t)=*P1(t)-*P0(t), i=n(0)作为解该方程的初始条件,我们可以认为机群的各个节点最初没有故障,即:P0(0)=1, P1(0)=Pn-1(0)=Pn(0)=03.3. 可靠性指标的定义曙光4000A是对外服务的系统,必须随时保证有一定的资源可分配给应用程序。同时,由于机群属于可修复系统,其可用性指标比可靠性更准确。因此,该机群的可用性,从应用程序的角度来说,应该定义为系统中至少有n个节点无故障的概率,即:(1)MTBF也是衡量机群可靠性的重要指标。其定义为:(2)应用可完成性和应用可用性密切相关,但不完全相

12、同。其相同之处在于,应用可完成性指标侧重从用户体验的角度,衡量机群系统完成应用计算的能力;而应用可用性,是从机群系统的角度,评价机群可供应用使用的能力。应用可用性只取决于机群系统的可靠性和体系结构,而应用可完成性与应用特征、应用规模、用户容忍度等相关。对于运行时间超长,或是一定要在某个时刻之前执行完毕的应用程序而言,应用可完成性指标具有不可替代的作用。要确定应用可完成性,除了机群可靠性自身的指标外,应用的规模,期望运行的时间,以及应用在运行过程中,碰到节点故障后可能出现的应对行为,都要考虑在内。假设,稳定运行的大规模计算系统具有稳定的故障率和修复率,应用正常运行需要f个节点,并在时间T0内完成

13、。而为了应对可能出现节点故障的情况,除了配备检查点恢复机制,还要考虑应用程序可能采取的降级运行模式。即,正常运行需要f个节点,一般情况下应配备n(n>f)个节点,以便在某些节点出现故障时使用;如果系统出现的故障太多,导致没有f个节点可用,那么应用可只在k(k<f)个节点上运行,待正常节点数恢复,再升级回在f个节点上运行。其中,(n+k-f)/2定义为冗余度d。假设应用运行所需的总计算规模可定义为T=f×T0。应用可完成度定义为,应用程序无故障时能够完成的最小时间T0,与存在节点故障和节点冗余的情况下,应用程序能够正确完成的最小时间之比:(3)3.4. 可靠性指标的计算方法

14、为了避免直接用Laplace变换求解Chapman-Kolmogorov方程,必须将描述系统失效概率的微分方程进行适当的变换。通过1中的方法,得到:(4)一般情况下,都有<<。因此,根据2,有:(5)并且:(6)其中:(7)由于:结合(4),并带入(3),可得C。4. 曙光4000A组件故障测量4.1. 测量方法组件故障的测量方法,是结合事件日志与系统管理员维护记录,从事件日志判断系统崩溃前发生的异常现象,从系统管理员的维护记录分析出现故障的原因。当某组件已损坏或老化,必须更换组件才能使节点重新正常运行时,为该组件计算一次崩溃型故障。而可通过重启恢复,或可等到计划维护期间恢复的故障

15、,则不算作崩溃型故障。4.2. 概要测量结果系统中的组件非常多,而出现故障并导致节点不可用的组件则相当局限。其中l 开始时间:2005年7月1日l 结束时间:2006年7月1日l 故障总计:44次l 其中:n 节点崩溃次数:14次n 节点不崩溃次数:30次4.3. 详细测量结果表表2中,内存和存储的故障率较高,但同时这两种组件的容错机制也比较充分,因此能够较好地保障节点运行,使节点不至于崩溃。系统管理员有足够的时间,可以在计划维护期间再进行设备更换,故而不影响节点和整机的可靠性。Bare-bone故障可能导致节点不断自动重启或无法启动。Myrinet卡故障可能导致应用程序完全无法运行。电源故障

16、可能导致节点突然断电。CPU故障可能导致CPU不能运行,NUMA结构中该CPU临近的内存无法识别等。Memory故障,如果是崩溃型,可能使得内存访问发生错误,从而导致系统崩溃。5. 曙光4000A相关指标计算5.1. 节点可靠性参数在3.3节所列出的崩溃型故障中,每一种的出现,都会导致节点不可用,且必须更换组件。在这种情况下,节点的可靠性模型应该是典型的串联模型。对于非崩溃型故障,由于可以延迟到系统定期维护时更换,因此对系统正常运行不会产生影响,不纳入可靠性计算的范围。因此,曙光4000A的节点可靠性为:R=99.99689%×99.99987%×99.99987%

17、5;99.99948%×99.99786%99.99397%同样,可知:失效率0.00623%修复率取决于节点修复能力。根据曙光4000A的运行情况,所有的节点故障都是可以立即修复的。因此修复率为100。5.2. 整机可用性与MTBF根据公式(5)、(6)、(7),以及上一节计算得到的参数,可得整机可用性和MTBF随备用节点个数变化的规律如图3和图4所示。图3 整机可用性图4 整机MTBF(天)5.3. 应用可完成性应用可完成度定义为,在特定故障率,特定修复率,限定节点数的情况下,特定计算规模T的应用程序,按照一定的并行率f,无故障时能够完成的最小时间T0,与存在节点故障和节点冗余率

18、d的情况下,应用程序能够正确完成的最小时间之比。在针对曙光4000A这一特定计算系统的分析中,应用可完成性成为应用计算规模,应用并行度,和配置冗余率的参数,而一般情况下,用户能够估算应用计算规模,并根据节点规模确定并行度,因此,只需要计算出,配备多大冗余率才能在规定时间内完成任务。根据3.4节的算法,得到如下所示的冗余度随计算规模和并行度变化曲线:图5从图中可以看出,在曙光4000A当前故障率之下,不大于128个计算规模的应用程序,最多只需要一个冗余节点就可以保证可完成性。当应用计算规模大于128个节点时,就需要更大的冗余度才能使应用正常完成。当没有更多冗余节点,且允许应用运行时间延长的情况下

19、,可采用降低并行度的方法,比如,原本需要256个节点,一天时间来运行的应用,可降级为128个节点,两天运行。如下图所示:图6由上图可见,对于与曙光4000A同等故障率的系统而言,假定不提供节点动态冗余的能力,则,不管应用自身的计算规模有多大,保证应用可完成性的最大并行度只能约为128。6. 相关研究12通过简化马尔科夫模型,推导了计算冗余计算系统可靠性和可用性的速算公式,然而,这些公式并不能直接用于计算大规模计算系统的可用性,因为,大规模计算系统与荣誉计算系统的冗余程度不同,且,大规模计算系统能容忍的失效节点数目远远低于冗余计算系统。3建立了机群的马尔科夫模型,但对于更大规模的模型,没有给出计

20、算结果。4是国外关于大量大规模计算系统可靠性数据收集和分析的工作,然而对于国内,尤其是商用组件计算系统的可靠性,还有待进一步研究。7. 结论本文在故障信息收集的基础上,探讨了大规模计算系统可靠性和应用可完成性建模与评价的问题。并以曙光4000A为例,进行了验算。从本文入手,将进行更深入的可靠性模型和评价研究,如探讨检查点开销对于应用可用性的影响、以及异构机群可靠性建模问题。8. 致谢本研究得到上海超级计算中心技术支持部经理魏玉琪,系统管理员薛刚的大力支持。没有他们的积极指挥和协调,没有他们的热心帮助,没有他们严肃认真地管理,本研究是无法完成的。图表图1 带冗余节点的大规模计算系统模型图2 带冗

21、余节点的大规模计算系统可靠性MARKOV模型时间段2005年5月22日2005年5月28日2005年5月29日2005年6月4日2005年6月5日2005年6月11日2005年6月12日2005年6月18日日志总量(Byte)11,605,16038,017,1541,873,1139,197,791存储节点周日志平均流量(Byte/s)19.1962.863.11.52全部节点周日志平均流量估计(Byte/s)633.272074.83102.350.16表1 故障数据量估计故障类型故障组件组件数量故障次数(k)故障率部件MTBF(天)可靠性R崩溃型Bare-bone52860.00311%3212099.99689%CPU211210.00013%77088099.99987%Memory-chip422420.00013%77088099.99987%MYRINET卡52810.00052%19272099.99948%电源51240.00214%4672099.99786%非崩溃型存储144110.02093%477899.97907%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论