可靠性与可用性_第1页
可靠性与可用性_第2页
可靠性与可用性_第3页
可靠性与可用性_第4页
可靠性与可用性_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、以可靠性为代价逐渐增加可用性Dan Byron (March 2002一个用户考虑一个系统的可靠性是当他们需要时看这个系统是否可用和可操作,增强系统可用性的一个方法是添加更多的组件到系统,但是组件数量的增多,增加了系统的故障率,因此从工程的观点来看减小了可靠性。这篇文章调解可靠性和可用性之间的明显的不和谐,且研究冗余,把它作为增加可用性的一种方式。从工程观点来说,可靠性是指一个系统或设备在规定的条件下(笔记本电脑、IT中心指定的期限内(例如:三年完成一个必要功能(持续运转的能力,从用户的观点出发,一个系统是否可靠取决于当用户想使用它时,它是否可以正常运行。这个运行的可靠性被更恰当地定义为可用性

2、:对于需要使用它的任何时候,系统都是可用的,且是适合的。虽然这种情况是一个理想状况,但一个高可用性系统不要求高可靠,可靠性如何被评定的一个测试为了解可靠性和可用性之间的关系提供了一个基本原则。MTBF 作为可靠性的一个测量标准一个系统里的组件、子组件、设备或部件有它们固有的可靠性,经常用平均故障间隔时间(MTBF来表示,一个系统固有的可靠性是指系统中所有组件的非可靠性(故障率 总和的一个函数。考虑一个MTBF为100,000小时的集成电路,如果把这个设备放到一个电路里,这个电路还包含一个MTBF 为100,000小时的LED,就此而言这个电路的可靠性不是相加,它的MTBF不是200,000小时

3、。为了确定这个电路的MTBF,首先要转换每个组件的MTBF为它相应的故障率(它的MTBF的倒数: 用这个故障率总和的倒数计算出系统(电路的MTBF:= 1/0.0002 = 50,000 小时这个方法可以应用于任何串联性质的系统:一种组件的输入依靠另外一个组件的输出,任何设备的故障将会导致整个系统的一个故障。直观地看,一个串联系统附加的设备越多,结果MTBF就越低,或者说故障率就越高。这个提论是寻找交替的设计途径的基础,例如:容错、故障恢复或冗余,在一个硬件故障出现时,这些方法设法保持一个系统运行,满足客户的可靠性定义。使用和平均数的影响考虑一个商业的台式电脑设备,一个设计组计划使用一个MTB

4、F为10,000小时的可靠性电源,在放置这个电源到一个客户系统之前,这个设计组需要考虑两个附加因素:预计的客户使用的可靠性和自然的可靠性。一个典型的用户能够操作一个台式电脑的时间为:一年50个星期,一个星期5天,一天12小时,每年计划使用:5 x 50 x 12 = 3,000小时。如果这个机器有一个保修期,或者三年期内硬件更新,那么,一个MTBF为10,000小时的电源似乎足以:3 年x 3,000 小时/年= 9,000 使用小时,这个时间是小于电源的10,000小时的MTBF。因为可靠性数据本身的自然性质,这个假设是值得怀疑的,MTBF是所有设备的一个平均值,虽然电源的MTBF为10,0

5、00小时,但一些电源的MTBF在起初的几个小时是不足10,000小时的,有些电源则不低于100,000小时或者更多,然而在全部设备中,这些电源的MTBF平均数是不足10,000小时的。10,000 小时MTBF的另一个问题是它代表机器运转的小时,不是日历时间的计时,也就是说,10,000 个小时是累积一台机器的运转时间不超过三年,就象前面的案例,或者用10,000 部机器设备每台运转一个小时。考虑一个2,000 位职员的公司,每人使用一个系统,每个系统包含一个MTBF为10,000 小时的电源,这个类型的电源的故障率每小时为0.0001,两千台机器运转每小时的故障率为每台机器的故障率0.000

6、1相加,即为每小时0.2,为了计算一天12个小时的故障率,把每个小时的故障率相加,在这个特别的公司环境里,每天的故障率为:12小时/每天x0.2=2.4 。时间影响指数这些问题的加剧是事实,这个事实就是一个系统的可靠性随时间而变化,下列等式列出了几乎每个可靠性函数的基本成分,它表示一个电系统的可靠性指数随时间而减小R = e-(t/MTBF其中R = 系统使用的可靠性e = 系统日志t = 测试的时间MTBF = 故障率的倒数当t改变时,可靠性R剩余部分也改变,例如:具有10,000小时MTBF的一个电源的可靠性在运转的第一年结束时是74.08%,也就是说总可靠性的25.92%已经失去。R =

7、 e-(3000/10000 = e-0.3 = 0.7408在第二年结束时,这个电源剩余的可靠性是54.88%,第三年底减少到40.65%。通过增加设备(冗余改进可用性高故障率使用户痛苦,因为每个电源的故障导致一个桌上型电脑装置不能使用,所以系统可以容忍一个不影响使用的故障(增加可用性,设计组考虑附加更多的硬件(通过增加系统的故障率降低可靠性。设计组决定为这些用户使用冗余电源,他们将配置两个电源,以便一个出现故障时,另一个向系统提供所有的用电。在这个例子里,假设电源是均分负载,且任何逻辑开关、信息交换、错误报告等等都是完美的。其余的惟一任务就是从可用性前景出发,确定如何做得更好,配置冗余电源

8、将优于单一电源的配置。均分负载设备的可靠性当两个电源中的一个发生故障时,附加的压力出现,均分负载组件的故障率增加,考虑均分负载电源的情形:当两个电源都在场,且都运行着,每个仅贡献系统电源的50%,当第一个电源出现故障时,另一个电源必须增加它的输出,提供100%的电能。电源中的一个组件所能承受的电流定额值是1安培(A,如果当两个电源共同运行时,它接受的电流仅为0.5A,此时这个组件将降低故障率。然而,当一个电源出现故障时,另一个电源中的组件将接受1A的电流,且要在这个状态下运行,直到发生故障的电源被替换。(降低组件电流定额值的指导方针,例如: Dell设计工程采用这些指导方针,防止电流定额值为1

9、A的组件在电路使用中电流达到1A。一个电源出现故障后,当用户的电源系统不再有冗余电源时,整个系统的可靠性将使用Markov分析计算,系统将在一种降低性能状态下运行,直到出故障的电源被替换或被修好。从Markov 模型观察(图1 ,当一个电源失效的时候和当它被替换的时候,整个系统的可靠性会发生改变。当一个电源出现故障时,可用性也受影响,因为系统没有了备份电源,所以不再能防止一个电源的故障,当出现故障的电源被替换的时候,且两个电源继续各自贡献50%的系统电源的时候,可用性返回到较高的水平。 图1、两个均分负载电源的状态图电源系统的可靠性有效地增加,每个电源从10,000小时到均分负载双电源的6,2

10、60,000小时,这个数字表示的时间是在第一电源被维修和被替换之前,第二个电源出现故障导致系统中断运转的时间,可靠性计算假定一位管理人在第一个电源出现故时接到故障通知且在8小时内完成维修。改进可用性对故障率的影响从一个可用性的观点出发,由于桌上电脑设备具有双电源冗余,双电源系统的可靠性明显地改进了系统的可用性(见图2,然而,设计组必须从故障率方面考虑成本。 图2、电源系统的剩余可靠性前面的一个例子说明:当每个系统包含一个MTBF为10,000小时的电源时候,电源每运转一个小时,它的故障率为0.2。在一个冗余系统里,因为系统有两个电源,它的故障率也加倍,只要一个出现故障的电源能够在另一个电源发生

11、故障之前被发现、隔离、移去和维修或替换,系统将保持运行(是可用的,因此符合客户的可用性定义。在PowerEdge 2550中的电源的可靠性提供一个"真实的世界"的例子,计算Dell PowerEdge 2550 的可靠性,选择这个产品出于两个原因:在一般的设备里,累计可靠数据的有效时间足够长,且可在单一电源或双电源配置中运转。设计一个电源具有指定的MTBF为400,000小时的,虽然电源真正的MTBF在实际使用中是高于这个值的,这个例子将使用指定的MTBF。在这个实例中,PowerEdge 2550 有一个总数超过的35,000台的系统,简单地考虑这个数为总数,且假设每个P

12、owerEdge 2550 在一个24 x 7 环境中运行。累计的电源或系统的使用时间是:24 小时/天x 365 天/年x 35,000 = 306,600,000 小时/年。只有当所有设备在单一电源配置中运行时,电源和系统值是相同的。给出的MTBF确定为400,000小时,或者故障率为0.0000025(MTBF的倒数,预期的故障数字被计算为306,600,000/400,000 = 766 或306,600,000 x 0.0000025 = 766,也就是说在单一电源配置里,一个电源出现故障将导致PowerEdge 2550不运行,一个总数为35,000台的系统中,将有766台设备预期

13、在第一年运转中将遭受此命运。每个MTBF为400,000小时的电源运行一年剩余97.83%的可靠性。对于很多客户来说,这个潜在的故障风险太高了,为了减轻这个风险。冗余电源是一个选择。在冗余电源的情况下,剩余的可靠性在年底从97.83%增到99.9997%,且MTBF(被视为可用性从200,000小时(两个电源每个为400,000小时增加到10亿小时,也就是说,虽然在双电源中每个电源预计每400,000小时出现故障(在整个系统里平均起来,但至少两个中的一个在10亿小时里是可用的。只有当如果系统(软件,后台诊断,状况监视活动等等类似的监控系统 通知一个操作员一个故障即将发生,而且操作员能够以持续的

14、方式替换这个电源的时候,MTBF 才增加到10亿小时。如果故障未被察觉或者系统不能产生任何故障通知,那么系统就不能从冗余中受益,第一个电源发生故障返回可靠性模型给一个串联系统,第二个电源出现故障将导致系统无法使用。冗余双电源MTBF的增加,预计系统终止运转的数量从766减少到小于1 (306,600,000/10,000,000,000 = 0.03,然而增加可用性带来了冗余、后勤、人员和与之相关的事情的成本,因为整个系统的电源数是加倍的,这样胜过在一年里潜在地替换766个出现故障的电源,一个管理人员在不影响使用的情况下可能需要替换1,533个电源,因为35,000个系统中的每个系统都有两个电源。在这个实例中增加可靠性Powe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论