诊断与容错技术1_第1页
诊断与容错技术1_第2页
诊断与容错技术1_第3页
诊断与容错技术1_第4页
诊断与容错技术1_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 4 6 1 容错技术与诊断技术 课程性质 计算机专业选修课前修课程 组成原理 操作系统 概率论南京航空航天大学计算机学院钱忠民qzm mail 2020 4 6 2 课程内容 第一章容错系统概述第二章可靠性的基本知识第三章可靠性的分析方法第四章冗余技术第五章马尔可夫模型分析法第六章软件容错技术第七章容错系统设计和典型的容错系统介绍第八章故障诊断技术存储技术及其他 2020 4 6 3 第一章容错系统概述 第一节可靠性是计算机系统的重要性能指标一般讲到计算机性能指标时往往只考虑 CPU功能 速度 如 主频 指令系统 包括CPU寄存器 寻址能力 寻址空间 存储系统 Cache 主存容量 组织方法 管理机构 外设配置和采用的总线等 2020 4 6 4 但是 随着计算机应用领域扩大出现了许多对可靠性有特殊要求的应用领域 对这些系统来说 可靠性是极其重要的性能指标 例如 1 工业 交通 航空 飞行控制计算机 一旦故障 有可能造成机毁人亡的严重后果要求在10 20小时飞行任务期间内失效的可能性低于10 9工业控制 如 核电站 化工厂的过程控制 如控制失灵会造成重大事故 2020 4 6 5 交通 如 铁路运输中的信号系统通讯 如程控交换机等2 商业 金融对信息的安全可靠有极高要求3 长寿命 高可靠应用 航天 人造卫星的通讯控制如 美国的STAR系统 SelfTestandRepair 保证在十年中可靠运行的时间 95 只允许短暂的停顿 比如几分钟 2020 4 6 6 这些领域对计算机的可靠性提出在正常条件下难以达到的要求 比如 市售的成品计算机的可靠性指标 MTBF 平均故障间隔时间 为300 10000小时 在10小时内可靠度仅0 997 0 999 故障可能为3 10 3 1 10 3 在运行10000小时时候 可靠运行的概率仅0 368左右 2020 4 6 7 第二节容错技术与非容错技术 提高可靠性的方法有两种 1 非容错方法 避错技术 避错方法是保证可靠性的主要和基本的方法 它采用预防为主的手段 2020 4 6 8 硬件措施 严格地进行元件筛选 老化处理 采用成熟技术 防止设计错误 严格遵守加工工艺如 制板 装配 调试 在保证功能 性能要求前提下采用最简单的设计方案 降负荷运行 比如 降低主频 降低通讯线的数据传输率 改善运行环境 空调 防震 防尘 防潮 2020 4 6 9 软件措施 模块化 结构化程序设计 完善的 规范的文档资料 严格的调试 2020 4 6 10 避错方法是保证系统可靠性的基础 也是必不可少的手段 但是单靠避错方法不能达到上述高可靠性指标 这是因为 1 元件质量受当时工艺水平限制 在一个时期只能达到一定水平 比如50年代计算机采用电子管为主要元件 其平均寿命为800小时 采用特殊工艺可达1500 2000小时 此时价格已高出常规价格几十倍 当时计算机采用18000只电子管 平均每小时有9 12个管子损坏 2020 4 6 11 2 设备的可靠性随复杂性增加而降低 复杂的设备使用的器件种类和数量都多 不可避免有较高的故障率 而随着计算机应用范围的不断扩大 系统复杂性日益增加 可靠性问题也日趋严重 要获得高可靠的系统 还必须在系统结构上想办法 使系统具有抵抗故障的能力 因而产生了容错设计的方法 2020 4 6 12 2 容错方法 正如采用预防为主的方针后仍需要医院一样 象计算机系统这样复杂的系统不可避免有故障发生 对有高可靠性要求的应用系统来说 必须有在故障发生时仍保证系统正常工作的手段 这就是容错的手段 2020 4 6 13 容错能达到常规方法所不能达到的高可靠性例如 美国70年代研制的FTMP系统和SIFT系统能保证在10小时飞行任务期间 可靠度高于0 99999999 即108架次飞行 每次10小时 飞行计算机失效的可能不到1次 采用容错技术 并不否定避错技术 相反 容错技术必须和避错技术相结合 才能使系统达到理想的可靠性 2020 4 6 14 容错计算机系统 在发生故障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统 设计与分析容错计算机系统的各种技术称为容错技术容错技术从系统结构出发来提高系统的可靠性 与排错技术相互补充 构成高可信度的系统 2020 4 6 15 实现容错计算的四个方面 1 不希望事件的检测 不希望事件是指失效 故障 差错等等 为容忍系统中的不希望事件 应首先对其进行检测 2 损坏估价 由于一个故障的出现和它的失效结果之间可能存在延迟 故障可能已经传播到该系统的其他地方 导致故障的扩大 因此 在作出一个被检测的故障有关的决定之前 有必要判定系统已被破坏的程度 这依赖于系统设计者的策略和已有的探测技术 2020 4 6 16 3 不希望事件的恢复 在不希望事件检测和损坏估价之后 应采用不希望事件恢复技术 把目前的错误系统状态转换成一个正确的系统状态 4 不希望事件处理和继续服务 确保已被恢复的不希望事件效应不会立即再现 以使系统继续提供规定的服务 2020 4 6 17 容错系统的一般阶段 故障限制 当故障出现时 希望限制其影响范围 故障限制是把故障效应的传播限制到一个区域内 从而防止污染其他区域 故障检测 大多数失效最终导致产生逻辑故障 有许多方法可用来检测逻辑故障 如奇偶校验 一致性校验都可用来检测故障 故障检测技术有两个主要的类别 即脱机检测和联机检测 在脱机检测情况下 进行测试时设备不能进行有用的工作 联机检测提供了实时检测能力 因为联机检测与有用的工作同时执行 联机检测技术包括奇偶校验和二模冗余校验 2020 4 6 18 故障屏蔽 故障屏蔽技术把失效效应掩盖了起来 从某种意义上说 是冗余信息战胜了错误信息 多数表决冗余设计就是故障屏蔽的一个例子 重试 在许多场合 对一个操作的第二次试验可能是成功的 对不引起物理破坏的瞬间故障尤其是这样 诊断 如果故障检测技术没有提供有关故障位置和 或性质的信息 那么就需要一个诊断 容错系统的一般阶段 2020 4 6 19 重组 当检测出一个故障并判明是一个永久性故障时 这时重组系统的器件以便替代失效的器件或把失效的器件与系统的其他部分隔离开来 也可使用冗余系统 系统能力不降低 恢复 检测和重组 若必要的话 之后 必须消除错误效应 通常 系统会回到故障检测前处理过程的某一点 并从这一点重新开始操作 这种恢复形式 一般叫卷回 通常需要后备文件 校验点和应用记录方法 容错系统的一般阶段 2020 4 6 20 重启动 如果一个错误破坏的信息太多 或者系统没有设计恢复功能 那么恢复功能也许就不可能 仅当系统未受任何破坏时 才能进行 热 重启 从故障检测点恢复所有操作的 温 重启指仅有某些过程可以毫无损失的重新启动 冷 重启相当于系统需要完全重新加载 修复 把诊断为故障的器件换下来 与故障检测一样 修复也可以是联机进行的或者脱机进行的 重构 对元件进行物理替换之后 把修复的模块重新加入到该系统中去 对联机修复来说 实现重构不中断系统的工作 容错系统的一般阶段 2020 4 6 21 二 容错技术的发展概况 第一代计算机 1946 1957 第二代计算机 1957 1964 第三代计算机 1964 1970 第四代计算机 1970 现在 2020 4 6 22 第一代计算机 1946 1957 元件 电子管 继电器及延迟线存储器问题 元件的失效率相当高 并易受瞬时故障的影响措施 特别设置的硬件故障检测和人工恢复例 2020 4 6 23 1956 SAPO 捷克 三个CPU同时工作 对运算结果进行表决 存储器采用奇偶校验 具有单条指令重复执行的功能SAGE 美国 用于防空系统 采用双机比较以检测故障 并配合以恢复技术 2020 4 6 24 第二代计算机 1957 1964 元件 晶体管及磁芯存储器问题 失效率比第一代计算机元件大为降低措施 避错技术占统治地位 对故障一般采用诊断程序进行脱机检测 2020 4 6 25 第三代计算机 1964 1970 元件 集成电路问题 元件的失效率继续降低 但计算机应用范围扩大 对计算机系统的可信性要求更高措施 容错技术重新提出 并得到了较快的发展 并出现了许多容错计算机例 2020 4 6 26 实例 1964美国土星V号运载火箭导航计算机研制成功 该机采用三模冗余及奇偶校验来实现容错1969 美国喷射推进实验室的STAR计算机 其处理机采用三重表决加备份的混合冗余方式 并用算术检错码及双机比较检测故障 1965 贝尔实验室研制成功1号ESS处理机 是用于电话交换的计算机系统 采用了双机比较技术 是专用的硬件及软件进行故障的检测 定位及识别 2020 4 6 27 第四代计算机 1970 元件 大规模和超大规模集成电路问题 硬件可靠性大大提高而价格却大幅度降低 使采用各种容错技术在经济上更易接受 需求 容错技术应用范围扩展于银行事务处理及各种实时控制系统 甚至许多通用计算机系统也采用了容错技术 2020 4 6 28 实例 1975 美国贝尔实现室的3A号ESS处理1975 美国TANDEM16容错事务处理系统1976 美国AMDAHL470V 6容错通用计算机1978 容错空间计算机FTSC1979 IBM推出容错的4300通用计算机系列1980 容错多处理机FTMP及软件实现的容错计算机SIFT研制成功 2020 4 6 29 80年代以来 出现了商用容错计算机市场分布式容错计算机系统的出现容错的VLSI技术人工智能在容错技术上的应用 计算机故障诊断专家系统 2020 4 6 30 错误的根源 失效 故障 错误 2020 4 6 31 第二章可靠性的基本知识 第一节可靠性的定义和特性1 广义的定义 系统 或设备 元件 在规定的条件和规定的时间内完成预定功能的能力 2020 4 6 32 规定的条件 运行条件 工作负荷 环境 温度 湿度 振动 灰尘 维护手段 现场维护 脱机维护等运行时间 短时间运行 几秒 几分钟 中等时间运行 几小时 几天 长时间 连续运行数月 数年 2020 4 6 33 2 严格的定义 必须量化将上面定义中 能力 改成概率必须明确将 可靠性 改为 可靠度函数 2020 4 6 34 1 可靠度函数和失效分布函数可靠度函数 产品在时刻t能完成规定功能的概率称可靠度函数 用R t 表示不可靠度函数 产品在时刻t不能完成规定功能的概率称不可靠度函数 用F t 表示根据定义有 F t 1 R t 二 可靠性的基本函数 2020 4 6 35 设T为产品在规定条件下的寿命 则 R t P T t F t P T t 工程计算 以频率代概率 在t 0时刻有N件产品 在t时刻有Nt件继续工作 则 R t Nt NF t N Nt N 3 失效率函数 t 在ti时刻正常工作的产品 在ti后单位时间失效的概率 t 与f t 的区别 t 表示ti时刻正常工作条件下失效的条件概率失效率的单位 Fit 菲特 10 9 t R t R t 2 失效密度函数f t 产品在单位时间内失效的概率f t dF t dt 2020 4 6 37 产品的失效规律 浴盆曲线电子产品的失效率一般下图所示 早期失效区 正常工作区 偶然失效 耗损区 t1 t2 2020 4 6 38 1 早期失效段对应t较小的时间段 t t1 产品刚刚装配完毕 由于可能有不合格的元件 装配缺陷 如虚焊 所以失效率较高 有的文献上称这段为 新生儿失效段 2020 4 6 39 2 偶然失效段 正常使用段 经过严格测试筛选后出厂的产品偶然才会失效 反映为这一段曲线呈现在较低的值上平稳延伸的形态 这一段曲线对应的时间段为寿命期 实际应用时 应该保证计算机系统工作在这个时间段 2020 4 6 40 3 耗损失效段过了寿命期 曲线开始急剧上升因为元件开始到达使用受命 相继失效 好象人到老年 各种疾病都来了一样 高可靠计算机系统应该避免工作在这个时间段 2020 4 6 41 上面讲到 产品必须工作在偶然失效段在这一段 t 可看成为常数 由R t R t 解得 R t e t该公式在可靠性分析中十分重要 是计算系统可靠性的基础 2020 4 6 42 当 t很小时e t 1 t故此时R t 1 t用此式计算往往很简便例 某产品的失效率 10 5 小时 求该产品投入运行后100小时 1000小时 10000小时 100000小时的可靠度 2020 4 6 43 解 R 100 e t e 0 001 0 9990005用近似公式算 R 100 1 t 1 0 001 0 999相对误差0 00005 完全可以忽略R 1000 e 0 01 0 9900498用近似公式算 R 1000 1 t 1 0 01 0 99相对误差0 005 也完全可以忽略 2020 4 6 44 R 10000 e 0 1 0 90483用近似公式算 R 10000 1 t 1 0 1 0 9相对误差5 37 勉强可用R 100000 e 1 0 3679用近似公式算 R 100000 1 t 1 1 0结果完全不可用 2020 4 6 45 平均寿命 可靠寿命 中位寿命 使用寿命1 平均寿命平均无故障时间 MTTF MeanTimetoFailure 含义 寿命的平均值 指产品从开始投入使用到 首次 失效的平均时间 该指标适用于不可维修产品 三 产品的寿命指标 2020 4 6 46 平均故障间隔时间 MTBF MeanTimeBetweenFailure 含义 可维修产品两次维修之间隔时间的平均值 该指标适用于可维修产品 2020 4 6 47 MTTF和MTBF两者定义不同 但计算方法一样 都是发生故障时间的平均值 在应用中往往不加区别具体计算公式 推导略 MTTF 0 R t dt 无论R t 表达式如何 此式均可用但是 一般情况下 有R t e t代入 MTTF 0 e tdt 1 这个结果在分析中也是极常用的 2020 4 6 48 例 某计算机出厂时给出的寿命指标为 MTBF 10000 小时 求 1 该产品的失效率 2 该产品在投入运行100小时 1000小时 10000小时后的可靠度 2020 4 6 49 解 1 该产品的失效率 1 MTBF 10 42 可靠度 R 100 1 t 1 10 4 100 0 99R 1000 0 9R 10000 e t e 1 0 3679实际上 大多数系统不可能工作到MTBF这个时间 只有37 不到的系统在此时还能可靠工作 2020 4 6 50 2 可靠寿命可靠度等于给定值r的时刻称可靠寿命 用tr表示例 某计算机出厂时给出的寿命指标为 MTBF 10000 小时 求该产品可靠度为0 999的可靠寿命t0 999解 1 t0 999 0 999t0 999 0 001 10 小时 2020 4 6 51 可见 尽管厂家给出的寿命指标为10000小时 但是运行10小时后可靠度就只有0 999了 所以一般厂家是无法满足高可靠要求的3 中位寿命可靠度等于0 5的时刻称中位寿命4 使用寿命在规定的使用条件下 具有可接受的失效率的时间段 2020 4 6 52 若选用的产品失效率高于给定值 显然是不行的 选用的产品失效率等于或略低于给定值是合理的 此时使用寿命为浴盆曲线的平底部分 选用的产品失效率低于给定值很多是不必要的 会使成本大大增加 2020 4 6 53 1 可维修度 Maintainability M t P t 修复的时间t 规定的修复时间 四 可维修性 2020 4 6 54 显然 M值与规定的修复时间有关一般当t增加 允许的修复时间长 M也会增加 在t内修复的可能性增加 M值与系统的复杂性及维修条件有关 不同系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论