




免费预览已结束,剩余30页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章容错性 一 容错性简介 基本概念故障使用冗余掩盖故障 1 基本概念 容错即意味着系统能在故障发生的情况下继续提供服务 几个相关概念可用性 系统可以工作 即可被使用可靠性 指系统可以无故障地持续运行安全性 系统在偶然出现故障的情况下可以正确操作而不会造成任何灾难 可维护性 系统发生故障后 恢复的难易程度 2 故障 可以分为暂时的 间歇的和持久的 可以进一步分为以下类型 3 使用冗余掩盖故障 分布式系统容错的目的对其他进程或客户隐藏故障 故障透明性 容错手段 使用冗余掩盖故障三种冗余方法 信息冗余 添加额外的位以使错误的位恢复 时间冗余 多次重复一个操作 适合临时性或间歇性故障 物理冗余 物理上添加备份 二 分布式系统的进程容错 进程组平等组和等级组组成员的管理 1 进程组 进程组把多个相同的进程组织到一个逻辑的组中当组中某个成员进程遭遇故障而不能工作时 组中其他成员可以接管它目的允许把进程的集合作为逻辑上单一的对象来处理 增加系统的容错性 进程组 进程组特性组本身可以是动态的组成员可以是动态的一个进程可以从属于多个组类型 平等组和等级组 2 平等组和等级组 平等组对应分布式概念所有成员地位都是相同的所有决定都是共同作出的 等级组对应集中式概念一般有一个协调者进程 其他则是工作者组内关系和动作由协调者做决定 平等组和简单等级组 平等组和等级组 平等组没有单独故障点决策效率低等级组有单个故障点决策效率高 3 组成员管理 基本问题加入与离开组成员故障处理 使用组管理服务器 集中式方法 所有进程要加入或者离开组都向它申请优点 直接 高效 易于实现缺点 单一失败点 分布式方法进程加入和离开组需要给所有成员发请求 共同作出决定当成员发生故障崩溃时 需要通过一些协议来重建组 三 可靠的点对点通信与容错 分布式系统通信的可靠性设计的重点在于掩盖崩溃性故障遗漏性故障随意性故障 通过重复消息的形式排除 对于点到点通信 如TCP通信 崩溃性故障只能由分布式系统重新建立连接 在RPC调用中 有5种失败形式 客户不能定位服务器客户到服务器的请求消息丢失服务器在收到请求之后崩溃从服务器到客户的响应消息丢失客户在发送请求之后崩溃 1 RPC通信失败 RPC通信失败 2 客户无法定位服务器与请求丢失 客户端不能定位服务器由应用程序抛出异常来处理请求消息丢失超时重发机制 3 服务器崩溃 两种情况 但对客户来说 都是超时执行之后崩溃执行之前崩溃三种处理方式在服务器重启之前等待并再次尝试操作立即放弃并报告失败什么都不保证 4 应答消息丢失 也是依靠客户端的超时重发机制处理问题 转帐另一种方法 为每个客户请求配一个序列号 这样服务器就能分辨客户的新请求与重发的请求 当服务器收到重发的请求时 不执行重复操作 5 客户崩溃 最大问题 孤儿进程的产生RPC调用中 客户进程与它调用的服务器计算之间是父子关系 当客户崩溃后 驻留在服务器中继续运行的计算变得毫无意义 而且没有进程等待它 需要它 这个计算就变成了孤儿 Orphan 客户崩溃 孤儿会引起许多问题 首先 它的计算毫无意义 因为已经没人需要它的结果孤儿浪费系统资源 包括计算 存储和其他资源当客户恢复并重发请求时 孤儿返回的结果则会引起混淆 客户崩溃 第一种方法是消灭在RPC调用之前写日志客户在崩溃中恢复后根据日志杀死孤儿缺点 代价高 每个RPC都需要写日志孤儿本身有可能进行RPC调用而产生后代 杀死孤儿后 其后代成为更难跟踪处理的孤儿 客户崩溃 第二种方法是再生对时间分段并编号当客户重启时 向所有机器广播声明一个新时期开始其他机器收到该消息后 杀死所有与这个客户有关的远程计算但对于广播不能到达的地方 孤儿还有可能存活 客户崩溃 最后一种方法是到期每个RPC都被给定一个期限T来工作到期后如不能结束就需要申请宽期否则被认为抛弃子女 与其相关的远程计算将被当作孤儿杀死 四 可靠的组通信与容错 1 基本的可靠多播方法 多播 发送到进程组的消息被传送到组中所有成员 多播面临的问题 通信期间 有进程加入组通信期间组中有成员崩溃最简单解决方法 对进程组每个成员建立点到点的连接一种简单有效的方法如下页图示 简单的可靠多播 2 可靠多播的可扩展性 简单方法致命问题当接受者数量庞大时 大量的反馈消息将淹没发送者 引起反馈拥塞 解决方法一 只在消息丢失时反馈问题 发送者只好永远在历史缓存器中保留消息 因为不知道消息是否送达 而且即使否定反馈依然可能拥塞 可靠多播的可扩展性 方法二 无等级反馈控制接受者不发送成功确认当丢失消息时向组中其他成员多播其否定反馈而其他成员如果也丢失了消息 则在收到这个丢失反馈后不再向发送者发送丢失反馈保证了只有一个重发请求送往发送者 无等级反馈抑止 可靠多播的可扩展性 无等级反馈的实际应用中还是有困难 首先要确保只有一个重发请求发送到发送者 需要所有接受者对反馈进行准确的调度 这在散布在广域网中的进程组是难事 其次多播反馈有可能中断其他成功接收消息的进程 可靠多播的可扩展性 方法三 分等级反馈控制接收进程组的成员数量非常大接受组被划分为许多子组 这些子组组织成树的形式 包含发送者的子组构成了树的根在每个子组内 可以选用任意一种可靠多播方案每个子组都指定一个本地协调者 负责处理子组的接收 以及本地的重发本地协调者具有自己的历史缓存 分等级的可靠多播 可靠多播的可扩展性 主要问题 树的建立 很
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家事业单位招聘2025农业农村部国际交流服务中心招聘拟聘用人员笔试历年参考题库附带答案详解
- 国家事业单位招聘2025中国人民大学校医院招聘2人笔试历年参考题库附带答案详解
- 北京市2025中国国土勘测规划院招聘应届博士毕业生6人笔试历年参考题库附带答案详解
- 上海市2025第二季度上海文化广场招聘3人笔试历年参考题库附带答案详解
- 2025贵州镇远县佰利供销再生资源回收有限责任公司招聘2人笔试参考题库附带答案详解
- 2025福建泉州文旅集团招聘61人笔试参考题库附带答案详解
- 2025渭南合阳县煤炭事务中心招聘(12人)笔试参考题库附带答案详解
- 2025浙江余姚市舜源供应链服务有限公司招聘12人笔试参考题库附带答案详解
- 2025江西锦苑司法鉴定中心招聘专职管理人员1人笔试参考题库附带答案详解
- 2025新疆机场(集团)有限责任公司下辖机场第一季度招聘(15人)笔试参考题库附带答案详解
- 项目经理职业生涯规划
- 2023年广东生物高考第18题光合作用说题课件
- 除锈剂MSDS参考资料
- 6社会体育导论
- 部编版七年级历史与社会下册《第三课中华文明探源》评课稿
- 中考英语作文预测(范文20篇)
- 选煤厂原煤分级筛技术操作规程
- 方物电子教室q2用户手册
- 消防管道支架工程量计算表
- GB/T 700-2006碳素结构钢
- 腹腔镜下肾癌根治术
评论
0/150
提交评论