双机组网与原理实现.doc

上传人：豆*** IP属地：浙江上传时间：2020-03-10 格式：DOC 页数：45 大小：1.12MB 积分：20 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

内部公开内部公开双机组网与原理实现双机组网与原理实现编者戴耀方审核郝世强中兴通讯固网交换用服部中兴通讯固网交换用服部内部公开内部公开修改记录修改记录文档编号版本号拟制人修改人审核人拟制修改日期更改理由主要更改内容写要点即可无V1 00戴耀方郝世强2008 1 108 年专题文档光盘编写初稿生成内部公开内部公开目目录录第第 1 章章双机公共知识双机公共知识 1 1 1 应用背景 1 1 2 基本组网 2 1 3 原理实现 2 第第 2 章章常用双机技术常用双机技术 5 2 1 MICROSOFT CLUSTER SERVER 简称 MSCS 集群技术 5 2 1 1 MSCS 5 2 1 2 数据库管理系统选择 6 2 1 3 故障恢复 7 2 1 4 工作模式及类型 8 2 2 VCS 双机技术 11 2 2 1 什么是 VCS 11 2 2 2 其他概念 12 2 2 3 VCS 架构 15 2 2 4 工作原理 16 2 2 5 基本组网 17 2 3 VCS 常用操作 18 2 3 1 要点讲解 18 2 3 2 手工操作 20 2 4 VCS 软件应用 21 2 4 1 VCS 管理界面密码修改的方法 21 2 4 2 VCS 检查心跳的方法 22 2 4 3 VCS 检查运行状态的方法 22 2 4 4 异常情况下启动 VCS 的方法 22 2 4 5 Oracle 数据库切换后无法启动的问题 23 2 4 6 VCS 资源组或资源出现错误 24 2 4 7 VCS 的卸载 25 2 4 8 VCS 配置与日志文件 26 2 4 9 修改 VCS 的配置后未保存引起系统重启后 VCS 无法启动 26 2 5 VCS 维护经验 26 2 5 1 VCS 上对 EMS 应用如何启用双浮动 IP 26 2 5 2 VCS4 2 在 A 机与 B 机之间不能正常切换 26 2 5 3 广东固网项目 VCS 双机网管服务器安装经验 27 内部公开内部公开 2 5 4 双机中一个节点 Fail 状态下另一节点重起的问题 33 2 5 5 网管双机一台主机损坏重新安装注意事项 34 2 5 6 网管双机不能正常切换及节点间切换后网管应用不能运行 34 2 5 7 双机中浮动 IP 的问题 35 2 5 8 Windows 平台下网管双机软件版本 VCS4 2 升级到 VCS4 3 的问题 38 2 5 9 VCS4 2 升级到 VCS4 3 版本的步骤参考 39 附录附录 5 内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 1 第第 1 章章双机公共知识双机公共知识摘要摘要本章介绍双机技术的应用背景基本组网和原理实现 1 1 应用背景应用背景目前业务系统对数据库服务器有如下要求 1 超强的承载能力业务系统中对数据库操作是一种最基本的操作数据库服务器必须应对大量的查询并做出适当且及时的应答 2 对大量并发用户的查询做出实时响应大量并发用户的同时访问对系统的带宽提出了极高的要求否则极易发生堵塞造成极慢的查询应答甚至于死机 3 可靠性和可用性要求要求本系统具有很高可靠性和可用性基本做到一年 365 天 7 24 小时不间断工作 4 扩充能力强系统要求在处理能力存储容量 I O 能力行节点数方面都具有较强的扩充性以便在将来随着业务的扩展能对系统进行扩充 5 要求系统具有很强的开放性和适应性因此对于数据信息业务应用的核心数据库服务器的设计应该具有以下考虑 1 数据不能因为该服务器偶尔出现故障而使其中的数据不可恢复即应用系统瘫痪 2 存储在硬盘上的数据不应因为某一磁盘的故障而不能访问这些数据关于前面一点为避免计算机系统的单一故障点采取的策略是采用双机或多机系统这样当一台主机出现故障时另一台主机同样能访问这些数据即在任何一台主机单点出现故障时系统可以将用户的应用自动转向另外一台主机对同一数据文件进行存取在正常情况下系统软件会根据两台主机的繁忙情况自动对多个应用进行负载均衡对用户而言系统是透明的只感觉到是一台服务器在运行这样便提高系统的整体可靠性关于后面一点主要目的是要防止由于存储公用数据的磁盘故障而造成数据丢失从而使整个中心服务器系统瘫痪为避免系统的这一单一故障点目前最经济的实用技术是采用 RAID 技术通过冗余数据保证单一硬盘出错时存储的数据还可用双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 2 1 2 基本组网基本组网双机的基本网络结构如图 1 2 1 双机组网两台配置一样的服务器也支持不一样的服务器但实际应用中都是一样的和一个共享磁盘阵列两台服务器与磁盘阵列通过 SCSI 控制线或者光纤连接起来两台服务器各配置两块网卡一块用于私网作用两台服务器之间的心跳信号一块用于公网作用对外和客户端接入图 1 2 1 双机组网 1 3 原理实现原理实现目前 NGN 工程或者商用局使用双机的地方是 EMS 网管服务器和计费服务器 EMS 服务器一般使用 HA High Availability 高可用双机容错软件 VCS 实现双机功能计费服务器使用微软的群集技术 MSCS 实现双机功能根据功能不同可以分本地双机热备份系统和异地双机热备份系统 1 本地双机热备份系统如图 1 3 1 本地双机特点双机群集系统中所有的节点的距离不大于 5KM 各节点共享数据资源功能节点之间实现状态监控和故障切换对外提供几乎不间断的服务双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 3 图 1 3 1 本地双机国内 NGN 工程或者商用局大多使用本地双机热备份系统在本地双机系统中主用服务器和备用服务器在一个局域网内它们连接到同一磁盘阵列上数据库中的数据和其他会出现变化的数据驻留于磁盘阵列上以保证主备机上数据的一致性正常情况下主用系统处于运行状态向外提供服务备用系统处于热备用状态监测着主用服务器的状态主用服务器和备用服务器之间通过心跳线监视相互的状态当备机发现主机处于故障状态如应用程序异常硬件异常宕机等则通过 HA 双机容错软件或者微软群集重新启动服务或者将主机上所有的服务切换到备机上运行切换后的数据保持完全的一致性主机和备机共用一个虚拟浮动 IP 地址向外提供服务对客户端提供完全透明的服务主机和备机共用处于磁盘阵列上的数据系统磁阵配制成 RAID 方式 2 异地双机热备份系统如图 1 3 2 异地双机特点双机群集系统中节点的距离较远一般位于不同的城市异地之间的节点进行数据备份以实现系统的容灾功能功能除了提供本地双机热备份系统所提供的功能外还提供系统的异地容灾功能组成分布在异地的两套本地双机系统组成异地双机系统 NGN 国外工程中异地双机用的比较多双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 4 图 1 3 2 异地双机内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 5 第第 2 章章常用双机技术常用双机技术摘要摘要目前 NGN 工程中常用的双机技术有 MSCS 和 VCS 本章分别介绍这两种双机技术本章介绍的双机技术属于基本的原理有些描述和实际的工程应用可能有不一样的地方请读者区别实际工程应用安装请参照相关安装文档 2 1 Microsoft Cluster Server 简称简称 MSCS 集群技术集群技术该技术多应用于 NGN 中的计费服务器双机组网 2 1 1 MSCS Microsoft Cluster Server 简称 MSCS 提供了一个完全容错的软件解决方案并提供数据应用程序和通信资源的高度可用性 Microsoft Cluster Server 不需要任何特别的容错硬件你可以集合使用二到十六个 NT 结点工访问特定地点的配置数据然后 Microsoft Cluster Server 会自动地提供错误检测和多层现场恢复在出现故障的情况下 Microsoft Cluster Server 会将保护资源自动转换到一个根据优先权而设定的系统在实际进行切换用户时会经历一个十分短暂的休眠但是当系统完成了切换操作后 Microsoft Cluster Server 会在所选择的系统上自动地恢复操作双机之间靠心跳检测对方服务器是否工作正常 1 故障检测 HEARTBEAT 心跳 Microsoft Cluster Server 在集群节点间保持着间歇的通信信号也叫做心跳信号是错误检测的一个机制即通过每一个通信路径在两个对等系统之间进行周期性的握手如果连续没有收到的心跳信号到了一定的数目 Microsoft Cluster Server 就把这条路径标示为失效红色如果你只定义了一条通信路径当 Microsoft Cluster Server 把这唯一的一条通信路径标为失效时 Microsoft Cluster Server 便立即开始恢复过程然而如果你有冗余路径 Microsoft Cluster Server 能够通过第二条路每项确定是系统故障还是只是通信路径有问题如果 Microsoft Cluster Server 开启优先级第一条通信路径并收到了心跳信号它就不开始 FAILOVER 失效切换恢复只需要把第一条通信路径标成红色失效作为信号告诉你需要修理一下有故障的路径一般情况下 Microsoft Cluster Server 只在下列事件发生时启动系统恢复功能所有的通信路径故障如果所有节点都没有收到心跳信号把所有通信路径都标为失效 Microsoft Cluster Server 开双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 6 始安全检查安全检查失败当所有通信路径故障时 Microsoft Cluster Server 向整个网络发出安全检查信号如果信号指出配对系统还活着的时候 Microsoft Cluster Server 不启动 FAILOVER 失效切换如果安全检查没从配对节点返回信号 Microsoft Cluster Server 就开始 FAILOVER 失效切换因而为了减少由于潜在的通讯错误所引起的不必要的系统切换建议您使用不同介质的多条通信路径 2 通信路径 Microsoft Cluster Server 支持在节点之间和心跳通讯中使用如下的通讯路径 1 SOCKET 即套接字你使用任何的网络硬件接口只要它能够支持 TCP IP 的通讯协议这样的硬件包括以太网快速以网令牌环网以及 FDDI 或 CDDI 2 串行口 Microsoft Cluster Server 配置中你应当配置有一个串行口通信路径串口通信路径需要利用 RS232 的拟调解线路来与 Microsoft Cluster Server 系统相连接 3 共享磁盘你可以定义一个共享磁盘分区来作为 Microsoft Cluster Server 的通讯中介可以只使用小至 1MB 的分区当然也可以使用更大的空间 Cluster 群集假定当通过心跳信号检测其它服务器失败时则认为此服务器是关闭的因此为了避免不必要的失效切换最好建立两种以上独立的物理路径使用至少两种心跳例如如果两个服务器被一个串口连接起来并且从属连接起来并且从属服务器来的心跳信号无法被主服务器所检测到则下面之一是可能引起这一现象的原因服务器的 RS 232 卡或者端口失败电缆失效主服务器暂时挂起主服务器失败失效切换只可能在最后一种情况下才发生因此节点间的多种通信路径可以帮助避免不必要性的失效切换 3 共享的 SCSI 和 Microsoft Cluster Server 软件锁定 Microsoft Cluster Server 软件锁定 Microsoft Cluster Server 管理共享磁盘上的数据以防止多个服务器在同一时间访问数据 LIEFKEEPER 在逻辑设备级卷上控制对数据的访问并让 WINDOWS NT 软件或硬件 RAID CONTROLLERS 管理体制物理级有了 Microsoft Cluster Server FOR WINDOWS NT 来管理对共享数据的访问用户就可以不必担心群中的其它服务器访问数据时可能会带来的数据访问冲突 Microsoft Cluster Server 自动在被应用程序定义为共享资源的磁盘卷上设置锁定当被子保护的应用程序由一个服务器被子移动转换到另一个服务器时 Microsoft Cluster Server 控制这些锁定以保证激活服务器对共享卷的访问在主系统发生故障的情况下次节点系统将能够在磁盘上建立 SCSI 锁定并在备分的系统上将资源投入使用 2 1 2 数据库管理系统选择数据库管理系统选择数据库管理系统应选择主流大型网络数据库管理系统如双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 7 SYBASE SQLSERVER INFORMIX ORACLE DB2 等这些数据库管理系统在功能上大同小异但各有所长在语言和语法上差别较大选择时要从以下几个方面来考虑 1 操作系统平台对数据库的支持程度 2 具有满足实际应用的数据管理能力 3 是标准化的数据库语言 ANSI SQL 4 具有数据库客户机服务器结构 5 采用开放式的数据库联结标准 ODBC 易同其它数据库管理系统异构 6 数据与程序易于在不同平台之间移植 7 具有强大的网络功能支持现有的各种网络协议 8 系统性能价格比高并具有良好的延展性和售后服务 9 支持中文处理开发和使用工具丰富并易学易用界面友好 10 数据库管理系统的运行具有很高的安全性和稳定可靠性在 Windows 2000 Advanced SERVER 操作系统平台对 Microsoft SQL SERVER 数据库的支持程度最好所以一般在 MSCS 中选择 Microsoft SQL SERVER 数据库系统 2 1 3 故障恢复故障恢复 1 LOCAL RECOVERY 局部恢复 Microsoft Cluster Server 在快速检查 QUICKCHECK 和深入检查 DEEPCHECK 的时间间隔执行预先定义的行为以察看资源本身是否失效如果快速检查和深入检查均局部千失败系统将尝试局部恢复资源如果尝试成功资源将不会向下一优先级的节点进行失效切换 FAILOVER 如果局部恢复尝试失败系统将向下一优先级的节点进行失效切换例如你可以在 Microsoft Cluster Server 服务器上配置多块 NIC 卡网卡当定义的 NIC 发生故障时你就可以配置将 IP 资源切转到另一个 NIC 上从而避免不必要性的失效切换 2 FAILOVER 失效切换指定主要的节点或资源失败时重新恢复资源的过程一个失效切换通常是没有事先计划的它将发生在一个被子从属系统所检测到并确定为失败的情况下 3 ACS 管理员可配置的迁回 ADMINISTRATOR CONFIGURABLE SWITCHBACK 简称 ACS 允许 Microsoft Cluster Server 管理员通过命令行或 GUI 通用用户接口界面来指定资源即所在 LK 节点发生故障而后又恢复正常该资源将被自动地切换回到原来节点上可能的值是 INTELLIGENT 智能的和 AUTOMATIC 自动的如果选择 AUTOMATIC 那么一旦发生故障的节点回到服务状态时被配置失效切换的层次都将被切换回到该节点上如果策略是双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 8 INTELLIGENT 即使当性故障的节点回到服务状态时被配置失效切换的层次也会留在它们被失效切换到的节点上等待由管理员决定合适的时间进行切换 4 SWITCHOVER 切换指用一个有顺序的方式关闭资源然后将它们恢复到一个备份系统的过程这通常发生在当你处于维护或者测试模式中的情况下这时没有任何东西失败 2 1 4 工作模式及类型工作模式及类型双机有多种工作模式 2 1 4 1 双机主从式备份双机主从式备份 Active Standby 在一个激活备用对中主节点处于处理状态从属节点处于备用状态以防主节点上发生失败备用系统可以是一个小一点性能低一点的系统但是当主节点失败时它必须有保证资源可达性的处理能力 1 双主机通过一条 TCP IP 网络线以及一条 RS 232 电缆线相联 2 双主机各自通过一条 SCSI 电缆线与 RAID 相联 3 主机 A 为 Active 主机 B 为 Standby 4 主机 A 处理作业和数据主机 B 作为热备份机 5 主机 A 故障后主机 B 自动接管主机 A 的作业和数据 6 主机 B 同时接管 A 的主机名 Host 及网络地址 IP 7 主机 A 的作业将在主机 B 上自动运行 8 主机 B 现为 Active 主机 A 修复后根据需要作为 Standby 或 Active 2 1 4 2 主机主机 A 的客户的客户 client 可继续运行根据应用无需重新登录可继续运行根据应用无需重新登录 1 正常操作 1 侦测连接 RS232 Ethernet1 2 主机 A 设定为主机 3 主机 B 设定为从机 4 客户机 A 与主机 A 的 P1 口连接 2 主机主机 A 故障 1 主机 B 接管 DAS AP Database IP 地址 2 更换主机 B 的 IP 地址 S1 P1 3 主机 B 设定为主机双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 9 4 客户机 A 连接在主机 B 的 P1 口 3 主机 A 修复 1 主机 A 设定为从机 2 更换主机 A 的 IP 地址 P1 S1 2 1 4 3 双机双工热备份双机双工热备份 Active Active 在一个激活激活对中两个节点都是激活的处理器但是它们也可分别作为其对应节点上的资源和资源层次的从属节点双主机通过一条 TCP IP 网络线以及一条 RS 232 电缆线相联双主机各自通过一条 SCSI 电缆线与 RAID 磁盘阵列相联双主机各自运行不同的作业彼此独立并相互备援主机 A 故障后主机 B 自动接管主机 A 运行主机 A 的作业将在主机 B 上自动运行主机 A 的客户 client 要在主机 B 上重新登录主机 A 修复后主机 B 将把 A 的作业自动交还主机 A 已经连到主机 B 上的 A 的客户需要在主机 A 上重新登录主机 B 故障时主机 A 接管主机 B 的作业和数据主机 B 修复时主机 A 再将原来接管的作业和数据交还主机 B 1 正常操作 1 侦测连结 RS232 Public net 2 主机 A 通过 P1 支持客户机 A 3 主机 B 通过 P2 支持客户机 B 2 主机 A 故障 1 主机 B 接管 DAS AP Database 2 客户机 A 重新连接到主机 B 的 P2 口 3 主机 B 通过 P2 同时支持客户机 A B 3 主机 A 修复 1 主机 B 自动释放 DAS AP DataBase 2 主机 A 自动收回 DAS AP DataBase 4 主机 B 故障双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 10 1 主机 A 接管 DAS AP Database 2 客户机 B 重新连接到主机 A 的 P1 口 3 主机 A 通过 P1 支持客户机 A B 5 主机 B 修复 1 主机 B 自动释放 DAS AP DataBase 2 主机 A 自动收回 DAS AP DataBase 2 1 4 4 多机热备份多机热备份 N way N 3 16 主机 A 有最高的优先级主机 B 有第二优先级而主机 C 有最低优先级按优先级次序测验主机来决定在失效切换时哪一个服务器将进行工作 N WAY 配置是激活激活或激活备用的一个有三到十六个服务器的扩展服务器 A 被配置为服务器 B 和服务器 C 的备份服务器 A 可以被配置为除了服务器 B 和服务器 C 的其他服务器做备份当任何一个服务器发生故障时被保护的应用程序被从该服务器上转到备用的服务器上在 N WAY 配置中可以配置层叠恢复当 Active 主机发生故障时层叠恢复允许多个从属在 N WAY 配置中可以配置 CASCADING RECOVERY 层叠恢复当主机发生故障时层叠恢复允多个从属主机被按照一定的优先级次序恢复一个资源或层次对于在一对主机上的资源恢复如果主机 A 发生故障了资源将会失效切换到主机 B 上如果主机 B 再发生故障而主机 A 仍然不可用资源将会失效切换到主机 C 上多个从属主机被指定一个恢复优先级 1 正常操作 1 侦测连接 RS232 以太网 1 2 2 主机 A 主机 C 运作 3 主机 B 作为备份 4 客户机 A 由主机 A 的 A1 口支持 5 客户机 C 由主机 C 的 C1 口支持 2 主机 A 故障 1 主机 B 接管 DAS AP Database IP 地址 2 主机 B 更换 IP 地址 B1 A1 双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 11 3 客户机 A 连接到主机 B 的 A1 口 3 主机 C 故障 1 主机 B 接管 DAS AP Database IP 地址 2 主机 B 更换 IP 地址 B2 C1 3 客户机 C 连接到主机 B 的 C1 口 4 主机 A C 同时故障 1 主机 B 接管 DAS AP Database IP 地址 2 主机 B 更换 IP 地址 B1 A1 3 客户机 A 连接到主机 B 的 A1 口 4 主机 B 更换 IP 地址 B2 C1 5 客户机 C 连接到主机 B 的 C1 口 2 2 VCS 双机技术双机技术 2 2 1 什么是什么是 VCS VERITAS Cluster Server 简称 VCS 是用于容灾的集群软件支持多达 32 个节点的应用级切换保证业务系统的软硬件高可用性 VCS 以其出色的可靠性和易管理性闻名 VCS 主要负责以下功能 1 VCS 负责监控和管理硬件系统和操作系统当出现故障时进行切换 2 通过数据库代理 Agent 监控和管理数据库系统当出现故障时进行切换 3 通过 API 或脚本编写针对性客户化应用代理监控和管理应用系统当出现故障时进行切换 4 通过 Replicator 代理监控和管理数据复制过程当主服务器数据复制发生故障时自动将数据复制工作切换到后备服务器保证数据复制过程的连续性这点对于容灾系统非常重要 VERITAS Volume Manager 简称 VxVM 将在物理磁盘上建立多个或一个逻辑卷 Volume 以裸设备的方式使用卷或在卷上建立文件系统将数据特别是需要进行远程复制的相关文件系统数据库存放在卷上由于数据复制是基于卷的所以 Volume 是进行复制的基础 VERITAS Volume Replicator 简称 VVR 负责远程数据复制 VVR 复制基于 Volume 进行复制的数据可以是数据库中的数据文件方式或裸设备方式和文件 Storage Replicator Log 简称 SRL 是 VVR 中的重要部件将数据复制各方的某个卷定义为双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 12 一个 SRL 需要复制的数据首先要写入 SRL 然后传到异地 VVR 通过 SRL 保证数据复制严格按照写顺序进行这在异步工作方式下非常重要当网络中断或异地系统出现故障时本地数据将记录在 SRL 中等系统恢复正常时再将 SRL 中的数据按照先进先出的顺序传送到异地当 SRL 满后 VVR 将通过 Data Chang Map 简称 DCM 记录变化过的数据块的块号 Data Change Map 简称 DCM 与主节点的 RVG 相关它其中的内容是位图信息记录某一时间点后修改过的数据块位置 DCM 在正常情况下不使用在 SRL 满后记录变化的数据块的块号当恢复正常复制后等 SRL 中的数据传送完后将 DCM 中记录的块传送到异地灾难恢复后的反向复制也用到 DCM VCS 是 HA 高可用性双机软件该技术多应用于 NGN 中的 EMS 网管服务器可装于 windows 和 unix 平台其 cluster 群集包含应用程序 EMS 网管程序数据库应用程序等 NODE 节点两台配置一样的服务器 storage 共享存储介质共享磁盘阵列 private network 私有网络传递 node 间的心跳信息 2 2 2 其他概念其他概念 1 服务组 1 一个服务所需要的一组资源的组合 2 资源失败会引起组的 Failover 失效切换 3 服务组有不同类型 4 服务组可依赖于别的服务组 1 组依赖关系父依赖于子资源可依赖于其他资源不可循环依赖 2 组之间的依赖规则可多个父只有一个子最多 3 层依赖双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 13 图 2 2 1 组之间依赖规则 3 组依赖类型 Online Local 图 2 2 2 online local Online Global 双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 14 图 2 2 3 online globle 2 资源 1 服务组内的项 2 VCS 可监控控制的软硬件 component 组件 3 大多数资源可由 VCS 进行启停 4 可分为多种类型 5 可依赖于其他资源 1 资源类型 Non persistent Resources 非持久化资源 Operations OnOff Persistent Resources 持久化资源 Operations OnOnly Operations None 2 资源依赖关系父依赖于子子必须在父 online 之前先 online 父必须在子 offline 之前先 offline 双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 15 父不能是持久化资源不能在不同资源组的资源之间建立 link 关系资源可以有非唯一的父或者子图 2 2 4 资源依赖关系 2 2 3 VCS 架构架构分成三层 User space Kernel processes 核心进程 Hardware 如图 2 2 5 架构 1 User space 包括以下几部分 1 Agent 代理 Agent 可以将资源 online 将资源 offline 监控资源的状态一个 VCS 的 agent 可监控同一资源类型的多个资源 VCS engine 根据配置启动需要的 agent 类型每种 agent 有一个与其相关联的资源类型 agent 可管理这种类型的资源 2 HAD 引擎 high availability daemon HAD 维护配置信息包括 cluster 中所有的 service groups 服务组 resources 资源 HAD 与系统中不同的 agent 通讯监视 resources 的状态信息提供 CLI 和 GUI 方式进行配置 2 Kernel processes 包括以下几部分双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 16 1 GAB Global Atomic Broadcast Runs over LLT 2 LLT Low Latency Transport Kernel to Kernel Communications 核心进程之间通信 Heartbeat only links 心跳 3 Hardware 即磁盘阵列图 2 2 5 架构 2 2 4 工作原理工作原理基本工作原理见 1 3 原理实现 2 2 4 1 工作原理工作原理 VCS 自身的原理简单说明如下 1 一个 cluster 包含的 node 节点连接至 shared storage 共享存储介质 2 GAB 可靠的维护 cluster 中成员关系双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 17 3 LLT 在 node 之间通过 2 根私有心跳线传递可靠的心跳信息 4 HAD 启动时读取 Service Groups 的配置文件来管理资源之间的依赖关系 2 2 4 2 双机切换双机切换 1 手工双机切换使资源组运行在一个节点上如 ZXNM01CLUSTER1 节点上选中 ZXNM01CLUSTER1 节点选择 Switch 到 ZXNM01CLUSTER2 节点操作切换资源组操作资源组 nms grp 会自动切换到 ZXNM01CLUSTER2 节点上 2 运行节点上的程序故障系统自动切换双机系统中当运行资源组的节点上被监测的程序出现故障时系统会通过监测程序监测到故障自动切换到备份节点上可以手工模拟程序故障如手工杀死 Sqlserver 数据库的进程手工关闭网管系统服务器等进行测试 3 运行节点系统关闭系统自动切换双机系统中当运行资源组的节点出现硬件故障或电源故障时系统会自动切换到备份节点上可以手工模拟运行节点关闭的故障例如当资源组运行在 ZXNM01CLUSTER1 上时关闭 ZXNM01CLUSTER1 资源组自动切换到 ZXNM01CLUSTER2 2 2 5 基本组网基本组网实际应用中的组网如下图图 2 2 6 双机组网双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 18 2 3 VCS 常用操作常用操作 2 3 1 要点讲解要点讲解 1 VCS 的全局性是它的重要的特点 Ha 进程的启动停止都与全局有关 VCS 图形管理界面无论连接是哪一台机器所看到的东西是一模一样的通过图形管理界面进行的修改是全局性的会自动同步到每一台机器上 VCS 中最重要的配置文件 etc VRTSvcs conf config main cf 的内容在每台机器上都是一样的 2 VCS 在每台服务器有两个进程 had 和 hashadow 他们为相互保护进程 3 VCS 的客户端图形管理界面可以在 WIN2000 和 SUN 上安装在 SUN 上打开图形管理界面使用命令 hagui 如果是第一次打开图形界面需要增加管理服务器连接即输入连接管理服务器的 IP 地址 VCS 图形管理界面缺省的登陆用户为 admin 密码为 password 4 检查 VCS 在整个集群中的运行状况使用命令 5 hastatus sum 或 hasys display 6 将显示集群中各个服务器上 VCS 的运行状况 7 通过图形界面增加 1 Service Group 注意该 SG 在哪些服务器间切换和不同服务器的切换优先级 2 Resource 注意 resource 的 enable 和 critical 标志 enable 指 VCS 将监控该资源 critical 指该资源 fail 将导致 VCS 将整个 Service Group 切换到另外一台服务器在 VCS 调试阶段最好将 service group 中所有资源都不要设置为 critical 以免频繁的切换影响调试 Resource 之间可以通过连线建立相互依赖关系在某个 resource 点右键可以让 VCS 选对该资源立即进行一次状态探测 Probe 3 当某服务器上某一个 VCS 管理下的资源出错后 VCS 会将 service group 切换到另为一台服务器但在图形界面中出错服务器的该资源上打一大红叉这时需要进行 clear 否则 VCS 无法再将 service group 切换回该服务器 4 Service group 可以通过图形界面进行 online 和 offline 还可以用 switch to 将 service group 从一台服务器切换到另一台 5 可以将 service group 冻结 freeze 和解冻 unfreeze Freeze 指 VCS 指监控所管理的资源这些资源的 online 和 offline 不会导致任何 VCS 的切换动作如果需要进行服务器或应用的调试应该将 service group 冻结 8 在图形界面中进行配置修改时 VCS 将询问是否将配置文件打开如果打开配置文件进行配置修改在修改后一定要用鼠标点击工具栏上的存盘图标 VCS 将修改的配置从各台服务器的内存写入配置文件然后按关闭配置文件的图表将打开的配置文件关闭双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 19 9 VCS 的心跳使用协议 llt 和 gab 分别为内核模块通过 modinfo grep llt 和 modinfo grep gab 可以看到检查心跳可以在任何一台服务器上进行举例如下 omctest1 gabconfig a GAB Port Memberships Port a gen e4c10003 membership 01 Port h gen 15620002 membership 01 01 代表两台服务器的两个心跳的 gab 广播都正常 omctest1 lltstat n LLT node information Node State Links 0 netra1 OPEN 2 1 netra2 OPEN 2 表示两台服务器的两个心跳 llt 正常 1 代表 netra2 发出的 lltstat 命令 10 常用的 VCS 启动和关闭命令在一台服务器上 VCS 要正常除了需要 had 和 hashadow 进程运行外还需要 gab 和 llt 由于 gab 和 llt 属于内核模块所以除了打补丁外不需要手工进行停止和启动 VCS 的启动需要在每台服务器上进行常用命令如下 1 hastart 标准启动方法 2 VCS 的停止可以在任何一台服务器上停掉整个集群所有服务器的 ha 进程也可以在每台服务器上各自停掉 3 hastop all 在一台服务器上停整个集群的 ha 进程 4 hastop local 服务器停本机的 ha 进程 5 hastop all force 在一台服务器上停整个集群的 ha 进程但不将 VCS 管理下的资源 offline 即让资源继续运行在实际工作中应该使用该命令以避免停止 VCS 时将有关的数据库或应用也一并停止 6 hastop local force 服务器停本机的 ha 进程但不将 VCS 管理下的资源 offline 11 切换 Oracle 需要建立 Oracle service group 建立前需要在图形界面上选中 File Import types 在出现的窗口中选 etc VRTSvcs conf OracleTypes cf 将 Oracle 的 types 文件装入 VCS 为 Oracle 建立的 service group 和 resource 的依赖关系请参看附件的 main cf 配置文件 12 VCS 可以对应用进行切换保护标准的 VCS Application 监控和切换模块需要每一个被双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 20 监控的应用程序有启动程序停止程序和监控程序如果应用程序不满足该条件则需要技术人员编写客户化监控模块 13 在某个服务器当某个被 VCS 监控的资源 fail 时 VCS 可以该资源进行本地重起而不是直接将整个 service group 切换到另外一台服务器一般对应用的监控使用该功能当应用 fail 时先尝试本地重起例如重起两次如果还不能正常启动再将 service group 切换到另一服务器 14 需要修改的参数点击 Application Type 显示其所有属性修改 RestartLimit 为 3 15 VCS 对所有被监控资源缺省 60 秒钟进行一次状态探测如果需要将探测时间间隔缩小例如可以将某个资源类型的 MonitorInterval 设为 30 秒 16 当 VCS 的图形界面打开了配置文件而在退出时没有存盘或者在配置文件打开状态下停掉 VCS 进程或者手工修改了 main cf 而语法出错时当用 hastart 命令启动 ha 进程时会造成 VCS 进入陈旧模式需要管理员干预 VCS 无法正常工作该现象处理方法如下 1 hastart 在两台服务器上分别启动 ha 进程 2 hastatus sum 或 hasys display 显示 STALE DISCOVER WAIT 而不是 RUNNING 如下 SYSTEM STAT System State Frozen A INITING 0 A omctest1 STALE DISCOVER WAIT 0 3 hastop all force 将所有服务器上 ha 进程停掉 4 在其中一台服务器上 hastart force 强行启动 VCS 5 在该服务器上 hastatus sum 或 hasys display 发现 VCS 在该服务器上运行正常 6 在其他服务器上用 hastart 进行正常启动 2 3 2 手工操作手工操作当进行应用或数据库调试时为了避免 VCS 发现错误进行切换要将 VCS 中有关的 service group 冻结但是这样就不能通过 VCS 控制有关的资源了这时所有资源的控制需要手工进行调试完后将 service group 解冻方法如下冻结方法鼠标右键点击需要冻结的服务组选择 Freeze Temporary 或者 Persistent 冻结后在 Oracle 或者 OMC 正运行的服务器上双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 21 1 停掉 Oracle 2 ifconfig a 看 listener 使用的 ip 地址指 10 51 65 17 绑定在哪个网口 3 例如绑定在 ce0 1 口上 ifconfig ce0 1 down 4 umount data 5 vxdg deport oradg 将 oradg 的控制权释放在另外一台服务器上 1 vxdg t import oradg 取得 oradg 的控制控制权 2 vxvol g oradg startall 激活 oradg 中所有的 volume 3 mount F vxfs dev vx dsk oradg datavol data 4 ifconfig a 检查网口使用情况 5 ifconfig ce0 1 plumb 激活 ce0 1 逻辑网口也可以是 ce0 2 6 ifconfig ce0 1 10 51 65 173 netmask 255 255 192 0 up 将 ip 地址绑定并激活 7 su oracle 8 启动 Oracle 服务完成调试后解冻服务组解冻方法鼠标右键点击需要解冻的服务组选择 Unfreeze 2 4 VCS 软件应用软件应用 2 4 1 VCS 管理界面密码修改的方法管理界面密码修改的方法问题描述问题描述 VCS 管理界面密码修改的方法分析处理分析处理 VCS 的管理界面的登陆密码可以修改修改方法如下在 VCS 管理界面中选择 File User Manager 在弹出的对话框中选择 Chang Password 输入新密码确定注意修改后请牢记密码否则登陆会失败双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 22 修改密码后一定要保存 VCS 配置工具栏中第三按钮这样密码才能生效 2 4 2 VCS 检查心跳的方法检查心跳的方法 VCS 检查心跳的方法 lltstat n LLT node information Node State Links 0 zxnm01cluster1 OPEN 2 1 zxnm01cluster2 OPEN 2 以上返回信息表示两个主机的两个心跳 llt 正常表示是 zxnm01cluster2 发出的 lltstat 命令 gabconfig a GAB Port Memberships Port a gen 179d03 membership 01 Port h gen 179d05 membership 01 1 代表两个主机的两个心跳的 gab 广播都正常 2 4 3 VCS 检查运行状态的方法检查运行状态的方法 VCS 检查运行状态的方法 hastatus sum SYSTEM STATE System State Frozen A zxnm01cluster1 RUNNING 0 A zxnm01cluster2 RUNNING 0 以上两个主机的运行状态都是 RUNNING 表示双机的 VCS 的运行状态完全正常 2 4 4 异常情况下启动异常情况下启动 VCS 的方法的方法异常情况下启动 VCS 的方法有以下两种情形可能会导致 VCS 无法正常启动双机组网与原理实现内部公开内部公开本文中的所有信息归中兴通讯股份有限公司所有未经允许不得外传 23 1 当在 VCS 的管理界面进行了配置在没有保存配置的情况下例如在退出 VCS 管理界面序时没有保存配置重新启动

人人文库> 全部分类> 教育资料 > 课设设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

双机组网与原理实现.doc

文档简介

温馨提示

最新文档

评论

双机组网与原理实现.doc

文档简介

温馨提示

最新文档

评论

相关文档