双机组网与原理实现.doc_第1页
双机组网与原理实现.doc_第2页
双机组网与原理实现.doc_第3页
双机组网与原理实现.doc_第4页
双机组网与原理实现.doc_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内部公开内部公开 双机组网与原理实现双机组网与原理实现 编者 戴耀方 审核 郝世强 中兴通讯固网交换用服部中兴通讯固网交换用服部 内部公开内部公开 修改记录修改记录 文档 编号 版本号 拟制人 修改人 审核人 拟制 修改 日期 更改理由 主要更改内容 写要点即可 无V1 00戴耀方郝世强2008 1 108 年专题文档光盘编写初稿生成 内部公开内部公开 目目 录录 第第 1 章章 双机公共知识双机公共知识 1 1 1 应用背景 1 1 2 基本组网 2 1 3 原理实现 2 第第 2 章章 常用双机技术常用双机技术 5 2 1 MICROSOFT CLUSTER SERVER 简称 MSCS 集群技术 5 2 1 1 MSCS 5 2 1 2 数据库管理系统选择 6 2 1 3 故障恢复 7 2 1 4 工作模式及类型 8 2 2 VCS 双机技术 11 2 2 1 什么是 VCS 11 2 2 2 其他概念 12 2 2 3 VCS 架构 15 2 2 4 工作原理 16 2 2 5 基本组网 17 2 3 VCS 常用操作 18 2 3 1 要点讲解 18 2 3 2 手工操作 20 2 4 VCS 软件应用 21 2 4 1 VCS 管理界面密码修改的方法 21 2 4 2 VCS 检查心跳的方法 22 2 4 3 VCS 检查运行状态的方法 22 2 4 4 异常情况下启动 VCS 的方法 22 2 4 5 Oracle 数据库切换后无法启动的问题 23 2 4 6 VCS 资源组或资源出现错误 24 2 4 7 VCS 的卸载 25 2 4 8 VCS 配置与日志文件 26 2 4 9 修改 VCS 的配置后未保存引起系统重启后 VCS 无法启动 26 2 5 VCS 维护经验 26 2 5 1 VCS 上对 EMS 应用如何启用双浮动 IP 26 2 5 2 VCS4 2 在 A 机与 B 机之间不能正常切换 26 2 5 3 广东固网项目 VCS 双机网管服务器安装经验 27 内部公开内部公开 2 5 4 双机中一个节点 Fail 状态下另一节点重起的问题 33 2 5 5 网管双机一台主机损坏重新安装注意事项 34 2 5 6 网管双机不能正常切换及节点间切换后网管应用不能运行 34 2 5 7 双机中浮动 IP 的问题 35 2 5 8 Windows 平台下网管双机软件版本 VCS4 2 升级到 VCS4 3 的问题 38 2 5 9 VCS4 2 升级到 VCS4 3 版本的步骤参考 39 附录附录 5 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 1 第第 1 章章 双机公共知识双机公共知识 摘要 摘要 本章介绍双机技术的应用背景 基本组网和原理实现 1 1 应用背景应用背景 目前业务系统对数据库服务器有如下要求 1 超强的承载能力 业务系统中对数据库操作是一种最基本的操作 数据库服务器必须应 对大量的查询并做出适当且及时的应答 2 对大量并发用户的查询做出实时响应 大量并发用户的同时访问对系统的带宽提出了极 高的要求 否则极易发生堵塞 造成极慢的查询应答甚至于死机 3 可靠性和可用性要求 要求本系统具有很高可靠性和可用性 基本做到一年 365 天 7 24 小时不间断工作 4 扩充能力强 系统要求在处理能力 存储容量 I O 能力行节点数方面都具有较强的扩 充性 以便在将来随着业务的扩展能对系统进行扩充 5 要求系统具有很强的开放性和适应性 因此 对于数据信息业务应用的核心 数据库服务器的设计 应该具有以下考虑 1 数据不能因为该服务器偶尔出现故障而使其中的数据不可恢复 即应用系统瘫痪 2 存储在硬盘上的数据不应因为某一磁盘的故障而不能访问这些数据 关于前面一点 为避免计算机系统的单一故障点 采取的策略是采用双机 或多机 系统 这样当一台主机出现故障时 另一台主机同样能访问这些数据 即在任何一台主机 单点 出现 故障时 系统可以将用户的应用自动转向另外一台主机 对同一数据文件进行存取 在正常情况下 系统软件会根据两台主机的繁忙情况自动对多个应用进行负载均衡 对用户 而言 系统是透明的 只感觉到是一台服务器在运行 这样便提高系统的整体可靠性 关于后面一点 主要目的是要防止由于存储公用数据的磁盘故障而造成数据丢失 从而使整 个中心服务器系统瘫痪 为避免系统的这一单一故障点 目前最经济的实用技术是采用 RAID 技 术 通过冗余数据保证单一硬盘出错时存储的数据还可用 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 2 1 2 基本组网基本组网 双机的基本网络结构如图 1 2 1 双机组网 两台配置一样的服务器 也支持不一样的服务器 但实际应用中都是一样的 和一个共享磁盘阵列 两台服务器与磁盘阵列通过 SCSI 控制线或者光 纤连接起来 两台服务器各配置两块网卡 一块用于私网 作用 两台服务器之间的心跳信号 一块用于公网 作用 对外和客户端接入 图 1 2 1 双机组网 1 3 原理实现原理实现 目前 NGN 工程或者商用局使用双机的地方是 EMS 网管服务器和计费服务器 EMS 服务器一 般使用 HA High Availability 高可用 双机容错软件 VCS 实现双机功能 计费服务器使用微软 的群集技术 MSCS 实现双机功能 根据功能不同 可以分本地双机热备份系统和异地双机热备份系统 1 本地双机热备份系统 如图 1 3 1 本地双机 特点 双机群集系统中所有的节点的距离不大于 5KM 各节点共享数据资源 功能 节点之间实现状态监控和故障切换 对外提供几乎不间断的服务 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 3 图 1 3 1 本地双机 国内 NGN 工程或者商用局大多使用本地双机热备份系统 在本地双机系统中 主用服务器和备用服务器在一个局域网内 它们连接到同一磁盘阵列上 数据库中的数据和其他会出现变化的数据驻留于磁盘阵列上 以保证主 备机上数据的一致性 正常情况下 主用系统处于运行状态 向外提供服务 备用系统处于热备用状态 监测着主用服 务器的状态 主用服务器和备用服务器之间通过心跳线监视相互的状态 当备机发现主机处于故 障状态 如应用程序异常 硬件异常 宕机等 则通过 HA 双机容错软件 或者微软群集 重新 启动服务或者将主机上所有的服务 切换到备机上运行 切换后的数据保持完全的一致性 主机 和备机共用一个虚拟浮动 IP 地址向外提供服务 对客户端提供完全透明的服务 主机和备机共用 处于磁盘阵列上的数据系统 磁阵配制成 RAID 方式 2 异地双机热备份系统 如图 1 3 2 异地双机 特点 双机群集系统中节点的距离较远 一般位于不同的城市 异地之间的节点进行数据备 份 以实现系统的容灾功能 功能 除了提供本地双机热备份系统所提供的功能外 还提供系统的异地容灾功能 组成 分布在异地的两套本地双机系统 组成异地双机系统 NGN 国外工程中异地双机用的比较多 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 4 图 1 3 2 异地双机 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 5 第第 2 章章 常用双机技术常用双机技术 摘要摘要 目前 NGN 工程中常用的双机技术有 MSCS 和 VCS 本章分别介绍这两种双机技术 本 章介绍的双机技术属于基本的原理 有些描述和实际的工程应用可能有不一样的地方 请读者区别 实际工程应用安装请参照相关安装文档 2 1 Microsoft Cluster Server 简称 简称 MSCS 集群技术集群技术 该技术多应用于 NGN 中的计费服务器双机组网 2 1 1 MSCS Microsoft Cluster Server 简称 MSCS 提供了一个完全容错的软件解决方案 并提供数据 应用程序和通信资源的高度可用性 Microsoft Cluster Server 不需要任何特别的容错硬件 你可以 集合使用二到十六个 NT 结点工访问特定地点的配置数据 然后 Microsoft Cluster Server 会自动 地提供错误检测和多层现场恢复 在出现故障的情况下 Microsoft Cluster Server 会将保护资源自动转换到一个根据优先权而设 定的系统 在实际进行切换用户时 会经历一个十分短暂的休眠 但是 当系统完成了切换操作 后 Microsoft Cluster Server 会在所选择的系统上自动地恢复操作 双机之间靠心跳检测对方服务器是否工作正常 1 故障检测 HEARTBEAT 心跳 Microsoft Cluster Server 在集群节点间保持着间歇的通信信号 也叫做心跳信号 是错误检测 的一个机制 即通过每一个通信路径 在两个对等系统之间进行周期性的握手 如果连续没有收 到的心跳信号到了一定的数目 Microsoft Cluster Server 就把这条路径标示为失效 红色 如果 你只定义了一条通信路径 当 Microsoft Cluster Server 把这唯一的一条通信路径标为失效时 Microsoft Cluster Server 便立即开始恢复过程 然而 如果你有冗余路径 Microsoft Cluster Server 能够通过第二条路每项确定是系统故障还是只是通信路径有问题 如果 Microsoft Cluster Server 开 启优先级第一条通信路径并收到了心跳信号 它就不开始 FAILOVER 失效切换 恢复 只需要 把第一条通信路径标成红色 失效 作为信号告诉你需要修理一下有故障的路径 一般情况下 Microsoft Cluster Server 只在下列事件发生时 启动系统恢复功能 所有的通信路径故障 如果所有节点都没有收到心跳信号 把所有通信路径都标为失效 Microsoft Cluster Server 开 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 6 始安全检查 安全检查失败 当所有通信路径故障时 Microsoft Cluster Server 向整个网络发出安全检查信号 如果信号指 出配对系统还 活 着的时候 Microsoft Cluster Server 不启动 FAILOVER 失效切换 如果安全 检查没从配对节点返回信号 Microsoft Cluster Server 就开始 FAILOVER 失效切换 因而 为了减少由于潜在的通讯错误所引起的不必要的系统切换 建议您使用不同介质的多 条通信路径 2 通信路径 Microsoft Cluster Server 支持在节点之间和心跳通讯中 使用如下的通讯路径 1 SOCKET 即套接字你使用任何的网络硬件接口 只要它能够支持 TCP IP 的通讯协议 这样的硬件包括 以太网 快速以网 令牌环网以及 FDDI 或 CDDI 2 串行口 Microsoft Cluster Server 配置中 你应当配置有一个串行口通信路径 串口通信 路径需要利用 RS232 的拟调解线路来与 Microsoft Cluster Server 系统相连接 3 共享磁盘 你可以定义一个共享磁盘分区来作为 Microsoft Cluster Server 的通讯中介 可 以只使用小至 1MB 的分区 当然 也可以使用更大的空间 Cluster 群集 假定 当通过心跳信号检测其它服务器失败时 则认为此服务器是关闭的 因此 为了避免不必要的失效切换 最好建立两种以上独立的物理路径 使用至少两种心跳 例如 如果两个服务器被一个串口连接起来 并且 从属连接起来 并且 从属服务器来的 心跳信号无法被主服务器所检测到 则下面之一是可能引起这一现象的原因 服务器的 RS 232 卡或者端口失败 电缆失效 主服务器暂时挂起 主服务器失败 失效切换只可能在最 后一种情况下才发生 因此 节点间的多种通信路径可以帮助避免不必要性的失效切换 3 共享的 SCSI 和 Microsoft Cluster Server 软件锁定 Microsoft Cluster Server 软件锁定 Microsoft Cluster Server 管理共享磁盘上的数据 以防 止多个服务器在同一时间访问数据 LIEFKEEPER 在逻辑设备级 卷 上控制对数据的访问 并让 WINDOWS NT 软件或硬件 RAID CONTROLLERS 管理体制物理级 有了 Microsoft Cluster Server FOR WINDOWS NT 来管理对共享数据的访问 用户就可以不必担心群中的其 它服务器访问数据时 可能会带来的数据访问冲突 Microsoft Cluster Server 自动在被应用程 序定义为共享资源的磁盘卷上设置锁定 当被子保护的应用程序由一个服务器被子移动 转换 到另一个服务器时 Microsoft Cluster Server 控制这些锁定 以保证激活服务器对共享卷的访 问 在主系统发生故障的情况下 次节点系统将能够在磁盘上建立 SCSI 锁定 并在备分的系 统上将资源投入使用 2 1 2 数据库管理系统选择数据库管理系统选择 数据库管理系统应选择主流大型网络数据库管理系统如 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 7 SYBASE SQLSERVER INFORMIX ORACLE DB2 等 这些数据库管理系统在功能上大同小 异但各有所长 在语言和语法上差别较大 选择时要从以下几个方面来考虑 1 操作系统平台对数据库的支持程度 2 具有满足实际应用的数据管理能力 3 是标准化的数据库语言 ANSI SQL 4 具有数据库客户机 服务器结构 5 采用开放式的数据库联结标准 ODBC 易同其它数据库管理系统异构 6 数据与程序易于在不同平台之间移植 7 具有强大的网络功能 支持现有的各种网络协议 8 系统性能价格比高 并具有良好的延展性和售后服务 9 支持中文处理 开发和使用工具丰富 并易学易用 界面友好 10 数据库管理系统的运行具有很高的安全性和稳定可靠性 在 Windows 2000 Advanced SERVER 操作系统平台对 Microsoft SQL SERVER 数据库的支持程 度最好 所以一般在 MSCS 中选择 Microsoft SQL SERVER 数据库系统 2 1 3 故障恢复故障恢复 1 LOCAL RECOVERY 局部恢复 Microsoft Cluster Server 在快速检查 QUICKCHECK 和深入检查 DEEPCHECK 的时间间 隔执行预先定义的行为 以察看资源本身是否失效 如果快速检查和深入检查均局部千失败 系统将尝试局部恢复资源 如果尝试成功 资源将不会向下一优先级的节点进行失效切换 FAILOVER 如果局部恢复尝试失败 系统将向下一优先级的节点进行失效切换 例如 你可以在 Microsoft Cluster Server 服务器上配置多块 NIC 卡 网卡 当定义的 NIC 发生故障时 你就可以配置将 IP 资源切转到另一个 NIC 上 从而避免不必要性的失效切换 2 FAILOVER 失效切换 指定主要的节点或资源失败时 重新恢复资源的过程 一个失效切换通常是没有事先计划的 它将发生在一个被子从属系统所检测到并确定为失败的情况下 3 ACS 管理员可配置的迁回 ADMINISTRATOR CONFIGURABLE SWITCHBACK 简称 ACS 允许 Microsoft Cluster Server 管理员通过命令行或 GUI 通用用户接口 界面来指定资源 即所在 LK 节点发生故障 而后又恢复正常 该资源将被自动地切换回到原来节点上 可能的值是 INTELLIGENT 智 能的 和 AUTOMATIC 自动的 如果选择 AUTOMATIC 那么 一旦发生故障的节点回 到服务状态时 被配置失效切换的层次都将被切换回到该节点上 如果策略是 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 8 INTELLIGENT 即使当性故障的节点回到服务状态时 被配置失效切换的层次也会留在它们 被失效切换到的节点上 等待由管理员决定合适的时间进行切换 4 SWITCHOVER 切换 指用一个有顺序的方式关闭资源 然后将它们恢复到一个备份系统的过程 这通常发生在当 你处于维护或者测试模式中的情况下 这时 没有任何东西失败 2 1 4 工作模式及类型工作模式及类型 双机有多种工作模式 2 1 4 1 双机主从式备份 双机主从式备份 Active Standby 在一个激活 备用对中 主节点处于处理状态 从属节点处于备用状态 以防主节点上发生失 败 备用系统可以是一个小一点 性能低一点的系统 但是 当主节点失败时 它必须有保证资 源可达性的处理能力 1 双主机通过一条 TCP IP 网络线以及一条 RS 232 电缆线相联 2 双主机各自通过一条 SCSI 电缆线与 RAID 相联 3 主机 A 为 Active 主机 B 为 Standby 4 主机 A 处理作业和数据 主机 B 作为热备份机 5 主机 A 故障后 主机 B 自动接管主机 A 的作业和数据 6 主机 B 同时接管 A 的主机名 Host 及网络地址 IP 7 主机 A 的作业将在主机 B 上自动运行 8 主机 B 现为 Active 主机 A 修复后 根据需要作为 Standby 或 Active 2 1 4 2 主机主机 A 的客户 的客户 client 可继续运行 根据应用 无需重新登录 可继续运行 根据应用 无需重新登录 1 正常操作 1 侦测连接 RS232 Ethernet1 2 主机 A 设定为主机 3 主机 B 设定为从机 4 客户机 A 与主机 A 的 P1 口连接 2 主机 主机 A 故障 1 主机 B 接管 DAS AP Database IP 地址 2 更换主机 B 的 IP 地址 S1 P1 3 主机 B 设定为主机 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 9 4 客户机 A 连接在主机 B 的 P1 口 3 主机 A 修复 1 主机 A 设定为从机 2 更换主机 A 的 IP 地址 P1 S1 2 1 4 3 双机双工热备份 双机双工热备份 Active Active 在一个激活 激活对中 两个节点都是激活的处理器 但是它们也可分别作为其对应节点上的 资源和资源层次的从属节点 双主机通过一条 TCP IP 网络线以及一条 RS 232 电缆线相联 双主机各自通过一条 SCSI 电缆线与 RAID 磁盘阵列相联 双主机各自运行不同的作业 彼此独立 并相互备援 主机 A 故障后 主机 B 自动接管主机 A 运行 主机 A 的作业将在主机 B 上自动运行 主机 A 的客户 client 要在主机 B 上重新登录 主机 A 修复后 主机 B 将把 A 的作业自动交还主机 A 已经连到主机 B 上的 A 的客户需要在主机 A 上重新登录 主机 B 故障时 主机 A 接管主机 B 的作业和数据 主机 B 修复时 主机 A 再将原来接管的作业和数据交还主机 B 1 正常操作 1 侦测连结 RS232 Public net 2 主机 A 通过 P1 支持客户机 A 3 主机 B 通过 P2 支持客户机 B 2 主机 A 故障 1 主机 B 接管 DAS AP Database 2 客户机 A 重新连接到主机 B 的 P2 口 3 主机 B 通过 P2 同时支持客户机 A B 3 主机 A 修复 1 主机 B 自动释放 DAS AP DataBase 2 主机 A 自动收回 DAS AP DataBase 4 主机 B 故障 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 10 1 主机 A 接管 DAS AP Database 2 客户机 B 重新连接到主机 A 的 P1 口 3 主机 A 通过 P1 支持客户机 A B 5 主机 B 修复 1 主机 B 自动释放 DAS AP DataBase 2 主机 A 自动收回 DAS AP DataBase 2 1 4 4 多机热备份 多机热备份 N way N 3 16 主机 A 有最高的优先级 主机 B 有第二优先级 而主机 C 有最低优先级 按优先级次序测验 主机来决定在失效切换时哪一个服务器将进行工作 N WAY 配置是激活 激活或激活 备用的一个有三到十六个服务器的扩展 服务器 A 被配置为服务器 B 和服务器 C 的备份 服务器 A 可以被配置为除了服务器 B 和服务器 C 的其他服务器做备份 当任何一个服务器发生故障时 被保护的应用程序被从该服务器上转到备用的服务器上 在 N WAY 配置中 可以配置 层叠恢复 当 Active 主机发生故障时 层叠恢复允许多个从属在 N WAY 配置中 可以配置 CASCADING RECOVERY 层叠恢复 当主机发生故障时 层叠恢复允多个从属主 机被按照一定的优先级次序恢复一个资源或层次 对于在一对主机上的资源恢复 如果主机 A 发生故障了 资源将会失效切换到主机 B 上 如果主机 B 再发生故障而主机 A 仍然不可用 资源将会失效切换到主机 C 上 多个从 属主机被指定一个恢复优先级 1 正常操作 1 侦测连接 RS232 以太网 1 2 2 主机 A 主机 C 运作 3 主机 B 作为备份 4 客户机 A 由主机 A 的 A1 口支持 5 客户机 C 由主机 C 的 C1 口支持 2 主机 A 故障 1 主机 B 接管 DAS AP Database IP 地址 2 主机 B 更换 IP 地址 B1 A1 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 11 3 客户机 A 连接到主机 B 的 A1 口 3 主机 C 故障 1 主机 B 接管 DAS AP Database IP 地址 2 主机 B 更换 IP 地址 B2 C1 3 客户机 C 连接到主机 B 的 C1 口 4 主机 A C 同时故障 1 主机 B 接管 DAS AP Database IP 地址 2 主机 B 更换 IP 地址 B1 A1 3 客户机 A 连接到主机 B 的 A1 口 4 主机 B 更换 IP 地址 B2 C1 5 客户机 C 连接到主机 B 的 C1 口 2 2 VCS 双机技术双机技术 2 2 1 什么是什么是 VCS VERITAS Cluster Server 简称 VCS 是用于容灾的集群软件 支持多达 32 个节点的应用级 切换 保证业务系统的软硬件高可用性 VCS 以其出色的可靠性和易管理性闻名 VCS 主要负责 以下功能 1 VCS 负责监控和管理硬件系统和操作系统 当出现故障时进行切换 2 通过数据库代理 Agent 监控和管理数据库系统 当出现故障时进行切换 3 通过 API 或脚本编写针对性客户化应用代理 监控和管理应用系统 当出现故障时进行 切换 4 通过 Replicator 代理监控和管理数据复制过程 当主服务器数据复制发生故障时 自动 将数据复制工作切换到后备服务器 保证数据复制过程的连续性 这点对于容灾系统非 常重要 VERITAS Volume Manager 简称 VxVM 将在物理磁盘上建立多个或一个逻辑卷 Volume 以裸设备的方式使用卷 或在卷上建立文件系统 将数据 特别是需要进行远程复制的相关文件 系统 数据库 存放在卷上 由于数据复制是基于卷的 所以 Volume 是进行复制的基础 VERITAS Volume Replicator 简称 VVR 负责远程数据复制 VVR 复制基于 Volume 进行 复制的数据可以是数据库中的数据 文件方式或裸设备方式 和文件 Storage Replicator Log 简称 SRL 是 VVR 中的重要部件 将数据复制各方的某个卷定义为 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 12 一个 SRL 需要复制的数据首先要写入 SRL 然后传到异地 VVR 通过 SRL 保证数据复制严格 按照写顺序进行 这在异步工作方式下非常重要 当网络中断或异地系统出现故障时 本地数据 将记录在 SRL 中 等系统恢复正常时再将 SRL 中的数据按照先进先出的顺序传送到异地 当 SRL 满后 VVR 将通过 Data Chang Map 简称 DCM 记录变化过的数据块的块号 Data Change Map 简称 DCM 与主节点的 RVG 相关 它其中的内容是位图信息 记录某一 时间点后修改过的数据块位置 DCM 在正常情况下不使用 在 SRL 满后记录变化的数据块的块 号 当恢复正常复制后 等 SRL 中的数据传送完后 将 DCM 中记录的块传送到异地 灾难恢复 后的反向复制也用到 DCM VCS 是 HA 高可用性 双机软件 该技术多应用于 NGN 中的 EMS 网管服务器 可装于 windows 和 unix 平台 其 cluster 群集 包含 应用程序 EMS 网管程序 数据库应用程序等 NODE 节点 两台配置一样的服务器 storage 共享存储介质 共享磁盘阵列 private network 私有网络 传递 node 间的心跳信息 2 2 2 其他概念其他概念 1 服务组 1 一个服务所需要的一组资源的组合 2 资源失败会引起组的 Failover 失效切换 3 服务组有不同类型 4 服务组可依赖于别的服务组 1 组依赖关系 父依赖于子 资源可依赖于其他资源 不可循环依赖 2 组之间的依赖规则 可多个父 只有一个子 最多 3 层依赖 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 13 图 2 2 1 组之间依赖规则 3 组依赖类型 Online Local 图 2 2 2 online local Online Global 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 14 图 2 2 3 online globle 2 资源 1 服务组内的项 2 VCS 可监控 控制的软硬件 component 组件 3 大多数资源可由 VCS 进行启停 4 可分为多种类型 5 可依赖于其他资源 1 资源类型 Non persistent Resources 非持久化资源 Operations OnOff Persistent Resources 持久化资源 Operations OnOnly Operations None 2 资源依赖关系 父依赖于子 子必须在父 online 之前先 online 父必须在子 offline 之前先 offline 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 15 父不能是持久化资源 不能在不同资源组的资源之间建立 link 关系 资源可以有非唯一的父或者子 图 2 2 4 资源依赖关系 2 2 3 VCS 架构架构 分成三层 User space Kernel processes 核心进程 Hardware 如图 2 2 5 架构 1 User space 包括以下几部分 1 Agent 代理 Agent 可以将资源 online 将资源 offline 监控资源的状态 一个 VCS 的 agent 可监控同一资源类型的多个资源 VCS engine 根据配置启动需要的 agent 类型 每种 agent 有一个与其相关联的资源类型 agent 可管理这种类型的资源 2 HAD 引擎 high availability daemon HAD 维护配置信息 包括 cluster 中所有的 service groups 服务组 resources 资源 HAD 与系统中不同的 agent 通讯 监视 resources 的状态信息 提供 CLI 和 GUI 方式进行配置 2 Kernel processes 包括以下几部分 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 16 1 GAB Global Atomic Broadcast Runs over LLT 2 LLT Low Latency Transport Kernel to Kernel Communications 核心进程之间通信 Heartbeat only links 心跳 3 Hardware 即磁盘阵列 图 2 2 5 架构 2 2 4 工作原理工作原理 基本工作原理见 1 3 原理实现 2 2 4 1 工作原理工作原理 VCS 自身的原理简单说明如下 1 一个 cluster 包含的 node 节点 连接至 shared storage 共享存储介质 2 GAB 可靠的维护 cluster 中成员关系 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 17 3 LLT 在 node 之间通过 2 根私有心跳线传递可靠的心跳信息 4 HAD 启动时读取 Service Groups 的配置文件来管理资源之间的依赖关系 2 2 4 2 双机切换双机切换 1 手工双机切换 使资源组运行在一个节点上如 ZXNM01CLUSTER1 节点上 选中 ZXNM01CLUSTER1 节点 选择 Switch 到 ZXNM01CLUSTER2 节点 操作 切换资源组操作 资源组 nms grp 会自动切换到 ZXNM01CLUSTER2 节点上 2 运行节点上的程序故障 系统自动切换 双机系统中 当运行资源组的节点上 被监测的程序出现故障时 系统会通过监测程序 监测到故障 自动切换到备份节点上 可以手工模拟程序故障 如手工杀死 Sqlserver 数 据库的进程 手工关闭网管系统服务器等 进行测试 3 运行节点系统关闭 系统自动切换 双机系统中 当运行资源组的节点出现硬件故障或电源故障时 系统会自动切换到备份 节点上 可以手工模拟运行节点关闭的故障 例如 当资源组运行在 ZXNM01CLUSTER1 上时 关闭 ZXNM01CLUSTER1 资源组自动切换到 ZXNM01CLUSTER2 2 2 5 基本组网基本组网 实际应用中的组网如下图 图 2 2 6 双机组网 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 18 2 3 VCS 常用操作常用操作 2 3 1 要点讲解要点讲解 1 VCS 的全局性是它的重要的特点 Ha 进程的启动 停止都与全局有关 VCS 图形管理 界面无论连接是哪一台机器 所看到的东西是一模一样的 通过图形管理界面进行的修 改是全局性的 会自动同步到每一台机器上 VCS 中最重要的配置文件 etc VRTSvcs conf config main cf 的内容在每台机器上都是一样的 2 VCS 在每台服务器有两个进程 had 和 hashadow 他们为相互保护进程 3 VCS 的客户端图形管理界面可以在 WIN2000 和 SUN 上安装 在 SUN 上打开图形管理 界面使用命令 hagui 如果是第一次打开图形界面 需要增加管理服务器连接 即 输入连接管理服务器的 IP 地址 VCS 图形管理界面缺省的登陆用户为 admin 密码为 password 4 检查 VCS 在整个集群中的运行状况 使用命令 5 hastatus sum 或 hasys display 6 将显示集群中各个服务器上 VCS 的运行状况 7 通过图形界面增加 1 Service Group 注意该 SG 在哪些服务器间切换和不同服务器的切换优先级 2 Resource 注意 resource 的 enable 和 critical 标志 enable 指 VCS 将监控该资源 critical 指该资源 fail 将导致 VCS 将整个 Service Group 切换到另外一台服务器 在 VCS 调试阶 段 最好将 service group 中所有资源都不要设置为 critical 以免频繁的切换影响调试 Resource 之间可以通过连线建立相互依赖关系 在某个 resource 点右键 可以让 VCS 选 对该资源立即进行一次状态探测 Probe 3 当某服务器上某一个 VCS 管理下的资源出错后 VCS 会将 service group 切换到另为一 台服务器 但在图形界面中出错服务器的该资源上打一大红叉 这时需要进行 clear 否 则 VCS 无法再将 service group 切换回该服务器 4 Service group 可以通过图形界面进行 online 和 offline 还可以用 switch to 将 service group 从一台服务器切换到另一台 5 可以将 service group 冻结 freeze 和解冻 unfreeze Freeze 指 VCS 指监控所管理的 资源 这些资源的 online 和 offline 不会导致任何 VCS 的切换动作 如果需要进行服务 器或应用的调试 应该将 service group 冻结 8 在图形界面中进行配置修改时 VCS 将询问是否将配置文件打开 如果打开配置文件进 行配置修改 在修改后一定要用鼠标点击工具栏上的存盘图标 VCS 将修改的配置从各 台服务器的内存写入配置文件 然后按关闭配置文件的图表 将打开的配置文件关闭 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 19 9 VCS 的心跳使用协议 llt 和 gab 分别为内核模块 通过 modinfo grep llt 和 modinfo grep gab 可以看到 检查心跳可以在任何一台服务器上进行 举例如下 omctest1 gabconfig a GAB Port Memberships Port a gen e4c10003 membership 01 Port h gen 15620002 membership 01 01 代表两台服务器的两个心跳的 gab 广播都正常 omctest1 lltstat n LLT node information Node State Links 0 netra1 OPEN 2 1 netra2 OPEN 2 表示两台服务器的两个心跳 llt 正常 1 代表 netra2 发出的 lltstat 命令 10 常用的 VCS 启动和关闭命令 在一台服务器上 VCS 要正常 除了需要 had 和 hashadow 进程运行外 还需要 gab 和 llt 由于 gab 和 llt 属于内核模块 所以除了打补丁外 不需 要手工进行停止和启动 VCS 的启动需要在每台服务器上进行 常用命令如下 1 hastart 标准启动方法 2 VCS 的停止可以在任何一台服务器上停掉整个集群所有服务器的 ha 进程 也可以在每 台服务器上各自停掉 3 hastop all 在一台服务器上停整个集群的 ha 进程 4 hastop local 服务器停本机的 ha 进程 5 hastop all force 在一台服务器上停整个集群的 ha 进程 但不将 VCS 管理下的 资源 offline 即让资源继续运行 在实际工作中应该使用该命令 以避免停止 VCS 时将 有关的数据库或应用也一并停止 6 hastop local force 服务器停本机的 ha 进程 但不将 VCS 管理下的资源 offline 11 切换 Oracle 需要建立 Oracle service group 建立前 需要在图形界面上选中 File Import types 在出现的窗口中选 etc VRTSvcs conf OracleTypes cf 将 Oracle 的 types 文 件装入 VCS 为 Oracle 建立的 service group 和 resource 的依赖关系请参看附件的 main cf 配置文件 12 VCS 可以对应用进行切换保护 标准的 VCS Application 监控和切换模块需要每一个被 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 20 监控的应用程序有启动程序 停止程序和监控程序 如果应用程序不满足该条件 则需 要技术人员编写客户化监控模块 13 在某个服务器 当某个被 VCS 监控的资源 fail 时 VCS 可以该资源进行本地重起 而不 是直接将整个 service group 切换到另外一台服务器 一般对应用的监控使用该功能 当 应用 fail 时 先尝试本地重起 例如重起两次 如果还不能正常启动 再将 service group 切换到另一服务器 14 需要修改的参数 点击 Application Type 显示其所有属性 修改 RestartLimit 为 3 15 VCS 对所有被监控资源缺省 60 秒钟进行一次状态探测 如果需要将探测时间间隔缩小 例如可以将某个资源类型的 MonitorInterval 设为 30 秒 16 当 VCS 的图形界面打开了配置文件而在退出时没有存盘 或者在配置文件打开状态下停 掉 VCS 进程 或者手工修改了 main cf 而语法出错时 当用 hastart 命令启动 ha 进程时 会造成 VCS 进入陈旧模式 需要管理员干预 VCS 无法正常工作 该现象处理方法如 下 1 hastart 在两台服务器上分别启动 ha 进程 2 hastatus sum 或 hasys display 显示 STALE DISCOVER WAIT 而不是 RUNNING 如下 SYSTEM STAT System State Frozen A INITING 0 A omctest1 STALE DISCOVER WAIT 0 3 hastop all force 将所有服务器上 ha 进程停掉 4 在其中一台服务器上 hastart force 强行启动 VCS 5 在该服务器上 hastatus sum 或 hasys display 发现 VCS 在该服务器上运行正常 6 在其他服务器上用 hastart 进行正常启动 2 3 2 手工操作手工操作 当进行应用或数据库调试时 为了避免 VCS 发现错误进行切换 要将 VCS 中有关的 service group 冻结 但是这样就不能通过 VCS 控制有关的资源了 这时 所有资源的控制需要手工进行 调试完后 将 service group 解冻 方法如下 冻结方法 鼠标右键点击需要冻结的服务组 选择 Freeze Temporary 或者 Persistent 冻结后 在 Oracle 或者 OMC 正运行的服务器上 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 21 1 停掉 Oracle 2 ifconfig a 看 listener 使用的 ip 地址 指 10 51 65 17 绑定在哪个网口 3 例如绑定在 ce0 1 口上 ifconfig ce0 1 down 4 umount data 5 vxdg deport oradg 将 oradg 的控制权释放 在另外一台服务器上 1 vxdg t import oradg 取得 oradg 的控制控制权 2 vxvol g oradg startall 激活 oradg 中所有的 volume 3 mount F vxfs dev vx dsk oradg datavol data 4 ifconfig a 检查网口使用情况 5 ifconfig ce0 1 plumb 激活 ce0 1 逻辑网口 也可以是 ce0 2 6 ifconfig ce0 1 10 51 65 173 netmask 255 255 192 0 up 将 ip 地址绑定并激活 7 su oracle 8 启动 Oracle 服务 完成调试后 解冻服务组 解冻方法 鼠标右键点击需要解冻的服务组 选择 Unfreeze 2 4 VCS 软件应用软件应用 2 4 1 VCS 管理界面密码修改的方法管理界面密码修改的方法 问题描述 问题描述 VCS 管理界面密码修改的方法 分析处理 分析处理 VCS 的管理界面的登陆密码可以修改 修改方法如下 在 VCS 管理界面中选择 File User Manager 在弹出的对话框中选择 Chang Password 输 入新密码 确定 注意 修改后请牢记密码 否则登陆会失败 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 22 修改密码后 一定要保存 VCS 配置 工具栏中第三按钮 这样密码才能生效 2 4 2 VCS 检查心跳的方法检查心跳的方法 VCS 检查心跳的方法 lltstat n LLT node information Node State Links 0 zxnm01cluster1 OPEN 2 1 zxnm01cluster2 OPEN 2 以上返回信息表示两个主机的两个心跳 llt 正常 表示 是 zxnm01cluster2 发出的 lltstat 命 令 gabconfig a GAB Port Memberships Port a gen 179d03 membership 01 Port h gen 179d05 membership 01 1 代表两个主机的两个心跳的 gab 广播都正常 2 4 3 VCS 检查运行状态的方法检查运行状态的方法 VCS 检查运行状态的方法 hastatus sum SYSTEM STATE System State Frozen A zxnm01cluster1 RUNNING 0 A zxnm01cluster2 RUNNING 0 以上两个主机的运行状态都是 RUNNING 表示双机的 VCS 的运行状态完全正常 2 4 4 异常情况下启动异常情况下启动 VCS 的方法的方法 异常情况下启动 VCS 的方法 有以下两种情形可能会导致 VCS 无法正常启动 双机组网与原理实现 内部公开内部公开 本文中的所有信息归中兴通讯股份有限公司所有 未经允许 不得外传 23 1 当在 VCS 的管理界面进行了配置 在没有保存配置的情况下 例如 在退出 VCS 管理 界面序时没有保存配置 重新启动

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论