数据容灾备份解决方案.doc_第1页
数据容灾备份解决方案.doc_第2页
数据容灾备份解决方案.doc_第3页
数据容灾备份解决方案.doc_第4页
数据容灾备份解决方案.doc_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国移动公司中国移动公司 IP 网管系统网管系统 性 数据容灾备份解决方案 VERITAS 公司北京办事处公司北京办事处 2019 年年 12 月月 20 日日 第 1 页 目 录 1系统需求分析系统需求分析 2 1 1系统建设目标 2 1 2需求简析 5 2高可用容灾方案设计高可用容灾方案设计 8 2 1 设计原则 8 2 2 方案概述 9 2 1 1IPNET 流量管理服务器及 NetCool 汇总管理服务器 N 1 冗余备份方式 10 2 1 2 N 1 冗余备份方式 11 2 1 3N 节点循环备份方式 11 2 1 4软件安装 12 2 1 5NetCool 网管服务器 PM 服务器 业务网管服务器 Precision 服务器容灾 12 2 1 6功能配置说明 14 2 1 7Visionary 应用服务器 NetCool 报表服务器 IPNET 报表服务器容灾 15 3高可用容灾方案实现高可用容灾方案实现 15 3 1 软件功能解释 16 3 2 安装 配置过程 21 3 3 工作过程 22 3 4 方案分析 26 3 1 13 4 1 有关数据的量化分析及结果 26 3 1 2方案小结 27 4 4附附 录录 29 一 VERITAS 公司简介 29 二 VERITAS Foundation Suite 31 三 VERITAS Cluster Server 38 第 2 页 1系统需求分析系统需求分析 1 1系统建设目标 建设本系统的目的是为中国移动公司 IP 网管系统建立一个全面的 整体的容 灾方案 最大限度地保证业务系统工作的连续性 可靠性 常言道 知己知彼 百战不殆 要实现容灾 首先要了解我们的 敌人 灾难 那么 哪些事件可以定义为灾难呢 典型的灾难事件是自然灾难 如火 灾 洪水 地震 飓风 龙卷风 台风等 还有其它如原先提供给业务运营所需的 服务中断 如设备故障 软件错误 电信网络中断和电力故障等等 此外 人为的 因素往往也会酿成大祸 如操作员错误 破坏 植入有害代码和恐怖袭击 现阶段 由于我国很多行业正处在高速发展的阶段 很多生产流程和制度仍不完善 加之缺 乏经验 这方面的损失屡见不鲜 事实上 我国 2003 年遭遇的 非典 某种意 义上也是灾难 对此 我们认为需要做到两点 一是建立切实可行的应急机制 这 主要包含一套基于充分且清楚地将风险予以分类定义的业务持续计划 二是在危机 突然降临时 此计划能被有效执行 对于 IT 系统 除了上述的灾难之外 与系统 相关的计划外宕机也可视作灾难 对于 IT 系统而言 在技术层面上 容灾需要考虑 数据版本保护 建立容灾的多版本保护底线 Bottom Line 实时数据保护 数据复制 近乎 0 的数据丢失 数据一致性 应用系统恢复 恢复时间 包括数据库恢复 应用版本的一致性 PTF 等 网络系统恢复 数据访问点变化 建立新网络路径 动态路由 收敛时 间 稳定性 容灾切换决策 及时发现灾难 容灾系统管理 容灾切换的损失和补 救办法 容灾切换过程 变更管理 同时 无论任何时候 备份都是非常重要的 并要定期测试备份的可靠性 第 3 页 一种技术只能减少或防止某些类型的灾难的影响 除了简单或一成不变的应用 在 没有特别要求的情况下 尽量不要采用操作系统层面以上的数据复制技术 而没有 文档化的流程就相当于没有流程 没有流程的系统能够在要求时间内恢复完全靠运 气 通常不能 另外 在通常情况下 IT 系统相关的灾难备份方案设计都必须 考虑以下五大因素 1 灾难类型 需要考虑哪些灾难 怎样的灾难 会使业务中断多久 2 恢复速度 灾难发生后需要多久来启动及运行系统 能否承受数天或数分钟的等待 3 恢复程度 需要恢复每条记录和交易吗 可以使用上星期或昨天的数据吗 需要恢复一 切吗 有 不相关的文件吗 什么是合法隐含的要求 有少数的一组人输入交易吗 他 们可以重新输 入灾难期间丢失的交易吗 这些交易十分重要而不容许丢失吗 4 可用的技术 必须结合考虑所选技术在本地区的适用性 实现条件以及在实施时是否受某 些现有条件的制约 5 方案总体成本 实现灾难备份需要多少投资 不实现灾难备份会损失多少钱 据国际标准 SHARE78 的定义 灾难恢复解决方案可根据以下主要方面所达到 的程度分为七级 即从低到高有七种不同层次的灾难恢复解决方案 可以根据企业 数据的重要性以及需要恢复的速度和程度 来设计选择并实现灾难恢复计划 这取 决于下列要求 备份 恢复的范围 灾难恢复计划的状态 在应用中心与备份中心之间的距离 应用中心与备份中心之间是如何相互连接的 数据是怎样在两个中心之间传送的 第 4 页 有多少数据被丢失 怎样保证更新的数据在备份中心被更新 备份中心可以开始备份工作的能力 现已证明 为实现有效的灾难恢复 无需人工介入的自动站点故障切换功能 是一个必须被纳入考虑范围的重要事项 目前通用的异地远程恢复标准采用的是 1992 年 Anaheim 的 SHARE78 M028 会议的报告中所阐述的七个层次 0 层 没有异地数据 No off site Data Tier0 即没有任何异地备份或应急计划 数据仅在本地进行备份恢复 没有 数据送往异地 事实上这一层并不具备真正灾难恢复的能力 1 层 PTAM 卡车运送访问方式 Pickup Truck Access Method Tier1 的灾难恢复方案必须设计一个应急方案 能够备份所需要的信息并将 它存储在异地 PTAM 指将本地备份的数据用交通工具送到远方 这种方案相对来 说成本较低 但难于管理 2 层 PTAM 卡车运送访问方式 热备份中心 PTAM Hot Center Tier2 相当于 Tier1 再加上热备份中心能力的进一步的灾难恢复 热备份中 心拥有足够的硬件和网络设备去支持关键应用 相比于 Tier1 明显降低了灾难恢 复时间 第 5 页 3 层 电子链接 Electronic Vaulting Tier3 是在 Tier2 的基础上用电子链路取代了卡车进行数据的传送的进一步 的灾难恢复 由于热备份中心要保持持续运行 增加了成本 但提高了灾难恢复速 度 4 层 活动状态的备份中心 Active Secondary Center Tier4 指两个中心同时处于活动状态并同时互相备份 在这种情况下 工作 负载可能在两个中心之间分享 在灾难发生时 关键应用的恢复也可降低到小时级 或分钟级 5 层 两个活动的数据中心 确保数据一致性的两阶段传输承诺 Two Site Two PhaseCommit Tier5 则提供了更好的数据完整性和一致性 也就是说 Tier5 需要两中心与中心的数据都被同时更新 在灾难发生时 仅是传送中的数据被丢失 恢复时间被降低到分钟级 6 层 0 数据丢失 Zero Data Loss 自动系统故障切换 Tier6 可以实现 0 数据丢失率 被认为是灾难恢复的最高级别 在本地和远 程的所有数据被更新的同时 利用了双重在线存储和完全的网络切换能力 当发生 灾难时 能够提供跨站点动态负载平衡和自动系统故障切换功能 1 2需求简析 对于 IT 系统的容灾指标 我们可以通过下列参数表示 以恢复点为目标 RPO Recovery Point Object 数据的完整性 无数据丢失 数据的一致性 数据正确且可用 以恢复时间为目标 RTO Recovery Time Object 第 6 页 中国移动公司的网管系统结构图如下 可以看到在移动 IP 网管系统中 包含着众多的功能子系统 根据每个子系统 数据变化的频度以及在整个网管系统中所起到的作用 我们为每个子系统制定了符 合各自特色的 RPO 和 RTO 第 7 页 在移动公司现有的业务系统中 仅考虑本地高可用性 即通过集群的双机系统 Cluster 或 HA 对业务应用提供保护 在一台服务器的软硬件发生故障时 将整个 业务切换到后备服务器上 该方法很大程度上避免了服务器的单点故障 提高了整 个业务系统的可用性 但是 随着业务系统的发展 随着竞争的不断加剧 在一些重要的系统中 客户已经不满足于简单的本地保护 越来越多的客户提出了要求更高的系统可用性 要求实现真正的异地容灾保护 因为一旦出现异常情况 如火灾 爆炸 地震 水 灾 雷击或某个方向线路故障等自然原因以及电源机器故障 人为破坏等非自然原 因引起的灾难 导致业务正常无法进行和重要数据的丢失 破坏 造成的损失将不 可估量 因此 要求业务系统可以在发生上述灾难时快速恢复 将损失降到最低点 全面的异地容灾保护方案 意味着除了要实现本地的切换保护外 更要实现 数据的实时异地复制和业务系统 包括数据库和应用软件 的实时远程切换 第 8 页 2高可用容灾方案高可用容灾方案设计设计 2 1 设计原则 我们为移动公司综合结算提供的高可用容灾方案的设计原则如下 方案当前即可实施 在满足要求的前提下尽量简单 除特别必要 不需要增加另外超出本方案的软硬件 如果一个软件产品可以实现需要的功能 我们不会再使用另外 的产品实现重复的功能 同一方案适合多种平台环境 降低安装 管理和维护的难度 VERITAS 的容灾方案是一个完整的方案 该方案包括 5 个功能 主节点主机 系统在异地的备份和恢复 即 IT 系统重构和业务接管 主节点业务数据在异地 的备份及恢复 即生产数据的备份和恢复 主节点到灾备节点的数据远程实时复 制 本地应用服务和数据复制服务的切换保护 应用远程容灾切换 涉及的产品包 括 Netbackup Enterprise Server Bare Metal Restore Volume Manager Volume Replicator VERITAS Cluster Server 和 Global Cluster Manager 该方案涵盖了容灾恢复的 7 个层次 为整个业务系统提供全面的保护 其对应 需求分析的系统和各子系统的 RPO RTO 如下 第 9 页 在该整体方案中中 上层依赖于它的下层 每一层的产品实现相应的功能 图中涉及的软件产品将在下面论述 2 2 方案概述 针对 IP 网管系统及各子系统实际分析得出的 RPO RTO 我们分别采用不同的 技术手段对其实现高可用保护 1 IPNET 流量管理服务器及 NetCool 汇总管理服务器 该系统属于核心业务系统 数据更新率极高 且要求在灾害发生时必须立即 投入备份节点以维持业务的连续性 因此 我们在数据层采用因此 我们在数据层采用 VolumeVolume ReplicatorReplicator 进行实时的远程数据复制 在应用层采用进行实时的远程数据复制 在应用层采用 ClusterCluster ServerServer 和和 GlobalGlobal ClusterCluster ServerServer 进行实时业务级切换 进行实时业务级切换 同时 为保证不可预见的意外事件不对业务系统造成不可恢复的影响 我们我们 还建议利用还建议利用 Netbackup Enterprise Server 和和 Bare Metal Restore 技术 利用技术 利用 磁带和磁盘介质在容灾节点保留一份生产系统每天的原始数据 磁带和磁盘介质在容灾节点保留一份生产系统每天的原始数据 2 NetCool 网管服务器 PM 服务器 业务网管服务器 Precision 服务器 该系统属于业务管理系统 直接关系到管理人员能否顺利地进行网络日常的 管理和维护 并关系到 IP 业务的正常运行 因此需要及时在容灾节点实现接 管 但该业务子系统的数据更新率并不高 而且周期性比较强 因此没有必 要花费高昂的代价进行实时的数据复制 可以采用主节点数据备份 容灾节 第 10 页 点异地数据恢复的手段保证数据的完整性和一致性 我们建议在应用层面应用层面上 本地节点利用本地节点利用 ClusterCluster ServerServer 实施主机高可用性 实施主机高可用性 防止主机故障 容灾节点利用防止主机故障 容灾节点利用 GlobalGlobal ClusterCluster ServerServer 实施远程应用切换 实施远程应用切换 在数据层面数据层面上 利用 Netbackup Enterprise Server 和和 Bare Metal Restore 技技 术 在本地先形成一套主机系统和业务数据的磁盘备份 并每隔术 在本地先形成一套主机系统和业务数据的磁盘备份 并每隔 8 小时在后小时在后 台将本地备份数据复制到远程容灾节点 周期复制 异地节点恢复主节点台将本地备份数据复制到远程容灾节点 周期复制 异地节点恢复主节点 数据 以实现主备节点的数据同步 数据 以实现主备节点的数据同步 3 Visionary 应用服务器 NetCool 报表服务器 IPNET 报表服务器 该系统属于整个网管系统的报表系统 数据变化量的频率相对较低 保留每 天的数据即可 因此可以考虑底层数据备份 业务层手工或脚本切换的方式 实现系统可用性 我们建议利用我们建议利用 Netbackup Enterprise Server 和和 Bare Metal Restore 技术 利用磁带和磁盘介质在容灾节点保留一份生产系统每天的原始技术 利用磁带和磁盘介质在容灾节点保留一份生产系统每天的原始 数据 数据 4 整个网管系统的历史数据 为了保证在任何不可预见的情况下都能正常维护整个 IP 业务网络 我们还建 议在主节点和灾备节点利用在主节点和灾备节点利用 NetbackupNetbackup EnterpriseEnterprise ServerServer 在磁带上至少保在磁带上至少保 持持 6 6 个月内的系统历史数据 个月内的系统历史数据 2 1 12 1 1 IPNETIPNET 流量管理服务器及流量管理服务器及 NetCoolNetCool 汇总管理服务器汇总管理服务器 N 1 N 1 冗余备份方式冗余备份方式 对于该子系统 VERITAS 解决方案能够按照现业务系统的要求实现多种容灾模 型 即 1 1 冗余备份方式 N 1 备份方式 N 节点循环备份方式 如果只要求 N 2 即双地点互为备份 第一种方式实际是第二种方式 N 1 时的特殊情况 以下不单独讨论 第 11 页 2 1 22 1 2 N 1 N 1 冗余备份方式冗余备份方式 为 N 个正在运行的移动公司 IP 业务系统建立一套远程容灾备份系统 称为 N 1 备份方式 这种方式下 N 个正在运行的业务系统中的任何数据的更改 包括静态数据更改与动态数据更改 都必须同步到备用系统中 备用系统中存储着 所有的 N 套正在运行的业务系统的数据总和 正在运行的其中一个系统发生故障 则备用系统使用对应当前故障系统的用户数据和相应应用 来接管故障系统的业务 若正在运行的 N 个业务系统中所有系统同时发生故障 则备用系统使用的所有对应 故障系统的备份数据和相应应用 接管所有业务系统 N 1 备份方式的优点是建设成本比较低 可以使用一套备份系统为多个系 统提供容灾备份的功能 平时设备利用率比较高 N 1 备份方式的缺点是当多 个系统同时发生故障 如果只有一套备份系统为所有用户提供服务 可能导致服务 质量的下降 该方式建议备份系统使用较高的硬件配置 N 1 系统简单示意图如下图 图二 2 1 32 1 3 N N 节点循环备份方式节点循环备份方式 由于只要求 N 2 实为一对一互为备份 数据传输方向 图二 多对一备份 Site 1Site n Site n 1 Site 2 第 12 页 Site A 运行本身业务系统的同时 还作为 Site B 业务系统的备份系统 同理 Site B 运行本身业务系统的同时 还作为 Site A 的备份系统 正常情况下 Site B 拥有本身业务的应用 数据库进程和相关的数据 同时 Site B 系统中有相应的数 据区存储从 Site A 实时复制来的数据 而且 Site B 实时将数据复制到 Site A 当 Site A 发生灾难时 Site B 除了提供本身业务外 还要提供 Site A 的相应服务 反 之同理 N 节点 N 2 循环备份系统简单示意图如下图 图三 2 1 42 1 4 软件安装软件安装 在两种情况下 每个地点的每台服务器上安装的软件相同 只是不同情况下配 置方法不同 每台服务器的具体配置方法后面讨论 每台服务器安装软件如下 1 安装 VERITAS Volume Manager VxVM 2 安装 VERITAS File System VxFS 3 安装 VERITAS Volume Replicator VVR 4 安装 VERITAS Cluster Server VCS 相应的数据库代理 Agent 和应用软件代 理 5 安装 VERITAS Global Cluster Manager GCM 2 1 52 1 5 NetCoolNetCool 网管服务器网管服务器 PM PM 服务器 业务网管服务器 服务器 业务网管服务器 PrecisionPrecision 服务器容灾服务器容灾 该系统在远程的应用切换层面上和前述方案一样 不同的是在数据复制的方法 数据传输方向 图三 相互备份 Site ASite B 第 13 页 上 我们利用了 Netbackup 实现数据的周期性复制 NetBackup 是 VERITAS 公司的备份管理软件 它致力于解决网络上大 中 小 型服务器和工作站系统上的数据备份 归档及灾难恢复问题 Veritas 备份产品国际 市场份额 2000 年为 39 1 2001 年为 40 8 2002 年为 40 6 下图为 Garner Group 统计的 VERITAS 备份产品 2002 年国际市场份额 它的突出特点主要有 管理简单 采用统一的 Java 或 GUI 图形界面 管理轻而易举 使用先进的人工管理界面工 具 制定备份策略 介质管理策略 对各项备份作业进行监控 Netbackup 提供了远程分发式安装工具 当用户拥有众多的客户机 无需占用大 量人力进行分散的安装 只需通过 server 进行远程分发软件安装 裸金属恢复 BMR Bare Metal Restore 对于系统中的 HP UX IBM AIX Microsoft Windows NT 2000 和 Sun Solaris 等不 同操作系统环境 我们通过 VERITAS Bare Metal Restore 裸机恢复 功能 来简 化服务器的恢复过程 以完成系统的快速灾难恢复 这样 当系统数据完全丢失时 系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复 不必进行 通过光盘进行操作系统重新安装 硬盘重新分区 IP 地址重新设置 以及备份软件 重新安装等复杂的步骤 数据恢复重定向 在数据恢复的过程中 我们可以通过授权 进一步让系统管理员选择数据恢复 的目标客户机 这样 我们可以灾备系统上恢复所需要的数据 保证数据的可操作 性 并行处理 NetBackup 可以实现多磁带机并行操作 因此可以有效地增加带宽 如果数据被 并行定位 co located 到多盘磁带上 执行选择性恢复的过程将会很快 NetBackup 可以通过策略共享实现多作业复用 Multiplex 磁带 从而大大加快了 备份进度 减少了磁带操作过程的开销 这一提高是显而易见的 真正映象恢复 True Image Recovery 使用全备份和增量备份后 恢复时根据映象 image 恢复 真正做到已删除文件无需 恢复 大大减少恢复数据量 传统方式先恢复全备份文件 再进行增量恢复和文件删除 第 14 页 磁带多重拷贝 Inline Tape Copy Duplicate 磁带在线复制 Inline Tape Copy 允许用户在执行备份期间 创建备份数据的多份 拷贝 复制允许备份完成后复制多份备份数据 Netbackup 可以一次备份或复制 2 4 份拷贝 管理多达同一备份的 10 份拷贝 并且每份拷贝有自己的保护周期 提供灾难恢复能力 VAULT 在多个地点保存备份或复制介质 保证当发生灾难时或多个的地点快速恢复关 键的数据 2 1 62 1 6 功能配置说明功能配置说明 NetBackup Server 备份系统的核心 该服务器既是主备份服务器可以对整个备份系统进行监控和 管理 备份环境的核心数据应用库 备份策略和设备配置均存放在这台服务器上 又是介质服务器 可以直接连接并执行自动化管理磁带库及其介质 由于生产和测试网在物理上是隔开的 所以需要分别安装两套备份服务器 这 样可以使生产和容灾的备份完全独立 但生产数据可以通过两台磁带库实现异地保 留 NBU Client SNA 服务器和测试网的服务器的备份方式采用网络备份的方式 Bare Metal Restore 所有服务器实现裸机恢复 具备 一键 恢复系统的功能 减少数据恢复的复 杂度和时间 可以采用 Netbackup 复制方式或者采用制定两个策略对应不同的磁带库进行 备份实现本地 异地双备份 Netbackup 支持不同磁带库之间的数据复制 可以设 置策略定时进行 相对于 Client 系统数据同时备份到两个磁带库的方法 该方法只 复制备份后产生的 Image 文件 该作业由 Master Sever 调度 执行在磁带库之间的 数据复制 节约原 Client 系统资源 利用光纤线路和远程磁带库实现了异地的数据备份保护 但在灾备点如果没 有备份恢复服务器 即只保留了数据 如果生产点的备份服务器损坏 则影响了正 第 15 页 常的备份 同时如果没有灾备点的备份恢复服务器 如果生产点出现场地问题 不 能立刻在灾备点进行恢复 此时可以利用测试网中的备份服务器重新导入生产网备 份的 CATALOG 近而恢复数据 以上是为我们为业务系统提供的数据备份复方案 设计的目的是采用业界最先 进的备份技术完成对系统数据在线 快速 有效的磁带备份保护 同时本方案还提 供裸机快速恢复和异地磁带级容灾技术 从技术上保证了数据中心的可靠性和快速 恢复能力 2 1 72 1 7 利用磁盘缓冲实现周期数据复制利用磁盘缓冲实现周期数据复制 磁盘缓冲 DISK STAGING 为 NetBackup 管理员提供了一种备份方法 首 先在磁盘上创建备份镜像 然后将镜像转移到另一种介质上 NetBackup 软件的磁 盘缓冲分三个步骤完成 首先在磁盘上创建 NetBackup 备份镜像 然后在可以配置 的稍后时间 将镜像转移到另外一个介质上 此外 磁盘缓冲可以方便备份和恢复 NetBackup 用户可以利用磁盘缓冲 为将数据传输到磁带提供便利 避免多路复用 镜像的弊端 磁盘缓冲的工作原理 磁盘缓冲的工作原理示例如下 假定 NetBackup 客户生成的备份数据的容量如下 星期一 200MB 星期二 300MB 星期三 300MB 星期四 200MB 星期五 500MB 假定 NetBackup 客户每天都将数据备份到磁盘缓冲存储设备上 然后再将数 据从磁盘缓冲存储设备转移到最后的存储设备上 客户使用的磁盘缓冲存储设备的容量至少达到 500MB 这样才能以容纳一天 生成的最大数据容量 如果 NetBackup 管理员只要在磁盘缓冲存储设备上保存一天 的数据 那么 500MB 的磁盘缓冲存储设备就已经足够了 前提条件是能够成功完 成重新定位 每天将数据转移到磁带上 如果管理员想在磁盘上保存超过一天的数 第 16 页 据 则应对磁盘空间进行调整 磁盘缓冲分三个阶段完成 第一阶段 在磁盘缓冲存储设备上创建备份镜像 第二阶段 重新定位日程决定了将磁盘缓冲存储设备上的备份镜像重新定位 到目的存储设备上的时间 第三阶段 磁盘上的备份镜像复制到目的存储设备上后 自动取消备份镜像 NetBackup 的磁盘缓冲 DISK STAGING 流程示例 客户端 策略 第一阶段日程 第一阶段 NetBackup 策略根据第一阶段策略日程 将客户端数据备份到磁盘缓冲 存储设备上 第一阶段 磁盘缓冲存储设备 策略 第二阶段性重新定位日程 第二阶段 磁盘缓冲存储设备 DSSU 日程根据重新定位日程 将数据重新定向 到最后的存储设备上 目的存储设备 第二阶段 第 17 页 第三阶段 NetBackup 软件将备份镜像复制到目的存储设备上 然后自动将它从磁 盘上删除 为进行此操作 NetBackup 软件要使磁盘镜像失效 将目的存储设备上 的备份镜像成为主副本 在备份的第一阶段 按策略对客户端进行备份 该策略将磁盘缓冲存储设备作为目 的存储设备 应为每个专用磁盘分区 文件系统提供一个磁盘缓冲存储设备 第一阶 段日程的配置方法与其他备份相似 在磁盘缓冲的第二阶段 将镜像从磁盘缓冲存储设备重新定向到目的存储设备 在磁盘缓冲存储设备的设置过程中 根据配置的重新定位日程来重新定位镜像 这 是通过点击磁盘缓冲日程按钮来完成的 只有选择磁盘缓冲存储设备作为存储设备 类型时 才能使用该按钮 第三阶段是自动使磁盘镜像失效 使目的存储设备上的镜像成为数据的主副本 这 样用户就能释放磁盘空间 以备将来使用 2 1 82 1 8 VisionaryVisionary 应用服务器 应用服务器 NetCoolNetCool 报表服务器 报表服务器 IPNETIPNET 报表服务器容灾报表服务器容灾 在开放系统中 许多产品都能执行备份和恢复功能 然而 能处理现今数据中 心的海量数据的产品则凤毛麟角 以往数据中心曾是大型机一统天下 现在则 是以大型 UNIX Windows 服务器以及集群为基础 企业在此之上构建并运行 和管理关键业务应用 VERITAS NetBackup 独有的核心三层架构 结合先进的 介质管理功能 以及卓越的高性能 可以满足最大规模数据中心的需求 NetBackup 主备份服务器 Master Server 是架构的第一层 主备份服务器是所有 数据保护活动 包括作业日程安排和追踪客户端备份 管理磁带介质和文件编录 的 智能中心 主备份服务器拥有一个或多个附带的存储设备 可为多台客户 端服务器提供数据备份 主备份服务器也可以构成集群以实现高可用性 如果企业在几个地点都有数据或数据密集型应用 比如数据仓库 则可安装介 第 18 页 质服务器 Media Server 即架构的第二层 这样 企业就可以在各个地点 通过部署介质服务器直接在本地备份大型应用 同时还可以通过网络备份其它 客户端系统 介质服务器既可与主备份服务器或另一台介质服务器共享磁带库 也可使用自己的磁带设备 如果某台介质服务器因故障或其他问题不能正常工 作 可将这一台介质服务器的备份任务转移到另一台介质服务器上进行 架构第三层是备份网络中诸多服务器和工作站的客户端代理 Client Agent 这一层中 要保护的数据量不一定最多 但是需要安装的机器数量通常都是最 多的 主备份服务器 第一层 可以对介质服务器 第二层 和客户端 第三 层 进行集中管理 2 1 92 1 9 系统灾难恢复系统灾难恢复 VERITASVERITAS BareBare MetalMetal RestoreRestore 对于系统中可能存在的 IBM AIX Sun Solaris HP UX 等不同操作系统环境 我 们通过 VERITAS Bare Metal Restore 裸机恢复 功能 来简化服务器的恢复过 程 以完成系统的快速灾难恢复 这样 当系统数据完全丢失时 系统管理员 可以仅仅通过一个启动命令就可以进行系统数据的完整恢复 不必进行通过光 盘进行操作系统重新安装 硬盘重新分区 IP 地址重新设置 以及备份软件重 新安装等复杂的步骤 BMR 的工作简要流程如下 Main Server File Server 和 Boot Server 可合并在备 份服务器上 1 BMR 服务器 Main Server 在客户机日常备份的过程中分析客户机 的环境并生成恢复策略 2 BMR 服务器分配启动服务器 Boot Server 和文件服务器 File Server 3 当客户机数据丢失时 系统管理员通过网络启动命令启动客户机 4 BMR 服务器驱动启动服务器和文件服务器 使客户机自动获得启动 镜像和恢复计划 5 客户机进一步划分硬盘分区并恢复所有数据 第 19 页 3核心系统高可用容灾方案实现核心系统高可用容灾方案实现 本章将就该方案的每个细节进行讨论 包括方案的详细讲解 软件的实际配 置方法等 通过阅读和理解本章 您将了解 VERITAS 解决方案的实现方法 并清 楚地知道 VERITAS 解决方案是切实可行的 并且有相关的实施案例和实施经验 我们假设原来就已经按照双机系统设计 那么本方案仅需要增加不同地点间的 广域连接 不需要增加其它硬件 软件方面要用 VERITAS 高可用软件替换原有的 HA Cluster 软件 新增 Volume Manager VERITAS File System VERITAS Volume Replicator 和 Global Cluster Manager 在介绍功能前 需要强调的的是 VERITAS 提供的是完整的容灾解决方案 各个软件的功能完全集成在一起 建立一个容远程数据复制 本地容灾 远程应用 切换于一体的方案 3 1 软件功能解释 在这里 每个软件只解释与本方案相关的那部分功能 至于软件的全部功能 请见附录 一 VERITAS Volume Manager 简称 VxVM 将在物理磁盘上建立 多个或一个逻辑卷 Volume 以裸设备的方式使用卷 或在卷上建立文件系 统 将数据 特别是需要进行远程复制的相关文件系统 数据库 存放在卷 上 由于数据复制是基于卷的 所以 Volume 是进行复制的基础 二 VERITAS Volume Replicator 简称 VVR 负责远程数据复制 VVR 复制基于 Volume 进行 复制的数据可以是数据库中的数据 文件方式 或裸设备方式 和文件 复制的示意图见图四 第 20 页 图四 1 VVR 与 VxVM 完全集成在一起 用 VxVM 管理界面和命令统 一配置管理 由于 VVR 仅仅将 Volume 上每次 I O 的实际数据实时复制 到远程节点 所以在网络线路上传输的数据量很少 对带宽的需求也很 小 2 将各个业务系统中需要进行远程复制的多个或一个卷定义为一 个 Replicated Volume Group 简称 RVG 3 在 Site A 定义一条 RLINK 指向 Site B 在 Site B 也定义一条 指向 Site A 的 RLINK RLINK 是单向的 需要进行复制的两个系统各 定义一个指向对方的 RLINK 每个 RVG 定义一个 RLINK 例如有 Site A 和 Site B 两套系统同时用 Site C 的系统作为备份 在 Site A 定义一个 RVGa 包含需要进行数据复制的卷 在 Site B 定义一个 RVGb 包含需要进行数据复制的卷 在 Site C 定义两个 RVG 名为 RVGa 和 RVGb 分别作为 Site A RVGa 和 Site B RVGb 的备份 然后 在 Site A 定义 RLINK to c1 指向 Site C 在 Site B 定义 RLINK to c2 指 向 Site C 在 Site C 定义两个 RLINK 一个 to a 指向 Site A 另一个 to b 指向 Site B 第 21 页 4 Storage Replicator Log 简称 SRL 是 VVR 中的重要部件 将数据复制各方的 某个卷定义为一个 SRL 需要复制的数据首先要写入 SRL 然后传到异 地 VVR 通过 SRL 保证数据复制严格按照写顺序进行 这在异步工作方 式下非常重要 当网络中断或异地系统出现故障时 本地数据将记录在 SRL 中 等系统恢复正常时再将 SRL 中的数据按照先进先出的顺序传送 到异地 当 SRL 满后 VVR 将通过 Data Chang Map 简称 DCM 记录 变化过的数据块的块号 VVR 数据流程见图五 图五 5 Data Change Map 简称 DCM 与主节点的 RVG 相关 它其中的内容是位 图信息 记录某一时间点后修改过的数据块位置 DCM 在正常情况下不 使用 在 SRL 满后记录变化的数据块的块号 当恢复正常复制后 等 SRL 中的数据传送完后 将 DCM 中记录的块传送到异地 灾难恢复后的 反向复制也用到 DCM 6 数据复制的工作模式缺省为同步 异步自适应 即在网络延时情况较好 数 第 22 页 据能够及时复制时 工作在同步方式 完全保证两边数据的一致性 当 网络延时情况较差 数据不能及时复制时 工作在异步方式下 保证主 节点的 I O 性能 数据复制根据实际情况 自行在两种工作模式之间切换 如果数据复制的线路带宽有限 出于保证本地服务器读写性能的考虑 可以将 复制工作模式定义为异步 由于 VVR 的数据复制严格按照 I O 的修改 顺序进行 所以 无论在同步还是异步工作方式下 都能保证数据的完 整性 对于数据库系统 该复制机制能够保证灾备节点的数据库在灾难 发生时正常启动并提供服务 7 后备节点的完全同步 即所谓的 建立基线 在主节点往后备节点正常复 制数据前 必须逐块逐块地将主节点中需要复制的数据拷贝到后备节点 也就是说 将双方的 RVG 进行同步 后备节点的完全同步分为两种情况 一是复制时主节点应用不进行数据更 改 二是复制时主节点应用进行数据更改 两种情况下 都可以采用自 动同步方式或采用备份和检查点 Check Point 结合的方法 自动同步是指通过网络将数据从主节点 Primary 复制到备份节点 Secondary 方法很简单 只要进行一步操作即可完成 自动同步对带宽要求较高 否则 将无法完成完全同步 自动同步要求 RVG 中的每个卷都有 DCM 对于网络带宽较小 或者需要完全同步的数据量太大时 使用备份与检查 点结合的方法 在备份开始前 在主节点设置检查点 该检查点记录在 SRL 中 然后将数据备份到活动硬盘 光盘 磁带或其它介质上 备份 完成后 将检查点取消 将备份的数据恢复到后备节点上 然后将 RLINK 连接挂上 主节点 SRL 中记录的的数据传送到后备节点 完成后 两边数据一致 进入正常数据复制状态 用该方法进行数据完全同步 第 23 页 要求 SRL 卷大些 等完成后 再将 SRL 卷通过 Volume Manager 在线缩 小 8 当某些严重意外情况发生后 后备节点会变成新的主节点 称为角色转换 在灾难期间 不进行数据复制 新的主节点用 DCM 记录变化数据位置 9 当原来的主节点在灾难后恢复正常 需要进行数据反向同步和角色转换 反向同步有两种情况 一种是在灾难发生时刻 原主节点与灾备节点的 数据是同步的 即无未复制的数据 第二种是在灾难发生时刻 原主 节点与灾备节点的数据不是完全同步的 即主节点有数据尚未复制到灾 备节点 第二种情况在反向同步开始时第一步首先要进行重置 指将 原主节点 SRL 和 DCM 中数据 这些数据在灾难发生时尚未来得及传送 的位置信息修改当前主节点 即原后备节点 的 DCM 然后 将 DCM 中指向的数据全部传送到原主节点 而第一种情况的话 直接进行第二 步工作 传送完成后 将当前主节点的数据库和应用停止 将双方角色 复原 并在原主节点提供正常服务 10 脱机处理 通过使用 VVR 的 In Band Control IBC 消息 Snapshot 以及 Volume Manager VxVM 的 FastResync 简称 FR 即快速同步 功能 可以 实现数据的脱机处理 脱机处理主要指对后备节点种的数据进行处理 例如进行备份 打印 报表 数据仓库处理等 脱机处理由打破后备节点的镜像卷 对镜像数据 进行处理 重镜像等几个过程组成 11 双收条 双重确认 机制 指后备节点对复制数据的接收确认有两个阶段 第一个确认当后备节点收到数据后发出 第二个确认当后备节点数据成 功写入硬盘后发出 当主节点收到第二个确认后 将 SRL 中的相应数据 清空 第 24 页 三 VERITAS Cluster Server 简称 VCS 是用于本地容灾的集群 软件 支持多达 32 个节点的应用级切换 保证本地业务系统的软硬件高可 用性 VCS 以其出色的可靠性和易管理性闻名 VCS 的功能特点请见附录 在本方案中 VCS 主要负责以下功能 1 VCS 负责监控和管理硬件系统和操作系统 当出现故障时进行 切换 2 通过数据库代理 Agent 监控和管理数据库系统 当出现故障 时进行切换 3 通过 API 或脚本编写针对性客户化应用代理 监控和管理应用 系统 当出现故障时进行切换 4 通过 Replicator 代理监控和管理数据复制过程 当主服务器数 据复制发生故障时 自动将数据复制工作切换到后备服务器 保证数据 复制过程的连续性 这点对于容灾系统非常重要 该代理充分说明 VERITAS 提供的是完整的容灾解决方案 5 主节点和备份节点的 VCS 集群系统都在 Global Cluster Manager 的统一监控和管理下 从而实现集群系统间的远程应用切换 GCM 在 VCS 中以两个服务组 指 GCM Master 和 GCM Slave 的形式存在 四 Global Cluster Server 简称 GCM 可以称为 Cluster s Cluster 集群的集群 它负责对多个不同地点的多达 32 个集群系统进行监控和管理 在发生严 重灾难时 进行 site 的切换 即应用的远程切换 GCM Console 为 Web 界面 通过浏览器管理各个 Cluster 系统 并在管理界面 中主动控制或响应远程切换 3 2 安装 配置过程 在硬件和操作系统环境准备好后 整个方案的实际安装 配置及工作过程如下 详细的配置命令和配置文件见附录 第 25 页 一 安装 VERITAS Volume Manager VxVM 和 File System VxFS 将服务器本地 硬盘的其中一个分区 或整个硬盘 作为 rootdg 将磁盘阵列中所有磁盘用 Volume Manager 管理 创建一个 disk group 包括涉及的磁盘 并在这些磁 盘上划分出需要的卷 包括用于 SRL 的卷 如果卷上需要文件系统 使用 VxFS 将数据库和应用系统都安装在共享的磁盘阵列卷中 二 由于 VVR 与 VxVM 集成在一起 所以无需另外安装 1 为需要复制的卷增加 DCM 2 创建 SRL 3 定义 RLINK 指向备份节点 4 定义 RVG 将需要进行远程复制的卷 包括 SRL 卷 都定义到一个 RVG 中 并与 RLINK 联合绑定 5 进行数据复制 三 安装 VCS Oracle 或 Sybase 代理 客户化应用代理和 VVR 代理 安装完成 后 配置心跳线 然后对各个服务组 Service Group 中涉及的资源进行定义 进行本地切换测试 优化有关参数 四 安装 GCM 安装完成后 在 VCS 的服务组 Service Group 中增加了 GCM Master 和 GCM Slave 对其进行配置 定义 GCM 响应的事件和相应的处理 动作 用手工模式进行异地容灾切换测试 并调优化有关参数 五 进行全系统联调 测试各种情况下的系统工作情况 并进一步优化有关参数 3 3 工作过程 为方便论述 本节模拟地点 A 和 B 两地各有一套建立在 VCS 双节点集群 第 26 页 上的业务系统 以 B 地点的系统作为 A 地点的备份 切换示意图见图六 图六 一 正常情况下 1 业务系统运行在地点 A 包括数据库实例 有关的文件 数据库数据 应 用软件 A 节点对外提供服务 2 A 节点所有的有关的数据通过 VVR 实时复制到 B 节点 3 两地的 VCS 对的各自节点内的两台服务器的主机情况 数据库服务 应 用软件进行实时监控和管理 其中 VCS 还对 VVR 数据复制服务进行监 控 4 GCM 监控两地 Cluster 系统的运行 二 当 A 地点的主服务器发生硬件或软件故障 导致主服务器无法提供正常服务 1 VCS 进行本地切换 将主服务器的数据库服务 应用软件 VVR 数据复 制服务切换到本地后备节点 2 整个系统运行在本地后备节点 包括 VVR 数据复制服务 由后备服务器 提供对外服务和数据复制服务 3 GCM 将监控到该切换事件的发生 第 27 页 4 如果仅仅是主服务器数据复制服务发生故障 可以不进行切换 只需将复 制服务修复并正常运行 三 如果 A 地点的主服务器恢复正常 整个系统将重新运行在正常情况下 四 如果在情况二的状态下 A 地点的后备服务器也发生硬件或软件故障 整个 A 地点无法正常提供服务 1 GCM 将监控到该严重灾难的发生 将对接收到的 Site A down 事件进行处 理 发出严重告警 并在管理界面上弹出服务灾难性切换 及服务切换到 远程地点 等待确认画面 2 在有关人员确认后 在 GCM 切换等待确认画面上按确认按钮 将进行地 点间的容灾切换 3 A 地点的业务将在 B 地点正常提供服务 4 数据复制暂停 5 Site B 的 VVR 将从 Secondary 变成 New Primary 使用 DCM 记录所有变 化的数据块 五 如果 A B 地点间网络发生故障 1 VVR 心跳检测将发现该故障 A 地点 VVR 将根据事先的配置进行处理 我们的建议是 VVR 将网络故障期间所有数据的更改记录在 SRL 2 如果在一段较长时间内 网络故障无法恢复 当 VVR 的 SRL 卷接近满时 VVR 将使用 DCM 记录变化的数据块位图 3 在网络故障发生后 GCM 将探测到 并对 Network Down 事件进行处理 向有关管理员发出告警 六 如果 A B 地点间网络在短时间内恢复正常 1 VVR 将把 A 的 SRL 中积累的数据传送到 B 2 VVR 处于正常工作状态 第 28 页 3 GCM 处于正常工作状态 七 如果 A B 地点间网络在很长时间内仍无法恢复正常 1 VVR 停止远程数据复制 2 GCM 无法对两地间的 Cluster 运行进行监控 八 灾难复原 当 A 地点的系统恢复正常后 需要进行整个系统的回迁 数据反向 复制时只复制灾难期间变化的数据而不是所有的数据 这是本方案优势之一 1 在灾难期间 B 地点是 VVR 的 New Primary B 的 DCM 记录所有变化的 数据块 2 A 系统正常后 VVR 重新建立与 B 节点的 RLINK 连接 并自动变成 Pseudo Secondary 伪后备节点 3 GCM 发现 A B 地点 Cluster 恢复正常 对它们进行正常管理 以下过程 将在脚本中自动完成 4 进行反向同步的第一步是将 A 节点的 Pseudo Secondary 状态转成 Secondary 状态 5 第二步将进行 A 的 SRL 和 DCM 的重置 Replay 修改 B 的 DCM 因为在 A 节点发生灾难时 有可能 A 的 SRL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论