中端存储容灾解决方案.doc_第1页
中端存储容灾解决方案.doc_第2页
中端存储容灾解决方案.doc_第3页
中端存储容灾解决方案.doc_第4页
中端存储容灾解决方案.doc_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XXXX 数据容灾系统建设方案数据容灾系统建设方案 XXX 基金数据容灾技术方案 本文档由提供 1 目目 录录 第第 1 章章前言前言 3 第第 2 章章需求分析需求分析 4 2 1容灾系统需求 4 2 2项目建设目标 5 第第 3 章章XXX 基金数据容灾系统技术方案基金数据容灾系统技术方案 6 3 1容灾系统术语与定义 6 3 1 1灾难定义 6 3 1 2灾备站点 6 3 1 3恢复时间目标 RTO 与恢复点目标 RPO 6 3 1 4业务持续计划 BCP 与灾难恢复计划 DRP 6 3 2灾难恢复过程与灾难备份技术 7 3 2 1系统灾难级别定义 7 3 2 2灾难恢复过程 8 3 2 3灾难备份技术 9 3 2 4灾难备份中心 10 3 3RPO 与 RTO 11 3 4容灾系统数据复制 13 3 4 1数据复制方式选择 13 3 4 2磁盘阵列复制技术优势 14 3 4 3第三方软件复制技术优势 15 3 5容灾系统拓扑图 16 3 5 1RecoverPoint 数据异步复制 16 3 5 2MirrorView 数据同步复制 17 3 5 3灾备系统应用平台 17 3 5 4容灾系统配置 18 第第 4 章章容灾系统管理设计容灾系统管理设计 19 第第 5 章章容灾系统工作流程设计容灾系统工作流程设计 23 5 1日常工作流程设计 23 5 2系统变更流程 23 5 3计划内切换流程 23 5 3 1生产中心向备份中心切换流程 23 5 3 2备份中心向生产中心回切流程 24 5 4计划外非切换流程 25 第第 6 章章EMC 技术服务技术服务 26 6 1技术服务内容 26 6 2现场安装服务内容 26 6 3现场维护技术支持 28 6 4现场维护响应时间 29 6 5现场维护响应流程 30 6 6定期巡检服务 30 第第 7 章章方案所需产品介绍方案所需产品介绍 32 XXX 基金数据容灾技术方案 本文档由提供 2 7 1EMC CX3 40F 磁盘阵列介绍 32 7 2EMC RECOVERPOINT介绍 36 7 3EMC MIRRORVIEW同步软件介绍 39 XXX 基金数据容灾技术方案 本文档由提供 3 第第 1 章章 前言前言 XXX 基金管理有限公司是目前我国资产管理规模最大的基金公司之一 在国内基金公司中 名列前茅 信息化建设是基金管理信息系统建设中的重要环节 信息化建设的基础是各个业务系 统中的数据 数据的安全是信息化建设的重中之重 公司目前已针对深圳和北京两个数据中心 的数据 通过高安全性的磁盘阵列来提供较高级别的数据保护 但是 随着业务系统的发展 随着竞争的不断加剧 为了提供更高的客户的信用度使我们的企业在竞争中时时处于优胜之地 在重要交易系统中 数据已经能仅提供简单的本地保护 因为一旦出现异常情况 如火灾 爆 炸 地震 水灾 雷击等自然原因以及电源机器故障 人为破坏等非自然原因引起的灾难 导 致业务正常无法进行和重要数据的丢失 破坏 造成的损失将不可估量 因此 我们需要更高 的系统可用性 当业务系统可以在发生上述灾难时快速恢复 将损失降到最低点 EMC 公司作为存储业界的领头羊 很荣幸能与 XXX 基金一起 帮助 XXX 基金建立一套功能 完善的 技术先进的数据容灾系统 保证此次数据容灾建设的顺利成功 EMC 公司基于信息为核心提出的 E Infostructure 正是在存储平台上提供了完整的集中 备份 容灾存储解决方案 为各行业信息平台提供了坚实的信息基础设施 提高了系统及数据库 的处理能力 可靠性 业务连续性和可扩展性 使平台建设具有最佳的投入产出比 EMC 是世界领先的企业存储技术供应商 致力于为全球所有企业用户提供数据存储系统的 完整解决方案 在过去几年中 EMC 公司与政府 企事业单位 大专院校有着非常好的合作 EMC 智能企业存储设备 CLARiiON 系列在客户的各类应用中扮演了重要的角色 EMC 设备的可靠 性 高性能 完善的售后服务得到用户的高度评价 XXX 基金数据容灾技术方案 本文档由提供 4 第第 2 章章 需求分析需求分析 2 1 容灾系统需求容灾系统需求 在传统以往的业务系统中 往往仅考虑本地高可用 即通过集群的双机系统 Cluster 或 HA 对 业务应用提供保护 在一台服务器的软硬件发生故障时 将整个业务切换到后备服务器上 该 方法很大程度上避免了服务器的单点故障 提高了整个业务系统的可用性 但是 随着业务系统的发展 随着竞争的不断加剧 为了提供更高的客户的信用度使我们 的企业在竞争中时时处于优胜之地 在一些重要的系统中 客户已经不满足于简单的本地保护 因为一旦出现异常情况 如火灾 爆炸 地震 水灾 雷击或某个方向线路故障等自然原因以 及电源机器故障 人为破坏等非自然原因引起的灾难 导致业务正常无法进行和重要数据的丢 失 破坏 造成的损失将不可估量 因此 越来越多的客户提出了要求更高的系统可用性 要 求当业务系统可以在发生上述灾难时快速恢复 将损失降到最低点 甚至要求实现真正的异地 容灾保护 因为生产过程停顿将会对运营造成相当大的代价 所以业务连续性是一个关系到最终赢利 的问题 无中断灾难恢复对于系统来说至关重要 客户必须制定即时业务重启计划 而不是需 要数天或数周的恢复计划 未来采用的应用系统程序要随着生产系统的调成而不断的更新 程 序最终投入使用之前 完备的测试工作是必不可少的 采用数据复制技术可以快速的生成现有 系统的数据影像 通过对数据影像的测试 完成应用程序的快速部署 生产系统的高可用设计我们目前已经达到 但是当生产系统所处环境发生 灾难 造成整 个机房节点的失效 则本地的任何高可用技术保障都将随之失效 而要消除 灾难 对应用系 统的影响 则需要在异地建立容灾备份系统 相对于生产系统建立数据的复制 应用的复制环 境 及时地恢复对客户访问的响应 XXX 基金目前在深圳和北京有两个数据中心 之间通过专线连接 两且两个数据中心均有 EMC 的 CX3 40 磁盘阵列 已具备数据容灾的基本条件 在现有的存储系统基础上实现数据容灾 方便快捷 且成本节约 鉴于连接两地专线的速度 容灾系统只能实现数据的异步传输 要达 到数据的零丢失 还需要实现同步的数据复制 目前规划与证券通讯数据中心的 CX3 40 实现数 据同步复制 已达到数据的最佳保护效果 XXX 基金数据容灾技术方案 本文档由提供 5 EMC 网络存储提供了可以达到上述要求的业务连续性解决方案 2 2 项目建设项目建设目标目标 容灾建设的目标是保证业务安全 在灾难情况下 最大限度地保护公司资产 减少公司各 方面的损失 保证各项业务连续 满足核心管理系统灾难恢复计划要求 本次容灾系统的建设目标主要是针对核心 IT 管理系 统的恢复 属于 DRP 灾难恢复计划范畴 设计的 从灾难预防和灾难恢复等方面进行容灾系统 建设 最大限度地保证系统的可用 可靠 根据以上总体目标 落实到灾建设的实际情况 容灾建设的具体目标确定如下 在北京与深圳的数据中心间 实现数据的异步传输 将北京数据中心的数据复制到深圳数 据中心 尽可能减少数据丢失 在深圳数据中心与深圳证券通讯中心机房的阵列之间实现数据同步复制 保证数据的零丢 失 真正实现数据级的容灾 RPO 0 XXX 基金数据容灾技术方案 本文档由提供 6 第第 3 章章 XXX 基金数据容灾系统基金数据容灾系统技术方案技术方案 3 1 容灾系统术语与定义容灾系统术语与定义 3 1 1灾难灾难定义定义 由于人为或自然的原因 造成信息系统运行严重故障或瘫痪 使信息系统支持的业务功能 停顿或服务水平不可接受 达到特定的时间的突发性事件 通常导致信息系统需要切换到备用 场地运行 3 1 2灾备站点灾备站点 所谓灾难备份站点 也称为灾难恢复中心或容灾中心 就是指企业除了拥有一套完整的计 算机网络系统 称为生产中心 之外 另外建立一套计算机网络系统 这套系统能在突发性灾难 发生 造成生产中心停止工作时 迅速并及时地接管原来运行在生产中心的所有或部分业务 达到减少或避免灾难事件发生时所造成的损失 为企业用户提供完善 优质服务的目的 3 1 3恢复时间目标 恢复时间目标 RTO 与恢复点目标 与恢复点目标 RPO RTO Recover Time Object 恢复时间指标 是指当灾难发生后 生产系统需要多长时间 能够恢复生产 它是衡量企业在灾难发生后多长时间能重新开始运转的指标 RPO Recover Point Object 恢复点指标 是指灾难发生后 容灾系统能把数据恢复到灾 难发生前的哪一个时间点的数据 它是衡量企业在灾难发生后会丢失多少生产数据的指标 3 1 4业务持续计划 业务持续计划 BCP 与灾难恢复计划 与灾难恢复计划 DRP BCP 关注在中断期间和之后维持机构的业务功能 BCP 可以专门为某个特定的业务处理编写 也可以涉及到所有关键的业务处理 IT 系统在 BCP 中被认为是对于业务处理的支持 在某些情 况下 BCP 可能没有涉及到对过程的长期恢复并使其回到正常运行状态 而只是包含过渡的业 XXX 基金数据容灾技术方案 本文档由提供 7 务连续性需求 灾难恢复计划 业务继续计划和场所紧急计划可以附加在 BCP 之后 在 BCP 中 设定的职责和优先顺序应该和其在操作连续性计划 COOP 中的一致以消除可能的冲突 DRP 应用于重大的 通常是灾难性的 造成长时间无法访问正常设施的事件 通常 DRP 指 用于紧急事件后在备用站点恢复目标系统 应用或计算机设施运行的 IT 计划 DRP 的范围可能 和 IT 应急计划重叠 但是 DRP 的范围比较狭窄 它不涉及到无需重新配置的小型危害 根据机 构的需要 可能会有多个 DRP 附加在 BCP 之后 3 2 灾难恢复灾难恢复过程与灾难备份技术过程与灾难备份技术 3 2 1系统灾难系统灾难级别定义级别定义 引起灾难的因素很多 目前 对灾难的定义众说纷纭 没有统一的认识 我们将灾难定义 为任何不可预知的影响企业正常运行的事件 也包含预知事件产生的不可预知的影响 灾难可 能是部分或全部的计算机软硬件设备 附属设备 文档表格或机房环境损坏 以至于严重影响 数据中心正常运行的事件 它可能由于自然灾害 突发事件 设备故障及人为因素等造成 不是所有的灾难都会毁掉整个数据中心 很多灾难规模较小 如果有的话也只会影响到一 个或者两个系统 尽管没有正式的行业标准 但是我们还是可以根据灾难的严重程度定义下面 这样的灾难级别 一级一级 受到攻击和分析的威胁 如果有人声称知道业务系统里有后门可以进入或者准备用病毒发 动攻击 我们就认为正在受到攻击和分析的威胁 遇到这种情况就 用户需要要加强安全戒备 截击攻击者 此时 企业或机构还没有受到损失 攻击行动还没有开始 二级二级 这一情况不会对数据系统产生冲击 但是它仍然是企业必须解决的问题 例如 即使安全 漏洞让入侵者获得了敏感的信息 但是数据系统仍然在运行 但是 你必须立即扭转这一局面 三级三级 单个系统故障 单个系统故障造成其离线时间超若干分钟或者任意长时间 离线时间取决 于系统受到威胁的程度 这种情况需要立即进行应用转移 如果可能的话 要转移到本地的备 用系统上 否则 必须把系统从磁带上恢复到备用的硬件上 一般来说 这种情况不会对商业 XXX 基金数据容灾技术方案 本文档由提供 8 运行造成巨大影响 但是必须尽快解决问题 四级四级 单处致命故障或者多处非致命故障 在这种情况下 对商业运行的直接威胁已经发生 但 是 数据中心仍然在正常运行 如果有可能 还是要恢复到备用硬件和 或进行本地的应用转 移 但是响应时间现在变得非常重要 到达这一级别 系统正面临大面积的威胁 五级五级 数据中心即将或者已经发生故障 甚至更糟 断电 间谍活动 恐怖活动 以及自然灾害 都可以归入这一类 远程的应用转移或者使用基于磁带备份的数据来重建数据中心是唯一的选 择 这一级别会假设生产设施会有相当长的一段时间无法使用 3 2 2灾难恢复灾难恢复过程过程 灾难恢复是指利用技术 管理手段以及相关资源确保既定的关键数据 关键数据处理系统 和关键业务在灾难发生后可以恢复的过程 在企业所面临的以上多种级别的灾难中 对于一级至三级灾难 企业数据中心的基本环境 并没有受到严重的损害 在数据中心体系架构设计合理和系统维护较完善的前提下 基本可以 恢复业务运行 对于五级灾难 企业数据中心的物理设施受到了严重的损害或者无法进行维护 如果需要 尽快恢复企业生产业务 就需要建立灾难备份中心 利用灾难备份中心的设备恢复企业生产 对于四级灾难 在已经建立灾难备份中心的情况下 可以将部分或全部业务转移到灾难备 份中心继续生产 在灾难恢复过程中 以下几种关键技术是必不可少的 灾难备份技术灾难备份技术 灾难备份是指将数据从企业数据中心移动到另一个地点 以便最终恢复 可以使用磁带备 份的异地存储 或者数据中心到另一地点的数据复制实现 一般来说 灾难的发生是不可避免的 只是机率有大有小 而灾难备份是一个持续性的工 作 会伴随业务正常运行的整个生命周期 绝不可以因为建立了灾难备份系统或灾难备份中心 就认为万事大吉了 高可用性技术高可用性技术 这指的是将一个或者多个数据系统故障转移至同一站点里立即可用的硬件资源上 例如 XXX 基金数据容灾技术方案 本文档由提供 9 如果某个数据服务器发生了故障 你可以立即让同一数据中心里的另一台物理机器投入在线工 作 在这一层次上 几乎所有的解决方案都用到了集群 Cluster 技术 远程高可用性技术远程高可用性技术 远程高可用性把高可用性推向了一个更高的级别 它指的是在物理地点之间进行的数据系 统故障转移 一般来说 这包括通过 DNS WINS 等等进行路由的变更 这样客户的计算机就可 以在不同的物理地点 不同的子网上连接到这些资源 这种类型的解决方案一般都会因为路由的原因而需要花更长的时间进行故障转移 但是这 种类型的解决方案几乎总是比其他任何形式的恢复技术 在速度上 快很多 3 2 3灾难备份技术灾难备份技术 显然 在以上三种关键技术中 灾难备份的实现是最重要的 只有在远离生产中心的地点 保留生产数据的备份 即异地数据 企业才可能在数据中心遭受严重灾难后进行恢复 这里指 的 远离 根据灾难的不同 也有不同的含义 例如 对于一般性火灾 不同建筑物之间的距 离已经足够 对于水灾或地震等自然灾害 可能需要几百公里的距离 参照国际灾难备份行业的通行灾难备份等级划分原则 根据异地数据的多寡 异地数据与 生产数据的差异程度 以及灾难恢复环境的完备程度 将灾难备份系统从低到高划分为如下七 个等级 等级零 无异地备份等级零 无异地备份 等级零没有在异地保存备份数据 未制定灾难恢复计划 不具备灾难恢复能力 等级一 备份介质异地存放等级一 备份介质异地存放 等级一是对关键数据进行备份并存放至异地 没有可用的备份中心及备份数据处理系统 备份网络通信系统 未制定灾难恢复计划 等级二 备份介质异地存放及备用场地等级二 备份介质异地存放及备用场地 等级二是对关键数据进行备份并存放至异地 并制定相应的灾难恢复计划 具备备用的办 公及计算机场地 一旦灾难发生 需要重新调配数据处理系统及网络通信系统资源 利用异地 备份数据恢复关键业务系统运行 等级三 备份介质异地存放及备份中心等级三 备份介质异地存放及备份中心 等级三是对关键数据进行备份并存放至异地 并制定相应的灾难恢复计划 具备可用的备 份中心并配备部分数据处理系统及网络通信系统 一旦灾难发生 利用备份中心已有资源及异 XXX 基金数据容灾技术方案 本文档由提供 10 地备份数据恢复关键业务系统运行 等级四 定时数据备份及备份中心等级四 定时数据备份及备份中心 等级四是在备份介质异地存放的基础上 利用通信网络将部分关键数据定时批量传送至异 地 并制定相应的灾难恢复计划 具备可用的备份中心并配备部分数据处理系统及网络通信系 统 一旦灾难发生 利用备份中心已有资源及备份数据恢复关键业务系统运行 等级五 实时数据备份及备份中心等级五 实时数据备份及备份中心 等级五是利用通信网络将关键数据实时备份至备份中心 并制定相应的灾难恢复计划 具备 连续运行的备份中心和就绪的备份数据处理系统及网络通信系统 一旦灾难发生 可在备份中 心利用实时备份数据恢复关键业务系统运行 等级六 零数据丢失等级六 零数据丢失 等级六是利用通信网络将关键数据同步镜像至备份中心 实现零数据丢失 并制定相应的 灾难恢复计划 具备连续运行的备份中心和就绪的备份数据处理系统及网络通信系统 且具备 完全的网络切换能力 一旦灾难发生 可在零数据丢失的基础上恢复关键业务系统运行 不同等级的灾难备份系统 其投资差异非常巨大 企业需要根据实际情况 主要是遭受严 重灾难后的损失情况 以及发生灾难的几率 建立满足企业需求的灾难备份系统 3 2 4灾难备份中心灾难备份中心 所谓灾难备份中心 也称为灾难恢复中心或容灾中心 就是指企业除了拥有一套完整的计 算机网络系统 称为生产中心 之外 另外建立一套计算机网络系统 这套系统能在突发性灾难 发生 造成生产中心停止工作时 迅速并及时地接管原来运行在生产中心的所有或部分业务 达到减少或避免灾难事件发生时所造成的损失 为企业用户提供完善 优质服务的目的 依照上述灾难备份系统的七个层次 灾难备份中心可以大致分为非实时和实时两种模式 非实时模式非实时模式 就是利用磁带备份技术 计算机中心人员每天定时备份生产机中心数据 并及时送往灾难 恢复中心 尽量保证灾难恢复中心拥有生产中心的最新数据 一旦灾难发生 灾难恢复中心可 将业务在较短的时间内恢复运作 这模式的特点是在数据备份问题上技术难度不大 但很难保 证生产中心与备份中心间数据的实时性一致 实时模式实时模式 就是在生产中心和灾难恢复中心之间通过通信线路 利用数据实时备份 将生产中心主机 XXX 基金数据容灾技术方案 本文档由提供 11 的数据实时送往灾难恢复中心 保证生产中心与备份中心间数据一致或近似一致 当灾难发生 生产中心陷于瘫痪时 灾难恢复中心在最短的时间内 接管所有或部分业务 恢复系统正常运 作 对于以上所定义的各种故障及灾难 灾难恢复中心建设的设计目标是 灾难或其他不可抗 拒的事件发生时 最大程度地保护所有系统数据的安全 几十分钟至几小时内恢复所有外界与 系统主机的连接并正常运作 上述目标的实现以以下两个主要方面为前提条件 第一 实现灾难恢复的主要步骤及操作模式 包括 由灾难中心主管确认灾难的确发生 在灾难中心主机作断点分析 查明交易情况 完成网络物理切换 手工或自动 启动灾难中心 主机应用系统 手工或自动 主机系统重新与分行连线 完成灾难中心切换任务 自动 第二 灾难恢复有关制度及运作模式的建立 包括灾难恢复的运作完全采用实时自动方式 及灾难恢复的运作采用人工干预与部分自动相结合的方式 3 3 RPO 与与 RTO 在建立灾难恢复系统是 人们往往会问 建立这样一个系统需要多少投资 要想阐述 清楚此问题 首先要明白两个指标 RTO 和 RPO RTO Recover Time Object 恢复时间指标 是指当灾难发生后 生产系统需要多长时间 能够恢复生产 它是衡量企业在灾难发生后多长时间能重新开始运转的指标 不同的高可用性系统会产生不同的恢复时间指标 以某一数据中心被毁导致系统中断为例 如果企业部署了远程高可用性系统 数据中心业务可能在数十秒钟或数分钟左右恢复 如果企 业没有部署远程高可用性系统 但是具备了比较完备的灾难恢复环境 可能需要数十分钟至数 小时才能恢复业务 如果企业仅仅使用异地的磁带备份来进行恢复 则往往需要几天甚至几周 的时间 虽然恢复时间指标是灾难恢复系统的关键指标 但另一个指标可能更重要 在发生灾难时 没有保存到异地的数据很可能将永久性的丢失 这种数据丢失多数情况下是无法挽回的 RPO Recover Point Object 恢复点指标 是指灾难发生后 容灾系统能把数据恢复到灾 难发生前的哪一个时间点的数据 它是衡量企业在灾难发生后会丢失多少生产数据的指标 XXX 基金数据容灾技术方案 本文档由提供 12 小 时 小 时 数据丢 失 恢复时 间 系统运 行 灾难恢 复 系统运 行 理想状态下 我们希望 RTO 0 RPO 0 即灾难发生对企业生产毫无影响 既不会导致生产 停顿 也不会导致生产数据丢失 从当前计算机技术水平来说 我们可以为用户建设这种类型 的容灾系统 其中最著名的例子当属 VISA 和 Master 的结算系统 由于这两个银行结算组织占 据了全球银行结算业务的重要地位 他们的结算系统不允许发生任何停顿和数据丢失的情况 即使在 911 这种极端情况下 但实现这样的容灾系统的投资巨大 它结合了存储数据复制技 术 服务器操作系统镜像技术 集群技术 数据库高可用性设计 应用系统高可用性设计 同 步容灾技术 异步容灾技术 同城容灾方案 异地容灾方案 以及相应的管理流程和意外事件 反映处理流程等详细的规章制度 和人员配备 行政保障手段 通信 交通等 综合在一起完 成一个完整的容灾方案 实际是双生产中心或多生产中心方案 并没有单纯的容灾中心 但是 这种方案的投资过于巨大 目前中国可能除了个别特殊性质的企业外 不会有太多的企业会去 实现这个系统 一般来说 只要根据公司所能够承受的数据丢失量就能够确定你所在机构的 RPO 公司一 般都以数据时间的形式来表示这种尺度 例如 很多基于磁带的 DR 系统有至少 24 小时的 RPO 尽管我们可以保证丢失更少的数据 但是最差的情况会是没有人及时进行每天的备份 所以如果企业在一天结束的时候碰到了灾难 而系统管理人员还没有完成磁带备份 这是 一个很不幸 但也不常见的情况 企业就会丢失一个工作日的数据 企业需要确切地确定它能够承担在一次灾难中丢失多少数据 这一点是至关重要的 一个 机构要如何确定这个数量则是艺术和科学的结合 其方式就和确定 RTO 数量一样 首先 到所要考察的数据系统的用户以及这些领域的管理层去 询问在灾难发生的时候他 们能够承受的数据丢失量 得到的答案几乎总是不切实际的 典型的回答更有可能是 零数据 丢失 尽管实现这个 RPO 是有可能的 就像上面的例子一样 但是所需要的巨大的基础结构 带 XXX 基金数据容灾技术方案 本文档由提供 13 宽和软件成本使它只能够用于极度昂贵数据 而不能用于所有的情况 如果确实需要 零数据 丢失 那就要用心了 有多种灾难恢复计划可以选用 但是要记住的是 大多数都需要大规 模 基于硬件的复制系统 而且需要光纤连接 如果能够通过协商获得一个更加灵活的 RPO 那么在不同价位就有多种选择 基于软件的 复制系统 基于硬件的镜像 Business Continuance Volume BCV 和其他记录工具 以及无 数基于磁带的系统都是可选的 混合使用或者匹配使用这些类型的系统 企业可以创建能够满足从几分钟到多个小时 RPO 的要求 企业还可以将其中的许多方案应用到单个的数据系统上 这样就能够获得不同的能力 以处理有不同 RPO 要求的不同系统 RPO 是需要正确定义和量化的 但是比较难以处理的尺度之一 然而 对 RPO 的估计将会决定企业能够使用的灾难恢复解决方案的类型 以及企业的灾难 恢复解决方案最终将花费的资金 3 4 容灾系统容灾系统数据复制数据复制 数据的远程复制技术是容灾系统的核心技术 它对于数据系统的一致性和可靠性以及系统 的应变能力具有举足轻重的作用 通过有效的数据复制 远程的业务数据中心与本地的业务数 据实现同步或近似同步 确保一旦本地系统故障 远程的容灾中心迅速进行完整的接管 考虑 容灾系统的数据复制技术时 以下几点必须重点考虑 远程数据中心应具有与本地系统完全同步的能力 确保灾难发生时恢复数据的一 致性 实时复制系统具有广域线路故障时的重新同步机制 即一旦传输网络故障恢复时 传输重新同步 实时复制系统具有对复制数据进行验证的能力 实时复制系统对于正常的数据系统 I O 访问不应产生效率上的不利影响 在线路 无法出现同步时不应影响本地数据访问 实时复制系统应在任何情况下确保数据包的原有顺序 以保证数据的一致性 XXX 基金数据容灾技术方案 本文档由提供 14 3 4 1数据复制方式选择数据复制方式选择 目前 业界具有容灾功能的常用解决方案主要包括以下几类 磁盘阵列复制技术 主要由 一些磁盘阵列厂商提供 如 EMC SRDF IBM PPRC HP BusinessCopy HDS TrueCopy 等 存储 卷复制技术 由一些卷管理软件厂商提供 如 VERITAS VVR 数据库复制技术 由数据库厂商 以及一些第三方厂商提供 如 DSG RealSync Quest SharePlex 等 应用层复制技术 由各系 统的应用厂商自己提供 另外还有一类 基于第三方磁盘阵列实现数据复制 典型的有 EMC RecoverPoint 基于磁盘阵列来实现数据复制 同时提供数据复制管理功能 磁盘阵列复制技术 主要适用于数据中心级的海量数据复制 此技术用户必需采用支持该 功能的磁盘阵列型号 而这些阵列大都为高端阵列 投资非常昂贵 并且 由于证券行业用户 的带宽有限 而磁盘阵列复制技术对带宽的要求又相对很高 动辄需要上 GB 的带宽 此外 采 用磁盘阵列复制技术 其目标端无法提供实时数据查询 由于目标端数据库在复制过程中不能 被打开 难于实现交易与查询的分离 同时也造成大量投资浪费 存储卷复制技术 主要适用于工作组级的数据复制 它对 CPU 资源占用高 同样由于目标 端数据无法提供实时数据查询和对带宽的要求高 应用层复制技术 只适合那些在应用中提供了该技术的应用 由于它的非标准化 开发和 维护工作量大 使得其应用不成熟也不普遍 数据库数据复制 属于逻辑数据复制 典型的逻辑数据复制是通过数据库日志实现的 数 据库日志是以逻辑的方式记录了数据库的物理操作 数据容灾是通过对数据库日志中的记录的 复制完成数据库复制的技术 当主用系统发生操作时 数据库自动记录日志 并将日志进行归 档 容灾系统中 日志被传送到备用系统 备用系统根据主用系统的日志本系统中进行对应的 操作 保证备用系统和主用系统的一致性 第三方软件实现 目前典型的是 EMC 的 RecoverPoint 软件 简单而经济高效地在各个品牌 阵列上保护或复制数据 支持光纤或 IP 链路的数据同步 异步复制 无需购买 光纤通道 IP 转换器 并支持将本地和远程站点上的数据恢复到任意时间点 实现数据持续保护 缺点 是需要在服务器上添加相应的数据分离程序 3 4 2磁盘阵列复制技术优势磁盘阵列复制技术优势 XXX 基金数据容灾技术方案 本文档由提供 15 存储阵列复制技术存储阵列复制技术 适合对象 适合对象 优点 优点 缺点 缺点 主要适用于数据中心 级的海量数据复制 用户必需采用支持该 功能的磁盘阵列型号 支持阵列上的所有 数据类型复制 可支持同步 异 步方式复制 不占用主机CPU 资源 目标端数据不可用 目标端数据库在复制过程中 不能被打开 必需同构 源和目标 必需要求相同的磁盘阵列 相同的操作系统 相同的数 据库版本 带宽高 最好提供 独 占的光纤网络 需要 GB 级 的带宽 从上面存储阵列复制技术的特点来看 选用磁盘阵列复制技术更为简单 不需要在服务器 上部署软件 可提供同步复制方式 达到 RPO 0 的技术要求 这正好可以达到我们要求的在深 圳数据中心与证券通讯数据中心的数据同步复制 实现数据零丢失的保护 3 4 3第三方软件复制技术优势第三方软件复制技术优势 功能好处 连续远程复制 CRR 利用异步 近于 CDP 连续数据保护 的技术跨任 意距离使用双向 异构数据块级复制 以实现具备时间 点回滚能力的灾难恢复 基于策略的管理 利用服务级别策略 这些策略通过管理复制迟滞 数据压缩和带宽优先级划分来优化存储和 Internet 协 议 IP 广域网 WAN 资源 与应用程序的集成 利用应用程序集成功能支持在复制和 CDP 中使用智 能书签 这些集成功能利用了供应商提供的应用程序编 程接口 API 如 Microsoft 虚拟设备接口 VDI 以 及针对 SQL Server 和 Microsoft Exchange 的卷影复 制服务 VSS XXX 基金数据容灾技术方案 本文档由提供 16 对所有数据更改执 行数据块级日志记录 支持对任意时间点映像的完整读 写存取 同时通过 灵活的保护和恢复选项防止数据损坏 高级技术 使用比同类解决方案明显更少的带宽 通过内置 WAN 加速和压缩高效地将数据传输到远程站点 从以上的优势可以看出 我们要将北京数据中心的数据复制到深圳数据中心 在带宽小 容灾 RPO 要求高的情况下 这种提供数据高级管理的软件正是我们需要的 在保证了数据复制 的同时 还能节约专线的带宽 3 5 容灾系统拓扑容灾系统拓扑图图 3 5 1RecoverPoint 数据异步复制数据异步复制 此次规划将北京数据中心的 EMC CX3 40 上的关键数据复制到深圳数据中心的 CX3 40 上 由于两地之间专线的带宽有限 鉴于上面的分析 我们采用 EMC Recoverpoint 软件 将北京阵 XXX 基金数据容灾技术方案 本文档由提供 17 列上的数据定时异步复制到深圳的阵列上 拓扑图见上图 如上图所示 北京与深圳的两台 EMC CX3 40 存储设备通过光纤分别连接到 RecoverPoint 设备上 两台 RecoverPoint 设备间采用 IP 专线网络连接 北京数据中心 在需要进行数据远程复制的系统上安装一个驱动程序 用于直接截取系统 中的数据写命令 RecoverPoint 设备收当到主机的写磁盘命令后 经过处理 对数据进行压缩 压缩率可以达到 15 倍左右 然后定时通过 IP 方式进行传送 透过专线网络将数据传送到深圳 的 RecoverPoint 设备处 形成历史快照后 再写入到深圳的磁盘阵列系统中 保持与北京阵列 上的数据一致性 在写入到深圳的磁盘阵列后 可再通过深圳数据中心的 MirrorVIew 将数据 实时同步到证券通讯数据中心的阵列上 进一步保证数据的可用性 RecoverPoint 不经过主机 不依赖磁盘阵列 完全独立的运行 克服异构存储系统和服务 器环境 并可实现一对多的容灾 降低了容灾建设成本 通过 IP 网络 搭建数据容灾架构 延长了容灾的距离 充分利用现有资源 完成数据的 容灾保护 为保障数据的高安全性和可靠性打下良好基础 3 5 2MirrorView 数据同步复制数据同步复制 如上图所示 XXX 深圳数据中心的磁盘阵列与证券通讯数据中心的磁盘阵列通过长波光纤 连接 搭建数据容灾架构 为了保证当 XXX 深圳本地数据中心的存储设备发生内部问题或被破坏后 业务还能正常提 供服务 需要将本数据实施容灾保护 由于当前生产中心的数据存储系统 采用的是 EMC CX3 40F 磁盘阵列 实施基于硬件级的容灾 需要在证券通讯中心再添加一台 EMC 相同配置的磁盘 阵列 CX3 40F 将新的磁盘阵列按上图所示 与现有的 CX3 40F 通过长波光纤连接到一起 通 过 EMC MirrorView 软件 逐字节的同步两台 CX3 40 上的需要同步的数据 当生产系统的主机 需要将数据写入到本地磁盘阵列上时 会先写到证券通讯数据中心的 CX3 40 上 再写入本地生 产中心的 CX3 40 上 在两台阵列均完成写入操作时 则反馈给主机数据已写入完成的信息 这 就保证了两台阵列上的数据完全相同 不会在本地的阵列被破坏时 发生数据丢失的错误 在 容灾发生时 RPO 0 一旦生产中心的设备出现故障 或出现其他容灾时 由于两台阵列的数据完全相同 只需 要将容灾中心的阵列分离 并将容灾中心服务器上的备用业务系统运行起来 即可恢复正常生 产 XXX 基金数据容灾技术方案 本文档由提供 18 3 5 3灾备系统应用平台灾备系统应用平台 同时 容灾系统需要接管生产系统的应用 必须配置管理系统运行的服务器平台 同样出 于经济性的考虑 容灾系统服务器可以选用性能要求低于生产系统的服务器 并且仅运行于单 机状态 3 5 4容灾系统配置容灾系统配置 本次数据容灾系统 所需配置如下 详细配置见报价清单 EMC CX3 MirrorView s 软件两套 EMC CX3 40 及 SAN 附属设备一套 EMC RecoverPoint 软件两套 XXX 基金数据容灾技术方案 本文档由提供 19 第第 4 章章 容灾系统管理设计容灾系统管理设计 今天 信息科技专业人士面临的一个重要任务是降低部署和扩展关键性企业应用所需要的 成本 这些成本主要包含应用本身的软件注册 规划设置和维护等费用 但是 应用后端基础 设施也是成本的一个重要组成部分 这些基础设施包括输入 输出 I O 通道硬件 实际的物 理存储和存储服务 包括用于确保业务连续性的服务 存储网络的利用率的不断提高有助于降低开发和维护企业级应用所需要的成本 建设一个 能够实现物理存储和存储服务的共享基础设施让企业可以提高这些现有基础设施的利用率 所 降低的这些成本主要归功于存储利用率因为存储和服务器在存储网络中的整合而获得的提高 但是 这个优化机会同时也带来了一系列挑战和相关的成本 随着存储网络环境的不断发 展 对于存储网络环境的全面管理服务的需求也变得更加明显 尽管很多存储网络环境通常是 利用某个磁盘子系统公司提供的设备和服务构建的 但是这种趋势正在发生变化 由于很多企 业想在谈判中占得优势 不希望被某个供应商所限制 所以它们开始纷纷邀请多个供应商来为 它们的业务展开竞争 因此 由多个厂商的设备构成的存储网络正在逐步增加 并且进一步提 高了管理任务的复杂性 即使在同一个子系统供应商的解决方案中也可能存在四或五个不同的 原始设备制造商 OEM 厂商的设备 针对这种管理多样化的存储网络环境的挑战 出现了很多用于满足这种需求的新型应用和 服务 有些解决方案是由子系统供应商或者存储交换机供应商提供的 而有些则是由第三方公 司提供的 存储和存储网络管理解决方案已经变得与它们所要管理的供应商设备一样多 尽管 每种管理软件解决方案可以提供自己的功能集和优势 但是大部分解决方案可归纳为三到四个 主要的类别 随着存储网络环境的不断发展 对于存储网络环境的全面管理服务的需求也变得更加明显 针对整个存储环境 全面的服务集合包括了组件管理 交换阵列管理 资源管理 数据管理和 应用管理等 组件管理组件管理 组件管理包括一系列用于配置和管理某个系统或者交换阵列中一组组件的工具 因为这些 系统或者交换阵列通常包含多个供应商提供的组件 所以每个供应商一般都需要提供它们自己 的组件管理器 一个组件管理器一次只能对一个组件执行任务 组件管理器所执行的功能通常会随着配置 XXX 基金数据容灾技术方案 本文档由提供 20 的不同而不同 尤其需要指出的是 这些功能包括对设备进行初始配置 设置和监控阈值 以 及管理设备系统镜像或者固件 交换阵列管理交换阵列管理 交换阵列管理包括一系列旨在以一种更加面向系统的方式对待系统及其组件的工具 因为 一个交换阵列可能包含来自于多个供应商的大量组件 很多这样的交换阵列管理工具都已经发 展为可以管理 综合性交换阵列 综合性交换阵列没有定义任何标准的应用编程接口 API 或者信息接口 它代表了大量复杂的设备与不同的接口和 API 交换阵列管理应用通常可以提供三种常见的服务 即交换阵列发现交换阵列发现 Fabric Fabric Discovery Discovery 交换阵列监控和报告交换阵列监控和报告 Fabric Fabric MonitorMonitor andand Report Report 以及交换阵列配置交换阵列配置 Fabric Fabric Configuration Configuration 交换阵列发现交换阵列发现是指应用能够利用交换阵列中的特定组件所支持的任何 API 或 者接口 发现这些组件 包括它们的资产信息 配置和统计信息 通常 交换阵列管理器将根 据所发现的组件配置 绘制出网络拓扑 交换阵列监控和报告服务交换阵列监控和报告服务是指利用从交换阵列组件中 搜集到的任何信息 提供一个关于交换阵列的运行状况 配置和库存信息 相关关联的系统级 视图 这个视图可以通过一组报告或者一个实时的快照视图提供 交换阵列配置服务交换阵列配置服务通常表现 为两种形式 在提供交换阵列配置服务时 交换阵列管理器只需根据需要 调用各个组件管理 器来配置交换阵列的实际组件 交换阵列配置的另外一种更加智能化的形式是交换阵列管理器 可以利用所提供的组件 API 根据用户输入的信息或者自动判断 自动地配置多个组件 在任 何一种情况下 交换阵列管理器都可以将所要做的配置改动与已知的最佳实践或者已有策略相 比较 以提供一个额外的控制层 资源管理资源管理 资源管理包含一系列旨在管理某个系统或者交换阵列中 用于用户或者组件自身的资源的 工具 这些资源可能包括交换阵列带宽 连接路径 磁盘 每秒 IO 次数 IOPS CPU 和内存 这些资源可能是物理资源 但是在存储虚拟化的情况下也可能是一种虚拟资源 资源管理系统 的两种最常见的活动是趋势和容量规划 用户可以管理资源的分配 供应 监控和报告 其中每个方面都可以通过现有的策略进行 手动或者自动的管理 例如 某项策略可能会决定某个特定的数据库在什么时候需要添加存储 容量 同一项策略可能会调用某个自动执行的流程 从某个特定的磁盘中分配附加的容量 并 将这些容量供给该应用使用 资源管理系统负责控制用户和系统管理员对这些资源的使用权限 新用户及其资源控制或 XXX 基金数据容灾技术方案 本文档由提供 21 者使用范围也由资源管理系统管理 数据管理数据管理 数据管理包括一系列旨在确保系统中数据可用性 无论数据使用什么格式 的工具 数据 管理通常需要保障数据的完整性 可用性和访问性能 数据管理服务通常包括廉价磁盘冗余阵列 RAID 配置 数据复制操作 备份 恢复需求和 数据移植任务等组成部分 RAID 配置可以通过磁盘镜像确保数据的可用性 或者通过磁盘分段 技术确保数据的性能 数据复制操作是指为了保障业务的连续性 在城区或者更大的范围内建 立数据的实时复本 备份 恢复需求是指数据备份所需要的频率和方法 以及之后的数据恢复步 骤 最后 数据移植任务是指根据用户或者应用的需求 将原始数据或者复本转移到不同的地 点 应用管理应用管理 应用管理包括一系列旨在从启动开始管理整个系统 包括组件 交换阵列 资源和数据 即应用的工具 一个包括组件 交换阵列 资源和数据的基础设施将被建立起来 以支持应用 的部署 应用管理可以将系统的所有这些组件与应用联系到一起 并有助于将所有这些部署的 组件投入运行 了解应用组织 访问和使用它的数据访问以及数据的周边环境非常有助于制定存储配置 连接 组织和管理方面的决策 应用管理工具可以为系统管理员提供这样的可见度 建议采用 EMC Control Center 信息存储管理软件实现集中式 SAN 存储网络资源管理 EMC ControlCenter 系列存储管理软件是 EMC 的自动化网络存储战略的中心 它使您能够 通过一种单一 一致的以信息为中心的方法来简化和自动化对多供应商网络存储环境的管理 ControlCenter 是业界唯一的集成网络存储管理系列软件 利用它 用户可以 看到 IT 基础结 构中的所有元素 硬件 软件和网络 知道 用户的基础结构运转状况如何 并 执行 必要的 操作 以确保达到服务级别 而所有这一切都是从一个软件界面中完成的 业界专家估计 EMC 自动化网络存储软件最高可以将存储管理效率提高九倍 这样 用户就可以将宝贵的 IT 技能 重新部署到生产力更高 更能产生收益的活动中去 而且 EMC 存储管理产品不仅限于监管 Symmetrix 系统 它们还管理着其他 EMC 及非 EMC 存储平台 网络和应用程序 以适应当今开 放的 多种多样的 IT 环境 用户可以使用最适合需求的存储 然后全部都从一个管理界面集 中管理 XXX 基金数据容灾技术方案 本文档由提供 22 它具备以下功能 从单一管理台集中控制所有的存储资源 包括主机 SAN 和存储阵列 简化存储的资源调配 对不断变化的业务需求迅速做出响应 提供及时存储 把大型机和开放系统管理组合到单一解决方案中 提供广泛的配置管理 实时性能数据监测和错误告警功能 提供图形用户界面 GUI 便于进行直观处理及提供易懂的信息显示 与企业管理平台 CA Unicenter IBM Tivoli HP OpenView 等 紧密集成 实现完 整的单点控制管理 监视 控制和自动执行 TimerFinder 和 SRDF 业务连续性和灾难恢复操作 通过主流 IT 管理架构 如 IBM Tivoli HP OpenView CAUnicenter 等 可以直接启动 EMC Navispere 管理软件 另外 EMC Navispere 管理软件支持通过 SNMP 与主流 IT 管理架构 如 IBM Tivoli HP OpenView CA Unicenter 等 的集成 XXX 基金数据容灾技术方案 本文档由提供 23 第第 5 章章 容灾系统工作流程设计容灾系统工作流程设计 5 1 日常工作流程设计日常工作流程设计 日常工作流程如下 生产中心和备份中心的数据由 CX3 MirrorView 软件实现镜像同步复制 生产中心和备份中 心都有完全一致的数据 在生产中心每天更新二次数据的本地磁盘快照 用于备份和快速的恢复 在备份中心对数据做一份磁快照 磁盘快照相隔 30 分钟轮询 即每隔 30 分钟 Snapview 对 数据进行复制出快照数据 由此能防范最长 30 分钟以内的因数据库逻辑错误而引起的灾难 并 达到验证数据可靠性作用 5 2 系统变更流程系统变更流程 补丁变更流程为 操作内容操作前提 生产中心备份中心 操作结果备注 准备分别用于生产中心和备份中心的系统 补丁 生产中心测试环境 打补丁 生产中心 测试完成 备份中心测试环境 打补丁 补丁测试 成功 生产中心生成环境 打补丁 生产中心补丁 变更成功 生产中心 变更完成 备份中心生成环境 打补丁 备份中心补丁 变更成功 5 3 计划内切换流程计划内切换流程 5 3 1生产中心向备份中心切换流程生产中心向备份中心切换流程 操作前提操作内容操作结果备注 XXX 基金数据容灾技术方案 本文档由提供 24 生产中心备份中心 检查人员到位确认人员到位如有意 外 停 止切换 检查系统运行情况确认系统正常如有系 统故障 停止切 换 停止所有变更应用参数等不 再变化 停止服务 成功 断开同步复制停止备份中心的 Snapview 快照 确保当现数据 复制至备份中 心 修改环境参数修改 脚本 恢复用于备份 中心环境的数 据库 应用等 修改参数 系统环境 恢复 顺序启动数据库备份中心数据 库启动 不成功 切换暂 停 数据库启 动 启动应用备份中心应用 启动 但不对 外服务 不成功 切换暂 停 网络切换 停止对外服务的 vlan 信息 应用启

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论