数据容灾备份解决方案_第1页
数据容灾备份解决方案_第2页
数据容灾备份解决方案_第3页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国移动公司IP网管系统数据容灾备份解决方案VERITAS公司北京办事处 2021年8月19日1 系统需求分析2系统建设目标2需求简析52 高可用容灾方案设计 82.1设计原那么82.2方案概述9IPNET流量管理效劳器及NetCool汇总管理效劳器 “ N+1冗余备份方式 10“ N+1冗余备份方式11N节点循环备份方式 11软件安装12NetCool网管效劳器/PM效劳器、业务网管效劳器、Precision效劳器容灾12功能配置说明14Visionary应用效劳器、NetCool报表效劳器、IPNET报表效劳器容灾 173 高可用容灾方案实现 193.1软件功能解释 193.2安装、配置过

2、程243.3工作过程 26方案分析29有关数据的量化分析及结果 29方案小结304 附录36一、VERITAS公司简介36二、VERITAS Foundation Suite? 38三、VERITAS Cluster Server ? 451系统需求分析1.1系统建设目标建设本系统的目的是为中国移动公司 IP网管系统建立一个全面的、整体的容 灾方案,最大限度地保证业务系统工作的连续性、可靠性。常言道,“知己知彼,百战不殆。要实现容灾,首先要了解我们的“敌 人- 灾难。那么,哪些事件可以定义为灾难呢?典型的灾难事件是自然灾难, 如火灾、洪水、地震、飓风、龙卷风、台风等,还有其它如原先提供应业务运

3、营所 需的效劳中断,如设备故障、软件错误、电信网络中断和电力故障等等。此外,人 为的因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和恐怖袭击。现 阶段,由于我国很多行业正处在高速开展的阶段,很多生产流程和制度仍不完善, 加之缺乏经验,这方面的损失屡见不鲜。事实上,我国2003年遭遇的“非典,某种意义上也是灾难。对此,我们认为需要做到两点:一是建立切实可行的应急机 制,这主要包含一套基于充分且清楚地将风险予以分类定义的业务持续方案,二是 在危机突然降临时,此方案能被有效执行。对于IT系统,除了上述的灾难之外,与系统相关的方案外宕机也可视作灾难。对于IT系统而言,在技术层面上,容灾需要考虑

4、:*数据版本保护建立容灾的多版本保护底线Bottom Line*实时数据保护-数据复制,近乎0的数据丧失,数据一致性*应用系统恢复 -恢复时间包括数据库恢复、应用版本的一致性PTF等*网络系统恢复 一数据访问点变化、建立新网络路径、动态路由收敛时间/稳定性*容灾切换决策 -及时发现灾难容灾系统管理、容灾切换的损失和补 救方法*容灾切换过程-变更管理同时,无论任何时候,备份都是非常重要的,并要定期测试备份的可靠性。一种技术只能减少或防止某些类型的灾难的影响。除了简单或一成不变的应用,在 没有特别要求的情况下,尽量不要采用操作系统层面以上的数据复制技术。而没有 文档化的流程就相当于没有流程,没有流

5、程的系统能够在要求时间内恢复完全靠运 气通常不能。另外,在通常情况下,IT系统相关的灾难备份方案设计都必须考虑以下五大因素,1, 灾难类型需要考虑哪些灾难?怎样的灾难?会使业务中断多久?2, 恢复速度灾难发生后需要多久来启动及运行系统?能否承受数天或数分钟的等待?3, 恢复程度需要恢复每条记录和交易吗?可以使用上星期或昨天的数据吗?需要恢复一 切吗?有不相关的文件吗?什么是合法隐含的要求?有少数的一组人输入交易吗?他 们可以重新输入灾难期间丧失的交易吗?这些交易十分重要而不容许丧失吗?4, 可用的技术必须结合考虑所选技术在本地区的适用性、实现条件以及在实施时是否受某 些现有条件的制约?5,方案

6、总体本钱实现灾难备份需要多少投资?不实现灾难备份会损失多少钱?据国际标准SHARE78勺定义,灾难恢复解决方案可根据以下主要方面所到达 的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。可以根据企业 数据的重要性以及需要恢复的速度和程度,来设计选择并实现灾难恢复方案。这取 决于以下要求:备份/恢复的范围灾难恢复方案的状态在应用中心与备份中心之间的距离应用中心与备份中心之间是如何相互连接的数据是怎样在两个中心之间传送的有多少数据被丧失怎样保证更新的数据在备份中心被更新备份中心可以开始备份工作的能力现已证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能是一个必须被纳入考虑范围

7、的重要事项。目前通用的异地远程恢复标准采用的是1992年Anaheim的SHARE7,8 M028会议的报告中所阐述的七个层次:0层-没有异地数据(No off-site Data)TierO即没有任何异地备份或应急方案。数据仅在本地进行备份恢复,没有 数据送往异地。事实上这一层并不具备真正灾难恢复的能力。1 层-PTAM 卡车运送访问方式(Pickup Truck Access Method)Tier1的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将 它存储在异地。PTAM指将本地备份的数据用交通工具送到远方。这种方案相对来 说本钱较低,但难于管理。2层-PTAM卡车运送访问方式

8、+热备份中心(PTAM + Hot Center)Tier2相当于Tier1再加上热备份中心能力的进一步的灾难恢复。热备份中 心拥有足够的硬件和网络设备去支持关键应用。相比于Tier1,明显降低了灾难恢复时间。3 层-电子链接(Electronic Vaulting)Tier3是在Tier2的根底上用电子链路取代了卡车进行数据的传送的进一步 的灾难恢复。由于热备份中心要保持持续运行,增加了本钱,但提高了灾难恢复速 度。4层-活动状态的备份中心(Active Secondary Center)Tier4指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作 负载可能在两个中心之间分享。在灾

9、难发生时,关键应用的恢复也可降低到小时级 或分钟级。5层-两个活动的数据中心,确保数据一致性的两阶段传输承诺Two-SiteTwo-PhaseCommTier5那么提供了更好的数据完整性和一致性。也就是说,Tier5需要两中心与中心的数据都被同时更新。在灾难发生时,仅是传送中的数据被丧 失,恢复时间被降低到分钟级。6层-0数据丧失(Zero Data Loss),自动系统故障切换Tier6可以实现0数据丧失率,被认为是灾难恢复的最高级别,在本地和远 程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生 灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。1.2需求简析

10、对于IT系统的容灾指标,我们可以通过以下参数表示:* 以恢复点为目标(RPO - Recovery Point Object-数据的完整性(无数据丧失)-数据的一致性(数据正确且可用以恢复时间为目标(RTO - Recovery Time ObjectSecs Mlns Hrs Dm Wks MPointI Recovery TimeVital Points: RPO/RTO弟心"£n.T秒4円匚"遐并 L生、)WJH 吩s>nUfvrooli«RWttfin、 SLJMV4S0 ililBifiHCBWKMi t 址.,mN 州ioNhoddII

11、典知申T,Q _ NhIdmI* # N"! f耳雷齊 surnVM)«应用鹿镐器/代吗屐务器*计椁单7t网元管理服毎黯L吴檸业务弟址 数罄虐勒率车蒜业务揚快眼务辭益控徴制合 1 卜实时业务至统CRM中国移动公司的网管系统结构图如下:可以看到在移动IP网管系统中,包含着众多的功能子系统,根据每个子系统 数据变化的频度以及在整个网管系统中所起到的作用,我们为每个子系统制定了符 合各自特色的RP窃口 RTOVital Points: RPO/RTOW/ks Days Hrs/ling S«cs ® ©iSecs Mhis Hrs Days WksR

12、ecovery PointRecovery TimeVisionary: 服铮誥NetCooHU衷服無雜Precision® 器队tEal网管星务謝 刚脱务器率酸据丧失实时业琳切换1PMET谨呈管理屋豹& NetcooljT网背僵务话 J在移动公司现有的业务系统中,仅考虑本地高可用性,即通过集群的双机系统 (Cluster或HA)对业务应用提供保护,在一台效劳器的软硬件发生故障时,将整个 业务切换到后备效劳器上。该方法很大程度上防止了效劳器的单点故障,提高了整 个业务系统的可用性。但是,随着业务系统的开展,随着竞争的不断加剧,在一些重要的系统中, 客户已经不满足于简单的本地保

13、护。越来越多的客户提出了要求更高的系统可用 性,要求实现真正的异地容灾保护。因为一旦出现异常情况,如火灾、爆炸、地 震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非 自然原因引起的灾难,导致业务正常无法进行和重要数据的丧失、破坏,造成的损 失将不可估量。因此,要求业务系统可以在发生上述灾难时快速恢复,将损失降到 最低点。全面的异地容灾保护方案,意味着除了要实现本地的切换保护外,更要实现 数据的实时异地复制和业务系统包括数据库和应用软件的实时远程切换。2高可用容灾方案设计设计原那么我们为移动公司综合结算提供的高可用容灾方案的设计原那么如下:方案当前即可实施在满足要求的前提

14、下尽量简单 除特别必要,不需要增加另外超出本方案的软硬件 如果一个软件产品可以实现需要的功能,我们不会再使用另外的产品实现重复的功能同一方案适合多种平台环境,降低安装、管理和维护的难度VERITAS的容灾方案是一个完整的方案,该方案包括5个功能:主节点主机系统在异地的备份和恢复即IT系统重构和业务接管、主节点业务数据在异地的备 份及恢复即生产数据的备份和恢复、主节点到灾备节点的数据远程实时复制、 本地应用效劳和数据复制效劳的切换保护、应用远程容灾切换。涉及的产品包括Netbackup Enterprise Server、 Bare Metal Restore、 Volume Manager+W

15、lume Replicator, VERITAS Cluster Server和 Global Cluster Manager。该方案涵盖了容灾恢复的 7个层次,为整个业务系统提供全面的保护,其对应 需求分析的系统和各子系统的 RPO/RTO如下:Wks Days Hrs Mins SecsSecs Min% Hrs Days Wks T Recovery PointRecovery Time1 II II JTnr?叮剛?連制异歩9WJ手工砒i同生集制在该整体方案中中,上层依赖于它的下层,每一层的产品实现相应的功能Global Cluster ManagerCluster ServerVol

16、ume ReplicatorVolurne ManagerFigure 1图中涉及的软件产品将在下面论述2.2 方案概述针对IP网管系统及各子系统实际分析得出的RPO/RTO我们分别采用不同的技术手段对其实现高可用保护。1. IPNET流量管理效劳器及NetCool汇总管理效劳器该系统属于核心业务系统,数据更新率极高,且要求在灾害发生时必须立即 投入备份节点 以维持业务的连续性,因此,我们在数 据层采用 Volume Replicator 进行实时的远程数据复制;在应用层采用Cluster Server 和Global Cluster Server进行实时业务级切换。同时,为保证不可预见的意外

17、事件不对业务系统造成不可恢复的影响,我们还建议利用 Netbackup Enterprise Server 和 Bare Metal Restore 技术,利用磁 带和磁盘介质在容灾节点保存一份生产系统每天的原始数据。2. NetCool网管效劳器/PM效劳器、业务网管效劳器、Precision效劳器 该系统属于业务管理系统,直接关系到管理人员能否顺利地进行网络日常的 管理和维护,并关系到IP业务的正常运行,因此需要及时在容灾节点实现接 管,但该业务子系统的数据更新率并不高,而且周期性比拟强,因此没有必 要花费高昂的代价进行实时的数据复制,可以采用主节点数据备份,容灾节点异地数据恢复的手段保证

18、数据的完整性和一致性。我们建议在应用层面上,本地节点利用Cluster Server实施主机高可用性,防止主机故障,容灾节点利用 Global Cluster Server实施远程应用切换。在数据层面上,利用 Netbackup Enterprise Server 和 Bare Metal Restore 技 术,在本地先形成一套主机系统和业务数据的磁盘备份,并每隔 8小时在后 台将本地备份数据复制到远程容灾节点周期复制,异地节点恢复主节点 数据,以实现主备节点的数据同步。3. Visionary应用效劳器、NetCool报表效劳器、IPNET报表效劳器该系统属于整个网管系统的报表系统,数据变

19、化量的频率相对较低,保存每 天的数据即可,因此可以考虑底层数据备份,业务层手工或脚本切换的方式实现系统可用性,我们建议利用 Netbackup Enterprise Server和Bare MetalRestore技术,利用磁带和磁盘介质在容灾节点保存一份生产系统每天的原始 数据。4 整个网管系统的历史数据为了保证在任何不可预见的情况下都能正常维护整个 IP业务网络,我们还建 议在主节点和灾备节点利用 Netbackup En terprise Server 在磁带上至少保 持6个月内的系统历史数据。2.1.1 IPNET流量管理效劳器及NetCool汇总管理效劳器“ N+1冗余备份方式对于该

20、子系统,VERITAS解决方案能够按照现业务系统的要求实现多种容灾模型。即:“ 1+T冗余备份方式“ N+1备份方式N节点循环备份方式如果只要求N=2,即双地点互为备份第一种方式实际是第二种方式 N=1时的特殊情况,以下不单独讨论N+1冗余备份方式为N个正在运行的移动公司IP业务系统建立一套远程容灾备份系统,称为“N+1 备份方式。这种方式下,N个正在运行的业务系统中的任何数据的更改, 包括静态数据更改与动态数据更改,都必须同步到备用系统中。备用系统中存储着 所有的N套正在运行的业务系统的数据总和。正在运行的其中一个系统发生故障, 那么备用系统使用对应当前故障系统的用户数据和相应应用,来接管故

21、障系统的业 务。假设正在运行的N个业务系统中所有系统同时发生故障,那么备用系统使用的所 有对应故障系统的备份数据和相应应用,接管所有业务系统。“ N+1 备份方式的优点是建设本钱比拟低,可以使用一套备份系统为多个系 统提供容灾备份的功能,平时设备利用率比拟高。“N+1 备份方式的缺点是当多个系统同时发生故障,如果只有一套备份系统为所有用户提供效劳,可能导致效劳 质量的下降。该方式建议备份系统使用较高的硬件配置。N+1系统简单示意图如以下列图图二:图二多对一备份2.1.3 N节点循环备份方式由于只要求N=2,实为一对一互为备份Site A运行本身业务系统的同时,还作为 Site B业务系统的备份

22、系统;同理,Site B运行本身业务系统的同时,还作为 Site A的备份系统。正常情况下,Site B拥 有本身业务的应用、数据库进程和相关的数据,同时,Site B系统中有相应的数据区存储从Site A实时复制来的数据。而且 Site B实时将数据复制到Site A。当Site A 发生灾难时,Site B除了提供本身业务外,还要提供Site A的相应效劳。反之同理。N节点N=2循环备份系统简单示意图如以下列图图三:Ste A/ Site B*数据传输方向图三相互备份软件安装在两种情况下,每个地点的每台效劳器上安装的软件相同,只是不同情况下配 置方法不同,每台效劳器的具体配置方法后面讨论。

23、每台效劳器安装软件如下:1) 安装 VERITAS Volume Manager(VxVM)2) 安装 VERITAS File System(VxFS)3) 安装 VERITAS Volume Replicator(VVR)4) 安装 VERITAS Cluster Server(VCS)、相应的数据库代理(Agent)和应用软件代 理5) 安装 VERITAS Global Cluster Manager(GCM)2.1.5 NetCool网管效劳器/PM效劳器、业务网管效劳器、Precision效劳器容灾该系统在远程的应用切换层面上和前述方案一样,不同的是在数据复制的方法上,我们利用了

24、Netbackup实现数据的周期性复制NetBackup是VERITAS公司的备份管理软件,它致力于解决网络上大、中、小型 效劳器和工作站系统上的数据备份、归档及灾难恢复问题,Veritas备份产品国际市场份额 2000年为 39.1%, 2001 年为 40.8%, 2002 年为 40.6%,以下列图为 Garner Group 统计的VERITAS备份产品2002年国际市场份额:它的突出特点主要有:管理简单采用统一的Java或GUI图形界面,管理轻而易举,使用先进的人工管理界面工 具,制定备份策略、介质管理策略,对各项备份作业进行监控。Netbackup提供了远程分发式安装工具,当用户拥

25、有众多的客户机,无需占用大 量人力进行分散的安装,只需通过 server进行远程分发软件安装。裸金属恢复 BMR(Bare Metal Restore)对于系统中的 HP-UX, IBM AIX, Microsoft Windows NT/2000 和 Sun Solaris等不 同操作系统环境,我们通过 VERITAS Bare Metal Restore :裸机恢复功能,来简 化效劳器的恢复过程,以完成系统的快速灾难恢复。这样,当系统数据完全丧失 时,系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复,不必 进行通过光盘进行操作系统重新安装,硬盘重新分区,IP地址重新设置,以及

26、备份软件重新安装等复杂的步骤。数据恢复重定向在数据恢复的过程中,我们可以通过授权,进一步让系统管理员选择数据恢复 的目标客户机。这样,我们可以灾备系统上恢复所需要的数据,保证数据的可操作 性。并行处理NetBackup可以实现多磁带机并行操作,因此可以有效地增加带宽。如果数据被 并行定位co-located至U多盘磁带上,执行选择性恢复的过程将会很快。NetBackup可以通过策略共享实现多作业复用(Multiplex)磁带,从而大大加快了 备份进度,减少了磁带操作过程的开销。这一提高是显而易见的。真正映象恢复(True Image Recovery使用全备份和增量备份后,恢复时根据映象(im

27、age)恢复,真正做到已删除文件无需 恢复,大大减少恢复数据量.传统方式先恢复全备份文件,再进行增量恢复和文件删 除。磁带多重拷贝(Inline Tape Copy, Duplicate)磁带在线复制Inline Tape Copy允许用户在执行备份期间,创立备份数据的多份 拷贝。复制允许备份完成后复制多份备份数据。Netbackup可以一次备份或复制2-4 份拷贝,管理多达同一备份的10份拷贝,并且每份拷贝有自己的保护周期提供灾难恢复能力-VAULT在多个地点保存备份或复制介质,保证当发生灾难时或多个的地点快速恢复关 键的数据。功能配置说明NetBackup Serve:备份系统的核心,该效

28、劳器既是主备份效劳器可以对整个备份系统进行监控和 管理,备份环境的核心数据应用库、备份策略和设备配置均存放在这台效劳器上, 又是介质效劳器,可以直接连接并执行自动化管理磁带库及其介质。由于生产和测试网在物理上是隔开的,所以需要分别安装两套备份效劳器。这 样可以使生产和容灾的备份完全独立,但生产数据可以通过两台磁带库实现异地保 留。? NBU Clie nt:SNA效劳器和测试网的效劳器的备份方式采用网络备份的方式。? Bare Metal Restore所有效劳器实现裸机恢复。具备“一键恢复系统的功能,减少数据恢复的复 杂度和时间。?可以采用Netbackup复制方式或者采用制定两个策略对应不

29、同的磁带库进行 备份实现本地、异地双备份。Netbackup支持不同磁带库之间的数据复制,可以设置策略定时进行,相对于 Client系统数据同时备份到两个磁带库的方法,该方法只 复制备份后产生的Image文件,该作业由Master Sever调度,执行在磁带库之间的 数据复制,节约原Client系统资源。?利用光纤线路和远程磁带库实现了异地的数据备份保护,但在灾备点如果没 有备份恢复效劳器,即只保存了数据。如果生产点的备份效劳器损坏,那么影响了正 常的备份。同时如果没有灾备点的备份恢复效劳器,如果生产点出现场地问题,不 能立刻在灾备点进行恢复。此时可以利用测试网中的备份效劳器重新导入生产网备

30、份的CATALOG ,近而恢复数据。以上是为我们为业务系统提供的数据备份复方案,设计的目的是采用业界最先 进的备份技术完成对系统数据在线、快速、有效的磁带备份保护。同时本方案还提 供裸机快速恢复和异地磁带级容灾技术,从技术上保证了数据中心的可靠性和快速 恢复能力。利用磁盘缓冲实现周期数据复制磁盘缓冲DISK STAGING为NetBackup管理员提供了一种备份方法,首 先在磁盘上创立备份镜像,然后将镜像转移到另一种介质上。NetBackup软件的磁盘缓冲分三个步骤完成:首先在磁盘上创立NetBackup备份镜像,然后在可以配置的稍后时间,将镜像转移到另外一个介质上。此外,磁盘缓冲可以方便备份

31、和恢 复,NetBackup用户可以利用磁盘缓冲,为将数据传输到磁带提供便利,防止多路 复用镜像的弊端。磁盘缓冲的工作原理,磁盘缓冲的工作原理例如如下:假定NetBackup客户生成的备份数据的容量如下:星期一:200MB星期二:300MB星期三:300MB星期四:200MB星期五:500MB假定NetBackup客户每天都将数据备份到磁盘缓冲存储设备上,然后再将数 据从磁盘缓冲存储设备转移到最后的存储设备上。客户使用的磁盘缓冲存储设备的容量至少到达500MB,这样才能以容纳一天生成的最大数据容量。如果 NetBackup管理员只要在磁盘缓冲存储设备上保存一天 的数据,那么500MB的磁盘缓冲

32、存储设备就已经足够了,前提条件是能够成功完 成重新定位,每天将数据转移到磁带上。如果管理员想在磁盘上保存超过一天的数 据,那么应对磁盘空间进行调整。磁盘缓冲分三个阶段完成: 第一阶段:在磁盘缓冲存储设备上创立备份镜像;第二阶段:重新定位日程决定了将磁盘缓冲存储设备上的备份镜像重新定位到目的存储设备上的时间;第三阶段:磁盘上的备份镜像复制到目的存储设备上后,自动取消备份镜像。NetBackup的磁盘缓冲DISK STAGING丨流程例如L irlltPolicy: Stage 1 ScheduleStage 1; INetBsckup policy tracks up the client rt

33、Jta to a d isk stagi ng storage unit according to the Stage 1 pchcv schedule.Dist Staging Storage UnitPolicy; Stoge 2 Relocation ScheduleSlage 2: JTi已口isk Staging Storage Unit (DSSU) scti&dule relocates data to Final Storage Unit according to the relocation schedule.DestinationStcrage UnitStage

34、1Stage 3:software dirtoodiitally remowfrs the backupimage froim di sk dfler it hoa b«en copied tn a destination alordge unit. To accxintplia-h this, the M飢Backup software expire the disk image and nakes lhe baKkup imnp色 on the D&stinAlicn Storage Untt the primary copy.客户端 策略:第一阶段日程 第一阶段:Net

35、Backup策略根据第一阶段策略日程,将客户端数据备份到磁盘缓冲 存储设备上。第一阶段 磁盘缓冲存储设备策略:第二阶段性重新定位日程第二阶段:磁盘缓冲存储设备DSSU日程根据重新定位日程,将数据重新定向 到最后的存储设备上目的存储设备第二阶段第三阶段:NetBackup软件将备份镜像复制到目的存储设备上,然后自动将它从磁盘上删除。为进行此操作,NetBackup软件要使磁盘镜像失效,将目的存储设备上 的备份镜像成为主副本。在备份的第一阶段,按策略对客户端进行备份,该策略将磁盘缓冲存储设备作为目 的存储设备。应为每个专用磁盘分区/文件系统提供一个磁盘缓冲存储设备。第一阶 段日程的配置方法与其他备

36、份相似。在磁盘缓冲的第二阶段,将镜像从磁盘缓冲存储设备重新定向到目的存储设备。在磁盘缓冲存储设备的设置过程中,根据配置的重新定位日程来重新定位镜像。这 是通过点击磁盘缓冲日程按钮来完成的。只有选择磁盘缓冲存储设备作为存储设备 类型时,才能使用该按钮。第三阶段是自动使磁盘镜像失效,使目的存储设备上的镜像成为数据的主副本。这 样用户就能释放磁盘空间,以备将来使用。2.1.8 Visionary应用效劳器、NetCool报表效劳器、IPNET报表效劳器容灾在开放系统中,许多产品都能执行备份和恢复功能。然而,能处理现今数据中 心的海量数据的产品那么凤毛麟角。以往数据中心曾是大型机一统天下,现在那么 是

37、以大型UNIX、Windows效劳器以及集群为根底,企业在此之上构建并运行 和管理关键业务应用。VERITAS NetBackup独有的核心三层架构,结合先进的 介质管理功能,以及卓越的高性能,可以满足最大规模数据中心的需求。NetBackup主备份效劳器(Master Server)是架构的第一层。主备份效劳器是所有 数据保护活动(包括作业日程安排和追踪客户端备份、管理磁带介质和文件编录)的“智能中心。主备份效劳器拥有一个或多个附带的存储设备,可为多台客 户端效劳器提供数据备份,主备份效劳器也可以构成集群以实现高可用性。如果企业在几个地点都有数据或数据密集型应用,比方数据仓库,那么可安装介

38、质效劳器Media Server-即架构的第二层。这样,企业就可以在各个地点, 通过部署介质效劳器直接在本地备份大型应用,同时还可以通过网络备份其它 客户端系统。介质效劳器既可与主备份效劳器或另一台介质效劳器共享磁带 库,也可使用自己的磁带设备。如果某台介质效劳器因故障或其他问题不能正常工作,可将这一台介质效劳器的备份任务转移到另一台介质效劳器上进行架构第三层是备份网络中诸多效劳器和工作站的客户端代理Clie nt Age nt这一层中,要保护的数据量不一定最多,但是需要安装的机器数量通常都是最 多的。主备份效劳器第一层可以对介质效劳器第二层和客户端第三层进行集中管理。2.1.9 系统灾难恢复

39、VERITAS Bare Metal Restore对于系统中可能存在的IBM AIX, Sun Solaris,HP-UX,等不同操作系统环境,我 们通过VERITAS Bare Metal Restore裸机恢复功能,来简化效劳器的恢复过 程,以完成系统的快速灾难恢复。这样,当系统数据完全丧失时,系统管理员 可以仅仅通过一个启动命令就可以进行系统数据的完整恢复,不必进行通过光 盘进行操作系统重新安装,硬盘重新分区,IP地址重新设置,以及备份软件重 新安装等复杂的步骤。BMR的工作简要流程如下Main Server, File Server和Boot Server可合并在备份效劳器上:1、B

40、MR效劳器Main Server在客户机日常备份的过程中分析客户机的 环境并生成恢复策略。2、BMR效劳器分配启动效劳器Boot Server和文件效劳器FileServer.3、当客户机数据丧失时,系统管理员通过网络启动命令启动客户机。4、BMR效劳器驱动启动效劳器和文件效劳器,使客户机自动获得启动 镜像和恢复方案。5、客户机进一步划分硬盘分区并恢复所有数据。3核心系统高可用容灾方案实现本章将就该方案的每个细节进行讨论。包括方案的详细讲解,软件的实际配 置方法等。通过阅读和理解本章,您将了解VERITAS解决方案的实现方法,并清楚地知道VERITAS解决方案是切实可行的,并且有相关的实施案例

41、和实施经验。我们假设原来就已经按照双机系统设计,那么本方案仅需要增加不同地点间的 广域连接,不需要增加其它硬件。软件方面要用VERITAS高可用软件替换原有的HA/Cluster 软件,新增 Volume Manager、VERITAS File System VERITAS Volume Replicator 和 Global Cluster Manager。在介绍功能前,需要强调的的是:VERITAS提供的是完整的容灾解决方案。各 个软件的功能完全集成在一起,建立一个容远程数据复制、本地容灾、远程应用切 换于一体的方案。3.1软件功能解释在这里,每个软件只解释与本方案相关的那局部功能,至于

42、软件的全部功能, 请见附录。一、VERITAS Volume Manager简称VxVM将在物理磁盘上建立多个或一个逻辑卷Volume。以裸设备的方式使用卷,或在卷上建立文件系 统。将数据特别是需要进行远程复制的相关文件系统、数据库存放在卷 上。由于数据复制是基于卷的,所以, Volume是进行复制的根底。二、VERITAS Volume Replicator简称 VVR负责远程数据复制。VVR复制基于Volume进行。复制的数据可以是数据库中的数据文件方式 或裸设备方式和文件。复制的示意图见图四。1VVR与VxVM完全集成在一起。用 VxVM管理界面和命令统 一配置管理;由于 VVR仅仅将V

43、olume上每次I/O的实际数据实时复制 到远程节点,所以在网络线路上传输的数据量很少,对带宽的需求也很 小。;2将各个业务系统中需要进行远程复制的多个或一个卷定义为一个 Replicated Volume Group简称 RVG;3在Site A定义一条 RLINK,指向Site B;在Site B也定义一条 指向Site A的RLINK。RLINK是单向的;需要进行复制的两个系统各 定义一个指向对方的 RLINK ;每个RVG定义一个RLINK。例如有Site A和Site B两套系统同时用 Site C的系统作为备份。在 Site A定义一个RVGa,包含需要进行数据复制的卷;在 Sit

44、e B定义一个 RVGb,包含需要进行数据复制的卷;在 Site C定义两个 RVG,名为 RVGa'和RVGb',分别作为Site A RVGa和Site B RVGb的备份。然后,在 Site A 定义 RLINK to_c1,指向 Site C;在 Site B定义 RLINK to_c2,指向 Site C;在Site C定义两个RLINK,一个to_a指向Site A,另一个to_b,指向 Site Bo4Storage Replicator Log简称SRL是VVR中的重要部件。将数据复制各方的某个卷定义为一个 SRLo需要复制的数据首先要写入SRL,然后传到异地。

45、VVR通过SRL保证数据复制严格按照写顺序进行,这在异步工作方 式下非常重要。当网络中断或异地系统出现故障时,本地数据将记录在SRL中,等系统恢复正常时再将 SRL中的数据按照先进先出的顺序传送 到异地。当SRL满后,VVR将通过Data Cha ng Map简称DCM丨记录 变化过的数据块的块号。VVR数据流程见图五:* PluniLPhase iPhase 2|S> ikthm iMti* cm加帕rl>»KRMKiLTDelUu/Iis4A口冬五5Data Change Map简称DCM丨与主节点的RVG相关,它其中的内容是位 图信息,记录某一时间点后修改正的数据块

46、位置。DCM在正常情况下不使用,在SRL满后记录变化的数据块的块号,当恢复正常复制后,等SRL中的数据传送完后,将 DCM中记录的块传送到异地。灾难恢复后的 反向复制也用到DCM o6数据复制的工作模式缺省为同步/异步自适应,即在网络延时情况较好、数 据能够及时复制时,工作在同步方式,完全保证两边数据的一致性;当 网络延时情况较差、数据不能及时复制时,工作在异步方式下,保证主 节点的I/O性能。数据复制根据实际情况,自行在两种工作模式之间切 换。如果数据复制的线路带宽有限,出于保证本地效劳器读写性能的考虑,可以将复制工作模式定义为异步。由于 VVR的数据复制严格按照I/O的修改顺 序进行,所以

47、,无论在同步还是异步工作方式下,都能保证数据的完整 性。对于数据库系统,该复制机制能够保证灾备节点的数据库在灾难发 生时正常启动并提供效劳。7后备节点的完全同步,即所谓的建立基线。在主节点往后备节点正常复制数据前,必须逐块逐块地将主节点中需要复制的数据拷贝到后备节点,也就是说,将双方的RVG进行同步。后备节点的完全同步分为两种情况,一是复制时主节点应用不进行数据更改,二是复制时主节点应用进行数据更改。两种情况下,都可以采用自动同步方式或采用备份和检查点(Check Point)结合的方法。自动同步是指通过网络将数据从主节点(Primary)复制到备份节点 (SecondaryK方法很简单,只要

48、进行一步操作即可完成。自动同步对带宽 要求较高,否那么,将无法完成完全同步。自动同步要求 RVG中的每个卷 都有DCM。对于网络带宽较小,或者需要完全同步的数据量太大时,使用备份与检查 点结合的方法。在备份开始前,在主节点设置检查点,该检查点记录在 SRL中,然后将数据备份到活动硬盘、光盘、磁带或其它介质上。备份 完成后,将检查点取消。将备份的数据恢复到后备节点上。然后将RLINK连接挂上,主节点 SRL中记录的的数据传送到后备节点,完成 后,两边数据一致,进入正常数据复制状态。用该方法进行数据完全同步,要求SRL卷大些,等完成后,再将 SRL卷通过Volume Manager在线 缩小。8当

49、某些严重意外情况发生后,后备节点会变成新的主节点,称为角色转换。在灾难期间,不进行数据复制,新的主节点用DCM记录变化数据位置。9当原来的主节点在灾难后恢复正常,需要进行数据反向同步和角色转换。 反向同步有两种情况,一种是在灾难发生时刻,原主节点与灾备节点的 数据是同步的即无未复制的数据;第二种是在灾难发生时刻,原主 节点与灾备节点的数据不是完全同步的即主节点有数据尚未复制到灾 备节点。第二种情况在反向同步开始时第一步首先要进行重置,指将 原主节点SRL和DCM中数据这些数据在灾难发生时尚未来得及传 送的位置信息修改当前主节点即原后备节点的 DCM。然后,将 DCM中指向的数据全部传送到原主节

50、点。而第一种情况的话,直接进行 第二步工作。传送完成后,将当前主节点的数据库和应用停止,将双方 角色复原,并在原主节点提供正常效劳。10脱机处理。通过使用 VVR的In-Band Control(IBC)消息、Snapsho、以及 Volume Manager(VxVM)的FastResync简称FR,即快速同步)功能,可以 实现数据的脱机处理。脱机处理主要指对后备节点种的数据进行处理,例如进行备份、打印 报表、数据仓库处理等。脱机处理由打破后备节点的镜像卷、对镜像数据 进行处理、重镜像等几个过程组成。11双收条双重确认机制。指后备节点对复制数据的接收确认有两个阶 段。第一个确认当后备节点收到

51、数据后发出;第二个确认当后备节点数 据成功写入硬盘后发出。当主节点收到第二个确认后,将SRL中的相应数据清空。VERITAS Cluster Server简称VCS丨是用于本地容灾的集群软件,支持多达32个节点的应用级切换,保证本地业务系统的软硬件高可用 性。VCS以其出色的可靠性和易管理性闻名。VCS的功能特点请见附录。在本方案中,VCS主要负责以下功能:1) VCS负责监控和管理硬件系统和操作系统,当出现故障时进行 切换。2) 通过数据库代理(Agent监控和管理数据库系统,当出现故障 时进行切换。3) 通过API或脚本编写针对性客户化应用代理,监控和管理应用 系统,当出现故障时进行切换。

52、4) 通过Replicator代理监控和管理数据复制过程,当主效劳器数 据复制发生故障时,自动将数据复制工作切换到后备效劳器,保证数据 复制过程的连续性。这点对于容灾系统非常重要。该代理充分说明 VERITAS提供的是完整的容灾解决方案。5) 主节点和备份节点的 VCS集群系统都在 Global Cluster Manager的统一监控和管理下,从而实现集群系统间的远程应用切换。GCM在VCS中以两个效劳组指 GCM Master和GCM Slave的形式存在。四、Global Cluster Server简称 GCM可以称为 Cluster's Cluster集群的集 群。它负责对多

53、个不同地点的多达 32个集群系统进行监控和管理,在发 生严重灾难时,进行site的切换即应用的远程切换。GCM Con sole为Web界面,通过浏览器管理各个 Cluster系统,并在管理界面 中主动控制或响应远程切换。3.2安装、配置过程在硬件和操作系统环境准备好后,整个方案的实际安装、配置及工作过程如下。详细的配置命令和配置文件见附录。一、安装 VERITAS Volume Manager(VxVM)和 File System(VxFS)。将效劳器本地硬盘的其中一个分区或整个硬盘作为rootdg。将磁盘阵列中所有磁盘用Volume Manager管理。创立一个 disk group,包括

54、涉及的磁盘,并在这些磁 盘上划分出需要的卷,包括用于SRL的卷。如果卷上需要文件系统,使用VxFS。将数据库和应用系统都安装在共享的磁盘阵列卷中。二、由于VVR与VxVM集成在一起,所以无需另外安装。1) 为需要复制的卷增加DCM。2) 创立SRL。3) 定义RLINK,指向备份节点。4) 定义RVG,将需要进行远程复制的卷(包括SRL卷)都定义到一个RVG中, 并与RLINK联合绑定。5) 进行数据复制。三、安装VCS、Oracle或Sybase代理、客户化应用代理和 VVR代理。安装完成后,配置心跳线,然后对各个效劳组(Service Group)中涉及的资源进行定义。进行本地切换测试,优

55、化有关参数。四、安装GCM。安装完成后,在 VCS的效劳组(Service Group)中增加了 GCMMaster和GCM Slave。对其进行配置。定义 GCM响应的事件和相应的处理 动作。用手工模式进行异地容灾切换测试,并调优化有关参数。五、进行全系统联调,测试各种情况下的系统工作情况,并进一步优化有关参数。3.3 工作过程为方便论述,本节模拟地点 A和B,两地各有一套建立在 VCS双节点集群上 的业务系统,以B地点的系统作为A地点的备份。切换示意图见图六。图六正常情况下:1) 业务系统运行在地点 A,包括数据库实例、有关的文件、数据库数据、应 用软件。A节点对外提供效劳。2) A节点所

56、有的有关的数据通过 VVR实时复制到B节点。3) 两地的VCS对的各自节点内的两台效劳器的主机情况、数据库效劳、应用软件进行实时监控和管理,其中,VCS还对VVR数据复制效劳进行监控。4) GCM监控两地Cluster系统的运行。当A地点的主效劳器发生硬件或软件故障,导致主效劳器无法提供正常服务:1) VCS进行本地切换,将主效劳器的数据库效劳、应用软件、VVR数据复 制效劳切换到本地后备节点。2) 整个系统运行在本地后备节点,包括 VVR数据复制效劳,由后备效劳器 提供对外效劳和数据复制效劳。3) GCM将监控到该切换事件的发生。4) 如果仅仅是主效劳器数据复制效劳发生故障,可以不进行切换,只需将复 制效劳修复并正常运行。三、如果A地点的主效劳器恢复正常,整个系统将重新运行在正常情况下。四、如果在情况二的状态下,A地点的后备效劳器也发生硬件或软件故障,整个A地点无法正常提供效劳:1) GCM将监控到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论