HP灾备方案建议书_第1页
HP灾备方案建议书_第2页
HP灾备方案建议书_第3页
HP灾备方案建议书_第4页
HP灾备方案建议书_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HP 灾备方案建议书 中国惠普有限公司 2007.8 目 录 核心数据容灾系统 . 2 4.2.1 容灾概述 . 2 4.2.2 关键业务系统中普遍存在的问题 . 2 4.2.3 业务连续性 /容灾的重要意义 . 4 4.2.4 国外计算机业务系统灾难备份应用情况 . 6 4.2.5 灾备系统实施容灾方案的意义 . 7 4.2.6 什么是容灾系统 . 8 4.2.7 灾难及应对分析 . 9 4.2.8 系统建设的目标 . 16 4.2.9 系统建设的原则 . 17 4.2.10 业务系统现状 . 17 4.2.11 灾备系统 灾难备份系统解决方案 . 18 4.2.12 容灾系统的管理 . 23 4.2.13 培训 . 25 4.2.14 测试灾难恢复计划 . 25 4.2.15 测试方法 . 25 4.2.16 维护 . 26 4.2.17 惠普公司容灾实施服务内容 . 26 4.2.18 HP 容灾系统优势 . 31 核心数据容灾系统 4.2.1 容灾概述 在今天的科技社会中, IT 技术的运用已经渗透到了我们生活和工作的各个层面,为我们带来了以往任何一次技术革命都没有的便利和迅捷,可以说,由于采用了 IT 技术的新的生产方式已经基本上代替了原来的生产方式,成为现代社会运作和发展的主流,我们对计算机系统的依赖超过了以往任 何一种技术。 然而计算机系统在为业务的迅猛发展提供信息技术基础架构的同时,也带来了以往我们不曾发觉的负面因素。例如由于信息和处理的高度集中使业务运转过度依赖于 IT 系统,并会因为 IT 系统的突发问题而受到很大影响,严重的甚至可以导致业务系统无法正常进行。这些问题包括了进行系统检修和升级带来长时间的系统停机,系统自身的或者人为的因素或事故发生连锁性的扩大,以及不可预见的故障和突发性灾难等等。 如何避免业务运转受到影响,或者使业务影响尽可能降到最低,这是每一个企业管理者必须考虑和重视的问题。 领导经过认真的思考 ,如何切实有效的保障制证系统等关键业务系统的连续运行已经成为领导层十分关注的问题。 本方案的内容涵盖了高可用的信息技术基础平台建设、日常运作流程设计、突发事件管理和大型灾害的应对计划和策略,业务持续性管理团队建设和咨询等诸多方面的服务。希望能够帮助客户从技术、流程、人员三方面提高业务持续能力,保证关键业务的正常运行和发展。 4.2.2 关键业务系统中普遍存在的问题 提高 IT 系统的高可靠性以及 IT 系统的容灾建设早已不再是新鲜的话题了,随着许多用户实施业务系统大集中,针对 IT 系统的高可靠性和容灾能力的需求日渐突出,很多用户 都已经实施了有针对性的容灾系统,并且更多讨论的是如何实现业务数据的有效保护和业务的连续性运行。 然而,目前大多数容灾系统的建设还是存在许多问题的。这些问题中不仅有技术层面的缺陷,更多的是在流程和人员方面的不足。这些问题可能导致的直接后果就是当发生灾难时,根本无法实现应用系统的快速恢复,甚至可能导致业务运转的长时间灾难性中断。 我们可以列举出其中的一些: 1 仅从产品功能层面考虑问题,最终建设的容灾环境仅是一个多种产品的堆积。仅实现了数据的远程复制或者离线存放,没有进行灾难的各种场景测试和灾难预演,并缺乏灾难恢复机 制和危机应对流程。发生灾难时,不知道到底数据或者系统能否恢复正常。 2 进行了一定的测试和预演,但是缺少相应的灾难恢复计划和特殊情况下的行动指南,更没有全面的业务连续性计划。在真正发生灾难时,百废待兴、千头万绪的情况下,没有依据和参考,可能无法顺利进行有关操作。 3 有了灾难恢复计划等必要文档,但是没有及时的将 IT 系统,业务流程和管理人员等不断变化的信息更新,导致容灾手册成为一纸空文。 4 具备了以上的要素,但是容灾系统的建设局限在 IT 部门,缺少业务部门的参与和管理高层的介入和全力支持。发生灾害时, IT 系统能够恢复但是 业务流程仍无法恢复运转。 除了以上列出的问题之外,还有许多问题如容灾系统的负载能力估计不足,实施过程中没有严格遵循高可靠标准,实施过程工作界面过多沟通不足,日常运维管理方面存在不足和漏洞,缺少厂商、系统集成商的后续支持服务等等都可能导致业务持续性系统建设的失败。 除了以上的问题之外,另一类问题是项目小组仅将目光放在了大型灾难等突发事件的应对之上,而忽略了计划性停机对业务运行的影响。根据有关统计,非计划性停机只占 13%的停机概率,而在非计划停机中大型自然灾难占的比例就更低了。所以在项目实施时,未能很好的优化现 有系统和流程,没有充分发掘现有潜力,未能将日常操作流程和业务持续性目标充分整合,虽然实现了容灾但是仍没有从本质上解决持续性问题。 HP 公司提供的业务连续性解决方案是基于 HP 公司长期的实践经验和业界公认的业务持续方法论( BCP),结合客户的具体实际情况,采用业界先进成熟的产品和技术,由资深顾问和技术专家构成的实施小组遵循 IT 服务管理( ITSM)理念进行实施。充分考虑了以上普遍性问题,保证了项目目标的成功实现,同时 HP 公司可以提供整个容灾项目的整体解决方案单点后续支持服务,这一点完全不同于业界其他友商仅能提供单 一产品支持的服务模式。 4.2.3 业务连续性 /容灾的重要意义 在突发性灾难面前,目前的信息系统的确是非常脆弱的。当越来越多的人们已经习惯于工作、生活在基于计算机系统的支持环境中,任何关键信息系统运转的中断或者数据的丢失都将导致不可估量的损失。一个已经证实的数据是:网上银行每分钟运转中断成本为 7000 美元,企业资源管理系统为13000 美元,而呼叫中心更是高达 27000 美元!据 IDC 的统计数字表明,美国在 2000 年以前的 10 年间,发生过灾难的公司中,有 55%当时倒闭,剩下的 45%中,因为数据丢失,有 29%也在两年之内倒闭 ,生存下来的仅占 16%。 3$100,000 $200,000 $300,000 $400,000 $500,000证券制造业电信、 Internet 服务银行运输零售保险资料来源 : QualixGroup ,Find/ SVPStrategicResearchDivision 系统无法正常工作对您的企业会造成什么样的损失? ( 业务停顿 5 分钟)系统非正常工作对行业的影响HSD/ SSDMktg - HABSTHAO - 0898.PRElastupdateJuly31,98SK 当然,早在数年前许多企业及政府要害部门就有了危机意识,他们也正在尽力避免危机的产生。对于例如计算机软硬件故障、人为因素以及资源不足等引起的计划性停机所导致的系统停止运转,众多的用户采用了各种解决方案如本地双机热备份、负载均衡、动态切换等,得以实现系统冗余,增强业务系统的高可用性。但是,无论对硬件和软件采取什么样的监控和改善措施,一场不可预测的突发性灾难,比如地震、火灾等降临时,业务数据还是会在瞬间消失。如何才能保证 尽量减少业务数据的丢失、将危险与灾难的损失降低到最小程度呢?这就需要建立异地容灾系统。 容灾系统的核心就在于使用各种技术和管理手段将灾难的影响化解,在实践中主要表现为两个方面:一是保证业务数据的安全;二是保证业务的连续性。通过在生产站点和灾难恢复站点运行同样的系统,包括操作系统、基础数据库和应用软件,并通过数据复制完成在线和实时的数据复制,或者通过光纤通道的远程数据复制。假如工作站点发生突发灾难,不能再继续工作,这时容灾中心会将业务数据及时恢复到备用服务器上,并迅速将业务系统加载到备用服务器,然后实现业务的 远程切换 (Fail-over),恢复应用系统不间断的运行,在容灾中心实现业务的恢复运转,这个过程只需要几分钟或者几十分钟的时间;在此基础上,在灾难过后,生产系统恢复正常后,再将业务运行切换回正常的生产系统,实现业务系统的灾难恢复( Fail-back)。 一般来讲,一家运行关键业务的企业应该拿出 IT 总预算的 7%到 15%用于灾难备份与恢复。在发达国家,面对高级灾难防护,一般公司每月要支付大约 5 万美元到 10 万美元的费用,而对于大公司,这一数字可能高达 100万美元。这个数字十分惊人,但当用户进行整体的评估和核算后, 会发现一次业务中断所造成的经济损失将远远超过投资于业务持续性系统的成本。 在国内,当前应用级容灾系统的用户还不多。究其原因,首先观念是重要因素。容灾系统的投入相当大,而它所针对的只是一些诸如火灾、洪水、地震等小概率事件,因此,对许多用户来说,这种高投入和相对的小概率产出使他们望而却步。但是对于像财税研究机构这样的政府要害部门来说,关 键数据丢失造成的损失是远远不能用财务数据来衡量的。同时还应当指出,容灾系统并不仅仅针对突发性灾害等小概率事件,其它一些宕机事件,如人为误操作、机房事故(电源、空调、管道漏水)、计 划内的系统维护和扩容等,也可使用异地容灾系统实现关键业务的持续运转。此外,在生产系统正常运转的情况下,容灾系统还可以被用来开展诸如数据挖掘、经营分析以及用户查询等其他业务,从而使为防止灾难而采购的软硬件设备在平时也能得到很好的应用。 如上所述,综合考虑业务中断、数据丢失所导致的损失和增值业务所带来的收益,容灾系统的建设投入还是值得的。 4.2.4 国外计算机业务系统灾难备份应用情况 灾难备份计划在发达国家电信行业和金融行业得到了较早实施,现已较为普遍。例如美国,因一九八五年纽约银行计算机故障,联邦管理部门更加强了在这方 面的监管力度。现美国计算机业务系统一般出于以下三方面来考虑灾难备份计划: 重要数据保护与业务连续运行的需要: 在美国,各行业内部竞争激烈,各项业务的正常开展完全依赖于计算机系统的高性能、高可靠运行,一旦因突发性灾难而造成数据丢失或业务中断,必将会造成重大乃至致命的打击。 审计的要求: 美国较大型的企业一般会由第三方独立审计公司来提供其资信业务、管理等方面咨询服务,而世界著名的五大审计公司在对企业的评估项目中均包含灾难备份计划一项;评估企业数据在灾难等威胁破坏下数据的完整性与安全性,及业务可恢复性等,有些还会参于 验证这种计划的具体操作过程。缺少灾难备份计划及其危害性会在报告中被显示出来。 法律的要求: 美国政府及州政府通过多项法律强制性要求金融、电信等大型企业备有计算机安全及灾难备份计划。对于没有遵守这项灾难备份计划的企业,会遭受曝光及罚款等处理,同时亦可能对相关责任人进行罚款甚至监禁等处罚。已知的灾难例子有:日本神户大地震、美国佛罗里达州飓风(数百家企业实施了灾难备份计划)、台湾大地震等。 4.2.5 灾备系统实施容灾方案的意义 我国的相关政策法规: 2003 年 9 月 ,中共中央办公厅、国务院办公厅转发了国家信息化领导小组关 于加强信息安全保障工作的意见(中办发 200327 号),提出各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复; 2004 年 1 月 9 日全国信息安全保障工作会议上下发了关于做好国家重要信息系统容灾备份工作的通知; 2004 年央行提出各银行要在 2009 年前完成灾难备份工作; 2005 年 1 月国信办组织起草了重要信息系统灾难恢复规划指南; 灾备系统自身业务需要: 灾备系统目前日常研发工作依赖于 Oracle 数据库软件,这套软件分别运行在 2 套由 HP 小型机组成的 HA 集群中,此配置保证了数据库服务应用在 单机出现故障时可以迅速切换到集群中的另一台机器上去。当整个机房出现比较大的灾难时(如水灾、火灾等), 2 套 HA 集群内的主机都不能提供服务,更严重的是:灾难可能会对目前存放在 EVA4000 磁盘阵列中的数据造成损坏和丢失。即使事后可以通过备份来恢复数据,但是数据的部分丢失不可避免;而且新购买阵列、小型机的流程较长,灾备系统正常正常使用在较长的一段时间内都会受到严重的影响。因此,为了保证数据的安全性和应用的连续性,我们建议 在一个备场地建立一个灾备数据中心,灾备数据中心的数据和主数据中心数据实时保持同步。 随着 灾备系统的业务开展的深入,数据量的增加,必然要考虑建设灾难备份中心,其目的就是在于防止一些灾难性的小概率事件可能对集中式信息系统造成的不可恢复的原始数据的丢失,这些灾难性事件可能包括为火灾、水灾、地震、电源故障及一些人为的操作失误等等。 综上所述,灾备系统建设灾难备份中心有如下的意义: 重要业务数据在灾难发生后得以保护。 重要业务,核心数据库系统在灾难发生后可以在设定的时间内恢复,从而实现业务的连续运行 业务计算机系统抵御突发性灾难的能力和级别提高 4.2.6 什么是容灾系统 容灾系统是业务永续运行的重要的组成部分。 所谓灾难,通常是指引起关键业务的信息服务中断,且中断的时间及造成的损失超出企业所能承受的范围之外的意外情况。引起灾难的因素很多,可以是系统环境中的软件、硬件故障,有意或过失的人为破坏,还可能是因火灾、飓风、地震而引起的数据处理设备的损坏等等,只要造成了关键业务的中断,都是灾难。而容灾就是通过预先建立的备份中心、备份设备和备份数据等,在可以容忍的时间内恢复业务系统的正常运行,将企业因业务中断而导致的损失降低到预定的程度。 相对于业务永续运行来说,容灾强调的是企业的关键业务在灾难发生时的应对能力和恢复能力,即通 过尽可能快速的、全面的企业业务恢复运作,将因灾难造成的损失降低到最小程度。显然,它并不保证业务的零间断能力;实际上,容灾系统的整个灾难恢复过程必须会造成一段时间的业务中断。另外,也正是因为可以容忍一段时间的业务间断,所以其实施难度、周期和规模都要远远小于实现业务持续性系统的建设。 从广义上讲,任何提高系统可用性的努力,都可称之为容灾。本地容灾,例如主机集群:当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续进行正常工作。而我们平时讲到的容灾,尤其是值得重视的容灾,一般都是指远程容灾。远程容灾 可以这样理解:在各行业企业用户的IT 系统中,必然有一部分(尤其是核心部分)是非常重要的,我们叫它生产中心。人们往往给生产中心配备一个备份中心,该备份中心是远程的,并且在生产中心的内部,已经实施了各种各样的数据保护。不论采取什么方式进行保护,当火灾、地震这类突发性灾难发生时,一旦生产中心瘫痪了,备份中心将能接管生产系统,继续提供网络服务。比如,全国铁路调度中心网 络系统,当发生火灾、地震等灾难性事件时,该系统仍要保持正常进行,不能因为调度中心出现灾难性事件,全国的铁路系统就处于瘫痪状态,让灾难不合理地蔓延。 我 们认为,一个有效的高可靠性计算环境应该能够做到: 数据中心任何计算机系统硬件,软件及应用的单点故障将不会影响整个数据中心的处理工作; 数据中心由于灾难 (火灾、地震、断电 )等原因无法工作时,应有一个备份数据中心能够迅速接管关键应用,继续运行; 主数据中心恢复后,应用系统、业务数据应能迅速切换回主中心运行。 4.2.7 灾难及应对分析 4.2.7.1 灾难的定义 一般来说,人们可将灾难分为下面几个类型:自然灾难(洪水、飓风、地震),外在事件(电力或通讯中断)、技术失灵(电脑宕机或网络受损)、设备受损(火灾)及人为操作(黑 客入侵、恶意破坏、员工误操作)等。在本文中,灾难的定义主要是指自然的和人为的灾难,包括系统硬件,网络故障,机房断电,人为破坏甚至火灾地震等,例如台湾的台北大地震导致该区域内建筑及大部分机器均遭到严重破坏。而突发性灾难发生从而引发的 IT系统崩溃的后果将可能导致生产停顿,失去客户以及减少定单、收入,甚至威胁到企业的生存。 灾备系统面临着多种可能出现的风险和灾难因素,从类型上可以大致分为自然灾害和人为因素;从发生的概率看可以分为比较可能,可能,和基本不可能。分析各种风险是制定相应的容灾策略以预防或尽可能降低灾难影 响的基础。 对业务环境中可能发生的突发性灾难归纳如下: 比较可能 可能 基本不可能 人为过失 /故意破坏(对公司不满的员工,外部黑客,计算机病毒等) 气候灾难(暴风雪,严寒等) 设备 /硬件 /系统故障 业务应用软件故障 火灾 基础设施故障(网络,通信,电力,空调,通风等) 气候灾难(台风,洪水等,沙尘暴) 城市事件(罢工,动乱等) 工作场所的环境紧急事件(化学污染等) 地震 流行疾病 社会性恐慌 恐怖袭击(炸弹威胁,爆炸,挟持人质等) 战争 核战 以上列出的灾难因素分析仅作一般性参考。灾备系统的具体情况( IT系统环境,地理,人文,社会服务环境等),可以在项目的风险分析阶段针对性的明确与细化。 另一方面,从灾难的后果和影响来看,大致可以分为两大类: 业务停顿,但一般可以在能忍受的时间内完成本地修复,不需要异地切换。 例如:机房电源设备发生故障、 IT 设备软硬件故障、消防系统和空调系统等机房环境告警、人为因素误操作的情况等,电信供应商的 IT 系统普遍建立了相应的本地高可用性系统( HA)、备份 /恢复策略,运维管理流程,并购买了 IT 厂商高级别支持服务,以及其它一些基础设施的防护措施等。我们建议 首先应立足于现有系统环 境,在现有条件下解决自身的灾难预 防和风险规避问题,尽可能避免发生大的突发性灾难并降低灾难的破坏力。同时需要统筹规划容灾系统的建设,按系统的方法论分阶段、有步骤进行相应的分析、设计、实施、测试、人员培训等工作。这也正是目前容灾规划所关注的课题。 4.2.7.2 容灾可以达到的目标层次 根据企业自身的现有环境、客观条件、投资规模、实施阶段的不同,容灾方案可以达到多种目标层次,这些层次可以在企业不同的层面上实现不同的容灾功能要求。下面的图表展示了各个容灾层次: 地区运 营 节 点数 据 中 心网络系统数据应 急 后 备 中 心 ( E O C )指 挥 中 心灾难 / 危 机 管 理后 备 节 点( 本 地 区 ) 异 地 群 集冗 余 网 络 备 份本 地 群 集应 用 及 数 据 库 备 份数 据 复 制异 地 数 据 存 放应 用 、 数 据 库可 能 的 解 决 方 案容 灾 保 护 目 标 层 次 示 意 图 关于这些层次的描述如下: 数据保护: 数据保护的目标是防止企业在意外情况及突发灾难下丢失数据,通常采用异地数据备份或存储介质镜像的方法保护企业的数据资产。 应用保护: 应用保护的目标是在发生意外时不仅可以实现数据恢复,还要能够将数据恢复到灾难发生前的存储状态,以重新恢复应用系统,由于应用系统的数据通常都保存在数据库中,所以应用保护要保护应用数据以及调用这些数据的数据库,这层保护所采用的方法包括利用数据库事务日志和数据库 /应用的备份。 同时应用保护使企业在意外发生时可以使用备用的系统进行业务操作 ,通常的策略是使用冗余的后备系统,利用高可用方案或群集技术实现系统切换。 系统保护: 系统保护更提高一个层次,它的目标是使企业在意外发生时可以使用备用的 IT 系统环境进行业务操作,通常的策略是使用冗余的后备系统,利用高可用方案或群集技术实现系统切换。 网络保护: 网络保护的目标是保证整个企业内网络环境的高可用性,通常的保护策略包括冗余网络,自动或手动路由调整,备份网络设备,以及网络环境数据的备份保护等。 数据中心保护: 数据中心保护的目标是保护作为整个业务节点的数据中心的高可用性,即在整个业务节点所依赖的所有 IT 系统崩溃时,使用后备的数据中心支持业务节点的工作。 运营节点保护: 和数据中心保护不同的是,运营节点保护的目标是抵御影响整个运营节点的物理建筑的灾难,这预示着需要有备份地点来用于业务处理。它和数据中心通常都使用包含整个业务支撑系统的冗余备份节点来实现,但是出于运营节点保护的需要,该备份节点距原来的运营节点的物理距离应至少在 75 公里以上,而且在灾备运营节点不但要有冗余的 IT 系统环境和网络环境,还应包括能够实现业务运营的相关资源,如业务人员、营业环境等。 地区保护: 最外层是地域的保护,它应对的对象是影响整 个地区的灾难,如飓风,地震,暴风雪等。通常采用的容灾方式为远距离的容灾备份节点。 4.2.7.3 数据的远程复制 通常说来,对于远程灾难恢复方案建议用户建立两个数据中心,主中心和备份中心。正常情况下,应用运行在主数据中心的计算机系统上,数据也存放在主中心的存储系统中。当主数据中心由于断电,火灾甚至地震等灾难无法工作时,则立即采取一系列相关措施,将网络、电话线路切换至备份中心,并且利用备份中心计算机系统重新启动应用系统。 而这里最关键的问题就是切换过程时间最短,同时尽可能保持主数据中心和备份中心数据的连续性 和完整性。而由于财务数据的重要性,如何解决主、备中心数据库数据备份,恢复则是灾难恢复方案的重点。 传统的磁带备份方式一般采取定点备份,而当系统崩溃时。距最近一次备份时间之间的数据将全部丢失,无法恢复。而且磁盘备份恢复时间比较长。由于速度慢,缺乏实时性,无法满足用户大数据量数据恢复及数据库连续性,实时性的要求。 而现在流行的灾难恢复方案主要是采用实时的数据备份的方式。它的主要原理是通过通信线路,实时地将主中心更新数据拷贝至备份中心存储系统中,保证主、备中心数据的实时一致性。当主中心无法工作时,备份中心可以立即 接管业务,并且确保数据的最大完整性。 其主要实施方法有: 应用中间件软件的实现方式 :通过对应用程序的修改,利用交易中间件软件,将在线交易同时在生产中心和灾备中心执行;或者通过交易中间件软件将任何主中心的数据改变发送到备份中心,从而保证生产中心和灾备中心的数据一致性。这种方式的优点是对网路带宽的要求较低,缺点是需要 修改应用。 利用数据库厂家的软件产品完成远程备份 :现有的一些数据库厂家例如 Oracle 数据库可以提供 STANDBY 数据库功能,通过通信网络将实际数据库日志文件传至备份中心存储系统,备份中心的 STANDBY 数据库按照主数据库结构从日志文件中重新恢复数据库。这种方法投资成本小,数据恢复相对磁带较快,缺点就是占用主机资源,日志文件建立过程中发生灾难时,则该日志数据将丢失。 利用数据复制软件完成远程备份 :现有的一些 EAI 厂家的产品,例如 TIBCO 可以提供数据库和应用的数据的远程复制功能,通过安装在数据库和应用上的 agent 对数据库数据和应用数据进行监控,如果发生数据的变化就将变化发布到通信网络上,由具备接收能力的 agent 将数据接收下来,通过数据库接口将数据输入备用数据库。这种方法投资成本小,数据恢复相对磁带 较快,可以实现灵活的数据复制策略,可以是不同的数据库软件和不同的平台,缺点就是占用主机资源和存储资源。 利用系统软件的镜像功能完成远程备份: 利用操作系统的镜像工具软件,如 HP MirrorDisk/UX 和 Volume Replicator,同时将数据写到本地和远程的数据中心。采用这种方式与应用和存储都无关,可实现异构存储且不需修改应用,缺点是对通信的质量要求较高。 基于存储的灾难备份方式: 通过高端存储阵列容灾:通过惠普高端存储阵列产品 HP EVA 系列,可以实现主数据中心和备份中心的操作系统、文件系统、数据库 的实时拷贝维护。不占用主机 CPU,内存, I/O 资源,如果企业已经拥有高端存储设备,则采用该方案非常理想,其缺点是两端必须采用同样的存储设备。 容灾技术对比表 容灾分类 数据复制方法 对主机影响 (经验值) 适用环境 描述 交易数 TUXCEDO, 5% 异构主机 设备投资最节省。但由于 据复制 CICS 异构存储 需要修改应用,所以大部分用户不会采用。 数据库数据复制 数据库本身的复制功能。 QUEST 5% 同构主机 异构存储 相同数据库 Oracle 采用的是异步传输 Achieve Log 的方式。缺点是灾难发生时会丢失部分数据,只能保护数据库内的数据,而且只能保护数据库的数据,远程数据中心必须配置主机参与数据拷贝过程。 数据复制软件 数据库数据的复制功能。 TIBCO 5% 异构主机 异构存储 不同数据库 实现数据库数据的异步复制。非常灵活,易于实施,缺点是占用主机资源和存储资源,远程数据中心必须配置主机参与数据拷贝过程。 镜像软件复制 HP MirrorDisk/UX等磁盘镜像软件。 5% 同构主机 异构存储 只支持同步方式,所以建议在 10公里范围内采用,采用 DWDM 设备扩展后,可支持 100 公里的距离。好处是可以异构存储,即两个数据中心的存储可以不同,缺点是需要消耗主机 CPU 资源,而且对通信质量要求高。 Volume Replicator 510% 与磁盘镜像原理相同,但功能更强,可以支持异步方式,所以距离可以不受限制。 不支持 AIX。 存储硬件级复制 高端磁盘阵列本身的远程数据拷贝 无 同构主机 同构存储 HP XP, HP EVA, EMC Sysmetrix, IBM Shark系列存储之间的数据拷贝方式,光纤直连方式可以支持到 10 公里,采用CNT 设备扩展后距离不受限制。是采 用较广的容灾方式,必须在同一厂商的高端存储设备间才支持远程数据拷贝。 根据灾备系统的现状,我们认为采用基于存储硬件级的复制方式来的实现异地系统的容灾方案才是符合灾备系统实际需求的,以下对将采取的技术进行介绍。 4.2.8 系统建设的目标 灾难备份恢复系统的设计目标主要应从以下四个方面来考虑: 具体数据类型与目标的灾难保护: 从灾备系统正常运作的角度分析各种业务数据,作出重要性与可恢复性要求的评估,并由此制定系统的数据灾难保护策略。 灾难发生后的可恢复业务分析: 对灾备系统各个业务与管理流程进行分析评估,并由此制定系统 业务的灾难备份政策,建议通过智能存储设备进行实时远程数据复制,首先实现数据级容灾。同时系统通过备份管理软件将其数据备份到大容量磁带库,实现对制证数据的本地保护。 灾难发生后的可恢复分析: 对于突发性灾难这样的重大事件,有时受灾地区并不苟求所有系统的所有应用必须立即恢复运营,故可按比例和实际需求进行分析,并由此配备相应的设备。 灾难发生后的业务可恢复时间指标: 我们通常将灾难的发生分为两类,一类 是可以预计具体时间的灾难,如损害性极大的台风,计划内的大面积电力系统检修等;另一类是不可预计突发性的灾难,如地震、恐怖袭 击,主机系统的非计划性宕机等。针对两种不同灾难,要设定不同的恢复时间指标;并根据不同业务系统的各自特点,确定不同业务系统的灾难恢复时间 4.2.9 系统建设的原则 根据灾备系统的实际情况,充分利用现有软硬件资源、网络资源,建立高性能、低成本的容灾系统。灾备系统容灾系统的建设原则应包括: ( 1) 确保灾难情况下重要数据的安全存储; ( 2) 确保灾难发生后系统运行的及时恢复,包括数据的恢复; ( 3) 将灾备系统因灾害而导致的利益损失降低到最小程度; ( 4) 坚持容灾备份系统建设投资经济合理性的原则; ( 5) 确保系统的可扩充性、可维护性、可操作性; ( 6) 建立健全相 应严密的管理制度和操作流程。 4.2.10 业务系统现状 灾备系统是以计算机技术为依托的信息处理系统。其安全性、可靠性极为重要,如果数据发生损坏、丢失,其后果将极为严重,不仅仅是影响了灾备系统的正常运行,有时甚至可能给个人、单位以至国家都带来无法估量的损失。尤其核心存储系统属于整个灾备系统业务集中处理系统,如果发生不可预见的故障和灾难,导致整个系统的崩溃,其影响将更大。因此,业务的拓展与灾难的防范是我们必须同等重视的问题。 灾备系统随着业务开展的深入,数据量的增加,必然要考虑建设灾难 备份中心,其目的就是在于防止一些灾难 性的小概率事件可能对集中式信息系统造成的不可恢复的原始数据的丢失,这些灾难性事件可能包括为火灾、水灾、地震、电源故障及一些人为的操作失误等等。 目前的容灾系统绝大多数是以硬件容灾为主,因为其可靠性最高、性能最佳。硬件容灾要求存储阵列为较高档次的存储系统,这种高档次的阵列能够做到数据不通过主机就可以进行远程复制,如 HP 公司的 EVA 系列等可以实现硬件 容灾。 针对这些需求,我们为 灾备系统设计了一套容灾方案供参考。 4.2.11 灾备系统灾难备份系统解决方案 (以下设备型号为示例) 在异地容灾方式下,主中心与灾备中心 同处 在的城市 *。主中心的地点选在 所在地;灾备中心则可根据用户选择。 在主中心,核心的数据系统是由两台 RX6600 服务器和一台 EVA4000存储组成的业务系统。其连接方式均采用光纤连接。 在异地灾备中心我们同样选择 EVA4000 作为核心存储设备,并作为数据远程复制的介质。服务器我们选择一台 RX6600 作为灾难或紧急情况下业务恢复使用。连接方式同样采用光纤连接。数据的远程复制通过基于存储设备的 HP Continuous Access EVA 软件来实现。 主备中心之间的数据传送链路是容灾方案 的一个重要部分。可以采用直接连接光纤或者 DDN 专线的方式。 该同城容灾方案的配备如下: 主中心 容灾中心 服务器 RX6600*2 RX6600*1 存储 EVA4000*1(10TB) EVA4000*1(10TB) SAN Switch 4/8*2 Switch 4/8*2 网络 根据距离情况选择光纤直连方式或者专线 这一同城容灾方案的特点为: 在同城构建容灾平台,具有了一定的防灾抗灾能力; 无须对主机平台,应用系统和数据库结构进行任何修改,大大降低容灾方案实施风险; 数据容灾对主机系统 透明,无须占用主机资源; 可以在主机或 EVA 磁盘阵列上灵活实现数据镜像卷对的生成,拆分,同步和删除操作,并可与应用脚本集成,自动运行; 容灾方案成功案例众多,技术成熟,安全稳定; 用户可以根据容灾距离和对性能的要求,选择采用 CA 同步复制方式,保证数据传输一致性和完整性,不会造成业务数据的瘫痪; 灾备中心配备主机,可以支持查询业务,同时也具有了在紧急情况下快速恢复业务的能力。 4.2.11.2 在灾备中心增加查询功能(未来) 容灾在保证数据安全性和在生产系统正常运转的情况下,还可以被用来开展诸如数据挖掘、经 营分析以及用户查询等其他业务,从而使为防止灾难而采购的软硬件设备在平时也能得到很好的应用。 灾备系统的容灾方案设计保证了在灾备中心有一份完整的业务数据的拷贝,因此这部分数据可以利用来进行数据查询系统的构建。 由于用户对于查询系统的要求是 24 小时在线的业务,目前业界支持的一种实现方式是在灾备中心的存储上利用设备本地数据拷贝功能生成一个镜像卷,然后利用这个镜像卷来进行查询工作。 4.2.11.3 数据复制方式建议 通过磁盘阵列实现容灾备份功能,有两种实现模式:同步工作模式与异步工作模式。 同步工作模式在服 务器向存储写数据时,每一个 IO 会同时写往远程备份中心的存储阵列,并且在确认往本地和远程都写成功后才会应答服务器,表示写操作成功,在生产中心和备份中心正常运行过程中,同步机制会保证生产中心和备份中心的存储阵列中的应用数据完全保持一致,当生产中心发生灾难时,备份中心的数据完全保留了生产中心发生灾难前的数据,最大程度的保护了业务数据的安全。同步模式适用于对业务数据的安全性要求比较高的业务与应用,要求带宽有保证,适用于生产中心与备份中心在同一个城市内部的容灾备份系统。另外,由于光纤传输的速度,距离会影响系统的性能。 对于异步模式,在生产中心,每一个 IO 写往本地存储阵列后马上应答主机服务器写成功,应用继续运行。存储阵列本身在把数据传往远程备份中心。由于异步远程更新的执行,应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有限制。然而,当传送中的数据在生产磁盘控制器中还没有形成数据一致组时生产中心发生灾难,这些数据就会丢失。因此在系统和应用程序重新启动之前,需要额外的数据恢复。所花费的时间和造成的影响取决于实际应用环境,例如应用程序和设备配置的复杂性,更新的 完整性等等。对于异步复制方式 Continuous Access EVA 是通过取得 Oracle OSCP 认证的 time stamping 技术可以充分保障数据的完整性,这也是目前唯一的通过了 Oracle 认证的存储设备异步技术。通过这一技术实现了远端写数据的序列的正确性。保证数据的有效和可恢复能力。 考虑到灾备系统采用异地的灾备中心,在应用性能允许的情况下可以采用同步复制方式容灾,从而在最大程度上保护业务数据的安全。 4.2.11.4 链路选择和带宽分析 由于主中心和备份中心的距离并不代表实际的网络链路或裸光 纤的长度,因为线路的敷设实际上是很曲折的。我们在系统建设时,还要采用不同路由的两条线路实现在传输上的高可用性,避免因为意外挖掘造成线路的中断。有可能两条线路的长度有很大的差异。 无论采用同步和异步方式的远程复制,带宽都决定着数据复制的速度和系统运行的效能。因此主备中心之间的通讯链路带宽是决定着业务连续系统容灾能力的一个重要因素。 我们认为该链路的带宽应该能够满足日常远程数据复制的要求和个别情况下主中心服务器访问备用中心存储进行业务运行的需求也可以叫做存储切换的带宽需求。如果采用同步的复制方式,这两种需求是基 本一样的,因为数据都要实时的传送到远端的存储上,然后返回确认信息。如果采用异步复制方式,为保证业务运行存储切换的带宽会高于远程复制的要求,因为异步的复制不需要和业务处理速度一致。我们以两者中间最高的标准作为系统设计依据。 一般计算带宽的原则为 : 生产中心与备份中心的容灾线路带宽应该为生产中心业务交易中写操作所产生的数据量的最大峰值 ( 因为只有写操作才会复制到远方 ,读操作则不会 ),这样一来 ,根据数据传输的基本原理 , 就可以保证本地处理的性能不会因为远程数据的传输而带来大的性能影响。 4.2.11.5 应用 系统切换 在实施应用级的远程容灾方案之后,当主数据中心因为各种突发性灾难造成无法正常运行时,原来运行在主数据中心的业务系统将切换到备份中心继续运行;切换方式分为两种,即手工方式和自动方式 当用户选择采用手工方式进行应用切换时,在主数据中心因为突发性灾难造成崩溃后,需由容灾系统管理员在备份数据中心启动预先编写的,并已通过严格测试的业务系统切换脚本完成应用系统的切换过程当用户不希望因为各种偶然性的因素(如网络故障,应用程序 bug 等)造成业务系统的远程切换,以及手工切换造成的业务中断时间在业务系统可以接受 的时间范围内,或备份数据中心24 小时有人值守的条件下,可以选择使用手工切换的方式完成应用系统的远程切换,这种方式可以使容灾系统管理人员对灾难备份与恢复操作进行更多的控制与管理在通常情况下,应用系统的切换脚本包括以下内容 : 磁盘镜像卷的拆分( pairsplit); 备份数据卷组( VG)的激活( vgchange a y)和文件系统的一致性检查( fsck); 网络配置的修改; 数据库恢复操作( DB recovery); 启动数据库; 启动应用系统等 当用户选择采用自动切换的方式进 行应用切换时,需要借助于高可用性集群软件,如 MC/Service Guard, Metro Cluster 等; HP 公司资深高可用性技术专家将结合 灾备 系统的应用实际情况和容灾环境的实际需求,对集群软件进行客户化配置,从而实现应用系统的自动切换功能;保证当突发性灾难发生时,即使在 无人值守的情况下,也能够实现业务系统的正常切换,确保业务系统能够实现全天候的正常运行。 4.2.12 容灾系统的管理 4.2.12.1 组织机构 容灾备份系统需要由专门机构(指定现有相关部门或者设立新机构)负责日常的管理、维护、以及灾难发生后的系统恢 复等工作。该机构的主要职责、职能主要包括: ( 1)备份系统的日常维护工作,确保当前备份系统是正常、有效的、以及数据备份的完整性、一致性; ( 2)测试及研究工作。测试工作包括对当前备份系统、备份数据有效性、可用性的测试、以及对应用软件的升级测试等;研究与容灾备份相关的技术方案优化以及相关制度、规程的完善; ( 3)日常管理、协调职能。负责本部门的日常管理工作,并负责与主用中心、以及相关方面的协调工作; ( 4)灾难发生后的系统恢复以及生产组织职能。 4.2.12.2 管理制度和操作规程 容灾备份系统的管理、维护 、系统恢复、生产组织等需要完善的管理制度和严密的操作规程予以约束、规范,以确保备份系统的可用性和生产恢复的有效性。 在建设容灾备份系统的同时,应结合自身情况建立并不断完善相关的管理制度、操作规程,其中包括: ( 1)容灾备份工作的领导与组织分工; ( 2)容灾备份中心机构的职能、职责;人员岗位责任制度; ( 3)日常维护管理制度和操作规程; ( 4)测试管理制度;(包括备份系统有效性测试、应用软件升级测试等) ( 5)灾难 /故障的监测与分析、报告制度、以及审批流程规定; ( 6)系统恢复 /切换的操作流程和规范; ( 7) 备份系统恢复运行后的生产组织制度;(其中应包含数据的安全与备份) ( 8)主用系统重新恢复工作的管理与组织制度。 4.2.12.3 灾难的预防 系统容灾应包含灾难预防的内容,即研究相应对策将灾难带来的损失降低到最小程度,这包括: ( 1)系统技术设计方案的不断优化,在不断提升系统自身安全可靠性的同时,使系统和数据备份的实施、管理、操作更简便、运行更可靠; ( 2)容灾备份策略和技术方案的不断完善,不断提高备份数据的一致性、完整性,缩短系统运行中断的时间; ( 3)相关管理制度、操作流程和规程的不断完善、改进; ( 4)努力减少系统的安全隐患; ( 5)可能也包括备份系统机房地点的合理选择等。 4.2.12.4 灾难恢复计划的测试、试运行和维护 通过测试、试运行可检验灾难恢复系统功能是否达到设计要求。测试和模拟试运行可以检验灾难恢复计划文档资料的完整性,恢复策略的正确性,可以提高工作人员的操作熟练程度。应选择适当的灾难恢复计划测试策略。通过测试可以提高灾难恢复计划的质量,改进灾难恢复过程,可以使相关部门配合有序,同时由于应用系统环境如系统环境、网络配置、应用系统恢复的优先级不断变化,灾难恢复计划也应随之进行修改。 培训 测试及维护 经过努力建立起的灾难恢复计划系统, 必须通过内部培训和周期性的测试才能为各层次参予人员所了解、掌握。同时随着灾备系统数据中心业务的不断完善和发展,各方面的条件和情况亦会变化,因此还需要有稳定可靠的维护。 4.2.13 培训 成立专门的灾难恢复计划小组; 选定一些对业务或技术非常熟悉的关键人员作为灾难恢复小组参予人员。以保证在危机处理的正确、高效。 制定培训计划: 让大家了解项目的背景,以及各人在灾难发生时的相应责任,应掌握的知识与技能; 计划培训进度与日程; 协调各相关部门负责人,保证培训时间; 管理培训 质量。 4.2.14 测试灾难恢复计划 测试灾难恢复计划,不仅可以验证计划的有效性、完整性,亦可以帮助大家熟悉过程,做好准备工作。 归纳如下: 验证计划过程与策略,发现疵暇之处 可以获得具体的恢复时间概念(如网络是如何被恢复的,速度如何) 可以测试备份主机系统与网络系统的效率 可以向领导、审计、管理、媒体等展示 可以使整个队伍熟练其各自的角色与责任 4.2.15 测试方法 测试的很重要的一个原则是不停生产机,采用独立或并行的方式进行。如果是并行则可以与生产环境比较结果。 测试的第二个原则是按模块进行,即将庞大的系统分解开来,按模块独立 测试,而非一开始就动员全面测试。由于各模块的相对独立性,测试是可以分解成一个一个模块进行的。这样的难度较小,也易于组织与管理。 4.2.15.1 测试的频率 测试目标是为了保持系统的现时性,即系统能跟上变化的步伐,但同时亦要考虑费用问题等。 4.2.15.2 可能引起变化的因素 主要操作系统的升级 重要应用软件和改变 主要硬件改变 人员变动 4.2.15.3 测试流程的制定 测试流程的制定是在测试中最为重要的一环,只有测试是在可控的前提下,测试才具备检验系统安全性、锻炼应急队伍的意义。因此客户测试流程 的制订需要在最终客户、相关设备的供应商和灾备系统实施方三方共同协商确定,已确保原有系统的稳定运行。 4.2.16 维护 为保证灾难恢复计划的稳定可靠运行,需要有明确的维护政策,保证人员及资金的适当投入。并定期检查报告,管理层可以了解其状态。 4.2.17 惠普公司容灾实施服务内容 HP 公司为灾备系统提供的远程灾难备份解决方案由 HP EVA 系列磁盘阵列以及相应的光纤交换机和用来连接主数据中心和备份数据中心的光纤网络设备 组成 , 利用磁盘阵列本身所具备的远程数据复制功能 (Continuous Access ) 通过远程数据镜像的方式实 现关键业务数据的远程备份和恢复。 在灾备系统容灾项目的实施过程中 ,HP公司将委派具有丰富项目实施经验的项目经理 ,使用项目管理的方法对容灾方案的实施进行高效的统一管理 ;并利用HP 容灾专家丰富的容灾知识和实施经验,结合广泛验证的容灾方法和设计技术将大大缩短实现容灾方案的时间 ,确保实现容灾方案的设计目标 ,并尽量减少和避免在容灾方案的实施过程中对用户业务系统的影响 ,从而全面降低容灾实施过程中的风险 ,确保灾备系统的容灾方案能够得到平稳顺利的高质量实施。 4.2.17.1 方案实施核心服务( Core Service) 项目管理服务 由惠普项目经理对容灾项目的整体实施过程进行管理,包括项目启动、制定项目实施计划、项目采购管理、项目资源管理、项目的整体进度管理以及跟踪项目进展并执行变更和应急情形管理。 容灾方案规划设计 在确认容灾的恢复策略之后,惠普和客户将合作进行恢复技术方案的详细设计,详细方案包括具体的服务器配置、存储配置、 SAN配置、容灾软件配置、网络配置、数据复制对应关系、备份策略、灾难切换方案。 容灾系统产品及主机代理软件安装配置服务 容灾系统的安装服务,除了基本的相关存储设备及存储系统软件的安装,还包括数据复制 软件的安装和 LTU激活、相关逻辑卷,文件系统及应用数据库的配置、系统主机代理软件包的安装和配置。 远程 SAN互联服务(光纤直连) 容灾系统远程连接链路的搭建服务,基本服务中只包括光纤直连的方式。服务内容除了光纤交换机的基本安装,还包括 SAN的综合布线、跨区域远程 SAN的配置, Zoning的划分和合并、光纤数据复制链路功能测试以及光纤网络容灾参数配置服务。 灾难切换脚本开发 开发容灾系统切换所需要的脚本,服务内容包括设计容灾系统的切换策略,并与用户讨论确定;编写脚本,形成指令切换或自动切换;各种脚本的测试和验 证、优化工作。 技术切换测试 在容灾系统搭建完成后,对容灾系统的基本切换功能进行测试。包括建立、检验及执行异地故障切换机制、系统测试方案的设计,并与用户讨论确定、容灾系统切换及回切测试。 灾难恢复技术切换流程开发 对容灾系统日常维护和灾难发生时的技术恢复流程进行设计,包括容灾系统维护方案设计、业务部门恢复数据的步骤和所需资源的设计、故障流程触发模式、升级模式的设计。 容灾系统现场培训服务 针对用户容灾系统提供的现场技术培训,在项目实施过程中提供 1天的现场培训(不限人数)。培训形式为惠普顾问和工程师就容灾系统的安装配置现场指导用户 IT技术人员。 容灾演习服务一次 容灾演习服务将帮助客户准备和执行模拟的灾难恢复演习。惠普通过实施这一服务帮助客户制定演习的恢复目标、描述灾难场景、制定演习计划,并完成一次灾难恢复演习。服务内容包括为测试演习而模拟的故障或灾难的设计、制定系统整体演习的测试计划、召开演习前的沟通会议、建立测试小组,观察测试过程及提出建议、按照测试计划进行容灾演

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论