核心系统灾备建设项目方案建议书_第1页
核心系统灾备建设项目方案建议书_第2页
核心系统灾备建设项目方案建议书_第3页
核心系统灾备建设项目方案建议书_第4页
核心系统灾备建设项目方案建议书_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、飞康VTL-S备份及重复数据删除测试 1/16 0/56核心系统灾备建设项目方案建议书 - 22 -目 录 TOC o 1-3 h z u HYPERLINK l _Toc510036542 1需求分析 PAGEREF _Toc510036542 h - 1 - HYPERLINK l _Toc510036543 1.1概述 PAGEREF _Toc510036543 h - 1 - HYPERLINK l _Toc510036544 1.2建设目标 PAGEREF _Toc510036544 h - 1 - HYPERLINK l _Toc510036545 1.3灾备系统建设的考虑因素 P

2、AGEREF _Toc510036545 h - 3 - HYPERLINK l _Toc510036546 1.4灾备解决方案分析 PAGEREF _Toc510036546 h - 3 - HYPERLINK l _Toc510036547 2什么是CDP技术 PAGEREF _Toc510036547 h - 7 - HYPERLINK l _Toc510036548 3详细设计 PAGEREF _Toc510036548 h - 9 - HYPERLINK l _Toc510036549 3.1CDP技术建设目标 PAGEREF _Toc510036549 h - 9 - HYPERL

3、INK l _Toc510036550 3.2方案部署结构图 PAGEREF _Toc510036550 h - 12 - HYPERLINK l _Toc510036551 3.3方案部署说明 PAGEREF _Toc510036551 h - 12 - HYPERLINK l _Toc510036552 3.4复制线路带宽预估 PAGEREF _Toc510036552 h - 13 - HYPERLINK l _Toc510036553 3.5配置清单 PAGEREF _Toc510036553 h - 14 - HYPERLINK l _Toc510036554 4方案功能介绍 PAG

4、EREF _Toc510036554 h - 16 - HYPERLINK l _Toc510036555 4.1在本地实现数据保护 PAGEREF _Toc510036555 h - 16 - HYPERLINK l _Toc510036556 4.2本地数据的再利用 PAGEREF _Toc510036556 h - 17 - HYPERLINK l _Toc510036557 4.3远程复制和容灾 PAGEREF _Toc510036557 h - 18 - HYPERLINK l _Toc510036558 4.4容灾方式的优势 PAGEREF _Toc510036558 h - 18

5、 - HYPERLINK l _Toc510036559 5灾难恢复的技术方案 PAGEREF _Toc510036559 h - 20 - HYPERLINK l _Toc510036560 5.1生产数据库数据丢失 PAGEREF _Toc510036560 h - 20 - HYPERLINK l _Toc510036561 5.2生产数据库瘫痪 PAGEREF _Toc510036561 h - 20 - HYPERLINK l _Toc510036562 5.3文件丢失 PAGEREF _Toc510036562 h - 21 - HYPERLINK l _Toc510036563

6、5.4生产磁盘故障 PAGEREF _Toc510036563 h - 21 - HYPERLINK l _Toc510036564 5.5站点级别灾难的恢复 PAGEREF _Toc510036564 h - 21 - HYPERLINK l _Toc510036565 6CDP系统实施方案 PAGEREF _Toc510036565 h - 22 - HYPERLINK l _Toc510036566 6.1项目实施条件 PAGEREF _Toc510036566 h - 22 - HYPERLINK l _Toc510036567 6.1.1机房环境 PAGEREF _Toc510036

7、567 h - 22 - HYPERLINK l _Toc510036568 6.1.2机柜 PAGEREF _Toc510036568 h - 23 - HYPERLINK l _Toc510036569 6.1.3网络 PAGEREF _Toc510036569 h - 23 - HYPERLINK l _Toc510036570 6.1.4光纤交换机 PAGEREF _Toc510036570 h - 24 - HYPERLINK l _Toc510036571 6.1.5健康性检查 PAGEREF _Toc510036571 h - 24 - HYPERLINK l _Toc51003

8、6572 6.2项目实施人员 PAGEREF _Toc510036572 h - 26 - HYPERLINK l _Toc510036573 6.3设备验收 PAGEREF _Toc510036573 h - 26 - HYPERLINK l _Toc510036574 6.4功能测试 PAGEREF _Toc510036574 h - 27 - HYPERLINK l _Toc510036575 6.5项目实施周期规划 PAGEREF _Toc510036575 h - 1 - HYPERLINK l _Toc510036576 7用户系统迁移方案 PAGEREF _Toc51003657

9、6 h - 1 - HYPERLINK l _Toc510036577 7.1生产机房迁移方案 PAGEREF _Toc510036577 h - 1 - HYPERLINK l _Toc510036578 7.2容灾中心迁移方案 PAGEREF _Toc510036578 h - 6 - HYPERLINK l _Toc510036579 8用户应用升级方案 PAGEREF _Toc510036579 h - 6 - HYPERLINK l _Toc510036580 8.1设备需求 PAGEREF _Toc510036580 h - 7 - HYPERLINK l _Toc51003658

10、1 8.2人员需求 PAGEREF _Toc510036581 h - 7 - HYPERLINK l _Toc510036582 8.3部署方法 PAGEREF _Toc510036582 h - 8 - HYPERLINK l _Toc510036583 9解决方案的几个关键技术 PAGEREF _Toc510036583 h - 8 - HYPERLINK l _Toc510036584 9.1读写优化技术 PAGEREF _Toc510036584 h - 8 - HYPERLINK l _Toc510036585 9.2一致性对比技术 PAGEREF _Toc510036585 h

11、- 9 - HYPERLINK l _Toc510036586 9.3数据一致性保证 PAGEREF _Toc510036586 h - 10 - HYPERLINK l _Toc510036587 9.4远程传输数据完整性保证机制 PAGEREF _Toc510036587 h - 10 - HYPERLINK l _Toc510036588 9.5TimeMark多历史点快照技术 PAGEREF _Toc510036588 h - 11 - HYPERLINK l _Toc510036589 9.6任何I/O历史轨迹恢复技术 PAGEREF _Toc510036589 h - 11 - H

12、YPERLINK l _Toc510036590 9.7回切(反转)技术 failback PAGEREF _Toc510036590 h - 12 - HYPERLINK l _Toc510036591 9.8增量复制 PAGEREF _Toc510036591 h - 13 - HYPERLINK l _Toc510036592 9.9链路故障容错 PAGEREF _Toc510036592 h - 14 - HYPERLINK l _Toc510036593 9.10窄带传输技术(Microscan+压缩) PAGEREF _Toc510036593 h - 14 - HYPERLINK

13、 l _Toc510036594 10成功案例 PAGEREF _Toc510036594 h - 15 - HYPERLINK l _Toc510036595 10.1容灾成功案例 PAGEREF _Toc510036595 h - 15 - HYPERLINK l _Toc510036596 10.1.1某大型银行全国灾备系统 PAGEREF _Toc510036596 h - 15 - HYPERLINK l _Toc510036597 10.1.2华北电网 PAGEREF _Toc510036597 h - 16 - HYPERLINK l _Toc510036598 10.1.3易方

14、达基金公司容灾系统 PAGEREF _Toc510036598 h - 18 - HYPERLINK l _Toc510036599 10.1.4长盛基金公司容灾系统 PAGEREF _Toc510036599 h - 20 - HYPERLINK l _Toc510036600 10.1.5信达资产公司容灾系统 PAGEREF _Toc510036600 h - 21 -需求分析概述XX系统已经成为市的重要基础信息系统,与广大居民的日常生活密切相关,一卡通系统工程是便民工程和政府工程,一卡通系统的建设,特别是总中心清结算系统的稳定运行,绝对不允许出现中断、瘫痪、崩溃等重大问题。总中心清算系统

15、中保存着一卡通相关应用单位的清分结算数据,也包含着城市一卡通公司的日常运营数据,目前总中心清算系统若发生灾难性崩溃的话,将导致这些生产数据丢失,而通过其他途径恢复这些数据则是十分困难(耗费大量人力、物力也未必能恢复完整),这将给公司的利益带来极大的损失。因此,考虑到XX系统业务的重要性,建设总中心清算系统的异地灾备系统极其必要。建设目标核心业务系统目前现状如下图所示:虽然XX系统核心数据系统采用了EMC外部存储系统和IBM P系列小机作为整个业务系统的硬件支撑平台,但是对于小机系统故障、存储系统故障、以及人为错误(如:误删除、外部入侵等)以及生产中心火灾等等故障和灾难,现有系统完全没有防护能力

16、。除不可抗力灾害(如:火灾)出现外,一卡通系统如果出现停机,可能造成居民一卡通无法办理储值、故障卡换卡、退卡等等业务,给市民正常生活带来麻烦。因此本次项目建设需要实现以下目标:存储系统故障情况下,一卡通业务不受影响,正常运行。即RTO=0;生产系统发生逻辑故障(数据库系统异常、人为数据误删除)情况下,用户数据不丢失,RPO=0;一卡通系统生产中心发生站点级故障(如:火灾),用户系统可快速恢复。用户数据丢失度最少。RPO10分钟。灾备系统建设的考虑因素灾难备份系统建设的要求主要基于如下几点:灾难防御范围全面,不留灾难死角,也就是国家有关部分曾经重点强调的有效性。以往众多的灾备技术实现往往缺乏灾难

17、防御的全面性,只能够确保部分自然灾害发生后的生产恢复,而众多常见故障的威胁往往缺少应对,造成故障升级为灾难,有灾无备的现象频频发生,对于金融体系的安全往往无法形成真正的盾牌。范围要广,满足全业务范围的部署,而不是小范围应用十分重要。多年来IT系统的改变以稳健、成熟为著称,一般只有能够满足苛刻要求的且经过证明的稳定技术才能获得企业用户的青睐。经济性和开放性。灾备建设的维护成本是一个重要考虑因素,如何降低传输等运行维护成本,是灾备建设的重要目标,否则,灾备建设成为一个长期吸金器,不利于业务系统的发展和提供更为良好的服务。灾备解决方案分析目前,XX系统系统数据库采用了Oracle数据库,最为简单最为

18、廉价的容灾解决方案就是利用Oracle数据库自身的数据复制技术DataGuard实现数据库级容灾。但是,一旦发生、数据库逻辑故障,数据丢失、文件丢失、误删除等情况,DataGuard都将无法恢复。此外,采用Dataguard还有如下问题:1、Data Guard同步模式对于主站点的性能影响大,大概在15%以上,(主站点必须得到备份站点的肯定回复才能进行下一步操作),而异步模式在灾难发生时将会丢失数据;2、在最初始的数据同步阶段,需要系统停机,当两边数据一致之后备份站点才能基于日志进行更新。3、数据库逻辑故障、数据记录丢失时,将无法恢复,而此类灾难发生几率远远高出停电、火灾等DataGuard可

19、防的灾难。4、在DataGuard所能防护的灾难中,需要启用容灾中心数据库才能实现业务系统恢复,会将灾难扩大化,启用容灾中心之后的数据回切是个较大的问题。5、不能保护文件,生产中心恢复时首先需要重新安装创建数据库,加上数据回传的时间,恢复时间将在2小时(数据库系统的安装创建将会耗时2小时左右,数据恢复的时间难以估算)以上。6、当灾难发生时,所有客户端必须重新连接备份站点的主机,会有中断影响;7、Data Guard的数据复制是基于Oracle的Redo Log或Arch Log,调用了LGWR进程,系统资源消耗较大,增加了主机的负载,而且需要的网络带宽在20Mb/s40Mb/s(按照高峰期每小

20、时log增量在510GB)以上,如果要达到带宽无瓶颈那么将需要提供80Mb/s左右的带宽才能满足应用的需求;除DataGuard外,XX系统中心还有两种传统容灾解决方案选择,主机级(比如VVR)和存储级(磁盘阵列之间数据复制)。但是这两种解决方案也都存在很多容灾死角,无法实现用户全方位灾难保护,比如如下灾难将无法解决:数据库瘫痪或者数据丢失无法恢复。容灾系统的建设需要更改用户系统结构,对已有系统做迁移,这又是一个比较大的工程。存储级解决方案在磁盘阵列故障时业务系统将会停机,需要启动容灾中心才能恢复业务,本地无法修复丢失数据。两种解决方案都需要高带宽(百兆级别)来传输数据,存储级容灾还需要提供F

21、C 线路或者FC over IP设备进行协议转换。存储级容灾需要同品牌同型号产品,主机级容灾需要特定的文件系统支持(如VVR)两种解决方案复制过程不考虑数据库一致性,无法保证容灾中心数据完全可用防御对象为存储故障或者站点级故障(如火灾、地震),逻辑故障无法防御防御过程不可逆,容灾中心启用后的回切难度巨大。根据Progress Smart, Storageworld Conference统计用户业务系统面临的威胁中,80%为软件故障威胁(软件bug、人为误操作、病毒攻击等), 而这些威胁是上述方案所不能解决的。并且在可防御的20%左右的灾难中100%需要启动容灾中心,使得用户灾难事件扩大化。可见

22、,上述的几种解决方案都无法实现用户系统100%容灾,甚至50%的容灾能力都达不到,建设这样的容灾系统根本无法实现有灾必备,有灾能防。他们都不是XX系统容灾系统最佳解决方案。目前,有一种容灾技术叫连续数据复制器技术,它避免了上述解决方案的所有弊端,解决了上述方案存在的问题,实现了用户数据和应用全方位、无死角100%的保护。这种技术的创始公司就是美国软件公司,CDP连续数据复制保护技术把用户RPO锁定在了秒级,通过Journal功能可以实现用户数据I/O级的恢复,使用户RPO趋近于0,而对于磁盘阵列故障,CDP技术实现了RPO为0的以往解决方案无法实现的目标。而对于RTO,CDP技术把几乎所有故障

23、的恢复时间(RTO)都锁定在了分钟级别,无论用户数据有多大,CDP容灾解决方案的数据恢复时间都在数分钟之内可以完成。什么是CDP技术CDP(Continuous Data Protection)是一种数据保护的高级形式,是一种精细度极细的数据块级别保护技术。CDP能够从任何应用系统中采用实时方式提取每一刻的数据,并且将当前数据和历史轨迹的每一个精细点完整保存起来。在任何故障发生时,实现当前数据和历史轨迹数据的瞬间恢复的能力。CDP不仅可以将各时间点数据(每一秒钟)在本地保存实现备份,也能够通过精简异地传输技术将数据轻松传递到异地,成为唯一具备全部异地和本地容灾和备份元素的技术。CDP技术的任何

24、故障的恢复(采用Recovery方式)都在几分钟内完成,而且几乎所有的故障类型都在防御范围内(包括设备故障、逻辑故障、病毒侵袭、站点灾难等),因而在国际上,也成为一种级别很高的灾难防御技术。的CDP不是一个简单的容灾或者备份技术,它是一种将容灾、备份统一化的统一灾备管理平台,而且将分层次恢复、瞬间恢复、历史轨迹录像回放、站点差异比对等各种高级功能集为一体,其管理却异常简单。在XX系统现有环境中,如果采用CDP来实现分层次灾备保护,可以达到极高的保护效果:存储设备故障,应用系统依然运行,没有任何停机时间数据丢失后,可以在5分钟内迅速找到正确的数据(包括在本地和异地)数据库一旦瘫痪,可以在10分钟

25、内,完整恢复未瘫痪的数据库系统任何站点灾难,可以在异地迅速提升CDP系统,甚至部分接管运行。也可以实现差量回退到生产中心带宽只需要10-15MCDP持续数据保护和灾备技术的简介:CDP的核心是一台CDP管理器,内含一定量的高速存储空间,通过以太网或光纤网连接到核心业务系统中。在各个应用、数据库服务器上,只要安装配置好同步镜像,就可以将数据的任何时间点记录实时传递到CDP管理器中。CDP管理器中不仅有当前数据的原样镜像,而且记录着历史点快照(多达255点/每个卷)和历史轨迹“录像”,一旦需要在系统中进行恢复,CDP会在几秒钟之内提供所有需要的数据,其恢复之快,往往令人难以想像。CDP管理器还具备

26、精简数据传输技术,使得向异地的传输不再占用高不可攀的带宽,成本开销急剧下降。而且,当你看到灾备的所有必要元素时(切换、回切、灾备演练、查询和报表应用等),你会发现CDP技术都是那么轻而易举,使用者在灾难面前完全可以保持一个轻松心态,风险化解不是难事。目前,在国际上的以持续数据保护技术为特征的灾备技术中,CDP技术成为一颗最为耀眼的明星,其高水准跃居众多技术之上,在国内也屡屡为各个行业的灾难救助施展神奇之力。仅仅近一年来,就曾在国家电网、中国人民银行、国税系统、长盛基金等多个行业和系统中力挽狂澜,将曾经在各行业中均难以救助的各类故障(至今仍是众多金融系统的杀手)迅速化解,获得了救灾大师的美誉。并

27、且,CDP采用的低带宽特征为众多用户节省的大量的系统维护成本,带来了实实在在的长期收益。详细设计CDP技术建设目标我们设计的CDP灾备系统建设之后,可以达到如下目标:实时镜像备份,无备份窗口这一特征使得CDP方案彻底不同于传统的备份技术,备份技术所困扰人们的长备份窗口和按天进行备份的弱点将不再存在。磁盘系统故障业务不中断利用CDP技术,生产系统磁盘即使发生故障,业务系统完全正常运行(RPO=0,RTO=0),克服了磁盘故障这一杀手的威胁。备份数据立即可用由于CDP实时镜像备份技术所获取的数据影像不是专用的备份格式,而是直接的数据原型,因此数据的恢复将是立即可用,恢复窗口RTO建立逻辑资源-分配

28、逻辑资源1小时实施方实施方、用户方需要生产系统停机时间2.3小机系统安装ipstordisk软件,做镜像2小时实施方实施方、用户方2.4在生产中心完成配置生产CDP与容灾CDP之间的复制关系,并完成数据初始复制同步。1实施方实施方、用户方2.5容灾中心CDP设备搬迁1生产系统运行,不停机2.6容灾中心CDP设备上架、连线0.5实施方用户方2.7容灾中心CDP设备开机运行,初步运行监测0.5实施方用户方2.8灾备中心的数据提取和验证1实施方、用户方用户方容灾中心完成2.9系统工作正常功能测试1实施方、用户方文档提交4实施方根据项目要求完成相关文档工作并提交5实施方项目验收5完成工作内容中定义的工

29、作,递交项目交付成果,通过甲方验收后,经甲乙双方签字确认,工作任务完成1实施方、用户方项目实施共计用时约24个工作日另4小时,其中需要每套系统停机时间为3小时。用户系统迁移方案XX系统系统目前机房为临时机房,未来有机房搬迁的需求,选择CDP方案也能为用户机房搬迁提供自动安全保护。假设用户系统在本次项目部署后生产中心和容灾中心都需要迁移。我们建议迁移方案按中心迁移。用户可以先迁移生产中心或者容灾中心,通过不迁移一方的CDP设备来实现用户数据的安全。生产机房迁移方案说明:本文描述的迁移方案只涉及用户业务系统中由CDP系统保护的部分。当用户需要进行机房迁移系统时,通过CDP进行用户数据备份。把用户数

30、据同步到容灾中心CDP,保证容灾中心CDP和生产中心CDP数据一致。备份数据过程(下文图例是示范说明,与本项目最终实施将有一定出入)生产CDP与容灾CDP同步数据设备迁移过程1、挂起两台CDP之间的复制关系生产中心CDP和其他设备关机下电生产中心CDP和其他设备搬迁到新机房生产中心CDP和其他设备上电验证启动系统生产中心CDP和生产系统的启动顺序是:启动生产CDP后端连接的存储设备启动生产CDP,检查生产CDP情况,启动生产系统后端生产存储 启动生产系统,检查mirror关系启动数据库和应用。恢复CDP之间复制关系过程1、登陆生产CDP,如果本次迁移修改了生产CDP和容灾CDP上的IP地址,则

31、需要按下步骤修改两台CDP之间的复制关系配置。2、修改CDP Server IP地址3、修改复制策略里的目标地址4、手工启动复制关系,执行CDP之间数据同步。检测同步情况。生产中心迁移完成。容灾中心迁移方案CDP技术具有增量数据同步功能,容灾中心CDP设备的迁移步骤比生产中心有一定的简化。设备迁移过程中生产中心CDP能保证用户生产数据的安全性,容灾中心CDP迁移完成后,只需要进行两台CDP之间的差量数据同步。迁移步骤:手工执行同步,使生产端CDP和容灾端CDP之间的差量数据尽可能的少;挂起两台CDP之间的数据同步关系;容灾中心CDP下电,CDP后端存储下电;设备搬迁;新容灾中心CDP设备加电;

32、恢复生产CDP和容灾CDP之间挂起的复制关系,手工执行同步;同步完成标志着容灾中心CDP迁移成功。用户应用升级方案XX系统项目在采用CDP技术方案后。用户容灾中心升级到应用级容灾将会非常简单。应用升级后XX系统容灾系统架构图如下:设备需求IBM P系列服务器,用作数据库服务器(满足需迁移数据库系统性能需求)应用服务器,与用户生产系统同平台存储光纤交换机(如果节点少可直连CDP设备,CDP设备最多能连接6台服务器)人员需求容灾中心进行升级的过程并不需要数据库和应用系统提供商提供数据库和应用系统安装服务。需要有数据库维护人员和应用系统维护人员可进行数据库和应用系统配置调整就可。部署方法本次项目保护

33、的两套系统都采用IBM P560,部署Aix操作系统。因此,容灾中心容灾主机的部署方式非常简单。物理拓扑按上图部署,系统上软件的部署可以通过tar工具把生产系统上安装的数据库和应用的应用程序移植到容灾主机并按生产系统上原有路径解压。上述程序解压后需更改相关参数文件中涉及到的主机名或IP地址信息部分的参数,把生产中心数据库联接服务地址修改成容灾中心可对外提供服务的数据库IP地址。解决方案的几个关键技术读写优化技术的CDP和NSS具备高速写入技术SafeCache。 SafeCache功能可以全面提高CDP和NSS管理的磁盘写性能。当磁盘性能无法满足主机的I/O需求时,使用SafeCache配合高

34、速磁盘设备可以明显改善整体性能。SafeCache的原理是:将高速磁盘设备置于“前端”,生产数据可以先顺序的写入到高速磁盘设备中,然后按照SafeCache设置的策略,将Cache中的数据再随机写入到后端存储中。CDP和NSS也具备高速读出技术HotZone。 HotZone功能可以全面提高CDP和NSS管理的磁盘读性能。使用HotZone时,CDP和NSS会将磁盘划分为容量相等的多个区域,然后监控哪些区域经常会被读到,随之将该区域的数据块映射到高速磁盘中,这样就会提高应用主机读取磁盘的速度。如果CDP和NSS监控到某些区域不再被经常读到,那么会将该区域移出高速磁盘。一致性对比技术CDP复制技

35、术提供了两端磁盘系统的一致性对比机制,即生产中心和灾备中心可以通过一致性对比技术同步差异,保证两个站点数据的一致性。这种技术可以在本地和异地之间进行磁盘块级的逐项比对,并实现差量同步。这种技术能够在生产中心和灾备中心的数据出现不一致的可能时,迅速完成基准点同步,从而保证灾备中心数据永远一致和可用。同时灾备中心可以随时进行各类演习,比如利用灾备中心验证某类业务接管后的正确性,并且在容灾备份演习结束后进行各种方向的还原(如容灾备份系统同步生产系统或生产系统同步容灾备份系统等),具有很大的灵活性。以往的众多灾备手段中,由于缺乏差异比对技术,造成了传输网络中断后有可能导致灾备中心的数据状态与主中心不一

36、致,导致灾备系统再也无法启用,人们只得重新进行初始数据的同步工程,而这个阶段往往是漫长和影响巨大的。这在一些灾备项目中留下了深刻的教训。的ScanDifference技术就是数据的一致性保证,也是灾备演练结果向生产中心覆盖的一种同步手段。数据一致性保证数据库系统在进行远程复制时,具有一定的特殊性。传统的存储设备的远程复制技术,实现的是磁盘所存储的数据的远程同步,而某些时候数据库系统并未能实时刷新到磁盘体系上(数据库采用了缓存机制确保交易的性能,向数据文件的写入往往会比缓存的写入略有滞后),这样远程的数据库系统在启动时,往往需要通过日志的重演来进行数据库的恢复,这样由于一致性的问题有可能导致数据

37、库立即启动能力的缺失,使得灾难发生时的快速恢复目标完全无法实现。软件的远程复制技术中,采用了能够感知数据库系统的DBagent代理技术,能够在指定的快照点和复制点产生数据库的校验点刷新,从而确保数据库日志与数据文件的一致性,实现快速启动数据库的目标。这种针对数据库系统的解决方案使得灾备体系真正与应用的数据库体系结合起来。远程传输数据完整性保证机制任何灾备技术都要有数据完整性保证机制,因为数据库的容灾备份体系中,不仅要同步存储的数据块,而且数据库高速缓存中的数据必须与数据库文件的数据保持一致性刷新。以上所有内容均完成远程同步后,才能确保灾备站点的正常一致性启动。数据库系统在进行远程复制时,具有一

38、定的特殊性。传统的存储设备的远程复制技术,实现的是磁盘所存储的数据的远程同步,而某些时候数据库系统并未能实时刷新到磁盘体系上(数据库采用了缓存机制确保交易的性能,向数据文件的写入往往会比缓存的写入略有滞后),这样远程的数据库系统在启动时,往往需要通过日志的重演来进行数据库的恢复,这样由于一致性的问题有可能导致数据库立即启动能力的缺失,使得灾难发生时的快速恢复目标完全无法实现。CDP和NSS的远程复制技术中,采用了能够感知数据库系统的DBagent代理技术,能够在指定的快照点和复制点产生数据库的校验点刷新,从而确保数据库日志与数据文件的一致性,实现快速启动数据库的目标。这种针对数据库系统的解决方

39、案使得灾备体系真正与应用的数据库体系结合起来。TimeMark多历史点快照技术CDP和NSS中,一个重要的功能就是TimeMark的多时间点快照技术,使得中国投资有限责任公司生产系统能够实现一定时间间隔下的各时间段版本数据的保存。CDP和NSS能够提供多达每个应用卷255个自动快照点的极高水准。这种快照的机制是利用快照缓存,对于时间点变化之后的数据块,将其原始时间点数据进行保存,一旦需要系统会退到某一时间点,TimeMark可以立即通过TimeView的方式将历史点数据的指针提取出来,从而实现历史数据的瞬间映射和恢复机制。TimeMark的快照机制在灾备体系中,可以轻松实现数据库数据/文件数据

40、/系统数据等的时间点即刻恢复或者数据提取和分析查询等,是一种十分重要的数据恢复手段。任何I/O历史轨迹恢复技术CDP和NSS连续I/O记录技术可以将数据恢复到任意历史轨迹(秒级和I/O级均可)。启用Journal功能后,CDP和NSS会单独在磁盘上开辟一个区域,用于记录生产卷每一个历史I/O。恢复时,通过“拉杆”可将数据恢复到任意历史点,并且该历史点数据可单独进行查询,不影响生产卷的状态。回切(反转)技术 failback一个完整的容灾体系,不应该仅仅考虑切换(failover - 从生产中心切换到灾备中心),还应该考虑回切(failback),一般而言,生产中心在灾难后恢复就采用了回切的方式

41、。其实回切涉及到的技术点比正切换要多,并且不是所有技术都能实现。NSS复制技术中提供“反转”功能,即灾备中心将数据增量同步回生产中心,轻松实现failback。的复制技术中的“反转”功能是将灾备中心将数据增量同步回生产中心,只需要在Console界面上点击“反转”即可完成,简单而方便。同时,采用提供的反向工具,设备向生产磁盘的反向增量同步也能够实现,从而实现了完整的数据反转。增量复制CDP和NSS的远程复制策略分为三种:连续远程复制时间增量复制数据增量复制在不同的灾备环境中,管理员可以根据系统的状况灵活地进行策略设置,并且可以动态调整。一般而言,在宽带的传输系统中,可以采用实时复制的方式,这样

42、数据的丢失率低,实时性强。在窄带的传输系统中,增量复制方式则优势比较明显,因为可以大大减少占用带宽,传输效率高。我们以定时增量传输方式为例进行过程描述。本地CDP和NSS将时间间隔内的差量block(利用了SnapShot缓存区)经由TCP/IP传到远端的NSS管理器中。远端NSS管理器先将数据放入暂时存储区中,待确认所有数据均传输无误后,才确认完成,否则需重新续传。远端NSS管理器将暂时存储区中的数据写入到对应的逻辑卷中。远端NSS管理器可搭配TimeMark快照提取功能进行快照的提取。CDP和NSS的远程复制拥有极大的优点:NSS管理器的replication经由TCP/IP WAN传输,

43、因是标准的协议,故可由两台NSS的网卡直接传输。一般传统容灾技术中的磁盘阵列的replication则由两台磁盘阵列的控制器经WAN专线传输,不论是透过磁盘阵列的ESCON接口或FC switch的光纤端口,都必须搭配一对非常昂贵的gateway网关转WAN来传输,导致其建设、管理与维护成本大幅提高。链路故障容错 灾备系统数据复制链路会因各种原因中断,如电信故障,生产或灾备的机房,网络或主机的故障或维护,都会导致复制中断。CDP和NSS采用了磁盘智能比对技术,无论复制链路中断多久,再次连通时NSS会只传输新增的变化部分。其他灾备技术都采用cache记录意外中断后的异步差量,复制链路长时间中断时

44、cache会溢出,导致链路再次连通时需要两端彻底重新初始化。窄带传输技术(Microscan+压缩)在实际灾备系统中,往往异地备份受到带宽的限制。一般而言,灾备技术都要有带宽优化技术,否则,容灾系统会出现数据的阻塞和溢出,根本无法正常工作。的容灾技术就提供了窄带传输的优化技术。一般的基于磁盘阵列等传统灾备技术中,传输单元以块block传输为基准,往往小的数据更新,远程传输需要最小4KB左右的传输数据(Block定义)。的容灾技术replication模块中,增量方式提供了Microscan的微单元传输技术,将传输的最小数据单元缩小到512字节(一般的传输在1个block4096字节),可以在极

45、小的带宽传输较大的数据量(根据实际测试,减少传输数据量达到80%左右)。压缩方式也可以大大减少带宽占用,常规情况也可以达到4-5倍的压缩比。中国投资有限责任公司生产系统容灾系统为广域网传输,容灾数据传输带宽成本高, 的增量microscan数据复制技术在理论上十分符合中国投资有限责任公司生产系统容灾系统的需求, 能够在低带宽的链路情况下进行高效的数据复制。CDP和NSS的精简复制功能带有独特的带宽优化技术(Microscan),是存储设备级灾备技术占用带宽的1/50,是常规灾备技术占用带宽的1/6,在窄带环境下轻松实现异地灾备,可为中国投资有限责任公司节约大量带宽方面的投资。成功案例容灾成功案

46、例某大型银行全国灾备系统项目名称某大型银行全国容灾系统2008.10(32省北京)用户业务需求确保业务能够从故障中恢复和连续运行,保障服务质量。系统为,IBM AIX P570*2, EMCCX500 5TB/HDS 9580 5TB,DB2 数据库。各省带宽2M。 要求,全国各省向北京灾备中心多点容灾,实现业务恢复(生产中心北京DR center)公司解决方案采用IPStor CDP replication(local-remote),实现AIX side-band对存储的远程保护,replicate到北京容灾中心。各种故障均要求分钟级别恢复。磁盘系统故障要求不停机。项目效果说明各种解决方案

47、中惟一满足用户要求的方案是公司的CDP方案。运行效果良好,32省在30天内全部完成实施并且全部成功,创造了容灾领域的奇迹。支持各类异构设备,和瞬间恢复,支持本地的现场修复方式,支持窄带传输,全部灾难的恢复能力,成为功能极为强大的容灾方式。各省实施仅用了3小时停机,创造了令人吃惊的速度。总结华北电网客户背景华北电网承担着保证区域安全供电的政治责任和为地区经济社会发展提供可靠电力供应与服务的使命。经过多年的建设,建立了企业经营管理系统(ERP)、数字化电网生产管理系统(EAM)、一体化能量管理/电力市场技术支持系统(EMS/MOS)、企业客户管理系统(ECM)、企业级信息集成平台(EAI)。信息系统采用了大集中的模式,对于整体安全提出了极高的要求。IT环境 ERP系统(AIX)数据库系统(AIX/HPUX)AIX P570 集群/HPUX SuperDome集群合计8台大型UNIX服务器Legato备份软件问题与挑战传统备份机制策略落后,不能满足故障发生后数据最小丢失率要求传统备份机制无法提供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论