中国银行NBU备份系统改造建议书.doc_第1页
中国银行NBU备份系统改造建议书.doc_第2页
中国银行NBU备份系统改造建议书.doc_第3页
中国银行NBU备份系统改造建议书.doc_第4页
中国银行NBU备份系统改造建议书.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国银行 nbu 备份系统改造建议书 版本号:版本号:1.3 赛门铁克软件(北京)有限公司赛门铁克软件(北京)有限公司 systex 2010 年年 05 月月 28 日日 目录目录 一、一、中国银行备份系统现状中国银行备份系统现状4 黑山扈开放平台备份系统现状4 二、二、备份系统改造目标备份系统改造目标6 三、三、第一阶段第一阶段 磁带库扩容改造,备份系统过渡方案磁带库扩容改造,备份系统过渡方案7 四、四、第一阶段第一阶段 磁带库改造实施计划磁带库改造实施计划10 五、第一阶段备份系统改造风险分析五、第一阶段备份系统改造风险分析12 六、六、 第二阶段第二阶段 nbu 备份软件升级和调优计划备份软件升级和调优计划14 七、第三阶段七、第三阶段 同城数据容灾建议同城数据容灾建议17 八、第四阶段八、第四阶段 异地数据容灾建议异地数据容灾建议(实现实现“两地,三中心两地,三中心”架构)架构)19 一、一、中国银行备份系统现状中国银行备份系统现状 目前中行共有三个备份域,黑山扈开放平台备份域、黑山扈审计署备份域以及海鹰备份域。中行 三个备份域因其设计目的不同,决定了三个备份域在中行处于不同的重要级别。首先开放平台备份 域是其最重要的备份系统;同时审计署备份系统是刚建立不久,数据量不大;而海鹰备份系统因为 运行的业务系统逐渐减少,在中行的未来规划定位是同城数据灾备中心。 中行备份系统在运行了多年之后,目前遇到了一些问题。这些问题主要出现在开放平台备份系统 中。首先随着中行业务系统的不断上线,开放平台备份系统最初设计的备份架构已不能适应目前的 备份现状,其次随着备份系统的逐渐庞大带来的备份系统性能方面的问题。并且中行针对目前的数 据中心现状,也计划利用现有条件,实现让海鹰数据中心实现数据级别的灾备中心。 黑山扈开放平台备份系统现状黑山扈开放平台备份系统现状 黑山扈开放平台备份域:黑山扈开放平台备份域: 备份软件:symantec netbackup 6.0+mp5 存储设备:sun vtl3540 + sun stk 8500 (12 个 lto3 tape drives) 根据中国银行的规划发展布局,目前黑山扈数据中心已经是中行最主要的数据中心。而开放平台 的备份域同样是目前中行最大最复杂的备份环境。 目前的备份架构实际是采用两步来实现的: 1.先通过 nbu 将数据备份到 vtl 内 2.再通过 vtl 的 tape caching 功能将 vtl 的数据迁移到物理带库内(stk l8500) 所遇到的问题是: 1) nbu 备份时间窗口和 vtl tape caching 的时间窗口不能很好的协调,导致在一些特殊的时间 点,nbu 得不到资源来顺利的进行备份。 2) 恢复远期数据时,需要分两步骤来进行,即先将数据通过 vtl 软件恢复到 vtl 内,然后 再由 nbu 进行到客户端的恢复。使得恢复方案缺乏整体连续性。 二、二、备份系统改造目标备份系统改造目标 根据中行目前的情况,我们建议备份系统改造分四个阶段: 1, 磁带库的扩容改造; 2, nbu 备份系统升级,调优; 3, 黑山扈与海鹰点的同城灾备; 4, 黑山扈与上海张江异地容灾,实现“两地,三中心”容灾模式。 目前,首先要进行磁带库的扩容改造。待系统改造完成后,再进行 nbu 的升级和调整。 完成调整后,稳定运行一段时间,再进行黑山扈和海鹰点的同城灾备实施,以及黑山扈和张江的异 地容灾实施。 第一阶段第一阶段 磁带库的扩容改造磁带库的扩容改造 我们建议中行取消目前的备份方式,采用增加 vtl 数量,然后让 nbu 直接管理所有的 vtl 和 sun 8500 物理带库。对于那些在一段时间内需要恢复的数据可以先写到 vtl,在一定的时间周期后,再 通过 vault 方式写到物理带库;也可以针对不同的业务系统让部分数据直接写到物理带库。不论是哪 种方式都可以保证 nbu 服务器直接管理备份数据,在需要的时候可以从任意位置恢复。实现 vault 最终替代 vtl 的 tape caching 功能。 由于原备份系统环境复杂,涉及到的设备众多,为了减少改造过程带来的风险,建议采取过渡方 案,逐步将 vault 完全替代 tape caching 功能。 (2009 年赛门铁克在工商银行实施了 nbu 备份系统,为了减少维护的复杂度,在工行南北数据 中心,用 nbu 的 vault 代替了 tape caching 功能,大大简化了用户的维护难度。) 第二阶段第二阶段 备份软件的升级和调优备份软件的升级和调优 这一阶段建议对备份域进行详细调研,综合考虑进行优化。对所有老的 nbu 版本进行分步升 级,以保证备份系统处于比较新的版本,能得到更好的技术支持,保持在健康的状态。 第三阶段第三阶段 利用同城的海鹰点,进行数据容灾利用同城的海鹰点,进行数据容灾 comment 任任任1: 是否可用 pool 方式? 这里提到的分区便是指得 pool 方式 这部分详细需求有待和用户进一步讨论。 可以利用海鹰点现有资源,按照需要进行一些带库的扩容,以及老的 aix 系统的升级,将海 鹰点配制成黑山扈点的数据容灾点。 第四阶段第四阶段 完成黑山扈到张江数据容灾,实现完成黑山扈到张江数据容灾,实现“两地,三中心两地,三中心”容灾架构容灾架构 此阶段可最终实现“两地,三中心”容灾架构。 三、三、第一阶段第一阶段 磁带库扩容改造,备份系统过渡方案磁带库扩容改造,备份系统过渡方案 中国银行计划将新购一台 vtl,并对 stk sl8500 进行扩容,可以利用这次扩容的机会对原有架构 进行过渡改造 。 1. 原有的 stk l8500 有两个分区,由于扩容,我们可以将扩容部分扩展成第三个分区, 两个分区继续由原有的 sun vtl 6540 用来进行 tape caching。 stk sl8500 的新增分区将由 nbu 进行管理,由于服务器之间存在防火墙,管理 sl8500 的 软件 acsls 只能工作在防火墙模式或者非防火墙模式,虽然 nbu 支持 acsls server 的防 火墙模式,但 vtl server 不支持(tape caching 功能需要 vtl 机头与 acsls server 通信) , 因此要解决这个问题,要求 acsls server 工作在非防火墙的模式下,将 nbu 的一台或 是多台 media server 与 acsls server 放在防火墙的一端。 以下是 sun 所涉及到的工作: 1)acsls 软件通过划分 pool 的方式将 sl8500 磁带进行逻辑分区 2)san 的连接拓扑的更改 3)acsls 服务器非防火墙工作方式的配置 2.新增的 vtl 被 nbu 主服务器管理。实现数据本地 vault 和将来异地的数据 vault 功能。 3.由于目前 nbu 备份主服务器已经达到性能极限,建议新增一台介质服务器实现新 vtl 到 ptl 的 vault 功能以及将来实现数据灾备的数据 vault 功能。(media server 硬件配置要 求请参考后面单独段落) 4.在 nbu 主服务器上进行配置更改,将一部分客户端的备份目的地迁移到新增的 vtl 上。 5.新的 vtl 到 stk l8500 新分区的数据迁移采用 nbu 的 vault 或 duplicate 功能进行。对近 期数据采用直接备份的方式。对于需要长期保护的数据,先备份到 vtl 上,然后利用 nbu 的 vault 功能迁移到 stk l8500 物理带库上。这部分工作有新增的介质服务器来进行。 这样从架构上,可以隔离由于本地迁移数据、往灾备(海鹰)迁移数据导致的对开放平台 备份系统的错误影响。利于将来的维护和管理。 6.完成过渡方案的实施,并稳定运行后,将 8500 磁带库重新规划成两部分,由 vault 使用 和部分 media server 使用,将数据直接备份到 8500 带库。 磁带库扩容改造期间数据备份方式磁带库扩容改造期间数据备份方式 1.目前在 stk l8500 扩容及 vtl 升级之前,加入一台 ibm ts7650g vtl 进行改造扩容期间的数 据备份接管; 2.根据改造期间数据备份量的统计,ibm ts7650g 容量不足以支持改造期间的备份数据量,由于 目前海鹰机房不具备进行 vault 的条件,所以在 ibm vtl 空间不足的情况下,建议将 ibm vtl 上的数据 vault 到审计署 quantum i2000 一个分区上; 3.调整备份开始使用 ibm vtl 备份,并定时 vault 到 quantum i2000; 4.停止备份,停用 tape caching,开始导出 sun vtl 数据至 sl8500;进行扩容升级; 新增新增 nbunbu mediamedia serverserver 配置要求配置要求 专用的网络通路:建议在 media server 和备份客户端之间采用专门的网络,从而提高备份效率; 主机配置要求:media server 的配置对内存及 cpu 的要求相对较高; 1)配置建议: media server 建议配置内存 8g 以上,cpu 数量建议 4 颗或更多;配置双 4g hba 卡; 2)建议采用 aix 小型机, 为了提高高可用性,建议采用双机架构提升稳定性; 四、四、第一阶段第一阶段 磁带库改造实施计划磁带库改造实施计划 序号序号工作内容工作内容责任方责任方预计时间预计时间 1修改备份系统改造方案,并对方案进行 评审。 symantec5 天 2分析备份状态,搜集配置信息以及数据 量 symantec5 天 3quantum i2000 带库扩容+partition+配 置 用户 quantumquantum 厂商评估 4master server 与新 media server 识别 到新 i2000 partition 用户 quantum 5nbu 配置 quantum 带库设备,测试 vault symantec1 天 6ibm ts7650g+ds5100 安装配置ibmibm 厂商评估 7所有 media server 识别 ibm vtl用户 ibm 8nbu 配置所有服务器的新 vtl 设备, 创建新的 storage unit,正确识别到虚拟 磁带,对磁带进行划分 pool,为将备份 策略迁移到新 vtl 上来做好充分准备。 symantec6 天 为了识别设备,有些情 况下,有可能需要重启 主机。 (包含新增加的 media server)。 9调整备份开始使用 ibm vtl 备份,并定 时 vault 到 quantum i2000 symantec2 天 10停止备份,停用 tape caching,开始导 出 sun vtl 数据至 sl8500 sun3 天 11sun vtl 升级sun 12接续 9,导出完成后。sun 3540 vtl 已经可以使用。可以分担 ibm vtl 的工 作。 将一些 media san 迁回 sun 3540 备 份。 symantec2 天 13新购 vtl 安装上线,以及 master server 及所有 media server san media server 操作系统正确识别到 vtl 设备 (包含新增加的 media server) 用户 品牌未定厂商进行评估 14nbu 配置所有服务器的新 vtl 设备, 创建新的 storage unit,正确识别到虚拟 磁带,对磁带进行划分 pool,为将备份 策略迁移到新 vtl 上来做好充分准备。 (包含新增加的 media server)。 symantec5 天 为了识别设备,有些情 况下,有可能需要重启 主机。 15与用户沟通在 media server 中找出一台 或多台 media server 进行简单备份测试, 以验证新 vtl 的可读写性,为步骤 6 做 好充分准备。 用户 symantec1 天 16在新 vtl 接管并能支撑 sl8500 扩容期 间的备份数据量,且运行稳定后,sun stk sl8500 开始扩容,与此同时开始 nbu 修改备份策略迁移到新 vtl 的 storage unit 上。 symantec sunsymantec 需要 1 天 sun 需要 10 天(已知) 17sun stk sl8500 上线,通过 acsls 软件对 8500 划分第三个分区给新的 media server,其它两个分区恢复原来 工作模式,将 nbu 备份策略按照需要 symantec sunsun 厂商进行评估(5 天?) symantec 需要 2 天 恢复原来的 storage unit 18nbu 在新 media server 上配置 8500 新 的分区,并同时配置 vault symantec4 天 19按照用户的需求逐步对其它服务器环境 进行改造 symantec根据用户生产环境情况, 目前无法评估时间;每 种系统都需要和应用管 理员协调。 5-10 天 20将 8500 分区,并分给 vault 和部分 media server sun +symantecsymantec 3 天 21各种文档交付symantec 10 天 22实施总结用户 symantec sun1 天 五、第一阶段备份系统改造风险分析五、第一阶段备份系统改造风险分析 1. 在 sun stk sl8500 扩容期间,可能会是 10 天,新购入的 vtl 是否可以完全提供此期间的备份容量, 一周大概有 30tb 的备份数据量,10 天大概会需要 40tb,新购入 vtl 最好提供 60tb 以上容量,以供 8500 扩容期间所需要的备份容量。 2.sun stk sl8500 扩容期间可能会有历史数据的恢复发生,也就是用户可能会有数据恢复要求,而数据 是在物理带库上。 2.1 sun stk sl8500 扩容期间(10 天), 此期间 ptl 是宕机状态,如果此期间需要恢复 sl8500 上的 数据,需要将数据磁带拿到用户另外一个备份域的 quantum i2000 磁带库上去恢复,此过程大量复杂的 工作和大量时间。 过程如下: a)通过 nbu(6.0 mp5 版本)软件管理界面搜索到需要恢复数据的磁带标签(barcode),然后在 stk sl8500 磁带库里找到对应磁带标签的磁带,将磁带放入另外一个备份域的 quantum i2000 磁带库中。在放入磁带之前首先要确认磁带标签与 quantum i2000 内的所有磁带无重复标签,否 则 nbu 软件识别会出现问题。 b)在新的备份域里,同样是 nbu(6.5 版本)环境,首先 inventory 新放入 quantum i2000 的磁 带,使 nbu 能识别新加入磁带的标签。然后 nbu 软件 import 功能将 8500 磁带的备份 image import 到新备份域 master server 的 catalog 里面,也就是常说的磁带编录索引的过程,此过 程目的是使 nbu master server 识别不同备份域的磁带。但此过程有一个问题就是需要的时间 基本上与恢复数据的时间差不多,需要花费的时间漫长而且无法估计,而且由于备份数据的分 布结果,可能会编录多盘磁带。 c)当步骤 2 正确完成后,就可准备恢复历史数据了。根据用户网络环境的不同,有两种恢复方 法。 a)需要恢复的主机可以与新备份域的 master server 网络通信。这种情况可以把此主机配 置成新备份域的 master server 一个客户端,然后直接通过网络恢复。由于是网络恢复, 不像在原环境下是 lan-free 的环境,在恢复性能上会受到影响。 b)需要恢复的主机无法与新备份域的 master server 网络通信。这种情况只能将数据暂时 恢复到新备份域里的某一台主机,然后再用其它的办法将数据迁移到原主机。 2.2 改造完成后, 因为只有部分 media server(可能会是一台)通过 acsls 控制 sl8500,之前通 过 san 以 lan-free 方式备份到新扩容的 vtl 上的数据通过 vault 复制到 sl8500 上, 但由于 vtl 与 ptl 上的数据保存期限不同(ptl 保存期限会多于 vtl),可能会出现 vtl 上的数据已经过期,nbu 需要从 ptl 上恢复数据,这时只能通过 lan 的方式恢复数据,性能会差于从 vtl 上直接恢复数据。 原理如下: san vtl3600vtl3540 lan netbackup server acsls netbackup media server sl8500 backup tape caching vault 此图架构详细说明请参阅过渡方案 a)由于黑山扈开放平台备份域存在防火墙,图中黄色隔断表示防火墙,由于 vtl 不支持防火 墙模式,acsls server 只能工作在非防火墙模式下,因此需要一台 media server(为了便 于说明简称叫 ms-v)与 acsls server 在防火墙的一端,用来与 acsls server 通信来控制 stk sl8500 新扩容的逻辑分区(pool 3),以实现 vault 功能。在防火墙另一端的 media server 和 san media server 就无法与 acsls server 进行通信了,也就是说无法控制 8500 新扩容的逻辑分区(pool3)。 b)所有的 media server 和 san media server 都可通过 san-fc 可将数据备份到新的 vtl 上, 然后通过 ms-v 将 vtl 上的备份数据 vault 到 sl8500 新扩容的 pool3 上。 c)当需要恢复数据时,如果数据还保存在 vtl 上,数据会直接通过 san-fc 直接恢复到 media server 或是 san media server 上,但如果数据已经在 vtl 上过期,vault 到 8500 pool3 上 的数据只能由 ms-v 通过 lan 恢复到某一台 server 上,由于其它主机无法控制 8500,所以 数据流不能通过 san-fc 恢复到其它主机上。 六、六、 第二阶段第二阶段 nbu 备份软件升级和调优计划备份软件升级和调优计划 由于目前得到的调研数据有限,只能对开放平台备份域的升级做个粗略的预计。 黑山扈开放平台备份域的升级调优计划:黑山扈开放平台备份域的升级调优计划: 序号序号工作内容工作内容责任方责任方预计时间预计时间 1制订备份系统升级调优方案,并对方案进 行评审。 用户 symantec3 天 2 检查基本环境,os 补丁/硬件兼容性/磁 盘空间,防火墙要求 6.0 和 6.5 应该是 一样的。如果有在线日志备份,估算影 响层面,nbu 升级期间会停止备份服务 用户 symantec1 天 3 收集 nbu 信息,policy/device 等 symantec1 天 4 检查是否需要修改脚本,比如 oracle 脚 本是否没有绑定 nb_ora_policy symantec约 2 天 根据牵涉多少主机来定 5 master server 升级过程: a)停用相关策略 b)如果有 disk-staging,进行 reallocate 并且删除 start window c)确认相关作业完成 d)tar 备份 openv 目录,包含额外 的数据库备份脚本等 e)安装 nbu6.5,安装 db agent f)安装 nbu6.5.5 补丁 g)启动 nbu 检查进程等 h)启动测试备份策略 i)启用所有相关策略 j)添加 disk-staging start window symantec2 天 cluster_config 模式的 双机 6 media server 升级过程: symantec 按 610 台/天 根据用户协调应用系统 分批升级,当前 85 台 media server, a)停用相关策略 b)如果有 disk-staging,进行 reallocate 并且删除 start window c)确认相关作业完成 d)tar 备份 openv 目录,包含额外 的数据库备份脚本等 e)安装 nbu6.5,安装 db agent f)安装 nbu6.5.5 补丁 g)启动 nbu 检查进程等 h)启动测试备份策略 i)启用所有相关策略 j)添加 disk-staging start window 的情况定 7 client 升级 当前 93 台(总共约 189 套)symantec10-20 台/天,根据用户 协调安排情况定 8各种文档交付symantec 10 天 9实施总结用户 symantec1 天 如果调整出新的备份域,以优化备份性能,还需要:如果调整出新的备份域,以优化备份性能,还需要: 1 新增 2 台 master server 的安装,新的 symantec 2 天 备份域客户端的调整; 2 2 个备份域备份策略的调整; symantec 3 天 备份策略较多 (约 500+条策 略) 3 备份系统整体调整,优化; symantec 2 天 七、第三阶段七、第三阶段 同城数据容灾建议同城数据容灾建议 这部分基于精业/精全对用户的了解,对于中行希望实现数据级别灾备的想法,我们综合目前中 行现状提出如下解决方案: 对海鹰点的 l700 带库进行扩容,或是新购一台带库,用来对黑山扈的数据进行灾备。 以下方案以新购带库为例: 实现过程:实现过程: 5.1 基于海鹰数据 nbu 备份域的发展定位,我们建议在海鹰备份域增加一台物理磁带库,新增物 理磁带库物理位置架设在海鹰平台,但由黑山扈开放平台新增 media server 以及黑山扈审计署备份域 master server 去管理。vault 过程与海鹰备份域没有关系。 5.2 通过磁带库的分区功能,将该物理带库的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论