




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XXXX 运营商运营商 容灾项目容灾项目 DGDG SwitchSwitch OverOver 测试报告测试报告 后付费计费系统后付费计费系统 zhjf zhjf CRMCRM 生产系统生产系统 zhkf zhkf 2010 7 ii 目录 1 文档控制 II 修改记录 ii 分发者 ii 审阅记录 ii 相关文档 ii 2 系统现状描述 4 3 测试目的 4 4 测试方法 4 总的测试步骤 4 具体的 Switch Over 步骤 5 5 所需时间 6 6 风险控制 6 已知风险 6 未知风险 7 7 应急处理 7 8 建议 7 9 附录 主备库配置信息 7 综合计费生产环境 Primary site 配置 7 综合计费容灾环境 Standby site 配置 8 综合客服生产环境 Primary site 配置 8 综合客服容灾环境 Standby site 配置 9 1 系统现状描述系统现状描述 后付费计费系统和 CRM 生产系统是 XX 运营商两个重要的业务支撑系统 数据库采用 Oracle 10g 版本 10 2 0 2 均为两节点 RAC 分别运行于 IBM AIX5L 和 HP UX 平台 这两个系统数据量都非常大 分别为 4 5T 和 13T 为了有效保证数据安全性 系统可用性 将在距主生产主机房约 1000 公里的容灾中心建立容灾系统 容灾技 术采用 Oracle 10g DataGuard Physical Standby 数据库 备用数据库 技术 将主数据库产生的归档日志 通过网络传输到容灾中心 并应用到备用数据库中 使备用数据库与主数据库数据保持一致 这两个系统对应的容灾环境也是 2 节点的 RAC 环境 RAC 到 RAC 的 DataGuard 环境目前并不多见 这也 加大了对此容灾环境进行维护和使用的难度 因此进行相关的测试有利于当发生故障时能够及时切换到容灾环 境 从而确保不对 XX 运营商的业务造成影响或者尽量将这个影响降低到最小 2 测试目的测试目的 为后付费计费系统和 CRM 生产系统建立容灾环境 主要是通过使用 Oracle DataGuard 技术 实现如下目的 在主生产系统灾难时 使数据损失减到最低甚至为零 根据配置方式和灾难的程序 在最短时间内启用备 用系统提供服务 主生产系统硬件设备需要维护时 可以切换到备用系统提供服务 维护完成后可以回切 可以通过备用数据库进行数据库备份 减轻因备份对主生产系统造成的压力 适当保持备用数据库与主生产库的延迟时间 可以在一定范围内恢复人为失误导致的数据丢失 为了确保当主生产系统发生故障时 备用环境能够正常使用 在短时间之内能够使用备用系统提供服务 需要 对搭建的容灾环境进行测试 Oracle Dataguard 技术提供两种切换模式 Switch Over 和 Fail Over 前者切换之 后主备关系仍然存在 容灾功能仍然具备 只是生产系统和备用系统的角色发生了改变 而后者切换生产系统 和备用系统的角色同样发生了改变 但是此种切换模式会破坏主备关系 需要重新搭建容灾环境 通常在对主库进行一些维护操作需要停库时进行 Switch Over 切换 当主库的维护操作完成再重新切换回来 通常当主库出现不可修复故障 系统不可用时进行 Fail Over 切换 使用备用环境提供服务 之后容灾环境需 要重新进行搭建 3 测试方法测试方法 总的测试步骤总的测试步骤 对于 CRM 生产系统和后付费计费系统采用相关的方法和步骤进行 Switch Over 进行测试 首先测试 CRM 生产 系统 之后测试后付费计费系统 每个系统测试大概为 4 小时 一共需要 8 小时 测试方法如下 1 从主生产主机房 Switch Over 到容灾中心容灾环境 2 应用程序连接到备用数据库进行 2 小时的业务测试 3 测试完成后直接进行 Fail Over 具体的具体的 Switch Over 步骤步骤 下面描述下大致的操作步骤 详细的步骤请看 XX 运营商容灾环境 Switch Over 测试步骤 V1 0 xls 一 测试前的主备工作 1 停掉所有在主库上的应用程序以及定时作业 2 停止数据库及归档日志备份 3 保证切换之前在主库上没有额外的会话连接 Select inst id count from gv session 在各个主机上查看 ps ef grep LOCAL NO wc l 二 Switch Over 测试步骤 1 关闭主库和备库上的多余实例 在生产环境 保留一个实例用于 switch over 的操作 干净关闭其他实例 在备用环境 保留正在进行应用归档日志进行恢复的实例 干净关闭其他实例 2 确认生产环境 switch over 操作是否可行 主库操作 在生产环境执行下面的语句 Select database role switchover status from v database 正确的返回值应该是 primary 和 to standby 3 在生产环境发起 switch over 命令 将 primary role 切换为 standby role 主库操作 alter database commit to switchover to standby alter database commit to switchover to physical standby 这个步骤会备份当前的控制文件为当前 session 的 trace 文件 4 关闭和重启之前的主库 primary role 主库操作 Shutdown immediate Startup mount 5 验证备库环境的 switch over 状态 备库操作 在备库执行下面的语句 Select database role switchover status from v database 正确的值应该 standby 和 to primary 如果显示 SESSIONS ACTIVE 需要将活动的会话 kill 掉 杀掉活动会话还是继续显示 SESSIONS ACTIVE 则在下面的切换命令中添加 with session shutdown 6 在备库环境将备库 standby role 转换为主库 primary role 备库操作 alter database commit to switchover to primary alter database commit to switchover to primary with session shutdown 7 完成备库到主库角色的转换 备库操作 如果备库从未以 read only 方式打开过 则直接 open 备库 Alter database open 如果备库曾经被以 read only 的方式打开过 则需要重启备库 Shutdown immediate Startup 8 重新在新的备库 原先的主库 上打开日志应用 log apply 新的备库 之前的主库上操作 alter database recover managed standby database disconnect from session 9 将数据库角色改变注册到 CRS 在切换的时候 由于是 10g RAC 环境 切换之后需要让 CRS 知道数据库角色的转换 以防止重启服务器的时 候 CRS 将一个转换为 standby role 的数据库以 read write 的方式直接打开 造成不必要的失误 需要手工的将 数据库角色的变化注册到 CRS 方法如下 srvctl modify database d o r PHYSICAL STANDBY s mount 这一步骤在实际进行 Switch Over 过程中是必须的 因为我们此次只是测试 之后还是要再重新 Switch Over 回 来 这个步骤不是必须的 三 验证 Switch Over 是否成功 1 打开主库和备库其他的实例 同时验证 switch over 是否成功 在新的主库上进行日志切换操作 查看日志是否能够正常传输到新的备库环境 并能够应用到数据库 同时监 控 alert 日志 验证相关信息 新的主库 Alter system switch logfile 新的备库 Select sequence applied from v archived log 2 验证主备库的角色是否改变 分别在主备库执行 select database role from v database 4 所需时间所需时间 按照计划 每个系统测试定的时间为 4 小时 一共需要 8 小时 在测试过程中如果出现问题 测试失败或者测 试需要的时间太长 一旦影响到正常的营业则考虑取消此次测试 改在其他时间再次进行 如果在晚上 20 点 开始进行测试的话 凌晨 4 点左右结束 5 风险控制风险控制 已知风险已知风险 Switch Over 的风险 有可能遇上未知的 BUG 导致失败 尽管我们已经查了文档 目前尚未发现与此相关的问 题 Fail Over 的风险 Fail Over 后 原系统的备份全无效 且 STANDBY 容灾环境需要重新构建 在一段时间内 无可用备份 存在风险 另 Fail Over 基本上不存在不成功的的可能 建议不要做 Fail Over 仍是 Switch Over 回主生产 未知风险未知风险 在操作过程中出现主机或网络故障 这也是可能的 因此在测试过程中如出现这类故障 需要停止此次测试 改在其他时间进行 如果正在操作过程中出现这些问题 需要查看主生产生产环境是否可用 如果不可用且主 机或网络故障短时间无法解决时 可以考虑在备库进行 Fail Over 或使用之前进行的 clone 数据库进行恢复 从 而确保不影响第二天的营业或将其影响降低到最小 6 应急处理应急处理 当紧急问题发生 比如在指定的时间内切换测试没有成功完成或其他情况出现 影响原定的计划 需要进行应 急处理 下面分情况进行描述 1 Switch Over 切换测试失败 但是主生产生产环境可以正常使用 则推迟当前的测试 待问题查明 后再进行 2 Switch Over 切换测试失败 主生产生产环境不可用 推迟当前测试 在备库进行 Fail Over 或使 用之前的 clone 数据库进行恢复 3 正常测试过程中 4 个小时已经足够完成一个系统的 Switch Over 测试 但是如果出现问题使得测 试过程超过预先确定的时间 需要考虑推迟测试 改为其他时间进行 7 建议建议 因为 Fail Over 通常肯定是可以成功进行的 因此建议在每个系统的测试中最后以 Switch Over 的方式切换回主 生产生产环境 减少不必要的风险 8 附录附录 主备库配置信息主备库配置信息 综合计费生产环境综合计费生产环境 Primary site 配置配置 系统配置如下表 节点 1节点 2 IP133 224 202 31 32 VIP 133 224 202 34 35 VIP 主机名 zhjf01zhjf02 服务器 IBM p595IBM p595 操作系统 AIX 5300 02 00AIX 5300 02 00 Cluster 软件 HACMP 5 2HACMP 5 2 Oracle 版本 10 2 0 2 0 RAC10 2 0 2 0 RAC HOME oracle oracle ORACLE BASE oracle app oracle oracle app oracle ORACLE HOME ORACLE BASE product 10 2 0 db 1 ORACLE BASE product 10 2 0 db 1 ORA CRS HOME ORACLE BASE product 10 2 0 crs 1 ORACLE BASE product 10 2 0 crs 1 警告日志文件路径 zhjf01 log zhjf bdump zhjf02 log zhjf bdump ORACLE SIDzhjf1zhjf2 DB NAMEzhjf 数据文件大小 13TB 归档日志量从 2007 年 11 月 1 日至 2008 年 2 月 17 日 共 109 天 的归档日志情况来看 109 天的平均值 340GB 天 14GB 小时 约合 4MB s 其中归档日志最多的一天是 2007 年 12 月 26 日 日志数量为 395 个 约为 780GB 当天平均值为 33GB 小时 9 2MB s 按小时统计的峰值最高为 120GB 小时 合 34MB s 出现在 2008 年 2 月 17 日 19 00 综合计费容灾环境综合计费容灾环境 Standby site 配置配置 系统配置如下表 节点 1节点 2 IP133 224 205 1 2 VIP 133 224 205 4 5 VIP 主机名 Zhjf03Zhjf04 服务器 IBM p595IBM p595 操作系统 AIX 5300 02 00AIX 5300 02 00 Cluster 软件 HACMP 5 2HACMP 5 2 Oracle 版本 10 2 0 2 0 RAC10 2 0 2 0 RAC HOME oracle oracle ORACLE BASE oracle app oracle oracle app oracle ORACLE HOME ORACLE BASE product 10 2 0 db 1 ORACLE BASE product 10 2 0 db 1 ORA CRS HOME ORACLE BASE product 10 2 0 crs 1 ORACLE BASE product 10 2 0 crs 1 警告日志文件路径 oracle app oracle admin zhjf bdump oracle app oracle admin zhjf bdum p ORACLE SIDZhjf3Zhjf4 综合客服生产环境综合客服生产环境 Primary site 配置配置 系统配置如下表 节点 1节点 2 IP133 224 202 13 3 VIP 133 224 202 14 4 VIP 主机名 zhkf1zhkf2 服务器 HP SuperDomeHP SuperDome 操作系统 HP UX B 11 11HP UX B 11 11 Cluster 软件 Serviceguard Extension for RAC A 11 16 00 Serviceguard Extension for RAC A 11 16 00 Oracle 版本 10 2 0 2 0 RAC10 2 0 2 0 RAC HOME oracle oracle ORACLE BASE oracle oracle ORACLE HOME oracle app product 10 2 0 zhkf oracle app product 10 2 0 zhkf ORA CRS HOME oracle app product 10 2 0 crs oracle app product 10 2 0 crs 警告日志文件路径 bdump zhkf01 zhkf bdump bdump zhkf02 zhkf bdump ORACLE SIDzhkf1zhkf2 DB NAMEzhkf 数据文件大小 4 5TB 归档日志量从 2007 年 12 月 29 日至 2008 年 2 月 17 日 共 51 天 的归档日志情况来看 51 天的平均值 176GB 天 7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年安全员考试试题及完整答案详解【网校专用】
- 2026届广东省佛山市南海区南海实验中学九上化学期中质量跟踪监视模拟试题含解析
- 农肥企业年终总结
- 带病返乡工作汇报
- 置业顾问培训
- 为军服务护士工作总结
- 家电销售培训教程
- 江苏省高邮市南海中学2026届英语九上期末统考模拟试题含解析
- 员工离职工作总结
- 新疆奎屯市第八中学2026届英语九年级第一学期期末统考试题含解析
- GB/T 45345-2025金属及其他无机覆盖层工程用直流磁控溅射银镀层镀层附着力的测量
- 无人机教员聘用协议书
- 药物非临床研究质量管理规范
- 脑科生理病理图谱解读
- 足球教练员的职业素养与道德规范
- 产地证培训讲义
- 《南京理工大学化工》课件
- 养殖场远程视频监控解决方案
- 二手车转让免责协议书范本
- 化粪池及隔油池清洁服务方案
- 骨科患者辅助器具选择与使用
评论
0/150
提交评论