容灾演练方案_第1页
容灾演练方案_第2页
容灾演练方案_第3页
容灾演练方案_第4页
容灾演练方案_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

xxxxxxxxxxxxxxxxxxxxxxxx项目容灾演练方案工程项目xxxxxxxxxxxxxxxxxxxxxxxx项目客户单位xxxxxxx监理单位杭州天航肯思捷信息系统项目监理有限公司承建单位浙江星汉信息技术有限公司版本号2.0生成日期2012-6-17目录第一章、 总拓扑图 3第二章、 网络容灾演练方案 42.1核心交换机 42.1.1参加演练人员 52.1.2演练流程 52.1.3准备工作 52.1.4演练步骤 72.1.5预期演练结果 82.2radware负载均衡器 82.2.1参加演练人员 82.2.2演练流程 92.2.3准备工作 92.2.4演练步骤 122.2.5预期演练结果 13第三章、 应用服务器容灾演练方案 133.1VmwareHA 133.1.1参加演练人员 143.1.2演练流程 143.1.3准备工作 143.1.4模拟JJESX1故障 153.1.5模拟JJESX2故障 163.1.6预期演练结果 163.2websphere 173.2.1参加演练人员 173.2.2演练流程 183.2.3准备工作 193.2.4WAS故障 233.2.5DMGR故障 233.2.6ODR故障 243.2.7WVE故障 243.2.8预期演练结果 24第四章、 数据库系统容灾演练方案 254.1小型机故障切换 254.1.1参加演练人员 254.1.2演练流程 254.1.3准备工作 264.1.4演练步骤 314.1.5预期演练结果 314.2生产端数据库平台整体故障切换 324.2.1参加演练人员 324.2.2切换流程 334.2.3演练步骤 344.2.4还原流程 414.2.5演练步骤 424.2.6预期演练结果 45

总拓扑图通过部署两台IBM的企业级存储系统DS8700(一台部署在生产中心、一台部署在容灾中心),在本地生产中心的DS8700存储相应的业务数据,在生产中心通过数据复制技术将核心数据通过SAN网络复制到容灾中心容灾存储DS8700中。本次数据容灾系统建设主要是构建同城容灾系统,生产中心与容灾中心距离<10KM,同时要求RPO=0,故两台DS8700采用同步复制技术MetroMirror方式构建数据容灾系统。将现有数据中心两台IBMP570小型机搬迁到容灾中心,作为六合一核心数据库容灾服务器,处于Standby状态。实现当数据中心出现故障时,可以将数据库启动到容灾中心,恢复核心数据库的运行。通过对数据中心外挂系统进行虚拟化整合后,部署服务器将闲置,为了提高现有资源的利用率,将闲置下的服务器搬迁到容灾中心,通过Vmware将闲置服务器部署为虚拟化服务器资源池,并安装相应的操作系统与中间件,外挂系统处于Standby状态,六合一应用系统与数据中心同时提高业务服务。为了能够实现应用系统在生产中心出现相应的设备故障、电力系统等自然灾难时能够继续提供业务系统,Radware在应用系统平台架构部署上在本地生产中心部署1台Radware负载均衡设备,同时在容灾中心部署1台Radware负载均衡设备。将2台设备部署为相互热备,实现任一设备故障均可以实现自动切换,保障业务系统的联系性。容灾数据传输网络是容灾传输的核心链路,实现数据中心心到容灾中心的通信连接,该网络的带宽要求应能满足容灾系统数据实时传输的要求。IP数据专网可以依托公共通信网络平台,租用中国电信运营商的三条光纤专线线路,其中两条实现数据中心与容灾中心的联接,提高链路的稳定性,另外一条实现容灾中心核心交换机与市局的互联互通。SAN数据专网同样租用两条裸光纤,将数据中心两台IBMSAN40B光纤交换机与容灾中心两台BrocadeBR340光纤交换机进行冗余路径互连,提高链路的可靠性。网络容灾演练方案2.1核心交换机由于容灾端核心交换机仅仅只与生产端核心通过光纤直连,而各交警大队、中队及市局的链路均未连接,故当生产端核心交换机发生物理故障时,不能继续保证业务运作,无法进行容灾演练。但每台交换机都配置了双引擎板,我们可以模拟单块引擎板损坏,以检验引擎板的故障切换功能。2.1.1参加演练人员业主xxxx:项目总负责人xxx:网络负责人公众信产肖涵:负责演练整体调度汪国军:负责保障网络监理周宇:项目总监理2.1.2演练流程验证业务确认备引擎板启用模拟主擎板故障测试前准备工作 正常 正常 完成 正常验证业务确认备引擎板启用模拟主擎板故障测试前准备工作 验证业务还原故障验证业务还原故障2.1.3准备工作1、检查主备引擎板状态及IOS版本是否一致;Router#shredundancyRedundantSystemInformation:Availablesystemuptime=1year,31weeks,2days,3hours,34minutesSwitchoverssystemexperienced=0Standbyfailures=0Lastswitchoverreason=noneHardwareMode=DuplexConfiguredRedundancyMode=ssoOperatingRedundancyMode=ssoMaintenanceMode=DisabledCommunications=UpCurrentProcessorInformation:ActiveLocation=slot5CurrentSoftwarestate=ACTIVEUptimeincurrentstate=1year,31weeks,2days,3hours,33minutesImageVersion=CiscoInternetworkOperatingSystemSoftwareIOS(tm)s72033_rpSoftware(s72033_rp-IPSERVICES_WAN-M),Version12.2(18)SXF16,RELEASESOFTWARE(fc2)TechnicalSupport:/techsupportCopyright(c)1986-2009byciscoSystems,Inc.CompiledTue03-Mar-0923:43bykellythwBOOT=CONFIG_FILE=BOOTLDR=Configurationregister=0x2102PeerProcessorInformation:StandbyLocation=slot6CurrentSoftwarestate=STANDBYHOTUptimeincurrentstate=1year,31weeks,2days,3hours,33minutesImageVersion=CiscoInternetworkOperatingSystemSoftwareIOS(tm)s72033_rpSoftware(s72033_rp-IPSERVICES_WAN-M),Version12.2(18)SXF16,RELEASESOFTWARE(fc2)TechnicalSupport:/techsupportCopyright(c)1986-2009byciscoSystems,Inc.CompiledTue03-Mar-0923:43bykellythwBOOT=CONFIG_FILE=BOOTLDR=Configurationregister=0x2102正确的状态应如下:引擎板状态IOS版本主Active一致备Standbyhot2、挑选几个特定地址ping,确认当前网络状态是正常的;IP地址说明是否ping通6连接容灾机房6509地址2六合一服务器地址中队地址3、查看当前交换机配置并记录,以供切换后对比确认;Router#shrun 查看配置信息Router#shvlan 查看vlan信息Router#shversion 查看版本信息4、保存当前配置;Router#wr 保存当前配置2.1.4演练步骤通过命令强行切换主备引擎板,在此过程中持续ping准备工作时指定的IP地址;Router#redundancyforce-switchover 强制切换主备引擎板提示切换完成后,确认当前的冗余关系;Router#shredundancy 查看主备冗余信息确认当前配置,与切换前的配置做对比;Router#shrun 查看配置信息Router#shvlan 查看vlan信息Router#shversion 查看版本信息确保ping的几个地址都是通的;访问下六合一应用主页,确保网页能正常显示;Http://1/trffweb再次通过命令强行切换回主引擎;Router#redundancyforce-switchover 强制切换主备引擎板再次确保应用主页1/trffweb能访问正常,各IP地址都能ping通。2.1.5预期演练结果主备引擎板能在短时间内完成切换,所有配置信息不会发生丢失,网络连通性几乎不受影响。预计演练时间:1小时2.2radware负载均衡器两台radware为一主一备模式,其中生产端为主设备,两者配置自动同步,无法单独对备用机修改配置。2.2.1参加演练人员业主董震宇:项目总负责人周坚:网络总负责人公众信产肖涵:负责演练整体调度汪国军:负责保障网络诚道科技倪旭池:负责保障外挂及六合一系统监理周宇:项目总监理2.2.2演练流程验证应用模拟主设备故障测试前准备工作 正常 切换到备机验证应用模拟主设备故障测试前准备工作 有问题验证应用还原主设备记录问题并解决验证应用还原主设备记录问题并解决 正常验证应用还原主设备验证应用还原主设备2.2.3准备工作Radware涉及地址如下,在模拟故障前均应保证能够ping通:IP地址备注Ping结果8主radware物理地址9备radware物理地址0VRRP虚拟地址1六合一farm虚拟地址表2-1除了六合一应用之外,还有一些外挂程序与radwarefarm地址有关联,汇总如下,在模拟故障前均须验证这些外挂程序能否正常访问:外挂程序名称URL验证结果影像化系统1/trffweb机动车档案库房管理系统1/trffweb驾驶人扩充系统1/trffweb机动车管理扩充系统1/trffweb机动车选号系统1/trffweb机动车预登记及临牌管理系统1/trffweb外来驾驶人管理系统1/trffweb非现场登陆调用接口1/vehes/services/TrffWebService?wsdl违法数据上传至六合一1/trffweb/service/TmriOutAccess?wsdl综合收费系统1/vehes/services/TrffWebService?wsdl表2-2正常情况下,交警机房的radware为主设备,电信机房为备设备,在模拟故障前也应该予以确认。查看方法:1、通过WEB浏览器登录主radware管理页面:82、点击RedundancyVRRPVirtualrouters3、可以看到设备状态为master:4、登录备radware管理页面:95、同样的方法查看设备状态为backup:上述几点都确认没有问题后,方可开始模拟故障切换了。2.2.4演练步骤模拟主radware设备故障,采取的方法是拔除连接核心交换机的两对尾纤,相当于此时负载均衡器已无法访问;等待备radware设备接管业务,在此过程中持续ping表2-2中各地址,尤其注意VRRP地址和六合一farm地址是否有异常,记录下切换时间;备机切换完成后,开始测试六合一主应用及各外挂程序运行状况;若出现业务访问故障或IP地址不通等问题,及时找出原因并解决,做好记录工作,若短时间能无法解决,应立刻还原主设备;故障现象解决方法备注表2-3E、业务都通过了验证,证明容灾端工作正常,重新插好主设备的尾纤,还原网络,负载均衡功能仍旧由radware主设备处理。radware备设备的模拟故障过程比较简单,按以下过程操作:A、关闭Radware备设备,模拟Radware备设备宕机;B、所有负载均衡功能仍由Radware主设备处理;C、测试交警各业务办理,ping虚地址1是否正常;D、开启Radware备设备,还原网络。负载均衡功能仍由Radware主设备处理。2.2.5预期演练结果Radware备设备能在主设备故障的情况下快速接管业务,六合一应用和外挂程序不受影响,当主设备从故障恢复后,能自动接管回业务。预计演练时间:1小时应用服务器容灾演练方案3.1VmwareHA生产端和容灾端分别有2台IBMX3850服务器组成了vmware虚拟化平台,其配置信息如下:生产端:服务器名IP地址外挂存储JJESX00DS4700LUN0:1.98TBDS4700LUN1:1.98TBJJESX01容灾端:服务器名IP地址外挂存储DXESX96无DXESX97其中生产端外接了存储,因此配置了vmwareHA,支持ESX故障切换,而容灾端没有外接存储故没有配置HA,无法进行切换测试。容灾演练的重点在于考察生产端vmwareHA的故障切换功能。3.1.1参加演练人员业主董震宇:项目总负责人黄庆海:主机存储负责人公众信产肖涵:负责演练整体调度,vmware演练实施诚道科技倪旭池:负责保障外挂系统监理周宇:项目总监理3.1.2演练流程检查虚拟机运行状况模拟一台ESX故障测试前准备工作 正常 正常 检查虚拟机运行状况模拟一台ESX故障测试前准备工作 有问题手动迁移回虚拟机还原ESX手动迁移回虚拟机还原ESX故障记录问题并解决 正常手动迁移回虚拟机还原ESX手动迁移回虚拟机还原ESX故障3.1.3准备工作JJESX1和JJESX2上各自运行了以下虚拟机:在进行故障模拟前,首先要确认这些虚拟机都是运行正常的。3.1.4模拟JJESX1故障演练步骤:关闭JJESX1,模拟一台ESX服务器宕机,ping部署在JJESX1上的几台虚拟机的IP地址,观察网络连接情况;所有部署在JJESX1上的虚拟机均自动迁移到JJESX2并启动,部分需要手动启动的服务必须人工干预;观察整个虚拟机迁移过程的ping包情况,只有在重启的时候无法ping通,但时间非常短,不超过5分钟;验证各虚拟机及其承载的业务系统运行状况,如有问题及时排错;重新开启JJESX1,此时迁移到JJESX2的虚拟机并不会自动迁移回JJESX1,需要手动vmotion,整个过程不中断业务。3.1.5模拟JJESX2故障演练步骤:A、关闭JJESX2,模拟一台ESX服务器宕机,ping部署在JJESX2上的一台虚拟机的IP地址,观察网络连接情况;所有部署在JJESX2上的虚拟机均自动迁移到JJESX1并启动,部分需要手动启动的服务必须人工干预;观察整个虚拟机迁移过程的ping包情况,只有在重启的时候无法ping通,但时间非常短,不超过5分钟;验证各虚拟机及其承载的业务系统运行状况,如有问题及时排错;开启JJESX2,此时迁移到JJESX1的虚拟机并不会自动迁移回JJESX2,需要手动vmotion,整个过程不中断业务。3.1.6预期演练结果单台ESX故障,虚拟机迁移正常,业务系统能在短时间内(5-10分钟)恢复正常,几乎不影响业务持续性。预计演练时间:1小时注意事项:两台ESX上必须为HA故障切换留出一定物理资源,不能无限制的部署虚拟机,否则发生故障切换,单台ESX承载了远远超过其物理资源的虚拟机,有可能导致虚拟机性能低下,业务系统无法正常工作,甚至有ESX宕机的可能性。3.2websphere在生产端和容灾端各有1套websphereWVE7.0集群,其具体架构如下:生产端:服务器名IP地址WVE成员6in1server72DMGR、WAS1、WAS26in1server733ODR1、WAS3、WAS46in1server744ODR2、WAS5、WAS66in1server755WAS7、WAS86in1server766WAS9、WAS106in1server777WAS11、WAS12容灾端:服务器名IP地址WVE成员6in1server833ODR1、WAS1、WAS26in1server844ODR2、WAS3、WAS46in1server855DMGR、WAS5、WAS66in1server866WAS7、WAS86in1server899WAS9、WAS106in1server900WAS11、WAS126in1server91WAS13、WAS14在radware的farm中,同时添加生产端和容灾端的IHS服务器,但平时只开放生产端服务器,禁用容灾端服务器,只有在灾难切换时启动。3.2.1参加演练人员业主董震宇:项目总负责人黄庆海:主机存储负责人公众信产肖涵:负责演练整体调度,websphere演练实施诚道科技倪旭池:负责保障六合一及车架管扩充版系统监理周宇:项目总监理3.2.2演练流程还原测试应用模拟WAS故障测试前准备工作 正常 正常还原测试应用模拟WAS故障测试前准备工作 还原测试应用模拟DMGR故障测试前准备工作 正常 正常还原测试应用模拟DMGR故障测试前准备工作 还原测试应用模拟ODR故障测试前准备工作 正常 正常还原测试应用模拟ODR故障测试前准备工作 调整radware配置模拟WAS故障测试前准备工作 正常 调整radware配置模拟WAS故障测试前准备工作 还原生产端WVE排错并记录验证六合一应用访问验证六合一应用访问 还原生产端WVE排错并记录验证六合一应用访问验证六合一应用访问 有问题 正常验证六合一应用访问还原生产端WVE验证六合一应用访问还原生产端WVE3.2.3准备工作首先分别查看主备WVE集群的运行状况:主WVE节点同步状况:再看ODR运行情况:WAS运行情况:应用程序运行情况:备WVE节点同步状况:ODR运行情况:WAS运行情况:应用运行情况:通过以上步骤,确认主备端的WVE都是正常运行的,才能进行容灾切换测试。3.2.4WAS故障由于是WVE集群,单台或多台WAS出现故障,只要依然有正常WAS在工作,业务系统依旧能访问。演练步骤:关闭几台WAS,模拟WAS故障;访问六合一应用主页1/trffweb,有可能会出现页面无法访问现象,刷新几下即可;重新开启WAS。预期演练结果:部分WAS的故障对整个业务系统的影响较小。3.2.5DMGR故障DMGR是整个WVE的管理者,但不参与系统运作。演练步骤:关闭DMGR关闭DMGR节点,模拟DMGR故障,执行D:\IBM\WebSphere\AppServer\profiles\DmgrWVE\bin目录下的stopManager.bat批处理文件;此时WVE管理控制台无法登陆,但整个WVE集群仍旧在运作,访问六合一应用主页1/trffweb;重新开启DMGR节点,执行D:\IBM\WebSphere\AppServer\profiles\DmgrWVE\bin目录下的startManager.bat批处理文件;确保WVE管理平台能够正常打开,2:9043/ibm/console。预期演练结果:DMGR节点的启停不会影响业务系统的运作。3.2.6ODR故障ODR是负责分发转递IHS请求的服务器,它直接影响着WVE集群的运作演练步骤:关闭ODR1,模拟故障,所有分发工作由ODR2负责;访问六合一应用主页1/trffweb;关闭ODR2,模拟两台ODR故障;访问六合一应用主页,此时应该出现无法访问现象;还原ODR1、ODR2。预期演练结果:单台ODR故障不会造成业务系统中断,而两台则不行。3.2.7WVE故障演练步骤:关闭生产端WVE集群的应用,模拟WVE故障;在radware中将生产端HIS服务器disable,容灾端IHS服务器enable,业务系统切换到容灾集群处理;访问六合一应用主页1/trffweb,观察容灾端WVE集群运行情况,处理响应时间;还原生产端WVE集群,在radware中重新将生产端HIS服务器enable,容灾端IHS服务器disable。3.2.8预期演练结果当生产端WVE发生严重故障时,容灾端WVE能在最短时间内接管业务,并能承担很长一段时间,直到生产端复原。预计演练时间:1小时30分钟数据库系统容灾演练方案4.1小型机故障切换生产端与容灾端的小型机均配置的powerHA,具备故障切换能力。两套小型机网络配置规划相同,如下表:IP地址用途45小机A管理地址46小机B管理地址47Oracle服务地址48Oracle服务地址24.1.1参加演练人员业主董震宇:项目总负责人黄庆海:主机存储负责人公众信产肖涵:负责演练整体调度任阳:负责保障数据库系统与小型机诚道科技倪旭池:负责保障外挂及六合一系统监理周宇:项目总监理4.1.2演练流程还原验证数据库状况模拟一台小机故障测试前准备工作 正常 正常 完成 正常还原验证数据库状况模拟一台小机故障测试前准备工作 4.1.3准备工作1、查看小机当前网络配置情况:分别登录到两台小机,执行ifconfig–a命令[root@jj7501:/]#ifconfig-aen4:flags=1e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),LARGESEND,CHAIN>inetnetmask0xfffffff0broadcast5inet47netmask0xfffffff0broadcast55tcp_sendspace131072tcp_recvspace65536rfc13230en8:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inetnetmask0xfffffff0broadcast5inet45netmask0xffffff00broadcast55tcp_sendspace131072tcp_recvspace65536rfc13230en9:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inetnetmask0xfffffff0broadcast5tcp_sendspace131072tcp_recvspace65536rfc13230lo0:flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>inetnetmask0xff000000broadcast55inet6::1/0tcp_sendspace131072tcp_recvspace131072rfc13231[root@jj7501:/]#[root@jj7502:/]#ifconfig-aen4:flags=1e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),LARGESEND,CHAIN>inetnetmask0xfffffff0broadcast5inet48netmask0xfffffff0broadcast55tcp_sendspace131072tcp_recvspace65536rfc13230en8:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inetnetmask0xfffffff0broadcast5inet46netmask0xffffff00broadcast55tcp_sendspace131072tcp_recvspace65536rfc13230en9:flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN>inetnetmask0xfffffff0broadcast5tcp_sendspace131072tcp_recvspace65536rfc13230lo0:flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>inetnetmask0xff000000broadcast55inet6::1/0tcp_sendspace131072tcp_recvspace131072rfc13231[root@jj7502:/]#可以看到oracle服务IP分布在两台小机上,分别ping这些地址,确保都能ping通。2、确认HA服务情况:在两台小型机上分别执行ps–ef|grepcluster和ps–ef|grepha命令[root@jj7501:/]#ps-ef|grepclusterroot2540602007080Feb11-16:26/usr/es/sbin/cluster/clstrmgrroot11718141089862016:37:37pts/10:00grepclusterroot906662007080Feb11-12:04/usr/es/sbin/cluster/clcomd-d[root@jj7501:/]#ps-ef|grepharoot2827803401340Feb11-30:31/usr/sbin/rsct/bin/hats_diskhb_nimroot3112983401340Feb11-21:50/usr/sbin/rsct/bin/hats_nimroot3197082007080Feb11-16:19harmad-tHACMP-njj750racroot3401342007080Feb11-20:28/usr/sbin/rsct/bin/hatsd-n1-odeadManSwitchroot3442262007080Feb11-21:10hagsdgrpsvcsroot1399842007080Feb11-49:02haemdHACMP1jj750racSECNOSUPPORTroot2300783401340Feb11-21:33/usr/sbin/rsct/bin/hats_nimroot2342323401340Feb11-21:28/usr/sbin/rsct/bin/hats_nimroot26285610Mar10-0:24/opt/VRTSpbx/bin/pbx_exchangeroot7666081089862016:55:24pts/10:00grepha[root@jj7502:/]#ps-ef|grepclusterroot565346959040016:57:31pts/20:00grepclusterroot1723181559360Feb11-14:45/usr/es/sbin/cluster/clstrmgrroot2420121559360Feb11-10:24/usr/es/sbin/cluster/clcomd-d[root@jj7502:/]#ps-ef|grepharoot2952221559360Feb11-4:00haemdHACMP2jj750racSECNOSUPPORTroot3198501559360Feb11-17:12harmad-tHACMP-njj750racroot3239581559360Feb11-10:45hagsdgrpsvcsroot520574959040016:57:38pts/20:00grepharoot16040610Mar10-0:24/opt/VRTSpbx/bin/pbx_exchangeroot1891202094340Feb11-19:56/usr/sbin/rsct/bin/hats_nimroot1932542094340Feb11-28:34/usr/sbin/rsct/bin/hats_diskhb_nimroot1971202094340Feb11-20:10/usr/sbin/rsct/bin/hats_nimroot2014202094340Feb11-20:08/usr/sbin/rsct/bin/hats_nimroot2094341559360Feb11-24:14/usr/sbin/rsct/bin/hatsd-n2-odeadManSwitch可以看到HA服务均正常启动中。3、确认oracle数据库运行情况:以root用户登录系统,执行su–oracle命令,切换到oracle用户,通过sqlplus“/assysdba”命令登录到oracle数据库,再执行SQL>selectopen_modefromv$database;命令确认数据库运行情况[root@jj7501:/]#su-oracle[oracle@jj7501:/home/oracle]$sqlplus"/assysdba"SQL*Plus:Release.0-ProductiononThuMay2417:10:152012Copyright(c)1982,2002,OracleCorporation.Allrightsreserved.Connectedto:Oracle9iEnterpriseEditionRelease.0-64bitProductionWiththePartitioning,RealApplicationClusters,OLAPandOracleDataMiningoptionsJServerRelease.0-ProductionSQL>selectopen_modefromv$database;OPEN_MODEREADWRITE通过以上三个步骤,确认HA及RAC运行正常。确认以下外挂系统均访问正常:系统名称功能需求访问表名非现场采集系统登录Frm_sysuserFrm_department采集校对Frm_sysuserFrm_departmentFrm_roaditemFrm_roadsegitemVio_codewfdmVio_codewfdmstand报表统计Vio_surveilVio_violationVio_forceVehicle违法数据上传Vio_surveil中spdz的UPDATE权限银行对账系统查询交易Vio_violation缴费交易Vio_violation报表统计Frm_department外网查询处理服务接口查询驾驶证drvinglicense查询机动车vehicle查询违章Vio_surveilVio_violationVio_forceVio_codewfdm卡口布控报警服务查询违章车辆Vio_surveilvehicle4.1.4演练步骤停止P7501数据库,模拟RAC中实例orcl1故障;验证六合一及外挂程序访问,此时由于P7502上实例orcl2仍然在运行,系统不受影响;继续停止监听及HA,此时各应用依旧不受影响;重新启动HA、数据库及监听,还原故障;按照以上步骤模拟P750-2故障还原过程。4.1.5预期演练结果HA故障切换正常,业务系统不中断。预计演练时间:1个半小时4.2生产端数据库平台整体故障切换由于容灾端有一套完整的数据库服务器存储平台,能够支撑一段时间的核心数据库业务,因此我们不考虑在灾难发生时将生产端和容灾端的设备交叉使用,因为那样做需要人工介入的操作太多,并且两台DS8700间PPRC关系需要调整数次,操作失误的概率很大。在以下几种情况出现时,不考虑切换平台:序号故障说明1只有单台P750故障,备机正常接管业务2P750系统宕机,但通过重启可以解除故障3单台光纤交换发生故障4DS8700有硬盘损坏,但raid组还有效,数据没有发生丢失在以下几种情况出现时,我们考虑整体启用容灾端的数据库平台:序号故障设备说明1P750小型机两台小机均发生故障,无法正常工作2B40光纤交换机两台交换机均发生故障,无法正常工作3DS8700磁盘阵列存储发生严重故障,无法正常工作容灾端平台能够在半小时内上线,并且可以支撑足够长的时间,等待生产端设备恢复正常。需要注意的是,假如容灾端设备上线运行了一段时间,必然会产生大量的新数据,当需要重新启用生产端平台时,首先需要重新建立主备DS8700间的pprc关系,并反向同步数据,等确保两边数据一致后,再将生产端DS8700置为主设备。4.2.1参加演练人员业主董震宇:项目总负责人黄庆海:主机存储负责人周坚:网络负责人公众信产肖涵:负责演练整体调度任阳:负责保障数据库系统与小型机汪国军:负责保障网络诚道科技倪旭池:负责保障外挂及六合一系统监理周宇:项目总监理4.2.2切换流程提前全备份,演练前备份归档停止P750HA、RAC检查PPRC状态检查两端设备状态 正常 正常提前全备份,演练前备份归档停止P750HA、RAC检查PPRC状态检查两端设备状态 检查容灾端PPRC链路状况确认PPRC状态停止检查容灾端PPRC链路状况确认PPRC状态停止PPRC同步检查AIXI/OPPRC同步情况 修改oracle控制文件属主P570导入VG再次确认修改oracle控制文件属主P570导入VG再次确认PPRC同步状况容灾DS8700执行failover脚本 验证数据库启动数据库及监听检查VG、IP、验证数据库启动数据库及监听检查VG、IP、errpt信息启动HA、RAC 完成灾备切换验证各外挂平台验证六合一应用W完成灾备切换验证各外挂平台验证六合一应用Websphere中验证数据源连接4.2.3演练步骤1、在正式演练前两天手工发起一次oracle的全备份;2、在演练开始后首先发起oracle的归档备份;3、检查两端设备运行状态,有无硬件报警信息,若发现有报错,应及时处理,并视情况调整容灾演练计划;生产端设备设备名称有无报警信息P750-1P750-2光纤交换机B24-1光纤交换机B24-2DS8700Radware负载均衡器六合一应用服务器X38506台Vmware虚拟化X38502台容灾端设备设备名称有无报错信息P570-1P570-2光纤交换机BR300-1光纤交换机BR300-2DS8700Radware负载均衡器Vmware虚拟化X38502台4、在P750上进入DSCLI工具,执行命令lspprcpath10-31命令确认PPRC链路状态都为success;[root@jj7501:/]#dscliDate/Time:May24,20127:31:40PMGMT+08:00IBMDSCLIVersion:71DS:IBM.2107-75XX201dscli>lspprcpath10-31Date/Time:May24,20127:31:50PMGMT+08:00IBMDSCLIVersion:71DS:IBM.2107-75XX201SrcTgtStateSSPortAttachedPortTgtWWNN=========================================================1010SuccessFF10I0233I0233500507630BFFC51E1010SuccessFF10I0303I0303500507630BFFC51E1111SuccessFF11I0233I0233500507630BFFC51E1111SuccessFF11I0303I0303500507630BFFC51E3030SuccessFF30I0233I0233500507630BFFC51E3030SuccessFF30I0303I0303500507630BFFC51E3131SuccessFF31I0233I0233500507630BFFC51E3131SuccessFF31I0303I0303500507630BFFC51E5、执行lspprc1000-100f1100-110f命令,检查同步情况;dscli>lspprc1000-100f1100-110f6、停止P7501数据库[root@jj7501:/]#su–oracle 切换到oracle用户[oracle@jj7501:/home/oracle]$lsnrctlstop 停止监听[oracle@jj7501:/home/oracle]$sqlplus"/assysdba" 登录oracle数据库SQL>shutdownimmediate; 停止数据库SQL>exit 退出数据库[oracle@jj7501:/home/oracle]$exit 退回root用户在P5702上执行相同操作7、停止P750HA[root@jj7501:/]#Smittyclstop 停止HA8、检查AIX中磁盘I/O情况,执行topas命令:[root@jj7501:/]#topasDiskBusy%KBPSTPSKB-ReadKB-Writhdisk310.059.92.059.90.0hdisk270.040.01.040.00.0hdisk120.039.718.00.039.7hdisk40.036.04.012.024.0hdisk11.024.05.00.024.0hdisk01.024.05.00.024.0hdisk80.020.02.00.020.0hdisk50.012.01.04.08.0hdisk320.012.01.08.04.0hdisk130.08.00.00.08.0hdisk290.04.00.04.00.0hdisk90.04.00.00.04.0当业务都停止后,磁盘I/O应该基本为0;9、切换到/PPRC/PPRC750目录下,执行lspprc750.sh脚本,确认pprc同步情况当状态显示为fullduplex且metromirror值为0时,可认定PPRC同步已经完成了;10、执行pausepprc750.sh脚本:可以看到PPRC同步被成功pause了;11、确认PPRC同步pause状态:状态显示为suspended,则代表了pause成功;12、在P570进入dscli工具,执行lspprc命令,确认同步是完全的;dscli>lspprc1000-100f1100-110f13、在P570上执行lspprcpath命令,确认容灾端到生产端链路是正常的;dscli>lspprcpath10-3114、在P570上执行failover.sh脚本,此脚本的作用是讲释放容灾端DS8700的lun资源给P570使用;15、执行lspprc750.sh脚本,确认PPRC同步情况;16、在P5701上导入VG[root@jj5701:/]#importvg-y‘data1vg’-V’101’hdisk2 导入data1vg[root@jj5701:/]#importvg-y‘data2vg’-V’102’hdisk3 导入data2vg[root@jj5701:/]#importvg-y‘data3vg’-V’103’hdisk4 导入data3vg[root@jj5701:/]#importvg-y‘data4vg’-V’104’hdisk5 导入data4vg在P5702上执行相同操作;执行完毕后可以用lsvg命令确认;17、在P5701上修改oracle控制文件属主[root@jj5701:/]#chownoracle:dbarlog* 修改rlog开头文件属主[root@jj5701:/]#chownoracle:dbarlv_* 修改rlv开头文件属主[root@jj5701:/]#chownoracle:dbarorcl* 修改rorcl开头文件属主[root@jj5701:/]#chownoracle:dbarrorcl* 修改rrorcl开头文件属主在P5702上执行相同操作;18、启动P570HA[root@jj5701:/]#Smittyclstart 启动HA19、确认VG已被自动varyon,相关文件系统已加载,服务IP地址已加载,系统没有报错信息;[root@jj5701:/]#lsvg–o 确定VG已varyon[root@jj5701:/]#df–g 确定文件系统已挂载[root@jj5701:/]#ifconfig–a 确定服务IP已加载[root@jj5701:/]#errpt 查看系统有无报错信息在P5702上执行相同操作20、在P5701上启动数据库[root@jj5701:/]#su–oracle 切换到oracle用户[oracle@jj5701:/home/oracle]$sqlplus"/assysdba" 登录oracle数据库SQL>startup 启动数据库SQL>selectopen_modefromv$database; 确认数据库状态SQL>exit 退出数据库[oracle@jj5701:/home/oracle]$lsnrctlstart 启动监听在P5702上执行相同操作21、验证数据库完整性;22、在DMGR管理平台,测试数据源连接:第一步、点击左边菜单栏资源》JDBC》数据源第二步、选取某个数据源,点击测试连接第三步、查看测试结果对所有数据源逐一测试,确保连接都是正常的,若存在问题,则可以尝试重启WVE集群;23、测试六合一应用访问;URL说明页面是否正常显示5:9081/trffweb连接85的WAS5/trffweb连接85的IHS3/trffweb连接ODR1/trffweb连接radware虚地址24、验证各外挂系统访问;至此整个平台切换到了容灾端。4.2.4还原流程对容灾端DS8700执行failback脚本检查vg、ip、fs检查有无报错信息停止P570HA对容灾端DS8700执行failback脚本检查vg、ip、fs检查有无报错信息停止P570HA、RAC 确认生产端PPRC链路状况停止PPRC确认生产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论