RAC单节点故障处理应急预案V60.doc

上传人：过*** IP属地：江西上传时间：2020-02-03 格式：DOC 页数：31 大小：3.29MB 积分：15 举报 版权申诉

免费预览已结束，剩余26页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

广东公司内部RAC单节点故障应急预案发布日期2008年8月15日编号业务支撑中心应急-aa-XX页数第31页共31页RAC单节点故障应急预案一. 预案分类：数据库二. 涉及业务流程描述：目前BOSS2.0 数据库系统目前共有7套双节点的RAC 数据库所构成，其中广州、汕头、深圳、东莞、佛山营账库承载全省21个市公司的营业、账务应用数据，清单、报表数据库承载全省清单及报表应用数据。三. 涉及网络/设备/系统现状数据库名称数据库实例名主机型号/编号CPU内存(GB)内置磁盘OS版本集群版本Oracle版本GZDBGZDB1IBM P59532*2.3G1284*136G5300-07是Oracle EE GZDB2IBM P59532*2.3G1284*136G5300-07是Oracle EE STDBSTDB1IBM P59532*2.3G1284*136G5300-07是Oracle EE STDB2IBM P59532*2.3G1284*136G5300-07是Oracle EE SZDBSZDB1IBM P59548*1.95G1884*73G5300-04是Oracle EE SZDB2IBM P59548*1.95G1884*73G5300-04是Oracle EE DGDBDGDB1IBM P59548*1.95G1884*73G5300-07是Oracle EE DGDB2IBM P59548*1.95G1884*73G5300-07是Oracle EE FSDBFSDB1IBM P59548*2.3G1924*136G5300-07是Oracle EE FSDB2IBM P59548*1.95G1924*136G5300-07是Oracle EE REPORTREPORT1IBM P59518*1.95G1202*73G5300-04是Oracle EE REPORT2IBM P59548*1.95G1882*73G5300-04是Oracle EE CDRCDR1IBM P59532*1.95G964*73G5300-05是Oracle EE CDR2IBM P59532*1.95G964*73G5300-05是Oracle EE 描述预案涉及的到的所有硬件设备和配置信息。四. 应对紧急事件：RAC数据库单节点故障。五. 紧急事件的影响：当一个节点发生故障时，故障节点无法处理用户连接，数据库连接被自动转移至RAC另外一个节点，数据库服务不会发生中断。六. 监控策略：l 通过监控室监控软件定期检查节点运行状态。l 新炬值班工程师9：00-18：00 每小时检查数据库运行状态l 华为业务监控软件监控业务是否异常。l 监控室值班7X24接收各市公司业务报障l 运管室负责人值班电话7X24接收各市公司业务报障七. 启动条件：l 当发现RAC数据库一个节点发生故障，无法处理用户连接时，经BOSS系统相关负责人同意，启动本应急方案，迅速恢复故障。八. 处理步骤：第一部分：营账系统一、节点2环境检查部分（共需15分钟）1.小型机硬件检查（5分钟）观察主机报警灯是否亮起，检查HMC(硬件管理控制台)确定主机的状态处于Operation状态，逻辑主机处于running状态；检查HMC的Open Service Event是否存在硬件报错。2操作系统检查（5分钟）l 使用以下命令查看错误信息：#errpt -dH #errpt -aj 错误代码 /查看报错的详细信息l 查看有否stale的逻辑卷：#lsvg -l VGname /查看LV STATE是否为打开并同步#lsvg -o | lsvg -il | grep stalel 查看rootvg镜像情况#lsvg -l rootvg;l 查看hd5分布和bootlist#lslv -m hd5;#bootlist -om normal;l 查看网络状态#ifconfig -a;#netstat -i;#netstat -r;l 查看文件系统使用率是否正常#df -kl 检查Oracle NFS文件系统是否mount起#mounts1_c_yz_yzsjk /oracle/arch_gz1 /oracle/arch_gz1bak nfs3 Dec27 23:56 rw,bg,hard,intr,rsize=32768,wsize=32768,timeo=600,proto=tcp,sec=sys3.HA状况检查（5分钟）l 查看cluster SRC是否存在：lssrc -g cluster;通过查看/tmp/hacmp.out得到HA的启停信息。通过smitty hacmp来校验和同步两个结点的配置。如果需要（比如在演习中）可以通过以下命令手工停止HA：smitty clstop;l 查看两个结点通信接口，资源组是否正常：#/usr/es/sbin/cluster/clstat -a;正常情况下Cluster的两个结点的状态都是Stable，网络接口和IP地址的状态为UP，资源组的状态为Online。l 检查相应的VG状态是否varyon#lsvg -o#lspvl 检查/etc/hosts文件，确认两个结点IP和alias关系#cat /etc/hostsl 查看HACMP网络通信状态#ifconfig -a;#netstat -i;#netstat -r;4.性能检查（持续监控）检查操作系统CPU,内存，IO，SWAP资源的使用情况，是否存在资源瓶颈，如果有，找出最消耗资源的进程。l 查看内存交换区是否超过70#lsps -sl 使用以下命令查看系统性能问题，找出性能瓶颈#topas#iostat#vmstat找到系统性能瓶颈后，配合系统管理人员，应用人员，数据库人员找出导致系统瓶颈的原因。通过修改参数、停止部分非关键应用、增加系统资源、采取应急方案等措施缓解接管主机的性能负荷。(本环节需15分钟)2. 检查CRS状态$ crsctl check crs节点2正常状态：CSS appears healthyCRS appears healthyEVM appears healthy3. CRS服务检查crs_stat t 检查各项CRS服务是否运行正常,确认服务运行状态是否正常，目前已完数据库拆分广州、汕头、东莞、佛山库的服务分布情况：lsnrctl status listener_s1各服务所在实例如下表：数据库名实例名服务名DGDBDGDB1SDGDGDB2SSWSCZSHYFSDBFSDB1SFSFSDB2SMMSSGSYJGZDBGZDB1SGZ1GZDB2SGZ2STDBSTDB1SSTSTDB2SZQSJYSHZ4. 监听状态检查$lsnrctl status listener_s2如果运行正常，可查看到监听器所监听的IP地址，端口及数据服务5. 实例运行状态检查SQLSELECT inst_id, instance_number inst_no,instance_name inst_name, Parallel status, database_status db_status, active_state,substr(to_char(startup_time,yyyy-mm-dd:hh24:mi:ss),1,15) startup, substr(host_name,1,10) host FROM gv$instance ORDER BY inst_id;6. 数据库等待事件检查检查数据库是否有异常等待事件。SELECT EVENT,COUNT(*) FROM V$SESSION GROUP GY EVENT WHERE STATUS=ACTIVE group by event;7. 数据库连接数检查Select count(*) from v$session 8. 数据库报警信息检查more alert_gzdb2.log检查两个实例的报警日志是否有异常报警产生。9. 文件系统检查df -m检查/oracle、/arch等文件系统的空间使用率。10. 性能检查（持续监控）使用以下命令查看系统负载情况：#topas检查正在执行的高资源开销程序模块及并行进程数col sql_t format a50; select substr(sql_text,1,50) as sql_t,trim(program),min(sql_id),count(*) from ( select sql_text,a.sql_id,program from v$session a, v$sqlarea b where a.sql_id = b.sql_id and a.status = ACTIVEand a.sql_id is not nullunion allselect sql_text,a.PREV_SQL_ID as sql_id,programfrom v$session a, v$sqlarea bwhere a.sql_id is null and a.PREV_SQL_ID = b.sql_id and a.status = ACTIVE ) group by substr(sql_text,1,50),trim(program) order by 1; 检查前30分钟TOP资源开销SQLDBMS_WORKLOAD_REPOSITORY.CREATE_SNAPSHOT（）;?/rdbms/amdmin/awrrpt.sql;二、系统切换（业务切换、监控、中间件切换）(15分钟内完成)1. 帐务业务切换数据库停止以后，需要将对应地市的应用重启，启停程序通过监控系统操作，批量启停可以通过下图的方式，可以根据地市条件将所有的程序查出来，然后点击按钮，所有启动的程序都会停止，启动也是同样的方法，点击按钮，所有应该启动的程序就可以启动。2. 过程监控：停止程序后，到后台主机检查程序是否停完，检查方法：ps -ef|grep /conf|grep gz|grep devis，如果有进程就后台杀掉，确认没有后说明程序已经停止完毕。红色gz是代表地市，每个地市都可以用这个方法检查。启动应用后可以通过监控系统下面的界面检查程序是否启动完毕，如果有告警会有颜色提示，例如下图就是有些程序异常，单独检查这几个程序就可以了。如果所有的程序都没有告警，可以到后台抽查关键程序的日志，没有异常就说明程序启动完毕。1. CICS重启相关region操作(5分钟)l ORACLE数据库RAC切换确认完成后，立即通知相关IBM中间件维护联系人；IBM中间件维护人员在得到广东移动负责人的确认后，实施RAC切换后的IBM中间件切换操作。l 重新启动访问停止的ORACLE数据库节点的所有CICS Regionl 由于CICS服务器的ORACLE客户端配置的tnsnames.ora文件中配置了可自动切换，因此只需要重起部分访问已停止的ORACLE节点的CICS REGION就可以恢复业务正常运行。本次切换演练以广州库为例：l 广州库一节点（）切换到广州库二节点()时CICS重起访问广州库一节点（gzdb1）实例的CICS Region是广州地市的营业和帐务CICS Region，分别位于CICS服务器S1_C_YZ_CICS,S2_C_YZ_CICS,S9_C_YZ_CICS，具体IP地址和分布如下表。需要重起该列表中所列的CICS Region。主机名IP地址该机上需要重起的CICS RegionS1_C_YZ_CICS6YYGZ , ZWGZS2_C_YZ_CICS8YYGZ , ZWGZS9_C_YZ_CICS10YYGZ , ZWGZ2. WebSphere相关操作(每台机器约15分钟。)l ORACLE数据库恢复后，立即通知相关IBM中间件维护联系人；IBM中间件维护人员在得到广东移动负责人的确认后，实施RAC切换后的IBM中间件切换操作。l 修改BOSS 2.0平台WAS中需要访问切换时停止的数据库节点的WAS数据源的配置l 登陆网管机 (用户ibmgmcc)，再登陆WAS 单元的管理控制台，进入JDBC数据源配置页面，修改每个需要访问切换时停止的数据库节点的数据源定义。将数据源配置URL中所指定的数据库实例IP地址和实例名改为切换后的数据库实例的IP地址和实例名。l 本次切换演练以广州库为例：l 广州库一节点（）切换到广州库二节点() 时BOSS平台WAS数据源配置修改l 登陆BOSS 2.0的4个WAS单元的管理控制台修改数据源配置，BOSS 2.0各W管理控制台访问方式为：管理控制台名管理控制台IP地址和访问端口Dmgr01(位于S3_C_YZ_J2EE)6:9060/ibm/consoleDmgr02(位于S4_C_YZ_J2EE)6:9060/ibm/consoleDmgr03(位于S5_C_YZ_J2EE)6:9060/ibm/consoleDmgr04(位于S6_C_YZ_J2EE)6:9060/ibm/consolel 在上述4个WAS单元，数据源建立在集群级别上，每个WAS单元中各有两个集群：营业集群和帐务集群。在营业集群Cluster_*_1中需要修改的数据源配置包括：数据源名原URL配置的IP和实例名修改后URL配置的IP和实例名BOSS_GZ:1521:gzdb:1521:gzdb2tbcsPoolGZ :1521:gzdb:1521:gzdb2在帐务集群Cluster_*_2中需要修改的数据源配置包括：数据源名原URL配置的IP和实例名修改后URL配置的IP和实例名boss15zw_gz :1521:gzdb:1521:gzdb2l 在上述4个WAS单元，数据源建立在集群级别上，每个WAS单元中各有两个集群：营业集群和帐务集群。在营业集群Cluster_*_1中需要修改的数据源配置包括：数据源名原URL配置的IP和实例名修改后URL配置的IP和实例名BOSS_HZ:1521:gzdb:1521:gzdb1tbcsPoolHZ :1521:gzdb:1521:gzdb1BOSS_ST:1521:gzdb:1521:gzdb1tbcsPoolST :1521:gzdb:1521:gzdb1BOSS_JY:1521:gzdb:1521:gzdb1tbcsPoolJY :1521:gzdb:1521:gzdb1BOSS_ZQ:1521:gzdb:1521:gzdb1tbcsPoolZQ :1521:gzdb:1521:gzdb1在帐务集群Cluster_*_2中需要修改的数据源配置包括：数据源名原URL配置的IP和实例名修改后URL配置的IP和实例名boss15zw_hz :1521:gzdb:1521:gzdb1boss15zw_st :1521:gzdb:1521:gzdb1boss15zw_jy :1521:gzdb:1521:gzdb1boss15zw_zq :1521:gzdb:1521:gzdb1l 重新启动BOSS 2.0平台的WAS APP SERVERl 修改数据源定义后需要重起WAS APP SERVER使新配置立刻生效。l 为了最快速地恢复业务正常运行，可以使用kill -9 $pid将WAS APP SERVER的java进程KILL掉，则nodeagent会自动将该WAS APP SERVER带起，节省重起WAS的时间。l 为了在切换过程中尽量少地影响到没有做数据库切换的地市的业务，建议分别对集群中的各台J2EE服务器上的WAS APP SERVER进行重起。起完一台机上所有的WAS APP SERVER再起另一台机，以保证时刻都有活动的WAS APP SERVER对外提供服务。l 注意由于营业和帐务WAS分别由不同的开发商维护，各自重起时需要留意所启动的WAS APP SERVER名。l 没有root用户权限时，可以在WAS管理控制台上停止和启动各WAS APP SERVER。1. 营业应用切换数据库RAC切换后，需要重启中间件CICS、修改WAS数据源并重启nodeagent和appserver、少量独立后台程序需要修改数据库连接串并重启、其它独立程序只要重启即可。l 重启中间件CICS营业region，详见。l 修改WAS数据源配置，重启nodeagent和appserver，详见。修改广州反向工单接口机（OCSIF）集群的数据源配置，重启nodeagent和appserver，步骤同上。l 需要修改数据库连接配置的后台程序如下，切换步骤如附件a) 服务开通工单发送程序b) 服务开通反向工单c) 服务开通失败工单重送d) 服务开通批量冲值卡激活程序e) 一级BOSSf) 停短信下发接口（新）l 其它独立后台程序无需修改配置，只需重启即可涉及机器：S7_C_YZ_CICS、S8_C_YZ_CICS使用下面命令停止程序，程序会自动启动：ps ef |grep hwpm |awk print $2 |xargs kill -92. 过程监控业务切换完成后检查应用是否正常：l 前台登陆BOSS系统验证是否可以正常登陆l 检查服务是否正常在S6_C_YZ_CICS机器上，使用检查脚本/cicsdump/CheckServer/checkServer.sh检查CICS是否正常。l 检查后台独立进程是否正常S7_C_YZ_CICS上使用检查脚本/HWBOSS/Monitor/scan.sh检查后台进程是否存在，如后台进程存在，则说明后台进程已经重启成功，后续可通过日志、查数据等方法做更详细的检查。1. 针对广州、东莞、佛山、汕头数据库需进行服务切换目前服务的部署情况如下：数据库名实例名服务名DGDBDGDB1SDGDGDB2SSWSCZSHYFSDBFSDB1SFSFSDB2SMMSSGSYJGZDBGZDB1SGZ1GZDB2SGZ2STDBSTDB1SSTSTDB2SZQSJYSHZ以切换广州市公司前台应用服务SGZ1为例（原运行在GZDB1实例，切换至GZDB2实例）：1）停止服务：srvctl stop service -d gzdb -s sgz12）启动服务：srvctl start service -d gzdb -s sgz1 i gzdb23）服务监听状态检查$lsnrctl status listener_s2如果运行正常，可查看到监听器所监听的IP地址，端口及数据服务2. 使用以下命令查看系统负载情况：#topas3. 数据库等待事件检查检查数据库是否有异常等待事件。SELECT EVENT,COUNT(*) FROM V$SESSION GROUP GY EVENT WHERE STATUS=ACTIVE group by event;4. 数据库连接数检查Select count(*) from v$session 5. 检查活动并行进程数Select username,count(*) from v$session where status=ACTIVE group by username;6. 数据库报警信息检查more alert_gzdb2.log检查两个实例的报警日志是否有异常报警产生。7. 性能检查检查正在执行的高资源开销程序模块及并行进程数col sql_t format a50; select substr(sql_text,1,50) as sql_t,trim(program),min(sql_id),count(*) from ( select sql_text,a.sql_id,program from v$session a, v$sqlarea b where a.sql_id = b.sql_id and a.status = ACTIVEand a.sql_id is not nullunion allselect sql_text,a.PREV_SQL_ID as sql_id,programfrom v$session a, v$sqlarea bwhere a.sql_id is null and a.PREV_SQL_ID = b.sql_id and a.status = ACTIVE ) group by substr(sql_text,1,50),trim(program) order by 1; 检查前30分钟TOP资源开销SQLDBMS_WORKLOAD_REPOSITORY.CREATE_SNAPSHOT（）;?/rdbms/amdmin/awrrpt.sql;进行应用切换之后，进行以下系统验证，检查业务是否正常、负载是否正常、数据库&中间件运行状态。三、业务验证帐务系统验证通过生产监控系统如下图监控涉及数据库，如广州的程序是否有异常。营业系统验证通过巡检工具脚本scan.sh监控营业系统的整体情况，包括中间件、后台独立程序的运行情况。1. 检查CICS（2分钟）验证CICS Region启动成功，且交易运行正常各机的CICS Region YYGZ，ZWGZ启动完毕后，按如下顺序检查访问数据库是否正常及业务运行是否正常：在S1_C_YZ_CICS,S2_C_YZ_CICS,S9_C_YZ_CICS上分别执行（1）lssrc a|grep cics #确认上述2步骤中重起过的CICS Region状态为active。（2）在S6_C_YZ_CICS(6)上运行检测脚本：/cicsdump/CheckServer/checkServer.sh #确认调用上述2步骤中重起过的CICS Region的请求能成功返回，且无交易堵塞现象。检查WebSphere。2. 各WAS APP SERVER启动完毕后，用如下方法检查访问数据库是否正常及业务运行是否正常（2分钟）：在各台服务开通机器上，执行/usr/WebSphere/AppServer/bin/serverStatus.sh确认输出显示各WAS APP SERVER状态正常。3. 并检查应用程序日志，确认业务运行正常。以下检查操作，以维护账号登录系统，共需时间2分钟。1. 使用以下命令查看系统负载情况：#topas2. 数据库等待事件检查检查数据库是否有异常等待事件。SELECT EVENT,COUNT(*) FROM V$SESSION GROUP GY EVENT WHERE STATUS=ACTIVE group by event;3. 数据库连接数检查Select count(*) from v$session 4. 检查活动并行进程数Select username,count(*) from v$session where status=ACTIVE group by username;5. 数据库报警信息检查more alert_gzdb2.log6. 检查两个实例的报警日志是否有异常报警产生。第二部分：清单系统一、节点2环境检查(本环节需15分钟)11. 检查CRS状态$ crsctl check crs节点2正常状态：CSS appears healthyCRS appears healthyEVM appears healthy12. CRS服务检查crs_stat t 检查各项CRS服务是否运行正常。13. 监听状态检查$lsnrctl status listener_s2如果运行正常，可查看到监听器所监听的IP地址，端口及数据服务14. 实例运行状态检查SQLSELECT inst_id, instance_number inst_no,instance_name inst_name, Parallel status, database_status db_status, active_state,substr(to_char(startup_time,yyyy-mm-dd:hh24:mi:ss),1,15) startup, substr(host_name,1,10) host FROM gv$instance ORDER BY inst_id;15. 数据库等待事件检查检查数据库是否有异常等待事件。SELECT EVENT,COUNT(*) FROM V$SESSION GROUP GY EVENT WHERE STATUS=ACTIVE group by event;16. 数据库连接数检查Select count(*) from v$session 17. 数据库报警信息检查more alert_gzdb2.log检查两个实例的报警日志是否有异常报警产生。18. 文件系统检查df -m检查/oracle、/arch等文件系统的空间使用率。19. 性能检查（持续监控）使用以下命令查看系统负载情况：#topas检查正在执行的高资源开销程序模块及并行进程数col sql_t format a50; select substr(sql_text,1,50) as sql_t,trim(program),min(sql_id),count(*) from ( select sql_text,a.sql_id,program from v$session a, v$sqlarea b where a.sql_id = b.sql_id and a.status = ACTIVEand a.sql_id is not nullunion allselect sql_text,a.PREV_SQL_ID as sql_id,programfrom v$session a, v$sqlarea bwhere a.sql_id is null and a.PREV_SQL_ID = b.sql_id and a.status = ACTIVE ) group by substr(sql_text,1,50),trim(program) order by 1; 检查前30分钟TOP资源开销SQLDBMS_WORKLOAD_REPOSITORY.CREATE_SNAPSHOT（）;?/rdbms/amdmin/awrrpt.sql;二、系统切换（业务切换、监控、中间件切换）(15分钟内完成)8. 使用以下命令查看系统负载情况：#topas9. 数据库等待事件检查检查数据库是否有异常等待事件。SELECT EVENT,COUNT(*) FROM V$SESSION GROUP GY EVENT WHERE STATUS=ACTIVE group by event;10. 数据库连接数检查Select count(*) from v$session 11. 检查活动并行进程数Select username,count(*) from v$session where status=ACTIVE group by username;12. 数据库报警信息检查more alert_gzdb2.log检查两个实例的报警日志是否有异常报警产生。13. 性能检查检查正在执行的高资源开销程序模块及并行进程数col sql_t format a50; select substr(sql_text,1,50) as sql_t,trim(program),min(sql_id),count(*) from ( select sql_text,a.sql_id,program from v$session a, v$sqlarea b where a.sql_id = b.sql_id and a.status = ACTIVEand a.sql_id is not nullunion allselect sql_text,a.PREV_SQL_ID as sql_id,programfrom v$session a, v$sqlarea bwhere a.sql_id is null and a.PREV_SQL_ID = b.sql_id and a.status = ACTIVE ) group by substr(sql_text,1,50),trim(program) order by 1; 检查前30分钟TOP资源开销SQLDBMS_WORKLOAD_REPOSITORY.CREATE_SNAPSHOT（）;?/rdbms/amdmin/awrrpt.sql;进行应用切换之后，进行以下系统验证，检查业务是否正常、负载是否正常、数据库&中间件运行状态。三、业务验证以下检查操作，以维护账号登录系统，共需时间2分钟。1. 使用以下命令查看系统负载情况：#topas2. 数据库等待事件检查检查数据库是否有异常等待事件。SELECT EVENT,COUNT(*) FROM V$SESSION GROUP GY EVENT WHERE STATUS=ACTIVE group by event;3. 数据库连接数检查Select count(*) from v$session 4. 检查活动并行进程数Select username,count(*) from v$session where status=ACTIVE group by username;5. 数据库报警信息检查more alert_gzdb2.log6. 检查两个实例的报警日志是否有异常报警产生。第二部分：报表系统一、节点2环境检查(本环节需15分钟)20. 检查CRS状态$ crsctl check crs节点2正常状态：CSS appears healthyCRS appears healthyEVM appears healthy21. CRS服务检查crs_stat t 检查各项CRS服务是否运行正常。22. 监听状态检查$lsnrctl status listener_s2如果运行正常，可查看到监听器所监听的IP地址，端口及数据服务23. 实例运行状态检查SQLSELECT inst_id, instance_number inst_no,instance_name inst_name, Parallel status, database_status db_status, active_state,substr(to_char(startup_time,yyyy-mm-dd:hh24:mi:ss),1,15) startup, substr(host_name,1,10) host FROM gv$instance ORDER BY inst_id;24. 数据库等待事件检查检查数据库是否有异常等待事件。SELECT EVENT,COUNT(*) FROM V$SESSION GROUP GY EVENT WHERE STATUS=ACTIVE group by event;25. 数据库连接数检查Select count(*) from v$session 26. 数据库报警信息检查more alert_gzdb2.log检查两个实例的报警日志是否有异常报警产生。27. 文件系统检查df -m检查/oracle、/arch等文件系统的空间使用率。28. 性能检查（持续监控）使用以下命令查看系统负载情况：#topas检查正在执行的高资源开销程序模块及并行进程数col sql_t format a50; select substr(sql_text,1,50) as sql_t,trim(program),min(sql_id),count(*) from ( select sql_text,a.sql_id,program from v$session a, v$sqlarea b where a.sql_id = b.sql_id and a.status = ACTIVEand a.sql_id is not nullunion allselect sql_text,a.PREV_SQL_ID as sql_id,programfrom v$session a, v$sqlarea bwhere a.sql_id is null and a.PREV_SQL_ID = b.sql_id and a.status = ACTIVE ) group by substr(sql_text,1,50),trim(program) order by 1; 检查前30分钟TOP资源开销SQLDBMS_WORKLOAD_REPOSITORY.CREATE_SNAPSHOT（）;?/rdbms/amdmin/awrrpt.sql;二、系统切换（业务切换、监控、中间件切换）(15分钟内完成)14. 使用以下命令查看系统负载情况：#topas15. 数据库等待事件检查检查数据库是否有异常等待事件。SELECT EVENT,COUNT(*) FROM V$SESSION GROUP GY EVENT WHERE STATUS=ACTIVE group by event;16. 数据库连接数检查Select count(*) from v$session 17. 检查活动并行进程数Select username,count(*) from v$session where status=ACTIVE group by username;18. 数据库报警信息检查more alert_gzdb2.log检查两个实例的报警日志是否有异常报警产生。19. 性能检查检查正在执行的高资源开销程序模块及并行进程数col sql_t format a50; select substr(sql_text,1,50) as sql_t,trim(program),min(sql_id),count(*) from ( select sql_text,a.sql_id,program from v$session a, v$sqlarea b where a.sql_id = b.sql_id and a.status = ACTIVEand a.sql_id is not nullunion allselect sql_text,a.PREV_SQL_ID as sql_id,programfrom v$session a, v$sqlarea bwhere a.sql_id is null and a.PREV_SQL_ID = b.sql_id and a.status = ACTIVE ) group by substr(sql_text,1,50),trim(program) order by 1; 检查前30分钟TOP资源开销SQLDBMS_WORKLOAD_REPOSITORY.CREATE_SNAPSHOT（）;?/rdbms/amdmin/awrrpt.sql;进行应用切换之后，进行以下系统验证，检查业务是否正常、负载是否正常、数据库&中间件运行状态。三、业务验证以下检查操作，以维护账号登录系统，共需时间2分钟。7. 使用以下命令查看系统负载情况：#topas8. 数据库等待事件检查检查数据库是否有异常等待事件。SELECT EVENT,COUNT(*) FROM V$SESSION GROUP GY EVENT WHERE STATUS=ACTIVE group by event;9. 数据库连接数检查Select count(*) from v$session 10. 检查活动并行进程数Select username,count(*) from v$session where status=ACTIVE group by usern

人人文库> 全部分类> 应用文书 > 规章制度

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

RAC单节点故障处理应急预案V60.doc

文档简介

温馨提示

最新文档

评论

RAC单节点故障处理应急预案V60.doc

文档简介

温馨提示

最新文档

评论

相关文档