




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
IBS系统应急维护手册v1.12011年5月目录1系统概述31.1系统主机列表31.2系统拓扑图42应急预案的触发条件53应急预案启动的管理决策流程64故障场景74.1计费模块74.1.1主机硬件故障74.1.2数据库故障84.1.3中间件故障154.2帐务模块164.2.1主机硬件故障164.2.1数据库故障184.2.2中间件故障184.3收费模块184.3.1主机硬件故障184.3.2中间件故障194.4汇集模块19场景1 IBSHJDB1主机故障19场景2 IBSHJDB2主机故障194.5OD模块204.5.1主机硬件故障204.5.2数据库故障214.5.3中间件故障214.6集团接口模块214.7存储硬件故障22场景1 数据保护DS8100存储故障22场景2 网络智能DS8300存储故障225附录 AIX操作系统日常维护225.1.1AIX日常检查225.1.2AIX日常维护245.1.3AIX HACMP维护255.1.4存储设备日常检查285.1.5存储设备日常维护291 系统概述1.1 系统主机列表序号主机名主机型号IP地址业务功能1ncs2busiIBM pSeries / 9117-MMA88.6.0.22营业、帐务前置机2ncs2bankIBM pSeries / 9117-MMA88.6.0.23银行前置机3NCSZF1IBM pSeries / 9131-52A132.77.106.86固网支付业务14NCSZF2IBM pSeries / 9131-52A132.77.106.88固网支付业务25NCSweblogic1IBM pSeries / 9131-52A132.77.125.30Weblogic服务器16ncsweblogic3IBM pSeries / 9133-55A132.77.125.31Weblogic服务器37NCSweblogic2IBM pSeries / 9131-52A132.77.125.32Weblogic服务器28IBSJFAPP1IBM pSeries / 9133-55A132.77.116.160计费应用服务器19IBSJFAPP2IBM pSeries / 9133-55A132.77.116.162计费应用服务器210IBSJFDB1IBM pSeries / 9119-595132.77.116.52计费数据库111IBSJFDB2IBM pSeries / 9119-595132.77.116.54计费数据库212IBSJFRAC1IBM pSeries / 9119-595132.77.116.172计费RAC数据库113IBSJFRAC2IBM pSeries / 9119-595132.77.116.174计费RAC数据库214BCCJZ_BILLIBM pSeries / 9119-595132.77.116.22帐务数据库115BCCJZ_ACCOUNT IBM pSeries / 9119-595132.77.116.24帐务数据库216IBSweb1IBM pSeries / 9133-55A132.77.125.56Weblogic应用服务器317IBSweb2IBM pSeries / 9133-55A132.77.125.58Weblogic应用服务器418IBSweb3IBM pSeries / 7038-6M2132.77.125.60Weblogic应用服务器319IBSweb4IBM pSeries / 7038-6M2132.77.125.62Weblogic应用服务器420IBStuxedo1IBM pSeries / 9117-MMA132.77.116.33TUXEDO服务器121IBStuxedo2IBM pSeries / 9117-MMA132.77.116.34TUXEDO服务器222IBSDSGD1IBM pSeries / 7028-6C4132.77.116.43欠费、停复处理、定时工单123IBSDSGD2IBM pSeries / 7028-6C4132.77.116.44欠费、停复处理、定时工单224p630_1IBM pSeries / 7028-6C4132.77.116.164接口服务器1备25p630_2IBM pSeries / 7028-6C4132.77.116.166接口服务器1主26BCCJZ_HISTIBM pSeries / 9117-570132.77.116.25备份服务器长话、市话、合一历史数据库27BCCJZ_STATISTICSIBM pSeries / 9117-570132.77.116.26统计分析数据库28CSP-1IBM pSeries / 9133-55A132.77.116.152CSP计费模块129CSP-2IBM pSeries / 9133-55A132.77.116.154CSP计费模块230IBSjtjk1IBM pSeries / 9117-MMAP: 132.77.125.51S: 132.77.125.52IBS综合接口服务器131IBSjtjk2IBM pSeries / 9117-MMAP: 132.77.125.53S: 132.77.125.54IBS综合接口服务器232IBSODweb1IBM pSeries / 9133-55A132.77.125.48OD接口及查询服务器133IBSODweb2IBM pSeries / 9133-55A132.77.125.50OD接口及查询服务器134IBSOD3IBM pSeries / 9133-55A132.77.116.156DB数据库服务器135IBSOD4IBM pSeries / 9133-55A132.77.116.158DB数据库服务器236IBSHJDB1IBM pSeries / 9133-55A132.77.116.46汇集数据库服务器137IBSHJDB2IBM pSeries / 9133-55A132.77.116.48汇集数据库服务器21.2 系统拓扑图2 应急预案的触发条件当IBS系统出现以下紧急状况时,十分钟之内无法恢复业务,启动紧急预案:1. 主机硬件、网络(包括主机CPU、系统板、内存、本地硬盘、各种IO板卡、网络交换机)导致业务中断2. 中间件出现配置错误或程序逻辑错误,导致业务中断3. 数据库配置错误或程序逻辑错误,导致业务中断4. 存储设备中出现数据块损坏导致数据库无法正常运转,导致业务中断3 应急预案启动的管理决策流程应急预案的启动需经历“信息收集故障判断故障定位或处理升级上报启动预案”四个阶段。当故障发生后,维护责任人及时收集汇总相关信息;经过维护小组组长判断即可确认故障的范围、种类、性质、等级或恢复难度及所需资源;为准确而快速的定位,提高故障处理的时效,避免因盲目操作设备而导致故障扩大化等人为事故,部门经理可对故障或处理措施提出指导性意见。故障发生后5分钟内仍未恢复,维护责任人必须升级上报部门经理,联系方式附后(包括特殊情况下的越级上报);故障发生10分钟后仍未恢复的情况下,经部门经理同意,维护责任人可以启动应急预案。4 故障场景4.1 计费模块4.1.1 主机硬件故障4.1.1.1 数据库主机场景1IBSJFDB1主机故障现象1:IBSJFDB1主机宕机不可用。IBSJFDB1与IBSJFDB2主机为内存库主备模式,IBSJFDB2主机为主,IBSJFDB1主机为备用主机,内存库同步中断。处理方法:1. 当IBSJFDB1主机故障宕机不可用,将IBSJFDB1主机HA切换到IBSJFDB2主机a) IBSJFDB1主机HA切换至IBSJFDB2主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车b) 在IBSJFDB2主机上查看serverip(132.77.116.52)是否切换在IBSJFDB2主机上执行netstat i 命令查看地址是否已切换2. 上报维护组长,进行维修3. 维修完后,内存库重新同步现象2:内存库运行会产生大量的日志文件,当Alti所使用的文件磁盘目录满或者损坏时,内存库同步中断。处理方法:1、 查看alti所使用的文件系统状态执行df g|grep altibase命令2、 当日志文件满时,通知计费中心处理或更改配置,当日志是不能删除时需要扩容需要扩容日志目录空间3、 查看alti所用磁盘状态执行lsvg o 命令查看ALTI_BASE1卷组是否为激活状态4、 当ALTI_BASE1卷组为不可活状态执行errpt |more 命令查看系统日志是否有磁盘硬件报错5、 当系统日志有磁盘硬件报错上报维护组长,进行维修场景2IBSJFDB2主机故障现象IBSJFDB2宕机不可用或使用磁盘损坏不可用,计费内存库不可用处理方法1. 查看alti所使用的文件系统状态执行df -g |grep alti命令查看文件系统状态2. 查看alti的使用的磁盘状态 执行 lsvg o命令查看ALTI_BASE2卷组激活状态 3. 当IBSJFDB2主机故障宕机不可用,将IBSJFDB2主机HA切换到IBSJFDB1主机c) IBSJFDB2主机HA切换至IBSJFDB1主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车d) 在IBSJFDB1主机上查看serverip(132.77.116.54)是否切换在IBSJFDB1主机上执行netstat i 命令查看地址是否已切换场景3IBSJFRAC1主机故障现象 计费RAC库实例一不可用,IBSJFRAC1主机宕机不可用,IBSJFRAC2主机业务支撑生产处理方法1. 查看ibsbill1实例监听进程 执行ps -ef|grep LISTENER 命令查看监听进程 用IBSJFDB用户执行 lsnrctl status LISTENER 命令查看监听状态2. 如监听状态异常或不存在重启监听用IBSJFDB用户执行 lsnrctl start LISTENER 命令启动实例监听3. 查看ibsbill1实例数据库后前进程执行ps -ef|grep ora_ 命令查看实例后台进程用IBSJFDB用户登录到sqlplus执行以下命令, 查看实例启动状态SQL select instance_name,status from v$instance;4. 如数据状态异常或未启动用IBSJFDB用户登录到sqlplus执行以下命令, 关闭数据库SQL shutdown immediate用IBSJFDB用户登录到sqlplus执行以下命令,启动数据库SQL startup5. 查看Oracle数据库后台日志Cd到 /IBSJFDB/admin/ibsbill/bdump 目录查看alert_ibsbill1.log文件6. IBSJFRAC1主机宕机不可用时,ibsbill1实例不可用,所有业务在IBSJFRAC2主机 ibsbill2实例支撑生产,上报系统维护人员修复主机并启动数据库场景4 IBSJFRAC2主机故障现象 计费RAC库实例二不可用,IBSJFRAC2主机宕机不可用,IBSJFRAC1主机业务支撑生产处理方法1. 查看ibsbill1实例监听进程 执行ps -ef|grep LISTENER 命令查看监听进程 用IBSJFDB用户执行 lsnrctl status LISTENER 命令查看监听状态2. 如监听状态异常或不存在重启监听用IBSJFDB用户执行 lsnrctl start LISTENER 命令启动实例监听3. 查看ibsbill1实例数据库后前进程执行ps -ef|grep ora_ 命令查看实例后台进程用IBSJFDB用户登录到sqlplus执行以下命令, 查看实例启动状态SQL select instance_name,status from v$instance;4. 如数据状态异常或未启动用IBSJFDB用户登录到sqlplus执行以下命令, 关闭数据库SQL shutdown immediate用IBSJFDB用户登录到sqlplus执行以下命令,启动数据库SQL startup5. 查看Oracle数据库后台日志Cd到 /IBSJFDB/admin/ibsbill/bdump 目录查看alert_ibsbill2.log文件6. IBSJFRAC2主机宕机不可用时,ibsbill2实例不可用,所有业务在IBSJFRAC1主机 ibsbill1实例支撑生产,上报系统维护人员修复主机并启动数据库4.1.1.2 中间件主机场景1IBSJFAPP1主机故障现象IBSJFAPP1主机故障宕机不可用或应用所用磁盘不可用处理方法1、 查看IBSJFAPP1主机应用卷组APPJFVG1的激活状态执行lsvg o 命令查看APPJFVG1卷组的激活状态2、 查看计费应用后台进程执行ps -ef|grep predeal 命令查看3、 当IBSJFAPP1主机故障宕机不可用,将IBSJFAPP1业务切换到IBSJFAPP2主机a) IBSJFAPP1主机HA切换至IBSJFAPP2主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车b) 在IBSJFAPP2主机上查看serverip(132.77.116.160)是否切换在IBSJFAPP2主机上执行netstat i 命令查看地址是否已切换c) 在IBSJFAPP2主机上查看APPJFVG1卷组是否切换在IBSJFAPP2主机上执行lsvg -o 命令查看地址是否已切换d) 在IBSJFAPP2主机上启动所有相关应用4、 当IBSJFAPP1主机应用所用存储磁盘不可用a) 使用备份恢复b) 将存储切换到金盏支撑生产场景2IBSJFAPP2主机故障现象IBSJFAPP2主机故障宕机不可用或应用所用磁盘不可用处理方法1、 查看IBSJFAPP2主机应用卷组APPJFVG2的激活状态执行lsvg o 命令查看APPJFVG1卷组的激活状态2、 查看计费应用后台进程执行ps -ef|grep predeal 命令查看3、 当IBSJFAPP2主机故障宕机不可用,将IBSJFAPP2业务切换到IBSJFAPP1主机a) IBSJFAPP2主机HA切换至IBSJFAPP1主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车b) 在IBSJFAPP1主机上查看serverip(132.77.116.162)是否切换在IBSJFAPP1主机上执行netstat i 命令查看地址是否已切换c) 在IBSJFAPP1主机上查看APPJFVG2卷组是否切换在IBSJFAPP1主机上执行lsvg -o 命令查看地址是否已切换d) 在IBSJFAPP11主机上启动所有相关应用4、 当IBSJFAPP2主机应用所用存储磁盘不可用a) 使用备份恢复b) 将存储切换到金盏支撑生产4.1.1.3 接口主机场景1p630_1主机故障现象p630_1主机故障宕机不可用处理方法1、 查看p630_1主机应用卷组APPVG的激活状态执行lsvg o 命令查看APPVG卷组的激活状态2、 查看主机应用后台进程执行ps -ef|grep bill 命令查看3、 当p630_1主机故障宕机不可用,将p630_1业务切换到p630_2主机a) p630_1主机HA切换至p630_2主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车b) 在p630_2主机上查看serverip(132.77.116.164)是否切换在p630_2主机上执行netstat i 命令查看地址是否已切换c) 在p630_2主机上启动所有相关应用场景2p630_2主机故障现象p630_1主机故障宕机不可用处理方法1、 查看p630_2主机应用卷组APPVG的激活状态执行lsvg o 命令查看APPVG卷组的激活状态2、 查看主机应用后台进程执行ps -ef|grep bill 命令查看3、 当p630_2主机故障宕机不可用,将p630_2业务切换到p630_1主机a) p630_2主机HA切换至p630_1主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车b) 在p630_1主机上查看serverip(132.77.116.166)是否切换在p630_1主机上执行netstat i 命令查看地址是否已切换c) 在p630_1主机上启动所有相关应用场景3CSP-1主机故障现象 CSP_1主机宕机现象包括:cspdb数据库不可用,weblogic应用不可用.altibase内存库不可用处理方法1、 查看CSP_1主机cspdb数据库卷组dbvg的激活状态执行lsvg o 命令查看dbvg卷组的激活状态2、 查看cspdb数据库监听状态执行ps -ef|grep LISTENER 命令查看监听进程用oracle用户执行 lsnrctl status LISTENER 命令查看监听状态3、 如监听异常或未启动用oracle用执行以下命令重启监听lsnrctl start LISTENER4、 查看cspdb数据库后台进程执行ps -ef|grep ora_ 命令查看数据库后台进程用oracle用户登录到sqlplus执行以下命令, 查看实例启动状态SQL select instance_name,status from v$instance;5、 如数据状态异常或未启动用IBSJFDB用户登录到sqlplus执行以下命令, 关闭数据库SQL shutdown immediate用IBSJFDB用户登录到sqlplus执行以下命令,启动数据库SQL startup6、 查看CSP_1主机altibase内存库卷组csp1altibase的激活状态执行lsvg o 命令查看csp1altibase卷组的激活状态7、 查看CSP-1主机altibase内存库后台进程执行ps ef|grep altibase 命令查看8、 当内存库异常或未启动,通知计费部门重启内存库。9、 查看CSP_1主机weblogic运行情况执行 ps -ef|grep bea 命令查看weblogic后台运行进程10、 当weblogic运行异常或不可用时,重启weblogic执行以下命令重启weblogiccd /app/bea/user_projects/domains/cspdomainnohup ./startWebLogic.sh &11、 当CSP_1主机故障宕机不可用,将CSP_1业务切换到CSP_2主机a) CSP_1主机HA切换至CSP_2主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车b) 在CSP_2主机上查看serverip(132.77.116.152)是否切换在CSP_2主机上执行netstat i 命令查看地址是否已切换c) 在CSP_2主机上查看Weblogic是否启动-第9-10步d) 在CSP_2主机上查看cspdb数据库是否启动-每1-5步场景4CSP-2主机故障现象 CSP_2主机宕机现象为CSP_2主机altibase内存库不可用处理方法2、 查看CSP_2主机altibase内存库卷组csp1altibase的激活状态执行lsvg o 命令查看csp2altibase卷组的激活状态3、 查看CSP-1主机altibase内存库后台进程执行ps ef|grep altibase 命令查看4、 当内存库异常或未启动,通知计费部门重启内存库。5、 当CSP_2主机故障宕机不可用,将CSP_2业务切换到CSP_1主机a) CSP_2主机HA切换至CSP_1主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车b) 在CSP_1主机上查看serverip(132.77.116.154)是否切换在CSP_1主机上执行netstat i 命令查看地址是否已切换4.1.2 数据库故障场景1oracle数据库类故障Oracle 进程CPU 占用率过高现象执行topas 或top 命令显示,Oracle 进程的CPU 占用率过高,导致业务办理响应很慢。处理方法紧急处理时要注意如下3 点:n 收集信息后查找出现问题的 SQL 语句;n 可能 SQL 语句没有用到索引,或索引损坏存在性能问题;n 需要关注有没有其它外部应用程序访问 Oracle。步骤 1 使用如下命令查看有没有占用CPU 过高的Oracle 进程。如果有,记录占用CPU 过高的Oracle 进程的PID。#topas步骤 2 如果有CPU 利用率过高的进程,使用如下命令,键入要查询的PID,获取该Oracle 进程处理的相关SQL 语句。SQLselect sql_textfrom v$sqltext awhere (a.hash_value, a.address) in(select decode(sql_hash_value, 0, prev_hash_value, sql_hash_value),decode(sql_hash_value, 0, prev_sql_addr, sql_address)from v$session bwhere b.paddr=(select addr from v$process c where c.spid=&pid)order by piece asc;步骤 3 查询该进程相关信息。SQLselect sid,username,command,status,osuser,process,program,paddr from v$session where PADDR in (Select addr from v$process where spid=&pid);步骤 4 如果使用topas 命令,发现Oracle 进程整体占用了大量CPU 资源,此时需要查询如下视图信息。1. 查看 v$session 视图,查看访问Oracle 的进程,和连接数有无异常。SQLselect SID,PROCESS,USERNAME,OSUSER,PROGRAM from v$session;如果有其它未知的外部应用程序,用如下命令删除,该sid 和serial#取v$session 中未知应用程序对应的数值。SQLalter system kill session sid, serial#;2. 查看 v$session_wait 视图,查看当前主要存在的等待事件,分析可能影响性能的非空闲等待事件。SQLselect sid,seq#,event,wait_time,seconds_in_wait,state,p1,p2,p3 from V$SESSION_WAIT ;等待事件的参数含义可以查看Oracle 帮助,也可以通过查询视图v$event_name 获得,使用如下语句,输入需要查询的事件名称(例如:db file scattered read)。SQLselect NAME,PARAMETER1, PARAMETER2, PARAMETER3 from v$event_name where NAME=&EventName;如过存在大量非空闲等待事件,再跟据可能影响性能的等待事件的SID,尝试捕获可能引起性能问题的SQL 语句,观察有无全表扫描等耗时的操作。SQLselect sql_text from v$sqltext a where a.hash_value in (select SQL_HASH_VALUE from v$session where sid=&SID);取查询处理结果,反馈CollectData 收集到的信息给支持人员。ORA-1652ORA-1655 错误现象Oracle 提示ORA-1652 到ORA-1655 错误。当产生ORA-165X 错误信息时,问题可能在于特定表空间缺少可分配的空间。错误信息提供如下两个参数:l SIZEn 提示维护人员,系统没有找到Oracle 块的数量。l TABLESPACEn 提示表空间不足的地方。Oracle 总是尽量分配连续空间。尽管有时表空间可能有足够的可分配空间,但如果这些空间是不连续的,错误仍将发生。处理方法增加Oracle 表空间的数据文件。步骤 1 查看数据表空间的使用情况。SQLselect d.tablespace_name,space sum_space(m),blocks sum_blocks,spacenvl(free_space,0) used_space(m),round(1-nvl(free_space,0)/space)*100,2) used_rate(%),free_spacefree_space(m)from (select tablespace_name,round(sum(bytes)/(1024*1024),2) space,sum(blocks)blocksfrom dba_data_files group by tablespace_name) d,(select tablespace_name,round(sum(bytes)/(1024*1024),2) free_spacefrom dba_free_space group by tablespace_name) f where d.tablespace_name =f.tablespace_name(+)union all -if have tempfileselect d.tablespace_name,space sum_space(m),blocks sum_blocks,used_space used_space(m),round(nvl(used_space,0)/space*100,2) used_rate(%),nvl(free_space,0) free_space(m) from(select tablespace_name,round(sum(bytes)/(1024*1024),2) space,sum(blocks) blocksfrom dba_temp_files group by tablespace_name) d,(select tablespace_name,round(sum(bytes_used)/(1024*1024),2) used_space,round(sum(bytes_free)/(1024*1024),2) free_spacefrom v$temp_space_header group by tablespace_name) fwhere d.tablespace_name = f.tablespace_name(+) ;步骤 2 增加数据文件。请务必确保命令正确性,在RAC 方式下,注意创建表空间的位置。如果是 temp 段的tablespace,请执行如下命令。alter tablespace temp add tempfile 设备名 size 增加的大小;例如:su oracle$sqlplus /as sysdbaSQLalter tablespace temp add tempfile /dev/vx/rdsk/datadg/lvtemp2_1024 size1000M;如果是其它段的 tablespace,请执行如下命令。alter tablespace tablespace 名 add datafile 设备名 size 增加的大小ORA-01102 错误现象Oracle 提示ORA-01102 错误。该错误为:cannot mount database in EXCLUSIVE mode。一般是由于数据库非正常关闭所引起的,或是由于某些异常导致Oracle 在操作系统中残留一些内存结构,Pmon 等几个进程依然存在等原因使Oracle 误认为Instance依然在运行着,所以数据库就没有启动。处理方法删除残余文件,共享内存和信号量,手工杀掉残留的进程。步骤 1 查看lk 和 sgadef.dbf这两个文件是否存在。$cd $ORACLE_HOME/dbs$ls -l sgadef.dbf lk如果存在,将其删除。$rm sgadef.db lk步骤 2 查看后台进程是否存在。$ps -ef | grep ora_ | grep $ORACLE_SID如果有pmon 这些后台进程存在,使用kill -9 命令杀掉进程。$kill -9 pid步骤 3 查看Oracle 的共享内存段及信号量(semaphores)是否存在。使用ipcs 命令查看owner 是oracle 的共享内存段及信号量id$ipcs停止共享内存段命令:$ipcrm -m 停止信号量命令:$ipcrm -s ORA-04031 错误现象Oracle 提示ORA-04031 错误错误,请参见如下说明。unable to allocate %s bytes of shared memory处理方法增加共享池(shared pool)的大小。步骤 1 执行以下命令查看shared_pool_size 和shared_pool_reserved_size 参数的值。SQL show parameter shared_pool shared_pool_size shared_pool_reserved_size发生ORA-04031 错误时可以考虑增加以上参数的值,特别是shared_pool_size。请注意参考安装手册中该参数的取值范围。如果shared_pool_size 参数值已经很大(大于350M),那ORA-4031 错误发生的原因很可能是因为Oracle 数据库的BUG 或是应用程序未能很好的使用绑定变量(bindvariable)。这时应给数据库打最新的patch 或调整应用程序(尽可能多的使用绑定变量),而单纯增加shared_pool 的大小一般无法解决问题。步骤 2 修改参数值。如果确定需要增加shard_pool_size,可以用alter 命令进行修改:SQL alter system set shared_pool_size=SharePool 大小(Byte) scope=both;ORA-600 错误现象Oracle 内部错误,它会在警告日志和跟踪文件中记录错误信息ORA-600,通常数据库还会生成一个core 文件或trace 文件。处理方法ORA-600 是在基本的正常检查失败时,由Oracle 内核产生的一种内部错误。显示ORA-600 错误时通常后面带有一组方括号括起来的参数(argument)。根据实际的内部错误,这些参数代表不同的事件。此外,Oracle 版本不同,这些参数代表的事件也不同。但是并没有专门文档对此进行说明,通常只能要求Oracle 技术支持部的资深分析员进行解释。执行oerr ora 00600 命令后,系统显示ORA-600 错误的详细信息:$oerr ora 0060000600, 00000, internal error code, arguments: %s, %s, %s, %s, %s, %s,%s, %s/ *Cause: This is the generic internal error number for Oracle program/ exceptions. This indicated that a process encountered an/ exceptional condition./ *Action: Report as a bug - the first argument is the internal error number.及时收集Oracle 系统信息,查看是否可能有硬件故障发生,提交错误信息给相关Oracle 专家。ORA-12541:TNS:没有监听器现象外围系统、客户端无法连接到数据库处理方法:查看当前数据库监听状态,lsnrctl status lisener_name(监听名)启动当前数据库监听,lsnrctl start lisener_name.4.1.3 中间件故障场景1weblgic类故障WebLogicServerHang产生的原因一般为:系统内存不足系统cpu忙系统文件描述符数目不足线程死锁JVM有GC方面的bug对于一些特定的情况可以使用truss命令跟踪系统调用来进行分析WebLogic的连接池资源不能释放现象如果在jsp中用到了WebLogic的连接池功能,并且发现连接资源不能释放时,通常的情况是应用没有施放从连接池得到连接。比如没有在finally 中释放连接,或设置了自动跳转ErrorPage 功能而忽略了出错时如何释放连接处理方法更改应用程序指定释放连接线程死锁现象原因不明的hang或是响应慢处理方法重启server, ,最根本的方法就是获取threaddump信息首先用ps找到运行weblogic的java进程的pid,然后执行kill -3 pidJVM将负责将所有java进程的状态、执行堆栈dump到其标准输出进行分析为了方便获取threaddump信息,在weblogic启动的时候,最好将其标准输出重定向到一个文件4.2 帐务模块4.2.1 主机硬件故障4.2.1.1 数据库主机场景1BCCJZ_BILL主机故障现象BCCJZ_BILL主机宕机出现帐务RAC库ibsacct1实例不可用处理方法1. 查看ibsacct1实例监听进程 执行ps -ef|grep listener 命令查看监听进程 用IBSZWDB用户执行 lsnrctl status listener_zw 命令查看监听状态2. 如监听状态异常或不存在重启监听用IBSZWDB用户执行 lsnrctl start listener_zw 命令启动实例监听3. 查看ibsacct1实例数据库进程执行ps -ef|grep ora_ 命令查看实例后台进程用IBSZWDB用户登录到sqlplus执行以下命令, 查看实例启动状态SQL select instance_name,status from v$instance;4. 如数据库状态异常或未启动用IBSZWDB用户登录到sqlplus执行以下命令, 关闭数据库SQL shutdown immediate用IBSZWDB用户登录到sqlplus执行以下命令,启动数据库SQL startup5. 查看Oracle数据库后台日志cd到 /IBSZWDB/oracle/admin/ibsacct/bdump 目录查看alert_ibsacct1.log文件6. 当BCCJZ_BILL主机故障宕机不可用,将BCCJZ_BILL主机HA切换到BCCJZ_ACCOUNT主机a) BCCJZ_BILL主机HA切换至BCCJZ_ACCOUNT主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车b) 在BCCJZ_ACCOUNT主机上查看serverip(132.77.116.22)是否切换在BCCJZ_ACCOUNT主机上执行netstat i 命令查看地址是否已切换场景2BCCJZ_ACCOUNT主机故障现象BCCJZ_ACCOUN主机宕机现象为帐务RAC库ibsacct2实例不可用处理方法1、 查看ibsacct1实例监听进程 执行ps -ef|grep listener 命令查看监听进程 用IBSZWDB用户执行 lsnrctl status listener_zw 命令查看监听状态2、 如监听状态异常或不存在重启监听用IBSZWDB用户执行 lsnrctl start listener_zw 命令启动实例监听3、 查看ibsacct2实例数据库后前进程执行ps -ef|grep ora_ 命令查看实例后台进程用IBSZWDB用户登录到sqlplus执行以下命令, 查看实例启动状态SQL select instance_name,status from v$instance;4、 如数据状态异常或未启动用IBSZWDB用户登录到sqlplus执行以下命令, 关闭数据库SQL shutdown immediate用IBSZWDB用户登录到sqlplus执行以下命令,启动数据库SQL startup5、 查看Oracle数据库后台日志cd到 /IBSZWDB/oracle/admin/ibsacct/bdump 目录查看alert_ibsacct2.log文件6、 当BCCJZ_ACCOUNT主机故障宕机不可用,将BCCJZ_ACCOUNT主机HA切换到BCCJZ_BILL主机a)、BCCJZ_ACCOUNT主机HA切换至BCCJZ_BILL主机,以root用户执行以下命令smit clstop 选择菜单Select an Action on Resource Grou
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 包车费合同范本
- 富宁商标转让合同范本
- 新入职员工通识培训考试题附答案
- 入学教育心得体会范文12篇
- 执法司法面试题目及答案
- 生态主题公园:2025年沉浸式体验设计与环境融合报告
- 历届托福考试试题及答案
- 2025年山西中小学教师招聘考试模拟试题及答案
- 2025年山西教师资格证考试真题(附答案)
- CN222961424U 一种微生物采样装置 (济南市食品药品检验检测中心(济南市药品不良反应和医疗器械不良事件监测中心))
- 2025版金融业务合同委托管理协议
- 2025年新委托施工简单协议书
- 2025年残联招聘笔试大纲解读与备考指南
- 2025年宜都市总工会公开招聘乡镇工会协理员3人考试参考题库附答案解析
- 2025年社区工作者招聘考试(公共基础知识)试题及答案
- 教研组长经验交流会上教学副校长讲话:抓关键见实效干出值当的组长工作
- 一年级开学第一课(一周常规训练)【课件】
- 2025-2026学年高一语文开学第一课
- 2025年官方兽医牧运通考试题库附参考答案详解(考试直接用)
- 2025年广西中考英语试卷+答案解析
- 设备维修过程管理课件
评论
0/150
提交评论