版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、资料编码产品名称IBM小型机使用对象产品线产品版本编写部门集成产品部资料版本V1.0RS/600小型机故障基本定位方法拟 制:日 期:审 核:日 期:审 核:日 期:批 准:日 期:华 为 技 术 有 限 公 司版权所有 侵权必究修订记录日期修订版本描述作者2005-3-28V1.0整合HACMP故障处理到文档中李静目 录第1章故障的定义1第2章故障信息的收集12.1收集故障信息对于判断诊断故障原因修复系统非常重要12.2系统故障记录(errorlog)12.3控制面板上的LED 代码32.4SMS (System Management Service) 故障记录42.5MAIL42.6运行故
2、障诊断程序(Diagnostic) 对系统硬件进行检查和诊断42.7其他用于收集系统信息的命令4第3章硬件故障定位方法73.1IPL 流程73.2系统的启动顺序:73.3系统不能启动83.4系统停在551555或55783.5CDE图形界面挂死93.6系统dump10第4章7133-D40SSA磁盘柜的故障定位11第5章软件故障定位方法125.1文件系统空间不够125.2检查文件系统的完整性135.3查看卷组信息(lsvg-lvg_name)135.4检查内存交换区(pagingspace)使用率(lsps-s)135.5小型机内存泄漏问题13第6章常用的系统状态查询命令15第7章网络故障定位
3、方法167.1网络不通的诊断过程167.2网络配置的基本方法16第8章HACMP环境下的排错168.1了解问题的存在178.2判断问题的出处17第9章附常用命令列表19关键词:故障处理 IBM AIX HACMP摘 要:缩略语清单:参考资料清单:第1章 故障的定义根据以下这些方面来考虑故障定位:弄清楚系统发生了什么问题系统现在能做什么不能做什么故障什么时候发生的有没有做平时不同的操作故障有没有规律定时还是不定时发生的频率有多高是一台机器出现故障还是多台机器故障故障现象是否相同最近有没有做改动如安装了新的硬件软件改变了系统的一些设置第2章 故障信息的收集2.1 收集故障信息对于判断诊断故障原因修
4、复系统非常重要2.2 系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory fai
5、lure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#err
6、pt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <- ERROR_ID用大小写均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <- Virtal Product D
7、ataDevice Driver Level00Diagnostic Level00Displayable MessageSCSIEC LevelC25928FRU Number30F8834ManufacturerIBM97FPart Number59F4566Serial Number00002849ROS Level and ID24Read/Write Register Ptr0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAP
8、TERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00002.3 控制面板上的LED 代码8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码4 位代码通常是Exxx3 位代码通常为0yyy 只看后3位8 位和4位代码可查看系统服务手册(Serv
9、ice Guide)3 位代码可查看系统诊断手册(Diagnostic Information for Multiple BusSystem)闪动的888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或105硬件故障一般有SRN 代码及位置代码2.4 SMS (System Management Service) 故障记录如何进入SMS 菜单当主控台出现键盘图标后(LE
10、D 显示E1F1时)按1键选择"Utilities"选择"Error Log", 抄下8位故障代码在SMS 中还可以更改系统启动顺序表2.5 MAIL#mail系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查修复系统会定时提醒root2.6 运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断当发现有硬件故障时应立即使用diag#diag> 选高级诊断Advance Diagnostic)> 选问题诊断Problem Determination) 或选系统检查System Verification)(选P
11、D 会对系统错误记录进行分析)diag运行后会给出SRN 代码故障设备名称及百分比地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析2.7 其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Dri
12、velspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs:
13、 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/Alv00 jfs 51 102 1
14、 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020devicespci23100020rte 4327 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 B
15、us interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x
16、000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD信息Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500)Part Number097H0645FRU Number097H0645 <- 备件号Serial NumberC8217227EC Level0000F20825Manufacturer
17、IBM053ROS Level and ID7201 <- 微码版本Loadable Microcode Level04Device Driver Level00Displayable MessageSSA-ADAPTERDevice Specific(Z0)DRAM=032Device Specific(Z1)CACHE=0Device Specific(Z2)000000062955dab2Device Specific(YL)P2-I7 <- 槽号不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Uni
18、t)才是真正的备件号第3章 硬件故障定位方法IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息Error Code 和SRNsCheckpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL)运行后显示在I/O柜的显示面板上一系列信息3.1 IPL 流程当交流电源接到系统后IPL流程就开始了IPL流程包括四个步骤Phase 1: Service Processor 的初始化Phase 1 开始于交流电源接到系统后直到OK显示在I/O柜上的显示面板上为止在这个步骤会显示8xxx 或9xxx checkpoints代
19、码Phase2:由ServiceProcessor引导的硬件初始化Phase2开始于按下I/O柜上的白色电源开关在这个步骤会显示9xxxcheckpoints91FF是最后的代码标志着第三步骤的开始Phase3:系统固件的初始化在Phase3,一个系统处理器接管控制并继续初始化系统资源在这个步骤会显示ExxxE105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显示各种位置码位置码代表着系统的每一个部分Phase4:AIX启动当AIX开始启动时显示面板上的代码为0xxx同时位置码会出现在第二行当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现ErrorCo
20、de当系统运行有错误发现时一个8位码会显示在显示面板上同时在第二行显示相对应问题硬件的位置码SRNsServicerequestnumbers,服务请求码当系统运行有错误发现时SRNs码会以xxx-xxx的形式显示在显示面板上同时在AIX的errorlog中也会有记载以上所有代码都会有相应的步骤解决由于代码繁多请在出现问题后记录下代码并致电IBM服务热线3.2 系统的启动顺序:3.3 系统不能启动系统停在Stage1可能为电源系统板CPU内存等硬件故障记录故障代码通知IBM工程师系统停在Stage2可能是启动顺序表(bootlist)损坏或I/O子系统故障可尝试进入SMS菜单检查启动顺序表并修
21、改若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选则链路有问题系统停在Stage3可能是硬盘数据损坏系统设置文件出错或I/O子系统故障3.4 系统停在551555或557发生在系统启动的第三阶段(Stage3)可能是文件系统损坏文件系统日志(jfslog)损坏rootvg中有坏硬盘修复方法用系统光盘或系统备份带启动必须与硬盘中的操作系统版本一致启动后选择选项3"StartMaintenanceModeforSystemRecovery">"AccessaRootVolumeGroup">
22、;"Accessthisvolumegroupandstartashellbeforemountingthefilesystems"格式化文件系统日志(jfslog)#/usr/sbin/logform/dev/hd8检查修复文件系统#fsck -y/dev/hd1/home文件系统#fsck -y/dev/hd2/usr文件系统#fsck -y/dev/hd3/tmp文件系统#fsck -y/dev/hd4/文件系统#fsck -y/dev/hd9var/var文件系统用exit命令退出文件系统会自动mount起来重建bootimage#lslv m hd5找出booti
23、mage所在的硬盘如hdisk0#bosboot ad /dev/hdisk0#bootlist m normal/dev/hdisk0重建启动顺序表重启动系统#shutdown -Fr如上述步骤不奏效用系统备份带恢复系统如备份带不能恢复用诊断光盘DiagnosticCDROM检查是否坏硬盘3.5 CDE图形界面挂死CDE运行时不要更改网络参数如主机名和IP地址更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下更改如CDE已经挂死远程telnet登录找出所有dt有关的进程用kill命令杀掉#ps -ef|grepdt#killPID检查当前主机名#hostnametscf50查看
24、主机名是否对应有效的IP地址#netstat -i|greptscf50tr0*1500918540tscf5050604902824700更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系#smittytcpip重新启动CDE界面#/etc/rcdtHACMP环境下可把主机名alias到127001上#cat /etc/hosts127001_loopbacklocalhosttscf50#loopback(lo0)name/addressbvg3.6 系统dump发生在系统崩溃时AIX会做dump(系统内存的快照)此时机器会显示闪动的888102xxx0cx代码0c9系统dump
25、进行中0c9状态可能会维持超过2分钟不要关电和按reset,等待dump做完0c0dump成功完成这时可以断电重起0c2手动启动dump功能0c4dump设备空间不足只有部分信息保存下来0c5不明原因导致dump失败一般dump是由于软件出错引起(888-102-207除外)机器通常可以重启重启时可能提示用户插入磁带拷贝dump文件不要选择退出这样会丢失重要的故障信息dump的有关设置估算系统dump的大小在系统最繁忙时内存使用最多#sysdumpdev -e0453-041Estimateddumpsizeinbytes:53477376#lsps -aPageSpacePhysicalVo
26、lumeVolumeGroupSize%UsedActivepaging00hdisk0rootvg480MB1yeshd6hdisk1rootvg544MB1yes当前的设置#sysdumpdev -lprimary /dev/hd6<-dump的主设备secondary /dev/sysdumpnullcopydirectory /var/adm/ras<-dump拷贝的目录forced copy flag TRUEalways allow dump TRUEhd6应比估算值稍大/var/adm/ras是默认的dump拷贝目录比较估算值保证/var文件系统有足够的剩余空间拷贝d
27、ump文件否则机器重起时会提示用户插入磁带dump文件名为vmcore#对PCI机型如要手动做dump须把"alwaysallowdump"先设成true#sysdumpdev -Kdump打包#snap a -o/dev/rmt#或#snap a -c把/tmp/ibmsupt目录做成一个压缩文件snaptarZ如果/tmp文件系统空间不够可用-ddirectory参数指定别的目录代替/tmp/ibmsupt第4章 7133-D40SSA磁盘柜的故障定位当SSA磁盘柜出现故障时在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动在AIX的errorlo
28、g中也会有记载错误信息如DISK_ERR1DISK_ERR4SSA_ARRAY_ERROR等请在出现问题后记录下代码并致电IBM服务热线第5章 软件故障定位方法软件故障情况错综复杂下面列举几个常见案例的故障处理方法5.1 文件系统空间不够查看有没有_满_的文件系统特别是/var/tmp不要超过90%文件系统满可导致系统不能正常工作尤其是AIX的基本文件系统如/(根文件系统)满则会导致用户不能登录用df_k查看#df -k(查看AIX的基本文件系统)Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd424576145295%2599
29、22%/dev/hd9var8192454045%64932%/var除/usr文件系统其他文件系统都不应太满一般不超过80%处理方法1删除垃圾文件#du -sk*|sort -rn|head查找出当前目录下占空间最大的子目录逐层往下直到找出占空间最大的文件要区分哪些目录是文件系统的mountpoint哪些是文件系统的子目录删除文件释放空间有时删除文件后空间并不马上释放这是由于你删除的文件正被某个程序打开只有当这个程序停止后空间才释放有时甚至需要重起系统处理方法2增加文件系统大小#smitty chjfs文件系统可以在任何时候加大前提是卷组(VG)中有剩余空间5.2 检查文件系统的完整性#um
30、ount filesystem_name#fsck y filesystem_name注意文件系统必须先umount再做检查和修复否则可导致未知的后果5.3 查看卷组信息(lsvg-lvg_name)有没有"stale"状态的逻辑卷若有用syncvg命令修复"stale"逻辑卷5.4 检查内存交换区(pagingspace)使用率(lsps-s)使用率是否超过70%若有则用chps_sXpgname增加X个PP或用mkps a -n-sX myvg在myvg上增加一个PP数为X的内存交换区5.5 小型机内存泄漏问题小型机出现内存泄漏即系统或应用进程无法将
31、使用过的内存释放使可用内存的容量逐渐减少如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程就会造成系统瘫痪通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势(a) ps#psgv|head-n1;psgv|egrep-v"RSS"|sort+6b-7-n-r|head-n5PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND2064-A2:135646448xx063920040kproc1806-A0:200166408xx063920040kprocS
32、IZE virtual size(in the paging space),in kilobytes,RSS real-memory (resident set) size in kilobytes of the process通过不同时间输出的比较就能观察出内存和CPU占用率的基本情况找出其中占用内存数不断变大的进程这个进程可能就已经发生了内存泄漏(b)sar指令也可以查看CPU占用率但统计的结果不是很准确通常使用sar令的格式为#sar P ALL 2 1009:29:37cpu%usr%sys%wio%idle09:29:39000495110495-0049509:29:4100269
33、2134291-2349209:29:43031294122295-2129409:29:45022790145686-3368809:29:47011296112296-1129609:29:490000100101099-00010009:29:51020098101098-1009809:29:53071686122590-5258809:29:55045563511225532-84553309:29:570168146411591165-1581264Average0321085143885-42985表示2秒钟输出一次结果总共有10次结果然后平均目前如果发现内存泄漏最好重新启动系统
34、第6章 常用的系统状态查询命令#lsdev C -sscsi列出各个SCSI设备的所有相关信息如逻辑单元号硬件地址及设备文件名等#ps -ef列出正在运行的所有进程的各种信息如进程号及进程名等#netstat -rn列出网卡状态及路由信息等#netstat -in列出网卡状态及网络配置信息#df -k列出已加载的逻辑卷及其大小信息#mount列出已加载的逻辑卷及其加载位置#uname -a列出系统ID号系统名称OS版本等信息#hostname列出系统网络名称#lsvg l rootvg, lsvg p rootvg显示逻辑卷组信息如包含哪些物理盘及逻辑卷等#lslv -l datalv,lsl
35、v -p datalv显示逻辑卷各种信息如包含哪些盘是否有镜像等第7章 网络故障定位方法7.1 网络不通的诊断过程ifconfig查看网卡是否启动(up)netstat i查看网卡状态Ierrs/Ipkts和Oerrs/Opkts是否>1%ping自己网卡地址(ip地址)ping其它机器地址如不通在其机器上用diag检测网卡是否有问题在同一网中subnet mask应一致7.2 网络配置的基本方法(1)如需修改网络地址主机名等一定要用chdev命令#chdev -l inet0 a hostname=myhost#chdev l en0 a netaddr='9324058
36、9; a netmask=2552552550_(2)查看网卡状态#lsdev Cc if(3)确认网络地址#ifconfig en0(4)启动网卡#ifconfige n0 up(5)_配置路由有两种方式加入路由永久路由#chdev l inet0 a route=_104700_,_9324059_临时路由#route add 1047129324059用命令netstat -rn查看路由表第8章 HACMP环境下的排错在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作一般地,
37、HACMP环境下的排错包括:了解问题的存在判断问题的出处解决问题8.1 了解问题的存在您可以通过以下途径了解到一个CLUSTER环境下出现了问题最终用户的投诉,他们无法访问应用程序控制台上出现一些HACMP的信息应用服务无法访问最终用户的抱怨通常预示CLUSTER出现了问题他们无法正常执行应用或是无法登录到系统我们必须采集到详细的信息以判断到底那里出现了问题是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始您也可以在自己的系统上重复要知道用户应用不可用并不代表HACMP有问题问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题因此应用程序本身的排错也应是HA排错的一部分2控制台上出现一些HACMP的信息在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也会写入相应的文件中8.2 判断问题的出处当错误出现时,我们应尝试发现错误的所在但我们常常被错误的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《电磁场与电磁波理论与仿真》-第1章
- 《单片机》-第9章 C51程序设计入门
- 《建筑工程资料管理概论》-第三章
- 《孔雀东南飞》统编版高二语文选择性必修下
- 农民合作社运营要落实财务规范安全防范措施
- 房屋建筑行业现状与发展趋势
- 2025年能源操作岗招聘笔试试题及答案
- 酒店员工绩效奖励制度方案
- 2026年江铜集团法务风控部春季校园招聘1人考试备考试题及答案解析
- 2026云南曲靖二中兴教中学招聘专职心理健康教师2人考试参考题库及答案解析
- 2026广西钦州市公安局面向社会招聘警务辅助人员158人考试备考题库及答案解析
- 2026杭州市临安区机关事业单位编外招聘56人笔试模拟试题及答案解析
- 提高肿瘤治疗前TNM分期评估率
- 2025年四川省绵阳市中考英语真题
- 荨麻疹的定义、分类、诊断及管理国际指南(2026)解读课件
- 2026中证数据校园招聘备考题库(含答案详解)
- 域虎7汽车使用说明书
- LY/T 2986-2018流动沙地沙障设置技术规程
- 发展经济学 马工程课件 3.第三章 中国特色社会主义经济发展理论
- GB/T 28202-2020家具工业术语
- GB/T 12672-2009丙烯腈-丁二烯-苯乙烯(ABS)树脂
评论
0/150
提交评论