版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、资料编码产品名称IBM小型机使用对象产品版本编写部门资料版本P55A小型机故障基本定位方法拟 制:日 期:审 核:日 期:审 核:日 期:批 准:日 期:版权所有 侵权必究修订记录日期修订版本描述作者目 录第1章 故障的定义 1第2章 故障信息的收集 12.1 收集故障信息对于判断诊断故障原因修复系统非常重要 12.2 系统故障记录(errorlog 12.3 控制面板上的LED 代码 32.4 SMS (System Management Service 故障记录 42.5 MAIL 42.6 运行故障诊断程序(Diagnostic 对系统硬件进行检查和诊断 42.7 其他用于收集系统信息的
2、命令 4第3章 硬件故障定位方法 73.1 IPL 流程 73.2 系统的启动顺序: 73.3 系统不能启动 83.4 系统停在551555或557 83.5 CDE图形界面挂死 93.6 系统dump 10第4章 7133-D40SSA磁盘柜的故障定位 11第5章 软件故障定位方法 125.1 文件系统空间不够 125.2 检查文件系统的完整性 135.3 查看卷组信息(lsvg-lvg_name 135.4 检查内存交换区(pagingspace使用率(lsps-s 135.5 小型机内存泄漏问题 13第6章 常用的系统状态查询命令 15第7章 网络故障定位方法 167.1 网络不通的诊断
3、过程 167.2 网络配置的基本方法 16第8章 HACMP环境下的排错 168.1 了解问题的存在 178.2 判断问题的出处 17第9章 附常用命令列表 19关键词:故障处理 IBM AIX HACMP摘 要:缩略语清单:参考资料清单:第1章 故障的定义根据以下这些方面来考虑故障定位:弄清楚系统发生了什么问题系统现在能做什么不能做什么故障什么时候发生的有没有做平时不同的操作故障有没有规律定时还是不定时发生的频率有多高是一台机器出现故障还是多台机器故障故障现象是否相同最近有没有做改动如安装了新的硬件软件改变了系统的一些设置第2章 故障信息的收集2.1 收集故障信息对于判断诊断故障原因修复系统
4、非常重要2.2 系统故障记录(errorlogerrdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9
5、DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -a
6、j ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <- ERROR_ID用大小写均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <- Virtal Product DataDe
7、vice Driver Level00Diagnostic Level00Displayable MessageSCSIEC LevelC25928FRU Number30F8834ManufacturerIBM97FPart Number59F4566Serial Number00002849ROS Level and ID24Read/Write Register Ptr0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCA
8、BLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00002.3 控制面板上的LED 代码8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码4 位代码通常是Exxx3 位代码通常为0yyy 只看后3位8 位和4位代码可查看系统服务手册(Service G
9、uide3 位代码可查看系统诊断手册(Diagnostic Information for Multiple BusSystem闪动的888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或105硬件故障一般有SRN 代码及位置代码2.4 SMS (System Management Service 故障记录如何进入SMS 菜单当主控台出现键盘图标后(LED 显示E1F1
10、时按1键选择"Utilities"选择"Error Log", 抄下8位故障代码在SMS 中还可以更改系统启动顺序表2.5 MAIL#mail系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查修复系统会定时提醒root2.6 运行故障诊断程序(Diagnostic 对系统硬件进行检查和诊断当发现有硬件故障时应立即使用diag#diag> 选高级诊断Advance Diagnostic> 选问题诊断Problem Determination 或选系统检查System Verification(选PD 会对系统错误记录进行分
11、析diag运行后会给出SRN 代码故障设备名称及百分比地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析2.7 其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息
12、#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(sVG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes
13、LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/Alv00 jfs 51 102 1 closed/stale /i
14、bmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020devicespci23100020rte 4327 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt lev
15、el Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALT
16、ERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD信息Virtual Product Data# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500Part Number097H0645FRU Number097H0645 <- 备件号Serial NumberC8217227EC Level0000F20825ManufacturerIBM053ROS Level an
17、d ID7201 <- 微码版本Loadable Microcode Level04Device Driver Level00Displayable MessageSSA-ADAPTERDevice Specific(Z0DRAM=032Device Specific(Z1CACHE=0Device Specific(Z2000000062955dab2Device Specific(YLP2-I7 <- 槽号不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Unit才是真正的备件号第1章 硬件故障定位方法I
18、BM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息Error Code 和SRNsCheckpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL运行后显示在I/O柜的显示面板上一系列信息1.1 IPL 流程当交流电源接到系统后IPL流程就开始了IPL流程包括四个步骤Phase 1: Service Processor 的初始化Phase 1 开始于交流电源接到系统后直到OK显示在I/O柜上的显示面板上为止在这个步骤会显示8xxx 或9xxx checkpoints代码Phase2:由ServiceProcesso
19、r引导的硬件初始化Phase2开始于按下I/O柜上的白色电源开关在这个步骤会显示9xxxcheckpoints91FF是最后的代码标志着第三步骤的开始Phase3:系统固件的初始化在Phase3,一个系统处理器接管控制并继续初始化系统资源在这个步骤会显示ExxxE105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显示各种位置码位置码代表着系统的每一个部分Phase4:AIX启动当AIX开始启动时显示面板上的代码为0xxx同时位置码会出现在第二行当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现ErrorCode当系统运行有错误发现时一个8位码会显示在显示
20、面板上同时在第二行显示相对应问题硬件的位置码SRNsServicerequestnumbers,服务请求码当系统运行有错误发现时SRNs码会以xxx-xxx的形式显示在显示面板上同时在AIX的errorlog中也会有记载以上所有代码都会有相应的步骤解决由于代码繁多请在出现问题后记录下代码并致电IBM服务热线1.2 系统的启动顺序:1.3 系统不能启动系统停在Stage1可能为电源系统板CPU内存等硬件故障记录故障代码通知IBM工程师系统停在Stage2可能是启动顺序表(bootlist损坏或I/O子系统故障可尝试进入SMS菜单检查启动顺序表并修改若在选择bootlist时没有硬盘设备可选或显示
21、的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选则链路有问题系统停在Stage3可能是硬盘数据损坏系统设置文件出错或I/O子系统故障1.4 系统停在551555或557发生在系统启动的第三阶段(Stage3可能是文件系统损坏文件系统日志(jfslog损坏rootvg中有坏硬盘修复方法用系统光盘或系统备份带启动必须与硬盘中的操作系统版本一致启动后选择选项3"StartMaintenanceModeforSystemRecovery">"AccessaRootVolumeGroup">"Accessthisvolumegrou
22、pandstartashellbeforemountingthefilesystems"格式化文件系统日志(jfslog#/usr/sbin/logform/dev/hd8检查修复文件系统#fsck -y/dev/hd1/home文件系统#fsck -y/dev/hd2/usr文件系统#fsck -y/dev/hd3/tmp文件系统#fsck -y/dev/hd4/文件系统#fsck -y/dev/hd9var/var文件系统用exit命令退出文件系统会自动mount起来重建bootimage#lslv m hd5找出bootimage所在的硬盘如hdisk0#bosboot ad
23、/dev/hdisk0#bootlist m normal/dev/hdisk0重建启动顺序表重启动系统#shutdown -Fr如上述步骤不奏效用系统备份带恢复系统如备份带不能恢复用诊断光盘DiagnosticCDROM检查是否坏硬盘1.5 CDE图形界面挂死CDE运行时不要更改网络参数如主机名和IP地址更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下更改如CDE已经挂死远程telnet登录找出所有dt有关的进程用kill命令杀掉#ps -ef|grepdt#killPID检查当前主机名#hostnametscf50查看主机名是否对应有效的IP地址#netstat -i|gr
24、eptscf50tr0*1500918540tscf5050604902824700更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系#smittytcpip重新启动CDE界面#/etc/rcdtHACMP环境下可把主机名alias到127001上#cat /etc/hosts127001_loopbacklocalhosttscf50#loopback(lo0name/addressbvg1.6 系统dump发生在系统崩溃时AIX会做dump(系统内存的快照此时机器会显示闪动的888102xxx0cx代码0c9系统dump进行中0c9状态可能会维持超过2分钟不要关电和按reset,
25、等待dump做完0c0dump成功完成这时可以断电重起0c2手动启动dump功能0c4dump设备空间不足只有部分信息保存下来0c5不明原因导致dump失败一般dump是由于软件出错引起(888-102-207除外机器通常可以重启重启时可能提示用户插入磁带拷贝dump文件不要选择退出这样会丢失重要的故障信息dump的有关设置估算系统dump的大小在系统最繁忙时内存使用最多#sysdumpdev -e0453-041Estimateddumpsizeinbytes:53477376#lsps -aPageSpacePhysicalVolumeVolumeGroupSize%UsedActivep
26、aging00hdisk0rootvg480MB1yeshd6hdisk1rootvg544MB1yes当前的设置#sysdumpdev -lprimary /dev/hd6<-dump的主设备secondary /dev/sysdumpnullcopydirectory /var/adm/ras<-dump拷贝的目录forced copy flag TRUEalways allow dump TRUEhd6应比估算值稍大/var/adm/ras是默认的dump拷贝目录比较估算值保证/var文件系统有足够的剩余空间拷贝dump文件否则机器重起时会提示用户插入磁带dump文件名为vm
27、core#对PCI机型如要手动做dump须把"alwaysallowdump"先设成true#sysdumpdev -Kdump打包#snap a -o/dev/rmt#或#snap a -c把/tmp/ibmsupt目录做成一个压缩文件snaptarZ如果/tmp文件系统空间不够可用-ddirectory参数指定别的目录代替/tmp/ibmsupt第1章 7133-D40SSA磁盘柜的故障定位当SSA磁盘柜出现故障时在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动在AIX的errorlog中也会有记载错误信息如DISK_ERR1DISK_ERR4S
28、SA_ARRAY_ERROR等请在出现问题后记录下代码并致电IBM服务热线第2章 软件故障定位方法软件故障情况错综复杂下面列举几个常见案例的故障处理方法2.1 文件系统空间不够查看有没有_满_的文件系统特别是/var/tmp不要超过90%文件系统满可导致系统不能正常工作尤其是AIX的基本文件系统如/(根文件系统满则会导致用户不能登录用df_k查看#df -k(查看AIX的基本文件系统Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd424576145295%259922%/dev/hd26144002806896%2296715%
29、/usr/dev/hd9var8192454045%64932%/var/dev/hd31679361579686%891%/tmp/dev/hd116384533268%140235%/home除/usr文件系统其他文件系统都不应太满一般不超过80%处理方法1删除垃圾文件#du -sk*|sort -rn|head查找出当前目录下占空间最大的子目录逐层往下直到找出占空间最大的文件要区分哪些目录是文件系统的mountpoint哪些是文件系统的子目录删除文件释放空间有时删除文件后空间并不马上释放这是由于你删除的文件正被某个程序打开只有当这个程序停止后空间才释放有时甚至需要重起系统处理方法2增加文
30、件系统大小#smitty chjfs文件系统可以在任何时候加大前提是卷组(VG中有剩余空间2.2 检查文件系统的完整性#umount filesystem_name#fsck y filesystem_name注意文件系统必须先umount再做检查和修复否则可导致未知的后果2.3 查看卷组信息(lsvg-lvg_name有没有"stale"状态的逻辑卷若有用syncvg命令修复"stale"逻辑卷2.4 检查内存交换区(pagingspace使用率(lsps-s使用率是否超过70%若有则用chps_sXpgname增加X个PP或用mkps a -n-sX
31、 myvg在myvg上增加一个PP数为X的内存交换区2.5 小型机内存泄漏问题小型机出现内存泄漏即系统或应用进程无法将使用过的内存释放使可用内存的容量逐渐减少如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程就会造成系统瘫痪通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势(a ps#psgv|head-n1;psgv|egrep-v"RSS"|sort+6b-7-n-r|head-n5PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND15674pts/
32、11A0:01036108361723276852406240/tctestp22742pts/11A0:00020748208123276852400140/backups10256pts/1A0:00015628156923276852400110/tctestp2064-A2:135646448xx063920040kproc1806-A0:200166408xx063920040kprocSIZE virtual size(in the paging space,in kilobytes,RSS real-memory (resident set size in kilobytes o
33、f the process通过不同时间输出的比较就能观察出内存和CPU占用率的基本情况找出其中占用内存数不断变大的进程这个进程可能就已经发生了内存泄漏(bsar指令也可以查看CPU占用率但统计的结果不是很准确通常使用sar令的格式为#sar P ALL 2 1009:29:37cpu%usr%sys%wio%idle09:29:39000495110495-0049509:29:41002692134291-2349209:29:43031294122295-2129409:29:45022790145686-3368809:29:47011296112296-1129609:29:49000
34、0100101099-00010009:29:51020098101098-1009809:29:53071686122590-5258809:29:55045563511225532-84553309:29:570168146411591165-1581264Average0321085143885-42985表示2秒钟输出一次结果总共有10次结果然后平均目前如果发现内存泄漏最好重新启动系统第3章 常用的系统状态查询命令#lsdev C -sscsi列出各个SCSI设备的所有相关信息如逻辑单元号硬件地址及设备文件名等#ps -ef列出正在运行的所有进程的各种信息如进程号及进程名等#netst
35、at -rn列出网卡状态及路由信息等#netstat -in列出网卡状态及网络配置信息#df -k列出已加载的逻辑卷及其大小信息#mount列出已加载的逻辑卷及其加载位置#uname -a列出系统ID号系统名称OS版本等信息#hostname列出系统网络名称#lsvg l rootvg, lsvg p rootvg显示逻辑卷组信息如包含哪些物理盘及逻辑卷等#lslv -l datalv,lslv -p datalv显示逻辑卷各种信息如包含哪些盘是否有镜像等第4章 网络故障定位方法4.1 网络不通的诊断过程ifconfig查看网卡是否启动(upnetstat i查看网卡状态Ierrs/Ipkts
36、和Oerrs/Opkts是否>1%ping自己网卡地址(ip地址ping其它机器地址如不通在其机器上用diag检测网卡是否有问题在同一网中subnet mask应一致4.2 网络配置的基本方法(1如需修改网络地址主机名等一定要用chdev命令#chdev -l inet0 a hostname=myhost#chdev l en0 a netaddr='9324058' a netmask=2552552550_(2查看网卡状态#lsdev Cc if(3确认网络地址#ifconfig en0(4启动网卡#ifconfige n0 up(5_配置路由有两种方式加入路由永久
37、路由#chdev l inet0-aroute=_104700_,_9324059_临时路由#route add 1047129324059用命令netstat -rn查看路由表第5章 HACMP环境下的排错在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作一般地,HACMP环境下的排错包括:了解问题的存在判断问题的出处解决问题5.1 了解问题的存在您可以通过以下途径了解到一个CLUSTER环境下出现了问题最终用户的投诉,他们无法访问应用程序控制台上出现一些HACMP的信息应用服务无法访问最终用户的抱怨通常预示CLUSTER出现了问题他们无法正常执行应用或是无法登录到系统我们必须采集到详细的信息以判断到底那里出现了问题是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始您也可以在自己的系统上重复要知道用户应用不可用并不代表HACMP有问题问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题因此应用程序本身的排错也应是HA排错的一部分2控制台上出现一些HACMP的信息在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也会写入相应的文件中5.2 判断
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年初级经济师之初级经济师基础知识考试题库300道及完整答案【夺冠】
- 2025广东云浮市郁南县人民法院招聘劳动合同制审判辅助人员4人(公共基础知识)综合能力测试题附答案解析
- 2026年二级建造师之二建公路工程实务考试题库500道完整参考答案
- 超星尔雅学习通《形势与政策(2025春)》章节测试含答案【b卷】
- 铝业集团冶炼工程师考核标准
- 2024年桂林旅游学院马克思主义基本原理概论期末考试题带答案
- 2026山东环保发展集团招聘面试题及答案
- 举行展示的合同范本
- 网络教育平台讲师认证题库
- 2026内蒙古水务投资集团招聘面试题及答案
- 做账实操-洗浴业会计分录
- 2025年人教版新教材数学二年级上册期末复习计划
- (正式版)DB65∕T 4069-2020 《建筑消防设施维护及保养技术规范》
- 一例肋骨骨折患者护理个案
- 《嵌入式实验与实践教程-基于STM32与Proteus》课件-第六章
- 计算与人工智能概论(湖南大学信息科学与工程学院)学习通网课章节测试答案
- 《牛虻》读书分享演讲稿模版
- 2025年吉林省直机关公开遴选公务员笔试题参考解析
- 血氧检测知识培训课件
- 2024海康威视小AI助手APP用户手册
- 档案室消防知识培训课件
评论
0/150
提交评论