(零收费)AIX系统日常维护与故障的解决_第1页
(零收费)AIX系统日常维护与故障的解决_第2页
(零收费)AIX系统日常维护与故障的解决_第3页
(零收费)AIX系统日常维护与故障的解决_第4页
(零收费)AIX系统日常维护与故障的解决_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IBM Systems & Technology Group 2006 IBM CorporationAIXAIX 日常日常维护与故障的处理维护与故障的处理IBM Systems & Technology Group 2003 IBM Corporation2 第一章:日常维护部分第一章:日常维护部分 1、 AIX系统管理日常健康检查系统管理日常健康检查 2、 AIX系统日常管理常用操作系统日常管理常用操作 第二章:故障处理部分第二章:故障处理部分 1、 硬件故障的定位与排除硬件故障的定位与排除 2、 系统故障的处理方法系统故障的处理方法 3、 HACMP双机系统故障排错双机系

2、统故障排错 第三章第三章 :备份与恢复:备份与恢复 第四章:第四章: 性能监控与优化性能监控与优化 概要概要IBM Systems & Technology Group 2006 IBM Corporation第一章:日常维护部分第一章:日常维护部分IBM Systems & Technology Group 2003 IBM Corporation4AIX 系统的日常维护系统的日常维护AIXAIX系统管理日常健康检查与监控系统管理日常健康检查与监控IBM Systems & Technology Group 2003 IBM Corporation5AIX系统管理日常

3、健康检查与监控系统管理日常健康检查与监控机房环境检查机房环境检查电源线的母头是否为左零右火电压值是否为240V零地电压是否小于1V温度(摄氏 )10 40湿度(%)8% 80%查看硬件情况查看硬件情况检查设备故障灯,一般为红色或黄色报警灯常亮。 有没有异常声响,如硬盘、风扇等。有没有破损的电缆等IBM Systems & Technology Group 2003 IBM Corporation6AIX系统管理日常健康检查与监控系统管理日常健康检查与监控 检查文件系统检查文件系统 查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ (根文件系

4、统)满则会导致用户不能登录。# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95%95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /homeIBM Systems & T

5、echnology Group 2003 IBM Corporation7AIX系统管理日常健康检查与监控系统管理日常健康检查与监控 除/usr文件系统,其他文件系统都不应太满,一般不超过80%。 处理方法1:找出(删除)垃圾文件 # du -sk * |sort r n |head 查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。IBM Systems

6、 & Technology Group 2003 IBM Corporation8 处理方法处理方法2:增加文件系统大小:增加文件系统大小 # smitty chfs 文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。 检查文件系统的完整性检查文件系统的完整性 # umount filesystem_name # fsck filesystem_name # fsck -y filesystem_name 注意:文件系统必须先注意:文件系统必须先umount,再做检查和修复,否则可导致未知的,再做检查和修复,否则可导致未知的后果。后果。AIX系统管理日常健康检查与监控系统管理

7、日常健康检查与监控IBM Systems & Technology Group 2003 IBM Corporation9AIX系统管理日常健康检查与监控系统管理日常健康检查与监控 查看卷组信息查看卷组信息 lsvg -l vg_name 有没有stale状态的逻辑卷。 用syncvg 命令修复。# smitty syncvgLV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 2 2 closed/syncd N/Ahd6 paging 48 96 2 open/syncd N/Apaging00 paging 32 64 2

8、 open/syncd N/Ahd8 jfslog 1 2 2 open/syncd N/Ahd4 jfs 1 2 2 open/syncd /hd2 jfs 32 64 2 open/syncd /usrhd9var jfs 5 10 2 open/syncd /varhd3 jfs 4 8 2 open/syncd /tmphd1 jfs 1 2 2 open/syncd /homeIBM Systems & Technology Group 2003 IBM Corporation10AIX系统管理日常健康检查与监控系统管理日常健康检查与监控 检查内存交换区检查内存交换区(pag

9、ing space)使用率使用率 # lsps -s 使用率不要超过70%。 增加交换区,或增加内存。 观察内存大小的命令:lsattr El mem0 #lsps -sTotal Paging Space Percent Used 2048MB 15%#lsps aPage Space Physical Volume Volume Group Size %Used Active Auto Typehd6 hdisk0 rootvg 2048MB 15 yes yes lvIBM Systems & Technology Group 2003 IBM Corporation11AIX系

10、统管理日常健康检查与监控系统管理日常健康检查与监控 网络检查网络检查 netstat -i 查看网卡状态 Ierrs/Ipkts 和 Oerrs/Opkts是否1%注:Oerrs是指从这个网卡发出去错误包数目的统计Opkts是指从这个网卡发出去的ip包个数的统计。看它们是否1%应该是指网络质量好坏。 ping host_name /IP Address 查看是否通和是否有丢包。 路由表 #netstat -rn 查看路由表是否正确,ping 各路由器是否通。 核 对 主 机 名 #hostnameIBM Systems & Technology Group 2003 IBM Corpo

11、ration12AIX系统管理日常健康检查与监控系统管理日常健康检查与监控 #ifconfig -aen0: flags=4e080863inet 172.40.10.31 netmask 0 xffff0000 broadcast 172.40.255.255lo0: flags=e08084binet 127.0.0.1 netmask 0 xff000000 broadcast 127.255.255.255inet6 :1/0 #ifconfig #ifconfig 用法用法 ifconfig en0 inet 11.0.0.1 up ifconfig en0 ns 110:02.60

12、.8c.2c.a4.98 up (还有很多)IBM Systems & Technology Group 2003 IBM Corporation13AIX系统管理日常健康检查与监控系统管理日常健康检查与监控 #lsattr El ent0authm 65536 Authentication Methods Truehostname qtsms Host Name Truegateway Gateway Trueroute net,0,172.40.10.1,0,172.40.10.1 Route Truebootup_option no Serial Optical Network

13、Interface Truerout6 FDDI Network Interface Trueroute属性是否有相应的路由信息。格式为:net,0,172.16.23.81如果没有缺省路由,执行命令:#chdev l inet0 a route=0,172.16.23.81其中172.16.23.81为网关如果缺省路由不正确,则先删除路由,再增加缺省路由:#chdev l inet0 a delroute= net,0,133.16.23.81#chdev l inet0 a route=0,172.16.23.81IBM Systems & Technology Group 200

14、3 IBM Corporation14AIX系统管理日常健康检查与监控系统管理日常健康检查与监控 系统故障记录系统故障记录(errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用)IBM Systems & Technology Group 2003 IBM Corporation15AIX系统管理日常健康检查与监控系统管理日常健康检查与监控#errpt |more 列出简短出错信息ERROR_ID TIMEST

15、AMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONT

16、IMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久; T 临时; U 未知(永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息IBM Systems & Technology Group 2003 IBM Corporation16错误日志的目的 在监测到硬件、软件和操作错误时记录相应的信息在监测到硬件、软件和操作错误时记录相应的信息 用户其他的相关信息被记录下来用户其他的相关信息被记录

17、下来 报告通过记录产生报告通过记录产生 用户能够客户化错误信息用户能够客户化错误信息 当发生某些特定的错误时,系统发出指定信息当发生某些特定的错误时,系统发出指定信息 可以查询到建议操作可以查询到建议操作IBM Systems & Technology Group 2003 IBM Corporation17通过smit产生错误报告 显示所有的错误报告显示所有的错误报告 # errpt 打印错误报告的模板打印错误报告的模板 # errpt -t 按时间产生报告按时间产生报告 # errpt -a -s mmddhhmmyy 只报告硬件错误只报告硬件错误 # errpt -d -H 描述

18、描述ID为为F49E2A17的错误报告的错误报告 # errpt -a -j F49E2A17IBM Systems & Technology Group 2003 IBM Corporation18报告实例IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION192AC071 0106141400 T O errdemon ERROR LOGGING TURNED OFF1581762B 0106115000 T H cd0 DISK OPERATION ERROR1581762B 0106100100 T H cd0 DISK OPER

19、ATION ERROR1581762B 0105152300 T H cd0 DISK OPERATION ERROR2CCF66F7 0105111300 T H bl0 DEVICE ERROR2BFA76F6 0105111100 T S SYSPROC SYSTEM SHUTDOWN BY USER9DBCFDEE 0105111300 T O errdemon ERROR LOGGING TURNED ON192AC071 0104174500 T O errdemon ERROR LOGGING TURNED OFF2CCF66F7 0104143300 T H bl0 DEVIC

20、E ERROR2BFA76F6 0104143100 T S SYSPROC SYSTEM SHUTDOWN BY USER9DBCFDEE 0104143300 T O errdemon ERROR LOGGING TURNED ON192AC071 0104143000 T O errdemon ERROR LOGGING TURNED OFFC60BB505 0104105800 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED# errpt IBM Systems & Technology Group 2003 IBM Cor

21、poration19参数详解 标识标识C:错误归类:错误归类 H:硬件 S:软件 O:系统信息已经记录 U:不能确定 标识标识T:错误类型:错误类型 PERM(并且C为H):显示系统遇到硬件问题并且无法自动修复 PERD(并且C为H):系统硬件变为不可用并引起一系列错误系统 PERM(并且C为S):显示系统遇到软件问题并且无法自动修复 TEMP(并且C为S):显示系统遇到软件问题并且已经自动修复IBM Systems & Technology Group 2003 IBM Corporation20磁盘错误的处理 诊断程序诊断程序 帮助确定问题的严重性 可以格式化磁盘或进行磁盘片的检查

22、 磁盘片的检查磁盘片的检查 检查在磁盘上的每一个块 报告磁盘全面状况总结报告 三种应该更换磁盘的情况三种应该更换磁盘的情况 噪声很大(Noise) 经常出错 错误严重IBM Systems & Technology Group 2003 IBM Corporation21错误日志的清除 root用户通过手工命令用户通过手工命令errclear直接清除错误日志直接清除错误日志 # errclear 10 清除10天以前的所有日志 # errclear -d H 0 清除所有硬件的错误 # errclear -N disk 0 删除所有资源组为disk的记录 # errclear -T U

23、NKN 0 删除所有类型为unknown的记录 # errclear 0 删除所有记录IBM Systems & Technology Group 2003 IBM Corporation22通过errdemon命令管理错误日志 改变错误日志的存放文件改变错误日志的存放文件 # /usr/lib/errdemon -i filename 改变文件的大小改变文件的大小 # /usr/lib/errdemon -s logsize 改变内存缓冲区的大小改变内存缓冲区的大小 # /usr/lib/errdemon -B buffersizeIBM Systems & Technolo

24、gy Group 2003 IBM Corporation23AIX系统管理日常健康检查与监控系统管理日常健康检查与监控 磁带机磁带机 磁带机应定期清洁,每使用30小时或至少每月清洁一次,不要等故障灯亮起后再清洁。 不同类型的带机用要不同的清洗带,不要混用。 用 /usr/lpp/diagnostics/bin/utape -c -d rmt0 -n 可查看磁带机使用时数。 4mm DDS3磁带机可读写DDS2,但对DDS1只能读。IBM Systems & Technology Group 2003 IBM Corporation24AIX 系统的日常维护系统的日常维护AIX系统日常

25、管理常用操作系统日常管理常用操作IBM Systems & Technology Group 2003 IBM Corporation25AIX系统日常管理常用操作系统日常管理常用操作 查看机器上有几条内存及容量的方法:查看机器上有几条内存及容量的方法: # lscfg -vp | grep Size Size.256 Size.256 Size.256 Size.256# lscfg -vp | grep DIMM | wc -l 4 P570上每个Processor Card上有8个DDR memory DIMM slots,所以可以通过lscfg -vp|grep Process

26、or看有几个Processor Card,如下所示,有4个Procssor Card,共应该有32个slots。 IBM Systems & Technology Group 2003 IBM Corporation26AIX系统日常管理常用操作系统日常管理常用操作 #lscfg -vp|grep Processor Model Implementation: Multiple Processor, PCI bus proc0 U0.1-P1-C1 Processor proc1 U0.1-P1-C1 Processor proc2 U0.1-P1-C2 Processor proc3

27、 U0.1-P1-C2 Processor proc4 U0.1-P1-C4 Processor proc5 U0.1-P1-C4 Processor proc6 U0.1-P1-C3 Processor proc7 U0.1-P1-C3 Processor 然后再看使用了多少个然后再看使用了多少个Slots: 数其中的数其中的memory-module的数量就可以了。的数量就可以了。 #lscfg -vp|grep -p memory Name: memory-controller Model: IBM, Outrigger, Rev-id 4 Node: memory-controller

28、7000000000000 Physical Location: U0.1-P1-C1 Name: memory-controller Model: IBM, Outrigger, Rev-id 4 Node: memory-controller7000000000010 Physical Location: U0.1-P1-C2 IBM Systems & Technology Group 2003 IBM Corporation27AIX系统日常管理常用操作系统日常管理常用操作 查看每个硬盘(查看每个硬盘(PV)的容量方法:)的容量方法: Bootinfo s hdisk* 查看查

29、看HBA卡的卡的 产品数据(产品数据(VPD)信息)信息 # lscfg -vl fcs0 fcs0 U787B.001.DNW7603-P1-C4-T1 FC Adapter Part Number.03N6441 EC Level.A Serial Number.1B549045A3 Manufacturer.001B Feature Code/Marketing ID.280B FRU Number. 03N6441 Device Specific.(ZM).3 Network Address.10000000C94CD380IBM Systems & Technology Gr

30、oup 2003 IBM Corporation28AIX系统日常管理常用操作系统日常管理常用操作 系统备份系统备份 除每日进行正常的用户数据备份外,建议定期进行系统备份。 备份前先停止业务系统软件和HACMP 软件的运行。其他无关的用户退出 ,停止无关的操作。 系统备份只备份 ROOTVG,除系统 基本的5个文件系统外,其他 ROOTVG上已 mount 上的文件系统也会被备份。 用 smitty mksysb 命令进行系统备份,备份前先清掉root的密码。 每当系统作变更(安装新软件、补丁程序等)前后,都需要做系统备份。IBM Systems & Technology Group

31、2003 IBM Corporation29AIX系统日常管理常用操作系统日常管理常用操作 Back Up the System* Backup DEVICE or FILE /dev/rmt0 +/ Create MAP files? no + EXCLUDE files? no + List files as they are backed up? no + Generate new /image.data file? yes + EXPAND /tmp if needed? yes + Disable software packing of backup? no +MORE.2F1=He

32、lp F2=Refresh F3=Cancel F4=ListEsc+5=Reset Esc+6=Command Esc+7=Edit Esc+8=ImageEsc+9=Shell Esc+0=Exit Enter=Do位置:/etc/exclude.rootvg IBM Systems & Technology Group 2003 IBM Corporation30AIX系统日常管理常用操作系统日常管理常用操作 检查系统备份带是否有效 用备份带启动机器,但不要进行安装,我们只是验证系统备份带是否能用于启动。出现以下菜单后,关机即可。Welcome to Base Operating

33、 System Installation and Maintenance Type the number of your choice and press Enter. 1 Start Installation Now with Default Settings 2 Change/Show Installation Settings and Install3 Start Maintenance Mode for System Recovery 88 Help ? 99 Previous MenuIBM Systems & Technology Group 2003 IBM Corpor

34、ation31AIX系统日常管理常用操作系统日常管理常用操作 #smitty lsmksysb;检查系统备份带的内容。检查系统备份带的内容。 系统备份不是万能的。备份最好有两份。系统备份不是万能的。备份最好有两份。 用户数据备份用户数据备份 文件系统可用 tar 命令。 数据库可用数据库的备份方式备。 逻辑卷(LV)可用dd 命令。 smitty savevg 用户卷组备份 只备份mount起的文件系统。 注意:不备份逻辑卷(裸设备) 。IBM Systems & Technology Group 2003 IBM Corporation32AIX系统日常管理常用操作系统日常管理常用操

35、作 镜像镜像(rootvg) extendvg rootvg hdisk1 将hdisk1加入到rootvg中 mirrorvg -c 2 rootvg 在rootvg中使两块盘做一个镜像 bosboot -ad /dev/hdisk1 将新加的硬盘加到引导列表里, 否则第 二块盘无法引导系统。 bosboot -ad /dev/hdisk2 bootlist -m normal hdisk0 hdisk1 cd0 设置启动顺序 依次是 hdisk0 hdisk1 光驱 IBM Systems & Technology Group 2003 IBM Corporation33AIX系统

36、日常管理常用操作系统日常管理常用操作 拆镜像(拆镜像(rootvg) lsvg M rootvg ; 检查有效的pv, 确认hdisk1坏 unmirrorvg rootvg hdisk1 bosboot a d /dev/hdisk0 bootlist m normal hdisk0 cd0 mkboot c d /dev/hdisk1IBM Systems & Technology Group 2003 IBM Corporation34AIX系统日常管理常用操作系统日常管理常用操作 HACMP的操作的操作启动:smitty clstart停止:smitty clstop 启动/停

37、止过程可以查看/tmp/hacmp.out文件:#tail f /tmp/hacmp.out 检查Cluster是否运行正常 Cluster进程是否运行:#lssrc g cluster,至少两个进程,且为active。 IP地址是否获取:#netstat i,看boot IP是否变为service ip。 VG是否varyon:#lsvg o 文件系统是否mount:#mount 应用进程是否启动:#ps ef | grep app_nameIBM Systems & Technology Group 2003 IBM Corporation35AIX系统日常管理常用操作系统日常管理

38、常用操作 HACMP相关日志相关日志 /usr/es/adm/cluster.log; 以事件为单位的纪录 /tmp/hacmp.out; 详细记录 /usr/sbin/cluster/history/cluster.IBM Systems & Technology Group 2006 IBM Corporation第二章:故障处理部分第二章:故障处理部分IBM Systems & Technology Group 2003 IBM Corporation37故障处理部分 弄清楚系统发生了什么问题弄清楚系统发生了什么问题 系统现在能做什么?不能做什么? 故障什么时候发生的?

39、有没有做平时不同的操作? 故障有没有规律?定时还是不定时?发生的频率有多高? 是一台机器出现故障还是多台机器故障?故障现象是否相同? 最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置(如 HACMP配置)等 。IBM Systems & Technology Group 2003 IBM Corporation38故障处理部分 收集故障信息对于判断、诊断故障原因,修复系统非常重要。收集故障信息对于判断、诊断故障原因,修复系统非常重要。 系统故障记录系统故障记录(errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为

40、/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用)IBM Systems & Technology Group 2003 IBM Corporation39故障处理部分 控制面板上的控制面板上的LED 代码代码 8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。(注:S85正常启动过程中有合法的8位代码。) 4 位代码,通常是Exxx。 3 位代码,通常为0yyy,只看后3位。 8 位和4位代码可查看系统服务手册 (Service Guide)。 3 位代码可查看系统诊断手册(Diagnos

41、tic Information for Multiple Bus System)。IBM Systems & Technology Group 2003 IBM Corporation40故障处理部分 其他用于收集系统信息的命令其他用于收集系统信息的命令 lsdev -C 系统设备信息 #lsdev -Cc disk hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive hdisk2 Defined 0

42、0-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息 #lspv hdisk0 0007821160af3d76 rootvg hdisk1 000782117f571294 rootvg hdisk2 0000000045c45bde datavg lsvg 查看卷组信息IBM Systems & Technology Group 2003 IBM Corporation41故障处理部分#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: activ

43、e PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootv

44、grootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A . lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqm IBM Systems & Technology Group 2003 IBM Corporation42故障处理部分l sl pp 查看文件组信息# lslpp -L |grep 231000

45、20.devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。l sattr查看设备参数设置# lsattr -El ent2busio 0 x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256

46、 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0 x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap True IBM Systems & Technology Group 2003 IB

47、M Corporation43故障处理部分l scf g查看VPD 信息(Vi rtual Product D ata)# lscfg -vl ssa1 DEVICE LOCATION DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500) Part Number.097H0645 FRU Number.097H0645 - 备件号 Serial Number.C8217227 EC Level.0000F20825 Manufacturer.IBM053 ROS Level and ID.7201 - 微码版本 Load

48、able Microcode Level.04 Device Driver Level.00 Displayable Message.SSA-ADAPTER Device Specific.(Z0).DRAM=032 Device Specific.(Z1).CACHE=0 Device Specific.(Z2).000000062955dab2 Device Specific.(YL).P2-I7 C32/C33 检测所有的硬盘、设备,更新ODM等 570: SCSI 硬盘 80C: SSA 硬盘 581: TCP/IP 子系统Stage 1Stage 2Stage 3IBM System

49、s & Technology Group 2003 IBM Corporation46故障处理部分 系统停在系统停在Stage 1,可能为电源、系统板、,可能为电源、系统板、CPU、内存等硬件故障。、内存等硬件故障。记录故障代码通知记录故障代码通知IBM工程师。工程师。 系统停在系统停在Stage 2,可能是启动顺序表,可能是启动顺序表(bootlist)损坏或损坏或I/O子系统故子系统故障。可尝试进入障。可尝试进入SMS 菜单检查启动顺序表,并修改。菜单检查启动顺序表,并修改。 若在选择若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正时没有硬盘设备可选或显示的硬盘信息不

50、正确则可能是硬盘故障。确则可能是硬盘故障。 若根本没有若根本没有SCSI设备可选则链路有问题。设备可选则链路有问题。 系统停在系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。子系统故障。IBM Systems & Technology Group 2003 IBM Corporation47故障处理部分 发生在系统启动的第三阶段发生在系统启动的第三阶段 (Stage 3),可能是:,可能是: 文件系统损坏 文件系统日志(jfslog)损坏 rootvg中有坏硬盘 修复方法修复方法 用系统光盘或系统备份带启动(必须

51、与硬盘中的操作系统版本一致) 启动后选择选项3 Start Maintenance Mode for System Recovery Access a Root Volume Group Access this volume group and start a shell before mounting the file systemsIBM Systems & Technology Group 2003 IBM Corporation48故障处理部分 格式化文件系统日志(jfslog) # /usr/sbin/logform /dev/hd8 检查修复文件系统 # fsck -y /

52、dev/hd1 (/home 文件系统) # fsck -y /dev/hd2(/usr 文件系统) # fsck -y /dev/hd3(/tmp 文件系统) # fsck -y /dev/hd4(/ 文件系统) # fsck -y /dev/hd9var(/var 文件系统) . . 用 exit 命令退出,文件系统会自动 mount 起来。 重建bootimage # lslv -m hd5 找出bootimage所在的硬盘,如hdisk0 # bosboot -ad /dev/hdisk0 # bootlist -m normal /dev/hdisk0 重建启动顺序表。IBM Sys

53、tems & Technology Group 2003 IBM Corporation49故障处理部分 重启动系统 # shutdown -Fr 如上述步骤不奏效如上述步骤不奏效 用系统备份带恢复系统。 如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否坏硬盘。 通知IBM工程师。IBM Systems & Technology Group 2003 IBM Corporation50 CDE 运行时不要更改网络参数(如:主机名和运行时不要更改网络参数(如:主机名和IP 地址)更地址)更改网卡设置,请先退出改网卡设置,请先退出CDE图形环境,选择命令行方

54、式登图形环境,选择命令行方式登录,在字符界面下更改。录,在字符界面下更改。 如如CDE 已经挂死已经挂死 远程 telnet 登录 找出所有dt有关的进程用kill命令杀掉 # ps -ef |grep dt . . # kill PID 检查当前主机名 # hostname uname -a tscf50IBM Systems & Technology Group 2003 IBM Corporation51 查看主机名是否对应有效的IP地址 # netstat -i |grep tscf50 tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0

55、更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。 # smitty tcpip 重新启动CDE界面 # /etc/rc.dt HACMP环境下可把主机名alias到127.0.0.1上 # cat /etc/hosts 127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvgIBM Systems & Technology Group 2003 IBM Corporation52 发生在系统崩溃时,发生在系统崩溃时,AIX会做会做dump(系统内存的快照系统内存的快照)。 此时机器会显示闪动

56、的此时机器会显示闪动的888 102 xxx 0cx 代码:代码: 0c9系统dump 进行中。0c9状态可能会维持超过2分钟,不要关电和按reset, 等待dump做完。 0c0dump 成功完成,这时可以断电重起。 0c2 手动启动dump 功能 0c4dump 设备空间不足,只有部分信息保存下来 0c5 不明原因导致dump 失败 mostly hdisk or sysplaner errorIBM Systems & Technology Group 2003 IBM Corporation53 一般一般dump是由于软件出错引起,机器通常可以重启。重启是由于软件出错引起,机器

57、通常可以重启。重启时可能提示用户插入磁带拷贝时可能提示用户插入磁带拷贝dump文件,不要选择退出,文件,不要选择退出,这样会丢失重要的故障信息。这样会丢失重要的故障信息。IBM Systems & Technology Group 2003 IBM Corporation54 dump打包打包 # snap -a -o /dev/rmt#或 # snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件 snap.tar.Z如果/tmp文件系统空间不够,可用-d directory 参数指定别的目录代替/tmp/ibmsupt #smitty dumpIBM Systems

58、& Technology Group 2003 IBM Corporation55 运行故障诊断程序运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。,对系统硬件进行检查和诊断。当发现有硬件故障时应立即使用diag #diag 选高级诊断(Advance Diagnostic) 选问题诊断(Problem Determination) 或 选系统检查(System Verification) (选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。IBM Systems & Technology Group 20

59、03 IBM Corporation56 concurrent 模式模式 多用户模式下(系统正常运行时)运行硬盘上的诊断多用户模式下(系统正常运行时)运行硬盘上的诊断程序。如果可能尽量使用该模式程序。如果可能尽量使用该模式(但不要在应用程序运行时但不要在应用程序运行时使用)。使用)。 # diag运行该命令需要root权限 Diagnostic CDROM 用诊断光盘启动,通常在硬盘无法启动时使用。IBM Systems & Technology Group 2003 IBM Corporation57FUNCTION SELECTION 801002Move cursor to se

60、lection, then press Enter. Diagnostic Routines This selection will test the machine hardware. Wrap plugs and other advanced functions will not be used. Advanced Diagnostics Routines This selection will test the machine hardware. Wrap plugs and other advanced functions will be used. Task Selection(Diagnostics, Advanced Diagnostics, Service Aids, etc.) This selection will list the tasks supported by these procedures. Once a task is selected, a resource menu may be presented showing all resources supported by the task. Resource Sel

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论