IBM小型机维护指导书_第1页
IBM小型机维护指导书_第2页
IBM小型机维护指导书_第3页
IBM小型机维护指导书_第4页
IBM小型机维护指导书_第5页
免费预览已结束,剩余55页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、江西建行IBM 小型机日常维护第一篇:日常维护部分第二篇:故障处理部分第三篇:安图特公司技术支持电话iii / 58下载文档可编辑第一篇 日常维护部分第1章AIX系统管理日常工作(检查篇)11.1 常用的命令11.2 语法介绍11.2.1 vmstat :检查内存、CPU进程状态 11.2.2 sar:检查 CPU IO31.2.3 PS :检查进程状态命令31.2.4 svmon 显示进程占用内存41.2.5 iostat:显示磁盘IO41.2.6 netstat,entstat :显示网卡信息51.2.7 no: 显示 tcpip 参数设置61.2.8 其它命令6第2章 AIX系统管理日常

2、工作(LV篇)72.1 旧MAIX系统管理的日常工作 72.1.1 开关机步骤72.1.2 用户组及用户管理72.1.3 文件系统维护72.1.4 系统日常管理82.1.5 系统备份82.1.6 定时清洗磁带机82.1.7 定时检查设备指示灯状态92.1.8 简单故障的判断92.1.9 熟悉 ibm aix 操作系统92.2 关于 旧M AIX的逻辑卷管理 92.3 LV喻令10第3章AIX系统管理日常工作(关键参数检查篇)133.1 AIO参数检查133.2 磁盘阵列QUEUEDEPT#数检查 143.3 用户参数检查143.4 激活SSAFAST-WRITE CACHE153.5 IO 参

3、数设置153.6 SYNCD daemON数据刷新频率153.7 检查系统硬盘的镜像15第4章AIX系统管理日常工作(性能分析篇) 174.1 性能瓶颈定义174.2 性能范围1718第5章 AIX系统管理日常工作(SHUTDOVWN)5.1 概念 185.2 关机命令18第6章AIX系统管理日常工作(备份与恢复篇) 186.1 用 SMIT备份186.2 手工备份186.3 恢复系统19第7章 HACMP双机系统的管理和维护 197.1 HACM双机系统的启动197.2 HACM双机系统的关闭207.3 察看双机系统的当前状态217.4 HACM环境下白排错227.4.1 了解问题的存在 2

4、27.4.2 判断问题的出处 23第1章 AIX系统管理日常工作(检查篇)1.1常用的命令CPUMemoryDiskNetwork标准UNIX命 令(包括HP SUN)vmstat, sar, psvmstat, psiostat, sar, vmstat,netstat, nfsstatAIX详细输出Tprofsvmon, rmss,entstatAIX非常详细 输出syscalls, trace, emstattracetracetrace, iptrace分析工具topastopastopasTopas1.2语法介绍1.2.1 vmstat :检查内存、CPU进程状态# vmstat 1

5、 15kthr memorypagefaults cpu r b avm fre re pi po fr sr cyin sy cs us sy id wa1 0 28132 81277 0 0 0 0 0 0 132375 67 65 1 34 02 0 28132 81277 0 0 0 0 0 0 127338 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0316 131 99 0 0 02 0 28132 8127700000317 126 99 0 0 02 0 28132 8127700000316 127 99 0 0 02 0 28132 8127

6、700000317 125 99 0 0 02 0 28132 8127700000316 127 99 0 0 02 0 28132 8127700000317 124 99 0 0 02 0 28132 8127700000304 127 99 0 0 0r :正在运行的进程b:被阻挡的进程0 1320 1200 1460 1300 1350 1290 133avmx活动的虚内存,单位4kbfre :自由列表,位4kbpo:页换出pi :页换入sy:系统占用CPUid :空闲 CPUwa:等彳f的CPU1.2.2 sar :检查CPU、 IO例如:sar -u 1 30sar -P ALL

7、 1 10语法:sar -abckmqruvwyA inteval repetition- b buffer 活动- c 系统调用- k 内核进程统计.- m 消息及信号量活动- q 正在运行的队列数及等待队列数- r 页交换统计- u CPU 利用- P CPU负载.1.2.3 PS:检查进程状态命令ps:显示当前SHELLS所有进程ps -ef :显示系统中所有进程,f 显示更详细信息ps -u oracle :显示 oracle 用户进程ps emo THREAD显示线程信息ps au ; ps vg :按使用时间显示进程(最近一次调用)ps aux:按使用时间显示进程(进程启动)1.2

8、.4 svmon :显示进程占用内存svmon - G:显示系统占用内存svmon -C command_nam: e显示某个用户进程占用内存svmon -P pid显示某个进程占用内存svmon - S:显示段占用内存1.2.5 iostat :显示磁盘IOtty:tin tout avg-cpu: % user %sys % idle % iowait0.0 4.00.9 1.3 95.42.5Disks:% tm_act KbpstpsKb_read Kb_wrtnhdisk058.4218.341.2172920hdisk1428016.885.621.4hdisk211002050.

9、6223.955.6hdisk3428016.885.621.4hdisk4000.00.00.0hdisk51396043.4279.169.8hdisk6000.00.00.0hdisk7013616.427.220.2hdisk8000.00.00.0hdisk907809.4156.011.4hdisk10013616.427.220.2cd0000.00.00.01.2.6 netstat, entstat :显示网卡信息显示网卡信息netstat en0:显示en0信息5 / 58下载文档可编辑netstat s:显示网络信息netstat -m显示网络sta

10、t -i显示网卡状态netstat -I en0 1显示eno网卡塞(1秒间隔)1.2.7 no:显示tcpip 参数设置no - a:显示tcpip所有参数当前设置no -o tcp_keepalivetime=7200000设置 tcp_keepalivetime 等于 3600000秒no d恢复默认值注:该方法在重启后失效1.2.8其它命令检查文件系统df -k检查设备lsdev -C检查物理卷lspv检查交换区lsps -a检查配置lscfg -vp检查软件lslpp -l检查用户who第2章AIX系统管理日常工作(LV篇)2.1 IBM AIX系统管理的日常工作系统管理员对小型机系

11、统的正确管理是系统稳定运行 的保障,作为系统管理员应注意以下几个方面:2.1.1 开关机步骤在系统管理员控制下进行正确的操作。(第5章有专门 介绍)2.1.2 用户组及用户管理2.1.3 文件系统维护发现文件系统已满,应及时删除无用文件或扩大文件系统。查看文件系统使用率命令:df - k ,查看Used%Iused1024-blocks Free %Used lused %IusedMounted on/dev/hd4327682018039%2070 13% /dev/hd22293760123098447%330456% /usr7 / 58下载文档可编辑/dev/hd9var327681

12、583252%3675% /var/dev/hd3327682330029%1102% /tmp/dev/hd132768313845%721% /home/dev/informixlv52428819906063%35213% /home/informix注意系统文件系统中的/ /var /tmp 使用率不要超过 902.1.4 系统日常管理系统管理员最好用smit 来进行系统管理。 Smit 是以菜单方式工作的工具包,它包括了日常管理工作的所有命令,操作简便。2.1.5 系统备份备份是保护用户数据不丢失的重要手段。一般系统备份的要求如下:A. 每一台机器的操作系统至少有一个全备份。B. 每

13、天备份用户数据。C. 操作系统配置修改后重新备份操作系统。(系统备份方法在第六章专门介绍)1.1.6 定时清洗磁带机可以每月定时清洗一次,将清洗带插入磁带机,清洗完毕后会自动退出磁带。当磁带机需要清洗时,磁带机左边第一个起绿色指示灯会亮。1.1.7 定时检查设备指示灯状态RS6000小型机出现硬件故障时,系统前面板上会亮一 个橙色的告警灯。液晶面板上面会有显示错误代码1.1.8 简单故障的判断详细信息见“第二部分:故障处理指导书”1.1.9 熟悉 ibm aix 操作系统2.2 关于 IBM AIX 的逻辑卷管理IBM AIX 存储管理的五个基本概念:物理卷Physical Volume,称为

14、PW:指物理上硬盘,一 个硬盘就是一个 PV,名字为HDISK0 HDISK1物理分区(Physical Partitions ):物理卷被划分成大小一样的物理分区PPs逻辑卷组 Logical Volume Group ,称为 VG 一 个 VG 包含整数个PY可理解为一个大硬盘。逻辑卷Logical Volume,称为LV:相当于对大硬盘进行逻辑分区, 一个VG里可有若干个LV,对用户讲, LV上的数据是连续的,但PV上的数据可能是分散的。逻辑分区(Logical Partitions ):每个LV有若干逻 辑分区(LPs)组成,每个逻辑分区至少有一个 PV组成。9 / 58下载文档可编辑

15、文件系统:在逻辑卷的基础上,可建立文件系统 JFS, 然后MOUNTS一个目录下,这样就可以文件存取的方 式来使用这块硬盘了。当然,您也可以不建文件系统,而直接把 LV当作裸设 备,以TRUN直式来存取数据,许多数据库都是用这种 方式存取数据。LVM勺关系如下图:PV Physical Volumes (disks)Volume GroupLV - Logical Volume (old UNIX partition)PP PhysicalPartition(smallest chunkTerms-Summaryof disk typically 8,16 or 32 MB)Logical V

16、iew =VG with many LVs containing PPs from particular PVs11 / 58下载文档可编辑2.3 LV喻令一般采用smit命令可对PM VG LV、JFS等进行图形 化管理,命令如下:smit lvm屏幕显示如下:Add a Logical VolumeNAMELogicalvolumescratchVOLUMEGROUPname13 / 58下载文档可编辑testvg* Number of LOGICAL PARTITIONS64#PHYSICALVOLUMEnameshdisk1 hdisk2 hdisk3 +Logical volume

17、TYPEjfsPOSITIONon physical volume middle +RANGE ofphysicalvolumesminimum +MAXIMUMNUMBERof PHYSICALVOLUMES #to use for allocationNumberof COPIESof each logical 2+partitionMirror Write Consistency?yes+Allocate each logical partitioncopy yes+on a SEPARATE physical volume?RELOCATEthe logical volume duri

18、ng yes +reorganization?Logical volume LABELMAXIMUM NUMBER of LOGICAL PARTITIONS 512 #Enable BAD BLOCK relocation?yes+SCHEDULING POLICY for reading/writing parallel +logical partition copiesEnable WRITE VERIFY?no+ALLOCATION MAP Stripe Size?64K行命令:.lsvg :查看 vg 名字查看 vg 详细信息: lsvg <vgname>查看vg 内的L

19、Vs:lsvg -l <vgname>查看vg 内的PV:lsvg -p <vgname>查看激活的VG lsvg - o. lspv :查看物理卷组查看PV详细信息:查看PV内的LVs查看PV内的PP :.lslv: 查看LV的信息查看LV 名字:查看LV 详细信息 :pg 名字lspv hdiskNlspv -l hdiskNlspv -p hdiskNlsvg -l <vgname>lslv <lvname>查看PV内的LVs :查看PV内的PP :查看镜像的LV:lslv -l <lvname>lslv -p <pvna

20、me>lslv -m <lvname>18 / 58下载文档可编辑第3章 AIX系统管理日常工作(关键参数检查篇)3.1 AIO参数检查# Isattr -El aio0minservers X MINIMUM number of servers Truemaxservers 80 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39Server PRIORITYTrueautoconfig available STATE to be configured

21、atsystem restart Truefastpath enable State of fast path TrueMaxServers = 10 * number of disksMinServers = MaxServers /2其中MaxServers最大为80可用命令 #smitty aio Change / Show Characteristics of Asynchronous I/O修改相应的值。3.2 磁盘阵列queue_depth 参数检查彳段设 DATAVG RAID盘为 hdisk2# lsattr -El hdisk2pvid 00019081a0dc91ea000

22、00 Physical volume identifier Falqueue_depth 8Queue depthTruequeue_depth 值设置为7133硬盘个数可用命令 #chdev - l hdisk2 - a queue_depth=x 修改, 但VG必须为VARYOFF态。3.3 用户参数检查#smitty chlicense修改 Maximum number of FIXED licenses 为 10#lsattr -El sys0|grep maxuprocmaxuproc 200 Maximum number of PROCESSES allowed per user

23、True用 #smitty chgsys 修改利 用 lsattr -Elsys0 检 查 maxuproc, minpout, maxpout等参数的大小。maxuproc为每个用户的最大进 程数 , 当应用涉及大量的顺序读写而影响前台程序响应时间时,可考虑将 maxpout设为33, minpout设为16, 利用 smitty chgsys 来设置。3.4 激活 SSA Fast-Write Cache利用 smitty ssafastw 来激活每一个逻辑盘hdiskn 的Fast-Write Cache: 选择硬盘后,把 Enable Fast-Write一项改为Yes后回车即可。对于

24、 OPS必须关闭,对于 GAILOVE或单机必须打开。3.5 IO 参数设置High water mark for pending write I/Os per )和Low water mark for pending write I/Os per file它们缺省值为0,在双机环境中一般应设High watermark 为 33,Low water mark 为24,这两个参数可用smitty chgsys 来设置。3.6 syncd daemon 的数据刷新频率该值表示刷新内存数据到硬盘的频率,缺省为60,一般可改为20,也可根据实际情况更改。该参数通过vi/sbin/rc.boot 更改

25、,其中一行如下:nohup /usr/sbin/syncd60 >/dev/null 2>&1 &改为:nohup /usr/sbin/syncd20 >/dev/null 2>&1 &3.7检查系统硬盘的镜像#lsvg l rootvg rootvg:LV NAMETYPELPs PPs PVsLV STATEMOUNT POINThd5boot12 2closed/syncd N/Ahd6paging48 96 2open/syncd N/Apaging00 paging 32 64 2 open/syncd N/Ahd8jfslog

26、 122open/syncd N/Ahd4jfs122open/syncd /hd2jfs32 64 2open/syncd /usrhd9var jfs 510 2open/syncd /varhd3jfs4 82open/syncd /tmphd1jfs122open/syncd /home注意:PPs为LPs的两倍,PVs为2如果系统盘未镜像,而系统盘为18G盘,用命令镜像# mirrorvg rootvg hdisk0 hdisk1(对 rootvg 进行镜像)# bosboot - a(在两块盘上重建bootimage)# bootlist - m normal hdiskO hdi

27、skl(设置机器的启动顺序)第4章 AIX系统管理日常工作(性能分析篇)4.1 性能瓶颈定义项目 判断标准CPUvmstat+ %sys greater 大于 75%Disk I/Ovmstat大于 30% (AIX 4.3.3 or later)程序磁盘%tm_act应用交换区 60%页交换数量CPK量4.2 性能范围CPUDiskMemorylsps -aiostat vmstat好坏60%75%<30%<40%010 pages/检查命令%user%iowaitiostat大于 60%大于大于10X极差90%+<50%+秒 CPU >50AIX系统管理日常工作(S

28、HUTDOVWN)5.1 概念IBM AIX的启动分为多用户(normal)和单用户 (service )模式,在正常情况下,一般选择多用户模 式。5.2关机命令快速关机,不警告用户shutdown -F ; halt快速关机并重启shutdown - Fr; reboot警告一分钟后关机并重启shutdown -r发送关机命令,但不关机shutdown -k关机并警告用户推出Shutdown now关机到单用户模式Shutdown m; init s; telinit s第6章 AIX系统管理日常工作(备份与恢复篇)6.1 用SMIT备份#smitty mksysb 进行系统备份当 COMM

29、AND STATUS中 Command: OKB现后,表示 备份成功。取出制作完毕的磁带,在磁带上的标签上注明备份机器 的名称和序列号6.2 手工备份# mksysb i /dev/rmt019 / 58下载文档可编辑6.3 恢复系统# bootinfo - e检查系统所带的磁带机是否能启动系统,如果返回值是1,表示该磁带机支持启动系统,如果返回值是0,就是不支持。插入备份带,检查设备启动顺序: bootlist m service o如果需要,将启动顺序改为从磁带启动: bootlist m service rmt0重启机器,系统从磁带读数据,根据提示恢复系统。第7章 HACM的 双机系统的

30、管理和维护7.1 HACMPX机系统的启动要启动HACMP机系统必须要有root用户的特权分别进入到系统各节点主机在命令行上执行下述命令即可。# smit clstart或# /usr/sbin/cluster/etc/rc.cluster-boot-N -i注:在双机系统中HACM双机软件先启动的节点将成为主节点拥有资源,后启动的节点将成为备用节点。20 / 58下载文档可编辑7.2 HACM双机系统的关闭要关闭某节点上的HACMPX机软件必须要有该节点root 用户的特权,以root 用户进入到该节点主机在命令行上执行下述命令即可。# smit clstop或# clstop -gr说明:

31、若该节点是主节点并且备节点上的HACM歌件亦正常运行,则clstop关闭模式的三种选 项行为不同。 forced : 是指立即关闭双机软件不调用 任何客户应用的善后处理例程。 graceful 是指在关闭双机软件时将调用客 户应用预定义的善后处理例程。 takeover 是指该节点将关闭双机软件并释 放资源请求备节点进行接管。检查HACM双机软件在该节点是否已启,动命令如下:# lssrc -g cluster若 是 系统 显 示 出 下 面 类似 的 信 息 则 说 明 HACM双机软件已正常启动.Subsystem Group PID StatusClstrmgr cluster 2250

32、0 activeClsmuxpd cluster 23674 activeClinfo cluster 28674 active20 / 58下载文档可编辑7.3 察看双机系统的当前状态# /usr/sbin/cluster/clstat -a如果双机系统一切工作正常则系统将显示下述类似信息:clstat - HACMP for AIX Cluster Status MonitorCluster: cluster(80) Thu Jan 20 08:45:17 TAIST2000State: UP Nodes: 2SubState: STABLENode: oracle1 State: UPI

33、nterface: oracle1_svc (0) Address: 1State: UPInterface: oracle1_tty (1) Address: State: UPNode: oracle2 State: UPInterface: oracle2_svc (0) Address: 1State: UPInterface: oracle2_tty (1) Address: State: UP21 / 58下载文档可编辑7.4 HACM邸境下的排错在一般情况下,HACM瞰件很少需要手工干预,但一旦 有问题发生, 诊断和

34、恢复的技巧是很重要的. 需要能很快地断定问题然后运用你对HACMP勺理解来恢复HACMP的正常运作.一般地,HACMP环境下的排错包括:. 了解问题的存在. 判断问题的出处. 解决问题 .7.4.1 了解问题的存在您可以通过以下途径了解到一个 CLUSTERS境下出现 了问题 . 最终用户的投诉, 他们无法访问应用程序.控制台上出现一些HACMP勺信息.1 . 应用服务无法访问最终用户的抱怨通常预示 CLUSTE变现了问题.他们无 法正常执行应用或是无法登录到系统. 我们必须采集到详细的信息以判断到底那里出现了问题. 是否有错误的信息提示?如果可能的话, 让用户重复步骤以确定那里是错误的开始.

35、 您也可以在自己的系统上重复. 要知道用户应用不可用并不代表HACMPT问题.问题可能出现在22 / 58下载文档可编辑应用程序本身或是它的启动或终止脚本出现了问题. 因此应用程序本身的排错也应是HA排错的一部分.2 .控制台上出现一些HACMP勺信息在HACMRO动,终止或出错时,控制台上会出现一些 HACMP勺信息,同时也会写入相应的文件中.7.4.2 判断问题的出处当错误出现时, 我们应尝试发现错误的所在. 但我们常常被错误的表面所误导. 以下的步骤可以使我们得到更详细的信息.1 . 保 存 好 一 些 LOG 文 件 .(/tmp/hacmp.out & /tmp/cm.log

36、). 因为它们可能被覆盖.2 .仔细检查HACM所产生的LOGC件.它们能提供最初的判断线索.3 .用HACMP勺工具和AIX的命令来检查HACMP勺部件是否正常 .4 .打开HACMP勺跟踪工具来产生更详细的信息.HACMP勺LOGC件:以下文件都是文本文件,可以用VI来看 . 每个日志文件都含有每个信息的产生时间./usr/adm/cluster.log :记录了 HACMP 状态,由 HA的守护进程所产生./tmp/hacmp.out :记录了 HA的详细脚本./usr/sbin/cluster/history/cluster.mmdd: 记 录 了HA的各个事件的发生./tmp/cm.

37、log : 由clstrmgr 进程产生,每次HA重起时会被覆盖 .HACMP FOR AIX 的结构应用层HACM歌件层LVM & TCPIP 层AIX 层物理网络层物理硬盘层硬件层在 物 理 网 络 层 , 物 理 硬 盘 层 , 硬 件 层 ,LVM & TCPIP层 ,AIX 层我们可以用AIX系统命令来看是否硬件和系统出现了问题. 一般地 , 在用 errpt 命令来看没有类型为PH的错误,lsvg -o来看我们所须的VG已varyon,mount来看我们所须的文件系统已安装 , netstat -i 来看我们所须的service IP 是 UP的状态 ( 或用 if

38、configen*),cluster node 之 间 的 service 与 service IP ,standby 与 standby IP 互相可以 ping 通 . 在各个节点上执行stty<</dev/tty* 有相应的信息出现. 说明硬件层 ,LVM & TCPIP 层 ,AIX 层没有问题, 问题可能出现在应用层与HACM歌件层上.否则问题就出现在相应的层次上.在HACM嗽件层上,我们可以用vi /tmp/hacmp.out 来 看 , 如果出现eventfailed 的字段 , 则有可能问题出现在该层, 如果在问题出现的时段,hacmp.out 无信息出现

39、, 则问题可能出现在应用层 .以下是HA排错的一些守则:. 在第一时间保存好相关的日志文件 , 特别是那些会被覆盖的文件. 尝试去重复问题的出现. 不要被用户所反映的问题迷惑. 渐进地去重复问题, 如果有多个可能导致问题的出现,一个一个地去重复, 而不要一次重复多个可能. 不要凭经验来判断问题, 而是要在各种测试后 , 由结果来判断 . 隔离问题的来源, 根据我们上面所叙述的层次关系, 至顶向下地诊断. 由简到繁地做测试, 我们先从一个简单的环境来做测试 , 不要尝试在一个复杂的环境中测试 . 一次做一次改动, 否则我们无法知道是那个改动解决了问题 . 不要忽略各种可能, 因小可失大, 留心系

40、统的每一个细节 , 包括电源 , 插头 , 连线等 . 保持各种测试的记录以及解决的步骤, 用做将来排错的参考 .。拨打技术支持工程师电话,到现场解决问题。第二篇:故障处理部分目录第 1章故障的定义 27第 2 章 故障信息的收集282.1 收集故障信息对于判断诊断故障原因修复系统非常重要 282.2 系统故障记录( ERRORLO)G282.3 控制面板上的LED代码 302.4 SMS(SYSTEMMANAGEMENSTERVICE) 故障记录 312.5 MAIL 322.6 运行故障诊断程序(DIAGNOSTIC) 对系统硬件进行检查和诊断. . 322.7 其他用于收集系统信息的命令

41、 32第 3 章 硬件故障定位方法363.1 IPL 流程 363.2 系统的启动顺序: 373.3 系统不能启动 373.4 系统停在551555或557 383.5 CDES形界面挂死 393.6 系统 DUMP40第4章7133-D40SSAB盘柜的故障定位 42第 5 章 软件故障定位方法435.1 文件系统空间不够 435.2 检查文件系统的完整性 445.3 查看卷组信息( LSVG- LVG_NAM)E 4437 / 58下载文档可编辑5.4 检查内存交换区(PAGINGSPAC频用率(LSPS-S) 445.5 小型机内存泄漏问题 45第 6 章 常用的系统状态查询命令第 7

42、章 网络故障定位方法7.1 网络不通的诊断过程 487.2 网络配置的基本方法 49第8章 HACM环境下的排错 508.1 了解问题的存在 508.2 判断问题的出处 51第 9 章 附常用命令列表4748错误 ! 未定义书第 1章 故障的定义根据以下这些方面来考虑故障定位:弄清楚系统发生了什么问题系统现在能做什么不能做什么故障什么时候发生的有没有做平时不同的操作故障有没有规律定时还是不定时发生的频率有多高是一台机器出现故障还是多台机器故障故障现象是否 相同最近有没有做改动如安装了新的硬件软件改变了系统的一些设置第 2章 故障信息的收集2.1 收集故障信息对于判断诊断故障原因修复系统非常重要

43、2.2 系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用( 普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC00 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 07010

44、00000 T 0 errdemon Error logging turned on038F25800624131000UHscdisk0 UNDETERMINEDRRORAA8AB241 0405130900 T O OPERATOR OPERATORNOTIFICATIONTIMESTAMP: MMDDHHMMYY 时分年T 类型: P 永久; T 临时 ; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件 ; O 用户 ; U 未知# errpt -d H列出所有硬件出错信息# errpt -d S列出所有软件出错信息# errpt -aj ERROR_ID 列出详细出错信

45、息# errpt -aj 0502f666 <- ERROR_ID用大小写均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <- Virtal Product DataDevice Driver Level0

46、0Diagnostic Level00Displayable MessageSCSIEC LevelC25928FRU Number30F8834ManufacturerIBM97FPart Number59F4566Serial Number00002849ROS Level and ID24Read/Write Register Ptr0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFEC

47、TIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 00000000 00002.3控制面板上的LED代码8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码4 位代码通常是Exxx3 位代码通常为0yyy 只看后 3位8 位和 4位代码可查看系统服务手册(Service Guide)3 位代码可查看系统诊断手册

48、(DiagnosticInformation for Multiple BusSystem)闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dum院成可关电重启888-103 或 105硬件故障一般有SRN代码及位置代码2.4 SMS (System Management Service) 故障记录如何进入SMS菜单当主控台出现键盘图标后(LED显示E1F1日t)按1键选择"Utili

49、ties"选择"Error Log",抄下 8位故障代码在SMS中还可以更改系统启动顺序表2.5 MAIL#mail系统会向 root 用户发 mail 报告出错信息通常系统出现故障后没有进行检查修复系统会定时提醒root2.6 运行故障诊断程序(Diagnostic)对系统硬件进行检查和诊断当发现有硬件故障时应立即使用diag#diag> 选高级诊断Advance Diagnostic)> 选问题诊断Problem Determination)或选系统检查System Verification)(选PD会对系统错误记录进行分析)diag运行后会给出S

50、RN代码故障设备名称及百分比地址代码等对于 PCI 机型应在系统报错7 天之内运行diag 程序对出错记录里的sense 数据进行分析2.7 其他用于收集系统信息的命令lsdev -C 系统设备信息# lsdev -Cc diskhdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSIDisk Drivehdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSIDisk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdis

51、k0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b# G STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3

52、 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16 #lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/Alv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020devicespci23100020rte 4327 C IBM PCI 10/100Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论