小型机故障的基本定位方法.doc_第1页
小型机故障的基本定位方法.doc_第2页
小型机故障的基本定位方法.doc_第3页
小型机故障的基本定位方法.doc_第4页
小型机故障的基本定位方法.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

小型机故障的基本定位方法一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的*作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。二故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。2)系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他*作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用)#errpt|more列出简短出错信息ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DEscriptION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED10720131000PHmem2Memoryfailure9DBCFDEE0701000000T0errdemonErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日时分年)T(类型):P永久;T临时;U未知(永久性的错误应引起重视)C(分类):H硬件;S软件;O用户;U未知#errpt-dH列出所有硬件出错信息#errpt-dS列出所有软件出错信息#errpt-ajERROR_ID列出详细出错信息#errpt-aj0502f666-ERROR_ID用大小写均可例:LABEL:SCSI_ERR1ID:0502F666Date/Time:Jun1922:29:51SequenceNumber:95MachineID:123456789012NodeID:host1Class:HType:PERMResourceName:scsi0ResourceClass:adapterResourceType:hscsiLocation:00-08VPD:选高级诊断(AdvanceDiagnostic)选问题诊断(ProblemDetermination)或选系统检查(SystemVerification)(选PD会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。7)其他用于收集系统信息的命令lsdev-C系统设备信息#lsdev-Ccdiskhdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrivehdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrivehdisk2Defined00-06-00-4,016BitSCSIDiskDrivelspv查看物理卷信息#lspvhdisk00007821160af3d76rootvghdisk1000782117f571294rootvghdisk20000000045c45bdedatavglsvg查看卷组信息#lsvgdatavgVOLUMEGROUP:datavgVGIDENTIFIER:0000000055e2458bVGSTATE:activePPSIZE:4megabyte(s)VGPERMISSION:read/writeTOTALPPs:2169(8676megabytMAXLVs:256FREEPPs:1(4megabytes)LVs:3USEDPPs:2168(8672megabytOPENLVs:2QUORUM:2TOTALPVs:1VGDEscriptORS:2STALEPVs:0STALEPPs:0ACTIVEPVs:1AUTOON:yesMAXPPsperPV:2032MAXPVs:16#lsvg-lrootvgrootvg:LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot111closed/syncdN/A.lv00jfs511021closed/stale/ibmcxxlv01jfs111open/syncd/cics_regionslv02jfs441open/syncd/var/mqmlslpp查看文件组信息#lslpp-L|grep23100020.devices.pci.23100020.rte4.3.2.7CIBMPCI10/100EthernetAdapt看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。lsattr查看设备参数设置#lsattr-Elent2busio0x7fffc00BusI/OaddressFalsebusintr9BusinterruptlevelFalseintr_priority3InterruptpriorityFalsetx_que_size512TRANSMITqueuesizeTruerx_que_size256RECEIVEqueuesizeTruerxbuf_pool_size384RECEIVEbufferpoolsizeTruemedia_speed10_Half_DuplexMediaSpeedTrueuse_alt_addrnoEnableALTERNATEETHERNETaddressTruealt_addr0x000000000000ALTERNATEETHERNETaddressTrueip_gap96Inter-PacketGapTruelscfg查看VPD信息(VirtualProductData)#lscfg-vlssa1DEVICELOCATIONDEscriptIONssa130-68IBMSSAEnhancedRAIDAdapter(14104500)PartNumber.097H0645FRUNumber. 097H0645-备件号SerialNumber.C8217227ECLevel. .0000F20825Manufacturer.IBM053ROSLevelandID.7201-微码版本LoadableMicrocodeLevel.04DeviceDriverLevel.00DisplayableMessage.SSA-ADAPTERDeviceSpecific.(Z0).DRAM=032DeviceSpecific.(Z1).CACHE=0DeviceSpecific.(Z2).000000062955dab2DeviceSpecific.(YL).P2-I7AccessaRootVolumeGroupAccessthisvolumegroupandstartashellbeforemountingthefilesystems格式化文件系统日志(jfslog)#/usr/sbin/logform/dev/hd8检查修复文件系统#fsck-y/dev/hd1(/home文件系统)#fsck-y/dev/hd2(/usr文件系统)#fsck-y/dev/hd3(/tmp文件系统)#fsck-y/dev/hd4(/文件系统)#fsck-y/dev/hd9var(/var文件系统).用exit命令退出,文件系统会自动mount起来。重建bootimage#lslv-mhd5找出bootimage所在的硬盘,如hdisk0#bosboot-ad/dev/hdisk0#bootlist-mnormal/dev/hdisk0重建启动顺序表。重启动系统#shutdown-Fr如上述步骤不奏效用系统备份带恢复系统。如备份带不能恢复,用诊断光盘(DiagnosticCDROM)检查是否坏硬盘。.CDE图形界面挂死CDE运行时不要更改网络参数(如:主机名和IP地址)更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。如CDE已经挂死远程telnet登录找出所有dt有关的进程用kill命令杀掉#ps-ef|grepdt.#killPID检查当前主机名#hostnametscf50查看主机名是否对应有效的IP地址#netstat-i|greptscf50tr0*15009.185.40tscf5050604902824700更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。#smittytcpip重新启动CDE界面#/etc/rc.dtHACMP环境下可把主机名alias到127.0.0.1上#cat/etc/hosts127.0.0.1loopbacklocalhosttscf50#loopback(lo0)name/addressbvg.系统dump发生在系统崩溃时,AIX会做dump(系统内存的快照)。此时机器会显示闪动的888102xxx0cx代码:0c9系统dump进行中。0c9状态可能会维持超过2分钟,不要关电和按reset,等待dump做完。0c0dump成功完成,这时可以断电重起。0c2手动启动dump功能0c4dump设备空间不足,只有部分信息保存下来0c5不明原因导致dump失败一般dump是由于软件出错引起(888-102-207除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。dump的有关设置估算系统dump的大小,在系统最繁忙时(内存使用最多)#sysdumpdev-e0453-041Estimateddumpsizeinbytes:53477376#lsps-aPageSpacePhysicalVolumeVolumeGroupSize%UsedActivepaging00hdisk0rootvg480MB1yeshd6hdisk1rootvg544MB1yes当前的设置#sysdumpdev-lprimary/dev/hd6-dump的主设备secondary/dev/sysdumpnullcopydirectory/var/adm/ras-dump拷贝的目录forcedcopyflagTRUEalwaysallowdumpTRUEhd6应比估算值稍大。/var/adm/ras是默认的dump拷贝目录,比较估算值,保

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论