aix日常维护课件_第1页
aix日常维护课件_第2页
aix日常维护课件_第3页
aix日常维护课件_第4页
aix日常维护课件_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

aix日常维护31、园日涉以成趣,门虽设而常关。32、鼓腹无所思。朝起暮归眠。33、倾壶绝余沥,窥灶不见烟。34、春秋满四泽,夏云多奇峰,秋月扬明辉,冬岭秀孤松。35、丈夫志四海,我愿不知老。aix日常维护aix日常维护31、园日涉以成趣,门虽设而常关。32、鼓腹无所思。朝起暮归眠。33、倾壶绝余沥,窥灶不见烟。34、春秋满四泽,夏云多奇峰,秋月扬明辉,冬岭秀孤松。35、丈夫志四海,我愿不知老。RS6000的日常管理和故障的处理RS6000Admin&PDRS6000Admin&PD日常管理故障的处理IBM服务热线8008101818(6677)内容提要系统健康检查处理方法2:增加文件系统大小#smittychjfs 文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。检查文件系统的完整性#umountfilesystem_name#fsck-yfilesystem_name注意:文件系统必须先umount,再做检查和修复,否则可导致未知的后果。日常管理系统健康检查日常管理查看卷组信息lsvg-lvg_name有没有"stale"状态的逻辑卷。用syncvg命令修复。检查内存交换区(pagingspace)使用率lsps-s使用率不要超过70%。增加交换区,或增加内存。检查进程:lssrc-a/ps-ef系统健康检查日常管理网络检查netstat-i查看网卡状态Ierrs/Ipkts和Oerrs/Opkts是否>1%pinghost_name/IPAddress查看是否通和是否有丢包。路由表#netstat-rn查看路由表是否正确,ping各路由器是否通。主机名#hostname备份日常管理系统备份(mksysb)除每日进行正常的用户数据备份外,建议定期进行系统备份。备份前先停止业务系统软件和HACMP软件的运行。签退其他无关的用户,停止其他无关的操作。系统备份只备份ROOTVG,除系统基本的5个文件系统外,其他ROOTVG上已mount上的文件系统也会被备份。用smitttymksysb命令进行系统备份,备份前先清掉root的密码。每当系统作变更(安装新软件、补丁程序等)前后,都需要做系统备份。

BackUptheSystemTypeorselectvaluesinentryfields.PressEnterAFTERmakingalldesiredchanges.[TOP][EntryFields]WARNING:Executionofthemksysbcommandwill

resultinthelossofallmaterialpreviouslystoredontheselectedoutputmedium.Thiscommandbacksuponlyrootvgvolumegroup.*BackupDEVICEorFILE[/dev/rmt0]+/CreateMAPfiles?no+EXCLUDEfiles?no+

Listfilesastheyarebackedup?no+Generatenew/image.datafile?yes+

EXPAND/tmpifneeded?

yes+Disablesoftwarepackingofbackup?no+[MORE...2]F1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Do

备份日常管理检查系统备份带是否有效用备份带启动机器,但不要进行安装,我们只是验证系统备份带是否能用于启动。出现以下菜单后,关机即可。WelcometoBaseOperatingSystemInstallationandMaintenanceTypethenumberofyourchoiceandpressEnter.>>> 1StartInstallationNowwithDefaultSettings 2Change/ShowInstallationSettingsandInstall 3StartMaintenanceModeforSystemRecovery88Help?99PreviousMenu备份日常管理#smittylsmksysb 检查系统备份带的内容。系统备份不是万能的。备份最好有两份。用户数据备份文件系统可用tar命令,切记不要使用绝对路径。数据库可用数据库的备份方式备。逻辑卷(LV)可用dd命令。smittysavevg用户卷组备份只备份mount起的文件系统。注意:不备份逻辑卷(裸设备)。备份日常管理磁带机磁带机应定期清洁,每使用30小时(8mm20GB为72小时)或至少每月清洁一次,不要等故障灯亮起后再清洁。不同类型的带机用要不同的清洗带,不要混用。用"/usr/lpp/diagnostics/bin/utape-c-drmt0-n"可查看磁带机使用时数。4mmDDS3磁带机可读写DDS2,但对DDS1只能读。8mm20GB磁带机只能读5GB和7GB磁带,而且在读过低密度磁带后需要清洗,所以最好不要使用低密度磁带。需要清洗时液晶板上有提示信息。备份日常管理磁带机卡带子时可尝试RESET磁带机。按住磁带机的弹出按钮15~30秒,直到磁带机液晶面板显示RESET。磁带RESET后磁带应能弹出。(此方法仅适用于8mm20GB磁带机)#diag-cdrmt0#tctl-f/dev/rmt0reset如果上述方法均不奏效,则只有重起机器。故障的定义故障的处理弄清楚系统发生了什么问题系统现在能做什么?不能做什么?故障什么时候发生的?有没有做平时不同的操作?故障有没有规律?定时还是不定时?发生的频率有多高?是一台机器出现故障还是多台机器故障?故障现象是否相同?最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。故障信息的收集故障的处理收集故障信息对于判断、诊断故障原因,修复系统非常重要。系统故障记录(errorlog)errdemon

进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt

命令的使用(普通用户权限也可使用)故障信息的收集故障的处理#errpt|more列出简短出错信息ERROR_ID TIMESTAMPTC RESOURCE_NAMEERROR_DESCRIPTION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED10720131000PHmem2Memoryfailure9DBCFDEE0701000000T0errdemonErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日时分年)T(类型):P永久;T临时;U未知 (永久性的错误应引起重视)C(分类):H硬件;S软件;O用户;U未知#errpt-dH列出所有硬件出错信息#errpt-dS列出所有软件出错信息#errpt-ajERROR_ID列出详细出错信息#errpt-aj0502f666 <ERROR_ID用大小写均可LABEL:SCSI_ERR1ID:0502F666Date/Time:Jun1922:29:51SequenceNumber:95MachineID:123456789012NodeID:host1Class:HType:PERMResourceName:scsi0ResourceClass:adapterResourceType:hscsiLocation:00-08VPD: <VirtalProductDataDeviceDriverLevel00DiagnosticLevel00DisplayableMessageSCSIECLevelC25928FRUNumber30F8834ManufacturerIBM97FPartNumber59F4566SerialNumber00002849ROSLevelandID24Read/WriteRegisterPtr0120

DescriptionADAPTERERRORProbableCausesADAPTERHARDWARECABLECABLETERMINATORDEVICEFailureCausesADAPTERCABLELOOSEORDEFECTIVERecommendedActionsPERFORMPROBLEMDETERMINATIONPROCEDURESCHECKCABLEANDITSCONNECTIONSDetailDataSENSEDATA000000000000000000000000000000000000000000000000

故障信息的收集故障的处理控制面板上的LED代码8位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。4位代码,通常是Exxx。3位代码,通常为0yyy,只看后3位。8位和4位代码可查看系统服务手册(ServiceGuide)。3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBusSystem)。LEDCodesLEDCodesLEDCodes查看DiagnosticInformationforMultipleBusSystems手册故障信息的收集故障的处理控制面板上的LED代码(续)闪动的888,系统崩溃,硬件或软件原因造成。按reset键会显示更多内容。888-102一般为软件故障(888-102-207例外)系统会产生一个dump。888-102-xxx-0C9系统正在做dump,请等待。888-102-xxx-0C0系统dump完成,可关电重启。888-103或105硬件故障,一般有SRN代码及位置代码。故障信息的收集故障的处理SMS(SystemManagementService)故障记录如何进入SMS菜单当主控台出现键盘图标后(LED显示E1F1时)按F1键。字符终端按1键。(X80机型则无论是字符主控还是图形主控台,一律按键盘左上角的1键)选择"Utilities"

选择"ErrorLog",抄下8位故障代码(在SMS中还可以更改系统启动顺序表)#mail系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。故障信息的收集故障的处理运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。当发现有硬件故障时应立即使用diag#diag>选高级诊断(AdvanceDiagnostic)>选问题诊断(ProblemDetermination)或选系统检查(SystemVerification)(选PD会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。故障信息的收集故障的处理其他用于收集系统信息的命令lsdev-C 系统设备信息#lsdev-Ccdiskhdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrivehdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrivehdisk2Defined 00-06-00-4,016BitSCSIDiskDrivelspv 查看物理卷信息#lspvhdisk00007821160af3d76rootvghdisk1000782117f571294rootvghdisk20000000045c45bdedatavglsvg 查看卷组信息#lsvgdatavgVOLUMEGROUP:datavgVGIDENTIFIER:0000000055e2458bVGSTATE:activePPSIZE:4megabyte(s)VGPERMISSION:read/writeTOTALPPs:2169(8676megabytMAXLVs:256FREEPPs:1(4megabytes)LVs:3USEDPPs:2168(8672megabytOPENLVs:2QUORUM:2TOTALPVs:1VGDESCRIPTORS:2STALEPVs:0STALEPPs:0ACTIVEPVs:1AUTOON:yesMAXPPsperPV:2032MAXPVs:16#lsvg-lrootvgrootvg:LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot111closed/syncdN/A...lv00jfs511021closed/stale/ibmcxxlv01jfs111open/syncd/cics_regionslv02jfs441open/syncd/var/mqmlslpp 查看文件组信息#lslpp-L|grep23100020devices.pci.23100020.rte4.3.2.7CIBMPCI10/100EthernetAdapt看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。lsattr 查看设备参数设置#lsattr-Elent2busio0x7fffc00BusI/OaddressFalsebusintr9BusinterruptlevelFalseintr_priority3InterruptpriorityFalsetx_que_size512TRANSMITqueuesizeTruerx_que_size256RECEIVEqueuesizeTruerxbuf_pool_size384RECEIVEbufferpoolsizeTruemedia_speed10_Half_DuplexMediaSpeedTrueuse_alt_addrnoEnableALTERNATEETHERNETaddressTruealt_addr0x000000000000ALTERNATEETHERNETaddressTrueip_gap96Inter-PacketGapTruelscfg 查看VPD信息(VirtualProductData)#lscfg-vlssa1DEVICELOCATIONDESCRIPTIONssa130-68IBMSSAEnhancedRAIDAdapter(14104500)PartNumber097H0645

FRUNumber097H0645<--备件号

SerialNumberC8217227ECLevel0000F20825ManufacturerIBM053

ROSLevelandID7201 <--微码版本

LoadableMicrocodeLevel04DeviceDriverLevel00DisplayableMessageSSA-ADAPTERDeviceSpecific.(Z0)DRAM=032 DeviceSpecific.(Z1)CACHE=0DeviceSpecific.(Z2)000000062955dab2DeviceSpecific.(YL)P2-I7 <--槽号不同的硬件设备有不同的VPD,所含的格式和信息都不一样。通常备件号和微码版本最有参考价值。注:FRU(FieldReplaceUnit)才是真正的备件号。

系统不能启动故障的处理系统不能正常启动可能由多种原因引起,硬件或软件。观察系统的启动过程。设备的故障灯是否亮起。异常的声音,如硬盘的怪声。注意LED上显示的代码,这是故障分析最重要的信息。主控台上最后显示的信息也很重要,必须记录下来。系统的启动顺序系统的启动(PCI型号)检测电源、CPU、内存等

Fxx,Exxx或8位代码图标/字符:键盘、内存、网络、SCSI、喇叭LEDE1F1按F1键进入SMS菜单。主控台上可能显示8位错误代码图标消失,按bootlist查找启动设备找到可用的bootimage后显示"Softwarestartingpleasewait"LED开始显示0yyy代码

0300-0999>>C32/C33检测所有的硬盘、设备,更新ODM等

570: SCSI硬盘

80C: SSA硬盘

581: TCP/IP子系统Stage1Stage2Stage3系统不能启动故障的处理系统停在Stage1,可能为电源、系统板、CPU、内存等硬件故障。记录故障代码通知IBM工程师。系统停在Stage2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS菜单检查启动顺序表,并修改。若在选择bootlist时没有硬盘设备可选 或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。系统停在551,555或557故障的处理发生在系统启动的第三阶段(Stage3),可能是:文件系统损坏文件系统日志(jfslog)损坏

rootvg中有坏硬盘修复方法用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)启动后选择选项3"StartMaintenanceModeforSystemRecovery" >"AccessaRootVolumeGroup" >"Accessthisvolumegroupandstartashell beforemountingthefilesystems"系统停在551,555或557故障的处理格式化文件系统日志(jfslog)#/usr/sbin/logform/dev/hd8检查修复文件系统#fsck-y/dev/hd1 (/home文件系统)#fsck-y/dev/hd2 (/usr文件系统)#fsck-y/dev/hd3 (/tmp文件系统)#fsck-y/dev/hd4 (/文件系统)#fsck-y/dev/hd9var (/var文件系统)......用exit命令退出,文件系统会自动mount起来。重建bootimage#lslv-mhd5 找出bootimage所在的硬盘,如hdisk0#bosboot-ad/dev/hdisk0#bootlist-mnormal/dev/hdisk0重建启动顺序表。系统停在551,555或557故障的处理重启动系统#shutdown-Fr如上述步骤不奏效用系统备份带恢复系统。如备份带不能恢复,用诊断光盘(DiagnosticCDROM)检查是否坏硬盘。通知IBM工程师。主控台不能登录故障的处理字符终端有时会出现不能登录的情形,可先尝试关掉终端,重开。如果不行则可能是getty进程运行不正常。远程telnet登录检查"getty"进程是否运行正常#ps-ef|grepconsoleroot2917010Jul24lft00:00/usr/sbin/getty/dev/console如"getty"正常,查看主控台端口是否正确#lscons 查看主控台设备/dev/tty0#lsdev-C-ltty0 查看端口是否可用,连线是否正确tty0Available

01-S1-00-00AsynchronousTerminal#lsattr-Eltty0 看端口参数是否正确,如波特率主控台不能登录故障的处理如"getty"没有运行在主控台上,检查/etc/inittab文件有否cons:0123456789:respawn:/etc/getty/dev/console更正后运行"initQ"命令激活主控端口。如getty确实在运行,则可能是终端的硬件问题。CDE图形界面挂死故障的处理CDE运行时不要更改网络参数(如:主机名和IP地址)更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。如CDE已经挂死远程telnet登录找出所有dt有关的进程用kill命令杀掉#ps-ef|grepdt......#killPID检查当前主机名#hostname tscf50CDE图形界面挂死故障的处理查看主机名是否对应有效的IP地址#netstat-i|greptscf50 tr0*15009.185.40tscf5050604902824700更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。#smittytcpip重新启动CDE界面#/etc/rc.dt HACMP环境下可把主机名alias到127.0.0.1上#cat/etc/hosts127.0.0.1loopbacklocalhosttscf50#loopback(lo0)name/addressbvg系统dump故障的处理发生在系统崩溃时,AIX会做dump(系统内存的快照)。此时机器会显示闪动的888102xxx0cx代码:0c9 系统dump进行中。0c9状态可能会维持超过2分钟, 不要关电和按reset,等待dump做完。0c0 dump成功完成,这时可以断电重起。0c2 手动启动dump功能0c4 dump设备空间不足,只有部分信息保存下来0c5 不明原因导致dump失败系统dump故障的处理一般dump是由于软件出错引起(888-102-207除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。系统dump故障的处理dump的有关设置估算系统dump的大小,在系统最繁忙时(内存使用最多)#sysdumpdev-e0453-041Estimateddumpsizeinbytes:53477376

#lsps-aPageSpacePhysicalVolumeVolumeGroupSize%UsedActivepaging00hdisk0rootvg480MB1yeshd6hdisk1rootvg544MB1yes当前的设置#sysdumpdev-l primary/dev/hd6 <--dump的主设备secondary/dev/sysdumpnullcopydirectory/var/adm/ras <--dump拷贝的目录forcedcopyflagTRUEalwaysallowdumpTRUE

hd6应比估算值稍大。系统dump故障的处理/var/adm/ras是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。否则机器重起时会提示用户插入磁带。dump文件名为vmcore.#

对PCI机型如要手动做dump,须把"alwaysallowdump"先设成true。#sysdumpdev-Kdump打包#snap-a-o/dev/rmt# 或#snap-a-c 把/tmp/ibmsupt目录做成一个压缩文件

snap.tar.Z如果/tmp文件系统空间不够, 可用-ddirectory参数指定别的目录代 替/tmp/ibmsupt诊断程序(Diagnostic)的使用故障的处理concurrent模式多用户模式下(系统正常运行时)运行硬盘上的诊断程序。如果可能尽量使用该模式(但不要在应用程序运行时使用)。#diag 运行该命令需要root权限Stand-alone模式用硬盘上的诊断程序,在机器启动时钥匙打到Service位置(MCA机型)或按F6/6(PCI机型)。系统启动后自动运行诊断程序。DiagnosticCDROM用诊断光盘启动,通常在硬盘无法启动时使用。FUNCTIONSELECTION801002Movecursortoselection,thenpressEnter.

DiagnosticRoutinesThisselectionwilltestthemachinehardware.Wrapplugsandotheradvancedfunctionswillnotbeused.

AdvancedDiagnosticsRoutinesThisselectionwilltestthemachinehardware.Wrapplugsandotheradvancedfunctionswillbeused.

TaskSelection(Diagnostics,AdvancedDiagnostics,ServiceAids,etc.)Thisselectionwilllistthetaskssupportedbytheseprocedures.Onceataskisselected,aresourcemenumaybepresentedshowingallresourcessupportedbythetask.

ResourceSelectionThisselectionwilllisttheresourcesinthesystemthataresupportedbytheseprocedures.Oncearesourceisselected,ataskmenuwillbepresentedshowingalltasksthatcanberunontheresource(s).F1=HelpEsc+0=ExitF3=PreviousMenu

选择诊断或高级诊断进入以下菜单:DIAGNOSTICMODESELECTION801003Movecursortoselection,thenpressEnter.

SystemVerificationThisselectionwilltestthesystem,butwillnotanalyzetheerrorlog.Usethisoptiontoverifythatthemachineisfunctioningcorrectlyaftercompletingarepairoranupgrade.

ProblemDeterminationThisselectionteststhesystemandanalyzestheerrorlogifoneisavailable.Usethisoptionwhenaproblemissuspectedonthemachine.系统检查(SystemVerification)只检查设备的当前状态,并不分析故障记录问题诊断(ProblemDetermination)检测设备并分析故障记录,解读sense数据,给出SRN代码。PCI机型出现"machinecheck""checkstop"故障,必须在7天内运行故障诊断。定时的mail报错信息故障的处理每天定时收到mail报错信息,而所指的硬件确实是好的。这种情况经常发生在系统意外掉电后,或更换设备后没有运行诊断程序。处理方法#diag选高级诊断(AdvancedDiagnosticsRoutines)选系统检查(SystemVerfication)选mail里所指的设备,如果报电源、风扇故障,选择sysplanar0进行检查。如果硬件确实没有问题,诊断程序会提示该设备曾经有出错信息,问是否已更换或更正?选中该设备按F7确认。退出诊断程序,如果还是继续收到mail,通知IBMADVANCEDDIAGNOSTICSELECTION801006Fromthelistbelow,selectanynumberofresourcesbymovingthecursortotheresourceandpressing'Enter'.<--用回车选中设备Tocanceltheselection,press'Enter'again.Tolistthesupportedtasksfortheresourcehighlighted,press'List'.Onceallselectionshavebeenmade,press'Commit'.Toexitwithoutselectingaresource,pressthe'Exit'key.[TOP]AllResourcesThisse

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论