




已阅读5页,还剩80页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AIX日常维护与故障的处理,2,第一章:日常维护部分1、AIX系统管理日常健康检查2、AIX系统日常管理常用操作第二章:故障处理部分1、硬件故障的定位与排除2、系统故障的处理方法3、HACMP双机系统故障排错第三章:备份与恢复第四章:性能监控与优化,概要,第一章:日常维护部分,4,AIX系统的日常维护,AIX系统管理日常健康检查与监控,5,AIX系统管理日常健康检查与监控,机房环境检查电源线的母头是否为左零右火电压值是否为240V零地电压是否小于1V温度(摄氏)1040湿度(%)8%80%查看硬件情况检查设备故障灯,一般为红色或黄色报警灯常亮。有没有异常声响,如硬盘、风扇等。有没有破损的电缆等,6,AIX系统管理日常健康检查与监控,检查文件系统查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。,#df-k(查看AIX的基本文件系统)Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd424576145295%259922%/dev/hd26144002806896%2296715%/usr/dev/hd9var8192454045%64932%/var/dev/hd31679361579686%891%/tmp/dev/hd116384533268%140235%/home,7,AIX系统管理日常健康检查与监控,除/usr文件系统,其他文件系统都不应太满,一般不超过80%。处理方法1:找出(删除)垃圾文件#du-sk*|sortrn|head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的mountpoint,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。,8,处理方法2:增加文件系统大小#smittychfs文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。检查文件系统的完整性#umountfilesystem_name#fsckfilesystem_name#fsck-yfilesystem_name注意:文件系统必须先umount,再做检查和修复,否则可导致未知的后果。,AIX系统管理日常健康检查与监控,9,AIX系统管理日常健康检查与监控,查看卷组信息lsvg-lvg_name有没有stale状态的逻辑卷。用syncvg命令修复。#smittysyncvg,LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot122closed/syncdN/Ahd6paging48962open/syncdN/Apaging00paging32642open/syncdN/Ahd8jfslog122open/syncdN/Ahd4jfs122open/syncd/hd2jfs32642open/syncd/usrhd9varjfs5102open/syncd/varhd3jfs482open/syncd/tmphd1jfs122open/syncd/home,10,AIX系统管理日常健康检查与监控,检查内存交换区(pagingspace)使用率#lsps-s使用率不要超过70%。增加交换区,或增加内存。观察内存大小的命令:lsattrElmem0,#lsps-sTotalPagingSpacePercentUsed2048MB15%#lspsaPageSpacePhysicalVolumeVolumeGroupSize%UsedActiveAutoTypehd6hdisk0rootvg2048MB15yesyeslv,11,AIX系统管理日常健康检查与监控,网络检查netstat-i查看网卡状态Ierrs/Ipkts和Oerrs/Opkts是否1%注:Oerrs是指从这个网卡发出去错误包数目的统计Opkts是指从这个网卡发出去的ip包个数的统计。看它们是否1%应该是指网络质量好坏。pinghost_name/IPAddress查看是否通和是否有丢包。路由表#netstat-rn查看路由表是否正确,ping各路由器是否通。核对主机名#hostname,12,AIX系统管理日常健康检查与监控,#ifconfig-a,en0:flags=4e080863inet172.40.10.31netmask0 xffff0000broadcast172.40.255.255lo0:flags=e08084binet127.0.0.1netmask0 xff000000broadcast127.255.255.255inet6:1/0,#ifconfig用法ifconfigen0inet11.0.0.1upifconfigen0ns110:02.60.8c.2c.a4.98up(还有很多),13,AIX系统管理日常健康检查与监控,#lsattrElent0,authm65536AuthenticationMethodsTruehostnameqtsmsHostNameTruegatewayGatewayTrueroutenet,0,172.40.10.1RouteTruebootup_optionnoSerialOpticalNetworkInterfaceTruerout6FDDINetworkInterfaceTrueroute属性是否有相应的路由信息。格式为:net,0,172.16.23.81如果没有缺省路由,执行命令:#chdevlinet0aroute=0,172.16.23.81其中172.16.23.81为网关如果缺省路由不正确,则先删除路由,再增加缺省路由:#chdevlinet0adelroute=net,0,133.16.23.81#chdevlinet0aroute=0,172.16.23.81,14,AIX系统管理日常健康检查与监控,系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用),15,AIX系统管理日常健康检查与监控,16,错误日志的目的,在监测到硬件、软件和操作错误时记录相应的信息用户其他的相关信息被记录下来报告通过记录产生用户能够客户化错误信息当发生某些特定的错误时,系统发出指定信息可以查询到建议操作,17,通过smit产生错误报告,显示所有的错误报告#errpt打印错误报告的模板#errpt-t按时间产生报告#errpt-a-smmddhhmmyy只报告硬件错误#errpt-d-H描述ID为F49E2A17的错误报告#errpt-a-jF49E2A17,18,报告实例,#errpt,19,参数详解,标识C:错误归类H:硬件S:软件O:系统信息已经记录U:不能确定标识T:错误类型PERM(并且C为H):显示系统遇到硬件问题并且无法自动修复PERD(并且C为H):系统硬件变为不可用并引起一系列错误系统PERM(并且C为S):显示系统遇到软件问题并且无法自动修复TEMP(并且C为S):显示系统遇到软件问题并且已经自动修复,20,磁盘错误的处理,诊断程序帮助确定问题的严重性可以格式化磁盘或进行磁盘片的检查磁盘片的检查检查在磁盘上的每一个块报告磁盘全面状况总结报告三种应该更换磁盘的情况噪声很大(Noise)经常出错错误严重,21,错误日志的清除,root用户通过手工命令errclear直接清除错误日志#errclear10清除10天以前的所有日志#errclear-dH0清除所有硬件的错误#errclear-Ndisk0删除所有资源组为disk的记录#errclear-TUNKN0删除所有类型为unknown的记录#errclear0删除所有记录,22,通过errdemon命令管理错误日志,改变错误日志的存放文件#/usr/lib/errdemon-ifilename改变文件的大小#/usr/lib/errdemon-slogsize改变内存缓冲区的大小#/usr/lib/errdemon-Bbuffersize,23,AIX系统管理日常健康检查与监控,磁带机磁带机应定期清洁,每使用30小时或至少每月清洁一次,不要等故障灯亮起后再清洁。不同类型的带机用要不同的清洗带,不要混用。用/usr/lpp/diagnostics/bin/utape-c-drmt0-n可查看磁带机使用时数。4mmDDS3磁带机可读写DDS2,但对DDS1只能读。,24,AIX系统的日常维护,AIX系统日常管理常用操作,25,AIX系统日常管理常用操作,查看机器上有几条内存及容量的方法:#lscfg-vp|grepSizeSize.256Size.256Size.256Size.256#lscfg-vp|grepDIMM|wc-l4P570上每个ProcessorCard上有8个DDRmemoryDIMMslots,所以可以通过lscfg-vp|grepProcessor看有几个ProcessorCard,如下所示,有4个ProcssorCard,共应该有32个slots。,26,AIX系统日常管理常用操作,#lscfg-vp|grepProcessorModelImplementation:MultipleProcessor,PCIbusproc0U0.1-P1-C1Processorproc1U0.1-P1-C1Processorproc2U0.1-P1-C2Processorproc3U0.1-P1-C2Processorproc4U0.1-P1-C4Processorproc5U0.1-P1-C4Processorproc6U0.1-P1-C3Processorproc7U0.1-P1-C3Processor然后再看使用了多少个Slots:数其中的memory-module的数量就可以了。#lscfg-vp|grep-pmemoryName:memory-controllerModel:IBM,Outrigger,Rev-id4Node:memory-controller7000000000000PhysicalLocation:U0.1-P1-C1Name:memory-controllerModel:IBM,Outrigger,Rev-id4Node:memory-controller7000000000010PhysicalLocation:U0.1-P1-C2,27,AIX系统日常管理常用操作,查看每个硬盘(PV)的容量方法:Bootinfoshdisk*查看HBA卡的产品数据(VPD)信息#lscfg-vlfcs0fcs0U787B.001.DNW7603-P1-C4-T1FCAdapterPartNumber.03N6441ECLevel.ASerialNumber.1B549045A3Manufacturer.001BFeatureCode/MarketingID.280BFRUNumber.03N6441DeviceSpecific.(ZM).3NetworkAddress.10000000C94CD380,28,AIX系统日常管理常用操作,系统备份除每日进行正常的用户数据备份外,建议定期进行系统备份。备份前先停止业务系统软件和HACMP软件的运行。其他无关的用户退出,停止无关的操作。系统备份只备份ROOTVG,除系统基本的5个文件系统外,其他ROOTVG上已mount上的文件系统也会被备份。用smittymksysb命令进行系统备份,备份前先清掉root的密码。每当系统作变更(安装新软件、补丁程序等)前后,都需要做系统备份。,29,AIX系统日常管理常用操作,BackUptheSystem*BackupDEVICEorFILE/dev/rmt0+/CreateMAPfiles?no+EXCLUDEfiles?no+Listfilesastheyarebackedup?no+Generatenew/image.datafile?yes+EXPAND/tmpifneeded?yes+Disablesoftwarepackingofbackup?no+MORE.2F1=HelpF2=RefreshF3=CancelF4=ListEsc+5=ResetEsc+6=CommandEsc+7=EditEsc+8=ImageEsc+9=ShellEsc+0=ExitEnter=Do位置:/etc/exclude.rootvg,30,AIX系统日常管理常用操作,检查系统备份带是否有效用备份带启动机器,但不要进行安装,我们只是验证系统备份带是否能用于启动。出现以下菜单后,关机即可。WelcometoBaseOperatingSystemInstallationandMaintenanceTypethenumberofyourchoiceandpressEnter.1StartInstallationNowwithDefaultSettings2Change/ShowInstallationSettingsandInstall3StartMaintenanceModeforSystemRecovery88Help?99PreviousMenu,31,AIX系统日常管理常用操作,#smittylsmksysb;检查系统备份带的内容。系统备份不是万能的。备份最好有两份。用户数据备份文件系统可用tar命令。数据库可用数据库的备份方式备。逻辑卷(LV)可用dd命令。smittysavevg用户卷组备份只备份mount起的文件系统。注意:不备份逻辑卷(裸设备)。,32,AIX系统日常管理常用操作,镜像(rootvg)extendvgrootvghdisk1将hdisk1加入到rootvg中mirrorvg-c2rootvg在rootvg中使两块盘做一个镜像bosboot-ad/dev/hdisk1将新加的硬盘加到引导列表里,否则第二块盘无法引导系统。bosboot-ad/dev/hdisk2bootlist-mnormalhdisk0hdisk1cd0设置启动顺序依次是hdisk0hdisk1光驱,33,AIX系统日常管理常用操作,拆镜像(rootvg)lsvgMrootvg;检查有效的pv,确认hdisk1坏unmirrorvgrootvghdisk1bosbootad/dev/hdisk0bootlistmnormalhdisk0cd0chpvchdisk1,34,AIX系统日常管理常用操作,HACMP的操作启动:smittyclstart停止:smittyclstop启动/停止过程可以查看/tmp/hacmp.out文件:#tailf/tmp/hacmp.out检查Cluster是否运行正常Cluster进程是否运行:#lssrcgcluster,至少两个进程,且为active。IP地址是否获取:#netstati,看bootIP是否变为serviceip。VG是否varyon:#lsvgo文件系统是否mount:#mount应用进程是否启动:#psef|grepapp_name,35,AIX系统日常管理常用操作,HACMP相关日志/usr/es/adm/cluster.log;以事件为单位的纪录/var/hacmp/log/hacmp.out;详细记录,第二章:故障处理部分,37,故障处理部分,弄清楚系统发生了什么问题系统现在能做什么?不能做什么?故障什么时候发生的?有没有做平时不同的操作?故障有没有规律?定时还是不定时?发生的频率有多高?是一台机器出现故障还是多台机器故障?故障现象是否相同?最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置(如HACMP配置)等。,38,故障处理部分,收集故障信息对于判断、诊断故障原因,修复系统非常重要。系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析errpt命令的使用(普通用户权限也可使用),39,故障处理部分,控制面板上的LED代码8位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。(注:S85正常启动过程中有合法的8位代码。)4位代码,通常是Exxx。3位代码,通常为0yyy,只看后3位。8位和4位代码可查看系统服务手册(ServiceGuide)。3位代码可查看系统诊断手册(DiagnosticInformationforMultipleBusSystem)。,40,故障处理部分,其他用于收集系统信息的命令lsdev-C系统设备信息#lsdev-Ccdiskhdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrivehdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrivehdisk2Defined00-06-00-4,016BitSCSIDiskDrivelspv查看物理卷信息#lspvhdisk00007821160af3d76rootvghdisk1000782117f571294rootvghdisk20000000045c45bdedatavglsvg查看卷组信息,41,故障处理部分,42,故障处理部分,43,故障处理部分,44,故障处理部分,系统不能正常启动可能由多种原因引起,硬件或软件。观察系统的启动过程。设备的故障灯是否亮起。异常的声音,如硬盘的怪声。注意LED上显示的代码,这是故障分析最重要的信息。主控台上最后显示的信息也很重要,必须记录下来。,45,系统的启动顺序,46,故障处理部分,系统停在Stage1,可能为电源、系统板、CPU、内存等硬件故障。记录故障代码通知IBM工程师。系统停在Stage2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS菜单检查启动顺序表,并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。,47,故障处理部分,发生在系统启动的第三阶段(Stage3),可能是:文件系统损坏文件系统日志(jfslog)损坏rootvg中有坏硬盘修复方法用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)启动后选择选项3StartMaintenanceModeforSystemRecoveryAccessaRootVolumeGroupAccessthisvolumegroupandstartashellbeforemountingthefilesystems,48,故障处理部分,格式化文件系统日志(jfslog)#/usr/sbin/logform/dev/hd8检查修复文件系统#fsck-y/dev/hd1(/home文件系统)#fsck-y/dev/hd2(/usr文件系统)#fsck-y/dev/hd3(/tmp文件系统)#fsck-y/dev/hd4(/文件系统)#fsck-y/dev/hd9var(/var文件系统).用exit命令退出,文件系统会自动mount起来。重建bootimage#lslv-mhd5找出bootimage所在的硬盘,如hdisk0#bosboot-ad/dev/hdisk0#bootlist-mnormal/dev/hdisk0重建启动顺序表。,49,故障处理部分,重启动系统#shutdown-Fr如上述步骤不奏效用系统备份带恢复系统。如备份带不能恢复,用诊断光盘(DiagnosticCDROM)检查是否坏硬盘。通知IBM工程师。,50,CDE运行时不要更改网络参数(如:主机名和IP地址)更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。如CDE已经挂死远程telnet登录找出所有dt有关的进程用kill命令杀掉#ps-ef|grepdt.#killPID检查当前主机名#hostnameuname-atscf50,51,查看主机名是否对应有效的IP地址#netstat-i|greptscf50tr0*15009.185.40tscf5050604902824700更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。#smittytcpip重新启动CDE界面#/etc/rc.dtHACMP环境下可把主机名alias到127.0.0.1上#cat/etc/hosts127.0.0.1loopbacklocalhosttscf50#loopback(lo0)name/addressbvg,52,发生在系统崩溃时,AIX会做dump(系统内存的快照)。此时机器会显示闪动的888102xxx0cx代码:0c9系统dump进行中。0c9状态可能会维持超过2分钟,不要关电和按reset,等待dump做完。0c0dump成功完成,这时可以断电重起。0c2手动启动dump功能0c4dump设备空间不足,只有部分信息保存下来0c5不明原因导致dump失败mostlyhdiskorsysplanererror,53,一般dump是由于软件出错引起,机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。,54,dump打包#snap-a-o/dev/rmt#或#snap-a-c把/tmp/ibmsupt目录做成一个压缩文件snap.tar.Z如果/tmp文件系统空间不够,可用-ddirectory参数指定别的目录代替/tmp/ibmsupt#smittydump,55,运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。当发现有硬件故障时应立即使用diag#diag选高级诊断(AdvanceDiagnostic)选问题诊断(ProblemDetermination)或选系统检查(SystemVerification)(选PD会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等。,56,concurrent模式多用户模式下(系统正常运行时)运行硬盘上的诊断程序。如果可能尽量使用该模式(但不要在应用程序运行时使用)。#diag运行该命令需要root权限DiagnosticCDROM用诊断光盘启动,通常在硬盘无法启动时使用。,57,58,第三章备份恢复,60,mksysb,61,磁带中的内容,62,验证系统备份,验证系统备份的方法第一个验证的方法就是:用备份磁带恢复到另一个测试的系统中,如果可以的话,那么这种方法是最好的恢复操作系统的方法第二个验证的方法就是:可以分两步:1数据验证,方法如下:tctlf/dev/rmt0rewindrestoreS4Tqvf/dev/rmt0.1/tmp/mksysb.log通过查看log文件可以看到磁带中的数据信息是否正确2启动验证,方法如下:为了证明磁带可以完成操作系统启动,需要按照安装操作系统的步骤进行重新启动的操作,然后进入磁带安装界面,看看是否能够出现相应的提示信息(注意查看bosinst.data中的prompt信息要是yes),63,磁带安装的恢复,64,续,65,如何备份非rootvg,66,Savevg的恢复,67,linux和unix下常用解压和压缩命令:,-.tar解包:tarxvfFileName.tar打包:tarcvfFileName.tarDirName(注:tar是打包,不是压缩!)-.gz解压1:gunzipFileName.gz解压2:gzip-dFileName.gz压缩:gzipFileName.tar.gz解压:tarzxvfFileName.tar.gz压缩:tarzcvfFileName.tar.gzDirName,68,linux和unix下常用解压和压缩命令:,.Z解压:uncompressFileName.Z压缩:compressFileName.tar.Z解压:tarZxvfFileName.tar.Z压缩:tarZcvfFileName.tar.ZDirName-.tgz解压:tarzxvfFileName.tgz解压:tarzxvfFileName.tar.tgz压缩:tarzcvfFileName.tar.tgzFileName-.zip解压:unzipFileName.zip压缩:zipFileName.zipDirName,第四章性能监测和优化,70,本章目的,通过AIX标准命令研究系统中CPU,内存和I/O瓶颈了解AIX相关的AIX命令使用PDT产生系统状况的报告使用perfpmr工具调整内核参数,71,PerformanceTools,#nice#renice#ps#sar#vmstat#iostat#tprof#svmon#filemonPDT(PerformanceDiagnosticTool)perfpmr(PerformanceProblemManagementRe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025办公租赁合同书(标准配置)
- 2025年微博平台内容维护服务协议合同书
- 2025确保个人反担保合同履行
- 毕业致谢合集10篇
- 毕业论文致谢范文9篇
- 2025年药剂师处方审核专业知识检测答案及解析
- 金属表面处理废渣无害化处理方案
- 2025年全科全科医学诊疗技能应用实操训练卷答案及解析
- 衢州市衢州市属事业单位招聘考试真题2024
- 2024年山西华远国际陆港集团所属企业招聘真题
- 2025年高考真题-化学(河南卷) 含答案
- 2025至2030中国手持式云台稳定器行业项目调研及市场前景预测评估报告
- JG/T 231-2018建筑玻璃采光顶技术要求
- JG/T 155-2014电动平开、推拉围墙大门
- 托业考试模拟试题及答案
- 2025消瘦诊治与管理专家共识解读课件
- DB32/T 3390-2018一体化智能泵站应用技术规范
- 2025年北京市丰台区九年级初三二模英语试卷(含答案)
- 朋友名义贷款车协议书
- GB/T 18867-2025电子气体六氟化硫
- 社交媒体使用与青少年心理健康的关系研究
评论
0/150
提交评论