




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内容提要 系统健康检查常用操作故障的处理IBM服务热线 系统健康检查 系统健康检查 机房环境检查电源线的母头是否为左零右火电压值是否为240V零地电压是否小于1V温度 摄氏 10 40 湿度 8 80 查看硬件情况检查设备故障灯 一般为橙色并有标志 有没有异常声响 如硬盘 风扇等 有没有破损的电缆等 系统健康检查 检查文件系统查看有没有 满 的文件系统 文件系统满可导致系统不能正常工作 尤其是AIX的基本文件系统 如 根文件系统 满则会导致用户不能登录 df k 查看AIX的基本文件系统 Filesystem1024 blocksFree UsedIused IusedMountedon dev hd424576145295 259922 dev hd26144002806896 2296715 usr dev hd9var8192454045 64932 var dev hd31679361579686 891 tmp dev hd116384533268 140235 home 系统健康检查 除 usr文件系统 其他文件系统都不应太满 一般不超过80 处理方法1 找出 删除 垃圾文件 du sk sort rn head查找出当前目录下占空间最大的子目录 逐层往下直到找出占空间最大的文件 要区分哪些目录是文件系统的mountpoint 哪些是文件系统的子目录 删除文件 释放空间 有时删除文件后空间并不马上释放 这是由于你删除的文件正被某个程序打开 只有当这个程序停止后空间才释放 有时甚至需要重起系统 系统健康检查 处理方法2 增加文件系统大小 smittychjfs文件系统可以在任何时候加大 前提是卷组 VG 中有剩余空间 检查文件系统的完整性 umountfilesystem name fsckfilesystem name fsck yfilesystem name注意 文件系统必须先umount 再做检查和修复 否则可导致未知的后果 系统健康检查 查看卷组信息lsvg lvg name有没有 stale 状态的逻辑卷 用syncvg命令修复 smittysyncvg LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot122closed syncdN Ahd6paging48962open syncdN Apaging00paging32642open syncdN Ahd8jfslog122open syncdN Ahd4jfs122open syncd hd2jfs32642open syncd usrhd9varjfs5102open syncd varhd3jfs482open syncd tmphd1jfs122open syncd home 系统健康检查 检查内存交换区 pagingspace 使用率 lsps s使用率不要超过70 增加交换区 或增加内存 观察内存大小的命令 lsattr Elmem0 lsps sTotalPagingSpacePercentUsed2048MB15 lsps aPageSpacePhysicalVolumeVolumeGroupSize UsedActiveAutoTypehd6hdisk0rootvg2048MB15yesyeslv 系统健康检查 网络检查netstat i查看网卡状态Ierrs Ipkts和Oerrs Opkts是否 1 pinghost name IPAddress查看是否通和是否有丢包 路由表 netstat rn查看路由表是否正确 ping各路由器是否通 核对主机名 hostname 系统健康检查 ifconfig a en0 flags 4e080863inet172 40 10 31netmask0 xffff0000broadcast172 40 255 255lo0 flags e08084binet127 0 0 1netmask0 xff000000broadcast127 255 255 255inet6 1 0 ifconfig用法ifconfigen0inet11 0 0 1upifconfigen0ns110 02 60 8c 2c a4 98up 还有很多 系统健康检查 lsattr Elinet0 authm65536AuthenticationMethodsTruehostnameqtsmsHostNameTruegatewayGatewayTrueroutenet 0 172 40 10 1RouteTruebootup optionnoSerialOpticalNetworkInterfaceTruerout6FDDINetworkInterfaceTrueroute属性是否有相应的路由信息 格式为 net 0 172 16 23 81如果没有缺省路由 执行命令 chdev linet0 aroute 0 172 16 23 81其中172 16 23 81为网关如果缺省路由不正确 则先删除路由 再增加缺省路由 chdev linet0 adelroute net 0 133 16 23 81 chdev linet0 aroute 0 172 16 23 81 系统健康检查 检查dump设置 sysdumpdev lprimary dev hd6secondary dev sysdumpnullcopydirectory var adm rasforcedcopyflagTRUEalwaysallowdumpFALSEdumpcompressionOFF若不正确请用下列命令修改 sysdumdev P p dev hd6 s dev sysdumpnull 系统健康检查 系统故障记录 errorlog errdemon进程在系统启动时自动运行记录包括硬件 软件及其他操作信息故障记录文件为 var adm ras errlog 可备份下来或拷贝到别的机器上分析errpt命令的使用 普通用户权限也可使用 系统健康检查 系统健康检查 系统健康检查 系统健康检查 发给root的mail信息 mail mail f 查看已经存起来的邮件 Ctrl d 存盘退出 存在 var spool Mail目录下 每个用户一个文件 mhmail 将邮件另存至 Mail inbox目录下 每个邮件一个文件系统会定期将PD的结果以邮件形式发送给root 比errlog更详细准确 系统健康检查 磁带机磁带机应定期清洁 每使用30小时 8mm20GB为72小时 或至少每月清洁一次 不要等故障灯亮起后再清洁 不同类型的带机用要不同的清洗带 不要混用 用 usr lpp diagnostics bin utape c drmt0 n 可查看磁带机使用时数 4mmDDS3磁带机可读写DDS2 但对DDS1只能读 8mm20GB磁带机只能读5GB和7GB磁带 而且在读过低密度磁带后需要清洗 所以最好不要使用低密度磁带 需要清洗时液晶板上有提示信息 系统健康检查 磁盘阵列状态检查 ssadisk 如果在errlog或mail中发现了ssa的报错 则进入smittyssaraid详细观察 系统健康检查 ListingAllDefinedSSARAIDArraysCOMMANDSTATUSCommand OKstdout yesstderr noBeforecommandcompletion additionalinstructionsmayappearbelow hdisk3095231779F0737Kgood3 4GRAID 5arrayhdisk409523173A02137Kgood3 4GRAID 5arrayF1 HelpF2 RefreshF3 CancelF6 CommandF8 ImageF9 ShellF10 Exit Findn FindNext 系统健康检查 ListingorIdentifyingSSAPhysicalDiskDrives 系统健康检查 ssa在errlog中的报错形式OpenLink 不一定是故障ResourceUnavailable Pdiskerror Others pdisk的状态Good FailedFree System ArrayCandidate Hotspare Rejectedssaraid的状态Good Exposed Degraded Rebuilding Offline 常用操作 常用操作 系统备份 系统备份除每日进行正常的用户数据备份外 建议定期进行系统备份 备份前先停止业务系统软件和HACMP软件的运行 其他无关的用户退出 停止无关的操作 系统备份只备份ROOTVG 除系统基本的5个文件系统外 其他ROOTVG上已mount上的文件系统也会被备份 用smittymksysb命令进行系统备份 备份前先清掉root的密码 每当系统作变更 安装新软件 补丁程序等 前后 都需要做系统备份 常用操作 系统备份 BackUptheSystemTypeorselectvaluesinentryfields PressEnterAFTERmakingalldesiredchanges TOP EntryFields WARNING Executionofthemksysbcommandwillresultinthelossofallmaterialpreviouslystoredontheselectedoutputmedium Thiscommandbacksuponlyrootvgvolumegroup BackupDEVICEorFILE dev rmt0 CreateMAPfiles no EXCLUDEfiles no Listfilesastheyarebackedup no Generatenew image datafile yes EXPAND tmpifneeded yes Disablesoftwarepackingofbackup no MORE 2 F1 HelpF2 RefreshF3 CancelF4 ListEsc 5 ResetEsc 6 CommandEsc 7 EditEsc 8 ImageEsc 9 ShellEsc 0 ExitEnter Do 常用操作 系统备份 检查系统备份带是否有效用备份带启动机器 但不要进行安装 我们只是验证系统备份带是否能用于启动 出现以下菜单后 关机即可 WelcometoBaseOperatingSystemInstallationandMaintenanceTypethenumberofyourchoiceandpressEnter 1StartInstallationNowwithDefaultSettings2Change ShowInstallationSettingsandInstall3StartMaintenanceModeforSystemRecovery88Help 99PreviousMenu 常用操作 系统备份 smittylsmksysb 检查系统备份带的内容 系统备份不是万能的 备份最好有两份 用户数据备份文件系统可用tar命令 切记不要使用绝对路径 数据库可用数据库的备份方式备 逻辑卷 LV 可用dd命令 smittysavevg用户卷组备份只备份mount起的文件系统 注意 不备份逻辑卷 裸设备 常用操作 系统备份 磁带机卡带子时可尝试RESET磁带机 按住磁带机的弹出按钮15 30秒 直到磁带机液晶面板显示RESET 磁带RESET后磁带应能弹出 此方法仅适用于8mm20GB磁带机 diag cdrmt0 tctl f dev rmt0reset如果上述方法均不奏效 则只有重起机器 常用操作 镜像 镜像 rootvg lspv lsvg lrootvg lsvgrootvg lsvg prootvg lslv mlv name lsvg Mrootvgextendvg frootvghdisk1chvg ay Qnrootvgmirrorvg Srootvghdisk0hdisk1bosboot a l dev hd5 d dev hdisk1bootlist mnormalhdisk0hdisk1syncvg vrootvg 常用操作 镜像 拆镜像 rootvg lsvg Mrootvg 检查有效的pv 确认hdisk1坏unmirrorvgrootvghdisk1bosboot a d dev hdisk0bootlist mnormalhdisk0cd0mkboot c d dev hdisk1sysdumpdev l 检查dump所在的lv 缺省hd6 sysdumpdev P p dev hd6 reducevgrootvghdisk1rmdev dlhdisk1shutdown Fr 常用操作 HACMP的操作 HACMP的操作启动 smittyclstart停止 smittyclstop启动 停止过程可以查看 tmp hacmp out文件 tail f tmp hacmp out检查Cluster是否运行正常Cluster进程是否运行 lssrc gcluster 至少两个进程 且为active IP地址是否获取 netstat i 看bootIP是否变为serviceip VG是否varyon lsvg o文件系统是否mount mount应用进程是否启动 ps ef grepapp name 常用操作 HACMP的操作 HACMP相关日志 usr es adm cluster log 以事件为单位的纪录 tmp hacmp out 详细记录 usr sbin cluster history cluster mmdd 历史纪录 常用操作 dump设置 dump的有关设置估算系统dump的大小 在系统最繁忙时 内存使用最多 sysdumpdev e0453 041Estimateddumpsizeinbytes 53477376 lsps aPageSpacePhysicalVolumeVolumeGroupSize UsedActivepaging00hdisk0rootvg480MB1yeshd6hdisk1rootvg544MB1yes当前的设置 sysdumpdev lprimary dev hd6 dump的主设备secondary dev sysdumpnullcopydirectory var adm ras dump拷贝的目录forcedcopyflagTRUEalwaysallowdumpTRUEhd6应比估算值稍大 2020 3 15 35 可编辑 常用操作 dump设置 var adm ras是默认的dump拷贝目录 比较估算值 保证 var文件系统有足够的剩余空间拷贝dump文件 否则机器重起时会提示用户插入磁带 dump文件名为vmcore 建立一个新的dump设备 smittylv例如 lv name dump lv type sysdump sysdumpdev P p dev dump lv 故障处理 故障处理 故障的定义 弄清楚系统发生了什么问题系统现在能做什么 不能做什么 故障什么时候发生的 有没有做平时不同的操作 故障有没有规律 定时还是不定时 发生的频率有多高 是一台机器出现故障还是多台机器故障 故障现象是否相同 最近有没有做改动 如安装了新的硬件 软件 改变了系统的一些设置 如HACMP配置 等 故障处理 故障信息的收集 收集故障信息对于判断 诊断故障原因 修复系统非常重要 系统故障记录 errorlog errdemon进程在系统启动时自动运行记录包括硬件 软件及其他操作信息故障记录文件为 var adm ras errlog 可备份下来或拷贝到别的机器上分析errpt命令的使用 普通用户权限也可使用 故障处理 故障信息的收集 控制面板上的LED代码8位代码 通常系统故障灯会同时亮起 某些机型还会同时显示故障设备位置代码 注 S85正常启动过程中有合法的8位代码 4位代码 通常是Exxx 3位代码 通常为0yyy 只看后3位 8位和4位代码可查看系统服务手册 ServiceGuide 3位代码可查看系统诊断手册 DiagnosticInformationforMultipleBusSystem 故障处理 故障信息的收集 控制面板上的LED代码查看DiagnosticInformationforMultipleBusSystems手册 故障处理 故障信息的收集 控制面板上的LED代码 续 闪动的888 系统崩溃 硬件或软件原因造成 按reset键会显示更多内容 888 102一般为软件故障 888 102 207例外 系统会产生一个dump 888 102 xxx 0C9系统正在做dump 请等待 888 102 xxx 0C0系统dump完成 可关电重启 888 103或105硬件故障 一般有SRN代码及位置代码 故障处理 故障信息的收集 SMS SystemManagementService 故障记录如何进入SMS菜单当主控台出现键盘图标后 LED显示E1F1时 按F1键 字符终端按1键 X80机型则无论是字符主控还是图形主空台 一律按键盘左上角的1键 选择 Utilities 选择 ErrorLog 抄下8位故障代码在SMS中还可以更改系统启动顺序表 mail系统会向root用户发mail报告出错信息 通常系统出现故障后没有进行检查修复 系统会定时提醒root 故障处理 故障信息的收集 其他用于收集系统信息的命令lsdev C系统设备信息 lsdev Ccdiskhdisk0Available00 06 00 2 04 5GB16BitSCSIDiskDrivehdisk1Available00 06 00 1 04 5GB16BitSCSIDiskDrivehdisk2Defined00 06 00 4 016BitSCSIDiskDrivelspv查看物理卷信息 lspvhdisk00007821160af3d76rootvghdisk1000782117f571294rootvghdisk20000000045c45bdedatavglsvg查看卷组信息 故障处理 故障信息的收集 故障处理 故障信息的收集 故障处理 故障信息的收集 故障处理 系统不能启动 系统不能正常启动可能由多种原因引起 硬件或软件 观察系统的启动过程 设备的故障灯是否亮起 异常的声音 如硬盘的怪声 注意LED上显示的代码 这是故障分析最重要的信息 主控台上最后显示的信息也很重要 必须记录下来 alog ot系统的启动顺序 故障处理 系统不能启动 故障处理 系统不能启动 系统停在Stage1 可能为电源 系统板 CPU 内存等硬件故障 记录故障代码通知IBM工程师 系统停在Stage2 可能是启动顺序表 bootlist 损坏或I O子系统故障 可尝试进入SMS菜单检查启动顺序表 并修改 若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障 若根本没有SCSI设备可选则链路有问题 系统停在Stage3 可能是硬盘数据损坏 系统设置文件出错 或I O子系统故障 故障处理 系统停在551 555或557 发生在系统启动的第三阶段 Stage3 可能是 文件系统损坏文件系统日志 jfslog 损坏rootvg中有坏硬盘修复方法用系统光盘或系统备份带启动 必须与硬盘中的操作系统版本一致 启动后选择选项3 StartMaintenanceModeforSystemRecovery AccessaRootVolumeGroup Accessthisvolumegroupandstartashellbeforemountingthefilesystems 故障处理 系统停在551 555或557 格式化文件系统日志 jfslog usr sbin logform dev hd8检查修复文件系统 fsck y dev hd1 home文件系统 fsck y dev hd2 usr文件系统 fsck y dev hd3 tmp文件系统 fsck y dev hd4 文件系统 fsck y dev hd9var var文件系统 用exit命令退出 文件系统会自动mount起来 重建bootimage lslv mhd5找出bootimage所在的硬盘 如hdisk0 bosboot ad dev hdisk0 bootlist mnormal dev hdisk0重建启动顺序表 故障处理 系统停在551 555或557 重启动系统 shutdown Fr如上述步骤不奏效用系统备份带恢复系统 如备份带不能恢复 用诊断光盘 DiagnosticCDROM 检查是否坏硬盘 通知IBM工程师 故障处理 主控台不能登录 字符终端有时会出现不能登录的情形 可先尝试关掉终端 重开 如果不行则可能是getty进程运行不正常 远程telnet登录检查 getty 进程是否运行正常 ps ef grepconsoleroot2917010Jul24lft00 00 usr sbin getty dev console如 getty 正常 查看主控台端口是否正确 lscons查看主控台设备 dev tty0 lsdev C ltty0查看端口是否可用 连线是否正确tty0Available01 S1 00 00AsynchronousTerminal lsattr Eltty0看端口参数是否正确 如波特率 故障处理 主控台不能登录 如 getty 没有运行在主控台上 检查 etc inittab文件有否cons 0123456789 respawn etc getty dev console更正后运行 initQ 命令激活主控端口 如getty确实在运行 则可能是终端的硬件问题 故障处理 CDE图形界面挂死 CDE运行时不要更改网络参数 如 主机名和IP地址 更改网卡设置 请先退出CDE图形环境 选择命令行方式登录 在字符界面下更改 如CDE已经挂死远程telnet登录找出所有dt有关的进程用kill命令杀掉 ps ef grepdt killPID检查当前主机名 hostnameuname atscf50 故障处理 CDE图形界面挂死 查看主机名是否对应有效的IP地址 netstat i greptscf50tr0 15009 185 40tscf5050604902824700更改主机名或IP地址 使主机名与当前有效的IP地址存在对应关系 smittytcpip重新启动CDE界面 etc rc dtHACMP环境下可把主机名alias到127 0 0 1上 cat etc hosts127 0 0 1loopbacklocalhosttscf50 loopback lo0 name addressbvg 故障处理 系统dump 发生在系统崩溃时 AIX会做dump 系统内存的快照 此时机器会显示闪动的888102xxx0cx代码 0c9系统dump进行中 0c9状态可能会维持超过2分钟 不要关电和按reset 等待dump做完 0c0dump成功完成 这时可以断电重起 0c2手动启动dump功能0c4dump设备空间不足 只有部分信息保存下来0c5不明原因导致dump失败mo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 情绪饱满进入职场课件
- 2026届福建省福州市福建师大附中化学高二第一学期期末达标测试试题含答案
- 2026届蚌埠市重点中学化学高三上期末质量跟踪监视模拟试题含解析
- 春季学期教务处工作方案
- 幼儿园班务新学期工作方案
- 酒吧营销活动方案年
- 全年销售工作方案
- 调查队面试题及答案
- 旅游营销活动策划方案
- 税务延期面试题及答案
- 唯奋斗最青春+课件-2026届跨入高三第一课主题班会
- 共青团中央所属事业单位2024年度社会公开招聘笔试备考题库参考答案详解
- 2025年《分级护理制度》考试试题(及答案)
- 高中喀斯特地貌说课课件
- 气候变化与健康课件
- 公司电脑配备管理办法
- 2025年中国花盆人参行业市场发展前景及发展趋势与投资战略研究报告
- 留疆战士考试试题及答案
- 大学生创新创业基础(创新创业课程)完整全套教学课件
- 楼板下加钢梁加固施工方案
- 常见皮肤病的种类及症状图片、简介大全课件
评论
0/150
提交评论