AIX操作系统运行维护手册Ver10_第1页
AIX操作系统运行维护手册Ver10_第2页
AIX操作系统运行维护手册Ver10_第3页
AIX操作系统运行维护手册Ver10_第4页
AIX操作系统运行维护手册Ver10_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、AIX操作系统工作手册文件编号版本0.1作 成 日2013年10月24日修 订 日发 布 日修改履历序号版本修改日期章节号修改记录修改人批准人10.12013/10/23创建修游目录1引言51.1编写目的51.2适用范围51.3预期读者51.4文档说明52操作系统健康性检查62.1系统日志6系统硬件错误日志检查6系统所有错误日志检查7系统错误日志Core_dump检查8系统错误日志DELAYED_INT检查9系统邮件日志内容检查9系统邮件日志大小检查11登录失败日志文件大小检查11登录日志文件大小检查12su日志文件大小检查13异常终止的vi日志文件大小检查132.2系统性能14系统CPU使用

2、率检查14查看占用CPU资源最多的进程17系统内存使用率检查18系统占用内存资源最多的进程20系统磁盘繁忙程度检查222.3交换空间23交换空间使用率检查232.4进程状态24僵尸进程检查242.5网络状态24网卡状态检查24路由状态检查25网络传输检查26网络连接数量及状态检查30主机解析检查322.6存储状态32HBA卡状态检查322.7文件系统状态33文件系统使用率检查33文件系统挂载检查34NFS文件系统挂载检查35dump设备空间检查352.8逻辑卷状态36Rootvg的剩余空间检查36PV状态检查37是否存在stale的pp检查372.9系统安全38系统登录情况检查38特权用户检查

3、39Su操作次数检查40失败登录记录检查402.10双机状态41双机心跳状态检查41Hacmp.out日志检查42Cluster.log日志检查42双机节点状态检查432.11其它44操作系统时间检查443操作系统异常快速排查规范443.1系统日志检查453.2CPU使用率检查453.3内存使用率检查453.4I/O使用率检查463.5网络检查463.6交换区检查473.7文件系统检查473.8双机检查481 引言1.1 编写目的为了保证项目组所运维系统的持续健康运行,降低操作系统的出错几率,并在出现问题时及时且有效的进行排查、处理,故编写本手册。本手册是以AIX操作系统管理员的技术为基础,并

4、结合四年项目运营的实际经验进行编写。有关AIX操作系统的主要工作包括:操作系统健康性检查、操作系统异常快速排查。本运维手册按照以上两个方面的内容进行编写。1.2 适用范围IBM AIX5/6操作系统日常运维1.3 预期读者国家外汇管理局项目组运维工程师。1.4 文档说明1、 粗体表示注意事项、操作命令;2、 所有命名规范中所用字母,未特殊标注的,均使用小写;3、 本文所有截图是为了配合文字说明,图片内容仅供参考。2 操作系统健康性检查对于IBM AIX操作系统的健康性,主要从以下几个方面进行检查:l 系统日志l 系统性能l 交换空间l 进程状态l 网络状态l 存储状态l 逻辑卷状态l 文件系统

5、状态l 系统安全l 双机状态l 其它2.1 系统日志2.1.1 系统硬件错误日志检查 检查点: 操作系统错误日志是否含有硬件错误 检查方法: #errpt -dH 标准: 检查结果如存在硬件错误则为系统不健康 检查结果如不存在硬件错误则为系统健康 重点关注输出信息第三列为P的错误日志 示例:# errpt -dHIDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONE142C6D4 0802115413 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115413 T H sys

6、planar0 EEH temporary error for adapterE142C6D4 0802115413 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115313 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115313 T H sysplanar0 EEH temporary error for adapter49A83216 0802115313 T H hdisk0 DISK OPERATION ERRORF3931284 080

7、2115313 I H ent0 ETHERNET NETWORK RECOVERY MODE 输出信息说明:第三列:类型TYPE 错误的类型或者说严重的程度类型说明简写PEND设备或功能组件可能丢失PPERF性能严重下降PPERM硬件设备或软件模块损坏PTEMP临时性错误,经过重试后已经恢复正常TINFO一般消息,不是错误IUNKN不能确定错误的严重性U2.1.2 系统所有错误日志检查 检查点: 操作系统错误日志是否含有错误 检查方法: #errpt 标准: 检查结果如存在错误则为系统不健康 检查结果如不存在错误则为系统健康 重点关注输出信息第三列为P 第四列为H、S的错误日志 示例:# e

8、rrptIDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONE142C6D4 0802115413 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115413 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115413 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115313 T H sysplanar0 EEH temporary

9、 error for adapterE142C6D4 0802115313 T H sysplanar0 EEH temporary error for adapter49A83216 0802115313 T H hdisk0 DISK OPERATION ERRORF3931284 0802115313 I H ent0 ETHERNET NETWORK RECOVERY MODEE142C6D4 0802115313 T H sysplanar0 EEH temporary error for adapter49A83216 0802115313 T H hdisk0 DISK OPER

10、ATION ERRORE142C6D4 0802115213 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115213 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115213 T H sysplanar0 EEH temporary error for adapterE142C6D4 0802115213 T H sysplanar0 EEH temporary error for adapter49A83216 0802115213 T H h

11、disk0 DISK OPERATION ERRORE142C6D4 0802115113 T H sysplanar0 EEH temporary error for adapterA6DF45AA 0802115113 I O RMCdaemon The daemon is started.E142C6D4 0802115113 T H sysplanar0 EEH temporary error for adapter 输出信息说明:第四列:种类CLASS 指错误源类型说明简写HardWare硬件错误HSoftWare软件错误SOperation用户操作错误OUnKnown不能确定的错误

12、U2.1.3 系统错误日志Core_dump检查 检查点: 操作系统错误日志是否含有应用程序Core_dump错误 检查方法: #errpt -a|grep CORE_DUMP 标准: 检查结果如存在Core_dump错误则为系统不健康 检查结果如不存在Core_dump错误则为系统健康 示例:# set -o vi# errpt -a|grep CORE_DUMP# 输出信息说明: 无2.1.4 系统错误日志DELAYED_INT检查 检查点: 操作系统错误日志是否含有应用程序DELAYED_INT错误 检查方法: #errpt -a|grep DELAYED_INT 标准: 检查结果如存在

13、DELAYED_INT错误则为系统不健康 检查结果如不存在DELAYED_INT错误则为系统健康 示例:# # errpt -a|grep DELAYED_INT# 输出信息说明:1. DELAYED_INT 错误是版本BUG,出现该错误需要进行版本补丁升级2.1.5 系统邮件日志内容检查 检查点: 操作系统邮件日志是否含有异常错误信息 检查方法: #mail 标准: 检查结果如存在异常错误信息则为系统不健康 检查结果如不存在异常错误信息则为系统健康 示例:# mailMail 5.2 UCB AIX 5.X Type ? for help./var/spool/mail/root: 1 me

14、ssage 1 newN 1 root Thu Jul 25 19:21 28/1144 diagela message from aix1? Message 1:From root Thu Jul 25 19:21:48 2013Date: Thu, 25 Jul 2013 19:21:47 -0500From: rootTo: esaadmin, pconsole, rootSubject: diagela message from aix1A PROBLEM WAS DETECTED ON Thu Jul 25 19:20:38 CDT 2013 801014 The Service R

15、equest Number(s)/Probable Cause(s)(causes are listed in descending order of probability): B17CE433: Surveillance Error Predictive Error, general. Refer to the system service documentation for more information. Additional Words: 2-030000F0 3-83301510 4-C13920FF 5-40000000 6-00000000 7-000017F9 8-0000

16、1858 9-00000000 Error log information: Date: Thu Jul 25 19:19:03 CDT 2013 Sequence number: 132 Label: SCAN_ERROR_CHRP Priority: H Maintainence Procedure: FSPSP33 Priority: M Maintainence Procedure: FSPSP04 Priority: L FRU: 80P6787 S/N: YL1226039202 CCIN: 293A Location:?# mailNo mail for root 输出信息说明:

17、1. 关键的错误信息会以mail形式发送给用户2. 特别关注crontab定时执行任务异常时会有mail产生2.1.6 系统邮件日志大小检查 检查点: 操作系统邮件日志大小是否超过阀值 检查方法: #ls -l /var/spool/mail 标准: 检查结果如目录下存在文件大小超过基线阀值则为系统不健康 检查结果如目录下不存在文件大小超过基线阀值则为系统健康 示例:# ls -l /var/spool/mailtotal 0-rw-rw- 1 esaadmin mail 1144 Jul 25 19:21 esaadmin-rw-rw- 1 pconsole mail 1144 Jul 25

18、 19:21 pconsole-rw-rw- 1 root mail 0 Aug 02 12:27 root# 输出信息说明:1. crontab中的定时任务脚本输出没有重定向,系统会将这些输出信息以mail形式发给这个用户,时间长了mail会越来越大2.1.7 登录失败日志文件大小检查 检查点: 检查登录失败日志文件大小是否超过阀值 检查方法:# ls -l /etc/security/failedlogin 标准: 登录失败日志大小超过基线阀值则为系统不健康 登录失败日志大小未超过基线阀值则为系统健康 示例:# ls -l /etc/security/failedlogin-rw-r- 1

19、 root system 648 Jul 15 13:09 /etc/security/failedlogin# 输出信息说明:1. 日志大小建议不超过64M(默认PP大小)2.1.8 登录日志文件大小检查 检查点: 检查登录日志文件大小是否超过阀值 检查方法:# ls -l /var/adm/wtmp 标准: 登录日志大小超过基线阀值则为系统不健康 登录日志大小未超过基线阀值则为系统健康 示例:# ls -l /var/adm/wtmp-rw-rw-r- 1 adm adm 935064 Aug 02 12:28 /var/adm/wtmp# du -m /var/adm/wtmp 0.90

20、 /var/adm/wtmp# 输出信息说明:1. 日志大小建议不超过64M(默认PP大小)2.1.9 su日志文件大小检查 检查点: 检查su日志文件大小是否超过阀值 检查方法:# ls -l /var/adm/sulog 标准: su日志大小超过基线阀值则为系统不健康 su日志大小未超过基线阀值则为系统健康 示例:# ls -l /var/adm/sulog-rw- 1 root system 1291 Aug 02 12:52 /var/adm/sulog 输出信息说明:1. su日志大小建议不超过64M(默认PP大小)2.1.10 异常终止的vi日志文件大小检查 检查点: 检查异常终止

21、的vi日志文件大小是否超过阀值 检查方法:# du -sm /var/preserve 标准: 异常终止的vi日志大小超过基线阀值则为系统不健康 异常终止的vi日志大小未超过基线阀值则为系统健康 示例:# du -sm /var/preserve 0.16 /var/preserve# ls -l /var/preserve total 0-rw- 1 root system 163840 Aug 02 13:06 Exaaa49168# vi -rOn Fri Aug 02 at 13:06 saved 525 lines of file /tmp/smit.log# vi -r /tmp/

22、smit.log# ls -l /var/preservetotal 0# 输出信息说明:1. 异常终止的vi日志大小建议不超过64M(默认PP大小)2. 异常终止的vi操作可通过 vi r显示查看,同样通过#vi r filepath/filename 继续上次终止的操作3. 执行#vi r filepath/filename后,/var/preserve文件夹下的文件自动清除2.2 系统性能2.2.1 系统CPU使用率检查 检查点: 操作系统CPU使用率是否存在高于正常基线的情况 检查方法: # vmstat 2 30 # sar 2 30 # mpstat 2 30 # topas 标准

23、: 检查结果如存在CPU空闲率小于30%则为系统不健康 检查结果如不存在CPU空闲率小于30%则为系统健康 示例:# vmstat 2 30System configuration: lcpu=2 mem=1536MBkthr memory page faults cpu - - - - - r b avm fre re pi po fr sr cy in sy cs us sy id wa 2 0 163050 184248 0 0 0 0 0 0 9 91 220 0 0 99 1 2 0 163050 184248 0 0 0 0 0 0 0 44 201 0 0 99 0 2 0 16

24、3049 184249 0 0 0 0 0 0 0 163 203 0 0 99 0 2 0 163049 184249 0 0 0 0 0 0 0 44 218 0 0 99 0 2 0 163049 184249 0 0 0 0 0 0 0 28 212 0 0 99 0 2 0 163053 184245 0 0 0 0 0 0 2 972 228 0 0 99 0 2 0 163053 184245 0 0 0 0 0 0 0 28 215 0 0 99 0 3 0 163053 184245 0 0 0 0 0 0 0 23 215 0 0 99 0 2 0 163052 18424

25、6 0 0 0 0 0 0 0 24 217 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 8 84 229 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 0 25 216 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 0 35 220 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 0 31 226 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 0 28 218 0 0 99 0 2 0 163052 184246 0 0 0 0 0

26、0 0 28 215 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 0 24 218 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 0 28 224 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 0 24 221 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 0 24 216 0 0 99 0 2 0 163052 184246 0 0 0 0 0 0 0 27 211 0 0 99 0kthr memory page faults cpu - - - - -# sa

27、r 2 30AIX aix1 1 6 0000682ED700 08/02/13System configuration: lcpu=2 mode=Capped 15:47:46 %usr %sys %wio %idle physc15:47:48 0 0 0 100 1.0015:47:50 0 0 0 99 1.0015:47:52 0 0 0 100 1.0015:47:54 0 0 0 99 1.0015:47:56 0 0 0 100 1.0015:47:58 0 0 0 100 1.0015:48:00 0 0 0 100 1.0015:48:02 0 0 0 100 1.0015

28、:48:04 0 0 0 100 1.0015:48:06 0 0 0 100 1.0015:48:08 0 0 0 99 1.0015:48:10 0 0 0 100 1.0015:48:12 0 0 0 100 1.0015:48:14 0 0 0 100 1.0015:48:16 0 0 0 100 1.0015:48:18 0 0 0 100 1.0015:48:20 0 0 0 100 1.0015:48:22 0 0 0 100 1.00# mpstat 2 30System configuration: lcpu=2 mode=Capped cpu min maj mpc int

29、 cs ics rq mig lpa sysc us sy wa id pc 0 0 0 0 178 162 76 0 0 100 69 0 0 0 100 0.53 1 0 0 0 18 10 10 0 0 - 0 0 0 0 100 0.47ALL 0 0 0 196 172 86 0 0 100 69 0 0 0 100 1.00- 0 2 0 0 182 163 77 0 0 100 32 0 0 0 100 0.53 1 0 0 0 18 10 10 0 0 - 0 0 0 0 100 0.47ALL 2 0 0 200 173 87 0 0 100 32 0 0 0 100 1.0

30、0- 0 0 0 0 182 162 77 0 1 100 26 0 0 0 100 0.53 1 0 0 0 18 11 11 0 1 100 0 0 0 0 100 0.47ALL 0 0 0 200 173 88 0 2 100 26 0 0 0 100 1.00- 0 0 0 0 180 161 76 0 0 100 27 0 0 0 100 0.53 1 0 0 0 18 10 10 0 0 - 0 0 0 0 100 0.47ALL 0 0 0 198 171 86 0 0 100 27 0 0 0 100 1.00- 0 0 0 0 180 162 76 0 0 100 32 0

31、 0 0 100 0.53 1 0 0 0 18 10 10 0 0 - 0 0 0 0 100 0.47ALL 0 0 0 198 172 86 0 0 100 32 0 0 0 100 1.00-Topas Monitor for host: aix1 EVENTS/QUEUES FILE/TTYFri Aug 2 15:51:25 2013 Interval: 2 Cswitch 191 Readch 0 Syscall 56 Writech 67CPU User% Kern% Wait% Idle% Reads 0 Rawin 0ALL 0.0 0.2 0.0 99.8 Writes

32、1 Ttyout 67 Forks 0 Igets 0Network KBPS I-Pack O-Pack KB-In KB-Out Execs 0 Namei 1Total 0.2 1.5 1.0 0.1 0.1 Runqueue 0.0 Dirblk 0 Waitqueue 0.0Disk Busy% KBPS TPS KB-Read KB-Writ MEMORYTotal 0.0 0.0 0.0 0.0 0.0 PAGING Real,MB 1536 F aults 0 % Comp 42FileSystem KBPS TPS KB-Read KB-Writ Steals 0 % Non

33、comp 10Total 0.0 0.0 0.0 0.0 PgspIn 0 % Client 10 PgspOut 0Name PID CPU% PgSp Owner PageIn 0 PAGING SPACEtopas 4849762 0.0 1.4 root PageOut 0 Size,MB 512java 5832708 0.0 37.1 pconsole Sios 0 % Used 1getty 4194462 0.0 0.6 root % Free 99gil 917532 0.0 0.1 root NFS (calls/sec)xmgc 720918 0.0 0.1 root S

34、erV2 0 WPAR Activ 0clcomd 2424942 0.0 1.7 root CliV2 0 WPAR Total 0rpc.lock 4456602 0.0 0.2 root SerV3 0 Press: h-helppilegc 655380 0.0 0.1 root CliV3 0 q-quitaixmibd 3997834 0.0 1.0 rootnetm 851994 0.0 0.1 root java 1704036 0.0 67.6 rootcimserve 5243112 0.0 23.6 root syncd 1572982 0.0 0.6 root 输出信息

35、说明: cpu的idle小于30%,即cpu的利用率大于70%认为不正常2.2.2 查看占用CPU资源最多的进程 检查点: 操作系统进程的CPU使用率是否存在高于正常基线的情况 检查方法: # ps aux |head -1 ;ps aux |sort -rn +2 |head -10 标准: 查看CPU使用率前10的进程, CPU使用率偏离基线值需关注。 示例:# ps aux |head -1 ;ps aux |sort -rn +2 |head -10USER PID %CPU %MEM SZ RSS TTY STAT STIME TIME COMMANDroot 131076 26.1

36、 0.0 60 60 - A 11:45:25 132:09 waitroot 786456 23.6 0.0 60 60 - A 11:45:25 119:24 waitroot 1704036 0.1 8.0 69312 69328 - A 11:51:13 0:25 /var/opt/tivoliroot 5636146 0.0 0.0 808 844 - A 11:51:49 0:00 /bin/ksh /pconsroot 5570568 0.0 0.0 1668 1692 - A 11:52:34 0:00 /usr/sbin/rsct/root 5505262 0.0 0.0 1

37、172 1204 - A 11:49:06 0:00 /usr/sbin/snmpdroot 5439664 0.0 0.0 56 56 - A 11:49:01 0:00 rdpgcroot 5374120 0.0 0.0 292 308 - A 11:49:07 0:00 /opt/freeware/croot 5243112 0.0 3.0 24200 24224 - A 11:49:41 0:01 cimserveroot 5177564 0.0 1.0 7128 7152 - A 11:50:55 0:00 /usr/bin/cimlis 输出信息说明: 无2.2.3 系统内存使用率

38、检查 检查点: 操作系统内存使用率是否存在高于正常基线的情况 检查方法: # topas# svmon -G# vmstat 1 30 标准: 操作系统内存使用率超过70%则为系统不健康操作系统内存使用率未超过70%则为系统健康 示例:# svmon -G size inuse free pin virtual mmodememory 393216 209122 184094 71587 163006 Dedpg space 131072 1184 work pers clnt otherpin 54860 0 0 16727in use 163006 0 46116#Topas Monitor for host: aix1 EVENTS/QUEUES FILE/TTYFri Aug 2 15:51:25 2013 Interval: 2 Cswitch 191 Readch 0 Syscall 56 Writech 67CPU User% Kern% Wait% Idle% Reads 0 Rawin 0ALL 0.0 0.2 0.0 99.8 Writes 1 Ttyout 67 Forks 0 Igets 0Network KBPS I-Pack O-Pack KB-In KB-Out Execs 0 Namei 1Total 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论