IBM小型机维护指导书V1[1].0_第1页
IBM小型机维护指导书V1[1].0_第2页
IBM小型机维护指导书V1[1].0_第3页
IBM小型机维护指导书V1[1].0_第4页
IBM小型机维护指导书V1[1].0_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江西建行江西建行 IBMIBM 小型机日常维护小型机日常维护 第一篇:日常维护部分第一篇:日常维护部分 第二篇:故障处理部分第二篇:故障处理部分 第三篇:安图特公司技术支持电话第三篇:安图特公司技术支持电话 第一篇 日常维护部分 目 录 第 1 章AIX 系统管理日常工作(检查篇) .1 1.1常用的命令.1 1.2语法介绍.1 1.2.1vmstat:检查内存、CPU、进程状态.1 1.2.2 sar:检查 CPU、IO .2 1.2.3PS:检查进程状态命令.3 1.2.4 svmon:显示进程占用内存.3 1.2.5 iostat:显示磁盘 IO.4 1.2.6 netstat, entstat:显示网卡信息.4 1.2.7 no:显示 tcpip 参数设置 .5 1.2.8其它命令.5 第 2 章AIX 系统管理日常工作(LV 篇).6 2.1IBM AIX 系统管理的日常工作 .6 2.1.1开关机步骤 .6 2.1.2用户组及用户管理.6 2.1.3文件系统维护.6 2.1.4系统日常管理.7 2.1.5系统备份.7 2.1.6定时清洗磁带机.7 2.1.7定时检查设备指示灯状态.7 2.1.8简单故障的判断.7 2.1.9熟悉 ibm aix 操作系统.7 2.2关于 IBM AIX 的逻辑卷管理.7 2.3LVM 命令.8 第 3 章AIX 系统管理日常工作(关键参数检查篇).10 3.1AIO 参数检查.10 3.2磁盘阵列QUEUE_DEPTH参数检查.11 3.3用户参数检查.11 3.4激活 SSA FAST-WRITE CACHE.12 3.5IO 参数设置 .12 3.6SYNCD DAEMON的数据刷新频率.12 3.7检查系统硬盘的镜像.12 第 4 章AIX 系统管理日常工作(性能分析篇) .13 4.1性能瓶颈定义.13 4.2性能范围.14 第 5 章AIX 系统管理日常工作(SHUTDOWN 篇) .14 5.1概念 .14 5.2关机命令.14 第 6 章AIX 系统管理日常工作(备份与恢复篇).15 6.1用 SMIT 备份 .15 6.2手工备份.15 6.3恢复系统.15 第 7 章HACMP 的 双机系统的管理和维护.15 7.1HACMP 双机系统的启动.15 7.2HACMP 双机系统的关闭.16 7.3察看双机系统的当前状态.16 7.4HACMP 环境下的排错.17 7.4.1了解问题的存在.17 7.4.2判断问题的出处.18 第第 1 1 章章 AIXAIX 系统管理日常工作系统管理日常工作( (检查篇检查篇) ) 1.1常用的命令 CPUMemoryDiskNetwork 标准标准 UNIX 命令(包命令(包 括括 HP、SUN 等)等) vmstat, sar, psvmstat, psiostat, sar, vmstat, netstat, nfsstat AIX 详细输出详细输出Tprofsvmon, rmssfilemon, fileplaceentstat AIX 非常详细输出非常详细输出syscalls, trace, emstat tracetracetrace, iptrace 分析工具分析工具topastopastopasTopas 1.2语法介绍 1.2.1 vmstat:检查内存、CPU、进程状态 # vmstat 1 15 kthr memory page faults cpu - - - - - r b avm fre re pi po fr sr cy in sy cs us sy id wa 1 0 28132 81277 0 0 0 0 0 0 132 375 67 65 1 34 0 2 0 28132 81277 0 0 0 0 0 0 127 338 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 132 316 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 120 317 126 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 146 316 127 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 130 317 125 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 135 316 127 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 129 317 124 99 0 0 0 2 0 28132 81277 0 0 0 0 0 0 133 304 127 99 0 0 0 r:正在运行的进程 b:被阻挡的进程 avm:活动的虚内存,单位 4kb fre:自由列表,位 4kb po:页换出 pi:页换入 sy:系统占用 CPU id:空闲 CPU wa:等待的 CPU 1.2.2 sar:检查 CPU、IO 例如: sar -u 1 30 sar -P ALL 1 10 语法: sar -abckmqruvwyA inteval repetition -b buffer 活动 -c 系统调用 -k 内核进程统计. -m 消息及信号量活动 -q 正在运行的队列数及等待队列数 -r 页交换统计 -u CPU 利用 -P CPU 负载. 1.2.3 PS:检查进程状态命令 ps: 显示当前 SHELL 重所有进程 ps -ef : 显示系统中所有进程,f 显示更详细信息 ps -u oracle: 显示 oracle 用户进程 ps emo THREAD: 显示线程信息 ps au;ps vg: 按使用时间显示进程(最近一次调用) ps aux: 按使用时间显示进程(进程启动) 1.2.4 svmon:显示进程占用内存 svmon G: 显示系统占用内存 svmon -C command_name: 显示某个用户进程占用内存 svmon -P pid 显示某个进程占用内存 svmon S: 显示段占用内存 1.2.5 iostat:显示磁盘 IO tty: tin tout avg-cpu: % user % sys % idle % iowait 0.0 4.0 0.9 1.3 95.4 2.5 Disks: % tm_act Kbps tps Kb_read Kb_wrtn hdisk0 58.4 218.3 41.2 172 920 hdisk1 16.8 85.6 21.4 428 0 hdisk2 50.6 223.9 55.6 1100 20 hdisk3 16.8 85.6 21.4 428 0 hdisk4 0.0 0.0 0.0 0 0 hdisk5 43.4 279.1 69.8 1396 0 hdisk6 0.0 0.0 0.0 0 0 hdisk7 16.4 27.2 20.2 0 136 hdisk8 0.0 0.0 0.0 0 0 hdisk9 9.4 156.0 11.4 0 780 hdisk10 16.4 27.2 20.2 0 136 cd0 0.0 0.0 0.0 0 0 1.2.6 netstat, entstat:显示网卡信息 netstat en0: 显示 en0 信息 netstat s: 显示网络信息 netstat -m 显示网络 buffers. netstat -i 显示网卡状态 netstat -I en0 1 显示 eno 网卡塞(1 秒间隔) 1.2.7 no:显示 tcpip 参数设置 no a: 显示 tcpip 所有参数当前设置 no -o tcp_keepalivetime=7200000 设置 tcp_keepalivetime 等于 3600000 秒 no d 恢复默认值 注:该方法在重启后失效 1.2.8 其它命令 检查文件系统df -k 检查设备lsdev -C 检查物理卷lspv 检查交换区lsps -a 检查配置lscfg -vp 检查软件lslpp -l 检查用户who 第第 2 2 章章 AIXAIX 系统管理日常工作系统管理日常工作(LV(LV 篇篇) ) 2.1 IBM AIX 系统管理的日常工作 系统管理员对小型机系统的正确管理是系统稳定运行的保障,作为系统 管理员应注意以下几个方面: 2.1.1 开关机步骤 在系统管理员控制下进行正确的操作。(第 5 章有专门介绍) 2.1.2 用户组及用户管理 2.1.3 文件系统维护 发现文件系统已满,应及时删除无用文件或扩大文件系统。 查看文件系统使用率命令:df k ,查看%Used 和%Iused Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 32768 20180 39% 2070 13% / /dev/hd2 2293760 1230984 47% 33045 6% /usr /dev/hd9var 32768 15832 52% 367 5% /var /dev/hd3 32768 23300 29% 110 2% /tmp /dev/hd1 32768 31384 5% 72 1% /home /dev/informixlv 524288 199060 63% 3521 3% /home/informix 注意系统文件系统中的/ /var /tmp 使用率不要超过 90 2.1.4 系统日常管理 系统管理员最好用 smit 来进行系 统管理。Smit 是以菜单方式工作的 工具包,它包括了日常管理工作的所有命令,操作简便。 2.1.5 系统备份 备份是保护用户数据不丢失的重要手段。一般系统备份的要求如下: A. 每一台机器的操作系统至少有一个全备份。 B. 每天备份用户数据。 C. 操作系统配置修改后重新备份操作系统。 (系统备份方法在第六章专门介绍) 2.1.6 定时清洗磁带机 可以每月定时清洗一次,将清洗带插入磁带机,清洗完毕后会自动退出 磁带。 当磁带机需要清洗时,磁带机左边第一个起绿色指示灯会亮。 2.1.7 定时检查设备指示灯状态 RS6000 小型机出现硬件故障时,系统前面板上会亮一个橙色的告警灯。 液晶面板上面会有显示错误代码 2.1.8 简单故障的判断 详细信息见“第二部分:故障处理指导书” 2.1.9 熟悉 ibm aix 操作系统 2.2 关于 IBM AIX 的逻辑卷管理 IBM AIX 存储管理的五个基本概念: 物理卷 Physical Volume,称为 PV:指物理上硬盘,一个硬盘就是一个 PV,名字为 HDISK0、HDISK1。 物理分区(Physical Partitions):物理卷被划分成大小一样的物理分区 PPs 逻辑卷组 Logical Volume Group,称为 VG:一个 VG 包含整数个 PV,可理解为一个大硬盘。 逻辑卷 Logical Volume,称为 LV:相当于对大硬盘进行逻辑分区, 一 个 VG 里可有若干个 LV,对用户讲,LV 上的数据是连续的,但 PV 上 的数据可能是分散的。 逻辑分区(Logical Partitions):每个 LV 有若干逻辑分区(LPs)组成, 每个逻辑分区至少有一个 PV 组成。 文件系统 File System:在逻辑卷的基础上,可建立文件系统 JFS,然 后 MOUNT 到一个目录下,这样就可以文件存取的方式来使用这块硬盘 了。 当然,您也可以不建文件系统,而直接把 LV 当作裸设备,以 TRUNK 方式来存取数据,许多数据库都是用这种方式存取数据。 LVM 的关系如下图: Terms-SummaryTerms-Summary Volume Group LV1 LV2 LV2 LV1LV2 LV1 LV2 PV Physical Volumes (disks) Logical View = VG with many LVs containing PPs from particular PVs LV2 PP Physical Partition (smallest chunk of disk typically 8,16 or 32 MB) LV - Logical Volume (old UNIX partition) 2.3 LVM 命令 一般采用 smit 命令可对 PV、VG、LV、JFS 等进行图形化管理,命令 如下: smit lvm 屏幕显示如下: Add a Logical Volume Logical volume NAME scratch * VOLUME GROUP name testvg * Number of LOGICAL PARTITIONS 64 # PHYSICAL VOLUME names hdisk1 hdisk2 hdisk3 + Logical volume TYPE jfs POSITION on physical volume middle + RANGE of physical volumes minimum + MAXIMUM NUMBER of PHYSICAL VOLUMES # to use for allocation Number of COPIES of each logical 2 + partition Mirror Write Consistency? yes + Allocate each logical partition copy yes + on a SEPARATE physical volume? RELOCATE the logical volume during yes + reorganization? Logical volume LABEL MAXIMUM NUMBER of LOGICAL PARTITIONS 512 # Enable BAD BLOCK relocation? yes + SCHEDULING POLICY for reading/writing parallel + logical partition copies Enable WRITE VERIFY? no + File containing ALLOCATION MAP Stripe Size? 64K 行命令: .lsvg:查看 vg 名字 查看 vg 详细信息: lsvg 查看 vg 内的 LVs: lsvg -l 查看 vg 内的 PV: lsvg -p 查看激活的 VG: lsvg o . lspv:查看物理卷组 pg 名字 查看 PV 详细信息: lspv hdiskN 查看 PV 内的 LVs lspv -l hdiskN 查看 PV 内的 PP : lspv -p hdiskN . lslv:查看 LV 的信息 查看 LV 名字: lsvg -l 查看 LV 详细信息: lslv 查看 PV 内的 LVs : lslv -l 查看 PV 内的 PP : lslv -p 查看镜像的 LV: lslv -m 第第 3 3 章章 AIXAIX 系统管理日常工作系统管理日常工作( (关键参数检查篇关键参数检查篇) ) 3.1 AIO 参数检查 # lsattr -El aio0 minservers X MINIMUM number of servers True maxservers 80 MAXIMUM number of servers True maxreqs 4096 Maximum number of REQUESTS True kprocprio 39 Server PRIORITY True autoconfig available STATE to be configured at system restart True fastpath enable State of fast path True MaxServers = 10 * number of disks MinServers = MaxServers /2 其中 MaxServers 最大为 80 可用命令#smitty aio Change / Show Characteristics of Asynchronous I/O 修改相应的值。 3.2 磁盘阵列 queue_depth 参数检查 假设 DATAVG 的 RAID 盘为 hdisk2 # lsattr -El hdisk2 pvid 00019081a0dc91ea0000000000000000 Physical volume identifier Fal queue_depth 8 Queue depth True queue_depth 值设置为 7133 硬盘个数 可用命令#chdev l hdisk2 a queue_depth=x 修改,但 VG 必须为 VARYOFF 状态。 3.3 用户参数检查 #smitty chlicense 修改 Maximum number of FIXED licenses 为 10 #lsattr -El sys0|grep maxuproc maxuproc 200 Maximum number of PROCESSES allowed per user True 用#smitty chgsys 修改 利用 lsattr -Elsys0 检查 maxuproc, minpout, maxpout 等参数的大小。 maxuproc 为每个用户的最大进程数,当应用涉及大量的顺序读写而影响 前台程序响应时间时,可考虑将 maxpout 设为 33, minpout 设为 16,利 用 smitty chgsys 来设置。 3.4 激活 SSA Fast-Write Cache 利用 smitty ssafastw 来激活每一个逻辑盘 hdiskn 的 Fast-Write Cache:选择硬盘后,把 Enable Fast-Write 一项改为 Yes 后回车即可。 对于 OPS 必须关闭,对于 GAILOVER 或单机必须打开。 3.5 IO 参数设置 High water mark for pending write I/Os per file(maxpout) 和 Low water mark for pending write I/Os per file 它们缺省值为 0,在双机环境中一般应设 High water mark 为 33,Low water mark 为 24,这两个参数可用 smitty chgsys 来设置。 3.6 syncd daemon 的数据刷新频率 该值表示刷新内存数据到硬盘的频率,缺省为 60,一般可改为 20,也 可根据实际情况更改。该参数通过 vi /sbin/rc.boot 更改,其中一行如下: nohup /usr/sbin/syncd 60 /dev/null 2 T 临时; U 未知永久性的错误应引起重视 C 分类: H 硬件; S 软件; O 用户; U未知 #errpt -d H 列出所有硬件出错信息 #errpt -d S 列出所有软件出错信息 #errpt -aj ERROR_ID 列出详细出错信息 # errpt -aj 0502f666 选问题诊断Problem Determination) 或 选系统检查System Verification) (选PD 会对系统错误记录进行分析) diag运行后会给出SRN 代码故障设备名称及百分比地址代码等 对于 PCI 机型应在系统报错 7 天之内运行 diag 程序对出错记录里的 sense 数据进行分析 2.7 其他用于收集系统信息的命令 lsdev -C 系统设备信息 #lsdev -Cc disk hdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSI Disk Drive hdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSI Disk Drive hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息 #lspv hdisk0 0007821160af3d76 rootvg hdisk1 000782117f571294 rootvg hdisk2 0000000045c45bde datavg lsvg 查看卷组信息 #lsvg datavg VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b VG STATE: active PP SIZE: 4 megabyte(s) VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt MAX LVs: 256 FREE PPs: 1 (4 megabytes) LVs: 3 USED PPs: 2168 (8672 megabyt OPEN LVs: 2 QUORUM: 2 TOTAL PVs: 1 VG DESCRIPTORS: 2 STALE PVs: 0 STALE PPs: 0 ACTIVE PVs: 1 AUTO ON: yes MAX PPs per PV: 2032 MAX PVs: 16 #lsvg -l rootvg rootvg: LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT hd5 boot 1 1 1 closed/syncd N/A lv00 jfs 51 102 1 closed/stale /ibmcxx lv01 jfs 1 1 1 open/syncd /cics_regions lv02 jfs 4 4 1 open/syncd /var/mqm lslpp 查看文件组信息 # lslpp -L |grep 23100020 devicespci23100020rte 4327 C IBM PCI 10/100 Ethernet Adapt 看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本 lsattr 查看设备参数设置 # lsattr -El ent2 busio 0 x7fffc00 Bus I/O address False busintr 9 Bus interrupt level False intr_priority 3 Interrupt priority False tx_que_size 512 TRANSMIT queue size True rx_que_size 256 RECEIVE queue size True rxbuf_pool_size 384 RECEIVE buffer pool size True media_speed 10_Half_Duplex Media Speed True use_alt_addr no Enable ALTERNATE ETHERNET address True alt_addr 0 x000000000000 ALTERNATE ETHERNET address True ip_gap 96 Inter-Packet Gap True lscfg 查看VPD信息Virtual Product Data) # lscfg -vl ssa1 DEVICE LOCATION DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500) Part Number097H0645 FRU Number097H0645 - 备件号 Serial NumberC8217227 EC Level0000F20825 ManufacturerIBM053 ROS Level and ID7201 Accessthisvolumegroupandstartashell beforemountingthefilesystems 格式化文件系统日志(jfslog) #/usr/sbin/logform/dev/hd8 检查修复文件系统 #fsck -y/dev/hd1/home文件系统 #fsck -y/dev/hd2/usr文件系统 #fsck -y/dev/hd3/tmp文件系统 #fsck -y/dev/hd4/文件系统 #fsck -y/dev/hd9var/var文件系统 用exit命令退出文件系统会自动mount起来 重建bootimage #lslv m hd5找出bootimage所在的硬盘如hdisk0 #bosboot ad /dev/hdisk0 #bootlist m normal/dev/hdisk0重建启动顺序表 重启动系统 #shutdown -Fr 如上述步骤不奏效 用系统备份带恢复系统 如备份带不能恢复用诊断光盘DiagnosticCDROM检查是否坏硬盘 3.5 CDE 图形界面挂死 CDE运行时不要更改网络参数如主机名和IP地址 更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下 更改 如CDE已经挂死 远程telnet登录 找出所有dt有关的进程用kill命令杀掉 #ps -ef|grepdt #killPID 检查当前主机名 #hostname tscf50 查看主机名是否对应有效的IP地址 #netstat -i|greptscf50 tr0*1500918540tscf5050604902824700 更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系 #smittytcpip 重新启动CDE界面 #/etc/rcdt HACMP环境下可把主机名alias到127001上 #cat /etc/hosts 127001_loopbacklocalhosttscf50#loopback(lo0)name/addressbvg 3.6 系统 dump 发生在系统崩溃时AIX会做dump(系统内存的快照) 此时机器会显示闪动的888102xxx0cx代码 0c9系统dump进行中0c9状态可能会维持超过2分钟 不要关电和按reset,等待dump做完 0c0dump成功完成这时可以断电重起 0c2手动启动dump功能 0c4dump设备空间不足只有部分信息保存下来 0c5不明原因导致dump失败 一般dump是由于软件出错引起(888-102-207除外)机器通常可以重启重 启 时可能提示用户插入磁带拷贝dump文件不要选择退出这样会丢失重要的 故障信息 dump的有关设置 估算系统dump的大小在系统最繁忙时内存使用最多 #sysdumpdev -e 0453-041Estimateddumpsizeinbytes:53477376 #lsps -a PageSpacePhysicalVolumeVolumeGroupSize%UsedActive paging00hdisk0rootvg480MB1yes hd6hdisk1rootvg544MB1yes 当前的设置 #sysdumpdev -l primary /dev/hd6-dump的主设备 secondary /dev/sysdumpnull copydirectory /var/adm/ras1% ping自己网卡地址(ip地址) ping其它机器地址如不通在其机器上用diag检测网卡是否有问题 在同一网中subnet mask应一致 7.2 网络配置的基本方法 (1)如需修改网络地址主机名等一定要用chdev命令 #chdev -l inet0 a hostname=myhost #chdev l en0 a netaddr=9324058 a netmask=2552552550_ (2)查看网卡状态#lsdev Cc if (3)确认网络地址#ifconfig en0 (4)启动网卡#ifconfige n0 up (5)_配置路由 有两种方式加入路由 永久路由 #chdev l inet0-aroute=_104700_,_9324059_ 临时路由 #route add 1047129324059 用命令netstat -rn查看路由表 第第 8 8 章章 HACMPHACMP 环境下的排错环境下的排错 在一般情况下,HACMP 软件很少需要手工干预,但一旦有问题发生,诊断 和恢复的技巧是很重要的需要能很快地断定问题然后运用你对 HACMP 的 理解来恢复 HACMP 的正常运作一般地,HACMP 环境下的排错包括:了解问 题的存在判断问题的出处 解决问题 8.1 了解问题的存在 您可以通过以下途径了解到一个CLUSTER环境下出现了问题 最终用户的投诉,他们无法访问应用程序 控制台上出现一些HACMP的信息 应用服务无法访问 最终用户的抱怨通常预示CLUSTER出现了问题他们无法正常执行应用或 是无 法登录到系统我们必须采集到详细的信息以判断到底那里出现了问题是 否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误 的开始您也可以在自己的系统上重复要知道用户应用不可用并不代表 HACMP有问题问题可能出现在应用程序本身或是它的启动或终止脚本出 现了问题因此应用程序本身的排错也应是HA排错的一部分 2控制台上出现一些HACMP的信息 在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也 会写 入相应的文件中 8.2 判断问题的出处 当错误出现时,我们应尝试发现错误的所在但我们常常被错误的表面所 误导以下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论