IBM-P系列小型机日常维护手册与指南_第1页
IBM-P系列小型机日常维护手册与指南_第2页
IBM-P系列小型机日常维护手册与指南_第3页
IBM-P系列小型机日常维护手册与指南_第4页
IBM-P系列小型机日常维护手册与指南_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

IBM P 系列小型机 日常维护/故障定位/故障排除 培训手册/操作指南 第 1 页 目目录录 目目录录.1 1 第一章、机房环境及物理检查第一章、机房环境及物理检查 .1 1 一、机房内环境要求 .1 二、电源要求 .2 三、硬件检查 .2 第二章、系统日常维护流程第二章、系统日常维护流程 .4 4 2.1 系统启动.4 2.2 系统关闭.4 2.3 查看系统的错误记录.4 2.4 系统与数据备份.5 2.5 系统恢复.8 2.6 DUMP .8 2.7 日常检查服务器状态的项目及其相关命令.8 2.8 性能监控与调优.10 2.9 安全工作守则 .11 2.10 维护电话 .11 第三章、故障定位、故障排除第三章、故障定位、故障排除 .1111 3.1 硬件故障.11 3.2 磁阵故障.12 3.3 网络故障 .17 3.4 OS 故障.18 3.2 HA 故障.18 3.2 其他故障 .20 第 2 页 第一章、机房环境及物理检查第一章、机房环境及物理检查 一、机房内环境要求一、机房内环境要求 1. 温度与湿度: 最佳工作温度:20-25摄氏度 极限工作温度:10-40摄氏度 湿度: 8-80%(在23摄氏度条件下) 如果不是工作在最佳温度,请注意改善机房环境 2. 同时机房要保证清洁. 机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁 盘或读写磁头毁损。 二、电源要求二、电源要求 电 压: 要求电压稳定, 尖峰电压会损坏设备 电压范围: 220V +/- 10%, 即200-240V, 50-60Hz 电源功率: 视机器类型和系统配置而定 电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V. 电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统 的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接 入,建议采用两路单独输入. 三、硬件检查三、硬件检查 检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。 服务器状态检查:服务器状态检查: 1. 当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息 显示。 2.当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查 询相关机型的 Service Guide 查到相应告警原因,情况严重的,则要立即通 知 IBM 技术专家进行问题排查。 71337133状态检查:状态检查: 磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与 各硬盘位置一一对应) 。 1. 当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬 第 3 页 盘等。如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关 专家进一步诊断。 2. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮, 如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或 SSA 环路出现问题时, 则硬盘状态灯将熄灭,或者呈闪烁状态:以 13 秒的频率有规律地、不停地闪烁 第 4 页 第二章、第二章、系统日常维护流程系统日常维护流程 2.12.1 系统启动系统启动 系统启动正常顺序如下: 首先对外设(磁盘阵列、磁带库等)加电。 待所有外设加电自检完成后, 主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏 显示”ok”后,才能按白色POWER键起机. 启动主机HACMP,启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况,在HACMP未完全 启动前不要进行下一步。 检查服务器的网络地址,路由表(可用netstat -i , netstat -rn 等),检查文件系统,逻辑 卷(可用 mount , lsvg -o 等)。 检查各项应用是否工作正常。 2.22.2 系统关闭系统关闭 停止HACMP ( smitty clstop)。 查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat -i , netstat -rn 等), 检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要进行下一步。 关闭主机 (shutdown F)。重启系统可以使用:shutdown -Fr 如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。 2.32.3 查看系统的错误记录查看系统的错误记录 在系统运行时,一些系统错误会记录在errlog 中,其中有些错误还会在终端上显示。检查错 误日志可用以下命令: #errpt|more 查看系统所有的记录 IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION E85C5C4C P S CFGLFT SOFTWARE PROGRAM ERROR 2BFA76F6 T S SYSPROC SYSTEM SHUTDOWN BY USER 9D4CF6E7 T O errdemon ERROR LOGGING TURNED ON 1E2AC07E T O errdemon ERROR LOGGING TURNED OFF 1E5EER4T T O clstrmgr OPERATOR NOTIFICATION 其中 IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。 TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年 第 5 页 T 为Type , 它记录的是错误类型 P :为永久错误,需引起注意 T :为临时错误。 C 为Class, 它记录的是错误种类,如 H : Hardware S : Software O : Errloger command messages U : undetermined RESOURCE_NAME 为错误来源 DESCRIPTION 为错误描述 #errpt -aj 查看系统详细记录内容 其中IDENTIFIER为错误编号,如 #errpt -aj #errpt -dH 查看系统所有的硬件出错记录 2.42.4 系统与数据备份系统与数据备份 有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时,特别是文件系统被严重 损坏或硬盘损坏时,常需要使用系统备份来恢复系统。在以下情况下应做系统备份: 1、新装机。在硬件及系统软件安装完成后,应做系统备份。 2、软件改动。系统软件或应用软件有改动时,应做系统备份。 3、定期备份。对系统进行定期备份,最好每两或三个月做一次备份。 系统备份操作介绍: 在命令行中输入 smitty mksysb ,可见到以下画面: 第 6 页 按 F4 键,见到以下画面: 通过上下键选择备份的目标设备(选/dev/rmt0 磁带机) , 按回车,见到以下画面: 第 7 页 再按回车,开始备份,直到见到以下画面,表示备份完成: 备份注意事项: 进行系统备份无须停止业务,业务可以继续进行。 建议客户进行定期的系统备份(使用命令smitty mksysb)。客户也可根据需要利用SMIT对 系统的特定的VG或FS进行备份。 smitty mksysb只备份rootvg中mount起来的文件系统,其它文件系统或数据并没有做备 份,所以数据备份需要另外完成(建议客户使用TAR格式) 在条件允许的情况下,最好有一盘以上备份带,以防止磁带损坏。 系统备份过程中有时候会提示有些/tmp 目录下的文件无法备份,显示如下: Creating list of files to back up. Backing up 34025 files. 1694 of 34025 files (4%). 2733 of 34025 files (8%).backup: 0511-449 An error occurred accessing ./ tmp/sh34736.1: A file or directory in the path name does not exist. backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or director y in the path name does not exist. backup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or director y in the path name does not exist. 第 8 页 . 15458 of 34025 files (45%). 31920 of 34025 files (93%). 0512-003 mksysb may not have been able to archive some files. The messages displayed on the Standard Error contained additional information. 这是正常现象,备份成功。 2.52.5 系统恢复系统恢复 当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,在与客户进 行蹉商后,可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环 境,然后可将当日的数据备份再倒回系统内。至此,系统可恢复正常运行。此后,客户应当与IBM 工程师再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类 似事件再次发生。 2.62.6 DUMPDUMP 当系统运行出现软件故障导致系统down机时,机器的液晶显示器会出现 888 102 xxx 0c0 (xxx可 能为700或其它),AIX常会将当时系统的运行情况记录下来,这就是DUMP。 当DUMP产生后,请将磁带放入磁带机,用命令 # snap -a -o /dev/rmt0将DUMP 文件拷贝到磁带 设备/dev/rmt0 中。注明磁带机的block size, DUMP产生的日期和机器的型号及序列号。同时, 请用# errpt -a /tmp/err.log 将errorlog 记在/tmp/err.log中,并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给IBM工程师。 2.72.7 日常检查服务器状态的项目及其相关命令日常检查服务器状态的项目及其相关命令 1 运行 lsdev 命令配以各种参数,所列各种设备状态都应为 Available。 #lsdev C H S a 列出系统中可用设备。 #lsdev Cc processor列出系统中的所有 CPU。 #lsdev Cc memory列出系统中的所有内存。 #lsdev Cc disk列出系统中的所有硬盘。 #lsdev -Cc adapter | grep ent列出系统中的所有网卡 #lsdev -Cc adapter | grep scsi列出系统中的所有 SCSI 卡。 #lsdev -Cc adapter | grep ssa列出系统中的所有 SSA 卡。 2 lspv 命令 #lspv显示系统中可用的 PV。 #lspv hdiskn显示 hdiskn 的具体信息。 #lsdev Cc pdisk 显示磁盘阵列的硬盘的具体信息。 对 SSA 硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到 主机上,运行以下命令“ lsdev Cc pdisk “,应该可以看到所有 SSA 硬盘,并且状态应为 第 9 页 Available.。 3 lsattr 命令 # lsattr E l mem0列出系统中内存 mem0 的大小,本项目中内存有 4GB。 4 lsvg 命令 #lsvg列出系统中所有的 vg。 #lsvg rootvg列出 rootvg 的详细信息。 #lsvg o 列出激活的 vg 5 oslevel 命令 #oslevel显示操作系统版本信息。 6 netstat 命令 #netstat in显示系统中各网卡的配置。可查看网卡的 IP 配置好了没有。 7 通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为 “No trouble found ”显示各部分工作正常。 8 使用#diag命令(选择:Task Selection- SSA Service Aids)对SSA硬盘链路连接的校验, 可以通过SSA 工具里的Link Verification 来检测。如有必要,可以用 Certify Disk运行硬盘诊 断部分进行硬盘的表面分析测试 ,由1% 至100%,检测结果显示主机内置硬盘的所有扇区均读写 正常。 9 lsps a 查看 PAGING SPACE 的使用情况,如果使用率超过 70%,就需要采取措施。 10 lsvg o | lsvg il | grep i stale 查看有无 stale 的 lv,如果输入该命令之后有输 出结果,就需要采取措施 11 有否发给 root 用户的错误报告(mail)。 12 检查双机状态:lssrc g cluster 检查 ha 三个工作进程是否激活, /usr/sbin/cluster/clstat a 检查双机状态是否 up,并检查 hacmp.out 日志,看是否有异常信 息。 13 用 vmstat, topas,sar 命令检查系统性能,检查 cpumemoyrIO ,是否存在性能瓶颈。 14 检查能否顺利进入 CDE 界面,如果不能进入的话,要检查/etc/hosts 表中有否错误的项目。 15 用 smitty ssaraid 查看磁盘阵列 RAID 盘的状态是否是 Good。如果是 degrade 或其他状态表 示 RAID 盘出现问题了 16 用 sysdumpdev l 查看系统的 DUMP 设置是否正常。 17 用 instfix ik | grep ML 当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。 一般要求 433 操作系统补丁要打到 10 以上,5.1 操作系统补丁要打到 5 以上 18 使用 df kP 查看磁盘空间占用率,请确保以下文件系统的占用率高于 80%立即上报: / /var /usr /home /tmp /zxindata/zxinbak,其余文件系统的占用率高于 95%立即上报 也可以到各文件系统下使用组合命令:find . size +2048 o ctime 1 exec ls l ; 查出大于 1M 或一天之内修改过的文件。 第 10 页 2.82.8 性能监控与调优性能监控与调优 通过命令 vmstat 1 来观察. kthr memory page faults cpu - - - - - r b avm fre re pi po fr sr cy in sy cs us sy id wa 命令解析:vmstat 命令的输出可以反映系统整体运行状况,包括 cpu、内存、虚拟页面、系统进 程和系统调用情况。 检查 CPU 是否为瓶颈,分别检查 CPU 的四项数值和 kthr 的两项数值. 检查 MEM 是否为瓶颈,分别检查 Memory 的两项数值和 Page 的六项数值. 通过命令 sar mu P ALL 来观察。 命令解析: sar 可以用来收集反映系统运行状况,在这里主要是查看 CPU 的运行状况,CPU 是否 负载均衡,是否存在分配不均的情况。 通过命令 ps gv | more 来观察。 PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper 1 - A 1:33 103 78952 79044 32768 25 36 0.0 29.0 /etc/init 命令解析:ps 可以用来查看进程的当前状态。在这里通过参数的配搭,可以观察目前正在运行的 进程所耗的时间,CPU 和 memory 量.其中,%CPU 表示进程所占用的 CPU 资源情况, %MEM 表示进程所占用的内存情况。主要检查是否有标示为的僵尸进程耗用系 统资源,以及 informix 数据库的 oninit 进程的系统消耗情况。 在机器上用 dd 命令进行磁盘阵列的写操作校验,与此同时用 iostat 1 d hdiskX 观察磁盘。 Disks: % tm_act Kbps tps Kb_read Kb_wrtn 命令解析: iostat 可以用来查看系统的 I/O 的输入输出情况,在这里主要查看阵列上的硬盘的每 秒读写量,同时估算磁盘阵列读写速度。 通过命令 netstat a 进行查看。 Active Internet connections (including servers) Proto Recv-Q Send-Q Local Address Foreign Address (state) 命令解析: netstat 可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和 开销,检查参数为 state,如有死连接,state 状态为 fin_wait, 这样耗用系统网络资源,从而 导致网络性能下降构成瓶颈。 第 11 页 2.92.9 安全工作守则安全工作守则 a.系统定期进行系统备份,系统盘建议镜像。 b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统备份。 c.在 7133 和 shark 发现有硬盘故障的时候,请提醒客户注意当天的数据备份。在更 换硬盘的时候,请确认当天数据备份已经完成。 d.在更换敏感的电子元件,时候一定要防静电。 e.在插拔外围设备的时候,请把外围设备下电。 f.在进行主机微码升级时候,请留意微码的完整性。 g.在进行文件删除的时候,请留意当前路径是否正确。 h.在进行文件解压缩的时候,请留意参数和路径。 2.102.10 维护电话维护电话 在日常维护中碰到问题和疑难,可以致电:在日常维护中碰到问题和疑难,可以致电: IBM 免费技术支持保修热线: 800-810-6677 010-5100 客户技术咨询热线: 800-810-1818 IBM 广州分公司联系电话: 020- 第 12 页 第三章、故障定位、故障排除第三章、故障定位、故障排除 根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决 方法。 3.13.1 硬件故障硬件故障 硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响 的硬件故障和只影响功能的硬件故障两类进行硬件分类: 其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括: 主板、CPU、I/O 柜(包含本地盘、光驱、PCI 插槽等的柜子)或 CEC 柜(包含 CPU/MEMORY 等的柜 子) 、I/O 柜 I/O 柜与 CEC 柜的接线、电源模块、风扇、本地硬盘、内存损坏等等 注:I/O 柜和 CEC 柜一般在比较高端的小型机才有,如 M80,低端的是合一的。 这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据 液晶显示屏上的错误码对照 Service Guide 查的错误原因,如果是工作状态下出现这些硬件损坏, 则系统将被挂起或宕机。 其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括: 网卡、本地硬盘有坏块、显卡、SSA 卡和其他外围设备 这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有 坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不 受影响,但也建议立即更换该硬盘。 故障定位和排除:故障定位和排除: 以上硬件故障信息都可以使用: 液晶屏上的错误码或: errpterrpt dHdH 查看到查看到 根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机 可以将此服务器切换成备机,然后修复故障机器,恢复系统。 3.23.2 磁阵故障磁阵故障 磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的 70%以上,具体来讲,可能引起磁阵故障的环节包括: 磁阵硬盘、7133 柜子、主机上的 SSA 卡、连接 7133 与主机的 SSA 线、硬盘的位置和 ssa 线的接 线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa 卡的微码等 都可能造成 7133 的异常。 7133 磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这是主因,如接线、插盘位 置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照我们的经验,不管是什么硬件 故障导致 7133 故障,系统都会产生告警,如果能及时发现问题并采取措施,一般都能防止故障的 发生。 故障定位:故障定位: 7133 硬件故障也可以使用: errpterrpt dHdH 查看到查看到 第 13 页 伴随的错误码有: B4C00618B4C00618 P H ssa0 RESOURCE UNAVAILABLE FE9E9357FE9E9357 P H ssa0 DISK OPERATION ERROR FE9E9357FE9E9357 P H pdisk3 DISK OPERATION ERROR 03913B9403913B94 U H LVDD HARDWARE DISK BLOCK RELOCATION ACHIEVED 613E5F38613E5F38 P H LVDD I/O ERROR DETECTED BY LVM 625E6B9A625E6B9A P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK 26CA120B26CA120B P H ssa0 CACHE STORAGE CARD 所有的错误码都预示着 7133 有异常,红色部分则表示肯定出现了硬件故障,需要立即进行检查并 采取措施,否则磁阵将很快不能访问。对于蓝色部分: 625E6B9A625E6B9A P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK 表示 ssa 出现了开环,出现开环不仅影响 IO 性能,也增加了风险,即如果另一个环路也出现问题, 将不能访问磁阵。 开环一般有两种情况:1)如果 625E6B9A625E6B9A 报错比较频繁,如每天几次,则表示系统很有可能出了硬 件故障,虽然不会导致访问磁阵失败,但需要立即查出原因并解决。查错方法可以参考下面的描 述。2)如果 625E6B9A625E6B9A 错误偶尔报一次,则要具体情况具体对待,有可能是读写忙出现的误报, 也按下面方法进行排查,如果没有查出具体的原因,则可以继续观察。 26CA120B26CA120B P H ssa0 CACHE STORAGE CARD 该错误一般是在:SSA 卡带 write cache 并打开 FastWrite,而 ssa 卡上用于 write cache 供电的 可充电镍镉电池达到或接近安全寿命的情况下产生的。这类错误产生将影响 IO 写性能,并且由于 在 FastWrite 打开的情况下,主备机需要同步 ssa 卡上的 write cache,所以甚至会影响到主备 机同步。具体解决方法可参考下文。 故障排除:故障排除: 对于红色部分错误的问题排除,一般可以使用 diag 命令进行进一步诊断: #diag - Task Selection - SSA Service Aids - Link Verification 检查环路中是否出现了?的盘符或状态不是 good 的硬盘 或使用: #smitty ssaraid - List All Defined SSA RAID Arrays 查看磁盘阵列 RAID 盘的状态是否是 Good。如果是 degrade 或其他状态表示 RAID 盘出现问题了 这时候不建议再进行单独硬盘的 Certify,而是赶紧通知 IBM 准备好相同型号和大小的硬盘(至少 两块)到现场进行进一步的诊断和坏盘更换。 625E6B9A625E6B9A P H ssa0 ADAPTER DETECTED OPEN SERIAL LINK 的排查方法: 1、要求将7133中未插硬盘的槽位全部插上dummy盘。 (dummy盘:哑元盘,就是那个空壳子,相当于 代替SSA硬盘装在磁盘阵列的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.) 2、看看Loop状态:diag-Task Selection-SSA Service Aids-Link Verification.正常 Adapter Port下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有?符 号.或Status不是good,则说明已经存在硬盘或链路故障,这种情况则要立即采取行动,做进一步 检查以确定是否要更换硬盘。检查单盘是否有问题的方法如下: diag-Task Selection-SSA Service Aids-Certify Disk 选择认为存在故障的硬盘进行检查 3、如果7133存在硬件故障时,可从状态灯上观察到: 当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮 第 14 页 阵列的状态灯黄灯会亮 或接SSA线的端口的指示灯也会熄灭 如果通过以上三种方法都未发现问题,而系统仍报 Open Serial Link 错误,建议继续跟踪。 26CA120B26CA120B P H ssa0 CACHE STORAGE CARD 的处理方法: 背景介绍: IBM 小型机上连接 7133 磁阵所配置的 SSA 卡一般都带有一块充电电池,该电池用于在突然停 电的情况下保护 ssa 卡上的 fast write cache 中的信息不丢失,这块电池的安全寿命一般是 22000 小时,差不多两年半的时间,也就是说,当 fast write 模式启动的情况下,一般两年半以 后需要更换这块电池。 问题表现: 对 ssa 卡上的电池保护是通过卡上的一个计数器实现的,每运行一小时该计数器会增加一,当 该计数接近或超过 22000 时,系统会有 26CA120B 硬件报警: 26CA120B P H ssa1 CACHE STORAGE CARD 可以用如下命令检查 ssa 卡上的状态:(-a 后带上卡的逻辑设备名,这里假设是 ssa0) ssa_fw_status -a ssa0 -p (检查电池已经工作的时间,小时为单位) ssa_fw_status -a ssa0 -l (检查电池安全工作寿命,小时为单位) ssa_fw_status -a ssa0 -c (检查 ssa 卡上的 fast write 功能是否被激活) 处理步骤: (按优选方式列出,从中选择一种即可) 1)更换电池 选择系统闲时,更换主备机 ssa 卡电池,可以采用: 停备机更换备机 ssa 卡电池起备机(双机服务)主备倒换 停原主机更换原主机 ssa 卡电池起原主机(双机服务) 2)如果系统出现 26CA120B 电池告警,使用 ssa_fw_status -a ssa0 -c 检查主用 ssa 卡(一般是 ssa0)的 Fast Write 是否处于 inactive(未被激活)状态,如果是,则以 root 执行如下命令: ssa_format -l ssa0 -b errclear 0 /usr/lib/errstop /usr/lib/errdemon 可以暂缓更换电池时间,等有电池后再更换,但这段时间对磁阵读写性能会有所影响。 3)如果短期内不能更换电池,同时主机主用卡的 Fast Write 仍然处于 Active 状态,建议手工屏 蔽 fast write 功能 1)先停止双机 2)在 1 号机修改 hdisk 该属性: smitty dev-ssa disks-ssa logical disks-change /show characters of . - choose hdisk2 - fast write no 3)在 1 号机激活卷组 varyonvg zxinvg 4)在 1 号机去激活卷组 varyoffvg zxinvg 5)在 2 号机上执行 smitty dev-ssa disks-ssa logical disks-change /show characters of . - choose hdisk2 - fast write no 检查 fast write 是否已经改为 no (只要 1 号机做了 2 好机就不用再修改了) 6)在 2 号机上执行 第 15 页 rmdev -dl hdisk2 cfgmgr -v 7)在 2 号机上执行 lspv (查看 hdisk2 是否已找到) 8)然后执行 varyonvg zxinvg varyoffvg zxinvg 9)重新启动双机 对于出现错误: B4C00618B4C00618 P H ssa0 RESOURCE UNAVAILABLE 而不伴随其他红色标出错误的情况,则通过以下方式排查: 可能是hdisk中将enable user of hot spare打开了,而实际并没有配置hot spare盘, 可以通过如下方式解决: 检查RAID的状态: #smitty ssaraid list all defined SSA RAID arrays : all are in status good (ssa0 ) 检查是否配置了hot spare: list/identify SSA Physical disks-List hot spares : none 修改每个ssa卡所配置的hdisk的属性: : set enable use of hot spare to no 然后再执行: # /usr/lib/errstop # cp /var/adm/ras/errlog /var/adm/ras/errlog.bak #/usr/lib/errdemon #errclear 0 对于物理硬盘的接法可参考如下说明:(有可能老局未配置 hot spare,则连线方法按未配置 hot spare 盘的个数计算) 分以下几种情况讲述: 1) 数据盘小于等于 6 块,建议配置一块 hotspare 2) 数据盘大于等于 8 块小于等于 10 块,建议配置两块 hotspare 3) 数据盘大于等于 12 块小于等于 14 块,建议配置两块 hotspare 数据盘小于等于数据盘小于等于 6 6 块,配置一块块,配置一块 hotsparehotspare 的接线和配置规则:的接线和配置规则: a) 主机 A1、A2 接磁阵 1、8 位置;备机 A1、A2 接磁阵 4、5 位置 b) 保证磁阵前排 1458 硬盘位置一定要插盘,其余的盘可以挑空位插,注 意 1-4、5-8 两侧的数据盘保持轴对称关系插入(如 1 和 8 是轴对称的、4 和 5 是 轴对称的) c) 没有插硬盘的位置一定要插上 dummy 盘 d) 做 RAID01 时,考虑到性能问题,请将 1-4、5-8 以轴对称方式一一对应 做硬盘镜像,举例如下: ibm 对 pdisk 的排序与实际的物理位置是不同的,所以必须先通过 lsdev -C |grep pdisk 的方式找出其对应关系并记录下来,如: pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive 看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示 pdisk0-pdisk3 对应的物理槽位分别是前排 1548 的位置,所以在使用 smitty ssaraid 做 RAID0+1 时,需将 18 位置的硬盘(pdisk0/pdisk3)做成镜像、 第 16 页 45 位置的硬盘(pdisk2/pdisk1)做成镜像,所以选择 Primary Disks/Secondary Disks 时如下: smitty ssaraid- Add an SSA RAID Array - . Primary Disks 需要选择:pdisk0 pdisk2 - 14 槽位的硬盘作为主盘 Secondary Disks 需要选择:pdisk3 pdisk1 - 85 槽位的硬盘作为从盘 该要求只是从性能考虑,并不增加其他特性。 e) hot spare 盘插入位置可以找前排 8 个位置中的空位插入即可。无特殊位 置要求,制作方法如下:使用 lsdev -C |grep pdisk 方式找出其 pdisk 号,如 pdisk5 然后使用如下方式将其做成 hot spare 盘。 smitty ssaraid-Change Use of Multiple SSA Physical Disks-选择 ssa 卡(连接磁阵的 ssa 卡,缺省为 ssa0) -选择作为 hotspare 的 pdisk,如 pdisk6 -New Use-选择 hot spare 按 回车创建即可 数据盘大于等于数据盘大于等于 8 8 块小于等于块小于等于 1010 块,配置两块块,配置两块 hotsparehotspare 的接线和配置规则:的接线和配置规则: a) 主机 A1、A2 接磁阵 1、12 位置;备机 A1、A2 接磁阵 8、9 位置 b) 保证磁阵前排 18 位置插满数据盘,9-12 位置的数据盘和 hot spare 盘 位置可任意。 c) 没有插硬盘的位置一定要插上 dummy 盘 d) 做 RAID01 时,考虑到性能问题,请将 1-4、5-8 以轴对称方式一一对应 做硬盘镜像, 9-12 位置中有数据盘的,将其对应做镜像,其余两块做 hot spare,举例如下: ibm 对 pdisk 的排序与实际的物理位置是不同的,所以必须先通过 lsdev -C |grep pdisk 的方式找出其对应关系并记录下来,如: pdisk0 Available 11-08-1641-01-P SSA160 Physical Disk Drive pdisk1 Available 11-08-1641-05-P SSA160 Physical Disk Drive pdisk2 Available 11-08-1641-04-P SSA160 Physical Disk Drive pdisk3 Available 11-08-1641-08-P SSA160 Physical Disk Drive pdisk4 Available 11-08-1641-02-P SSA160 Physical Disk Drive pdisk5 Available 11-08-1641-03-P SSA160 Physical Disk Drive pdisk6 Available 11-08-1641-07-P SSA160 Physical Disk Drive pdisk7 Available 11-08-1641-06-P SSA160 Physical Disk Drive pdisk8 Available 11-08-1641-09-P SSA160 Physical Disk Drive pdisk9 Available 11-08-1641-11-P SSA160 Physical Disk Drive pdisk10 Available 11-08-1641-10-P SSA160 Physical Disk Drive pdisk11 Available 11-08-1641-12-P SSA160 Physical Disk Drive 看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示 pdisk0-pdisk11 对应的物理槽位分别是 154823769111012 的位置, 所以在使用 smitty ssaraid 做 RAID0+1 时,前面八块盘按 1-4、5-8 轴对称方式对 应做 mirror,9-12 中如选择 9(pdisk8)/12(pdisk11)位置做 mirror 所以选择 Primary Disks/Secondary Disks 时如下: smitty ssaraid- Add an SSA RAID Array - . Primary Disks 选择:pdisk0 pdisk4 pdisk5 pdisk2 pdisk8 物理 1-4,9 槽 位 Secondary Disks 选择:pdisk3 pdisk6 pdisk7 pdisk1 pdisk11物理 8-5,12 槽 位 该要求只是从性能考虑,并不增加其他特性。 e) 剩余物理位置 10(pdisk10)/11(pdisk9)盘做成 hot spare,方法同上 e)步 骤 第 17 页 数据盘大于等于数据盘大于等于 1212 块小于等于块小于等于 1414 块,配置两块块,配置两块 hot

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论