IBM服务器维护手册_第1页
IBM服务器维护手册_第2页
IBM服务器维护手册_第3页
IBM服务器维护手册_第4页
IBM服务器维护手册_第5页
已阅读5页,还剩18页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一类、机房环境及物理检查

一、机房内环境规定

1.温度与湿度:

最佳工作温度:20-25摄氏度

极限工作温度:10-40摄氏度

湿度:8-80%(在23摄氏度条件下)

如果不是工作在最佳温度,请注意改善机房环境

2.同步机房要保证清洁.

机房应保持清洁,若空气灰尘过多,很容易导致资源读写错误及磁盘机中

磁盘或读写磁头毁损。

二、电源规定

电压:规定电压稳定,尖峰电压会损坏设备

电压范畴:220V+/-10%,即200-240V,50-601Iz

电源功率:视机器类型和系统配备而定

电源线:原则日勺零,地,火三相电,其中零,地电压不得超过

3.0V.

电源接驳:用符合电流规定的空气开关或其他设备和主机电源线接

驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机

组;对于冗于电源日勺接入,建议采用两路单独输入.

三、硬件检查

]检查服务器、磁阵的安装、电源线、7133和主机接线符合规定。

服务器状态检查;

1.当服务器处在启动和正常工作状态时,其前面板上的液晶显示屏

上应无信息显示。

2.当液晶显示屏上浮现带数字和字母日勺信息时,阐明有硬件告警。

可以通过查询有关机型的ServiceGuide查到相应告警因素,状况严重H勺,

则要立即告知IBM技术专家进行问题排查。

7133状态检查:

磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘日勺状态灯

(一排小灯,与各硬盘位置一一相应)。

1.当机柜的状态灯浮现橙黄色时,阐明有硬件告警,此时要检查磁柜日勺

电源、接线、硬盘等。如果有硬件故障则立即进行更换和改正,如果查不

出具体问题,则需要联系有关专家进一步诊断。

2.当硬盘工作正常时,与各硬盘相应日勺硬盘灯会呈绿色,如无读写,则

绿灯始终亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时

或SSA环路浮现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1〜3

秒日勺频率有规律地、不断地闪烁

第二类、系统平常维护流程

2.1系统启动

系统启动正常顺序如下:

一方面对外设(磁盘阵列、磁带库等)加电。

待所有外设加电刍检完毕后,主机加电正常起机。主机加电后,系统进行

自检,在液晶显示屏显示“ok”后,才干按白色POWER键起机.

启动主机HACMP,启动后可用命令tail-f/tmp/hacmp.out来检查启动

状况,在HACMP未完全启动前不要进行下一步。

检查服务器日勺网络地址,路由表(可用netstat-i,netstat-rn等),

检查文献系统,逻辑卷(可用mount,Isvg-o等)。

检查各项应用与否工作正常。

2.2系统关闭

停止HACMP(smittyclstop)0

查看HACMPH勺状态,检查服务器H勺网络地址,路由表(可用netstat-i,

netstat-rn等),检查文献系统,逻辑卷:可用mount,Isvg-o等)。

在HACMP未完全停止前不要进行下一步。

关闭主机(shutdown-F)。重启系统可以使用:shutdown-Fr

如有必要的话,校磁盘阵列前方日勺白色按钮关闭磁盘阵列。

2.3查看系统的错误记录

在系统运营时.,某些系统错误会记录在crrlog中,其中有些错误还会在

终端上显示。检查错误日记可用如下命令:

tterrptmore查看系统所有日勺记录

IDENTIFIER7IMESTAM

PTCRESOURCE_NAMEDESCRIPTION

E85C5C4C0426104399PSCFGLFTSOFTW

AREPROGRAMERROR

2BFA76F60426104099TSSYSPROCSYSTE

MSHUTDOWNBYUSER

9D4CF6E70426104399T0errdemonERR

ORLOGGINGTURNEDON

1E2AC07E0426103999T0errdemonERR

ORLOGGINGTURNEDOFF

1E5EER4T0423132999T0clstrmgr

OPERATORNOTIFICATION

其中

IDENTIFIER为错误编号,当需要检查具体信息时常会用到。

TIMESTAMP为时间标签,它记录日勺是出错时间,其格式:月月日日时时分

分年年

T为Type,它记录的是错误类型

P:为永久错误,需引起注意

T:为临时错误。

C为Class,它记录时是错误种类,如

H:Hardware

S:Software

0:Errlogcrcommandmessages

U:undetermined

RESOURCE_NAME为错误来源

DESCRIPTION为错误描述

tterrpt-aj<IDENTIFIER>查看系统具体记录内容

其中IDENTIFIER为错误编号,如Serrpt-aj0426104399

#errpt-dH查看系统所有H勺硬件出错记录

2.4系统与数据备份

有效及时的系统备份是系统管理日勺非常重要日勺一环。当系统浮现故障时,

特别是文献系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系

统。在如下状况下应做系统备份:

1、新装机。在硬件及系统软件安装完毕后,应做系统备份。

2、软件改动。系统软件或应用软件有改动时,应做系统备份。

3、定期备份。对系统进行定期备份,最佳每两或三个月做一次备份

备份注意事项:

进行系统备份不必停止业务,业务可以继续进行。

建议客户进行定期欧I系统备份(使用命令smittymksysb)o客户也可根

据需要运用SMIT对系统的特定的VG或FS进行备份。

smittymksysb只备份rootvg中mount起来日勺文献系统,其他文献系统或

数据并没有做备份,因此数据备份需要此外完毕(建议客户使用TAR格式)

在条件容许的状况下,最佳有一盘以上备份带,以避免磁带损坏。

系统备份过程中有时候会提示有些/1叩目录下的文献无法备份,显示如

下:

Creatinglistoffilestobackup...

Backingup34025files

1694of34025files(4%)

2733of34025files(8%)backup:0511-449Anerroroccurred

accessing./

tmp/sh34736.1:Afileordirectoryinthepathnamedoesnotexist.

backup:0511-449Anerroroccurredaccessing./tmp/sh34736.2:A

fileordirector

yinthepathnamedoesnotexist.

backup:0511-449Anerroroccurredaccessing./tmp/sh34736.3:A

fileordirector

yinthepathnamedoesnotexist.

15458of34025files(45%)

31920of34025files(93%)

0512-003mksysbmaynothavebeenabletoarchivesomefiles.

ThemessagesdisplayedontheStandardErrorcontainedadditional

information.

这是正常现象,备份成功。

2.5系统恢复

当系统发生比较严重的故障以致采用一般性维护手段不能在短期内恢复

原系统,在与客户进行蹉商后,可将近来一次的系统备份带倒回机器内以

全面恢复系统到近来一次做备份时的系统环境,然后可将当天日勺数据备

份再倒回系统内。至此,系统可恢复正常运营。此后,客户应当与IBM工

程师再进行整个事件的全面分析与回顾,以期找到故障发生的因素,并

采用相应措施以杜绝类似事件再次发生。

2.6DUMP

当系统运营浮现软件故障导致系统down机时,机器的液晶显示屏会浮现

888102xxxOcO(xxx也许为700或其他),AIX常会将当时系统欧|运营

状况记录下来,这就是DUMP。

当DUMP产生后,请将磁带放入磁带机,用命令#snap-a-o/dev/rmtO

将DUMP文献拷贝到磁带设备/dev/rmtO中。注明磁带机的blocksize,

DUMP产生的日期和机器的型号及序列号。同步,请用#errpt

-a>/tmp/err.log将errorlog记在/tmp/err.log中,并将

/tmp/err.log和/tmp/hacmp.*拷贝到软盘或磁带上。将磁带和软盘交

给IBM工程师。

2.7平常检查服务器状态的项目及其有关命令

1运营lsdev命令配以多种参数,所列多种设备状态都应为Available。

#

lsdev-C-H-Sa列出系统中可用设备。

ttlsdev-Ccprocessor列出系统中日勺所有CPUo

#lsdcv-Ccmenory列出系统中口勺所有内存。

ttlsdev-Ccdisk列出系统中口勺所有硬盘。

#lsdev-Ccadapter|grepent列出系统中的所有网卡

ttlsdev-Ccadapter|grepscsi列出系统中的所有SCSI卡。

ttlsdev-Ccadapter|grepssa列出系统中欧J所有SSA卡。

2Ispv命令

ttlspv显示系统中可用日勺PV。

#lspvhdiskn显示hdiskn/、J具体信息。

#lsdev-Ccpdisk显示磁盘阵列口勺硬盘的具体信息。

对SSA硬盘H勺检测:在对主机进行工作之前可以先把磁盘阵列上电,等主

机完全启动后,登录到主机上,运营如下命令"Isdev-Ccpdisk",

应当可以看到所有SSA硬盘,并且状态应为Available.0

3Isattr命令

#Isattr-E-1memO列出系统中内存memOH勺大小,本项目中内存

有4GB。

4lsvg命令

#lsvg列出系统中所有H勺vgo

#lsvgrootvg列出rootvg日勺具体信息。

ttlsvg-o列出激活的vg

5oslevel命令

ttoslevel显示操作系统版本信息。

6netstat命令

ttnetstat-in显示系统中各网卡的配备。可查看网卡的IP配备好

了没有。

7#diag命令

运营硬件诊断程序检测主机内所有硬件,检测成果为“Notrouble

found"显示各部分工作正常。

8使用#diag命令

(选择:TaskSelection->SSAServiceAids)对SSA硬盘链路连接的

校验,可以通过SSA工具里H勺LinkVerification来检测。如有必要,

可以用CertifyDisk运营硬盘诊断部分进行硬盘的表面分析测试,由

1%至100%,检测成果显示主机内置硬盘时所有扇区均读写正常。

9Isps-a

查看PAGINGSPACEMJ使用状况,如果使用率超过70%,就需要采用措施.

10Isvg-o|Isvg-il|grep-istale

查看有无staleH勺Iv,如果输入该命令之后有输出成果,就需要采用措施

11有否发给root顾客的错误报告(mai1)。

12检查双机状态:Issrc-gcluster

检查ha三个工作进程与否激活,/usr/sbin/cluster/clstat-a检查双

机状态与否up,并检查hacmp.out日记,看与否有异常信息。

13用vmstat,topas,sar命令

检查系统性能,检查cpu\memoyr\IO,与否存在性能瓶颈。

14检查能否顺利进入CDE界面,如果不能进入H勺话,要检查/etc/hc,sts

表中有否错误的项目。

15用smittyssaraid查看磁盘阵列RAID盘[f、J状态与否是Good。如

果是degrade或其他状态表达RAID盘浮现问题了

16用sysdumpd6v-1查看系统『、JDUMP设立与否正常。

17用instfix-ik|grepML目前操作系统补丁版本补丁程序(FTF)

与否满足稳定运营的需要。一般规定433操作系统补丁要打到10以上,

5.1操作系统补丁要打到5以上

18使用df・kP查看磁盘空间占用率,请保证如下文献系统日勺占用率

高于80%立即上报:

2.8性能监控与调优

通过命令vmstat1来观测.

kthrmemorypage

faultscpu

rbavmfrerepiposrcy

insycsussyidwa

命令解析:vmstat命令口勺输出可以反映系统整体运营状况,涉及cpu、内

存、虚拟页面、系统进程和系统调用状况。

检查CPU与否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.

检查MEM与否为瓶颈,分别检查Memory的两项数值和Page的六项数值.

通过命令sar-mu-PALL来观测。

命令解析:sar可以用来收集反映系统运营状况,在这里重要是查看

CPU的运营状况,CPU与否负载均衡,与否存在分派不均的)状况。

通过命令psgv|more来观测。

P1DTTYS?ATTIME

PGINSIZERSSUMTSTZTRS%CPU%MEMCOMMAND

0-A4:20712

14516XX0145040.05.0swapper

1-A1:331037895279044

3276825360.029.0/etc/ini

命令解析:ps可以用来查看进程的目前状态。在这里通过参数日勺配搭,可

以观测目前正在运营的进程所耗日勺时间,CPU和memory量.其中,%CPU表

达进程所占用的CPU资源状况,%MEM表达进程所占用日勺内存状况。重要检

查与否有标示为〈defunc>的僵尸进程耗用系统资源,以及informix数据

库口勺oninit进程口勺系统消耗状况。

在机器上用dd命令进行磁盘阵列的写操作校验,与此同步用iostat1

-dhdiskX观测磁盘。

Disks:%

tmactKbpstpsKbreadKbwrtn

命令解析:iostat可以用来查看系统日勺I/O的输入输出状况,在这里重

要查看阵列上的硬盘的每秒读写最,同步估算磁盘阵列读写速度

HHhllhh

通过命令netstat-a进行查看。

ActiveInternetconnections(includingservers)

ProtoRecv-QSend-QLocal

AddressForeignAddress(state

命令解析:netstat可以用来查看系统日勺网络状况,在这里重要是查看网

络客户端连接的状况和开销,检查参数为state,如有死连接,state状

态为fin_wait,这样耗用系统网络资源,从而导致网络性能下降构成瓶

颈。

2.9安全工作守则

a.系统定期进行系统备份,系统盘建议镜像。

b.当有系统变更或进行操作系统补丁安装日勺时候,必须作一次系统备份。

c.在7133和shark发既有硬盘故障的时候,请提示客户注意当天的)数据

备份。在更换硬盘的时候,请确认当天数据备份已经完毕。

d.在更换敏感的电子元件,时候一定要防静电。

e.在插拔外围设备的时候,请把外围设备下电。

f.在进行主机微码升级时候,请留意微码的完整性。

g.在进行文献删除啊时候,请留意目前程径与否对的。

h.在进行文献解压缩的时候,请留意参数和途径。

2.10维护电话

在平常维护中遇到问题和疑难,可以致电:

IBM免费技术支行保修热

线:800-810-6677010-64981188-5100

客户技术征询热线:800-810-1818

IBM广州分公司联系电话/p>

I本帖最后由mf'kqwyc86于-11-412:32编辑]

###############################################################

#################################君子务本,本立而道生。

-—mfkqwyc86,飞鹰工作室ITPUT个人空间:

http://space.itpub.net/9664900

01.

[OracleRAC]Linux+Oracle11gR2RAC安装配备具体过

程http://space,itpub.net/9664900/viewspace-67683602.[Oracle

RAC]OracleRAC更改VIPIP地址_2节点的实

验http://space.itpub.net/9664900/viewspace-67680003.[Oracle

RAC]OracleRAC删除一种节点_3节点的实

验http://space.itpub.net/9664900/viewspace-67679904.[Oracle

RAC]OracleRAC增长一种节点_3节点的实

验http://space.itpub.net/9664900/viewspace_67679805.[Oracle

RAC+DG]OracleRAC+ASM+DataGuard配备实验记

录http://space,itpub.net/9664900/vicwspacc-67679706.[Oracle

RAC]OracleRACCRS>OCR、Voting破坏意

建http://space.itpub.net/9664900/viewspace-67679607.[Oracle

表分区管理】OraclePartition表分区与分区索引儿种方式的实验操作

http:〃space,itpub.net/9664900/viewspace-67685508.[IBMDB2表空

间管理】db2表空间管理一实例解说之精

髓http:〃space,itpub.net/9664900/vie\vspace-67677709.[IBM

DB2补丁升级】从v9.5.0.1升级到DB2

v9.5.0.6http://space,itpub.net/9664900/viewspace-67682710.

【中间件资料下载汇总】WebSphere,MQ,Portal,WcbLogic资料下载汇总

【PDF格式-共51

类】http://space,/9664900/viewspace-676843

只看该作者命

mfkqw^

#2

yc86使用道具

飞鹰工刊登于-11-412:22

作室

跟贴阐明:

大家看了如下平常维护及故障解决汇总措施后,请大家在贴

后跟上自己遇到过的错误问题,及解决措施!!

精髓贴

数1

个人空

间400第三类、故障定位、故障排除

技术积

分826

(3079)根据我们在实际商用系统中遇到问题,我们总结出了如下几种常见

社区积故障及其定位方式和解决措施。3.1硬件故障硬件故障有诸多种,

分28对系统产生的影响也不同样,这里按其故障对系统日勺影响限度分:致

(9086)命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其

注册日损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件涉及:

期主板、CPU、I/O柜(涉及本地盘、光驱、PCI插槽等的柜子)或CEC

-4-28柜(涉及CPU/MEM0RY等日勺柜子)、I/O柜与CEC柜时接线、电源模块、

论坛徽电扇、本地硬盘、内存损坏等等注:1/()柜和CEC柜一般在比较高品

章:1位的小型机才有,如M80,低端的是合一的。这些设备的损坏等将

使系统无法完毕自检、引导和启动,液晶显示屏上都将有错误信息,

可根据液晶显示屏上的错误码对照ServiceGuide查的错误因素,如

果是工作状态下浮现这些硬件损坏,见系统将被挂起或宕机。其损

坏对仅对系统产生功能影响(机器不会宕机并能正常启动)H勺硬件涉

及:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设

备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能

等,对于本地硬盘有坏块的状况,则要看坏块中与否涉及了重要的系

统文献,如果不是重要系统文献,则系统功能不受影响,但也建议立

即更换该硬盘。故障定位和排除:以上硬件故障信息都可以使用:

液晶屏上日勺错误码或:errpt-dH查看到根据错误码拟定是什

么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器

是主机可以将此服务器切换成备机,然后修复故隙机器,恢复系统。

3.2磁阵故障磁阵引起的故障是目前遇到的最频繁、危害最大的故

障,据不完全记录,其故障覆盖到总故障日勺70%以上,具体来讲,也

许引起磁阵故障的环节涉及:磁阵硬盘、7133柜子、主机上的SSA

卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、

以及盘柜使用日勺电压及周边磁场、磁阵/硬盘/ssa卡的微码等都也许

导致7133欧J异常。7133磁阵的问题是最复杂的),一般有物理损坏日勺

因素也有环境因素,这是主因,如接线、插盘位置不符合规定、未及

时查看系统告警等导致系统中断等辅因。按照我们的经验,不管是

什么硬件故障导致7133故障,系统都会产生告警,如果能及时发现

问题并采用措施,一般都能避免故障的发生。故障定位:7133硬

件故障也可以使用:errpt-dH查看到随着的错误码有:

B4C006180115140004PHssaORESOURCE

UNAVAILABLEFE9E93570401082304PHssaODISK

OPERATIONERRORFE9E93571205000803PHpdisk3DISK

OPERATIONERROR03913B941122031103UH

LVDDHARDWAREDISKBLOCKRELOCATION

ACHIEVED613E5F381121125103PHLVDDI/OERROR

DETECTEDBYLVM625E6B9A0401090004PH

ssaOADAPTERDETECTEDOPENSERIAL

LINK26CA120B0206081104PHssaOCACHESTORAGE

CARD所有日勺错误码都预示着7133有异常,红色部分则表达肯定浮现

了硬件故障,需要立即进行检查并采用措施,否则磁阵将不久不能访

问。对于蓝色部分:625E6B9A0401090004PH

ssaOADAPTERDETECTEDOPENSERIALLINK表达ssa浮现

了开环,浮现开环不仅影响10性能,也增长了风险,即如果另一种

环路也浮现问题,将不能访问磁阵。开环一般有两种状况;1)如果

625E6B9A报错比较频繁,如每天几次,则表达系统很有也许出了硬件

故障,虽然不会导致访问磁阵失败,但需要立即查出原因并解决。

查错措施可以参照下面的描述。2)如果625E6B9A错误偶尔报一次,

则要具体状况具体看待,有也许是读写忙浮现日勺误报,也按下面措施

进行排查,如果没有查出具体口勺因素,则可以继续观测。

26CA120B0206081104PHssaOCACHESTORAGE

CARD该错误一般是在:SSA卡带writecache并打开FastWrite,而

ssa卡上用于writecache供电欧J可充电锲镉电池达到或接近安全寿

命的状况下产生H勺。此类错误产生将影响10写性能,并且由于在

FaslWriie打开的状况下,主备机需要同步ssa卡上的Jwritecache,

因此甚至会影响到主备机同步。具体解决措施可参照下文。故障排

除:对于红色部分错误的问题排除,一般可以使用diag命令进行进

一步诊断:#diag->TaskSelection->SSAServiceAids->Link

Verification检查环路中与否浮现了???的盘符或状态不是

good的|硬盘或使用:ttsmittyssaraid->ListAllDefinedSSA

RAIDArrays查看磁盘阵列RAID盘的状态与否是Good。如果是

degrade或其他状态表达RAID盘浮现问题了这时候不建议再进行

单独硬盘口勺Certify,而是赶紧告知IBM准备好相似型号和大小的硬

盘(至少两块)到现场进行进一步的诊断和坏盘更换。

625E6B9A0401090004PHssaOADAPTERDETECTED

OPENSERIALLINK的排查措施:1、规定将7133中未插硬盘日勺槽位

所有插上dummy盘。(dummy盘:哑元盘,就是那个空壳子,相称于替

代SSA硬盘装在磁盘阵列日勺塑料模型,当磁盘阵列的16个槽位没有被

SSA硬盘插满时才用到.)2、看看Loop状态:diag>Task

Selection—>SSAServiceAids->LinkVerification.正常Adapter

Port下的两列数字是持续不间断的排列,且Status都为good,如果

Physical列有???????符号.或Status不是good,则说明已经存在

硬盘或链路故障,这种状况则要立即采用行动,做进一步检查以拟定

与否要更换硬盘。检查单盘与否有问题的措施如下:

diag—>TaskSelection一>SSAServiceAids->Ccrtify

Disk选择觉得存在故障的硬盘进行检查3、如果7133存在硬

件故障时,可从状态灯上观测到:当单块硬盘浮现故障或未被

使用时,其面板上的硬盘状态灯会不亮阵列日勺状态灯黄灯会亮

或接SSA线端口口勺批示灯也会熄灭如果通过以上三种措施

都未发现问题,而系统仍报OpenSerialLink错误,建议继续跟踪。

26CA120B0206081104PHssaOCACHESTOR/\GE

CARD日勺解决措施:背景简介:IBM小型机上连接7133磁降所

配备日勺SSA卡一般都带有一块充电电池,该电池用于在忽然停电的状

况下保护ssa卡上『勺fastwritecache中的信息不去失,这块电池

的安全寿命一般是2小时,差不多两年半的时间,也就是说,当fast

write模式启动的状况下,一般两年半后来需要更换这块电池。问

题体现:对ssa卡上的电池保护是通过卡上日勺一种计数器实现

的,每运营一小时该计数器会增长一,当该计数接近或超过2时,系

统会有26cAi20B硬件报警:26CA120B0206120904PH

ssalCACHESTORAGECARD可以用如下命

令检查ssa卡上的状态:Qa后带上卡的逻辑设备名,这里假设是

ssaO)ssa_fw_status-assaO-p(检查电池已经

工作日勺时间,小时为单位)ssa_fw_status-a

ssaO-1(检查电池安全工柞寿命,小时为单

位)ssa_fw_status-assaO-c(检查ssa卡上H勺

fastwrite功能与否被激活)解决环节:(按优选方式列出,从中

选择一种即可)1)更换电池选择系统闱时,更换主备机ssaK

电池,可以采用:停备机一》更换备机ssa卡电池一》起备机

(双机服务)一》主备倒换一》停原主机一》更换原主机ssa

卡电池一》起原主机(双机服务)2)如果系统浮现26cAi20B电池

告警,使用ssa_fw_status-assaO-c检查主用ssa卡(一般是

ssaO)FastWrite与否处在inactive(未被激活)状态,如果是,

则以root执行如下命令:ssa_format_1ssaO-b

errclear0/usr/lib/errstop

/usr/1ib/errdemon可以暂缓更换电池时间,等有电池

后再更换,但这段时间对磁阵读写性能会有所影响。3)如果短期内

不能更换电池,同步主机主用卡的FastWrite仍然处在Active状态,

建议手工屏蔽fastwrite功能1)先停止双机2)在1

号机修改hdisk该属性:smittydev->ssadisks->ssa

logicaldisks->change/showcharactersof...->[choose

hdisk2]->fastwrite[no]3)在1号机激活卷组

varyonvgzxinvg4)在1号机去激活卷组

varyoffvgzxinvg5)在2号机上执行

smittydev->ssadisks->ssalogicaldisks->change

/showcharactersof...->[choosehdisk2]->fastwrite

[no]检查fastwrite与否己经改为no(只要1号机做

了2好机就不用再修改了)6)在2号机上执行

rmdcv-dlhdisk2cfgmgr-v7)

在2号机上执行Ispv(查看hdisk2与否已找

到)8)然后执行varyonvg

zxinvgvaryoffvgzxinvg9)重新启动双机

B4C006180115140004PHssaORESOURCE

UNAVAILABLE而不随着其他红色标出错误日勺状况,则通过如下方式排

查:也许是hdisk中将'enableuserofhotspare'打开了,而

实际并没有配备hotspare盘,可以通过如下方式解决:检查RAID

欧I状态:#smitty

ssaraid

listall

definedSSARAIDarrays:al1areinstatusgood

(ssaO)检查与否配备了hot

spare:1ist/idcntifySSAPhysicaldisks—>Listhot

spares:none修改每个ssa卡所配条『、Jhdisk口勺属性::set

“enableuseofhotspare"to〃no〃然后再执行:#

/usr/lib/errstop#cp

/var/adm/ras/err1og/var/adm/ras/errlog.bak#/usr/lib/e

rrdemontterrclear0对于物理硬盘口勺接法可参照如下阐明:(有

也许老局未配备hotspare,则连线措施按未配备hotspare盘的个

数计算)分如下几种状况讲述:1)数据盘小于等于6块,建

议配备一块hotspare2)数据盘大于等于8块小于等于10块,

建及配备两块hotspare3)数据盘大于等于12块小于等于14

块,建议配各两块hotspare1数据盘小于等于6块,配备一

块hotspare的接线和配备规则:a)主机Al、A2接磁阵1、8

位置;备机Al、A2接磁阵4、5位置b)保证磁阵前排1\4\5\8

硬盘位置一定要插盘,其他的盘可以挑空位插,注意1-4、5-8两侧

的数据盘保持轴对称关系插入(如1和8是轴对称日勺、4和5是轴对

称时)c)没有插硬盘日勺位置一定要插上dummy盘d)做

RAID0+1时,考虑到性能问题,请将『4、5-8以轴对称方式一一相

应做硬盘镜像,举例如下:ibm对pdisk的排序与实际口勺物理位置是

不同『、J,因此必须先通过Isdev-CIgreppdisk『、J方式找出其相应

关系并记录下来,如:pdiskOAvailable

11-08-1641-01-PSSA160PhysicalDisk

DrivepdisklAvailable11-08T641.-05-PSSA160

PhysicalDiskDrivepdisk2Available

11-08-1641-04-PSSA160PhysicalDisk

Drivepdisk3Available11-08-1641-08-PSSA160

PhysicalDiskDrive看第三列中间字符中有-01-的字样,表达

其物理硬盘位置,以上相应关系表达pdiskO-pdisk3相应的)物理槽位

分别是前排1\5\4\8口勺位置,因此在使用smittyssaraid做RAIDO+1

时,需将1\8位置的硬盘(pdisk0/pdisk3)做成镜像、4\5位置的硬

盘(pdisk2/pdiskl)做成镜像,因此选择PrimaryDisks/Secondary

Disks时如下:smittyssaraid->AddanSSARAIDArray

->...PrimaryDisks[需要选择:pdiskO

pdisk2]―1\4槽位『、J硬盘作为主盘Secondary

Disks[需要选择:pdisk3pdiskl]-8\5槽位日勺硬盘作

为从盘该规定只是从性能考虑,并不增长其他特

性。e)hotspare盘插入位置可以找前排8个位置中日勺空

位插入即可,无特殊位置规定,制作措施如下:使用lsdev-C|grep

pdisk方式找出其pdisk号,如pdisk5然后使用如下方式将其做成

hotspare盘。smittyssaraid->ChangeUseofMultipleSSA

PhysicalDisks->选择ssa卡(连接磁阵口勺ssa卡,缺省为ssaO)->

选择作为hotspare日勺pdisk,如pdisk6->NewUse->选择hotspare

按回车创立即可1数据盘大于等于8块小于等于10块,

配备两块hotspare日勺接线和配备规则:a)主机Al、A2接磁

阵1、12位置;备机Al、A2接磁阵8、9位置b)保证磁阵前

排1—8位置插满数据盘,9-12位置的数据盘和hotspare盘位置可

任意。c)没有插硬盘的位置一定要插上dummy盘d)做

RAID0+1时,考虑到性能问题,请将1-4、5-8以轴对称方式一一相

应做硬盘镜像,9T2位置中有数据盘日勺,将其相应做镜像,其他两

块做hotspare,举例如下:ibm对pdiskH勺排序与实际的物理位置

是不同的I,因此必须先通过Isdcv-C|greppdisk日勺方式找出其相

应关系并记录下来,如:pdiskOAvailable

11-08-1641-01-PSSA160PhysicalDisk

DrivepdisklAvailable11-08-1641-05-PSSA160

PhysicalDiskDrivepdisk2Available

11-08-1641-04-PSSA160PhysicalDisk

Drivepdisk3Available11-08-1641-08-PSSAI60

PhysicalDiskDrivepdisk4Available

11-08-1641-02-PSSA160PhysicalDisk

Drivepdisk5Available11-08-1641-03-PSSA160

PhysicalDiskDrivepdisk6Available

11-08-1641-07-PSSA160PhysicalDisk

Drivepdisk7Available11-08-1641-06-PSSA160

PhysicalDiskDrivepdisk8Available

11-08-1641-09-PSSA160PhysicalDisk

Drivepdisk9Available11-08-1641-11-PSSA160

PhysicalDiskDrivepdisklOAvailable

11-08-1641-10-PSSA160PhysicalDisk

DrivepdiskllAvailable11-08-1641-12-PSSA160

PhysicalDiskDrive看第三列中间字符中有-01-的字样,表

达其物理硬盘位置,以上相应关系表达pdiskO-pdiskll相应的物理

槽位分别是1\5\4\8\2\3\7\6\9\11\10\12口勺位置,因此在使用smitty

ssaraid做RAID0+1时,前面八块盘按1-4、5-8轴对称方式相应做

mirror,9T2中如选择9(pdisk8)/12(pdiskll)位置做mirror因此

选择PrimaryDisks/SecondaryDisks时如下:smitty

ssaraid->AddanSSARAIDArray->...Primary

Disks[选择:pdiskOpdisk4pdisk5pdisk2pdisk8]物理

1-4,9槽位SecondaryDisks[选择:pdisk3pdisk6pdisk7

pdisklpdiskll]物理8-5,12槽位该规定只是从性能考虑,并

不增长其他特性。e)剩余物理位置

10(pdiskl0)/ll(pdisk9)盘做成hotspare,措施同上e)环节

1数据盘大于等于12块小于等于14块,配备两块hotspare

的接线和配备规则:a)主机Al、A2接磁阵1、16位置;备机

Al、A2接磁阵8、9位置b)空巴3、14位置插hotspare,如

果是12块数据盘,空出2、15位置插dummy盘,其他都插入数据盘;

如果是M块数据盘,则将剩余日勺14个位置所有插上数据盘

c)做RAID0+1时,考虑到性能问题,请将1-8、9-16以轴对

称方式一一而应做硬盘镜像,hotspare也满足轴对称关系,举例如

下:ibm对pdisk时排序与实际的物理位置是不同的,因此必须先通

过Isdev-CIgreppdisk的J方式找出其相应关系并记录下来,如:

pdiskOAvailable11-08-1641-01-PSSA160

PhysicalDiskDrivepdisklAvailable

11-08-1641-05-PSSA160PhysicalDisk

Drivepdisk2Available11-08-1641-04-PSSA160

PhysicalDiskDrivepdisk3Available

11-08-1641-08-PSSA160PhysicalDisk

Drivepdisk4Available11-08-1641-02-PSSA160

PhysicalDiskDrivepdisk5Available

11-08-1641-03-PSSA160PhysicalDisk

Drivepdisk6Available11-08-1641-07-PSSA160

PhysicalDiskDrivepdisk7Available

11-08-1641-06-PSSA160PhysicalDisk

Drivepdisk8Available11-08-1641-09-PSSA160

PhysicalDiskDrivepdisk9Available

11-08-1641-11-PSSA160PhysicalDisk

DrivepdisklOAvailable11-08-1641-10-PSSA160

PhysicalDiskDrivepdiskl1Available

11-08-1641-12-PSSA160PhysicalDisk

Drivepdiskl2Available11-08-1641-16-PSSA160

PhysicalDiskDrivepdiskl3Available

11-08-1641-13-PSSA160PhysicalDisk

Drivepdiskl4Available11-08-1641-15-PSSA160

PhysicalDiskDrivepdiskl5Available

11-08-1641-14-PSSA160PhysicalDiskDrive看第三列中间

字符中有-OLD勺字样,表达其物理硬盘位置,以上相应关系表达

pdisk0-pdiskl5相应日勺物理槽位分别是

1\5\4\8\2\3\7\6\9\11\10\12\16\13\15\14的位置,因此在使用

smittyssaraid做RAIDO+1时,以1-8、9T6以轴对称创立mirror

因此选择PrimaryDisks/SecondaryDisks时如下:smitty

ssaraid->AddanSSARAIDArray->...Primary

Disks[选择:pdiskOpdisk4pdisk2pdisklpdisk7pdisk6

pdisk3]物理1-8槽位,除3位置以外SecondaryDisks[选

择:pdiskl2pdiskl4pdiskl3pdiskllpdisk9pdisklOpdisk8]

物理16-9槽位,除14位置以外该规定只是从性能考虑,并不

增长其他特性。剩余物理位置3(pdisk5)/14(pdiskl5)盘做成hot

spare,措施同上e)环节3.3网络故障由于我们应用对网络依赖很

强,因此当网络浮现全阻或瞬断都将对系统产生重大影响,网络故障

一般可分为硬件故障(如网卡故障和互换机、路由器故障)和软件故

障(网络中有TP包袭击或网络拥塞)两种状况。硬件故障:1.网

卡对于网卡故障,由于商用系统中都是采用IBM的HA双机系统,并

且每台机器都配备有至少两块网卡,因此当单块网卡或网线浮现问题

时,HA软件都将采用措施实现ServiceIP切换。网卡故障定位措

施:使用errpt-dll可查看到网卡服务中断的I错误,再使用diag进

行网卡诊断网卡故障排查措施:如果诊断出网卡有问题,则关闭系

统后进行更换。(如果是主机,则先手工切换为备机后再操作)2.互

换机我们的网络一般都采用双网双平面的构造,因此当一种网络平

面的互换机浮现问题时,也不会中断网络服务,但值得注重的是:主、

备互换机之间日勺直连线要保持畅通,否则一单发生IBM服务器主机

或SIU主机的网卡切换,将导致IBM服务器主机和SIU主机断链,从

而导致业务全阻。尚有一种状况,有些地方为了网络安全,对连到

switch_t口勺不同设备划分了不同iKjVLAN,同步又将主、备switch之

间改成通过两个口连接,并划分在一种channelgroup里,当时遇到

的一种状况是:1)当时TBM服务器的主网卡从缺省VLAN0到VLAN6

实现迁移时,网络将浮现15秒〜30秒的瞬断2)当时主、备互换机之

间的channelgroup工作不正常,链路不通。当1)发生时,IBM双

机发生主、备网卡倒换,但由于2)的问题,导致IBM主机无法与SIU

建链。问题排查及建议:1)建议开局时一定要做双网双平

面中一种平面口勺swith发生掉电的故隙测试2)建议一定要做

主、备互换机之间口勺设备之间的网络互访测试,保证畅通3)尽

量不要在白天在switch上进行配备修改,如果需要修改,也要在晚

上进行,并有严格的方案软件故障:1.网络拥塞由于系统在封

闭网络中运营,因此发生网络拥塞日勺也许性比较小,但如果网络拓扑

比较复杂日勺话,也也许发生这种状况,在主机上的体现为ping主机

丢包严重,主机到SIU之间链路时通时断,数据包丢失,设备功能异

常。问题排查及建议:1)尽量使NTH勺机器从网络上隔离出

去2)如果状况仍未改善,建议启动SIU应急流程3)在

恢复呼喊日勺前提下,使用网络工具抓包,找出袭击源、逐渐将设备恢

复到网络。2.切换失败现场遇到过一种状况,当发生主、

备机切换时老是切换不成功,检查发现是备机日勺主网卡绑定浮动IP

老是失败,再进一步排查,发现失败日勺因素是备机主网卡绑定MAX地

址失败,由于IBM双机配备时需要将ServiceIP配备为一种固定口勺

MAC地址,规则是取主机主网卡的MAC地址,将最后两位改为固定H勺

两个数字(规定与原主网卡地址不同,如定制为89)o但这样的规则

在现场不成才问题排除:最后修改了HA拓扑图中以太网配备口

ServiceAdapter配备,去掉MAC地址的配备(置为空),让后同步

双机,再进行倒换,一切0K由于网络故障浮现会导致远程登录失

效,因此无法进行系统维护。因此建议任何一套TBM服务器都要配备

一种维护台。3.4OS故障AIX是一种比较稳定的操作系统,浮现故

障一般是人为因素引起的:1.没按规定打OS补丁,如433打

了09口勺补丁导致内存泄漏2.应用程序或数据库消耗内存太多

或存在内存泄漏导致物理内存和pagingspace被耗尽导致系统挂起

3.人为删除了重要日勺目录或文献,如:/dev、/usr、/bin、

/sbin、/ctc等故障排查:1.查操作系统补丁与否符合规定(433

规定10以上,5.1规定5以上)2.检查内存、pagingspaceH勺使

用状况(使用Isps-a查看使用率要小于20%)3.检查shell命令

执行时与否有报错,errpt有无有关报错3.5HA故障对于HA安装

时浮现的故障,犹如步拓扑图失败,规定检查如下条款看与否符合规

定:1.对于4.4.1版本的HA一定要打上15以上的补丁,4.5版本

的HA规定打上9以上的补丁2.网络有关日勺配备文献一定要按照安

装手册去设立3.网络ip配备要对的并且保证物理链路畅通4.所

有4.4.1、4.4.0版本一律使用原则版5.不能在同一台机器中同步

安装原则版或ES版6.打补丁时请使用smittyupdatjall方式,

不要选择打所有补丁,由于原则版和ES版H勺补丁往往在一起,这样

会导致版本不一致如果是新开局,一定要保证做双机倒换测试并保

证成功。如果在后续使用中,进行了如下操作,后来再做双机切换

会失败:1.在主机上做过磁阵RAID或共享VG有关信息日勺修改,如:

增长了新日勺RAID盘,修改了共享VG的配备2.在共享VG中增长了

新的FS、增长了新LV3.以上配备或修改只在主机上进行了操作,

而未将共享VG信息及时同步到备机4.备机虽然导入了新日勺共享VG

信息,但未修改共享VG属性为系统启动时不自动启动5.未在共享

VG激活、共享文献系统mount状态下修改备机共享文献系统、裸设备

的权限改为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论