HACMP环境下的排错.doc_第1页
HACMP环境下的排错.doc_第2页
HACMP环境下的排错.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HACMP环境下的排错在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的.需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作.一般地,HACMP环境下的排错包括:.了解问题的存在.判断问题的出处.解决问题.一 了解问题的存在您可以通过以下途径了解到一个CLUSTER环境下出现了问题.最终用户的投诉,他们无法访问应用程序.控制台上出现一些HACMP的信息.1.应用服务无法访问最终用户的抱怨通常预示CLUSTER出现了问题.他们无法正常执行应用或是无法登录到系统.我们必须采集到详细的信息以判断到底那里出现了问题.是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始.您也可以在自己的系统上重复.要知道用户应用不可用并不代表HACMP有问题.问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题.因此应用程序本身的排错也应是HA排错的一部分.2.控制台上出现一些HACMP的信息在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也会写入相应的文件中.二 判断问题的出处当错误出现时,我们应尝试发现错误的所在.但我们常常被错误的表面所误导.以下的步骤可以使我们得到更详细的信息.1.保存好一些LOG文件.(/tmp/hacmp.out & /tmp/cm.log).因为它们可能被覆盖.2.仔细检查HACMP所产生的LOG文件.它们能提供最初的判断线索.3.用HACMP的工具和AIX的命令来检查HACMP的部件是否正常.4.打开HACMP的跟踪工具来产生更详细的信息.HACMP的LOG文件:以下文件都是文本文件,可以用VI来看.每个日志文件都含有每个信息的产生时间./usr/adm/cluster.log :记录了HACMP的状态,由HA的守护进程所产生./tmp/hacmp.out :记录了HA的详细脚本./usr/sbin/cluster/history/cluster.mmdd :记录了HA的各个事件的发生./tmp/cm.log :由clstrmgr进程产生,每次HA重起时会被覆盖.HACMP FOR AIX的结构应用层HACMP软件层LVM & TCPIP 层AIX 层物理网络层物理硬盘层硬件层在物理网络层,物理硬盘层,硬件层,LVM & TCPIP 层,AIX 层 我们可以用AIX系统命令来看是否硬件和系统出现了问题.一般地,在用errpt命令来看没有类型为PH的错误,lsvg -o 来看我们所须的VG已varyon,mount来看我们所须的文件系统已安装, netstat -i来看我们所须的service IP是UP的状态(或用ifconfig en*),cluster node 之间的service 与service IP ,standby与 standby IP 互相可以ping通.在各个节点上执行stty/dev/tty* 有相应的信息出现.说明硬件层,LVM & TCPIP 层,AIX 层没有问题,问题可能出现在应用层与HACMP软件层上.否则问题就出现在相应的层次上.在HACMP软件层上,我们可以用vi /tmp/hacmp.out来看,如果出现event failed的字段,则有可能问题出现在该层,如果在问题出现的时段,hacmp.out无信息出现,则问题可能出现在应用层.以下是HA排错的一些守则:.在第一时间保存好相关的日志文件,特别是那些会被覆盖的文件.尝试去重复问题的出现.不要被用户所反映的问题迷惑.渐进地去重复问题,如果有多个可能导致问题的出现,一个一个地去重复,而不要一次重复多个可能.不要凭经验来判断问题,而是要在各种测试后,由结果来判断.隔离问题的来源,根据我们上面所叙述的层次关系,至顶向下地诊断.由简到繁地做测试,我们先从一个简单的环境来做测试,不要尝试在一个复杂的环境中测试.一次做一次改动,否则我们无法知道是那个改动解决了问题.不要忽略各种可能,因小可失大,留心系统的每一个细节,包括电源,插头,连线等.保持各种测试的记录以及解决的步骤,用做将来排错的参考.拨打IBM服务热线,将问题现象和您所做的测试结果告诉IBM的工程师,他们将在CALL CENTER的测试中心重复试验,必要时会派工程师到场解决问题.三 IBM HACMP 双机系统的管理和维护本节将说明HACMP 双机软件的一些基本管理和维护命令这些命令将会在HACMP 双机系统的日常工作中经常用到.1 HACMP 双机系统的启动要启动HACMP 双机系统必须要有root 用户的特权分别进入到系统各节点主机在命令行上执行下述命令即可.# smit clstart或# /usr/sbin/cluster/etc/rc.cluster -boot -N I需要注意的是在双机系统中HACMP 双机软件先启动的节点将成为主节点拥有资源并对外提供关键服务后启动的节点将成为备节点.另外在启动HACMP 前需要启动双机上的INFORMIX 和SCP 应用.2 HACMP 双机系统的关闭要关闭某节点上的HACMP 双机软件必须要有该节点root 用户的特权以root 用户进入到该节点主机在命令行上执行下述命令即可.# smit clstop或# clstop -gr需要注意的是若该节点是主节点并且备节点上的HACMP 软件亦正常运行则需注意clstop 关闭模式的三种选项的不同1 forced 是指立即关闭双机软件不调用任何客户应用的善后处理例程.2 graceful 是指在关闭双机软件时将调用客户应用预定义的善后处理例程.3takeover 是指该节点将关闭双机软件并释放资源请求备节点进行接管.如该节点是备节点则关闭模式选项没有多大意义.另外关闭HACMP 将关闭manager 和informix.3 查询HACMP 双机系统的状态在双机系统的运行当中*作员经常需要知道双机系统的当前状态才有可能对双机系统出现的异常情况进行恢复处理才能保证双机系统的高可用性和高容错性.查询HACMP 双机系统的状态只需以root 用户进入需要查询的节点进行下列*作首先检查HACMP 双机软件在该节点是否已启动命令如下# lssrc -g cluster若是系统显示出下面类似的信息则说明HACMP 双机软件已正常启动.Subsystem Group PID Statusclstrmgr cluster 22500 activeclsmuxpd cluster 23674 activeclinfo cluster 28674 active在已确认双机软件HACMP 正常启动的情况下在命令行执行下述命令来察看双机系统的当前状态# /usr/sbin/cluster/clstat -a如果双机系统一切工作正常则系统将显示下述类似信息clstat - HACMP for AIX Cluster Status Monitor-Cluster: scp_cluster(80) Thu Jan 20 08:45:17 TAIST 2000State: UP Nodes: 2SubState: STABLENode: mscp1 State: UPInterface: mscp1_svc (0) Address: 192.9.1.60State: UPInterface: ms

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论