IIN双机介绍(HP).doc_第1页
IIN双机介绍(HP).doc_第2页
IIN双机介绍(HP).doc_第3页
IIN双机介绍(HP).doc_第4页
IIN双机介绍(HP).doc_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

IIN 双机介绍目 录目 录第1章 双机概述1-11.1 HA介绍1-11.1.1 HA的概念1-11.1.2 HA基本原理1-11.2 IIN双机介绍1-1第2章 HA系统特性介绍2-12.1 HP MC/ServiceGuard介绍2-12.1.1 HP MC/ServiceGuard概述2-12.1.2 HP MC/ServiceGuard软件结构2-12.1.3 HP MC/ServiceGuard 相关Daemon进程2-22.1.4 HP MC/ServiceGuard分层2-22.1.5 HP MC/ServiceGuard Package工作原理2-3第3章 IIN双机3-13.1 IIN双机的特点3-13.2 IIN HP双机介绍3-23.2.1 HP双机的开发方案3-23.2.2 HP双机的脚本介绍3-3第4章 IIN双机切换详解4-44.1 概述4-44.2 相关设计原理4-44.2.1 双机脚本的组成4-44.2.2 切换流程4-44.2.3 工程及维护中涉及的双机问题4-54.3 深入分析4-64.3.1 spy.sh monitor监控原理4-64.3.2 spy.sh monitor剩余流程4-64.3.3 control.sh stop停主机流程4-74.3.4 control.sh start启主机流程4-74.3.5 spy.sh auto_recover standby备机应用拉起流程4-84.3.6 spy.sh monitor standby备机监控流程(SCP HDR热双机才有)4-84.3.7 补充说明4-84.4 问题定位及处理步骤4-94.4.1 问题一4-94.4.2 问题二4-94.4.3 问题三4-94.4.4 问题四4-104.4.5 问题五4-104.4.6 问题六4-104.4.7 小结4-104.5 向华为公司求助时须提供的相关信息4-124.5.1 详细填写问题检查表4-124.5.2 提供完整的日志信息4-13附录:HP MC/ServiceGuard双机常用命令4-14iiIIN 双机介绍附录:HP MC/ServiceGuard双机常用命令第1章 双机概述1.1 HA介绍1.1.1 HA的概念HA(High Availability),即高可用性,指通过一定的硬件、软件冗余,提高系统抵御非预期故障引起的业务中断的能力,提高系统的可用性。在发生不可预期的硬件或软件失效时,高可行性计算机集群系统允许应用提供不间断地服务。高可用性系统能容忍系统的软件错误、处理单元错误、存储设备或者本地局域网失效,当某个部件失效,冗余单元会自动接管。主流UNIX服务器生产商基本都有自己(或整合第三方)的高可用性系统,比如HP MC/ServiceGuard,IBM HACMP,SUN Cluster等。1.1.2 HA基本原理虽然各种HA系统内部实现各不一样,与操作系统以及与上层HA应用的接口也是千差万别,但是其基本的思想都一样:利用操作系统或应用程序接口,管理并监控系统的存储设备、网络、应用软件等硬件和软件资源,一旦发生故障,则启用冗余设备或者备用节点,保持应用系统不中断。1.2 IIN双机介绍IIN系统支持HP-UX、IBM AIX、SUN OS三种UNIX平台,也支持这三种平台对应的HA系统。IIN需要支持Informix standard online、Informix HDR等双机形式,还要支持综合SCU、独立SDU甚至SMCP方式的组网,双机形式多样,导致双机开发难度较大,维护较为困难,因此,IIN双机将应用部分的监控操作提取出来,形成通用的脚本,对上层提供通用接口,大大提高了IIN双机的适应能力,下面内容会作以详细描述。根据数据库以及应用的不同需求,IIN双机分为两大类:l 冷备份双机l 热备份双机每种平台,针对这两种双机形式提供不同的脚本。& 说明:以下文档中如果没有特别说明,均以IIN的HP机型热备份(HDR)双机为对象来进行描述。4-14第2章 HA系统特性介绍2.1 HP MC/ServiceGuard介绍2.1.1 HP MC/ServiceGuard概述MC/ServiceGuard 是在HP9000系列服务器上的高可行性集群系统。MC/ServiceGuard以Package的形式来管理HA应用。Package将相关的用户资源整合成一组,形成一个整体,当Package内资源发生失效时,Cluster将该Package作为一个整体进行切换。2.1.2 HP MC/ServiceGuard软件结构HP MC/ServiceGuard软件结构如图2-1所示。图2-1 HP MC/ServiceGuard软件结构图l MC/ServiceGuard核心按功能分为三个组件:Network Manager,Cluster Manager,Package Manager;l 应用服务被组织为packages,单个服务、节点、网络或者其它资源失效,MC/ServiceGuard自动将package转移到另一节点运行,保持应用不中断;l Package一般包括的资源有网卡、IP、磁盘、应用或其它EMS(Event Monitoring Service)应用。2.1.3 HP MC/ServiceGuard 相关Daemon进程与MC/ServiceGuard相关的Daemon进程主要有9个:l /usr/lbin/cmclconfd ServiceGuard Configuration Daemonl /usr/lbin/cmcld ServiceGuard Cluster Daemonl /usr/lbin/cmlogd ServiceGuard Syslog Log Daemonl /usr/lbin/cmlvmd Cluster Logical Volume Manager Daemonl /opt/cmom/lbin/cmomd Cluster Object Manager Daemonl /usr/lbin/cmsnmpd Cluster SNMP subagent (optionally running)l /usr/lbin/cmsrvassistd ServiceGuard Service Assistant Daemonl /usr/lbin/cmtaped ServiceGuard Shared Tape Daemonl /usr/lbin/qs ServiceGuard Quorum Server Daemon其中cmclconfd、cmcld、cmlogd是三个主要进程,以下分别进行介绍:l Configuration Daemon:cmclconfd进程主要用来在HA各节点间收集信息。它收集网络、VG等配置信息并且将二进制的配置文件分发到各个节点。l Cluster Daemon:cmcld管理双机之间的心跳消息;cmcld进程侦察系统网络是否正常并且启动本地网卡切换;该进程负责管理MC/ServiceGuard Package,确定Package在哪个节点运行以及何时启动;MC/ServiceGuard的三个核心组成部分:Package Manager,Cluster Manager, and Network Manager都是由cmcld来完成的;由于该进程具有实时性要求,所以它运行在操作系统最高的优先级。l Syslog Log Daemon:cmlogd进程被cmcld调用来向syslog写日志信息。2.1.4 HP MC/ServiceGuard分层在用户层面,HP MC/ServiceGuard可以分为三层:Cluster、Package、Service。1. Cluster一个计算机集群系统,只能运行一个唯一的cluster实例。在cluster之上,用户可以运行一个或多个Package(最大Package数可以在cluster配置文件中配置)。在cluster这一层,需要配置集群各节点信息(包括节点名、主备网卡、主用数据IP、心跳网卡以及IP、锁盘VG以及对应的物理盘路径等),注册到cluster的共享磁盘卷组,以及cluster的一些公共配置参数。2. PackagePackage是用户在MC/ServiceGuard系统实现高可用性的基本单元。Package运行在Cluster之上,控制一组磁盘、IP、services在节点间的漂移,对外界来说,Package就像是一个逻辑的主机。每个Package对应一个配置文件和控制脚本。3. ServiceService是在Package中和用户应用进程相关的服务,一个Service对应一个需要Package来管理和监控的用户应用。Service对应一组启动、停止、监控操作。在Package启动时,调用配置的service的start脚本启动service,Package停止时,调用Service的stop脚本停止service,在Package运行期间,调用并监控service的监控脚本,一旦监控脚本异常返回,Package就认为该service异常,需要进行相应的切换或重起操作。一个Package可以同时包含并且管理多个service。2.1.5 HP MC/ServiceGuard Package工作原理Package的工作周期可以分为以下几个主要阶段:(1) 启动cluster(2) 启动Package运行(3) Package控制脚本执行start(4) service运行(5) service、subnet或者其它监控资源发生失败(6) Package控制脚本执行stop(7) 停止Package(8) 节点停止以下主要说明Package启动、监控、停止service的过程:1. Package启动当Package Manager决定在某节点启动时,就以“start”参数启动该Package的控制脚本(control.sh),该过程执行以下操作:(1) 激活卷组(需要时才做)(2) mount 文件系统(需要时才做)(3) 将该Package的浮动IP加载到该节点的网卡上(4) 执行用户自定义的启动过程(一般在该过程可以启动用户进程)(5) 启动Package中的所有service(6) 启动该Package依赖的其它特殊资源(7) 退出并返回02. Package Running在Package运行期间,Package Manager一直持续不断地进行监控以下资源:(1) 各Service的进程ID(2) Package配置的IP以及子网(3) Package依赖的其它资源3. Package Stop当Package Manager检测到service发生失效事件,或者cmhaltpkg命令被执行,就会以参数“stop”调用该package的控制脚本,执行以下操作:(1) 停止该Package的依赖的资源的运行(2) 停止Package的所有service(3) 执行用户自定义的停止过程(4) 在本节点网卡上卸载掉该Package的浮动IP(5) umount 文件系统(共享磁盘模式需要)(6) 去激活卷组(共享磁盘模式需要)(7) 退出并返回0第3章 IIN双机3.1 IIN双机的特点IIN平台作为一个综合的业务平台,需要支持HP-UX、SUN OS、IBM AIX三种UNIX平台,支持综合SCU、独立SDU甚至SMCP方式的组网,支持WIN、TELLIN业务的运行,决定了IIN平台的双机形式的复杂多变。为此,在进行充分分析后,IIN的双机将用户应用部分的管理剥离处理,形成统一的接口,供上层HA接口调用。这就是IIN双机的通用监控脚本spy.sh。IIN通用监控脚本介绍:l spy.sh是一个标准的ksh脚本,使用标准shell语法,可以在HP-UX、AIX、Solaris三种平台运行。对于各平台具体的处理,可以使用配置项PLATFORM来区分。l spy.sh对需要管理的应用提供一组配置,使应用可以灵活定制。同时,spy.sh内部核心监控和管理部分是统一的,对各种不同的应用透明处理。spy.sh提供的主要应用配置参数说明如表3-1:表3-1 spy.sh提供的主要应用配置参数说明配置项说明APP_TYPE应用类型标识,没有实际意义 APP_PSNAME应用进程名,spy.sh监控进程是以此来判断被监控进程是否存在APP_USER进程所属的用户名APP_START_CMD启动应用的函数名,如果该函数不存在,用户需要在spy.sh中增加该应用的启动函数,在此配置APP_STOP_CMD停止应用的函数名,如果该函数不存在,用户需要在spy.sh中增加该应用的停止函数,在此配置APP_ISDAEMON表示需要监控的进程是否是Daemon进程APP_PSNUMBER需要监控的进程的个数APP_CHECK_ISUSERDEFINED标识该进程是否需要另外定义特别的监控方法。Spy.sh默认监控进程的方法:对进程发送信号0,如果返回非0,则认为进程进程不存在,报告上层,进行相应的处理。APP_CHECK_CMD如果应用需要特别的监控方法,则在此配置改方法名APP_RESTART应用进程可以重起的次数。如果配置大于0,则进程死掉次数小于此值时,spy.sh将应用重起,不会引起切换APP_SWITCH_REENABLE进程死掉引起切换后,是否需要在备机恢复。此配置项主要用来标识关键应用的自恢复属性。一般简单进程因此切换,我们自动将备机恢复重新加入standby。但如果是DB Server这种大型系统异常终止因此地切换,大部分情况都与设备或环境有关,不能自动恢复,需要手工干预,所有不能由双机来恢复,否则,可能因此更大的灾难。APP_HOT_STANDBY标识应用是否需要热备份。如果主备机需要交互,则需要配置为hot standby,备机恢复时会自动启动该应用运行。APP_HS_START_CMD应用在备机上的启动函数,只在该应用为热备份时需要配置APP_HS_STOP_CMD应用在备机上的停止函数,只在该应用为热备份时需要配置APP_HS_CHECK_CMD应用在备机上的监控函数,只在该应用为热备份时需要配置l spy.sh提供统一的上层接口:start、stop、monitor、recover。HA接口只需要通过这些参数来调用spy.sh,就能实现应用的启动、停止、监控、恢复操作,所有这些操作对于HA来说是透明的,不需要知道具体的应用的特性;l 通过配置项standby,spy.sh可以区分是在主机还是在备机执行。如果需要在备机进行恢复,只需要这样调用:spy.sh standby recover ;l 通过配置项,可以区分是否是热备份双机(APP_HOT_STANDBY),以及进程失效后是否需要在备机恢复(APP_SWITCH_REENABLE),这对于关键DB应用和非关键应用的区别处理有重要作用。3.2 IIN HP双机介绍3.2.1 HP双机的开发方案HP MC/ServiceGuard软件的接口分为cluster、package、service三个层面,我们利用这些接口可以方便的进行HA的定制和开发。具体步骤如下:(1) 利用Cluster提供的接口,取得MC/ServiceGuard的标准配置文件cmcluster.asc,以及package的配置文件pkg.asc和package的控制文件的模板control.sh;(2) 根据应用需要配置cmcluster.asc,定义cluster;(3) 配置package配置文件,定义一个或多个package,如scppkg;(4) 在package控制脚本control.sh中定制package的资源,如浮动IP、共享磁盘、共享文件系统等。另外,在control中定制应用service,将应用的监控(spy.sh monitor)纳入到service管理。并且在control.sh提供的用户自定义的启动、停止函数中实现应用的启动(spy.sh start)和停止(spy.sh stop)。 3.2.2 HP双机的脚本介绍IIN双机共有以下脚本,各个脚本的说明如表3-2所示。表3-2 IIN双机脚本介绍文件名说明/etc/cmcluster/cmcluster.asccluster配置文件,定义cluster全局信息,包括群集名,群集各节点信息以及锁盘,共享磁盘卷组等/etc/cmcluster/scppkg/spy.sh应用的启动、停止、监控脚本/etc/cmcluster/scppkg/scppkg.ascPackage配置文件,定义scppkg的基本信息,包括package可以运行的节点,package的启动、停止脚本,service以及子网等/etc/cmcluster/scppkg/control.shpackage的主控脚本,主要定义package依赖的相关资源如VG、FS、Float IP等,service监控的程序,以及用户自定义的应用启动、停止方法第4章 IIN双机切换详解4.1 概述现网上使用了较多的HP双机,也出了一些双机方面的问题,但维护人员对双机的工作原理和对问题的处理不是很熟,需要一起来探讨一下。网上常出现的切换问题有反复切换,切换过去后马上又切换回来,不能切换过去(只能在一台机器运行)等。本章主要介绍双机切换的流程,总结网上出现的主要问题和处理问题的一般方法。4.2 相关设计原理这部分概要地介绍HP双机切换的原理和升级双机脚本的方法。4.2.1 双机脚本的组成双机脚本一般包含两部分,Cluster接口部分和通用的软件监控部分。对于HP双机脚本,Cluster接口部分,包含了control.sh,cmcluster.asc,scppkg.asc(或者是smppkg.asc),通用软件监控部分是spy.sh脚本。不同的操作系统使用的Cluster接口部分是不同的;即便同一操作系统,不同的Cluster版本接口也可能是不一样的(如SUN Cluster 2.2和3.0差别就很大)。IIN的HP双机一般有三种,SCP HDR热双机,SCP共享盘冷双机,SMP共享盘冷双机。4.2.2 切换流程主机正常运行情况下,spy.sh一直监控应用是否正常,“spy.sh monitor”一旦发现应用异常,则退出监控流程,执行剩余流程,然后退出,Cluster调用control.sh stop停主机;在原备机(即新主机)control.sh start接管业务,拉起应用,并进入监控。4.2.3 工程及维护中涉及的双机问题工程及维护中涉及升双机脚本的一般有三种情况。一是Cluster配置改动,二是包配置改动,三是配置不变,脚本程序或脚本配置参数有改动。对于这三种情况,升级方法如下:(1) Cluster配置有改动情况,即cmcluster.asc有改动,这种情况,需要停Cluster(当然业务也就要停下来了),一般的操作顺序是:l 停备机监控脚本,kill -9 ,(SCP HDR双机才需要)l 停备机应用,./spy.sh stop,(SCP HDR双机才需要)l 逐个检查确认是否所有应用都已经停下来,(SCP HDR双机才需要)l 停Cluster,cmhaltcl f v, 再确认是否已经停下来,cmviewcl vl 修改两台机器的cmcluster.asc文件l 检查Cluster配置是否修改正确,cmcheckconf v C /etc/cmcluster/cmcluster.ascl 应用新配置,cmapplyconf v C /etc/cmcluster/cmcluster.asc l 启动主机应用,主要是看Informix和SCP启动是否正常(SCP HDR Only)l 启动双机脚本,cmruncl f v n scp1l 备机节点加入Cluster,cmrunnode v scp2l 启动备机应用(spy.sh auto_recover standby),(SCP HDR方式可以启动备机应用,并进入备机监控状态,共享盘方式,使用该命令可以将节点状态改为可切换状态)l 切换测试。(2) 包配置有改动(即scppkg.asc或smppkg.asc有改动),这种情况,只需要停包,不用停Cluster,对于像SMCP方式配有两个包的情况比较有用。操作方法与上述类似,只是把命令改为对包操作的命令(考虑SMCP情况下改动smppkg):l 停包,cmhaltpkg v smppkgl 修改两台机器的包配置文件,smppkg.ascl 检查包配置是否修改正确,cmcheckconf v P /etc/cmcluster/smppkg/smppkg.ascl 应用新配置,cmapplyconf v P /etc/cmcluster/smppkg/smppkg.ascl 启动包,cmrunpkg v smppkg(3) 修改包切换标记(AUTO_RUN),cmmodpkg e v smppkg,并确认修改成功l 切换测试(4) 配置项不修改,只修改脚本文件情况,只需要按现网配置修改新脚本并替换,切换一次即可生效。4.3 深入分析这部分介绍具体的切换流程细节。4.3.1 spy.sh monitor监控原理从检测应用是否异常的方式看,有两种,一种是通过自定义的检测函数,一种是默认的给进程发kill信号的方式:(1) 如果在spy.sh配置的APP_CHECK_ISUSERDEFINED? = “Y”,则是用户自定义的检测方式,调用用户定义的函数检测该子系统,如check_informix;(2) 如果APP_CHECK_ISUSERDEFINED?=N,则给APP_PSNAME定义的进程发“kill s 0”信号,检测该进程是否有效或存在。双机脚本按一定的时间间隔(可配置,缺省为1秒,参考MONITOR_INTERVAL变量),反复检测这些软件是否正常,如果发现某个应用异常,就退出检测循环,返回调用函数,报告是哪个应用出了问题。这部分详细情况,请参考spy.sh的monitor_process_cmds函数。 4.3.2 spy.sh monitor剩余流程退出spy.sh的监控流程后,spy.sh的剩余流程需要考虑三个因素,一是要不要切换,二是能不能切换过去,三是新备机要不要拉起备机应用,因此可能会有以下五种情况:(1) 不用切换,该应用在主机重新拉起。这种情况是,backlog异常退出或启动异常,或者是该应用的APP_RESTART配置了大于0的数并且重启的次数少于配置的数。backlog的重启次数是不限制的,而APP_RESTART的重启次数达到配置的数时,就要发生切换了。(由于现在已经不使用backlog.sh程序了,所以已经不会出现这种情况)(2) 可以切换,备机应用可以拉起。这种情况通常发生在包是可切换的,即包的AUTO_RUN为enabled;备机节点是可切换的,即备机节点 Alternate 为enabled,异常的应用的APP_SWITCH_REENABLE配置为”Y”,”spy.sh monitor”以”spy.sh auto_recover standby”拉起备机应用,如果是共享盘方式,也会执行该命令,修改备机节点状态,置为可切换的。(3) 可以切换,备机应用不能拉起。与第二种情况类似,只是异常的应用的APP_SWITCH_REENABLE配置为“N”。(HDR双机使用)(4) 不能切换,重新拉起该应用。通常发生在包不能切换(disabled),或备机节点不可切换(disabled),或单机运行(即备机没有加入Cluster)。(5) 不能切换,重新拉起应用失败。这种情况通常会造成瘫机,需要高度重视。这种情况与第四种情况类似,只是重启应用失败,例如主机的HDR Informix异常,重启不能进入Prim(On-Line)状态,然后反复重启,造成业务中断。这部分详细情况,请参考spy.sh的monitor_cmds函数。4.3.3 control.sh stop停主机流程l cmhaltserv停主机监控,告诉Cluster不用监控主机了l 调用spy.sh stop停掉主机所有应用l 调用cmmodnet r -i删除浮动IPl 如果是共享盘方式,umount所有配置的文件系统,如果发现用户占用该文件系统,则先用fuser命令kill掉再umountl 去激活配置的VGl 退出control.sh脚本,将控制权交给cluster。4.3.4 control.sh start启主机流程新主机的Cluster通过调用control.sh start,拉起新主机应用。l 如果是共享盘方式,则激活配置的VG,检查和mount文件系统,如果文件系统mount点有用户占用,则用fuser命令kill掉l 通过cmmodnet a i命令增加浮动IPl 调用spy.sh start逐个拉起应用,如果是热双机,即HDR热双机,并且当前机器的Informix已经拉起,则等待Informix转化为Prim后,给SCU发一个kill -USR1信号l 通过cmrunserv拉起软件监控脚本spy.sh monitor,进入主机监控流程l control.sh脚本退出。4.3.5 spy.sh auto_recover standby备机应用拉起流程l 屏蔽一些信号,防止本进程被Cluter发来的信号kill掉l 脚本逐个拉起应用,对于HDR热双机,需要正确配置APP_HS_START_CMD,否则启动会有问题,一般默认的HDR Informix和SCU配置都是正确的,请不要随意更改,对于共享盘冷双机,spy.sh的APP_HOT_STANDBY都是配为N,就不拉起应用l 通过cmmodpkg -e n命令,将备机节点置为可切换的l 以spy.sh monitor standby拉起备机应用监控脚本l 恢复被屏蔽的信号,然后退出。4.3.6 spy.sh monitor standby备机监控流程(SCP HDR热双机才有)l 备机的监控流程与主机的spy.sh monitor的监控流程是相似的,只不过如果是自定义的检测方式,则备机检测方法APP_HS_CHECK_CMD一定要配置对,默认的配置是正确的,请勿随意修改,例如,APP_HS_CHECK_CMD0=check_aux_hdrl 如果发现备机有应用异常通常有两种处理方法,一是重启该应用,二是将备机所有应用都停下来,并将备机置为不可切换的(即主机出问题也不能切过来)。这两种处理方式的采用是由该应用的APP_SWITCH_REENABLE决定的,如果配为Y,就可以重启,如果配为N,就停所有应用。对于SCU,就属于重启的情况,对于Informix,就属于第二种情况。4.3.7 补充说明(1) HDR方式由于应用异常导致切换,如果是Informix异常,切换过去后,新备机应用不能自动拉起,备机的切换标记需要手工修改(cmmodpkg e n),否则应用不能切换回新备机;如果是SCU或SDU(SCU+系统SDU组网方式下的SDU)异常,切换标记被双机脚本自动修改,备机应用可以被脚本自动被拉起。(2) 共享盘方式的SCP, Informix异常,切换过去后,与HDR方式相同;SCU或SDU异常,新备机的切换标记被双机脚本自动修改为可切换,但备机不会启动应用。(3) SMP双机,在缺省配置情况下,任何子系统异常而切换过去后,双机脚本都不会自动修改原主机的切换标记,这种情况下SMP应用不能再切换回来,需要手工修改节点的切换标记允许切换回来。(4) 在HP双机中没有找到可以手工强制双机切换的命令,cmhaltserv只能停双机监控,不能停应用,无法主动切换。4.4 问题定位及处理步骤这里描述现网到目前为止主要碰到的问题。4.4.1 问题一现象:SMP双机瘫机,无法切换原因:由于系统进程过多,导致系统存放进程的静态表空间(简称“进程表”)满,不能启动新的进程,但进行软件检测又必须开新的进程来检测,如果是自定义的检测,一般需要su 到某个用户中去检测,如果是daemon,一般需要ps u来 检测,都需要创建新进程,当不能创建新的进程检测就会返回测试失败,需要切换,切换前又需要启动新的进程来检测对端节点是否可切等操作,切换也失败,最终会导致瘫机。 某地进程过多问题就是由于oamagent的queryhardware.sh残留awk等进程导致的,另外某地是由于配置了定时任务,定时ontape备份数据库,但磁带未准备好,ontape失败,出现大量的进程,这些局点一般都会出现进程数超过400个以上。解决办法: 注意自检和加强华为公司巡检。4.4.2 问题二现象:Informix启动异常导致切换失败原因:su到informix用户,提示需要输入终端类型;由于双机脚本在拉起应用需要su - 到该用户执行启动命令,切换用户失败,导致应用不能正确启动;在监测时,对Informix应用,也需要su -到该用户进行检测,su -失败,返回错误,误认为应用异常而切换。4.4.3 问题三现象:SMP-SYS环境变量配置错误导致双机启动失败原因:由于调测SMP主机软件过程中遇到问题,为排除OAM_DIR等环境变量的对定位问题的影响,注释掉该环境变量,在定位后忘了将其恢复,通过双机脚本拉起应用时,由于启动smpsys失败而导致双机启动失败。4.4.4 问题四现象:HDR Informix状态不正确导致切换失败原因:原备机的HDR Informix,不能从Read-Only状态转变为Prim状态,切换后informix一直在Fast Recover或进入Quiescent模式,双机脚本等待600秒后超时,导致切换失败。但这种情况在实验室碰到的可能性较大。 4.4.5 问题五现象:OAMServer应用启动异常,切换失败原因:某局点升级中发现的一个问题,双机启动的时候总是失败,经过分析是OAMServer启动不成功,查看看OAMServer日志,发现是因为没有设置OAM_DATA_DIR这个关键环境变量,OAMServer启动不了。原因是升级中遗漏了这个变量。4.4.6 问题六现象:HDR,双机切换,MEM板连不到SCP原因:两台机器的双机脚本不一致,出现一台机器是IIN脚本,另一台机器是TELLIN脚本,结果切换过去,拉起TELLIN的SCP,并正常运行,但端口与IIN的不同,MEM板连不上来。4.4.7 小结通过以上的列举的案例,切换失败问题主要还是在启动应用异常导致的。因此我们在启双机之前,可以手工通过spy.sh start方式看看是否可以拉起应用,spy.sh stop是否可以停止应用。对于双机切换大致可以分成四种切换问题:反复切换;切换过去,自动又切换回来;根本不能切换到对端机;其他。对于反复切换的,一般是应用启动异常引起的,一般比较容易定位;切换过去,自动又切换回来,一般是两台机器的双机脚本不一致,或子系统配置不一致,或配置有问题(如子系统要求配浮动IP但配了某一台机器的物理IP);根本不能切换的,一般是节点状态不正确,或包状态不正确;其他问题需要详细定位。检查问题的一般顺序是:(1) 反复使用ps ef | grep spy看看双机脚本是否已经启动;如果有spy.sh start说明正在启动应用,spy.sh stop正在停止应用,spy.sh monitor在监控应用,spy.sh auto_recover standby表示备机正在拉起应用,spy.sh monitor standby说明备机在监控应用。看看分别执行了哪些脚本,即可判断是哪一步出的问题。(2) 查看spy.log是否报告应用启动异常,如果有启动异常,查看该应用的日志信息,定位为什么不能正常启动;是否报告监控某个应用异常,如果是监控异常,看看这个应用的进程是存在,参考双机脚本配置的监控方法,手工检测是否正常。如果不方便判断是哪个应用异常,可以在spy.sh中查找“Application will be switch”(只有一行),在其上增加一行打印“writeLog”found $APP_PSNAME$C$APP_USER$C error, c”即可。(3) 查看control.sh.log是否有异常日志。(4) 查看Cluster状态,cmviewcl -v,cluster的状态为UP,package的状态为UP RUNNING,(5) Package 和节点的切换标志为enabled,节点1和节点2的网卡的状态为UP。以下样例可供参考:CLUSTER STATUShpcluster up NODE STATUS STATE IIN-L-1 up running Network_Parameters: INTERFACE STATUS PATH NAME PRIMARY up 0/3/0/0 lan1 PACKAGE STATUS STATE AUTO_RUN NODE smppkg up running enabled IIN-L-1 Policy_Parameters: POLICY_NAME CONFIGURED_VA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论