




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、 heartbeat的概念Linux-HA的全称是High-Availability Linux,它是一个开源项目,这个开源项目的目标是:通过社区开发者的共同努力,提供一个增强linux可靠性(reliability)、可用性(availability)和可服务性(serviceability)(RAS)的群集解决方案。其中Heartbeat就是Linux-HA项目中的一个组件,也是目前开源HA项目中最成功的一个例子,它提供了所有 HA 软件所需要的基本功能,比如心跳检测和资源接管、监测群集中的系统服务、在群集中的节点间转移共享 IP 地址的所有者等,自1999年开始到现在,Heartbeat在行业内得到了广泛的应用,也发行了很多的版本,可以从Linux-HA的官方网站下载到Heartbeat的最新版本。二、 HA集群中的相关术语1节点(node)运行heartbeat进程的一个独立主机,称为节点,节点是HA的核心组成部分,每个节点上运行着操作系统和heartbeat软件服务,在heartbeat集群中,节点有主次之分,分别称为主节点和备用/备份节点,每个节点拥有唯一的主机名,并且拥有属于自己的一组资源,例如,磁盘、文件系统、网络地址和应用服务等。主节点上一般运行着一个或多个应用服务。而备用节点一般处于监控状态。2资源(resource)资源是一个节点可以控制的实体,并且当节点发生故障时,这些资源能够被其它节点接管,heartbeat中,可以当做资源的实体有:l磁盘分区、文件系统lIP地址l应用程序服务lNFS文件系统3事件(event)也就是集群中可能发生的事情,例如节点系统故障、网络连通故障、网卡故障、应用程序故障等。这些事件都会导致节点的资源发生转移,HA的测试也是基于这些事件来进行的。4动作(action)事件发生时HA的响应方式,动作是由shell脚步控制的,例如,当某个节点发生故障后,备份节点将通过事先设定好的执行脚本进行服务的关闭或启动。进而接管故障节点的资源。三、Heartbeat的组成与原理1Heartbeat的组成Heartbeat提供了高可用集群最基本的功能,例如,节点间的内部通信方式、集群合作管理机制、监控工具和失效切换功能等等,目前的最新版本是Heartbeat2.x,这里的讲述也是以Heartbeat2.x为主,下面介绍Heartbeat2.0的内部组成,主要分为以下几大部分:lheartbeat: 节点间通信检测模块lha-logd: 集群事件日志服务lCCM(Consensus Cluster Membership):集群成员一致性管理模块lLRM (Local Resource Manager):本地资源管理模块lStonith Daemon: 使出现问题的节点从集群环境中脱离lCRM(Cluster resource management):集群资源管理模块lCluster policy engine: 集群策略引擎lCluster transition engine:集群转移引擎图1显示了Heartbeat2.0内部结构组成: Heartbeat仅仅是个HA软件,它仅能完成心跳监控和资源接管,不会监视它控制的资源或应用程序,要监控资源和应用程序是否运行正常,必须使用第三方的插件,例如ipfail、Mon、Ldirector等。Heartbeat自身包含了几个插件,分别是ipfail、Stonith和Ldirectord,介绍如下:l ipfail的功能直接包含在Heartbeat里面,主要用于检测网络故障,并作出合理的反应,为了实现这个功能,ipfail使用ping节点或者ping节点组来检测网络连接是否出现故障,从而及时的做出转移措施。l Stonith插件可以在一个没有响应的节点恢复后,合理接管集群服务资源,防止数据冲突,当一个节点失效后,会从集群中删除,如果不使用Stonith插件,那么失效的节点可能会导致集群服务在多于一个节点运行,从而造成数据冲突甚至是系统崩溃。因此,使用Stonith插件可以保证共享存储环境中的数据完整性。l Ldirector是一个监控集群服务节点运行状态的插件。Ldirector如果监控到集群节点中某个服务出现故障,就屏蔽此节点的对外连接功能,同时将后续请求转移到正常的节点提供服务,这个插件经常用在LVS负载均衡集群中,关于Ldirector插件的使用,将在后面详细讲述。 同样,对于操作系统自身出现的问题,Heartbeat也无法监控,如果主节点操作系统挂起,一方面可能导致服务中断,另一方面由于主节点资源无法释放,而备份节点却接管了主节点的资源,此时就发生了两个节点同时争用一个资源的状况。针对这个问题,就需要在linux内核中启用一个叫watchdog的模块,watchdog是一个Linux内核模块,它通过定时向/dev/watchdog设备文件执行写操作,从而确定系统是否正常运行,如果watchdog认为内核挂起,就会重新启动系统,进而释放节点资源。在linux中完成watchdog功能的软件叫softdog,softdog维护一个内部计时器,此计时器在一个进程写入/dev/watchdog设备文件时更新,如果softdog没有看到进程写入/dev/watchdog文件,就认为内核可能出了故障。watchdog超时周期默认是一分钟,可以通过将watchdog集成到Heartbeat中,从而通过Heartbeat来监控系统是否正常运行。2Heartbeat的工作原理从图18.1可以看出,heartbeat内部结构有三大部分组成。集群成员一致性管理模块(CCM)用于管理集群节点成员,同时管理成员之间的关系和节点间资源的分配,heartbeat模块负责检测主次节点的运行状态,以决定节点是否失效。ha-logd模块用于记录集群中所有模块和服务的运行信息。本地资源管理器(LRM)负责本地资源的启动,停止和监控,一般由LRM守护进程lrmd和节点监控进程(Stonith Daemon)组成,lrmd守护进程负责节点间的通信,Stonith Daemon通常是一个Fence设备,主要用于监控节点状态,当一个节点出现问题时处于正常状态的节点会通过Fence设备将其重启或关机以释放IP、磁盘等资源,始终保持资源被一个节点拥有,防止资源争用的发生。集群资源管理模块(CRM)用于处理节点和资源之间的依赖关系,同时,管理节点对资源的使用,一般由CRM守护进程crmd、集群策略引擎和集群转移引擎三个部分组成,集群策略引擎(Cluster policy engine)具体实施这些管理和依赖,集群转移引擎(Cluster transition engine)监控CRM模块的状态,当一个节点出现故障时,负责协调另一个节点上的进程进行合理的资源接管。在Heartbeat集群中,最核心的是heartbeat模块的心跳监测部分和集群资源管理模块的资源接管部分,心跳监测一般由串行接口通过串口线来实现,两个节点之间通过串口线相互发送报文来告诉对方自己当前的状态,如果在指定的时间内未受到对方发送的报文,那么就认为对方失效,这时资源接管模块将启动,用来接管运行在对方主机上的资源或者服务。一、 安装heartbeat前的准备1Heartbeat集群必须的硬件构建一个Heartbeat集群系统必须的硬件设备有:l节点服务器l网络和网卡l共享磁盘(1)节点服务器安装Heartbeat至少需要两台主机,并且对主机的要求不高,普通的PC 服务器即可满足要求,当然,也可以在虚拟机上安装Heartbeat,现在Heartbeat可以很好的运行在Linux系统下,很多linux发行版本都自带了Heartbeat套件,同时,还可以运行在FreeBSD 和 Solaris操作系统上。(2)网卡和网络Heartbeat集群中的每个主机必须有一块网卡和一个空闲串口,网卡用于连接公用网络,串口可以通过串口线,例如modem电线来实现连接,用于心跳监控节点间的状态,如果没有空闲串口的话,每个主机也可以通过两块网卡来实现HA,其中一块网卡用于连接公用网络,另一块网卡通过以太网交叉线与两个节点相连接。需要说明的是:以太网交叉线和串口电线都能用于心跳监控,串口电线传输Heartbeat信号相对较好,如有条件,尽量使用串口线代替以太网交叉线作为节点间的心跳检测设备。Heartbeat支持三种类型的网络,公用网络(public network)、私用网络(private network)和串行网络(serial network)。公用网络连接多个节点,并且允许客户端访问集群中的服务节点,私用网络提供两个节点之间点到点的访问,但是不允许客户端访问,可以通过以太网交叉线构建一个私用网络,以供节点间相互通信,串行网络也是一个点到点的连接,一般使用串行网络来传输控制信息和心跳监控。串行网络可以是一条RS232串口线。(3)共享磁盘共享磁盘是一个数据存储设备,HA集群中的所有节点都需要连接到这个存储设备上,在这个共享的存储设备上一般放置的是公用的、关键的数据和程序,一方面可以共享数据给所有节点使用,另一方面也保证了数据的安全性。Heartbeat支持两种对共享磁盘的访问方式:独占访问和共享访问,在独占访问方式下,保持活动的节点独立使用磁盘设备,只有当活动节点释放了磁盘设备,其它节点才能接管磁盘进行使用,在共享访问方式下,集群所有节点都可以同时使用磁盘设备,当某个节点出现故障时,其它节点无需接管磁盘。共享访问方式需要集群文件系统的支持,这一点将在下个章节讲述。2操作系统规划这里统一采用Red Hat Enterprise Linux Server release 5.1操作系统,每个节点服务器都有两块网卡,一块用作连接公用网络,另一块通过以太网交叉线连接两个节点,作为心跳监控。共享磁盘由一个磁盘阵列设备提供,两个节点共享一个磁盘分区。磁盘分区对应的硬件标识为/dev/sdb5,挂载点为/webdata,文件系统类型为ext3。网络以及IP地址规划如表1所示: 表1 从上表可知,eth0网络设备用于连接公用网络,eth1网络设备用于连接私用网络,而eth0:0网络设备是HA集群虚拟出来的服务IP地址,用于对外提供应用程序服务。基本的拓扑结构如图2所示: 接着配置每个节点的/etc/hosts文件,保证两个节点内容一致,/etc/hosts文件内容如下:rootnode1 #more /etc/hosts32 node133 node priv priv1一切准备就绪,接下来开始安装heartbeat。二、 安装heartbeat1获取heartbeatHeartbeat到目前为止发行了两个主版本,Heartbeat1.x和Heartbeat2.x,Heartbeat1.x仅仅允许创建2个节点的集群,提供基本的高可用性failover服务。Heartbeat2.x提供了增强的特性,允许创建多个节点的集群,又支持模块结构的配置方法集群资源管理器(Cluster Rescource Manager-CRM),CRM可以支持最多16个节点,这里我们选择heartbeat2.0.8版本进行介绍。 Heartbeat的下载地址为:/download/index.html,找到heartbeat2.0.8版本,下载类似heartbeat-2.0.8.tar.gz的源代码包即可。此外在安装heartbeat时需要同时安装libnet工具包,Libnet是一个高层次的API工具,可以从/libnet/下载到,现在的稳定版本是,下载后的包名为libnet.tar.gz。2安装heartbeat接下来需要在两个节点安装heartbeat,安装过程很简单,只需解压编译、安装即可,这里不再详述,在两个节点执行相同的操作,下面是在node1上的安装过程:rootnode1 #tar -zxvf libnet.tar.gz rootnode1 #cd libnetrootnode1 /libnet#./configurerootnode1 /libnet#make rootnode1 /libnet#make installrootnode1 #tar zxf heartbeat-2.0.8.tar.gzrootnode1 #cd heartbeat-2.0.8rootnode1 /heartbeat-2.0.8#./ConfigureMe configure -disable-swig -disable-snmp-subagentrootnode1 /heartbeat-2.0.8#makerootnode1 /heartbeat-2.0.8#make installrootnode1 /heartbeat-2.0.8#cp doc/ha.cf doc/haresources doc/authkeys /etc/ha.d/rootnode1 /heartbeat-2.0.8#cp ldirectord/ldirectord.cf /etc/ha.d/rootnode1 /heartbeat-2.0.8#groupadd -g 694 haclientrootnode1 /heartbeat-2.0.8#useradd -u 694 -g haclient hacluster一、配置主节点的heartbeatHeartbeat的主要配置文件有ha.cf、haresources、authkeys,在Heartbeat安装后,默认并没有这三个文件,可以从官方网站下载得到,也可以直接从解压的源码目录中找到,在上面的安装过程中,我们已经将这三个文件放到了/etc/ha.d目录下,下面分别详细介绍。1主配置文件(/etc/ha.d/ha.cf)下面对ha.cf文件的每个选项进行详细介绍,其中“#”号后面的内容是对选项的注释说明。#debugfile /var/log/ha-debuglogfile /var/log/ha-log #指名heartbeat的日志存放位置。#crm yes #是否开启Cluster Resource Manager(集群资源管理)功能。bcast eth1#指明心跳使用以太网广播方式,并且是在eth1接口上进行广播。keepalive 2#指定心跳间隔时间为2秒(即每两秒钟在eth1上发送一次广播)。deadtime 30#指定备用节点在30秒内没有收到主节点的心跳信号后,则立即接管主节点的服务资源。warntime 10#指定心跳延迟的时间为十秒。当10秒钟内备份节点不能接收到主节点的心跳信号时,就会往日志中写入一个警告日志,但此时不会切换服务。initdead 120#在某些系统上,系统启动或重启之后需要经过一段时间网络才能正常工作,该选项用于解决这种情况产生的时间间隔。取值至少为deadtime的两倍。 udpport 694#设置广播通信使用的端口,694为默认使用的端口号。baud 19200#设置串行通信的波特率。#serial /dev/ttyS0 #选择串行通信设备,用于双机使用串口线连接的情况。如果双机使用以太网连接,则应该关闭该选项。#ucast eth0 #采用网卡eth0的udp单播来组织心跳,后面跟的IP地址应为双机对方的IP地址。#mcast eth0 694 1 0#采用网卡eth0的Udp多播来组织心跳,一般在备用节点不止一台时使用。Bcast、ucast和mcast分别代表广播、单播和多播,是组织心跳的三种方式,任选其一即可。auto_failback on#用来定义当主节点恢复后,是否将服务自动切回,heartbeat的两台主机分别为主节点和备份节点。主节点在正常情况下占用资源并运行所有的服务,遇到故障时把资源交给备份节点并由备份节点运行服务。在该选项设为on的情况下,一旦主节点恢复运行,则自动获取资源并取代备份节点,如果该选项设置为off,那么当主节点恢复后,将变为备份节点,而原来的备份节点成为主节点。#stonith baytech /etc/ha.d/conf/stonith.baytech # stonith的主要作用是使出现问题的节点从集群环境中脱离,进而释放集群资源,避免两个节点争用一个资源的情形发生。保证共享数据的安全性和完整性。#watchdog /dev/watchdog#该选项是可选配置,是通过Heartbeat来监控系统的运行状态。使用该特性,需要在内核中载入softdog内核模块,用来生成实际的设备文件,如果系统中没有这个内核模块,就需要指定此模块,重新编译内核。编译完成输入insmod softdog加载该模块。然后输入grep misc /proc/devices(应为10),输入cat /proc/misc |grep watchdog(应为130)。最后,生成设备文件:mknod /dev/watchdog c 10 130 。即可使用此功能。node node1#主节点主机名,可以通过命令“uanme n”查看。node node2#备用节点主机名。ping #选择ping的节点,ping 节点选择的越好,HA集群就越强壮,可以选择固定的路由器作为ping节点,但是最好不要选择集群中的成员作为ping节点,ping节点仅仅用来测试网络连接。respawn hacluster /usr/lib/heartbeat/ipfail#该选项是可选配置,列出与heartbeat一起启动和关闭的进程,该进程一般是和heartbeat集成的插件,这些进程遇到故障可以自动重新启动。最常用的进程是ipfail,此进程用于检测和处理网络故障,需要配合ping语句指定的ping node来检测网络的连通性。其中hacluster表示启动ipfail进程的身份。2资源文件(/etc/ha.d/haresources)Haresources文件用于指定双机系统的主节点、集群IP、子网掩码、广播地址以及启动的服务等集群资源,文件每一行可以包含一个或多个资源脚本名,资源之间使用空格隔开,参数之间使用两个冒号隔开,在两个HA节点上该文件必须完全一致,此文件的一般格式为:node-name network node-name表示主节点的主机名,必须和ha.cf文件中指定的节点名一致,network用于设定集群的IP地址、子网掩码、网络设备标识等,需要注意的是,这里指定的IP地址就是集群对外服务的IP地址,resource-group用来指定需要heartbeat托管的服务,也就是这些服务可以由heartbeat来启动和关闭,如果要托管这些服务,必须将服务写成可以通过start/stop来启动和关闭的脚步,然后放到/etc/init.d/或者/etc/ha.d/resource.d/目录下,heartbeat会根据脚本的名称自动去/etc/init.d或者/etc/ha.d/resource.d/目录下找到相应脚步进行启动或关闭操作。下面对配置方法进行具体说明:node1 IPaddr:00/24/eth0/ Filesystem:/dev/sdb5:/webdata:ext3 httpd tomcat其中,node1是HA集群的主节点,IPaddr为heartbeat自带的一个执行脚步,heartbeat首先将执行/etc/ha.d/resource.d/IPaddr 00/24 start的操作,也就是虚拟出一个子网掩码为,IP为00的地址,此IP为heartbeat对外提供服务的网络地址,同时指定此IP使用的网络接口为eth0,接着,heartbeat将执行共享磁盘分区的挂载操作,“Filesystem:/dev/sdb5:/webdata:ext3”相当于在命令行下执行mount操作,即“mount t ext3 /dev/sdb5 /webdata”,最后依次启动httpd和tomcat服务。注意:主节点和备份节点中资源文件haresources要完全一样。3认证文件(/etc/ha.d/authkeys)authkeys文件用于设定heartbeat的认证方式,共有三种可用的认证方式:crc、md5和sha1,三种认证方式的安全性依次提高,但是占用的系统资源也依次增加。如果heartbeat集群运行在安全的网络上,可以使用crc方式,如果HA每个节点的硬件配置很高,建议使用sha1,这种认证方式安全级别最高,如果是处于网络安全和系统资源之间,可以使用md5认证方式。这里我们使用crc认证方式,设置如下:auth 11 crc#2 sha1 sha1_any_password#3 md5 md5_any_password需要说明的一点是:无论auth后面指定的是什么数字,在下一行必须作为关键字再次出现,例如指定了“auth 6”,下面一定要有一行“6 认证类型”。最后确保这个文件的权限是600(即-rw-)。二、 配置备份节点的heartbeat 在备份节点上也需要安装heartbeat,安装方式与在主节点安装过程一样,这里不再重述,依次安装libnet和heartbeat源码包,安装完毕,在备份节点上使用scp命令把主节点配置文件传输到备份节点。 rootnode2 #scp r node1:/etc/ha.d/* /etc/ha.d/其中,node1是主节点的主机名。三、设置主节点和备份节点时间同步在双机高可用集群中,主节点和备份节点的系统时间也非常重要,因为节点之间的监控都是通过设定时间来实现的,主备节点之间的系统时间相差在十秒以内是正常的,如果节点之间时间相差太大,就有可能造成HA环境的故障。解决时间同步的办法有两个,一个是找一个时间服务器,两个节点通过ntpdate命令定时与时间服务器进行时间校准,另一个办法是让集群中的主节点作为ntp时间服务器,让备份节点定时去主节点进行时间校验。四、 启动Heartbeat1启动主节点的HeartbeatHeartbeat安装完成后,自动在/etc/init.d目录下生成了启动脚步文件heartbeat,直接输入/etc/init.d/heartbeat可以看到heartbeat脚本的用法,如下所示:rootnode1 # /etc/init.d/heartbeat Usage: /etc/init.d/heartbeat start|stop|status|restart|reload|force-reload因而启动heartbeat可以通过如下命令进行:rootnode1 #service heartbeat start或者通过rootnode1 #/etc/init.d/heartbeat start这样就启动了主节点的heartbeat服务,为了让heartbeat能在开机自动运行以及关机自动关闭,可以手动创建以下软连接:rootnode1 #ln -s /etc/init.d/heartbeat /etc/rc.d/rc0.d/K05heartbeatrootnode1 #ln -s /etc/init.d/heartbeat /etc/rc.d/rc3.d/S75heartbeatrootnode1 #ln -s /etc/init.d/heartbeat /etc/rc.d/rc5.d/S75heartbeatrootnode1 #ln -s /etc/init.d/heartbeat /etc/rc.d/rc6.d/K05heartbeatHeartbeat启动时,通过“tail f /var/log/ messages”查看主节点系统日志信息,输出如下:rootnode1 # tail -f /var/log/messagesNov 26 07:52:21 node1 heartbeat: 3688: info: Configuration validated. Starting heartbeat 2.0.8Nov 26 07:52:21 node1 heartbeat: 3689: info: heartbeat: version 2.0.8Nov 26 07:52:21 node1 heartbeat: 3689: info: Heartbeat generation: 3Nov 26 07:52:21 node1 heartbeat: 3689: info: G_main_add_TriggerHandler: Added signal manual handlerNov 26 07:52:21 node1 heartbeat: 3689: info: G_main_add_TriggerHandler: Added signal manual handlerNov 26 07:52:21 node1 heartbeat: 3689: info: glib: UDP Broadcast heartbeat started on port 694 (694) interface eth1Nov 26 07:52:21 node1 heartbeat: 3689: info: glib: UDP Broadcast heartbeat closed on port 694 interface eth1 - Status: 1Nov 26 07:52:21 node1 heartbeat: 3689: info: glib: ping heartbeat started.Nov 26 07:52:21 node1 heartbeat: 3689: info: G_main_add_SignalHandler: Added signal handler for signal 17Nov 26 07:52:21 node1 heartbeat: 3689: info: Local status now set to: upNov 26 07:52:22 node1 heartbeat: 3689: info: Link node1:eth1 up.Nov 26 07:52:23 node1 heartbeat: 3689: info: Link : up.Nov 26 07:52:23 node1 heartbeat: 3689: info: Status update for node : status ping此段日志是Heartbeat在进行初始化配置,例如,heartbeat的心跳时间间隔、UDP广播端口、ping节点的运行状态等,日志信息到这里会暂停,等待120秒之后,heartbeat会继续输出日志,而这个120秒刚好是ha.cf中“initdead”选项的设定时间。此时heartbeat的输出信息如下:Nov 26 07:54:22 node1 heartbeat: 3689: WARN: node node2: is deadNov 26 07:54:22 node1 heartbeat: 3689: info: Comm_now_up(): updating status to activeNov 26 07:54:22 node1 heartbeat: 3689: info: Local status now set to: activeNov 26 07:54:22 node1 heartbeat: 3689: info: Starting child client /usr/lib/heartbeat/ipfail (694,694)Nov 26 07:54:22 node1 heartbeat: 3689: WARN: No STONITH device configured.Nov 26 07:54:22 node1 heartbeat: 3689: WARN: Shared disks are not protected.Nov 26 07:54:22 node1 heartbeat: 3689: info: Resources being acquired from node2.Nov 26 07:54:22 node1 heartbeat: 3712: info: Starting /usr/lib/heartbeat/ipfail as uid 694 gid 694 (pid 3712)在上面这段日志中,由于node2还没有启动,所以会给出“node2: is dead”的警告信息,接下来启动了heartbeat插件ipfail,由于我们在ha.cf文件中没有配置STONITH,所以日志里也给出了“No STONITH device configured”的警告提示。继续看下面的日志:Nov 26 07:54:23 node1 harc3713: info: Running /etc/ha.d/rc.d/status statusNov 26 07:54:23 node1 mach_down3735: info: /usr/lib/heartbeat/mach_down: nice_failback: foreign resources acquiredNov 26 07:54:23 node1 mach_down3735: info: mach_down takeover complete for node node2.Nov 26 07:54:23 node1 heartbeat: 3689: info: mach_down takeover complete.Nov 26 07:54:23 node1 heartbeat: 3689: info: Initial resource acquisition complete (mach_down)Nov 26 07:54:24 node1 IPaddr3768: INFO: Resource is stoppedNov 26 07:54:24 node1 heartbeat: 3714: info: Local Resource acquisition completed.Nov 26 07:54:24 node1 harc3815: info: Running /etc/ha.d/rc.d/ip-request-resp ip-request-respNov 26 07:54:24 node1 ip-request-resp3815: received ip-request-resp 00/24/eth0 OK yesNov 26 07:54:24 node1 ResourceManager3830: info: Acquiring resource group: node1 00/24/eth0 Filesystem:/dev/sdb5:/webdata:ext3Nov 26 07:54:24 node1 IPaddr3854: INFO: Resource is stoppedNov 26 07:54:25 node1 ResourceManager3830: info: Running /etc/ha.d/resource.d/IPaddr 00/24/eth0 startNov 26 07:54:25 node1 IPaddr3932: INFO: Using calculated netmask for 00: Nov 26 07:54:25 node1 IPaddr3932: DEBUG: Using calculated broadcast for 00: 55Nov 26 07:54:25 node1 IPaddr3932: INFO: eval /sbin/ifconfig eth0:0 00 netmask broadcast 55Nov 26 07:54:25 node1 avahi-daemon1854: Registering new address record for 00 on eth0.Nov 26 07:54:25 node1 IPaddr3932: DEBUG: Sending Gratuitous Arp for 00 on eth0:0 eth0Nov 26 07:54:26 node1 IPaddr3911: INFO: SuccessNov 26 07:54:26 node1 Filesystem4021: INFO: Resource is stoppedNov 26 07:54:26 node1 ResourceManager3830: info: Running /etc/ha.d/resource.d/Filesystem /dev/sdb5 /webdata ext3 startNov 26 07:54:26 node1 Filesystem4062: INFO: Running start for /dev/sdb5 on /webdataNov 26 07:54:26 node1 kernel: kjournald starting. Commit interval 5 secondsNov 26 07:54:26 node1 kernel: EXT3 FS on sdb5, internal journalNov 26 07:54:26 node1 kernel: EXT3-fs: mounted filesystem with ordered data mode.Nov 26 07:54:26 node1 Filesystem4059: INFO: SuccessNov 26 07:54:33 node1 heartbeat: 3689: info: Local Resource acquisition completed. (none)Nov 26 07:54:33 node1 heartbeat: 3689: info: local resource transition completed上面这段日志是进行资源的监控和接管,主要完成haresources文件中的设置,在这里是启用集群虚拟IP和挂载磁盘分区。此时,通过ifconfig命令查看主节点的网络配置,可以看到,主节点已经自动绑定了集群的IP地址,在HA集群之外的主机上通过ping命令检测集群IP地址00,已经处于可通状态,也就是该地址变的可用。同时查看磁盘分区的挂载情况,共享磁盘分区/dev/sdb5已经被自动挂载。2启动备份节点的Heartbeat 启动备份节点的Heartbeat,与主节点方法一样,使用如下命令: rootnode2 #/etc/init.d/heartbeat start 或者执行 rootnode2 #service heartbeat start 这样就启动了备用节点的heartbeat服务,为了让heartbeat能在开机自动运行以及关机自动关闭, 创建以下软连接:rootnode2 #ln -s /etc/init.d/heartbeat /etc/rc.d/rc0.d/K05heartbeatrootnode2 #ln -s /etc/init.d/heartbeat /etc/rc.d/rc3.d/S75heartbeatrootnode2 #ln -s /etc/init.d/heartbeat /etc/rc.d/rc5.d/S75heartbeatrootnode2 #ln -s /etc/init.d/heartbeat /etc/rc.d/rc6.d/K05heartbeat备用节点的heartbeat日志输出信息与主节点相对应,通过“tail -f /var/log/messages”可以看到如下输出:Nov 26 07:57:15 node2 heartbeat: 2110: info: Link node1:eth1 up.Nov 26 07:57:15 node2 heartbeat: 2110: info: Status update for node node1: status activeNov 26 07:57:15 node2 heartbeat: 2110: info: Link node1:eth0 up.Nov 26 07:57:15 node2 harc2123: info: Running /etc/ha.d/rc.d/status statusNov 26 07:57:15 node2 heartbeat: 2110: info: Comm_now_up(): updating status to activeNov 26 07:57:15 node2 heartbeat: 2110: info: Local status now set to: activeNov 26 07:57:15 node2 heartbeat: 2110: info: Starting child client /usr/lib/heartbeat/ipfail (694,694)Nov 26 07:57:15 node2 heartbeat: 2110: WARN: G_CH_dispatch_int: Dispatch function for read child took too long to execute: 70 ms ( 50 ms) (GSource: 0x8f62080)Nov 26 07:57:15 node2 heartbeat: 2134: info: Starting /usr/lib/heartbeat/ipfail as uid 694 gid 694 (pid 2134) 备份节点检测到node1处于活动状态,没有可以接管的资源,因此,仅仅启动了网络监听插件ipfail,监控主节点的心跳。如何才能得知HA集群是否正常工作,模拟环境测试是个不错的方法,在把Heartbeat高可用性集群放到生产环境中之前,需要做如下五个步骤的测试,从而确定HA是否正常工作。一、正常关闭和重启主节点的heartbeat首先在主节点node1上执行“service heartbeat stop”正常关闭主节点的Heartbeat进程,此时通过ifconfig命令查看主节点网卡信息,正常情况下,应该可以看到主节点已经释放了集群的服务IP地址,同时也释放了挂载的共享磁盘分区,然后查看备份节点,现在备份节点已经接管了集群的服务IP,同时也自动挂载上了共享的磁盘分区。在这个过程中,使用ping命令对集群服务IP进行测试,可以看到,集群IP一致处于可通状态,并没有任何延时和阻塞现象,也就是说在正常关闭主节点的情况下,主备节点的切换是无缝的,HA对外提供的服务也可以不间断运行。接着,将主节点heartbeat正常启动,heartbeat启动后,备份节点将自动释放集群服务IP,同时卸载共享磁盘分区,而主节点将再次接管集群服务IP和挂载共享磁盘分区,其实备份节点释放资源与主节点绑定资源是同步进行的。因而,这个过程也是一个无缝切换。二、在主节点上拔去网线拔去主节点连接公共网络的网线后,heartbeat插件ipfail通过ping测试可以立刻检测到网络连接失败,接着自动释放资源,而就在此时,备用节点的ipfail插件也会检测到主节点出现网络故障,在等待主节点释放资源完毕后,备用节点马上接管了集群资源,从而保证了网络服务不间断持续运行。同理,当主节点网络恢复正常时,由于设置了“auto_failback on”选项,集群资源将自动从备用节点切会主节点。在主节点拔去网线后日志信息如下,注意日志中的斜体部分:Nov 26 09:04:09 n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高三阅读鉴赏课件
- 高三放飞梦想课件
- 2025年各地中考语文试卷【综合性学习题】汇集练附答案解析
- 高一物理集体备课课件
- 宪法九版习题及答案 第2章 第3章(在线练习题)
- 高一地球公转课件
- 高一功率说课课件
- 精准夫妻离婚协议书:共同财产与债务清算协议
- 企业用友U86合同管理系统采购实施合同
- 汽车美容店租赁合同(含客户关系管理系统)
- 一篇入门EPC总承包项目的税务筹划
- 宝安区人民医院药品目录西药
- 满堂脚手架计算书
- 【大单元教学】微专题 牛顿运动定律 课时 省赛获奖
- 岳阳楼记翻译
- 护理不良事件培训
- 广告策划与创意课件改
- (完整word版)理论力学答案(谢传峰版)
- 中国产业结构与布局的历史演变
- GB/T 40800-2021铸钢件焊接工艺评定规范
- hse履职能力评估测试题库
评论
0/150
提交评论