ROSE HA白皮书.doc_第1页
ROSE HA白皮书.doc_第2页
ROSE HA白皮书.doc_第3页
ROSE HA白皮书.doc_第4页
ROSE HA白皮书.doc_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ROSE HA白皮书一概述:信息已成为企业日常活动中十分重要的一个组成部分,系统管理员必须不断地监视信息系统,以提供不间断、可靠而又实时的服务。Client/Server体系已成为当前信息业发展的一个主要趋势,而多服务器结构使系统的性能及可靠性得到进一步的提高,功能也更强大,从而大大地提高了效率。可以说,在当今的商业活动中,信息系统的可用性已成为衡量其资源利用率的最重要的尺度。1高可用性系统: 高可用性系统是指在系统运行过程中,可以将数据丢失及服务中断的可能性减小到最低程度的系统。在这种系统中,所有引起服务中断的故障都会激活相应软件去进行错误检测、故障隔离及在线恢复等工作,此时,在系统中指定的备份系统会取代故障系统,接管故障服务,并使其正常运行.此过程对用户来说,只需在等待很短的时间后,便可继续访问该项服务了。2ROSE HA的设计目标: 可靠性:ROSE HA是一可靠而又高效的系统。它可以减少系统运行过程中由于宕机而引起的服务中断时间,提高数据和服务的可靠性和延续性,并防止虚假报警。一般来说,恢复一个故障服务,ROSE HA最多只需要几分钟的时间,因为在接管该服务时,备份服务器本身不需要去重新启动,它需要做的仅仅是启动该项服务。 自动性:ROSE HA的运行不会改变正常的工作流程,而且整个服务的恢复也是自动进行的。系统管理员不用干预,故障便会自动恢复。 管理的直观性:采用直观而又方便的JAVA Applet管理界面对系统进行配置及实时管理。 灵活性:ROSE HA提供了完全可以由用户自己来配置的故障恢复步骤,这样,用户可以根据不同的应用环境对自己的系统进行配置。 兼容性:R(可靠的)O(开放的)S(可扩展的)E(企业级)H(高)A(可用)软件是基于Solaris操作系统下的一个应用级的高可用性软件,它可以很好地兼容多种软件和硬件环境,使用ROSE HA软件时,用户不需要再去重建系统内核部分,或是对软件及硬件进行修改。二ROSE HA简介ROSE HA将冗余的硬件资源配置成一个高可用性系统。1硬件组成: A 服务器:运行同一版本操作系统的计算机系统。l 主服务器:提供主服务的计算机系统, 但相对于其它主服务来说,主服务器也可以是备份服务器。l 备份服务器:配置有某些用以恢复故障服务的硬件设备的计算机系统。如果主服务运行正常,没有出现故障,此时,备份服务器将处于以下三种状态之一:空闲执行付服务执行主服务。一台备份服务器可以装备多个硬件设备,用以恢复多个故障服务;另一方面,对一些重要的服务,也可采用ACTIVE/ACTIVE方式,这样可以进一步提高冗余度,增加系统可靠性。 B Clients(客户端): 是指那些访问服务的计算机系统。2通信连接ROSE HA支持运行TCP/IP协议的ATMEthernet10M/100M以太网光纤网私有网:用以交换服务器心跳的网络。它可通过一条独立的网络连接来传送心跳,也可采用RS232以点对点的通信方式来传送心跳。公有网:供客户端访问服务的网络。连接公有网最好的办法是用独立的网络连接,这样,客户端可以通过指定网络访问相关服务,从而提高系统的可靠性;其次,多个服务负载也可以由多个独立分离的网络分别承担或由一个网络独立承担。主网络接口: 此接口是客户端访问服务的入口,客户通过一个特定的网络IP地址来识别服务.备份网络接口: (服务器间的服务恢复:)此接口是安装在备份服务器上用来提供访问主服务的备份的网络IP地址。如果主服务器出现故障,则备份服务器会将服务接管过来,且备份网络接口也会将原在主网络接口的IP地址接管过来。本地的服务恢复:可以在主服务器上另外安装一个备份网络接口,用来做备份网络接口, 这时如果主网络接口出现故障,此备份接口将接管主IP 地址, 而避免相关服务在两台服务器之间的切换。3. 在线存储:SCSI磁盘设备私有磁盘:主要是用于存储操作系统及那些在服务被接管时不被访问的数据。共享磁盘:两台主机通过独立的访问路径访问共享磁盘。在每个服务器中都有各 自独立的供主服务使用的共享磁盘的分区,这样可保证在备份服务器接管时服务及数据的可靠性。另外,在磁盘发生故障时,还可以采取如下能保证数据可靠性的冗余及容错的磁盘介质: Mirroring(镜像)SUN在线磁盘介质;RDBMS镜像;RAID 1磁盘阵列; RAID 3或5磁盘阵列三HA软件组成 (一) 组件说明1. 服务主服务: 此服务是在指定的主服务器上运行,Client可通过连接在该服务器上的NIC上的指定的Active IP 地址来访问,主服务由HA软件来管理,当主服务器出现故障时,在很短的宕机时间内,备份服务器会将主服务接管过去。付服务: 是指不由HA管理的服务.对它而言,不存在备份服务器。付服务可以在不中断主服务的情况下随时被中断,原来分配给它的资源也会分配给主服务的接管任务中。2. AgentsAgents用来监测一些重要的硬件和软件资源的可靠性,这些资源包括如下内容:l 服务器l 网络接口通信连接(通信服务)l 在线存储系统(文件服务,磁盘服务)l 重要的系统及相关的应用程序判断Agents的好坏,主要可以从这样几个因素来考虑:首先,对系统资源的占用要小;对系统性能的影响要小;对错误信息要能实时反映;另外是该Agent的可靠性,不要产生重大错误,发生虚假报警。Agents开发工具:Agents实际上是一些C(C)程序和shell scripts。ROSE HA为要开发新的Agents的用户提供了API及模板文件。用户要检验自己应用的可靠性,必须写出精确的Agent程序或shell脚本。在ROSE HA软件中,HA管理器与Agents间的通讯是通过API来完成的,因此,用户不需再做其他的编程工作。3. HA服务器HA服务器(HA Daemon)是ROSE HA的核心部分。它主要完成以下工作:*监测服务器,看是否所有用来执行服务的资源都是可靠的。*根据HA的配置文件对服务器进行配置。*启动指定的服务.*启动服务的Agents.*通过Agents来监测服务器及服务的所有相关进程。*管理用来恢复故障服务的冗余硬件资源。*根据接收到的服务器心跳及Agents心跳,处理相应的事件日志、错误处理及在线恢复工作。4. 心跳 Agents心跳:通过周期性的Agents心跳,Agents会将服务的可靠性通知HA Daemon。Agents心跳是通过共享内存来实现的,如果服务的可用性出现问题,Agents会停止向HA管理器发送心跳。Agents心跳在预定时间内的丢失预示着它所监测的服务出现了故障,此时,ROSE HA会执行服务的切换进程。服务器心跳:通过周期性的服务器心跳,服务器会将自身的可靠性通知对方服务器。服务器心跳是通过基于TCP/IP 的Socket或RS232线来传送的,如果服务器出现故障,HA管理器将向对方发送死的心跳,或停止发送心跳。此心跳在一定时间内的丢失预示着此服务器已出现故障,此时,ROSE HA将开始执行服务的切换过程。5. HA配置文件 在每台装有ROSE HA系统的服务器中,都会产生一个配置文件,此文件就是一个根据由用户定义要求保护相关服务所定的工作表。此文件可以根据不同应用环境的要求加以修改,该配置文件主要包含以下内容:*已获得的软件许可,可以运行ROSE HA软件的所有License信息。*配置服务:服务的启动与停止的shell程序服务的Agents所要求的硬件资源(如服务器,网卡及共享磁盘分区等等)和其各自的标识(IP地址,安装点等等)。指定的冗余硬件设备。*私有网的配置信息6. Shell 程序用户可以针对以下内容,自己编写Shell程序: 起动和停止服务 执行故障服务的切换 执行事件通知:向系统控制台发送信息,通过Email将信息通知对方,向用户发出广播信息,初始化进程等。7. 错误检测Agents检测与所有与服务相关的进程。HA Daemon会根据接受到的Agents心跳来确定Agent所检测的服务是否正常。服务可以由其Agents来检测,Agents会检测服务的不同内容,如果HA Daemon在指定的事件内接收到了Agent发来的心跳,就认为此服务是正常的。如心跳消失或发出error信息,就表示Agents检测到服务运行出现鼓故障,这时会执行服务的恢复切换过程。在指定的时间内,当所有由HA管理的服务运行正常时,主服务器会向备份服务器发出心跳。但如果在指定时间内,主服务器心跳丢失,则表示该服务器可能出现了故障,这样也会激发一个服务的恢复切换过程。8. 故障隔离与在线恢复在主服务器出现故障而要将服务切换到备份服务器之前,HA会按在Services配置时设定的重起次数重新起动服务。每个主服务都预先指定了相应的备份服务器。服务的恢复过程包括将共享磁盘用户访问服务的Active IP及执行优先级切换到相应的备份服务器。一些与状态无关的应用服务(如NFS,UDP)的中断与恢复对用户来说是一透明的过程,客户只要在等待很短的服务响应时间后,便可自动与服务重新连接上。而另一方面,其他一些应用(如Clint/Server RDBMS,Telent 服务及基于TCP的服务等)的中断则会导致客户端应用的中断,并将其与服务的连接断开,此时,用户必须手动重新起动客户端应用,并与服务重新连接,从而继续访问原来的服务。当服务器出现故障时,终端用户会自动被注销,在这些用户重新注册进入之前,备份服务器必须将对方服务器的服务接管过来,此时,注册请求会自动转到备份服务器上,这一过程对用户来说是完全透明的。当主服务器出现故障后又重新恢复正常时,有两种可选择的操作模式。第一:已被切换到相应的备份服务器上的原来的服务可以自动切换回已经恢复正常的主服务器上去。第二:恢复後的主服务器作为原来主服务的备份服务器,此时服务可以切换到备份服务器上。9. 服务的切换不管什么时候执行服务的切换过程,主服务器都要进行三步操作。一:执行正常的服务关闭程序,这样可以保证服务的完整性及数据的安全,而且也不会再有其他服务器执行此项服务。二:释放共享磁盘,以便备份服务器能够访问共享磁盘。三:释放相应的Active IP,这样便可保证不会再有其他服务器使用此IP地址。接下来,备份服务器在不重起的情况下将执行以下四步操作:一:获取存有服务的共享磁盘分区,二:进行系统检测与恢复,此过程可进一步保证在服务异常中断时共享磁盘的完整性。三:备份服务器网络接口接管Active IP。四:启动相关的服务。这时,客户端便可重新连接到原来的IP地址,用户可以继续访问服务。服务的切换时间主要决定于两个因素:1服务本身的复杂性(如重起服务的所需时间),2执行文件系统检测与切换的时间(文件系统的大小)。造成文件系统检测时间长的原因基本上有两个:1、在文件系统中有许多小文件;2、文件系统本身非常大。对文件系统进行log,会大大缩短文件系统的检测与恢复时间。文件系统的所有变化都会存放一个记录文件中。文件系统的恢复是通过修正记录文件中所记录的非法操作来完成的,文件系统的恢复时间并不完全取决于文件系统的大小。10. 切换:(Failover)是由指定服务的主服务器启动的一个服务的切换过程。通常来说,有两种可能会触发此项操作,一、因为某种错误导致服务的中断或主服务器重起失败。二、主服务器需要离线转去执行系统维护工作。11. 本地切换:(Local Failover)在主服务器上,可以加上另外一个NIC作为主服务器的备份NIC。当主NIC 出现故障时,ROSE HA将会执行此项操作,可切换的IP地址也将会由本地的备份 NIC 接管,也就是说,这个IP地址将成为备份NIC的一个新的IP地址。12. 接管:(Takeover)是指由备份服务器启动的一个服务的切换过程。通常来说,有两种可能会触发此动作:一因为某种错误,而导致在预定时间内,主服务器心跳丢失;二主服务器必须离线去作系统维护工作。13. Switch Back是指由主服务器启动的一个服务的切换过程。当主服务器解除故障,正常运行后,它便会要求备份服务器将服务切换回来运行。此操作的主要用途在于:对客户端来说,可以继续使用原来由主服务器提供的服务响应级别,维持系统原有的负载情况。(二)Administration Tool (管理工具)ROSE HA管理工具为系统管理员管理与监测ROSE HA的运行提供了菜单驱动及点击操作的JAVA界面。利用此工具,系统管理员可以做以下操作:*通过表格形式和菜单驱动的GUI界面对HA进行配置*启动和停止ROSE HA*输入License信息*建立或删除私有网*建立或删除服务*光标监测窗口*对操作过程进行实时记录及跟踪*调整错误监测的时间周期*强制将服务切换至另一台服务器上。如果服务正在主服务器上运行,而要求进行服务切换的又是主服务器本身时,此服务会被切换到备份服务器上去。如果服务正在主服务器上运行,而此时备份服务器要求进行服务切换,这时,Backup服务器会接管此项服务。如服务当前正在备份服务器上运行,而此时要求进行切换的是原来的主服务器,这时服务会切换回主服务器上。当服务正在备份服务器上运行,要求进行切换的是备份服务器本身时,服务也会切换回主服务器上去。*启动和停止指定的服务及其相应的Agents.(三)配置信息基本上来说,ROSE HA支持两种类型的配置。类型1Hot standbyBackup ServerActive ServerDisk Array Internel DiskInternel DiskdiskSharediskPrivate netPublic net client上所述:所有主服务在主服务器上运行,如果主服务器出现故障,则备份服务器会接管所有的主服务,备份服务器也因此成为新的主服务器。此类型的配置包括以下内容:*主服务器:一个网卡接公有网,一块网卡接私有网,一个SCSI或光纤 口连到共享磁盘,还有一个SCSI或光纤口连到本地硬盘。*备份服务器:同上*公有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论