盐城地税应用高可用方案.doc_第1页
盐城地税应用高可用方案.doc_第2页
盐城地税应用高可用方案.doc_第3页
盐城地税应用高可用方案.doc_第4页
盐城地税应用高可用方案.doc_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

盐盐城城地地税税应应用用高高可可用用 规划方案建议书 维尔软件有限公司上海办事处维尔软件有限公司上海办事处 创建日期:创建日期:20052005 年年 8 8 月月 1 1 日日 最后修改:最后修改:20052005 年年 8 8 月月 1 1 日日 版本:版本:1.01.0 商业信用商业信用 声明:声明: 该文档由该文档由 SYMANTECSYMANTEC 维尔软件上海分公司(以下简称维尔软件上海分公司(以下简称 VERITASVERITAS)所提交。)所提交。文文 中的所有信息均为本公司机密信息,仅供下文中被呈送方使用中的所有信息均为本公司机密信息,仅供下文中被呈送方使用,务请妥善保管,务请妥善保管 并且仅在与项目有关人员范围内使用,未经本公司明确做出的书面许可,不得并且仅在与项目有关人员范围内使用,未经本公司明确做出的书面许可,不得 为任何目的、以任何形式或手段(包括电子、机械、复印、录音或其他形式)为任何目的、以任何形式或手段(包括电子、机械、复印、录音或其他形式) 对本文档的任何部分进行复制、存储、引入检索系统或者传播。对本文档的任何部分进行复制、存储、引入检索系统或者传播。 SYMANTECSYMANTEC 公司保留所有权利。公司保留所有权利。 文档属性文档属性 属性属性内容内容 客户名称 项目名称 项目编号 文档主题应用高可用方案 文档副标题 文档编号 文档版本 1.0 版本日期 2005-8-1 文档状态 内部参照 作者杨豪 文档变更文档变更 版本版本修订日期修订日期修订人修订人描述描述 1.02005-8-1 杨豪初稿 文档送呈文档送呈 客户姓名或客户单位名称客户姓名或客户单位名称目的目的 审阅、留档 目 录 1用户的基本需求及应用高可用基本概念用户的基本需求及应用高可用基本概念.4 1.1什么是集群(CLUSTER )系统 .4 1.2用户需求和相关的 IT 状况.4 2VERITAS 方案的硬件需求、部署、配置、说明方案的硬件需求、部署、配置、说明.5 2.1VERITAS 方案:.5 2.2产品配置表.6 2.3产品布署图:.6 2.4产品配置及说明.6 2.5实现的功能说明.7 3.VERITAS 解决方案中的几大独特技术优势解决方案中的几大独特技术优势.7 31 技术成熟度及平台支持能力技术成熟度及平台支持能力.7 3 32 2 远程应用切换的支持远程应用切换的支持.8 3 33 3 CLUSTERCLUSTER 中的节点扩充能力中的节点扩充能力.8 3 34 4 对共享文件系统的支持能力对共享文件系统的支持能力.9 3 35 5 应用切换时的目标服务器选择应用切换时的目标服务器选择.9 3 36 6 管理机制管理机制.10 3 37 7 对标准和客户化应用的支持对标准和客户化应用的支持.10 3 39 9 对磁盘阵列的支持对磁盘阵列的支持.10 3 31010 与操作系统的关系与操作系统的关系.11 3 31111 心跳机制心跳机制.11 3 31212 管理安全性管理安全性.11 附件:附件:VERITAS 公司介绍公司介绍.35 1 1 用用户户的的基基本本需需求求及及应应用用高高可可用用基基本本概概念念 1.1 什么是集群(Cluster )系统 集群系统是目前应用高可用的主要手段。由多台主机,连接共享的存 储磁盘阵列,实现应用在多台主机上的并行运作(需要应用支持,如 Oracle RAC)或者 Active/Standby 模式运作,当单个主机上的应用, 或者主机本身发生错误时,由其他服务器接替工作,最终实现应用的高 可用。 1.2 用户需求和相关的 IT 状况 关键业务系统需要 24X7 不间断提供服务。即使发生短暂的业务中断,也 会导致难以估量的损失。为此,我们分析以下可能会导致业务系统中断的原因: 1 系统硬件故障 如数据/系统磁盘的损坏将导致数据不能访问,并进而可能导致应用进程终 止或系统停机,甚至系统不能重启动;网卡的损坏可使终端用户无法访问系统 服务;CPU 或内存的失效则会导致系统的死机; 2 应用程序或操作系统出错 由于操作系统或应用程序中可能存在不完善的地方,当碰到某种激发事件 时,应用程序非正常终止或系统崩溃; 3 人为错误 一些人工的误操作,如删除系统或应用文件,终止系统或应用服务进程, 也会导致系统服务的无法访问; 4 电脑病毒/骇客入侵 由于目前的大多数计算机系统均连接在网络上,若缺少有效的防范机制, 很容易遭受病毒的感染或骇客的入侵,轻者数据被损坏,重者系统瘫痪; 5 自然灾害 由于一些意外的不可抗拒的因素,如雷击、火灾、洪灾等导致的计算机系 统破坏,将会使一般系统的恢复非常困难和耗时,导致业务系统长时间的中断; 6 正常的停机 主要指计划内的系统升级、安装软件、系统备份等过程。 由上可见,影响系统正常运行的因素有很多,其中,1、3、5 项所导致的 系统中断完全可以通过高可用系统的建立来有效避免。 因此: 1用户计划购买两台小型机服务器,分别为盐城市,以及所辖 八个县作相关服务。 2服务基于 Sybase 数据库。 3用户计划构建 SAN 环境,并购买一台磁盘阵列,为两台小型 机提供存储空间。 4用户希望两台小型机上的服务,尽可能的不间断。 2 2 V VE ER RI IT TA AS S 方方案案的的硬硬件件需需求求、部部署署、配配置置、说说明明 2.1 Veritas 方案: 针对用户的需求,以及用户具有的硬件架构,Veritas Cluster 为 了提供一个高可靠集成的系统,Veritas 群集软件在系统和网络的几个 方面提供了一个完全集成的方案,包括管理、监控、检测、恢复重要的 应用。 VERITAS Cluster Server (VCS) 是一个商用的企业级软件解决方案,它可提 供全面的可用性管理,把计划的和非计划的停机时间降到最低。该产品能满足 发展的但严格的世界电子商务模式所要求的正常工作时间。电子商务需要增加 不停机时间以保证为顾客进行各种服务;不管哪种企业,多大规模,VERITAS Cluster Server (VCS)都能为他们的“无间断商务”发挥重要作用。VCS 使得企 业的 SAN 得以完善,它提供客户端对存储数据的访问,既可以是通过光纤直接 连到磁盘阵列,也可以通过光纤交换到“存储池”。 2.2 产品配置表 服务器服务器部署的产品部件部署的产品部件数量数量 Veritas Cluster Server2 数据库服务器 Veritas Cluster Server Sybase Agent2 2.3 产品布署图: 2.4 产品配置及说明 1. Veritas Cluster Server: 提供应用高可用集群服务,减少 计划内,计划外的应用停顿。每台安装的服务器需要一个 license。 2. Sybase Agent for Veritas Cluster Server :支持 Sybase 服务在 Veritas Cluster Server 上的集群服务。 2.5 实现的功能说明 1. 基于 Sybase 应用进行监控,管理,切换,一旦用户的应用发生问题, 服务将被切换到另一台服务器上。 2. 用户可以通过 JAVA, WEB, 或者命令行,在远程对 Cluster 及相关应用 进行管理。 3. 用户对 Cluster 的维护,维修,都无需影响应用的正常工作。 4. VCS Service magrate 技术,可以让用户的应用切换时,用户的应 用不中断。 3 3. .V VE ER RI IT TA AS S 解解决决方方案案中中的的几几大大独独特特技技术术优优势势 3 31 1 技技术术成成熟熟度度及及平平台台支支持持能能力力 是一个非常成熟的 CLUSTER 技术,在 SUN 平台上的全球市场份额高达 70%以上。而且,VERITAS CLUSTER SERVER 具有跨平台的支持能力,在 SOLARIS,HP-UX,AIX,LINUX,WINDOWS 上的配置,管理,实施方式完全一 致。这在高度异构的企业环境中尤为重要,可以缩短 CLUSTER 产品的实 施周期,减少培训费用,降低总体拥有成本。 3 32 2 远远程程应应用用切切换换的的支支持持 VERITAS CLUSTER SERVER 支持与 VERITAS GLOBAL CLUSTER MANAGER 集成后实现跨广域网(无距离限制)的应用切换能力。这一功 能对核心的企业应用非常重要。因为,随着企业信息化程度的不断提升, 企业的业务已经极大程度的依赖于 IT 架构的存在,但各种潜在的威胁又 无处不在,为了防患于未然,很多企业的核心业务系统已经开始考虑异 地灾备。但在异地灾备的概念中,包括对数据的容灾和对应用的容灾, 对数据的容灾可以通过软件或硬件的方式实时实现,但对应用的容灾必 须通过专用的城域或广域集群技术来实现。而 VERITAS 是全球存储管理 和高可用领域的领军厂商,拥有非常完整的城域、广域异地灾备解决方 案(包括对数据的容灾和对应用的容灾)。因此,如果在系统建立的初 期就选用了 VERITAS CLUSTER SERVER 做为本地集群的技术,这就为将 来可能规划的容灾系统构筑了技术基础,大大保护了技术投资。 3 33 3 C CL LU US ST TE ER R 中中的的节节点点扩扩充充能能力力 在最通常的企业环境中,大多数的集群系统都以双机的形式出现,这种 构造非常简单,但系统的计算资源只能利用 50%(如果两台机器是同等级 的),随着 SAN 环境的日益普及,多机系统共享存储设备已成为可能,这 也就为多机的集群创造了条件。因为在多机的集群环境中,可以通过一 台 STANDBY 服务器对 N 台 ACTIVE 服务器实现高可用,如一台 STANDBY,19 台 ACTIVE 时,整个集群环境中的计算资源利用率可以达到 95%。由此可见,在 SAN 环境中节点数量的支持能力越强,集群扩展性就 越高,企业的计算资源利用率也越高。VERITAS CLUSTER SERVER 在 SAN 环境中能支持到 32 个节点。 3 34 4 对对共共享享文文件件系系统统的的支支持持能能力力 在集群环境中对文件系统共享的支持非常重要,这不但可以节省存储空 间(如对 WEB SERVER 等应用,不需要在每台服务器上都部署 WEB CONTENTS),更重要的是,可以应用提升切换的速度。因为在非共享文件 系统的集群环境中,应用的切换时间主要由一下几个方面构成:在 SERVER A 上 SHUTDOWN 应用,UMOUNT 文件系统,DEPORT VOLUME;然后 在 SERVER B 上 IMPORT VOLUME,MOUNT 文件系统,STARTUP 应用。由 此可见,切换中主要的过程是在做存储设备的逻辑迁移。如果采用了共 享文件系统的技术,则切换应用的过程就大大简化了,因为存储本来就 已经共享,只需要在 SERVER A 上 SHUTDOWN 应用,然后直接在 SERVER B 上 STARTUP 应用即可。这样切换的时间大大缩短。 为了实现这样的效果,各家厂商实现的方式不同,VERITAS 做为存储管 理领域的领军厂商,通过其产品 VERITAS SANPOINT FOUNDATION 实现 了在 SAN 环境内或 SCSI 环境内的存储直接共享,既多机可以通过 SCSI 或 SAN 环境直接访问同一个文件系统。 3 35 5 应应用用切切换换时时的的目目标标服服务务器器选选择择 在双机集群系统中,应用的切换时的目标服务器无需选择,但正如前文 所述,考虑到以后可能的多机集群环境,应用切换时的目标服务器的选 择就很重要。因为,在真实的企业环境中,可能并没有完全 STANDALONE 的 STANDBY 服务器,有可能都是 ACTIVE 服务器只是都留有部分计算资 源的余量用于在非正常时期接管来自其他失效服务器上的应用。在这种 环境下,应用切换时对目标服务器的选择就非常重要。因为,如果对某 个应用只能预先指定切换的目标服务器,而当要发生切换时目标服务器 正在峰值运行,这时就会造成不可预测的结果(如切换后导致目标服务 器也因过载瘫痪,而该服务器的瘫痪又导致再级联的将应用切换至其他 服务器上,如此反复,极端情况下又可能发生整个 CLUSTER 的瘫痪。所 以,正因为如此,在集群技术中对应用切换时自动负载均衡的考虑就尤 其重要。 VERITAS CLUSTER SERVER 支持在应用切换时动态地在 CLUSTER 内判 断哪台服务器的负载最轻,哪台满足所有的切换条件,然后再将其定为 切换的目标服务并触发应用切换。这种应用切换的负载均衡技术, VERITAS 大大领先与任何其他 CLUSTER 厂商。 3 36 6 管管理理机机制制 VERITAS CLUSTER SERVER 支持包括命令行,GUI,WEB 在内的多种对 CLUSTER 的监控和管理方式。尤其是通过对 WEB 管理方式的支持,实现 了对 CLUSTER 管理的可移植性。系统管理员无论身在何处,都可以随时 通过任意终端上的 WEB 浏览器了解到自己 CLUSTER 的运行状态。 3 37 7 对对标标准准和和客客户户化化应应用用的的支支持持 作为业界最成熟的 CLUSTER 技术,VERITAS CLUSTER SERVER 对标准 和客户化应用的支持都通过相关的 AGENT 实现。 如支持的标准应用包括:ORACLE,OPS,RAC,SYBASE,INFORMAIX,DB2, SAP,IPLANET,NETSCAPE,APACHE,NFS,NETBACKUP 等。 对客户应用的支持通过定制 CUSTOM AGENT 的方式实现,并提供标准的 API。只要在需做 HA 服务器上有运行环境,定制 AGENT 时可以使用任何 脚本语言或其他编程语言。 3 39 9 对对磁磁盘盘阵阵列列的的支支持持 支持所有主流厂商的所有主流阵列设备。 3 31 10 0 与与操操作作系系统统的的关关系系 除了心跳检测嵌入 OS 的 Kernel,别的模块都是在 OS 的上层。安装和 卸载都比较简单,维护简单。 3 31 11 1 心心跳跳机机制制 采用 VERITAS 的 GAB/LLT 作为心跳协议,这种协议不基于 IP,效率高。 由于默认的心跳通过两个物理网卡实现,所以可靠性也更高。 除此以外,还可以通过 PUBLIC NETWORK 和 SHARE DISK 实现心跳,而 且这些补充的方式与默认的双网卡、双 PRIVATE NETWORK 中以 GAB/LLT 的心跳方式可以同时实现。 所以,VERITAS CLUSTER SERVER 中不会有意外的切换发生。 3 31 12 2 管管理理安安全全性性 VERITAS CLUSTER SERVER 内置自身的安全管理机制,有其独立的用 户认证体系。而且有五种独立的角色,对应着不同的管理权限。例如, 在一个多机集群的环境中,可能会有两个应用,数据库和 WEB SERVER。 在此例中,这五种角色分别为: (1)CLUSTER 级的 ADMINISTRATOR,这个角色拥有所有的权限, 可以做 CLUSTER 中的所有配置、所有应用的切换。 (2)CLUSTER 级的 OPERATOR,这个角色只能做 CLUSTER 中所 有应用的切换。 (3)APPLICATION 级的 ADMINISTRATOR,这个角色只可以做某 个应用(ORACLE 或 WEB SERVER)的配置或切换。 (4)APPLICATION 级的 OPERATOR, 这个角色只可以做某个应 用(ORACLE 或 WEB SERVER)的切换。 (5)GUEST,这个角色可以浏览 CLUSTER 的挂历界面,不能做 任何实质性操作,适合授给见习的系统管理员,用于了解 CLUSTER 的管理。 通过 VERITAS CLUSTER SERVER 中内置的用户认证体系和这五种内置 的角色设置,只要在系统中正确的分配权限,就绝对不会因安全机制的 不完善而导致人为的应用停机。 附件:附件:VERITAS Cluster Server 灾难恢复架构解析灾难恢复架构解析 简介简介 许多企业需要实施高可用性架构,同样,他们也需要对其关键任务应用和 数据库实施灾难恢复/业务永续方案。如果能够充分利用现有的硬件和基础架构, 那么就极有可能在有限的预算之内实现这些需求。进行灾难恢复的传统步骤包 括多种方法,从标准的基于磁带的数据恢复到广泛区域内的同步数据复制。对 于那些没有基础架构支持广泛区域内数据复制方案的企业,仍然可以采用其他 方法获得应用和数据库的快速恢复,同时还能够对本文中所讨论的站点故障实 施保护。 VERITAS 支持几种集群架构,满足多种数据中心的需求。本文意图详细解 释各种数据中心的架构,并提供了配置每种架构的细节信息。 理解灾难恢复的基本术语理解灾难恢复的基本术语 需要理解的两个关键概念是您的恢复点目标(Recovery Point Objective,RPO)和恢复时间目标(Recovery Time Objective,RTO)。发 生故障或灾难时,对于恢复工作所需时间有一个清楚的认识是至关重要的,同 样,了解现在的数据在恢复之后是什么样子的也同等重要。可能并非所有应用 和数据库都需要相同级别的可用性,如下是对 RPO 和 RTO 的简要描述: 恢复点目标(恢复点目标(RPO) 灾难或故障之后你能承受丢失多少数据?能够接受的丢失数据总量是多少? 恢复点目标指的是必须把数据恢复如初的位置。 企业必须制定令人满意的恢复点目标和恢复时间目标。很多人侧重于 RTO 或能够接受的停机时间。 但是,它应该与考虑能忍受丢失多少数据同等重要。数据是至关重要的, 数据的丢失(即使仅仅是几分钟、几小时或是几天)能给企业带来深远的负面 影响。今天,许多公司灾难恢复计划的主要方法是依靠磁带进行备份和恢复。 虽然磁带备份很重要且是一切全面的灾难恢复计划的基础,但是这通常意味着 至少损失一天的数据和停机几天,原因来自于从磁带恢复的时间总量。这种方 法也许能满足某种业务需求,但是如果不能满足,必须采取一些能够减少恢复 数据时间的技术。 恢复时间目标(恢复时间目标(RTO) 恢复时间目标是恢复系统对数据的访问所需的时间。 例如,如果客户宣称需要 45 分钟才能使应用系统恢复在线,可忍受的停机 时间的极限是 1 小时,那么在实际的灾难中,只有 15 分钟时间制定强制切换 决策点(Mandatory Decision Point)。 强制切换决策点(Mandatory Decision Point)的 解释如下: 一旦产生中断,时钟开始计时。最终用户将受到多长时间的影响? 商业需求:需要应用在 1 小时内在线。问题:时钟是从灾难生的那一时刻 而开始计时的,而不是备用系统开始启动的时刻。 1. 最多承受 1 小时的停歇 2. 故障检测时间耗费掉 IT 恢复时间 3. 即使仅仅是本地故障,仍然需要一些时间检测实际的故障 4. 这决定了强制切换决策点只有 15 分钟 计划内停机计划内停机 如果对应用、数据库或服务器进行升级或维护,在这期间使用集群是维持 高可用性的必要方法。 非计划内停机非计划内停机 如果应用、数据库或服务器发生故障,运行在服务器上的服务将切换到其 他服务器上,以避免长时间的停机,并且还要保持快速的恢复目标。 VERITAS 集群服务器的灾难恢复架构集群服务器的灾难恢复架构 VERITAS 认为不是所有的数据中心的情况都是相似的。在本地站点为高可 用性所建立的基础架构可能无法满足每项业务的管理或可用性需要。但是,独 立使用 VERITAS Cluster Server 或将其与 VERITAS 其它产品联合运用,在几 乎任何开放系统环境下都能够获得期望的可用性。VERITAS 提供和支持几种集 群架构,能够满足大多数公司的数据中心架构需求: 能够共享数据的本地高可用性 城域集群 为灾难恢复进行广域内的集群(全局集群) VERITAS 能够为任何企业需求提供高可用性(HA)和灾难恢复(DR), 无论高可用性或灾难恢复计划是针对本地单站点的,还是短距离内城域网 (MAN),抑或全局范围内广域网(WAN)。不论数据中心的基础架构或 SAN 和网络连接的可用性是怎样的,VERITAS 都可以提供已经被广泛验证的 围绕高可用性和存储管理产品建立的高可用性或灾难恢复架构。 最适合我的环境的最佳方案是什么?最适合我的环境的最佳方案是什么? 本地集群与广域内灾难恢复的区别是相对清晰的:本地集群保护数据中心 内的硬件和软件,使之免受故障困扰,广域灾难恢复使用复制技术,防护远距 离覆盖区域内的灾难。取决于高可用性/灾难恢复方案面对的“中间传输距离”, 将集群技术与镜像或复制技术结合到单一集群中,能够以最小的成本保护关键 任务应用和数据库,这引起了人们强烈的兴趣。 一个高可用性集群也能提供灾难恢复功能么? 主要的变化之一导致了一些 问题,例如这样一个概念“多远才算足够远?”。传统上认为灾难恢复中心提 供完整的保护必须有数百甚至上千英里的距离。底线是多数机构的灾难恢复和 数据需求需要在线的数据保护,RPO 和 RTP 接近零。这意味着客户期望提供 灾难恢复功能与简单的配置本地高可用性集群类似,但是跨越多重站点,且费 用并不昂贵。客户们现在意识到短距离(1 到 100 公里)能够提供灾难恢复, 防护大多数具体的威胁,例如火灾、洪水或停电等。对于那些能够影响整个城 1 域的威胁,传统磁带备份和异地磁带库能够满足要求,或者,为了满足 RPO 和 RTO,企业要配置跨越城域的广域集群。 在本文如下的部分将详细介绍 VERITAS 产品,这些高可用性集群产品从本 地数据中心到城市区域再到广域范围。本文的目的是阐述 VEERITAS 能够提供 高可用性和灾难恢复无缝连接的解决方案,这些方案基于现有的基础架构,能 够满足企业对 RPO 和 RTO 的要求。 提供的产品方案提供的产品方案 本地集群本地集群 定义定义 一个 VCS 集群由连接到共享存储设备的不同 应用组合的多重系统构成。VERITAS Cluster Server 监控和控制应用和数据库,并且能够在软 硬件发生多种故障时对应用和数据库进行故障切 换或重启。常常定义一个集群为一套连接到冗余 网络联接的系统。 这种方案能够在应用、操作系统或硬件在某个 站点发生故障时,恢复本地的 UNIX 或 Windows 服务器,也可以尽可能的降低应用系统计划内和 计划外的停机时间。 本地集群,也称为共享存储集群,是目前最流行的通过应用和数据库故障 切换提供高可用性的方案。 环境环境 用于应用和数据可用性的冗余服务器、网络和存储架构使用多重服务器 与共享存储系统的连接。 系统被连入一个专用的网络互联结构中,通常使用以太网传递系统状态 和软硬件资源的信息VCS 使用快速专用协议 GAB/LLT 进行状态通 信。 集群中的每个系统都能够在需要时访问共享存储系统上的应用数据 区别于扩展集群,它不把数据复制或镜像到其他数据中心(往往在单一 阵列中,利用镜像/RAID 来提供磁盘保护) SAN 结构可以简化大型的集群(大于两个节点),这在当前的所有集群 中具有代表性。例如,使用交换机和集线器 所有集群组件服务器、SAN 结构、存储系统全部共存于某个站点上。 集群中的所有服务器在一个单独的位置(单数据中心) 优点优点 使用共享存储系统上的数据实现应用恢复(零数据损失) 将应用和数据库的停机时间降至最低(自动故障切换) 优化服务器整合(N+1 故障切换情形) 快速恢复时间目标,满足严格的服务水平协议和高可用性 缺点缺点 在灾难中,数据中心或站点成为单一的故障点 故障切换行为故障切换行为 当应用程序、数据库或服务器发生故障时,VCS 将降低对发生故障的应用 或数据库的依赖等级,升高集群中运行此服务的其他服务器的等级。所有服务 器都是本地的(在同一个数据中心中)并且是共享的存储系统。由于服务器访 问相同的存储系统,发生故障的服务器所访问的数据可以被那些恢复服务功能 的服务器所访问。 何时考虑本地集群何时考虑本地集群 1. 您有特定的应用和数据库需要保持高可用性么这意味着不能长时间的停 机? 2. 您对应用和数据库长时间停机感到失望么? 3. 您希望在计划内停机期间避免应用或数据库的停机么? 4. 您无法在应用、数据库或服务器故障时,满足恢复时间目标么? 在当今基于 SAN 的结构中,VERITAS Cluster Server 能够提供 N+1(N 个运行服务器和一个待机服务器)和 N-to-N(所有服务器都在运行服务)集群, 它对于将几乎全部应用和数据库进行集群有着重大的意义。现在常见的集群配 置是为每 8 个或更多运行通用应用和数据库的服务器配备一个“备用”服务器, 这可以减少计划内和计划外停机时间量。IT 管理员检测故障以及采取适当的措 施解决问题所花费的时间量可能会造成数小时的停机。应用或数据库或此二者 都停机时,用户无法访问数据。 适用于此方案的适用于此方案的 VERITAS 产品产品 VERITAS Storage Foundation /High Availability (VERITAS File System,Volume Manager 和 Cluster Server) RPO/RTO 详情详情 恢复点目标(Recovery Point Objective):能从什么位置开始恢复数据?在这 种设置下,集群一直使用共享存储系统,因此,当发生故障时 ,集群中的其他 服务器仍然能继续访问同样的数据。 恢复时间目标(Recovery Time Objective): 在原始的检测故障过程中需要 手工干预,然后采取相应的措施停止应用再在另一台服务器上启动应用,集群 降低了恢复时间目标。使这个过程自动化能够确保在发生故障时,应用或数据 库能够快速准确的切换到另一台服务器上。 成本比较成本比较 由于 IT 管理员不得不学习一种新技术,且要提供一台服务器用于故障切换, 所以实施包含任何集群技术的本地高可用性方案的成本增加了。但是,通常情 况下,停机时间的成本远远超过了采用能显著减少计划内、外停机时间的新技 术。再者,VCS 超越了传统思想中的 1 台服务器1 台备用服务器,这种模式 是第一代高可用性软件需要的方式。通过使用 N+1 集群,VCS 的成本更低, 例如,在 1 比 1 集群模式(一台主动服务器和一台备用服务器)下,服务器的 冗余成本是 100。如果采用 81 集群模式,冗余成本降低到 12.5。 客户案例客户案例 ICON Clinical ICON Clinical 是临床医学和生物业界的领先厂商,在全球提供杰出的药物研究 和生物计量服务。这些服务包括: 对交付药物的全部过程提供临床试验支持 使用自己的应用系统记录试验相关的全部专利/医师/药物信息。通过 ICON Clinical 电话系统或网络界面披露与试验有关的病人的信息,例如症状或每 日健康情况。这些信息是通过阶段 3 临床试验的关键组件。 数据中心信息 数据中心支持遍布五大洲的 14 个国家的 23 个办公室,超过 1500 个雇员。 收入信息 到今年为止,净收益增加 36,在 Q2FY03 期间,新增业务净收入 6700 万美元。 问题描述问题描述 Microsoft SQL 2000 数据库和用户应用系统需要保持 99.9%的系统可用性 向与临床试验相关的医师和病人提供 24x7 的服务 需要为已有的软硬件提供高可用性和灾难恢复的解决方 案 本地高可用性环境描述本地高可用性环境描述 操作系统:Windows 2000 Server 服务器:Compaq 和 Sun 存储器: Hitachi 应用系统: Microsoft Exchange 2000, SQL 7, SQL 2000, Citrix, 客户应用 系统 总存储量:300 GB VERITAS 产品产品 NetBackup Volume Manager Cluster Server Volume Replicator Global Cluster Manager 成功成功 集群超出了他们的预期: 需要一种本地高可用性和灾难恢复方案应对应用或服务器停机。本地和灾难 恢复站点都满足了他们 99.9% 系统可用性需求 需要一种能利用现有软硬件投资的方案应用和低端 Windows 服务器的 标准版本 易于通过 GUI 界面配置和管理 2 扩展集群(城域灾难恢复扩展集群(城域灾难恢复 / 区域集群)区域集群) 注意:一份单独的白皮书详细说明了区域集群(campus clustering)配 置,可以通过 VERITAS 网站查找 定义定义 扩展/区域集群(stretch / campus clustering)是一种扩展到两个以上站点 的集群,它使用光纤连接进行数据镜像和 集群通讯。 当企业在办公地点采用了 SAN 结构, 且要在短距离进行灾难恢复时,通常采用 这种典型结构。VERITAS 在华尔街的许 多客户已经搭建了区域集群,他们利用 VERITAS Volume Manager 镜像将数据 中心隔开几英里远,通过这种方式为本地站点故障(例如火灾、洪水或当地停 电等)提供了灾难恢复能力。另外,区域集群为扩展数据中心面临的有限增长 空间提供了持续的可用性。 环境环境 一个集群通过子网或 SAN 光纤通道,扩展到多个建筑、数据中心或站点 在建筑物、数据中心或站点最多可自由分配 32 个节点 本地存储系统在集群节点间相互镜像 使用 DWDM 的新数据交换机,能够支持长达 100KM 的距离 站点间的距离取决于存储网络基础架构 优点优点 区域集群对每个站点都提供了本地高可用性,防护站点故障。 成本效率,单一方案无需复制(采用远程镜像同步地将数据拷贝到 全部站点,零数据损失) 将应用和数据库的停机时间降至最低(自动或手动故障切换) 充分利用现有的 SAN 基础架构 外观和操作与配置本地集群环境很相似无需进行特殊的配置 防护单一故障地点发生的与气候相关的停电和电力网故障 允许数据中心扩展创建一个跨越站点的服务器、存储系统和应用的 单一逻辑群 允许跨多重网络进行故障切换(提供 DNS 升级)(可以通过咨询服务 按需定制 VCS 3.5 中的代理选件,这些代理选件包含在 VCS 4.0 基础产 品中) 缺点缺点 成本需要 SAN 架构光纤通道 距离受存储系统限制拥有足够性能的镜像存储能力 故障切换行为故障切换行为 例如:如果三台服务器在建筑 A 中,另外两台服务器在建筑 B 中,当对建 筑 A 中的一台服务器进行故障切换时,VCS 会尝试将应用切换到建筑 A 中的 另一台服务器上。如果建筑 A 内的服务器全部停机,所有服务都被切换到建筑 B 中。Volume Manager 利用远程镜像已经将数据保存在建筑 B 中。 何时考虑区域集群何时考虑区域集群 1. 您已经使用 SAN 光纤通道了么? 2. 两个站点之间的距离是多少?站点间相距 80KM 么? 3. 您想通过提供灾难恢复水平,将已经在光纤中投入的近百万美元的投资发挥 到最大限度么? 使用 VERITAS Volume Manager、FlashSnap 和 VERITAS Cluster Server,无需在软件和硬件上花费更多的资金就可以获得灾难恢复水平。 VERITAS Volume Manager 已经内嵌了在两个站点间提供镜像的技术。在远程 站点上同步保存数据的副本来保护数据,而应用和数据利用 VERITAS Cluster Server 保持高可用性。VERITAS Volume Manager 和 VERITAS Cluster Server 的有机结合能够提供数据和应用的可用性,这种可用性不仅用于本地数 据中心,也可在建筑物或站点发生停电、火灾或洪水等意外事件时提供灾难恢 复水平。 适用于此方案的适用于此方案的 VERITAS 产品产品 提供本地集群的相同产品: VERITAS Storage Foundation /High Availability (VERITAS File System、Volume Manager 和 Cluster Server) o建议: VERITAS FlashSnap VERITAS FlashSnap 提供了 快照技术套件,满足客户多种多样的 point-in-time 拷贝需求。 在区域集群环境中,FlashSnap 能够在建筑或阵列失效后,快 速恢复站点间的卷镜像。只要全部卷的镜像没有重新建立, FlashSnap 将跟踪所有写入存储系统的操作,以便通过增量方 式加速镜像卷的重新同步。 FlashSnap 提供了能将 point-in-time 拷贝导入到集群内其他节 点的功能,从而实现对数据的脱机处理。例如,在一栋建筑中 运行的数据库和应用,可以在灾备节点上运行报表实例。 RTO/RPO 详情详情 恢复点目标: 使用区域集群配置后,能将数据恢复到什么时刻的状态?使用 VERITAS Volume Manager 在两个站点间同步镜像,所以当主要地点发生站点 故障时,能在二级站点找到数据的准确副本。由于应用性能的考虑,VERITAS 建议二级站点不应超过 80KM 的距离。 恢复时间目标: 何时应用或数据能恢复在线运行?令这个架构充满魅力的地方 是快速的恢复时间和它提供的容灾保护水平。发生本地灾难(火灾、洪水等) 时,应用、数据库和数据等全部服务都将从一个站点切换到未受灾难影响的另 一栋建筑物中的站点。如果客户配置了本地集群的建筑遭受了灾难,配置了区 域集群的恢复时间目标仅需几秒/几分钟,而仅仅配置了本地集群则需要几天/数 周的时间。要考虑到配置新服务器、加载服务和装载数据所需的时间,以及闲 置用户和损失生产力的开销。如果办公地点已经建有基础架构,那么配置区域 集群具有明显的优点。 成本比较成本比较 实施这种方案能充分利用已经在网络基础设施上的投资,同时提供灾难恢 复水平。从本地灾难进行恢复的代价是惨重的,由于需要花费时间在另一个站 点重建配置,甚至可能会导致业务流失。这种架构涉及到配置 VERITAS Cluster Server and VERITAS Volume Manager,相对并不昂贵,轻度灾难恢 复解决方案便能够满足大多数灾难恢复需求。 客户案例客户案例 The Wellcome Trust The Wellcome Trust 是一个独立研究基金的慈善机构,于 1936 年根据 Henry Wellcome 爵士的意愿创办。基金来自私人捐赠,计划以长期稳定和逐步 增长的方式进行管理。它的任务是“鼓励和促进那些旨在改善人类和动物健康 的研究”,到这个为止,它支持“blue skies”研究和临床应用研究,它也鼓励 医疗进步方面的研究发现。 问题描述问题描述 The Wellcome Trust 管理 40 亿英镑的基金,所以公司需要不间断的业务, 即使在办公建筑发生事故时。 公司希望充分利用对基础设施的投资,利用现有的网络投资和公司资产配备 灾难防护水平。 客户不能负担超过 100 英里的另一个热站点 (hot site) 区域集群环境描述区域集群环境描述 集群内服务器的数量:6 个节点; 数据中心包含 50 多台服务器(两个数据中 心,每个站点一个) 服务器: Compaq 100 存储器: Compaq MSA1000 应用程序: Microsoft SQL,Microsoft Exchange,Custom Application 距离距离 大约 500 米 VERITAS 产品产品 Volume Manager Cluster Server Cluster Server agent for Microsoft SQL Cluster Server agent for Microsoft Exchange 成功之处成功之处 利用捆绑在 VERITAS Volume Manager 内远程镜像功能和 Cluster Server ,客户能够获得本地高可用性,并在不增加成本的情况下获得灾难防护水平。 由于一些与数据中心无关的原因,客户已经投资建立了光纤基础架构,实施这 个水平的灾难恢复则将对基础网络的投资发挥到极致。 3 城域集群(城域集群(METROPOLITAN CLUSTERING)的选择:基于数据复制)的选择:基于数据复制 的集群(的集群(RDC) 定义定义 RDC 是使用数据镜像的复制方法,在两个 站点间的扩展集群,使用 layer-2 网络连接进 行集群通讯。由于延迟对应用性能的影响,允 许的距离不像在广域网内异步 TCP/IP 方案那 样宽松,但是 RDC 确实为多种灾难恢复情况 提供了一种直接的单集群解决方案。 RDC 配置内的数据复制必须同步的,达到 自动故障切换的目的。(VERITAS 不希望在 异步环境中存在不一致数据副本的情况下,由数据集群做出自动故障切换决策。 异步复制时需要手动干预,以保证你确实想将集群切换到旧版本数据下的状态) 。现在,这种结构仅支持 Solaris、HP 和 Windows 系统。 Solaris:支持带有 VERITAS Volume Replicator 的 VCS,SRDF,和 Hitachi TrueCopy。 Windows 和 HP: 支持带有 EMC SRDF 的 VCS。这将在 VERITAS 发布的 4.0 版本(计划 2004 年发布 Q1 版本)中得到强化,在这个版本中,本地和远 程故障切换可以任意结合,并能够支持各种规模的集群。 与 RDC 相关的一个问题是何时考虑用这种方案替代含 VM 镜像的区域集群 方案。通常的准则是这样的:如果您没有 SAN 基础架构也不想对其进行投资, 但您能够为 VCS 运行专用的以太网,并进行同步数据复制,这时就可以采用基 于数居复制的集群(RDC)架构了。在大多数案例中,如果已经建立了 SAN, 区域集群是更好的选择,因为卷镜像已经包含在 VERITAS Volume Manager 中,无需再投资购买复制软件。另外,在任何情况下,镜像功能都比通过 IP 网 络进行同步复制的性能优越。 环境环境 最少两台服务器每个被复制的存储系统处有一台服务器 集群通过以太网(IP)连接在多栋建筑、数据中心或站点展开。 本地存储系统在每个地方的集群节点上进行同步复制。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论