某公司灾难恢复技术方案.doc_第1页
某公司灾难恢复技术方案.doc_第2页
某公司灾难恢复技术方案.doc_第3页
某公司灾难恢复技术方案.doc_第4页
某公司灾难恢复技术方案.doc_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

某某公司某某公司 灾难备份系统集成项目灾难备份系统集成项目 技术响应文件技术响应文件 1 目目 录录 1 1 项目简介项目简介4 1.1 项目概述.4 1.2 项目目标与原则.4 1.2.1 项目目标4 1.2.2 项目建设原则.5 1.2.3 项目建设内容.8 2 2 技术方案描述技术方案描述.9 2.1 技术方案设计.9 2.1.1 用户现状分析.9 2.1.2 技术方案设计原则.9 2.1.3 技术方案拓扑图.10 2.1.4 技术方案概述.11 2.1.5 技术方案优势总结.12 2.1.6 灾难恢复方案.12 2.1.6.1 关键业务系统中普遍存在的问题14 2.1.6.2 实施业务连续性方案的意义15 2.1.6.3 惠普灾难恢复方法17 2.1.6.3.1 什么是容灾系统.17 2.1.6.5.2.3 某某公司系统数据容灾的远程复制18 2.1.6.4 容灾系统的管理 .19 2.1.6.4.1 组织机构.19 2.1.6.4.2 管理制度和操作规程.20 2.1.6.4.3 灾难的预防.20 2.1.6.4.4 灾难恢复计划的测试、试运行和维护21 2.1.6.5 培训测试及维护 .22 2.1.6.5.1 培训.22 2.1.6.5.2 测试灾难恢复计划.22 2.1.6.5.3 测试方法.23 2.1.6.5.4 测试的频率.23 2.1.6.5.5 可能引起变化的因素.23 2.1.6.5.6 测试流程的制定.23 2.1.6.5.7 维护.24 2.1.6.6 惠普公司容灾实施服务内容25 2.1.6.6.1 方案实施核心服务(core service) .25 2.1.6.6.2 方案实施增值服务(value-added service)27 2.1.6.7 客户收益 .29 2.1.6.8 hp 容灾解决方案优势.29 2.1.6.9 产品配置 .30 2.2 软件系统方案.32 2 2.2.1 实现容灾系统的软件配置.34 2.2.2 数据复制模式及实时性.35 2.2.3 容灾数据的使用.36 2.2.4 容灾数据的一致性.37 2.2.5 容灾方案的恢复时间及恢复点.38 2.2.6 系统升级39 2.2.7 vxvm及vvr复制对系统的性能影响.40 2.2.8 容灾技术对照.41 2.2.9 symantec/veritas系统实施案例42 2.3 hp eva8400 磁盘阵列特性.43 2.3.1 eva8400与ibm 4800的比较优势:.44 2.3.2 概述48 2.3.3 新特性.48 2.3.4 功能与优势49 2.3.5 虚拟化概述:.50 2.3.6 软件解决方案.52 2.3.7 eva8400的保修服务53 2.3.8 技术规格55 2.4 灾备管理及应用服务器.56 2.4.1 设备选型56 2.4.2 机架式服务器配置设计.57 2.4.3 机架式服务器选型.57 2.4.4 惠普服务器管理系统.60 2.4.4.1 虚拟连接管理 .60 2.4.4.2 服务器系统管理软件67 2.4.4.2.1 远程管理及控制.67 2.4.4.2.2 分发及部署.68 2.4.4.2.3 安全管理.68 2.4.4.2.4 虚拟环境管理.68 2.4.4.2.5 性能管理.68 3 3 惠普技术服务实施方案惠普技术服务实施方案69 3.1 技术服务实施计划.69 3.1.1 技术服务实施概述.69 3.1.1.1 技术服务实施总体要求69 3.1.1.2 服务范围和服务内容69 3.1.2 项目人员组成.70 3.1.2.1 项目组织结构图 .70 3.1.2.2 惠普项目组成员职责70 3.1.3 服务实施计划进度表.71 3.1.4 服务准备阶段.72 3.1.5 技术服务现场实施阶段.73 3 4 4 培训服务培训服务 78 4.1 培训服务内容.78 4.2 课程介绍.79 4.2.1 eva磁盘阵列管理培训79 4.2.2 备份系统培训.80 4.2.3 灾难恢复培训.80 5 5 技术支持与售后服务技术支持与售后服务81 5.1 中国惠普技术支持机构分布状况.81 5.1.1 惠普上海支持中心及主要成员介绍.81 5.2 设备质保期内售后服务方案.82 5.2.1 保修内容82 5.2.2 保修期内服务流程.84 5.2.3 保修期内紧急故障处理流程.85 5.3 保修期后服务内容.86 5.3.1 基于服务器或存储设备的软硬件支持服务.87 5.3.2 基于服务器或存储设备的主动式服务.90 5.3.3 可订购的技术服务.90 5.3.4 设备质保期后服务价格.92 5.4 免费技术支持.92 6 6 设备清单设备清单 93 4 1 1 项目简介项目简介 1.1 项目概述项目概述 随着社会飞速发展,在越来越多的企业实现了数据、应用大集中以后,数 据的安全、业务的连续性等就成了企业管理者必须认真思考的问题。自然灾害、 人为失误,这些大大小小、似乎是防不胜防的灾难事件给我们的正常生活和工 作带来了许多负面的影响,比如经济损失、信誉受损,甚至可能导致企业倒闭。 为了避免或者尽量减轻这些事故或者灾难对业务的影响,企业必须建设完善的 数据备份及灾难恢复系统。 灾难恢复对企业而言,已不再以单纯的 it 环境为对象,而是将快速恢复整 个业务流程及运营作为最终目的,其中的关键,就是恢复核心数据及关键业务 应用的运行。所以,企业的灾难备份策略,要围绕“快速恢复整个业务流程及运 营”这个最终目的。 而灾难备份方案,则要紧紧扣住“恢复核心数据及关键业务应用的运行”这 个关键点。首先是数据级的灾难备份与恢复,紧接着是主要业务应用的灾难备 份与恢复。 灾备系统应能达到:一旦主系统出现问题,能在数秒钟内自动而正确无误 地切换到灾备系统,保持整个系统继续运行;待主系统修复之后能很方便地复 原,使整亇系统继续正常运行。 1.2 项目目标与原则项目目标与原则 1.2.1 项目目标项目目标 结合某某公司 it 基础架构的现状,规划将 ibm 4800 上的数据容灾至容灾 5 中心的新磁盘阵列上。具体需要实现以下具体目标: (1)高可靠性保障 系统数据容灾之后必须保证其正确性和完整性,不能有任何数据丢失,尽 可能减少业务系统的停机时间。 (2)高性能设计 新的存储上线后将面临大量的用户业务请求,和不断新增的业务内容,用户 同样不能忍受任何性能瓶颈,因此要求提供的存储设备是在大吞吐量以及海量 数据环境中具有高性能设计的产品。 (3)高扩展性 系统数据量在未来会有不断增长,因此要求提供的存储设备具有容量以及 处理能力上无缝的扩展能力,存储设备的初始容量要能够满足未来 3-5 年的数 据存储要求。 (4)数据安全性 磁盘、raid 级别的故障,业务不中断,数据不丢失;阵列级别的故障, 业务中断不超过 1 小时,数据不丢失;机房级别的故障,业务中断时间可预见, 数据丢失为分钟级;发生误删除、病毒等逻辑错误,数据在小时级别恢复; (5)高效易管理性 通过灵活高效的灾难恢复技术,可以将灾难恢复系统设备和灾难恢复流程 统一的管理起来,降低管理的复杂度,满足系统对恢复点目标和恢复时间目标 的要求。 1.2.2 项目建设原则项目建设原则 在系统的建设过程中,我们遵循的建设原则是: 统一规划,分步实施,目标明确;坚持科学性、先进性、实用性、可靠性 和标准化等原则;调动各方面的积极性;制定严格的网络安全机制、用户使用 原则和违约处理原则;特别强调应用与服务。 (1)统一性原则 为了能够更好地实施某某公司灾难恢复系统,我们坚持某某公司统一领导 6 的原则;根据实际业务流程和管理范围,对系统规划、系统实施进行统一的部 署;系统建设要统一组织实施,即体现在主要业务软件统一开发、使用人员统 一培训等方面。 (2)持续发展原则 工程设计方案应立足当前,着眼长远;适应电信设备进网管理系统业务发 展的需要,树立全局意识;进行统一、长远的规划,逐步实施。 (3)科学性原则 应用系统的设计遵循科学性原则,包括数据结构和标准体系要符合办公系 统信息的内在逻辑体系,同时,要充分考虑人的的认知结构。 选用适用的标准和科学的方法是本方案遵循的科学性原则。 以软件工程理论以及当前软件开发技术的理论为基础,应用系统架构完全 采用这些已经得到实践证明的科学技术,以科学理论为准绳,来指导我们的系 统设计和开发工作。 (4)标准化原则 系统建设将遵守国际标准、国家标准及行业标准,使系统具有良好的兼容 性。 从计算机技术和网络技术以及通信技术的发展来看,标准化无疑是技术突 飞猛进的一个重要因素,只有采用标准化的技术和标准化的协议才能和国际接 轨,才能和全球信息高速公路接轨,交换数据和信息资源,才能保证系统的开 放性。 系统平台的选型、系统的接口、数据库标准等等必须采用相关的国际标准、 国家标准。没有国际、国家标准的地方根据应用的要求需要制定自己的标准, 以保证将来系统的扩展性。 系统平台必须采用国际标准的数据库来实现空间数据的管理,对各类应用 服务提供标准的服务接口和规范,支持开放性技术,以方便不同应用需求。保 证设计实现的质量,以及便于日常维护和系统的扩展。 系统应建立完备的数据标准,数据的组织应符合相关主要国际和国家标准; 对于未有明确规范的部分,则建立自己的标准并予以规范。 7 (5)先进性原则 系统开发需采用成熟的高新科技,以目前较为先进的方法实现需要的功能, 既反应当今科技的先进水平,又具有发展潜力。 (6)实用性原则 实用性就是能够最大限度地满足实际工作要求,是每个信息系统在建设过 程中所必须考虑的一种系统性能,它是自动化系统对用户最基本的承诺。所以, 从实际应用的角度来看,这个性能更加重要,为了提高办公自动化和管理信息 系统中系统的实用性,应该考虑如下几个方面: 系统总体设计要充分考虑用户当前各业务层次、各环节管理中数据处 理的便利性和可行性,把满足业务需求作为第一要素进行考虑; 采取总体设计、分步实施的技术方案,在总体设计的前提下,系统实 施中可首先进行业务处理层及管理中的低层管理,稳步向中高层管理 及全面自动化过渡,这样做可以使系统始终与用户的实际需求紧密连 在一起,不但增加了系统的实用性,而且可使系统建设保持很好的连 贯性; 全部人机操作设计均应充分考虑不同用户的实际需要; 用户接口及界面设计将充分考虑人体结构特征及视觉特征进行优化设 计,切合实际的了解工作人员和用户的使用习惯,界面尽可能美观大 方,及具有良好可操控性。 (7)可靠性原则 系统设计时,首先考虑选用稳定可靠的产品和技术,使其具有必要的纠错 能力,并且适合计算机网络通信技术的更新换代。各应用系统的运行,365 天 不间断,要求系统能长期稳定可靠地工作。在系统发生故障时,要有及时有效 的备份办法处理,使其不影响其它应用系统的运行,保证系统数据不丢失和迅 速恢复。 (8)可扩展性原则 计算机技术、网络技术、通信技术正处于一个不断飞速发展的时期,随着 公司信息化建设的不断推进,所涉及的业务的需求会不断的飞速上升,可以预 8 料需求也是不断增长变化的。在软件结构设计过程中,必须充分考虑未来信息 的增长趋势,尽量选用可升级的结构,为系统功能的扩充和技术的平滑升级提 供极大的方便。因此整个系统的建设要遵循可扩展性的原则:系统适应灵活多 变的业务逻辑,充分发挥数据与应用逻辑相分离的思想,适应用户不断变化的 业务和功能上的拓展。系统具有安全方便的移植能力,为用户系统的升级提供 保证。 另外,服务端的发展是有一个过程的,相应的负荷也是一个由小到大的过 程。按最经济的原则,将系统规划成一个扩展性很强、且在扩容升级时浪费最 少的系统。遵循开放性原则,能够支持多种硬件设备和网络系统,软件支持二 次开发。应用系统采用标准数据接口,具有与其他信息系统进行数据交换和数 据共享的能力等。 应用软件顺应当今软件设计发展方向,采用浏览器服务器(b/s)结构和模 块化设计,采用模块化,标准二次可开发的组件设计思路保证所设计的内容具 有最好的可扩展性。 (9)安全性原则 在线业务系统的特点决定了安全性将是软件系统设计中首要考虑的因素。 系统操作权限要有严格设定,数据库的安全措施是保证系统的安全运行的基础。 除了在硬件/网络、操作系统、数据库一级提供可靠的安全保密措施以外,上层 应用系统的设计也必须进一步强化确保用户数据在存储、传输、查询等过程中 的绝对安全,杜绝非法用户未经授权地对数据进行修改和操作数据 (10)可管理原则 系统应具备安装快速简捷、配置方便容易、使用简单方便等特点。系统用 户的素质千差万别,系统建成后,一定要适用于广大的系统使用人员。 1.2.3 项目建设项目建设内容内容 项目建设内容包括: 在灾备中心建设一套系统的数据级别灾难恢复系统,防范本地机房站 9 点级灾难,同时开发一套数据级灾难恢复计划,并做相应的灾难恢复 演练和灾难恢复培训,规范后续灾难恢复计划的管理、维护和更新。 购置一套高性能、高可靠性、高可扩展性磁盘阵列 eva8400,用于容灾 中心。 2 2 技术方案描述技术方案描述 2.1 技术方案设计技术方案设计 2.1.1 用户现状分析用户现状分析 某某公司在本地本地和异地均有服务器和交换机,本地和异地之间, 通过光纤连接,在本地有一台 ibm 4800 存储,现在需要在异地新购一台存储 设备,以实现本地和异地之间的存储容灾。在本地灾难发生时,使数据和应用 在一定时间内, 2.1.2 技术方案设计原则技术方案设计原则 根据我们对某某公司灾难恢复系统建设需求的了解和以往实施各大型项目 的经验,我们认为,本系统在规划和设计过程中,应遵循以下一些原则: 开放性和标准性 考虑到存储系统未来引进新的业务系统,使用的通信协议和数据格式都有 可能不同,因此,系统须支持多种标准的通信协议和数据格式,并完成数据格 式的统一转换。同时,系统采用的计算机网络体系结构以及通信协议要符合国 家安全标准要求。我们将依据国际标准和国家标准,为用户建立一个开放、完 善的系统,有效地保护用户投资。 成熟性与先进性 系统要真正发挥出作用,首先必须能够稳定、正常地运行,这就需要建立 在成熟的技术基础之上。而在兼顾系统 10 成熟性的前提下,采用业界先进的技术,才能保证系统的先进性,使计算机系 统发挥最大的效率,并随着技术的不断发展得到相应的更新。 可靠性与可用性 采用计算机系统的目的就是为了提高工作效率,更好地实现本工程的各类 建设目标。因此在系统的设计过程中,我们将努力采用各种先进技术来加强系 统的高可靠性和高可用性,以保证系统连续、正常地工作。 可扩展性 根据某某公司业务发展的要求,现有系统的设计必须具有一定的扩展能力, 留有升级的余地,以满足业务的发展和快速、方便的联网。我们将采用结构化、 开放的、易于扩展的体系结构,在充分利用现有资源、保护现有投资的前提下, 保证系统的可扩充性,适应业务的持续发展需要。 安全性和保密性 建设系统软、硬件的选型和建设模式的制定都必须充分考虑采用成熟、可 靠的产品和技术措施,保证系统的安全。同时在通过采用各种手段保证敏感信 息的安全。 易操作性和可维护性 现代计算机系统越来越复杂,这就对操作管理人员提出了更高的要求。一 个技术再尖端的计算机系统,如果用户不能自如地进行操作管理,也不可能成 为一个好的系统,甚至会导致系统仅仅成为一个摆设。因此,我们的系统将贯 彻面向最终用户的原则,建立友好的用户界面,使操作简单、直观、灵活,易 于学习掌握,便于用户使用和管理,以发挥系统的最大实际效益。 2.1.3 技术方案拓扑图技术方案拓扑图 根据某某公司系统灾难恢复要求设计的架构如下图: 11 veritas volume manager e ev va a8 84 40 00 0 备备用用 2.1.4 技术方案概述技术方案概述 结合系统对灾难恢复数据级容灾的要求, 该方案采用新购买一台高性能的 eva8400,做为对原有的 ibm 4800 的容灾,采用 dl580 服务器作为灾备管理的 应用服务器,采用 veritas 的 veritas volume manager 软件,做为两台阵列之 间的容灾软件。 存储和备份系统设备配置方案如下: 设备编号设备编号设备名称设备名称数量数量备注备注 1磁盘阵列1 台 hp eva8400,32 个 300g 15k fc 硬盘, 配管 理小家电,配 cv 管理软件 10t 容量许可证,10 根 15 米的 lc 到 lc 接口的光纤线,原厂机柜。 3 年 7*24 小时级别服务。 2容灾软件1 套veritas veritas volume manager 软件。 3灾备服务器8 套hp dl580r05 12 2.1.5 技术方案优势总结技术方案优势总结 惠普灾难恢复解决方案针对 it 系统对于企业业务起关键作用的客户以 及监管审计机构对业务连续和灾难恢复有明确要求的客户量身打造, 涵盖电信、银行、税务、电力、社保、保险、证券、基金、制造业等 重点行业。业务连续和灾难恢复解决方案是惠普公司专为希望采用远 程灾难恢复的方式实现关键业务数据保护的企业用户提供实施帮助而 设计的,它通过惠普公司业务连续专家,项目管理专家和一系列经过 验证的分析、设计、实施以及测试服务步骤为您提供全面和详尽的容 灾方案部署和应用,并帮助客户从技术、流程、人员三方面提高业务 持续能力,保证企业的正常运作和发展,其服务内容主要涵盖高可用 的信息技术基础平台建设、日常运作流程设计、突发事件管理、大型 灾害的应对计划和策略以及业务持续性管理团队建设与咨询、应急指 挥中心和通讯系统等。 hp eva8400 企业虚拟阵列旨在为大中型企业市场中的客户提供领先 的高性能、高容量和高可用性“虚拟”阵列存储解决方案。 与传统架 构的存储相比,这些解决方案不但可以降低 it 成本和复杂性,而且可 以节约时间、空间和总体拥有成本。eva 专为迫切需要提高存储利用 率和可扩展性的数据中心而设计,能够提供始终如一的高性能交易 i/o,满足具体应用的需求,可轻松进行容量扩展,同时还提供即时复 制功能和简化的存储管理功能。 2.1.6 灾难恢复方案灾难恢复方案 惠普公司为上海制造厂提供的灾难恢复方案具有以下特点和优势:惠普公司为上海制造厂提供的灾难恢复方案具有以下特点和优势: hp 根据二十多年业务连续和灾难恢复建设经验总结归纳了业务连续 和灾难恢复建设方法论,可以系统的指导容灾系统的建设 完整详尽的数据远程备份和灾难恢复方案,惠普能够提供从服务器、 13 网络、存储、san、监控、远程集群等全面解决方案。避免容灾实 施只是片面实施了存储复制 容灾实施内容包括技术、流程、人员三个方面,并可以协助用户制 定灾难恢复计划(drp) 大量实施案例,经过验证的容灾系统实施和支持能力,丰富的实施 经验和人员,强大的专人支持 hp 全球超过 5000 名关键系统支持工程师和 600 名通过认证的 san 工程师。 hp 公司目前在中国有 40 名售前技术工程师,70 名资深的技术咨询工程师,和 超过 300 名有丰富经验的安装调试人员和故障处理工程师,并有 20 多位容灾咨 询顾问和多位通过国际容灾协会认证专家。 以 xp/eva 为基础的灾难恢复解决方案作为惠普公司成熟的数据保护解决 方案之一,已经在国内为许多用户进行安装运行。我们希望利用最好的资源协 助某某公司建立灾难恢复/恢复系统,并且在日常的维护中给予及时的响应,确 保整个系统实施和运转正常。 在今天的科技社会中,it 技术的运用已经渗透到了我们生活和工作的各个 层面,为我们带来了以往任何一次技术革命都没有的便利和迅捷,可以说,由 于采用了 it 技术的新的生产方式已经基本上代替了原来的生产方式,成为现代 社会运作和发展的主流,我们对计算机系统的依赖超过了以往任何一种技术。 然而计算机系统在为业务的迅猛发展提供信息技术基础架构的同时,也带 来了以往我们不曾发觉的负面因素。例如由于信息和处理的高度集中使业务运 转过度依赖于 it 系统,并会因为 it 系统的突发问题而受到很大影响,严重的 甚至可以导致业务系统无法正常进行。这些问题包括了进行系统检修和升级带 来长时间的系统停机,系统自身的或者人为的因素或事故发生连锁性的扩大, 以及不可预见的故障和突发性灾难等等。 如何避免业务运转受到影响,或者使业务影响尽可能降到最低,这是每一 个企业管理者必须考虑和重视的问题。某某公司经过长期的思考,如何切实有 效的保障综合营帐等关键业务系统的连续运行已经成为某某公司管理层十分关 14 注的问题。 本方案涵盖高可用的信息技术基础平台建设、日常运作流程设计、突发事 件管理和大型灾害的应对计划和策略,业务持续性管理团队建设和咨询等诸多 方面的服务,可以帮助客户从技术、流程、人员三方面提高业务持续能力,保 证企业的正常运作和发展。 2.1.6.1 关键业务系统中普遍存在的问题关键业务系统中普遍存在的问题 提高 it 系统的高可靠性以及 it 系统的容灾建设早已不再是新鲜的话题了, 随着许多电信运营商用户实施业务系统大集中,针对 it 系统的高可靠性和容灾 能力的需求日渐突出,很多电信运营商都已经实施了有针对性的容灾系统,并 且更多讨论的是如何实现业务数据的有效保护和电信业务的连续性运行。 然而,目前大多数容灾系统的建设还是存在许多问题的。这些问题中不仅 有技术层面的缺陷,更多的是在流程和人员方面的不足。这些问题可能导致的 直接后果就是当发生灾难时,根本无法实现应用系统的快速恢复,甚至可能导 致业务运转的长时间灾难性中断。我们可以列举出其中的一些: 1 仅从产品功能层面考虑问题,最终建设的容灾环境仅是一个多种 产品的堆积。仅实现了数据的远程复制或者离线存放,没有进行灾难的各 种场景测试和灾难预演,并缺乏灾难恢复机制和危机应对流程。发生灾难 时,不知道到底数据或者系统能否恢复正常。 2 进行了一定的测试和预演,但是缺少相应的灾难恢复计划和特殊 情况下的行动指南,更没有全面的业务连续性计划。在真正发生灾难时, 百废待兴、千头万绪的情况下,没有依据和参考,可能无法顺利进行有关 操作。 3 有了灾难恢复计划等必要文档,但是没有及时的将 it 系统,业务 流程和管理人员等不断变化的信息更新,导致容灾手册成为一纸空文。 4 具备了以上的要素,但是容灾系统的建设局限在 it 部门,缺少业 15 务部门的参与和管理高层的介入和全力支持。发生灾害时,it 系统能够恢 复但是业务流程仍无法恢复运转。 除了以上列出的问题之外,还有许多问题如容灾系统的负载能力估计不足, 实施过程中没有严格遵循高可靠标准,实施过程工作界面过多沟通不足,日常 运维管理方面存在不足和漏洞,缺少厂商、系统集成商的后续支持服务等等都 可能导致业务持续性系统建设的失败。 除了以上的问题之外,另一类问题是项目小组仅将目光放在了大型灾难等 突发事件的应对之上,而忽略了计划性停机对业务运行的影响。根据有关统计, 非计划性停机只占 13%的停机概率,而在非计划停机中大型自然灾难占的比例 就更低了。所以在项目实施时,未能很好的优化现有系统和流程,没有充分发 掘现有潜力,未能将日常操作流程和业务持续性目标充分整合,虽然实现了容 灾但是仍没有从本质上解决持续性问题。 hp 公司提供的业务连续性解决方案是基于 hp 公司长期的实践经验和业界 公认的业务持续方法论(bcp) ,结合客户的具体实际情况,采用业界先进成熟 的产品和技术,由资深顾问和技术专家构成的实施小组遵循 it 服务管理 (itsm)理念进行实施。充分考虑了以上普遍性问题,保证了项目目标的成功 实现,同时 hp 公司可以提供整个容灾项目的整体解决方案单点后续支持服务, 这一点完全不同于业界其他友商仅能提供单一产品支持的服务模式。 2.1.6.2 实施业务连续性方案的意义实施业务连续性方案的意义 某某公司业务发展的速度是非常惊人的,这点可从业务连续多年快速的发 展反映出来。这样的飞速发展使某某公司在单位时间内的盈利水平不断提高, 因此,业务的间断直接意味着收入损失;另一方面,提供高可靠性、高水准的 客户服务也是某某公司保持竞争能力和市场份额的重要手段;随着支撑某某公 司业务运营的 it 系统建设的不断发展,某某公司在享受 it 支撑系统带来的高 效率、高盈利的优势的同时,其业务运作也更加依赖于 it 系统的稳定运行,其 结果是,一旦发生大的灾难,it 系统及其所支持的关键业务系统将处于瘫痪, 16 用户信息、运营数据等也随之丢失,这样的后果,显然是某某公司不愿意看到 的。所以某某公司对其计算机业务系统的连续运行,业务系统、业务数据的高 可用性以及业务计算机系统抵御灾难能力的要求也必然急剧提高。 综上所述,某某公司建设灾难备份中心有如下的意义: 重要业务数据在灾难发生后得以保护。 重要业务在灾难发生后可以在一定的时间内恢复,连续运行。对 于 hp 提供的方案,即使在本地的 ibm 4800 发生宕机,数据仍可持续进行 读写,完全不影响业务的进行,切换时间为零。 业务计算机系统抵御灾难的级别提高。 提升了关键业务系统的高可用性,减少计划性停机对业务的影响。 进一步提高某某公司在行业中的声誉,增强客户及潜在客户对企 业的信心。 增加对竞争对手的优势。 eva 8400 较之 ibm 4800,性能指标上更加先进(具体见本方案 第 44 页“eva 8400 与 ibm 4800 优势比较表” ) 。能使容灾系统地高性能 运转。 17 2.1.6.3 惠普惠普灾难恢复方法灾难恢复方法 2.1.6.3.1 什么是容灾系统什么是容灾系统 容灾系统是业务永续运行的重要的组成部分。所谓灾难,通常是指引起关 键业务的信息服务中断,且中断的时间及造成的损失超出企业所能承受的范围 之外的意外情况。引起灾难的因素很多,可以是系统环境中的软件、硬件故障, 有意或过失的人为破坏,还可能是因火灾、飓风、地震而引起的数据处理设备 的损坏等等,只要造成了关键业务的中断,都是灾难。而容灾就是通过预先建 立的备份中心、备份设备和备份数据等,在可以容忍的时间内恢复业务系统的 正常运行,将企业因业务中断而导致的损失降低到预定的程度。 相对于业务永续运行来说,容灾强调的是企业的关键业务在灾难发生时的 应对能力和恢复能力,即通过尽可能快速的、全面的企业业务恢复运作,将因 灾难造成的损失降低到最小程度。显然,它并不保证业务的零间断能力;实际 上,容灾系统的整个灾难恢复过程必须会造成一段时间的业务中断。另外,也 正是因为可以容忍一段时间的业务间断,所以其实施难度、周期和规模都要远 远小于实现业务持续性系统的建设。 从广义上讲,任何提高系统可用性的努力,都可称之为容灾。本地容灾, 例如主机集群:当某台主机出现故障,不能正常工作时,其他的主机可以替代 该主机,继续进行正常工作。而我们平时讲到的容灾,尤其是值得重视的容灾, 一般都是指远程容灾。远程容灾可以这样理解:在各行业企业用户的 it 系统中, 必然有一部分(尤其是核心部分)是非常重要的,我们叫它生产中心。人们往 往给生产中心配备一个备份中心,该备份中心是远程的,并且在生产中心的内 部,已经实施了各种各样的数据保护。不论采取什么方式进行保护,当火灾、 地震这类突发性灾难发生时,一旦生产中心瘫痪了,备份中心将能接管生产系 统,继续提供网络服务。比如,全国铁路调度中心网络系统,当发生火灾、地 18 震等灾难性事件时,该系统仍要保持正常进行,不能因为调度中心出现灾难性 事件,全国的铁路系统就处于瘫痪状态,让灾难不合理地蔓延。 我们认为,一个有效的高可靠性计算环境应该能够做到: 数据中心任何计算机系统硬件,软件及应用的单点故障将不会影 响整个数据中心的处理工作; 数据中心由于灾难(火灾、地震、断电)等原因无法工作时,应有 一个备份数据中心能够迅速接管关键应用,继续运行; 主数据中心恢复后,应用系统、业务数据应能迅速切换回主中心 运行。 2.1.6.5.2.3 某某公司系统某某公司系统数据容灾的远程复制数据容灾的远程复制 通常说来,对于远程灾难恢复方案建议用户建立两个数据中心,主中心和 备份中心。正常情况下,应用运行在主数据中心的计算机系统上,数据也存放 在主中心的存储系统中。当主数据中心由于断电,火灾甚至地震等灾难无法工 作时,则立即采取一系列相关措施,将网络、电话线路切换至备份中心,并且 利用备份中心计算机系统重新启动应用系统。 而这里最关键的问题就是切换过程时间最短,同时尽可能保持主数据中心 和备份中心数据的连续性和完整性。而由于财务数据的重要性,如何解决主、 备中心数据库数据备份,恢复则是灾难恢复方案的重点。 传统的磁带备份方式一般采取定点备份,而当系统崩溃时。距最近一次备 份时间之间的数据将全部丢失。无法恢复。而且磁盘备份、恢复时间比较长由 于速度馒,缺乏实时性,无法满足用户大数据量数据恢复及数据库连续性,实 时性的要求。 而现在流行的灾难恢复方案主要是采用实时的数据备份的方式。它的主要 原理是通过通信线路,实时地将主中心更新数据拷贝至备份中心存储系统中, 保证主、备中心数据的实时一致性。当主中心无法工作时,备份中心可以立即 接管业务,并且确保数据的最大完整性。根据用户现状,其主要实施方法有: 19 a.通过高端存储阵列容灾:例如 ibm 的 erm 镜像软件,可以实 现主数据中心和备份中心的操作系统、文件系统、数据库的实时拷贝维护。 不占用主机 cpu,内存,i/o 资源,其缺点是本地的存储设备一旦发生损 坏,则容灾中心的容灾存储设备不能实时启动,本地灾难发生后,必须断 开与远程的链接,且由于容灾中心的数据均为裸数据,所以重新启动应用 需要一定的时间,视数据类型的不同,此切换时间,在数分钟至数十分钟, 且在此时间内,会发生数据丢失现象。 b.采用 veritas 的 storage foundation 软件,同时将数据写到本 地和远程的数据中心。采用这种方式与应用和存储都无关,可实现异构存 储且不需修改应用,分别使用 hp eva 8400 和 ibm ds4800 的其一部分的存 储空间通过 veritas storage foundation 进行磁盘卷的镜像。使得 ibm ds4800 发生得任何失效,最后一刻的数据都在数据容灾中心的 hp eva 8400 磁盘存储上存在。并且如果服务器并未发生停机,则所有应用皆可正 常运行,没有任何的停机及切换时间存在。 容灾方式比较采用 ibm 4800采用 hp eva8400 加 veritas 软件 数据丢失本地存储宕机后,数 据可能产生丢失 本地存储宕机后,数据 不丢失。 应用启动时间本地存储宕机后,异 地启动应用,需要一 定时间,从数分钟到 数十分钟不等。 本地存储宕机后,所有 应用均可正常运行,没 有任何的停机及切换时 间存在。 存储ibm 4800指标更优秀的 eva 8400 20 根据某某公司系统的现状,我们认为采用采用根据某某公司系统的现状,我们认为采用采用 veritas volume manager 进进 行异构系统的容灾方案才是符合某某公司实际需求行异构系统的容灾方案才是符合某某公司实际需求。 2.1.6.4 容灾系统的管理容灾系统的管理 2.1.6.4.1 组织机构组织机构 容灾备份系统需要由专门机构(指定现有相关部门或者设立新机构)负责 日常的管理、维护、以及灾难发生后的系统恢复等工作。该机构的主要职责、 职能主要包括: (1)备份系统的日常维护工作,确保当前备份系统是正常、有效的、以 及数据备份的完整性、一致性; (2)测试及研究工作。测试工作包括对当前备份系统、备份数据有效性、 可用性的测试、以及对应用软件的升级测试等;研究与容灾备份相关的技术方 案优化以及相关制度、规程的完善; (3)日常管理、协调职能。负责本部门的日常管理工作,并负责与主用 中心、以及相关方面的协调工作; (4)灾难发生后的系统恢复以及生产组织职能; 2.1.6.4.2 管理制度和操作规程管理制度和操作规程 容灾备份系统的管理、维护、系统恢复、生产组织等需要完善的管理制度 和严密的操作规程予以约束、规范,以确保备份系统的可用性和生产恢复的有 效性。 在建设容灾备份系统的同时,应结合自身情况建立并不断完善相关的管理 制度、操作规程,其中包括: (1)容灾备份工作的领导与组织分工; 21 (2)容灾备份中心机构的职能、职责;人员岗位责任制度; (3)日常维护管理制度和操作规程; (4)测试管理制度;(包括备份系统有效性测试、应用软件升级测试等) (5)灾难/故障的监测与分析、报告制度、以及审批流程规定; (6)系统恢复/切换的操作流程和规范; (7)备份系统恢复运行后的生产组织制度;(其中应包含数据的安全与 备份) (8)主用系统重新恢复工作的管理与组织制度。 2.1.6.4.3 灾难的预防灾难的预防 系统容灾应包含灾难预防的内容,即研究相应对策将灾难带来的损失降低 到最小程度,这包括: (1)系统技术设计方案的不断优化,在不断提升系统自身安全可靠性的 同时,使系统和数据备份的实施、管理、操作更简便、运行更可靠; (2)容灾备份策略和技术方案的不断完善,不断提高备份数据的一致性、 完整性,缩短系统运行中断的时间; (3)相关管理制度、操作流程和规程的不断完善、改进; (4)努力减少系统的安全隐患; (5)可能也包括备份系统机房地点的合理选择等。 2.1.6.4.4 灾难恢复计划的测试、试运行和维护灾难恢复计划的测试、试运行和维护 通过测试、试运行可检验灾难恢复系统功能是否达到设计要求。测试和模 拟试运行可以检验灾难恢复计划文档资料的完整性,恢复策略的正确性,可以 提高工作人员的操作熟练程度。应选择适当的灾难恢复计划测试策略。通过测 试可以提高灾难恢复计划的质量,改进灾难恢复过程,可以使相关部门配合有 序,同时由于应用系统环境如系统环境、网络配置、应用系统恢复的优先级不 22 断变化,灾难恢复计划也应随之进行修改。 23 2.1.6.5 培训测试及维护培训测试及维护 经过努力建立起的灾难恢复计划系统,某某公司必须通过内部培训和周期 性的测试才能为各层次参予人员所了解、掌握。同时随着某某公司 it 数据中心 业务的不断完善和发展,各方面的条件和情况亦会变化,因此还需要有稳定可 靠的维护。 2.1.6.5.1 培训培训 成立专门的灾难恢复计划小组; 选定一些对业务或技术非常熟悉的关键人员作为灾难恢复小组参予 人员。以保证在危机处理的正确、高效。 制定培训计划: 让大家了解项目的背景,以及各人在灾难发生时的相应责任,应掌 握的知识与技能; 计划培训进度与日程; 协调各相关部门负责人,保证培训时间; 管理培训质量。 2.1.6.5.2 测试灾难恢复计划测试灾难恢复计划 测试灾难恢复计划,不仅可以验证计划的有效性、完整性,亦可以帮助大 家熟悉过程,做好准备工作。归纳如下: 验证计划过程与策略,发现疵暇之处 可以获得具体的恢复时间概念(如网络是如何被恢复的,速度如何) 可以测试备份主机系统与网络系统的效率 可以向领导、审计、管理、媒体等展示 可以使整个队伍熟练其各自的角色与责任 24 2.1.6.5.3 测试方法测试方法 测试的很重要的一个原则是不停生产机,采用独立或并行的方式进行。如 果是并行则可以与生产环境比较结果。 测试的第二个原则是按模块进行,即将庞大的系统分解开来,按模块独立 测试,而非一开始就动员全行测试。由于各模块的相对独立性,测试是可以分 解成一个一个模块进行的。这样的难度较小,也易于组织与管理。 2.1.6.5.4 测试的频率测试的频率 测试目标是为了保持系统的现时性,即系统能跟上变化的步伐,但同时亦 要考虑费用问题等。 2.1.6.5.5 可能引起变化的因素可能引起变化的因素 主要操作系统的升级 重要应用软件和改变 主要硬件改变 人员变动 2.1.6.5.6 测试流程的制定测试流程的制定 测试流程的制定是在测试中最为重要的一环,只有测试是在可控的前提下, 测试才具备检验系统安全性、锻炼应急队伍的意义。因此客户测试流程的制订 需要在最终客户、相关设备的供应商和灾备系统实施方三方共同协商确定,已 确保原有系统的稳定运行。 25 2.1.6.5.7 维护维护 为保证灾难恢复计划的稳定可靠运行,需要有明确的维护政策,保证人员 及资金的适当投入。并定期检查报告,管理层可以了解其状态。 26 2.1.6.6 惠普公司容灾实施服务惠普公司容灾实施服务内容内容 hp 公司为某某公司提供的远程灾难备份解决方案由目前业界技术最为先进 的 hp eva 系列磁盘阵列以及相应的光纤交换机和用来连接主数据中心和备份数 据中心的光纤网络设备组成。 在某某公司容灾项目的实施过程中,hp 公司将委派具有丰富项目实施经验的 项目经理,使用项目管理的方法对容灾方案的实施进行高效的统一管理;并利用 hp 容灾专家丰富的容灾知识和实施经验,结合广泛验证的容灾方法和设计技术 将大大缩短实现容灾方案的时间,确保实现容灾方案的设计目标,并尽量减少和 避免在容灾方案的实施过程中对用户业务系统的影响,从而全面降低容灾实施过 程中的风险,确保某某公司的容灾方案能够得到平稳顺利的高质量实施。 2.1.6.6.1 方案实施核心服务(方案实施核心服务(core service) 项目管理服务项目管理服务 由惠普项目经理对容灾项目的整体实施过程进行管理,包括项目启 动、制定项目实施计划、项目采购管理、项目资源管理、项目的整 体进度管理以及跟踪项目进展并执行变更和应急情形管理。 容灾方案规划设计容灾方案规划设计 在确认容灾的恢复策略之后,惠普和客户将合作进行恢复技术方案 的详细设计,详细方案包括具体的服务器配置、存储配置、san配 置、容灾软件配置、网络配置、数据复制对应关系、备份策略、灾 难切换方案。 容灾系统产品及主机代理软件安装配置服务容灾系统产品及主机代理软件安装配置服务 容灾系统的安装服务,除了基本的相关存储设备及存储系统软件的 安装,还包括数据复制软件的安装和ltu激活、相关逻辑卷,文件 系统及应用数据库的配置、系统主机代理软件包的安装和配置。 远程远程san互联服务(光纤直连)互联服务(光纤直连) 27 容灾系统远程连接链路的搭建服务,基本服务中只包括光纤直连的 方式。服务内容除了光纤交换机的基本安装,还包括san的综合布 线、跨区域远程san的配置,zoning的划分和合并、光纤数据复制 链路功能测试以及光纤网络容灾参数配置服务。 灾难切换脚本开发灾难切换脚本开发 开发容灾系统切换所需要的脚本,服务内容包括设计容灾系统的切 换策略,并与用户讨论确定;编写脚本,形成指令切换或自动切换; 各种脚本的测试和验证、优化工作。 技术切换测试技术切换测试 在容灾系统搭建完成后,对容灾系统的基本切换功能进行测试。包 括建立、检验及执行异地故障切换机制、系统测试方案的设计,并 与用户讨论确定、容灾系统切换及回切测试。 灾难恢复技术切换流程开发灾难恢复技术切换流程开发 对容灾系统日常维护和灾难发生时的技术恢复流程进行设计,包括 容灾系统维护方案设计、业务部门恢复数据的步骤和所需资源的设 计、故障流程触发模式、升级模式的设计。 容灾系统现场培训服务容灾系统现场培训服务 针对用户容灾系统提供的现场技术培训,在项目实施过程中提供1天 的现场培训(不限人数) 。培训形式为惠普顾问和工程师就容灾系统 的安装配置现场指导用户it技术人员。 容灾演习服务一次容灾演习服务一次 容灾演习服务将帮助客户准备和执行模拟的灾难恢复演习。惠普通 过实施这一服务帮助客户制定演习的恢复目标、描述灾难场景、制 定演习计划,并完成一次灾难恢复演习。服务内容包括为测试演习 而模拟的故障或灾难的设计、制定系统整体演习的测试计划、召开 演习前的沟通会议、建立测试小组,观察测试过程及提出建议、按 照测试计划进行容灾演习以及演习后的总结。 28 2.1.6.6.2 方案实施增值服务(方案实施增值服务(value-added service) 灾难风险评估(灾难风险评估(ra) 本服务主要是对客户现有的风险及灾难管理能力和水平进行评估, 其目的是为了了解客户灾难控制和预防的现状,从风险管理的角度 了解要提高客户的灾难规避和控制能力还需作的努力和工作,作为 确定具体项目实施目标的依据。服务内容包括: 了解用户部门现有的风险和灾难管理手段评估 组织专题工作组 制作问卷 现场实地访谈 总结内部报告 确定所有潜在的灾难威胁 评估各种灾难威胁的可能性 评估目前的灾难缓解能力 确定未被控制的灾难会对用户部门系统造成的影响 分析新建立的风险控制手段对用户部门系统的价值 确定项目周期内要实施或改进的风险控制手段 制作报告并汇报讲解 业务影响分析(业务影响分析(bia) 本服务主要是指在风险管理评估的基础上,对各种可能无法规避的 灾难对客户业务的影响力进行具体的评估,包括无形的影响力(如 企业形象、客户满意度等)和可量化的影响(如收入损失、资产损 失等) 。服务内容包括: 首先制定针对用户 it 部门,并由用户认可的业务影响分析 (bia)的调研问卷; 在调研问卷的基础上,惠普咨询专家联合用户的 it 技术人 员将与使用各业务应用系统的相关各业务主管,进行一次 29 正式的调研访谈,确定关键的量化指标,包括认可的 rto,rpo; 根据访谈的结果进行分析,得出相关分析结果并提供分析 报告。 容灾策略制定容灾策略制定 通过灾难风险评估(ra)和业务影响分析(bia)确定了客户需求, 检查现有的架构和运行管理的现状,确定实现客户灾难恢复需求的 差距并惠普将提出相关的灾难恢复策略,包括建议恢复策略下的系 统架构,关键应用系统的恢复策略级别(hot/warm/cold) ,关键应 用系统的恢复技术的选择(数据库复制,存储区域网络复制,磁带 恢复,服务器集群高可用性技术等)等内容。 灾难恢复计划灾难恢复计划 drp 开发开发 业务持续性计划/灾难恢复计划是一套高级管理和规章流程,使一个 组织在突发性事件面前能够迅速做出反应,以确保关键业务功能可 以持续,而不造成业务中断或业务流程本质的改变。本服务主要是 完成具体的业务连续计划/灾难恢复计划的设计和开发,任务包括定 义详细的灾难恢复流程,明确所需的环境和资源,以及相应的容灾 团队建设。 远程容灾链路集成服务远程容灾链路集成服务 对复杂的容灾链路进行搭建工作,对非光纤直连的远程 san,ip 路 由方案进行实施,包括 dwdm 设备安装和链路调试,相关管理软 件的安装调试,链路功能测试,性能调优服务。 容灾集群实施服务(容灾集群实施服务(dtcs) 数据高可用集群服务是惠普根据用户需求,协助客户设计和实施本 地集群、校园级集群、同城集群和洲际集群。服务内容包括: 容灾集群方案设计:首先了解客户当前的 it 环境以及容灾 需求分析的结果(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论