方案-容灾需求分析及方案dr_第1页
方案-容灾需求分析及方案dr_第2页
方案-容灾需求分析及方案dr_第3页
方案-容灾需求分析及方案dr_第4页
方案-容灾需求分析及方案dr_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第59页中国联通XX分公司综合电信业务支撑系统容灾一期工程需求分析及方案建议书

目录TOC\o"1-5"\h\z1.项目综述 41.1项目概述 41.2项目整体建设思想 51.3需求分析 61.3.1XX联通现有综合电信业务支撑系统状况 6总体架构 6系统组织及设备构成 7.1综合营帐系统介绍 7.2专业计费系统现状 9数据构成 102.系统容灾方案 112.1容灾系统的整体思想 122.1.1XX联通容灾系统实现功能目标 132.1.2XX联通容灾实施服务内容 142.1.3XX联通容灾方案实施阶段与步骤 152.2XX联通综合电信业务支撑系统的容灾方案的设计原则 182.3XX联通综合电信业务支撑系统的容灾方案的取定 192.4数据复制技术的选择 202.5系统容灾方案的总体设计 232.5.1存储资源规划 232.5.2容灾中心主机系统方案 25服务器的选型 26服务器的配置 26Oracle数据库的升级 27容灾中心的备份方案 282.5.4网络系统方案 28用于数据传输的TCP/IP网络 29基于数据远程同步的SAN网络 302.5.5EMC总体方案描述 32EMC容灾方案 33日后应用系统切换 34本期系统总体资源描述 37具体实施步骤 39灾难处理 403.容灾系统监控 424.场地及环境准备要求 465.项目实施、组织管理与培训 485.1项目开发、实施与管理计划 485.1.1项目组织与管理 495.1.2施工能力 525.1.3项目开发人员结构 535.1.4项目实施计划 535.2测试、交货与验收方案 545.2.1验收的方法与步骤 545.2.2设备到货验收 545.2.3平台系统验收 555.2.4整体系统验收 555.2.5硬件与系统测试 565.2.6网络安装测试 575.2.7软件安装测试 585.2.8整体质量测试单 585.3技术培训 595.4技术后援支持与系统升级 595.4.1硬件及网络设备维护 605.4.2应用软件维护 605.4.3系统升级 615.4.4服务工作流程 61

1.项目综述1.1项目概述XX联通分公司自成立以来几年的发展,其移动通信网不断趋于稳定与成熟,开放的相关业务不断出现,用户量也随着通信网的完善以每年40%的速度迅猛发展。到2003年,XX联通已拥有移动用户超过300万(包括GSM和CDMA)。到目前为止,XX联通已经建成了由专业计费、营帐、结算、缴费支付、客服等系统组成的综合电信业务支撑系统组成。“数据源是一切关键性业务系统的生命源泉”,随着美国911事件的发生已经使越来越多的企业管理者认识到了数据信息对自己的企业生存的影响能力,对XX联通而言,同样存在上述问题:随着企业的逐步发展,行业竞争的不断加剧,用户数量的不断增多,新业务需求的不断扩展,现有XX联通综合电信业务支撑系统的相关数据信息的安全性和可靠性也需要在原有基础上得到进一步扩充及改进,以保证在灾难情况发生时,相关业务也能正常运行。在目前的XX联通综合电信业务支撑系统中,系统的安全性主要是通过下面一些措施或方式来得到保证:主机通过采用双机容错方式保证系统工作的可靠性和可用性;存储设备通过冗余的RAID技术保证数据的可靠性;本地的数据脱机备份技术,从而增加一份数据副本;以及相应的网络安全技术(如防火墙技术等)。但综合上述内容,以上的系统安全方式并不能保证系统在灾难情况发生时,系统的可靠性和可用性。因此,在本期系统中,我们将总体目标定为实现对XX联通现有综合电信业务支撑系统中核心数据和核心应用系统的容灾备份,并确保灾难情况下业务数据的可恢复性和可用性,从而保证相关的应用系统能够得到及时恢复。1.2项目整体建设思想XX联通现有综合电信业务支撑系统肩负着全自治区各专业计费处理、营业/收费和客服后台支撑、结算处理、部分业务提供的后台支撑、企业辅助决策和管理数据支持等功能,其安全性直接关系到企业和客户的切身利益,也关系到XX联通的企业形象。所以尽可能地保证系统的绝对安全是必须予以考虑的。为了防范地震、火灾、水灾等自然灾害、电力中断、以及人为破坏而导致系统遭到严重损坏、失效的异常情况,中国联通XX分公司提出了对现有综合电信业务支撑系统进行容灾备份的需求。上面提到的灾害现实发生的概率毕竟非常小,所以一律对现有系统进行简单复制的容灾方案也是不可取的。在具体研究、选择容灾方案时,不仅要在资金投入和具体容灾功能之间进行平衡,而且还应充分考量相关方面的利益(实质上最终都应是保障企业自身的利益),包括客户对预存金额的所有权益、企业对于应缴费用的所有权益、客户使用业务的权利、企业对客户使用业务进行计费的权利、客户享受相关服务的权利等。本期工程的总体目标是实现对综合电信业务支撑系统中核心数据和核心应用系统的容灾备份,并确保灾难情况下业务数据的可恢复性和可用性,从而进行相关应用系统的及时恢复。容灾系统的建设还包括相关条件的具备、以及管理维护机构设置和人员组织、管理维护制度和操作规程的制定等。根据上述描述,在建设XX联通综合电信业务支撑系统的容灾备份系统时,需按如下原则进行规划和建设:(1)确保灾难情况下关键业务的关键性数据的安全存储;(2)确保灾难发生后综合营帐及计费系统运行的及时恢复,包括数据在线存储的恢复;(3)尽量确保客户利益不受损失;(4)将企业(联通)因灾害而导致的利益损失降低到最小程度;(5)坚持容灾备份系统建设投资经济合理性的原则;(6)确保系统的可扩充性、可维护性、可操作性;(7)建立健全相应严密的管理制度和操作流程。1.3需求分析1.3.1XX联通现有综合电信业务支撑系统状况总体架构XX联通综合电信业务支撑系统由专业计费、营帐、结算、缴费支付、统计分析、综合结算、客服等系统组成。系统的结构如下图所示。中国联通XX分公司综合电信业务支撑系统总体结构示意图系统组织及设备构成.1综合营帐系统介绍XX联通目前新建的综合营帐系统已割接上线,作为中国联通综合电信业务服务支撑系统(UNICSS)的一部分,是涵盖XX联通移动业务(GSM和CDMA)、193长途业务、165业务、VoIP业务、寻呼业务的综合营业与综合帐务体系,实现客户服务"一台清"、"一单清",为客户提供良好服务;实现综合业务的帐务交叉优惠,提高服务水平和市场竞争能力,为发挥综合业务优势提供条件;形成跨业务的综合用户资料,为综合数据分析与决策支持打下基础,以便为业务单元提供良好支撑;实现综合营帐系统一致的体系结构,便于管理维护,提高效率。在目前的一期工程中,暂时满足GSM和CDMA(包括CDMA1X以及WVPN)的全省集中综合营帐,165业务实现全省集中计费,而193和寻呼业务仍是全省分散计费。新建的综合营帐系统部署于省分综合营帐中心机房。综合营帐中心与各地市分公司计费中心建立星型局域网,各地市与省中心之间也以星型结构组网,传输线路采用2M光缆专线,形成层次形星型结构。省中心与总部计费结算中心采用128KDDN线路相连。系统由亚信科技有限公司负责系统集成。采用基于中间件的三层设计结构,操作系统为IBM的AIX4.3.3,底层数据库系统采用Oracle8.1.7,交易中间件采用IBM的CICS4.3。硬件平台为2台IBMRS/6000-S85主机(每台12个CPU、24G内存)以CLUSTER方式负责全省的综合营业、综合帐务处理,同时作为交易中间件的运行平台(一台DB、一台应用),2台IBMRS/6000-S85主机(每台12个CPU、24G内存)以CLUSTER方式负责全省的GSM、CDMA采集、计费、一次和二次批价以及用户的信用度控制(一台DB、一台应用)。存储设备为一台EMCSymmetrix8830磁盘柜(总容量为7.6T),4台IBMP680主机采用光纤通道与EMCSymmetrix8830磁盘柜相连接。一台IBMP640作为备份服务器与STKL700带库相连,利用legatonetworker6.2进行数据备份。EMC盘阵内部通过BCV快照技术实现营帐数据定时同步,由一台IBMM85作为查询主机,提供各地市的统计查询工作。各地市分公司分别配有一台CISCO3640广域路由器、一台CISCO2924交换机、一台HPK360接口前置机、一台HLR前置机及其它相关设备,具体局域网示意见图1.2。XX联通地市计费中心的局域网示意图.2专业计费系统现状 随着综合营帐系统的建设完成,原有的GSM、CDMA计费也将并入综合营帐系统中去,其中GSM、CDMA计费运行在IBMRS6000S85上(12个CPU,24G内存),数据库系统为Oracle8.1.7,系统集成商是亚信科技有限公司。计费内部网络通过计费网络与总部GSM结算中心、CDMA结算中心互连。 XX联通的193计费是接入上海大区,南京负责除无锡以外全省12个地市的采集,无锡的采集直接与上海相连,由上海中心负责全省原始话单的批价。营业系统是全省分散的。南京和无锡各有两台HP主机,分别是一台HPL1000和一台HPD280,其余各地市均配置一台HPL1000。操作系统均为HPUnix,数据库系统为ORACLE8。系统集成商是中讯通信发展有限公司。目前XX联通165计费认证系统由中兴新太公司提供系统集成,采取全省集中计费认证的方式,所有服务器位于南京,系统容量为9.5万用户。全省13个地市通过WEB的方式访问服务器。认证服务器配置为SUNE3500(4*400CPU,9GHDD,4GMemory),计费服务器配置为SUNE3500(4*400CPU,9GHDD,4GMemory),双机热备份。配置MetastorDepartment144G磁盘阵列1台(3621-144G),StorageTek9730自动磁带机库系统一套(2驱动器18槽)。安装的相应软件有CINMSIII计费管理软件(注:计费软件含营帐系统)、ORACLE8数据库、EnterpriseServer、Netbackup磁盘存储管理软件、VERITAS群机高可用系统软件(VERITASDATABASEEDITION/HA(VCS)FORORACLE)、CA安全软件。WWW系统:SGIO2100服务器一台。寻呼业务的营帐采用地市级全分散方式,全省13个地市分别有一套系统,业务量较大。除南京分公司外,全省其他12个分公司寻呼营销系统由镇江金钛公司提供系统集成。各地分别是两台数据库服务器,具体配置为:COMPAQPL65002台(宁、镇、扬、苏、锡、常、通、徐、淮、盐、连、泰),COMPAQPL30002台(宿),数据库采用SYBASE11.03,全省系统总容量为300万户。各地营业前台采用CLIENT/SERVER方式与后台数据库相连。软件功能主要包括营业受理、资源管理、库存管理、用户资料管理、系统管理、代办点管理、计费管理、报表管理等模块。各县分公司营业点通过DDN(64K/128K)与市公司相连。.3.1.3数据构成XX联通现有综合电信业务支撑系统的主要数据一般包括:序号数据类型变化频度重要程度备注1软件程序慢系统软件、应用软件2配置数据慢重要系统软件、应用软件、网络3操作系统日志文件快4数据库日志文件快重要5应用软件日志文件快6客户基本资料较快非常关键7客户订购资料较快非常关键8客户帐务资料较快非常关键9客户缴费资料较快非常关键含缴费余额10客户信用资料较快关键11预付费卡数据快非常关键含预付费卡余额12缴费卡/充值卡资料快非常关键13原始话单数据快重要14批价后详单数据快关键15营业数据快关键16结算数据慢(定期)关键17统计分析数据慢(定期)关键2.系统容灾方案随着信息使用环境的日渐普及,人类对于计算机系统的依赖也日益加重。俗语说"天有不测风云,人有旦夕祸福",计算机系统很有可能因为天灾或人为因素等意外事故导致系统毁坏而长期无法运行,造成整个组织或企业在营运上的重大损失以至倒闭的风险。因此,针对XX联通综合电信业务支持业务系统这样的多业务集成在一体的大型计算机系统,由于本系统的实时性强、影响大,其系统运行环境的好坏,运行的是否稳定、可靠、安全,对于XX联通的如此大的用户是致关重要的,他将直接影响到广大人民群众的日常生活。一旦出现无法避免的灾难而导致系统长时间不能运行,将给XX联通业务带来极大损失,并对广大联通用户带来极大影响。因此高可靠的系统运行对联通来说极其重要的。XX联通对其系统提出了主机备份,以及进一步的灾难备份的要求,以提高整个系统的连续高可用性。本容灾备份系统的建成,将极大改善广大XX联通用户的消费环境,为广大用户带来更多便利,同时也将会提高XX联通业务的技术水平和服务质量,使XX联通在行业竞争中处于有利地位。在本方案中提出了可靠性较为完善的主机备份及灾难恢复方案,以有效保障系统及业务遭受重大灾难后的持续运营。2.1容灾系统的整体思想XX联通将建设一套基于现有综合营帐系统的容灾系统,即新建设一个灾难恢复中心,对综合电信业务支撑业务系统中的关键性业务进行灾难备份。所谓灾难恢复中心,就是联通除了拥有一套完整的计算机网络系统(称之为生产中心)之外,另外建立一套计算机系统。这套系统能在突发性灾难发生,造成生产中心停止工作时,迅速并及时的接管原来运行在生产中心的所有或部分业务,达到减少或避免灾难事件发生时所造成的损失,为联通用户提供完善、优质服务的目的。异地容灾系统的核心就在于在不同的地方将灾难化解,在实践中主要表现为两个方面:一是保证企业数据的安全;二是保证业务的连续性。由于工作站点和灾难恢复站点运行同样的系统,包括操作系统、基础数据库和应用软件,并通过数据复制管理器完成在线和实时的本地复制,或者通过光纤通道的远程数据复制。假如工作站点发生灾难,不能再继续工作,这时容灾中心会将业务数据及时恢复到备用服务器上,并自动将业务切换到备用服务器,然后实现业务的远程切换,恢复系统不间断的运行,在容灾中心实现应用的异地容灾,这个过程只需要几秒或者几分钟的时间。图SEQ图\*ARABIC1异地容灾原理图2.1.1XX联通容灾系统实现功能目标对于XX联通而言,目前的综合营帐容灾系统是整个电信业务支撑系统中的核心业务,如何保证该系统的最大可靠性和可用性,将是本期容灾系统主要解决的问题,因此我们可以将本期系统的建设目标定为:建立综合营帐容灾备份系统,以保障灾难情况下最大程度地保护所有核心系统数据的安全,同时尽量保证客户的利益不受损失。能及时恢复所有外界与系统主机的连接并正常运作;另外在平时为了保证对容灾中心的所有设备进行充分利用,在规划本期容灾系统时,必须考虑容灾中心具备承担部分业务工作的能力,如作为新应用系统的测试平台,在主生产系统进行例行维护时临时接管业务等。另外,结合XX联通现有的系统结构,我们也将在本期系统中实现以下目标:1、对现有系统中的不同业务系统对应的存储孤岛,统一整合网络存储资源,构架出一个存储网络平台,使XX联通真正将存储网络的概念引入到实际的系统体系中,使每个主机都有可能去访问每一个磁盘柜的空间,使应用系统能够很灵活地分配资源,并有效地使用存储,减少企业投资成本,实现企业投资保护。将来当需要增加应用主机时,象连接以太网那样便利;当需要扩充存储时,可以在线地增加磁盘柜或磁盘,并在线地划分、配置物理卷;2、采用业界先进的可扩展式企业级交换机作为网络的核心交换,提高存储系统的高可用性,从而保证了数据信息的高可访问性;3、SAN网络化结构,提供远距离数据的保护能力和快速备份、恢复数据的能力。4、集中管理企业整个SAN存储网络和存储资源,减少管理员的工作负担,减低企业的管理成本和维护成本。5、提供系统在线维护的可能性,即便将一个网络停下来在线维护,也不会影响整个系统的正常运行。6、建立完善的容灾策略机制和操作流程。2.1.2XX联通基于联通总部本次容灾项目的建设目标,结合XX联通的具体情况,本方案提出下面的项目建设目标:在现有的容灾系统框架下,优化网络;扩充系统容量,对XX联通电信业务支持系统当中最核心的综合营账系统提供全面的容灾保护。整合目前的存储网络,构建能够对核心业务系统提供强有力支持的“存储基础架构”。同时部署针对这一架构的管理平台。使得存储基础设施如同网络基础设施一样,十分方便灵活地适应业务需求的变化,同时最大限度地保护用户投资,提高资源利用水平,优化资源配置,提高系统的可靠性和可维护性。最大限度地消除造成业务中断,或系统性能下降的“非故障”因素。除灾难(环境因素)和系统故障(硬件故障)之外,在业务运行期间,系统维护、软件测试、数据备份、报表生成、数据仓库加载等等均会造成业务中断,或业务运行性能降低。本次容灾建设应该能够尽量消除这些因素,进一步提高业务持续能力。在本期系统的容灾方案中,鉴于XX联通在现有的综合营帐系统中已经采用了EMC的存储设备,本着充分利旧节省投资并考虑到EMC容灾技术相对比较成熟,建议采用基于EMC的容灾方案。基于EMC公司系列存储设备及远程数据复制技术的XX联通综合营帐系统异地容灾实施方案,包括以下实施服务内容:分析、评估XX联通的主机,存储,软件,应用及网络环境,量身定制,最优化地设计满足用户实际需求的高可用性容灾实施计划;我们将结合EMC公司光纤网络专家负责构建主数据中心和备份数据中心的光纤存储区域网络,安装、配置调试光纤交换机,并负责完成相关的交换机链路分区设置;完成生产中心和备份中心的磁盘阵列的端口设置;在主机上安装容灾管理软件,并进行相关远程镜像逻辑卷(LUN)和卷组的客户化配置划分和数据拷贝,确保远程数据复制及应用数据库的正常切换;并根据用户需要,满足用户要求,实现关键业务数据的在线数据复制和备份;综合营帐系统的Oracle数据库性能优化;系统综合测试和灾难预演;关键性业务数据的整合;系统配置归档,灾备流程规划设计以及容灾方案知识移交(包括维护指导),保证XX联通综合营帐系统和客服,缴费卡系统的容灾系统管理人员能够在方案实施结束后顺利管理本容灾系统。2.1.3XX联通容灾方案实施阶段与步骤方案实施阶段1:分析与计划目标将XX联通综合营帐等系统的业务目标、需求与其应用和业务环境协调一致;主中心和备份中心场地环境和网络连接准备;评估硬件,软件及应用的兼容性;关键成果经XX联通用户方和集成商以及EMC公司共同确认的项目实施计划;经XX联通用户方和集成商以及EMC公司共同确认的项目评估验收标准;硬件、软件及应用兼容性的确认;任务描述项目开工会议/介绍;实施客户环境评估;完成客户环境评估报告;分析远程局点间的硬件基础设施;分析硬件单点故障;分析软件及应用环境;完成项目实施计划,并和用户讨论确定;方案实施阶段2:配置与集成目标主中心和备份中心存储区域网的构建;主中心和备份数据中心的阵列配置;在主数据中心和异地备份数据中心存储设备之间实现数据复制;配置及检验远程数据复制功能;优化远程数据复制性能;综合营帐系统、Oracle数据库性能优化;关键成果阵列正确配置完毕;完成单模光纤链路的连通性测试及SAN的构建与配置;完成数据库和应用软件的配置;Oracle数据库的性能调优报告;相关资料存档;任务描述综合营帐等系统的数据迁移;安装相关主机及存储系统软件(SRDF);SAN的构建,光纤交换机的安装配置与单模光纤链路测试;实施SRDF,相关逻辑卷,文件系统及应用数据库的配置;进行远程数据复制性能调优;进行业务系统数据库性能优化;建立配置文档;方案实施阶段3:测试及知识移交目标将异地数据切换过程集成到灾难备份/恢复操作流程中;建立、检验及执行各局点本地故障切换机制;建立、检验及执行异地故障切换机制;规划设计灾难恢复操作流程;对系统配置及操作流程进行归档;灾难预演;实现知识移交;关键成果综合测试及灾难预演测试计划;测试验收报告;知识移交;灾难恢复操作流程;项目文档;任务描述建立、检验及执行各局点本地故障切换机制;建立、检验及执行异地故障切换机制;对系统配置及操作流程进行归档;灾难预演测试;实现知识移交;项目验收;项目正式结束;实施服务总结通过以上专业化的容灾项目实施流程和方法,可以使XX联通综合营帐系统和计费远程容灾方案在对现有业务系统的运行不造成较大影响的前提下,高质量,零风险地实现;并在系统投产后,能够高效,可靠的运转;从而使XX联通的关键业务系统具备防灾,抗灾的能力,为实现24*7*365全天候的业务运行创造条件,为XX联通更大规模的业务发展奠定基础。2.2XX联通综合电信业务支撑系统的容灾方案的设计原则根据XX联通的需求和有关现状、以及XX联通关于综合电信业务支撑系统建设的有关精神,本工程的建设范围是建设XX联通综合电信业务支撑系统中最关键的综合营帐系统的容灾备份系统。对任何一个容灾系统而言,我们往往认为是在灾难情况发生时的业务应急系统,对灾难环境的理解,我们认为应该包含如下情况:(1)由于磁盘阵列设备故障而导致数据丢失不可恢复的系统灾难;(2)由于电源异常或中断而导致数据丢失的系统灾难;(3)由于自然因素、暴力恐怖事件、误操作等人为因素而导致数据丢失的系统灾难。那么要建设一套容灾系统,我们必须遵循一定的原则,对本期XX联通容灾系统的建设,我们则应遵循以下原则:(1)本次容灾备份系统是基于XX联通综合营帐系统的应用级的容灾,;(2)确保灾难情况下重要数据的安全存储;(2)确保灾难发生后综合营帐系统运行的及时恢复,包括数据在线存储的恢复;(3)尽量确保客户利益不受损失;(4)将企业(联通)因灾害而导致的利益损失降低到最小程度;(5)坚持容灾备份系统建设投资经济合理性的原则;(6)确保系统的可扩充性、可维护性、可操作性;(7)建立健全相应严密的管理制度和操作流程。2.3XX联通综合电信业务支撑系统的容灾方案的取定XX联通的容灾备份系统的目标是确保灾难情况下综合营帐系统重要业务数据和系统数据的安全备份以及营帐系统及时恢复运行首先,我们认为在整个业务系统中,数据是核心,系统程序和应用程序都是用来处理数据的,最后为我们所用也是数据被处理后生成的结果。只要数据保持较高的可用性、可恢复性,业务系统的连续运行就有了保障。实时性数据保护技术核心是数据复制技术。数据复制是指将被要求纳入容灾系统的业务的关键信息(数据和环境)安全、一致、实时的存放到相应的容灾备份中心。从技术上看,从一个服务器到另一个服务器的数据复制可以通过很多方式实现。最传统地,也是最低级别的数据复制技术一般是采用磁带传送的技术进行数据的分发。基于磁带的容灾系统相对简单,而且它不支持这种数据立即存取的运行模式。取而代之的是在线数据复制技术。随着企业对应用的依赖程度越来越高,对数据立即存取的要求越来越高,XX联通的综合营帐系统更是面临这样的问题。就在线数据复制技术而言,从目前的技术来看,我们认为比较成熟的数据复制技术可以分成两大类别:一种是基于智能存储设备实现的硬件级别的数据复制,这种数据复制技术无需占用主机设备的系统资源,但是要求生产中心和备份中心的存储设备的硬件平台相同,如果采用该种方案,除了要求生产中心和容灾中心的存储设备的平台性必须一致的限制外,该种方案还是具备其自身的优点,由于它是基于存储设备来实现整个系统的数据复制,因此,它对主机系统的资源消耗极小,可以保证相关主机上的应用高性能运行;另外,基于该种方案的数据复制系统在搭建数据链路时,普遍采用了基于FC的光纤裸链路,不管是采用同步或异步的传输方式,其数据的传输性能可以得到保证,而且目前时常出现的相关的基于存储设备的数据复制技术也较以前更为先进,而且与基于主机(软件)实现数据复制的方案相比,由于目前联通的FC链路普遍都已经具备,实施起来相对简单。另外一种技术是利用基于主机的数据复制软件来实现本期系统的数据复制需求。该种技术的最大特点便是支持异构环境下的硬件平台,使相应的数据复制方案可以在不依赖于硬件环境的前提下实现。但如果采用该种方案,必须保证生产中心和容灾中心的IP网络的带宽能够满足本期系统的需求,而且,由于该种软件基于主机运行,因此采用该种方案是以牺牲主机的性能为代价来实现整个数据复制方案的;另外目前业界中已经出现了众多的相关产品,但从业界的一致认可来看,Veritas公司的VVR产品应该说是一种相对比较成熟的产品,但是就目前而言,在联通范围内还没有基于此方案的成功的容灾案例。在对上述方案进行取定时,我们建议首先要考虑到XX联通现有的电信综合业务支撑系统的现状,根据现有的系统配置情况并结合XX联通自己的容灾需求进行方案的取定。首先,鉴于XX联通目前现有的主存储设备为EMC的Symmetrix8830,考虑到系统前期的投资,可以继续沿用EMC的容灾解决方案;另外,考虑到整体系统的平台集中性及平台一致性,对整个系统在未来整合性及可管理性相对而言,无论是用户对原有系统的维护能力,还是整个系统的售后服务体系,均具有比较好的条件,而且EMC公司也推出了自己整套的容灾解决方案,基于此考虑,建议采用基于存储设备级的EMC的容灾解决方案。2.4数据复制技术的选择不论采用上述哪中数据复制方式:目前支持数据复制技术的产品包括OracleStandbyDB;VeritasVolumeReplicator(目前支持的平台包括Solaris,IBMAIX,EMC-UX,W2000)两种运行在服务器上的软件产品和包括EMC,HDS、EMC和IBM存储产品在内的运行在存储系统内部的软件产品。都将牵涉以下的一些特性:复制模式-同步或异步;采用的网络连接方式-裸光纤(或黑光纤DarkFiber)、DWDM、ATM、IP等;对本地I/O性能的影响;复制方向的改变;复制端数据的复用;复制端数据恢复的时延、难易程度等;我们认为,XX联通在最终确定采用何种技术时,需要综合考虑上面各项因素。以下我们分别加以简单描述。同步还是异步,对本地I/O性能的影响,以及复制端数据恢复的时延、难易程度。同步是指复制操作是本地数据写操作的一个不可分割的部分,复制不成功,则本地写操作也认为不成功。在同步模式下,复制端的数据和生产端完全一致。当操作切换到容灾点时,业务状态和灾难发生时生产点的状态完全一致,不再需要人工干预进行数据“补充”操作。能够极大的加快RTO(同步技术的RTO可以实现分钟级),降低业务损失;同时在这种造成严重后果的重大故障发生时,将信息系统部的技术力量从繁琐的“数据”补充操作中解脱出来,将更多的精力投入故障分析、排除和生产点恢复的工作中。同步模式由于把复制操作嵌入本地写操作,因此会加大本地写操作的延迟。这一延迟由本地写I/O的频度、数据块大小、采用的网络连接技术、生产点和容灾点之间的距离及远程系统“拷贝”数据的方式有关。在一定的应用环境和网络条件下,复制操作造成的写I/O延迟增加较小,再加上系统响应时间当中,写I/O延迟只是其中的一部分,因此总体考量,同步操作对应用响应时间造成的增加是可以忽略不计的。异步复制操作相对于本地写操作独立在“后台”运行,如果是基于主机的软件,它和同步一样会占用主机资源,但对本地写I/O不会造成明显时延影响。异步操作会使得容灾端状态落后于生产端,在灾难恢复操作中,需要人为干预,补充数据,从而延长RTO。本期XX联通容灾系统的规划是基于综合营帐系统的应用级容灾,而该系统是目前所有联通最关键的生产系统,并且其相关的数据的一致性和可用性也是至关重要,在故障灾难情况发生时,必须保证该业务的快速启动,从该角度考虑,我们建议采用同步的数据传输方式;另外,目前XX联通本身也已经具备了专门的光纤链路,其所要求的带宽也能满足容灾系统的需求,本期系统中生产中心和容灾中心的距离为10公里,该距离也为同步的容灾方案提供了支持,因此,我们建议本期系统可以采用同步的数据传输方式。采用的网络连接方式基于主机的复制软件通常仅支持IP网络,而基于存储的复制软件通常支持多种网络技术,包括裸光纤(或称黑光纤DarkFiber)、DWDM、ATM、IP等。网络连接方式不同,这些技术所提供的带宽各不不同,网络自身造成的性能损耗也不同。对黑光纤而言,没有协议损耗;而且理论上讲黑光纤自身的带宽极高,其限制在于上层的传输手段。而IP技术,其软件协议的特性会造成很大的网络性能损耗。目前流行的另外一种容灾系统连接方式是通过DWDM设备进行连接,该设备主要是通过波分复用技术将数据通过光纤进行传送,每个光波的带宽可以达到2.5GB,通过该设备的使用,生产中心和容灾中心之间的连接距离可以长达80公里以上,在目前各行业中的容灾系统中也有很多通过采用DWDM设备实现的成功案例。但使用该设备也将导致用户的投资加大,因为DWDM设备本身是比较昂贵的。结合XX联通现有的系统情况及本期系统的建设要求,并充分考虑到XX联通用户本期系统的投资情况,我们建议采用DWDM设备以波分复用的方式来搭建生产中心和容灾中心之间的链路。复制方向的改变当灾难发生后,容灾点接替生产点恢复业务。当生产点故障排除后,通常需要将生产系统恢复回(FailBack)原生产点,而容灾点继续承担容灾的角色。在这一过程中,需要改变通常的数据复制方向,即将容灾点的数据复制回生产点,这些数据是在容灾点运行业务时新增的数据。事实上,这种反向复制的要求并非只在真正的灾难发生时使用。联通平时的容灾演习过程中,这一功能也是必不可少的。作为完整的容灾演习的一部分,我们需要在容灾点运行业务,而且演习结束后,系统需要切回原来的“生产点-容灾点”模式。如果容灾点运行的是真实业务,这些业务数据也需要复制回原生产点。容灾中心端数据的复用我们知道,XX联通综合营账当中的数据是XX联通最核心的业务数据,复制到远端的数据如果仅被用来作为“万一”灾难发生时备用,事实上也是资源的浪费,因此数据复制技术应能够和数据复用技术紧密集成。结合此特性,我们建议在容灾中心可以考虑搭建一个测试环境,作为XX联通新业务的测试平台,这就要求,在容灾中心的建设过程中充分考虑到容灾数据的可用性问题。2.5系统容灾方案的总体设计在本方案中,根据用户提供的信息,我们可以知道XX联通拟定中的容灾点(经四路机房)与生产中心(青华机房)之间的传输线路距离不足20公里,我们可以通过EMC的软件产品SRDF实现容灾系统当中最为重要的数据复制功能;数据链路则可以通过XX联通自己现有的光纤链路,通过DWDM设备实现连接;考虑到本期系统要能够满足部分应用级的容灾,并使容灾中心的设备能得到充分利用,因此在整个系统中,我们还需考虑在容灾中心增加新的主机和系统,并同时配置相应的软件系统。2.5.从容灾角度而言,我们通过把位于两个数据中心的存储系统通过光纤网络连接,实现数据远程复制;从而构成了容灾系统的技术基础。更为重要的是,利用本次容灾系统的建设的契机,可以进一步优化IT基础设施的结构能够十分清晰地构成处理资源、网络资源和存储资源三个层次。在本期XX联通容灾系统中,存储资源的整合将是其中一项重要的任务。所有业务(综合营帐、专业计费、综合结算以、短信以及CDMA)系统将采用集中存储的方式来实现业务系统的工作,这样不仅可以充分利用SAN存储网络带来的高性能和好的技术是各个业务系统的运行性能进一步提高,而且从管理角度来看,也可以大大减少过去系统维护所带来的负担。通过上文中描述的存储整合,当XX联通的业务流程改变或增加新的应用时,这一IT基础架构能够十分方便灵活的适应。我们以存储资源为例,由于存储网络的存在,XX联通在部署新的应用时,可以灵活的在任何一个机房(生产中心或容灾中心)添加处理资源或存储空间;如果这一应用同样属于关键的应用,需要容灾保护,则IT基础架构自身的容灾属性能够很方便地支持这一需求。如果我们需要对某一数据进行复用(如在线备份、数据统计分析、新软件测试)等,则这些数据可以在存储资源层内自由流动。而从管理的角度,这些资源可以集中的进行管理,包括存储空间的分配、数据保护手段的使用、性能的分析、故障的定位和排除,均可以在一个管理界面上完成。从而降低管理成本、提高管理水平。本着上面的这种建设思路,我们需要综合考虑XX联通至少在未来一年内业务发展对IT基础,尤其是存储系统的要求。在本次项目建设时,给予统一考虑。基于目前XX联通业务系统的环境及现状,要建设容灾系统,而且是采用基于智能存储设备级的应用级容灾系统,必须新增加一台磁盘阵列,从而与XX联通现有的EMCSymmetrix8830构成一个完整的容灾系统。现有的8830磁盘阵列目前安放在青华机房作为营帐系统的存储设备,结合本期容灾系统的实施来看,由于是要实现基于综合营帐系统的容灾,而XX联通未来的容灾中心将建立在经四路机房,当发生灾难情况时,经四路机房容灾中心将实现对XX联通综合营帐系统的业务接管,因此从该点考虑,我们建议将8830阵列继续安放在青华机房,作为生产中心的数据存储设备,在经四路机房(也就是XX联通未来的生产中心)新增一台高端的光纤通道磁盘阵列作为新的容灾中心的主存储设备。本期XX联通容灾系统虽然是基于综合营帐的容灾系统,但在确定新增磁盘阵列的配置时,我们必须考虑到容灾系统建成后,在容灾中心业务系统的整合,前文中已有提及,在本期系统中容灾机房的建设完成后,容灾中心同时要作为XX联通新业务系统的测试环境和运行平台,也就是说在容灾中心新配置的磁盘阵列上将同时挂接多个业务系统,在对新的磁盘阵列进行配置,尤其是确定容量时,必须综合考虑到上述业务。并确定相应的BCV卷容量的划分,该部分容量的确定可以和用户经过进一步的沟通后进行。事实上,系统对存储容量的需求,还受到应用软件的具体实现方式的影响。对同样的一组数据模型和业务模型的实现,不同的软件有不同的方式;也就是说,将联通用户提出的业务需求模型转化为实际的数据库数据字典设计,软件开发商的实现肯定是各不相同的。软件开发商需要在软件效率和资源占用方面做出平衡,一般情况下,要求应用系统的性能越好,所占用的资源,包括存储资源也越大。结合用户提供的信息,我们可以得到本期容灾系统对开发区新的生产中心存储系统所要求的容量为11.7TB(RAID1),以下的描述,涉及到容量的内容,我们都将以此为准。2.5.2考虑在本期XX联通容灾系统中,在容灾中心机房要考虑对容灾设备的充分利用,除了最基本的可以在生产中心发生灾难情况时,可以作为生产中心的营帐和专业计费系统的业务接管主机,在平时还可以作为XX联通关键性业务系统的测试平台,并可以充当新业务的运行平台,而具备这样的条件,必须增加相应的主机设备。容灾站点的计费主机,主要负责灾难发生时的批价、实时累帐、实时监控功能的恢复。目前生产中心的BILLAPP主机处理能力为12.8万tpmC,利用率达到60%;BILLDB主机处理能力为17.4万tpmC,利用率达到50%,考虑30%的冗余度,则容灾站点BILL主机的处理能力应不小于(12.8*60%+17.4*50%)×130%=21.3万tpmC。容灾站点的营帐主机,主要负责灾难发生时的营业、帐务类功能的恢复。目前生产中心的OSSAPP主机处理能力为12.8万tpmC,利用率达到45%;OSSDB主机处理能力为17.4万tpmC,利用率达到60%,考虑30%的冗余度,则容灾站点OSS主机的处理能力应不小于(12.8*60%+17.4*50%)×130%=21.1万tpmC。在考虑主机平台时,一方面必须结合本次容灾系统的建设目标;另一方面,针对目前电信业务发展趋势,以及未来本地网通讯的发展方向,我们将推荐先进、可靠、高效的主流机型及存储系统,使其无论在处理能力、可靠性,还是在高可用性、扩展性等诸多方面处于领先地位,其中特别是具有平衡的整体性能及高负载能力方面,要求适应电信业务量及业务种类的发展。考虑到本期容灾系统的建设目标是建立一个基于XX联通现有综合营帐系统的应用级容灾,从应用平台的角度考虑,本期系统中对主机系统的选型在生产中心和容灾中心必须保持一致。而在现有的生产中心青华机房的营帐系统为2台IBMp680,计费系统同样采用两台IBMp680,该系统自从上线后,一直能很好地完成XX联通综合营帐的业务处理,再充分考虑到XX联通本期系统的投资情况,我们建议在本期系统中,仍以IBMUNIX服务器系统作为本期容灾系统中经四路机房的主机设备。

服务器的选型结合前文描述的服务器选型原则,以及系统对相应服务器性能的要求,可以对XX联通新的综合营帐系统的服务器选型进行总结。现有的营帐和计费主机为IBM公司的p680主机以双机方式工作,而且该主机的工作性能完全能够满足XX联通综合营帐系统工作的要求,因此如果采用该机型可以和现有的生产中心保持很好的匹配,但如果考虑到IBM产品目前的更新程度,IBM公司已经推出了多款性能更高,可靠性更好的UNIX服务器,如p670和p690,这些主机系统在很多方面都已经超越了现有的p680服务器;另外结合本期系统对主机的性能要求,如果要满足上述TPC的要求,采用p680主机必须达到满配置才能满足需求,这样从系统的可扩展性考虑,并不可取。因此本期系统的主机也可以从该两款主机中进行选择。2.5.2需要说明的是,如果采用上面提到的p670和p690主机的话,将面对如下问题:由于该两款机型均只支持AIX5L操作系统,与之对应的数据库需要采用Oracle9i,而XX联通现有的系统均是运行在AIX4.3.3和Oracle8.1.7之上,这样会导致生产中心和容灾中心两端环境不一致,因此如果本期系统最终选择了采用p670或p690主机,必须将现有生产中心的主机即四台IBMp680的操作系统和数据库均进行升级,而现有的应用系统也必须由相应的软件开发商进行相应的修改和升级,以能够运行在升级后的系统环境中。另外对于营帐和计费系统运行所需要的中间件和采集服务器,本期系统可以采用利旧的原则进行配置。对于容灾中心,考虑到营帐系统在灾难情况时将被起用,为保证容灾中心的营帐业务能够顺利运行,必须在容灾中心增加相应的与其他系统的接口设备,在此我们建议采用PC服务器来承载容灾中心营帐系统与其他业务的接口。2.5.2由于涉及到主机选型可能会带来数据库升级的问题,即必须将现有的从Oracle8i升级到Oracle9i。东软公司在该方面已经有很多的实施案例,通常可以采用两种方法,一个是使用ORACLE公司提供的dbua(DatabaseUpgradeAssistant)工具,直接升级;还有一个方法是创建一个新的Oracle9i数据库,然后把Oracle8i的数据使用exp/imp工具迁移到新的Oracle9i数据库。下面简单介绍一些上述的两种方案。升级的工作可以使用ORACLE公司提供的dbua(DatabaseUpgradeAssistant)工具来完成。Oracle8系列的8.0.6以后的版本和所有的oracle8i系列版本的数据库可以直接升级到Oracle9i。由于整个过程是不可逆转的,而且对数据库的数据字典等系统信息都有更改,在整个升级过程中不能出现任何纰漏,否则会对数据库造成极大的破坏。东软成功完成过oracle8i升级到oracle9i的测试,有此项工作的经验,但是不建议客户选择直接升级这种方式。这个方案比较复杂,但是安全性和可维护性较高,东软有大量的成功案例(辽宁联通oracle8升级到oracle8i,安徽联通等)。首先,创建一个新的Oracle9i实例,根据原来的系统规划出新数据库的表空间设置,然后在新的数据库上创建旧数据库上的数据库对象,包括用户、权限、表、存储过程、包、序列(注意起始值)等,做完此步骤后,新旧数据库除了数据外,所有的内容都是一模一样的。最后,是旧数据库保持在静止状态,使用exp工具把旧数据库的数据库导出,然后使用imp工具导入到新数据库中,核查完数据后,关闭旧数据库,用新的oracle9i数据库作为生产数据库,这样就完成了从oracle8i到oracle9i的数据迁移工作。容灾中心的备份方案在现有的XX联通的综合电信业务支撑系统中,已经建设了相应的备份系统,即采用了STKL180磁带库作为整个系统的备份设备,该磁带库配置了10颗LTO驱动器并通过SCSI-FCBridge连接到SAN网络,实现整个系统的备份需求。随着备份技术的不断提高,目前已经推出了基于LTO2的新一代驱动技术,该技术不仅可以提高备份的性能,而且可以支持更大的磁带容量,由于现有的LTO驱动器技术并不是真正意义上的利用FC通道,而LTO2驱动器将完全可以通过光纤通道以更高的性能进行数据备份。为了保证XX联通各业务系统的关键性数据的有效备份,建议在本期系统中对现有的LTO驱动器更换为LTO2驱动器。根据XX联通现有的数据量,以6TB计算,备份时间为12小时,目前的LTO2驱动器的备份速度为30MB/s,可以计算出需要的LTO2驱动器的数量为:6*1024*1024/30/60/60/12=5个驱动器,常用的LTO的磁带驱动器的备份速度为16MB/s,我们需要配置6*1024*1024/16/60/60/12=10个驱动器。另外为了进一步保证系统的备份性能,并充分利用SAN网络带来的备份性能,建议将备份系统单独组建成一个SAN网络,主机系统可以通过专门的光纤卡连入备份网络,为保证可靠性,建议从主机到光纤交换机直至磁带库设备均采取冗余配置。2.5.4结合XX联通本期容灾系统的需求,我们可以将系统整体结构如下图所示进行描述:图1从上图看,整个系统的网络拓扑分为2个部分:TCP/IP网络和SAN网络。根据上图所示,我们可以在两机房的中心交换机上建立千兆的线路连接。经四路容灾中心机房的中心交换机我们可以采用4507。同时这些交换机也可以作为各机房所有业务系统的中心交换机。随着业务量的增长,生产中心和容灾中心之间可能会存在大量的数据交互,这时生产中心和备份中心可以采用多条GE链路,将青华机房生产中心的2台中心交换机连接到经四路机房的核心交换机上,做GE连接,这样可以在生产中心和备份中心之间建立部分网状的连接,并采用动态路由协议,如OSPF,所有的核心路由器和路由交换机均配置为OSPF的Area0,这样所以的链路在一个SPF链路状态数据库中,在路由选择中,2条GE链路的Metric值小。每个中心的2个路由交换机之间做2条GE链路的捆绑,不同的业务系统划分不同的VLAN,2台路由交换机之间在对应的VLAN做HSRP,不同的VLAN,采用的不同的路由交换机做Primary,这样可以平衡一定的出口流量。生产中心的2台出口路由器同时连接全省的各个地市的中心路由器,在备份中心连接到整个网络中后,各个地市可以增加链路连接备份中心的出口路由器,当生产中心遇到灾难后,备份中心的服务器及存储系统开始工作,同时,地市也通过同备份中心的链路,实现同备份中心的互连,这样,在网络上实现了真正意义上的容灾。2.5.4.在构建任何一个容灾系统时,在生产中心与备份中心建立一个好的SAN存储网络是非常重要的,尤其是在联通不断推出新的电信业务,并且必须对其进行整合时,综合考虑到各个不同的业务系统对性能的需求,对存储的不同需求时,更显得尤为重要。如图1所示SAN存储网络包括主机、存储以及核心的光纤交换机设备,主机和存储设备均通过各自的光纤接口连接至光纤交换机并通过光纤交换机的FABRICOS构成一个SAN存储局域网络。而构筑SAN存储网络时,首要考虑的问题是选择存储网络整合的关键产品之一-网络交换机,它可以影响到整个系统的性能,另外,还要考虑到系统的运行性能、高可扩充性、开放性、可维护性、用户操作的简易性以及充分保护用户投资等诸多方面的需求。高性能:首先硬件平台要可以胜任系统中性能的要求,满足各种应用对硬件平台在大数据量、高反映速度条件下有良好的性能的要求,并支持多机并行运行,性能有线性增长。因此,我们选择2GbFiberChannel作为存储网络的主干配置。高可用性:必须选择超级企业级的产品,使其具有更高的可靠性,同时在设计时,消除所有的单点失败的可能高可扩充性:采用高密度的核心交换机产品是实现高扩充性的保证。高密度的超企业级核心交换机使得存储网络的扩展变得十分简单易行。同时,内部的高速开关部件使得这种扩充能够使得网络的整体性能现行增长。开放性:能够确保支持所有主流厂商的服务器产品和存储厂商的产品。充分保护用户投资:充分利用现有的用户投资。在上图所示的方案中,主机和存储设备的冗余连接,整体提高系统的可靠性,所有连接在EMC软件PowerPath的支持下,工作在Active-Active模式,整体提高系统的性能。而双网络结构设计,提高网络的可靠性,避免由于意外系统故障造成网络中断。核心-边缘体系架构,方便未来网络的扩充。核心交换机具有很强的向下兼容性,即可兼容1G的交换机,又可兼容1G的存储设备,如磁带库等设备都可直接连接到线有的交换机中,提高设备的利用率。在EMCBusinessCopy软件配合下,可实现LAN-Free、Serverless备份,减少备份对网络带宽的占用,整体提高数据备份和恢复的速度图1所示方案中,我们实际配置了两个互为冗余、负载均担的双存储网络。这样的设计,首先,保证了数据传输的可靠性和准确性,在Fabric中,数据传输的链路会保持相对的稳定,不会像IP网络一样,前后两个数据包可能通过不同的路径到达目的地;其次,为实现网络的自我修复能力,网络在出现问题(如有个别交换机重新启动、ISL发生故障或维护时需要重新调整)时,会自动修复,但网络会有短暂的停顿,大约10秒钟,即使有一个网络有问题,在网络自我调整期间,存储系统仍然正常运行;第三,在系统正常维护时,存在第二个冗余网络,会为系统的维护带来方便,使XX联通得用户有足够的时间,来依次调整整个存储系统。这样,通过双网的设计,系统达到以下目的:提高网络的可靠性,避免由于意外系统故障造成网络中断充分利用网络的智能,使得故障发生时,能够在最短的时间内自动恢复提供系统在线维护的可能性,即便将一个网络停下来在线维护,也不会影响整个系统的正常运行另外,图1终所示的整个生产中心网络是以64-端口的Brocade公司的企业级光纤交换机SW12000为中心。现有的营帐系统和计费系统以及未来的其他的相互独立的业务的数据存储系统以及本次项目新部署的主机设备全都连接在冗余网络结构中。在主机一端,每台主机均配置两块光纤接口卡,由于现行的光纤技术已经能够支持2GB的传输,因此建议在每台主机上配置2块1GB/2GB自适应的光纤通道卡,主机通过该冗余的HBA分别连接至两台光纤交换机上,从而形成两条冗余的主机访问数据的链路,这样即使在主机一端出现一块卡故障或一条物理连接链路出现故障的情况下,主机访问数据也能持续进行,从而保证业务的持续运行;另外,在本期系统中涉及到的容灾业务均采用两台主机配置,2台主机通过相应的双机管理软件实现系统的集群工作方式,这样可以保证整个业务系统的高可用性和高可靠性。在经四路容灾中心机房,为了满足容灾中心现有及未来的需求,也将建设成为一个SAN网络。可以通过Brocade3900企业级光纤交换机将容灾中心的主机系统和存储设备构成一个SAN存储网络。至于生产中心与容灾中心(即青华与经四路之间)的链路,XX联通本期容灾系统生产中心和容灾中心之间的距离为10KM,正常考虑,该距离完全可以通过在两端铺设裸光纤进行远程连接,但为了保证XX联通大数据量的远程传输的性能,如果投资允许的话,我们还是建议采用基于波分复用技术通过DWDM设备进行远程连接。另外,考虑到备份系统的性能,在本期系统中,我们也建议将该系统独立出来,专门构成一个备份的SAN网络。2.5.5由以上分析可以发现,XX联通本期容灾系统将采用基于EMC智能存储设备的容灾解决方案加以实现,通过EMC的SRDF软件实现生产中心综合营帐系统的关键数据向容灾中心的远程同步;在生产中心和容灾中心考虑其他的业务需求,通过EMC的TimeFinder软件实现数据的BCV镜象;生产中心和容灾中心之间的数据传输链路通过DWDM设备进行连接。对XX联通综合电信业务支撑系统青华机房的现有综合营帐设备(含一台EMCSymmetrix8830和4台IBMS85主机)的设备配置维持原状,并通过Brocade12000企业级核心交换机将现有生产中心构筑成一个高性能的SAN网络。在异地备份中心(经四路机房)新增一台EMCSymmetrix8830存储服务器和2台IBMp690主机,同样采用Brocade3900交换机进行SAN的整合;至于生产中心和容灾中心之间的数据传输链路则通过DWDM设备进行连接。在上述方案中,通过EMC公司高端存储产品Symmetrix系列存储服务器,利用存储服务器的远程数据复制软件(SRDF),可以实现主数据中心和备份中心的操作系统、文件系统、数据库的实时拷贝维护。主、备中心磁盘阵列本身就可以通过阵列上的微处理器完成数据实时同步功能,将数据的损失降至最低,而且不需要主机干涉,对主机系统,数据库和应用系统完全透明,即实现远程容灾方案时,无须对数据库配置和应用系统进行任何改动,而且可以做到灾难发生的同时实现应用处理过程的恢复。远程备份系统的重新启动可以做到象一般电源故障后的重新启动那么简单。由于XX联通主中心和备份数据中心之间的距离比较短,因此我们建议采用同步方式进行数据传输,不但可以保证数据的完整性和一致性,而且可以保证数据传输的高性能。SRDF将数据同时存储在容灾主中心和备份中心的EMC磁盘阵列中,并保持主中心和备份中心磁盘阵列之间数据的随时同步,从而实现综合营帐关键业务系统在主生产中心的数据更新能够迅速完整地复制到位于异地的备份容灾中心;当主生产中心因为各种突发性灾难造成无法正常运行时,备份容灾中心可以在极短的时间内接替主中心应用系统的运行,从而恢复XX联通综合营帐等关键业务的开展。同时,在主中心故障排除后,备份中心数据可快速重新再同步回主中心,主中心快速重新投入运营。除此之外,在主生产中心,我们建议用户使用磁带库备份设备对关键数据定期进行备份,并及时将备份数据磁带转移至其它场所,实现真正意义上的数据高可用性。日后应用系统切换 结合XX联通本期容灾系统的需求,最终将实现基于综合营帐系统应用级的系统容灾,在本方案中,我们将就在灾难情况发生时,应用如何被接管做一简单的分析。在实施应用级的远程容灾方案之后,当主数据中心因为各种突发性灾难造成无法正常运行时,原来运行在主数据中心的综合营帐业务系统将切换到备份中心继续运行;切换方式分为两种,即手工方式和自动方式. 当用户选择采用手工方式进行应用切换时,在主数据中心因为突发性灾难造成崩溃后,需由容灾系统管理员在备份数据中心启动预先编写的,并已通过严格测试的业务系统切换脚本完成应用系统的切换过程.当用户不希望因为各种偶然性的因素(如网络故障,应用程序bug等)造成业务系统的远程切换,以及手工切换造成的业务中断时间在综合营帐业务和客服,缴费卡业务可以接受的时间范围内,或备份数据中心24小时有人值守的条件下,可以选择使用手工切换的方式完成应用系统的远程切换,这种方式可以使容灾系统管理人员对灾难备份与恢复操作进行更多的控制与管理.在通常情况下,应用系统的切换脚本包括以下内容: .磁盘镜像卷的拆分; .备份数据卷组的激活和文件系统的一致性检查; .网络配置的修改; .数据库恢复操作; .启动数据库; .启动应用系统等. 当用户选择采用自动切换的方式进行应用切换时,需要借助于高可用性集群软件,如HAGEO,MetroCluster等;EMC公司资深高可用性技术专家将结合XX联通综合营帐业务系统和缴费卡业务系统的应用实际情况和容灾环境的实际需求,对集群软件进行客户化配置,从而实现应用系统的自动切换功能;保证当突发性灾难发生时,即使在无人值守的情况下,也能够实现综合营帐业务系统和缴费卡业务系统的正常切换,确保业务系统能够实现全天候的正常运行。 下面便结合EMC的SRDF和TimeFinder软件如何实现应用系统在灾难情况下的切换和回切:本方案的基本原理采用EMCSymmetrix磁盘阵列,及EMC的SRDF及TimeFinder软件配合实现远距离的,无数据丢失的容灾方案。青华机房Symmetrix8830磁盘阵列(以下简称SymA)和经四路机房Symmetrix8830磁盘阵列(以下简称SymB)实现实时备份。SymB与SymA通过光纤交换机,光纤交换机之间通过DWDM设备相连接。SymB中的R2卷通过同步方式与SymA的R1数据保持一致。SymA中的R2卷通过同步方式与SymB的R1数据保持一致。SymB与SymA之间的同步方式使SymB内的R2卷存在了与SymA相同的数据,即SymB包括一个SYMA的数据镜像,是一份完整的数据备份。一旦SYMA发生灾难,SYMB仍保存了一份灾难前的全部数据结果。反之亦然。从而实现青华机房经四路机房两个中心互为关键业务容灾备份的需求。以下描述当灾难发生时,整个容灾系统的切换步骤:SYMA磁盘系统故障,当SYMA的数据磁盘和本地镜像盘故障或者磁盘控制器故障时,SYMA主机通过SRDF连接直接访问SYMB远程镜像盘。生产系统照常运行,当维护人员热更换有关部件后,SRDF系统自动将SYMB的R2的数据拷贝到SYMA的R1上。SYMB磁盘系统故障,当SYMB的磁盘子系统故障时,生产系统照常运行,数据被存储到SYMA的R1上,当SYMB的磁盘系统修复后,SRDF自动将R1的数据拷贝到SYMB的R2上。SYMA主机故障或者整个磁盘子系统全部损坏,当SYMA主机故障或者整个磁盘子系统全部损坏时,SYMB有两种情况:第一种情况:SYMB的BCV与SYMB的R2连接,此时:等待BCV与R2同步。同步完成后,切断BCV与R2的连接。切断SYMC的R2与SYMC的BCV的连接。通过SRDF控制命令,将SYMC的R2磁盘ReadOnly状态改为WriteEnabled状态。启动数据库及应用程序。分析:可以看出通过SYMB内部的TIMEFINDER同步操作,SYMB中的R2包含SYMA发生灾难时的最新数据,没有任何数据丢失发生;并且SYMB的BCV还包含上次正常操作状态二后保留的已知的完好数据。第二种情况,SYMB的BCV与SYMB的R2断开,这时:1)通过SRDF控制命令,将SYMC的R2磁盘ReadOnly状态改为WriteEnabled状态。起动数据库及应用程序。最后一种灾难情况,远程连接中断或channellink故障,当远程连接中断或channellink故障时,SYMB的Symmetrix系统将自动记录未被传输的磁道。Symmetrix不断试探链路,一旦链路恢复,系统则自动将未传送的磁道源源不断地传送到SYMB。接下来,我们来分析整个容灾系统的回切过程,具体实现步骤如下。实现步骤:对SymB的R2与SymA的R1进行同步。将SymB的R2数据增量同步到SymAR1待上述同步完成后,从SymA启动系统及应用,将生产系统切回开发区机房。最后,我们来分析容灾带宽的计算和容灾链路的选择。SymA和SymB之间的同步SRDF链路,可采用直连光纤的方式完成。另外,在SYMMETRIX内我们还建议配置SymmetrixOPTIMIZER软件用以优化系统性能。并建议配置ECC/OE管理软件用以管理整个存储平台以及SAN环境内的硬件和软件。我们建议在主机上配置POWERPATH软件用以实现主机HBA的故障切换和I/O负载均衡,以提高系统可靠性和整体性能。在两个中心均配置有与硬件设备连接的MODEM用于连接电话线,当系统内硬件或软件出现故障时,系统能自动拨号(800电话)进步EMC全球7×24小时技术支撑中心,获得及时的故障告警和处理。如果需要,EMC公司专业服务咨询部门可以根据企业现有信息系统情况和计划实施的信息系统构想为企业提高进一步信息基础架构和容灾系统实施的评估和咨询服务。本期系统总体资源描述为了整合本地存储和实现异地容灾方案和多平台数据安全访问,在开发区机房和黄河路机房现有设备基础上需要增加的硬件产品包括:设备名称数量存储整合前存储整合后备注容灾中心(经四路机房)新增存储设备(一台EMCsymmetrix8830)1配置容量为11.7TB(RAID1)作为容灾中心的存储设备新增2台Brocade3900光纤交换机2新增相应的网络设备(路由器,交换机,放火墙等)2台7507路由器,两台4507中心交换机及地市接口路由器等新增2台IBMp690主机2作为容灾中心的业务接管及测试主机新增一台DWDM设备1作为容灾中心与生产中心的连接设备增加11台PC服务器,作为容灾中心系统的业务接口机和容灾系统的ECC控制终端11青华生产中心新增一台DWDM设备1作为生产中心与容灾中心的连接设备LTO2驱动器5更换原有的LTO驱动器IBM主机光纤接口卡12作为备件使用新增2台Brocade3800光纤交换机2作为备份系统构成SAN网络PC服务器1ECC控制终端新增2台Brocade12000光纤交换机2作为生产中心的业务系统的核心交换机需要增加的软件产品包括:设备名称数量存储整合前存储整合后估计预算(RMB)容灾中心(经四路机房)SRDF和TimeFinder软件1配置容量为12TB(RAID1)EMCECC管理软件1Oracle数据库1套中间件软件1套综合营帐系统软件1套青华机房生产中心SRDF和TimeFinder1作为与生产中心的进行远程数据复制及BCV生成具体实施步骤建议在现有系统容灾备份中心的建设采用循序渐进方式,立足于保证业务连续及保护投资,分步实施,具体安排如下:1、建设容灾中心(经四路机房)在新的容灾中心(经四路机房)安装新购的存储设备,新购的营帐主机以及建设SAN网络。安装数据库软件,卷管理软件,生成与现有生产青华机房同样的卷设备。安装新购主机平台的营帐系统应用程序。新购存储设备与青华机房的8430存储设备联通。SAN网由两台FC交换机组成两个独立的fabric网络,每台主机分别通过二条光纤与两台FC交换机相连,存储设备8830分别通过两根光纤与两台FC交换机相连,每台主机通过EMCPowerPath软件实现多条光纤链路的复用以及故障切换。在新的容灾中心(经四路机房)建设IP局域网,以及与各地市以及营业厅、银行等之间的WAN。并与青华机房中心的IP网联通。2、综合营帐系统升级(AIX、Oracle和应用系统)。XX联通综合营帐系统在青华机房和经四路机房并行运行。先将新增的主机和存储系统构成营帐系统的环境,将应用系统安装并运行,如无问题将其转为生产系统,并将青华机房的系统进行升级,升级完成后运行,如正常再将应用系统切换会原有的青华机房。3、建立综合营帐系统数据的在两中心间的同步建立数据级灾备系统,通过灾备的实现远端磁盘的数据同步。通过磁盘级的灾备保证本地数据同远端时时数据一致,建立时间大约要20小时,在做第一次同步时,应用是正常运行的,不影响应用。灾难处理待容灾系统建成后,可能会因为计算机系统内部以及计算机所处环境中的潜在因素造成数据丢失情况的发生。下面针对可能发生的灾难作具体的操作:1、生产端R1的两台主机全部crash。在该灾难情况确认后,建议做灾难切换。待生产端的主机恢复以后再Fail-back。2、数据库ShutDown数据库Shutdown的原因很多,如某一进程的失败导致instance的Shutdown,内部的逻辑错误等。一般情况下数据库会先期处理这些问题。但EMC不建议在数据库出现问题的情况下马上切换系统。数据库工程师解决数据库的内部错误。另外用户可选择在Timefinder的BCV卷上的数据进行恢复。3、光纤通道交换机Fail如两个互相独立的光纤通道交换机同时Fail时,把整个系统切换到备份点。待生产端的光纤通道交换机恢复以后再Fail-back。4、DWDM设备故障当两条DWDM路由均极端失效时,EMC的SRDF会自动从同步模式转换成自适应拷贝模式。整个系统不需要切换。在生产系统端的任何I/O变化会记录在EMC的SymmetrixSRDF队列中,SRDF会不断地试探通信线路,一旦通信链路恢复,则SRDF会自动把未传输的I/O传送到R2。5、Symmetrix故障EMC建议在灾难确认后,把整个系统切换到备份点。待生产端的Symmetrix就位以后再Fail-back。6、在生产端的两个镜像盘同时失效。不需要切换。因为EMC的SRDF对应的Source卷和目标卷是一个远程镜像关系,不是拷贝!所以主机可通过SRDF路由直接访问远端的数据。当维护人员在热更换有关部件后,SRDF系统自动将R2的数据拷贝到R1上。7、备份端的主机故障不需要切换。但需把相应的应用文件备份,如controlfile等在另外的主机上创建,以接管灾难发生后的应用。8、备份端的光纤通道交换机。不需要切换。处理情况如同DWDM故障的情况。3.容灾系统监控由于XX联通本期容灾系统是作为综合电信支撑系统中关键性的生产系统的容灾,而且,在备份中心也将建立一套生产系统,系统的管理人员每天都要面对非常繁重的系统监控监控工作,每一部分的应用失效都可以导致生产系统的不正常运行,甚至系统的停止运行,这样会给XX联通造成相当大的影响。运行数据库,大型磁盘阵列,提供WWW服务,电信运营系统等的主机系统,一但出现故障,或是被黑客攻击致瘫痪,而未能及时恢复,其损失将无法估量。那么在系统的某一部分非正常工作后,系统监控人员能及时的发现,并采取解决措施,是使系统故障发生后,故障对生产系统的影响达到最低的关键所在。建立一套对系统以下部分的监控机制保证系统安全稳定,使故障损失降到最低的重要手段。系统组成部分为主机系统、数据库系统、网络系统、应用程序的运行。1、本监控系统的功能:东软软件有限公司自主开发的――Alarm2001主机监控系统,分析网络主机系统运行情况及性能,尽早发现主机故障及某些异常和可疑迹象。从而及时通知系统维护人员,并防患于未然,杜绝一些不该发生的故障,保证网络主机稳定、可靠地运行。Alarm2001主机监控系统1.0具有以下主要功能:实时主机监控。数据库状态监控。磁盘阵列空间监控。自定义状态监控。提供警戒发声报警。提供警戒灯光报警。电话唤醒值班人员报警。短消息唤醒值班人员报警。提供友好的全中文管理界面。2、监控系统的部分组成。Alarm2001主机监控系统全面采用Internet/Intranet技术构造系统。体系结构如下图所示。图1-1Alarm2001主机监控系统应用示意图Alarm2001主机监控系统基本运行环境为:TCP/IP的网络环境,Alarm2001主机监控系统,直拨电话一部(可选),Nokia5110(或6110)手机一部(可选),被监控主机。TCP/IP的网络环境:网络环境支持TCP/IP协议。Alarm2001主机监控系统: Alarm2001主机监控系统监控指定主机。直拨电话(可选): Alarm2001主机监控系统可用Modem与电话连接,当出现报警状态时,系统会向设定的值班电话拨号。Nokia5110(或6110)手机(可选):Alarm2001主机监控系统可用数据线与Nokia5110(或6110)手机相连,当出现报警状态时,系统会向指定的手激发出短消息报警。其软、硬件环境要求如下所述硬件要求:Alarm2001主机监控服务器:最低配置PC兼容机(CR366/64M内存以上(推荐128M内存以上,虚拟内存256-320M)/1G以上硬盘剩余空间/标准显示器(800*600256色以上),若服务器为Windows2000AdvanceServer则系统最低内存为128M。(推荐安装Windows2000AdvanceServer,128M系统软件要求:NT服务器:MicrosoftWindowsNTServer4.0(中文版)withServicepack3或以上版本;Windows2000professional,Windows2000AdvanceServer。Windows98:若选择短消息服务附件,则需安装在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论