业务运营支撑系统(BOSS)容灾业务技术规范V1.0.0_第1页
业务运营支撑系统(BOSS)容灾业务技术规范V1.0.0_第2页
业务运营支撑系统(BOSS)容灾业务技术规范V1.0.0_第3页
业务运营支撑系统(BOSS)容灾业务技术规范V1.0.0_第4页
业务运营支撑系统(BOSS)容灾业务技术规范V1.0.0_第5页
已阅读5页,还剩146页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中中 国国 移移 动动 通通 信信 企企 业业 标标 准准 qb-j-001-2005qb-j-001-2005 业务运营支撑系统(业务运营支撑系统(boss)容灾)容灾 业务技术规范业务技术规范 中国移动通信有限公司中国移动通信有限公司 发布发布 2005-4-27 发布2005-4-27 实施 版本号:版本号:1.0.0 t h e b u s i n e s s & t e c h n i c a l s p e c i f i c a t i o n o f d i s a s t e r r e c o v e r y o f b u s i n e s s & o p e r a

2、t i o n s u p p o r t s y s t e m ( b o s s ) qb-j-001-2005 ii 目录目录 1.适用范围适用范围.1 2.引用标准引用标准.1 3.术语和定义术语和定义.1 4.符号和缩略语符号和缩略语.4 5.总体说明总体说明.5 5.1.目标.6 5.2.原则.6 5.3.boss 容灾建设模型.7 5.3.1.boss 容灾建设关键要素.7 5.3.2.boss 容灾建设过程.8 5.4.boss 容灾系统的体系架构.9 5.5.边界划分.10 5.5.1.集团公司 boss 的容灾边界.10 5.5.2.省公司 boss 的容灾边界.11 5

3、.6.boss 容灾的功能.11 5.6.1.数据保护.11 5.6.2.业务接管.13 5.6.3.资源复用.14 6.boss 容灾分析容灾分析 .16 6.1.风险分析.16 6.1.1.风险与灾难.16 6.1.2.boss 风险分析.17 6.2.业务分析.19 6.2.1.业务等级区分原则.19 6.2.2.业务恢复要求指标级别.20 6.2.3.省级 boss 业务容灾要求等级界定.21 6.2.4.省级 boss 接口业务容灾要求.44 7.容灾策略容灾策略.51 7.1.选址.51 7.1.1.地点.51 7.1.2.距离.52 7.1.3.传输线路.53 7.2.容灾模式.

4、53 7.2.1.容灾层次.54 7.2.2.容灾范围.56 7.2.3.运营方式.56 qb-j-001-2005 iii 7.2.4.容灾规模.58 7.2.5.容灾模式分析.59 7.3.boss 容灾的演进.62 8.boss 容灾实现容灾实现 .66 8.1.boss 容灾技术实现.66 8.1.1.数据保护技术实现.66 8.1.2.业务接管功能实现.69 8.2.容灾技术要求.72 8.2.1.boss 容灾网络结构.72 8.2.2.存储平台容灾技术要求.73 8.2.3.应用平台容灾技术要求.75 8.2.4.接入平台容灾技术要求.76 8.3.容灾接口要求.78 8.3.1

5、.与核心网网元的接口.79 8.3.2.与业务网网元的接口.80 8.3.3.中国移动业务支撑网内部接口.82 8.3.4.中国移动业务支撑网外部接口.87 8.3.5.boss 系统与非中国移动计算机系统的接口.89 8.4.容灾技术选择.91 8.4.1.容灾技术选择要素.91 8.4.2.容灾技术选择策略.92 9.容灾管理要求容灾管理要求.98 9.1.boss 系统状态描述.98 9.2.容灾组织建设.100 9.2.1.省公司领导组.101 9.2.2.省公司执行组.103 9.2.3.省公司系统组.105 9.2.4.省公司业务组.108 9.2.5.行政管理组.110 9.2.

6、6.分公司领导组和执行组.112 9.3.灾难规划文档.115 9.3.1.容灾组织结构职责及通知手册.115 9.3.2.it 系统映射.115 9.3.3.执行组灾难恢复手册.116 9.3.4.系统组/业务组灾难恢复手册.116 9.4.日常管理.117 9.4.1.数据审查.117 9.4.2.系统维护.117 9.4.3.系统监控.118 9.4.4.软件版本管理.118 9.4.5.容灾变更管理.118 9.5.预警流程.119 qb-j-001-2005 iv 9.5.1.风险上报.120 9.5.2.风险评估.121 9.5.3.风险决策.121 9.5.4.风险告知.121

7、9.5.5.风险警备.122 9.5.6.发起系统切换.122 9.5.7.预警总结.122 9.6.灾难恢复.123 9.6.1.切换流程.123 9.6.2.回切流程.128 9.7.容灾演习.130 9.7.1.演习要求.131 9.7.2.演习流程.131 9.8.容灾测试.135 9.8.1.测试要求.135 9.8.2.测试流程.135 9.9.容灾培训.137 9.9.1.培训计划.137 9.9.2.培训内容.138 附件附件 a 编制历史编制历史.140 qb-j-001-2005 v 图表目录图表目录 图表 5-1 boss 容灾建设模型.7 图表 5-2 业务运营支撑系统

8、体系结构图.10 图表 6-1 风险分类及发生概率表.18 图表 6-2 风险业务影响程度表.18 图表 6-3 风险分析总结图.19 图表 6-4 rto 级别表.21 图表 6-5 rpo 级别表 .21 图表 6-6 营销管理业务容灾需求表.22 图表 6-7 渠道管理业务容灾需求表.24 图表 6-8 客户服务业务容灾需求表.27 图表 6-9 产品管理业务容灾需求表.28 图表 6-10 客户管理业务容灾需求表.29 图表 6-11 订单管理业务容灾需求表.30 图表 6-12 服务开通业务容灾需求表.30 图表 6-13 资源管理业务容灾需求表.32 图表 6-14 综合采集业务容

9、灾需求表.33 图表 6-15 融合计费业务容灾需求表.33 图表 6-16 综合帐务业务容灾需求表.34 图表 6-17 结算处理业务容灾需求表.34 图表 6-18 合作伙伴管理业务容灾需求表.35 图表 6-19 系统业务容灾需求.36 图表 6-20 统计报表业务容灾需求表.36 图表 6-21 boss 业务容灾级别、恢复指标要求汇总表.43 图表 6-22 与核心网元的接口业务容灾需求表.45 图表 6-23 与业务网网元接口业务容灾需求表.46 图表 6-24 中国移动业务支撑网内部接口业务容灾需求表.47 图表 6-25 中国移动业务支撑网外部接口业务容灾需求表.47 qb-j

10、-001-2005 vi 图表 6-26 与非中国移动计算机系统的接口业务容灾需求表.48 图表 6-27 与全国中心 boss 之间的接口业务容灾需求表.49 图表 6-28 boss 业务容灾级别、恢复指标要求汇总表.50 图表 7-1 同城异域和异地二种情况比较表.52 图表 7-2 容灾层次关系图.54 图表 7-3 容灾层次比较表.56 图表 7-4 主备中心方式示意图.57 图表 7-5 双中心方式示意图.58 图表 7-6 运营方式比较图.58 图表 7-7 容灾模式对比情况表.60 图表 7-8 容灾模式决策流程图.61 图表 7-9 容灾模式情况分析图.63 图表 7-10

11、容灾演进路线 1.64 图表 7-11 容灾演进路线 2.65 图表 7-12 容灾演进更替过程图.65 图表 8-1 应用切换方式比较表.70 图表 8-2 boss 容灾网络拓扑图.72 图表 8-3 容灾技术与容灾结构对应图.73 图表 8-4 san 网络结构示意图.75 图表 8-5 生产中心与容灾中心网络连接示意图.77 图表 8-6 容灾中心对外网络连接示意图.78 图表 8-7 与核心网网元网络连接示意图.79 图表 8-8 与核心网网元容灾切换实现示意图.80 图表 8-9 与业务网网元网络连接示意图.81 图表 8-10 与业务网网元容灾切换示意图.82 图表 8-11 与

12、经营分析系统的网络连接示意图 1.84 图表 8-12 与经营分析系统的网络连接示意图 2.84 图表 8-13 与 boss 网管系统网络连接示意图 1.86 图表 8-14 与 boss 网管系统网络连接示意图 2.87 图表 8-15 与业务支撑网外部系统的网络连接示意图 1.88 qb-j-001-2005 vii 图表 8-16 与业务支撑网外部系统的网络连接示意图 2.88 图表 8-17 与非中国移动计算机系统的网络连接示意图书 1.90 图表 8-18 与非中国移动计算机系统的网络连接示意图书 2.90 图表 8-19 容灾技术选择涉及因素图.91 图表 8-20 容灾技术选择

13、流程图.93 图表 9-1 容灾系统状态转换图.99 图表 9-2 容灾系统管理组织结构图.101 图表 9-3 省公司领导组人员结构图.102 图表 9-4 省公司执行组人员结构图.104 图表 9-5 省公司系统组人员结构图.106 图表 9-6 省公司业务组人员结构图.109 图表 9-7 行政管理组人员结构图.111 图表 9-8 分公司执行组人员结构图.112 图表 9-9 容灾组织结构建设图.114 图表 9-10 职责内要执行恢复工作列表.117 图表 9-11 预警流程图.120 图表 9-12 容灾切换流程图.123 图表 9-13 灾难评估图.125 图表 9-14 灾难回

14、切流程.128 图表 9-15 灾难演习流程.132 图表 9-16 测试流程.136 qb-j-001-2005 viii 前前 言言 本标准由中移有限计业 2005 44 号印发。 本标准由中国移动通信有限公司计费业务中心提出并归口。 本标准由标准提出并归口部门负责解释。 本标准起草单位:中国移动通信有限公司计费业务中心。 本标准主要起草人:黄岩、滕滨、常倩、刘虹、张红星、吴唯宁。 本标准解释单位:中国移动通信有限公司计费业务中心。 qb-j-001-2005 1 1.适用范围 本标准适用于中国移动各省(直辖市、自治区)boss 容灾系统的建设。 2.引用标准 中国移动业务运营支撑系统(b

15、oss)技术规范(1.0 版) 中国移动业务运营支撑系统(boss)业务技术规范(1.5 版) 中国移动业务运营支撑系统(boss)业务技术规范接口分册(1.5 版) 中国移动业务运营支撑系统(boss)业务技术规范渠道管理分册(1.5 版) 中国移动业务运营支撑系统(boss)业务技术规范积分管理分册(1.5 版) 中国移动业务支撑网网管系统规范 中国移动二级经营分析系统与源系统接口规范 中国移动经营分析系统与 boss 系统互动技术规范 3.术语和定义 名词解释 恢复时间目标recovery time objective,rto 表示了从灾难发生直到业务流程再 次运行(即被恢复)的时间。r

16、to 有两个组成部分,明确灾难发生 后指示恢复流程开始的决策时间(decision time)和进行灾难恢复 流程的实施时间(deployment time)。一般来说,恢复时间 (rto)越短,那么灾难恢复方案的成本就越高,但是由于灾难造 成的业务损失就越小;反之,恢复时间(rto)越长,灾难恢复方 案的成本较低,但是由于灾难造成的业务损失就较大; 恢复点目标recovery point objective,rpo 是灾难发生后业务能够容忍的数据 丢失量,或者说灾难发生造成的数据丢失量。一般来说, rpo 越 高(即,丢失的数据越少) ,容灾的成本越高,但是由于灾难造成的 业务损失就越小;反

17、之,rpo 越低(即,丢失的数据较多) ,容灾 的成本越低,但灾难造成的业务损失也越大。 系统数据是可以通过安装、配置等手段生成的数据及记录这些数据状态的数 qb-j-001-2005 2 名词解释 据,系统数据包含应用软件数据、系统软件数据、系统状态数据。 业务数据是通过业务处理生成的数据,业务数据包含业务结果数据、业务过程 数据和业务状态数据。 应用软件数据指 boss 应用。如计费应用、营业应用、结算应用等。 系统软件数据指中间件、数据库、操作系统及基于这些软件的各种工具软件等 系统状态数据指应用/系统软件配置数据、应用/系统软件版本号、补丁号、系统日 志数据等。 业务结果数据指经过业务

18、处理之后生成的数据,如详单数据、帐单数据、客户数 据、接口数据等。 业务过程数据指业务处理过程中产生的临时中间数据。如统计中间表数据。 业务状态数据指用以标识业务处理状态的数据。如交易 id 数据、剔重索引数据等。 关键业务是指由于该业务中断,将会对企业运营(包括直接和间接的影响) 和客户感知造成严重或较严重影响的业务及其所依赖的业务。 非关键业务是指由于该业务中断,将会对企业运营(包括直接和间接的影响) 和客户感知产生一般或较小影响或基本没有影响的业务。 风险是可能导致系统中止运行、业务中断并给企业和客户造成重大影响 的潜在事件或事故。boss 容灾建设需要通过一系列手段(如制定 防范流程,

19、选择风险概率小的地址作为容灾中心等)来尽量防止风 险发生。 灾难是已经发生,并导致系统中止运行、业务中断,给企业和客户造成 重大影响的事件或事故。boss 容灾建设需要通过一系列手段(如 容灾演习,灾难切换流程等)来减少灾难发生后对业务连续运行带 来的影响。 风险分析以保障安全为目的,按照科学的程序和方法,对影响系统运行的固 有的或潜在的危险及严重性进行预先的安全分析与评估。 容灾模式结合风险分析结果和业务分析结果,从容灾层次、容灾范围、运营 方式、容灾规模等多角度进行综合分析后选择的容灾模式。 qb-j-001-2005 3 名词解释 容灾层次根据业务恢复时间的长短将 boss 容灾划分为三

20、个容灾层次:数据 级、应用级和业务级。 数据级容灾是仅将生产中心的数据完整地复制到容灾中心的容灾方式。 应用级容灾是指在数据级容灾实现数据可用的基础上,进一步实现了应用的可 用性,确保业务可以快速恢复。 业务级容灾是生产中心与容灾中心对业务请求同时进行处理的容灾方式,能够 确保业务持续可用。 容灾范围根据业务影响分析结果,boss 系统的业务划分为关键业务和非关 键业务两大类。根据 boss 容灾选择的业务种类,分为关键业务容 灾或全业务容灾。 关键业务容灾至少包含本规范界定的所有关键业务的容灾。 全业务容灾包含 boss1.5 规范描述的全部业务的容灾。 运营方式在 boss 容灾建设时,根

21、据生产中心和容灾中心承担的 boss 生产 任务的程度进行分类,主要分为主备中心和双中心两类运营方式。 主备中心运营方式之一。生产中心承担生产任务,容灾中心主要承担容灾功 能,生产中心与容灾中心为主备关系。 双中心运营方式之一。生产中心和容灾中心均承担生产任务,两中心负荷 分担,互为容灾,任务分割可按照 boss 系统功能域或地域划分, 两中心基本对等。 容灾规模根据容灾中心与生产中心的 it 系统在处理能力、可靠性等系统层面 指标的相等或不等可将容灾规模分为同级容灾和降级容灾。 同级容灾是指容灾中心的 it 系统在处理能力、可靠性等指标和生产中心相当。 降级容灾是指容灾中心的 it 系统在处

22、理能力、可靠性等指标低于生产中心。 定点复制是在业务运行过程中对某一时刻的数据进行复制。 连续复制是在业务运行过程中对数据进行不间断地复制。 同步复制是指任意时刻复制数据在两个中心均保持一致。如果生产中心的复制 数据发生了更新操作,这种变化会立刻反映到容灾中心。 qb-j-001-2005 4 名词解释 异步复制是指某个时刻复制数据在两个中心不是完全一致的。如果生产中心 的复制数据发生了更新操作,这种改变将在一定的时间内反映到容 灾中心。 boss 系统状态在任一时刻,boss 生产系统及其容灾系统总处于正常状态、灾难 状态、演习状态或预警状态这四种状态中的某一确定状态。 正常状态生产中心和容

23、灾中心将按照设计角色,分别提供各自的系统功能。正 常状态下“主备中心运营方式”的生产中心提供 boss 业务支撑,容灾 中心提供后备支持或辅助性业务支撑。 “双中心运营方式”的两个中心都 提供业务支撑。 灾难状态当发生严重故障或灾难,造成业务支撑无法正常提供时,boss 系统 处于灾难状态。灾难状态下, “主备中心运营方式”的容灾中心将提供全 部业务支撑。 “双中心运营方式”时,另一个生产中心将提供全部业务支 撑。原生产中心将根据灾难程度进行系统恢复或重建。 预警状态部分可能引发灾难的风险是可以预测的,如台风、暴雨、预告的电力 供应中断等; boss 系统亦存在计划内风险,如重大的系统变更、系

24、 统升级等。预警状态下,生产中心和容灾中心依然具备提供正常业务 支撑的能力,但应采取必要的措施预防风险、提前抵御灾难。当风险 演变为灾难时,将损失降低到可以接受的程度。 演习状态演习状态下,生产系统按照预先设计的触发条件,根据灾难恢复流程 的指示,将部分或全部业务交由容灾系统接管。根据事先定义的演习 场景,生产中心终止全部或部分业务支撑,容灾中心或生产中心将提 供部分或全部的业务支撑。 4.符号和缩略语 缩写英文描述中文描述 rtorecovery time objective恢复时间目标 rporecovery point objective恢复点目标 driidisaster recove

25、ry institute international国际容灾协会 qb-j-001-2005 5 bossbusiness & operation support system业务运营支撑系统 qb-j-001-2005 6 5.总体说明 经过近几年的集中化改造建设和不断完善,各省(自治区、直辖市)移动通信公 司(以下简称省公司)的 boss 系统已经在市场拓展、客户服务等工作中发挥了重要 的支撑作用,成为中国移动贯彻落实“服务与业务领先”战略的有力手段。 日益激烈的市场竞争和不断提高的客户服务质量需求对 boss 业务支撑能力和可 靠稳定运行的要求越来越高,从面向客户服务的角度而言,无论何时

26、出现何种情况, 都需要中国移动提供不间断的业务支撑服务,以保证客户满意度、客户服务质量、企 业信誉等不受影响;对企业而言也可避免财务损失,增强企业竞争力。 与此同时,boss 集中化在带来业务快速响应等众多优势的同时,也存在着系统 故障点集中、风险集中的危险,如:系统故障、人为误操作、火灾、水灾、传输中断、 电网停电等系统风险。因此,适时、合理地规划和开展中国移动业务运营支撑系统容 灾(以下简称 boss 容灾系统)建设,已经成为中国移动的重要任务。 boss 容灾系统是 boss 系统的有机组成部分,为 boss 系统提供完善的数据 保护和恢复机制。boss 容灾系统与 boss 生产系统互

27、相关联、互为补充,共同确保 业务的连续运行和服务的持续提供。 为了更好地开展 boss 容灾系统的建设,集团公司在综合各容灾试点省份成功经 验的基础上,制定出本中国移动业务运营支撑系统容灾业务技术规范 ,为各省公司 给出系统建设的指导性原则和建议,并以此规范为基础,对各省公司的 boss 容灾建 设提出明确的要求。 本规范各章节内容如下: 第 1 章,适用范围。 第 2 章,引用标准。 第 3 章,术语和定义。 第 4 章,符号和缩略语。 第 5 章,总体说明,描述 boss 容灾系统的定位、容灾建设的目标、原则、建设 模型、容灾边界划分及容灾功能。 第 6 章,boss 容灾分析,对 bos

28、s 容灾进行风险分析和业务分析,明确容灾指 标。 qb-j-001-2005 7 第 7 章,容灾策略,描述 boss 容灾策略的制订标准、方法和过程。 第 8 章,boss 容灾实现,描述 boss 容灾的技术实现手段及技术选择策略。 第 9 章,容灾管理要求,描述 boss 容灾的组织结构、人员和流程等管理维护方 面的要求。 5.1. 目标 boss 容灾系统的总体目标是: 为 boss 系统提供风险预防机制和灾难恢复措施,在确保数据安全的基础上提高 业务连续运行能力,降低企业运营风险,将业务损失降低到可接受的程度,提升服务 质量和服务水平,增强企业竞争力。 当前 boss 容灾系统的建设

29、目标是: 各省在 boss1.5 项目实施完成后,在全业务数据级容灾的基础上开展关键 业务应用级的容灾建设,有条件的省份可以直接考虑全业务应用级容灾,逐 渐建立并完善运行维护体系和灾难恢复机制。1 选址:boss 容灾系统要求在原有 boss 机房不同的局址上设置 容量:应至少满足 boss1.5 系统的容量要求。 boss 容灾系统的远期目标是:实现双中心运营的全业务应用级容灾。 各省在对 boss 容灾系统进行规划时,应考虑向全业务双中心的目标方式演进。 5.2. 原则 为了顺利实现 boss 容灾系统的建设目标,在系统规划、建设、实施、运行和完 善的过程中,应遵循以下建设原则: 实用性与

30、成熟性原则:boss 容灾系统的建设,要尽量采用业界成熟、可靠 和实用的容灾技术,以确保 boss 容灾系统的可靠性。 先进性原则:boss 容灾系统的软硬件平台以及应用软件应采用先进的设备 和技术,确保系统的技术先进性,保证投资的有效性和延续性,满足和适应 中国移动业务运营支撑系统快速变化和发展的要求。 1 关于全业务数据级容灾、关键业务应用级容灾、全业务应用级容灾的描述请参看第七章相关内容。 qb-j-001-2005 8 开放性与标准化原则:系统应采用开放的技术标准和协议,保证系统兼容性。 灵活性与可扩展性原则:系统应具备按需扩展的能力,支持多种组件模块、 多种物理接口;提供技术升级、设

31、备更新的灵活性;支持业务功能的重组与 更新的灵活性。 循序渐进原则:boss 容灾系统需要随着 boss 生产系统的发展而不断完善, 为保证在一定的投资规模和实施周期内完成 boss 容灾系统的建设,boss 容灾的业务恢复目标和范围必须是可实现的和明确的,这样既可节省建设投 资,又可以缩短建设周期。 资源充分利用原则:boss 容灾系统的发展,应和 boss 生产系统一样,在 节约投资、节约成本的原则下进行。应充分发挥所购买设备的能力,同时采 用流程优化等措施,降低 boss 容灾系统的运营成本。 5.3. boss 容灾建设模型 参照国际容灾协会 drii(disaster recover

32、y institute international)建议的容灾 建设流程,结合各容灾试点省份的成功经验,本规范采用如下 boss 容灾建设模型: 流程 人员 技术 关关键键 业业务务 业业 务务分 分 析析 策策 方方 测测 略略 制制 订订 案案 实实 施施 试试 / 演演 习习 维维 护护 / 务务 业业 键键 关关 非非 图表 5-1 boss 容灾建设模型 qb-j-001-2005 9 5.3.1.boss 容灾建设关键要素 boss 容灾系统的建设,必须以业务为核心,配备相关人员、制定完善的流程、 采用合适的技术,以保证 boss 容灾系统的成功实施和有效运营。其中: 业务业务,是

33、指 boss 所支撑的业务。容灾的总体目标是提高业务的连续运行能力,因 此 boss 容灾系统的建设必须以业务为核心。根据业务中断后的影响程度将业务区分为 关键业务和非关键业务。2 技术技术,是指容灾涉及到的多种技术,包括数据复制技术,应用切换技术和接口切 换技术等。 流程流程,是保障容灾系统正常运行及对故障快速响应的必要条件。包括切换流程, 回切流程,测试流程和演习流程等。 人员人员,是指容灾系统在分析、设计、实施和维护等过程中涉及的人员及其组织形 式。 各要素之间的关系是: 人员依据容灾系统目标的要求,针对各种相关 it 技术进行评估,选择适当的技术 来支持这些目标的实现。 人员制订了流程

34、,并驱动流程的贯彻执行,维护流程的变更及督促流程的完善。 流程一旦建立,就对人员起到调控作用,人员必须依据流程执行相应的工作步骤。 流程的执行需要部署相应的技术。但技术手段通常不能完全自动地实现所有的流 程,需要人员对技术手段进行补充。 人员和技术以业务为核心,通过管理机制进行有效的结合,贯彻和执行相应的流 程,以最终确保业务的连续运行和服务的持续提供。 5.3.2.boss 容灾建设过程 根据 boss 容灾建设模型,容灾系统建设过程分为分析、策略制订、方案实施和 测试/演习/维护四个阶段。下面分别对各个阶段作出说明: 1.分析阶段 2 关键业务、非关键业务的描述请参看第七章相关内容。 qb

35、-j-001-2005 10 容灾建设项目启动后,首先要收集业务过程的信息、技术基础架构的支撑环境、 灾难类型等方面的内容,然后进行业务影响分析和风险分析,确定由于中断和预期灾 难可能造成的影响。分析的结果用以确定业务级别、业务恢复时间和可承受的数据损 失程度。 2.策略制订阶段 在本阶段,结合以上的分析成果,以及企业对容灾的投入规划,制订企业短期、 长期范围内的容灾策略和目标,先定义初步的方案,再进一步结合各种因素进行分析, 在候选的方案中剔除不合适的方案,将剩余的可用的方案提交给评估组,评估组经过 充分详细的评审,选择最合适的容灾方案。 3.方案实施阶段 根据选择的容灾方案,整合企业相关资

36、源,确定容灾的体系架构和灾难恢复规划, 通过技术手段和服务达到所要求的容灾目标。 4.测试/演习/维护阶段 为了保证 boss 容灾系统的有效性,必须进行不断的测试和验证。同时,通过培 训、演习,能够使企业内部人员熟悉自己在 boss 容灾流程中所扮演的角色,保证在 灾难真正发生的时刻能够有条不紊地执行恢复流程。 随着业务需求、新技术的不断升级以及新的内部和外部规则的变化,it 系统也会 随之改变。要确保灾难恢复规划的有效性,必须定期检查和修改规划。 以上四个阶段是一个周而复始的过程,应随着企业内外部环境的变化而灵活变化。 各省公司进行 boss 容灾系统的建设时,应该参考此建设模型,指导和规

37、范 boss 容灾建设时的各个阶段的工作。 5.4. boss 容灾系统的体系架构 boss 容灾系统是业务运营支撑系统的有机组成部分,采用两级结构体系,即集 团公司 boss 容灾系统和省公司 boss 容灾系统。 一级系统:集团公司 boss 生产系统(包括一级 boss 系统、全网认证计费系 统、清算四期系统、智能网清算系统、国际出入口局计费结算系统)和 boss 容灾系 统,负责中国移动集团公司的 boss 系统的生产和容灾功能; qb-j-001-2005 11 省级系统:省公司 boss 生产系统和 boss 容灾系统,负责本省的 boss 系统 生产和容灾功能。 其体系结构如下图

38、所示: boss网网管管 经经营营分分析析系系统统 boss系系统统 boss生生产产系系统统 boss容容灾灾系系统统 一级业务运营支撑系统 省级业务运营支撑系统 boss网网管管 经经营营分分析析系系统统 boss系系统统 boss生生产产系系统统 boss容容灾灾系系统统 图表 5-2 业务运营支撑系统体系结构图 5.5. 边界划分 中国移动业务支撑系统分为集团公司和省公司两级,且每级业务运营支撑系统均 由多个系统组成,因此需要明确容灾建设的边界。 5.5.1.集团公司 boss 的容灾边界 2002 年,集团公司在深圳设置了国内和国际 gsm 漫游清算中心的 boss 容灾系 统。 目

39、前,集团公司还有以下 6 个系统尚未实施容灾: 全网认证计费系统(在北京望京机房):完成 internet 拨号上网、wap 业务、 voip、vpdn 等的认证计费; 清算四期系统:实现全国中心对移动互联网、gprs、wap、sp 短信、央 视互动等的国内、国际数据业务的清算; qb-j-001-2005 12 智能网清算系统:实现全国中心对移动智能网业务的计费结算; 国际出入口局计费结算系统:实现全国中心对北京、上海、广州三个国际出 入口局的计费结算处理; 一级 boss 系统:向用户提供跨省异地业务受理、异地缴费、异地扣帐、移 动用户小额支付、全国性大客户/集团的客户服务等功能; 一级经

40、营分析系统:实现数据仓库的多维分析或挖掘功能。 以上 6 个系统中,除了一级经营分析系统,其它系统都是集团公司的清算或业务 中心,从业务的重要程度和对业务连续性的要求都非常重要,应该考虑其容灾系统的 建设。这些系统的容灾建设不在本规范考虑的范围之列。 5.5.2.省公司 boss 的容灾边界 目前各省都已完成 boss 系统的集中化改造,并正在按 boss1.5 规范的要求进 行 boss 系统的升级改造工作。 省公司 boss 容灾系统仅限于 boss1.5 规范中描述的内容,对于 boss 网管、 经营分析等其它系统的容灾建设不在本规范考虑的范围之列。 5.6. boss 容灾的功能 bo

41、ss 容灾系统功能包括数据保护、业务接管、资源复用等方面内容。 5.6.1.数据保护 数据保护是实施应用切换和业务接管的基础。 根据数据的生成方式将 boss 系统的数据分为系统数据和业务数据两大类。 系统数据是可以通过安装、配置等手段生成的数据及记录这些数据状态的数据, 其中系统数据包含应用软件数据、系统软件数据、系统状态数据。 系统数据包括: 应用软件数据:指 boss 应用。如计费应用、营业应用、结算应用等。 系统软件数据:指中间件、数据库、操作系统及基于这些软件的各种工具软 件等。 qb-j-001-2005 13 系统状态数据:指应用/系统软件配置数据、应用/系统软件版本号、补丁号、

42、 系统日志数据等。 业务数据是通过业务处理生成的数据,其中业务数据包含业务结果数据、业务过 程数据和业务状态数据。 业务数据包括: 业务结果数据:指经过业务处理之后生成的数据,如详单数据、帐单数据、 客户数据、接口数据等。 业务过程数据:指业务处理过程中产生的临时中间数据。如统计中间表数据。 业务状态数据:指用以标识业务处理状态的数据。如交易 id 数据、剔重索引 数据等。 上述数据按其存储介质又分为内存数据、本地硬盘数据、外置硬盘数据和脱机存储 数据三大类。 内存数据:指存储在本地内存的数据,如接口表数据等; 本地硬盘数据:指存储在本地硬盘的数据,如操作系统软件、boss 应用软件、 数据库

43、软件、配置文件等;3 外置硬盘数据:指存储在外置硬盘的数据,如数据库的数据文件、详单文件等; 脱机存储数据:指存储在磁带库、光盘库等脱机存储设备的数据,如营业历史 数据、帐单历史数据等; 从需要保护的对象看,数据保护就是保证生产中心和容灾中心的系统数据和业务数 据的完整性、一致性、可用性。从实施保护的位置看,数据保护是保证生产中心和容灾 中心的本地硬盘、外置硬盘和脱机存储设备的数据的完整性、一致性、可用性。 完整性:即生产中心的数据被完整地、无遗漏地复制到容灾中心; 一致性:即保证被保护的数据在业务逻辑上是严格一致的; 可用性:即保证被保护的数据是可以使用的; 数据复制是数据保护的基础,目前的

44、数据复制技术难以完全同时保证数据的完整性、 3目前部分系统不配置本地硬盘,将操作系统等软件安装在外置硬盘(san boot 方式) ,对于这些系统 则不考虑本地硬盘数据的保护。 qb-j-001-2005 14 一致性和可用性。因此为实现数据保护的目的,需要在数据复制的基础上采用其他技术 手段,如采用定点数据复制技术与连续数据复制技术的组合并辅以手工检查等措施。4 5.6.2.业务接管 容灾的目标是保证业务的连续运行能力,当发生系统重大故障或灾难要实施业务接管 时,需考虑整个业务系统中所有业务环节的切换。如计费业务的切换,需要把采集、预处 理、批价、入库等应用系统同时切换,并要有一定顺序。 而

45、且为保障业务的连续性,需要考虑非 it 系统因素,如人员等。所以,业务接管不 仅是 it 系统的切换,同时需要 企业协调运作。本节只讨论业务接管涉及的 it 系统的切 换。人员及流程的配合参见第九章的内容。 一般而言,一个业务系统的切换至少涉及 3 个业务环节: 数据的切换:在容灾中心启动支持该业务系统的相应数据; 应用的切换:在容灾中心启动支持该业务系统的相应应用; 客户端或外围系统的切换:即使用该业务系统的客户端或外围系统将其访问对 象切换到容灾中心相应的接口设备或接口应用上; 其中客户端或外围系统的切换可以采用浮动 ip 地址、四层交换机、智能 dns、外 围应用切换等技术。详细内容参见

46、第八章的内容。 应用的切换可以采用自动切换、半自动切换、手动切换等方案。详细内容参见第八 章的内容。 当生产系统的处理能力只是部分损坏,仍然保留一定的系统处理能力的时候,可以 只进行局部切换。局部切换相对于全部切换而言所影响和涉及的范围相对要小一些,所 以如果只是局部切换就可以满足业务需求的时候应优先考虑局部切换。局部切换后将由 生产系统和容灾系统一起协同对外提供业务能力。 视 boss 系统损坏的具体 it 基础单元,局部切换可分为应用程序切换、数据库切换 和部分系统切换三种方式。 应用程序切换应用程序切换 当生产系统的业务层相关的 it 基础系统(包括应用程序、中间件和相关的服务器)出 4

47、 定点复制技术与连续复制技术的详细解释参见第八章的内容 qb-j-001-2005 15 现短时间不可恢复的故障而核心数据相关系统还可以正常工作时,可以考虑应用程序切换 方式。可能的情况包括但不限于:进行应用处理的多台机器同时宕机而且短时间内无法恢 复;进行应用处理的服务器性能严重下降或严重不稳定而短时间内无法排除故障。 切换后由容灾系统提供业务逻辑处理部分功能,生产系统提供数据层的相关服务。容 灾系统的业务逻辑处理部分远程访问生产系统中的核心数据服务。 由于进行了应用程序的切换,相应的对外接口部分也需要进行切换。 数据库切换数据库切换 当生产系统数据层相关的 it 基础系统(包括磁盘阵列、数

48、据库和相关的服务器)出现 短时间不可恢复的故障而业务层相关系统还可以正常工作时,可以考虑数据库切换方式。 可能的情况包括但不限于:磁盘阵列损坏、数据库无法正常工作、多台数据库服务器同时 宕机或不稳定等情况。 切换后由容灾系统提供数据层数据处理部分,生产系统提供业务层的相关服务。生产 系统的业务逻辑处理部分远程访问容灾系统中的核心数据服务。 由于没有进行应用程序的切换,相应的对外接口也无需进行切换。 部分系统切换部分系统切换 按照完整的业务处理逻辑进行划分切换,比如计费应用,将计费应用相关的应用程序、 中间件、数据库、数据、磁盘阵列和主机切换到容灾系统中去,而帐务处理模块相关的的 应用程序、中间

49、件、数据库、数据、磁盘阵列和主机仍然在生产系统中完成。 可能的情况包括但不限于:生产系统业务逻辑处理能力下降,无法支持全部模块的正 常运行;生产系统的数据部分损坏等。 由于进行了应用程序的切换,相应的对外接口部分也需要进行切换。 全部切换全部切换 当生产系统发生了毁灭性的灾难如地震、火灾、电源损坏等情况导致生产系统的处 理能力完全丧失;或虽然生产系统还具备部分业务逻辑处理和核心数据能力,但由于整 个系统模块间的逻辑关系、整个系统的部署方式而导致无法进行部分切换等时候,可以 进行全部切换。 5.6.3.资源复用 为了实现灾难发生后的业务接管,容灾中心需要一定数量的软硬件和存储设备,如果 qb-j

50、-001-2005 16 容灾中心的设备都只处于备份状态,则无法充分发挥这些设备的功能和处理能力。因此在 容灾系统上实施资源复用有以下三个方面的意义: 分担生产中心的负担,提高设备利用率;例如可以把读取数据的应用放到容灾中 心运行,以减轻生产系统压力。如,经营分析系统的 etl 工作、统计报表工作、 用户自查询工作、系统数据备份工作等。 验证数据复制的可用性;例如在使用存储级复制过程中,数据不能被直接访问, 如果不实施数据的资源复用,则无法验证数据复制的可用性。 提高容灾中心的维护能力,保证在灾难发生后业务接管的人力资源的支持,并 具备向双中心发展的基础。 资源复用包括处理能力的复用和数据的复

51、用。 处理能力的复用是指采用某种方法或技术对容灾中心的软硬件设备进行使用。 如双中心负载分担方式(对于同一生产任务两个中心负载分担并互为备份或两 个中心运行不同生产任务并互为备份)或主备中心方式(生产中心运行营业、 帐务、计费等主要生产任务,容灾中心运行测试、统计、查询等辅助生产任务) 。 5 数据的复用是指利用容灾中心的数据实现部分业务功能以减轻生产中心的运行 压力。对于应用嵌入等复制技术而言,容灾中心的数据可以直接使用;对智能 存储等复制技术而言,容灾中心的数据不可以直接使用,一般采用数据快照的 方式实现数据的复用。6 5 双中心、主备中心的详细解释参见第七章的内容 6 数据快照的详细解释

52、参见附件的内容 qb-j-001-2005 17 6.boss 容灾分析 boss 系统在运行过程中存在各种可能导致系统运行异常中止并致使企业、客户 利益遭受重大损失的风险,为降低这些风险发生带来的损失,省公司需要根据本省的 实际情况进行风险分析并规划出应对措施。 boss 系统业务复杂、种类繁多,本章将对 boss 系统的业务进行级别划分,并 根据业务级别和数据的重要程度确定相应的业务恢复指标。 风险分析结果和业务分析结果将作为容灾策略制定的依据。7 6.1. 风险分析 风险分析,是以保障安全为目的,按照科学的程序和方法,对影响系统运行的固 有的或潜在的危险及严重性进行预先的安全分析与评估。

53、在条件许可的前提下,以既 定的指标、等级或概率值做出定量的表示,为制订基本的防护措施和安全管理提供科 学的依据。 本规范中,将对可能影响中国移动业务运营支撑系统正常运行的风险进行分类, 省公司可根据具体情况分析本省可能涉及到的风险种类,在 boss 容灾系统的规划中 尽量规避。 6.1.1.风险与灾难 风险主要是可能导致系统中止运行、业务中断并给企业和客户造成重大影响的潜 在事件或事故。boss 容灾建设需要通过一系列手段(如制定防范流程,选择风险概 率小的地址作为容灾中心等)来尽量防止风险发生。 灾难是已经发生,并导致系统中止运行、业务中断,给企业和客户造成重大影响 的事件或事故。boss

54、容灾建设需要通过一系列手段(如容灾演习,灾难切换流程等) 来减少灾难发生后对业务连续运行带来的影响。 在进行 boss 容灾规划时,需要对各种风险进行分析、归类,根据不同的类别采 7 容灾策略的解释参见第七章的内容 qb-j-001-2005 18 用不同的防范措施。 6.1.2.boss 风险分析 boss 系统主要面临的风险有: 计划内 软件升级 备份、恢复、归档 数据中心迁移、整合 测试、容灾演习等 计划外 系统处理能力下降 人为操作故障:错误/恶意删除数据;错误/恶意执行程序或命令等 系统故障: ups 故障、硬盘故障、cpu 故障、数据库软件故障等 安全体系被攻破 供电系统瘫痪 空调

55、故障 机房结构性破坏:水灾、火灾、地震等 社会性恐慌:瘟疫等 环境紧急事件:污染等 城市事件:动乱、罢工等 气候灾难:台风等 战争 恐怖主义事件 风险发生的概率分为比较可能、可能、基本不可能三种级别。 根据级别对风险进行分类的结果见下表,表中概率级别是指在大多数情况下此风 险的发生概率。 比较可能可能基本不可能 软件升级安全体系被攻破战争 备份、恢复、归档供电系统瘫痪恐怖主义事件 qb-j-001-2005 19 数据中心迁移、整合空调故障 测试、容灾演习等机房结构性破坏 系统处理能力下降社会性恐慌 人为操作故障环境紧急事件 系统故障城市事件 气候灾难 图表 6-1 风险分类及发生概率表 上述

56、风险发生后对 boss 系统的业务影响是各不相同的,根据风险发生后对业务 的影响程度将风险分为轻微影响、中度影响、严重影响三个级别。 严重影响中度影响轻微影响 人为操作故障软件升级备份/恢复/归档 安全体系被攻破数据中心迁移、整合系统处理能力下降 机房结构性破坏测试、容灾演习等社会性恐慌 战争系统故障环境紧急事件 恐怖主义事件供电系统瘫痪城市事件 气候灾难 空调故障 图表 6-2 风险业务影响程度表 对上述风险的分析总结如下图所示: qb-j-001-2005 20 图表 6-3 风险分析总结图 不同的省份面对的风险是不同的,同一风险在不同省份的影响也不尽相同,各省需 要对风险发生的概率进行深

57、入分析,针对不同的风险影响程度综合考虑不同的容灾策略。 建议 boss 容灾主要针对“比较可能”和“可能”发生并将造成“严重影响”或“中度 影响”的风险进行防范。 6.2. 业务分析 业务分析是对 boss 系统的业务进行关键等级划分,根据业务分析结果定义各业务的 容灾指标(rpo/rto) 。 6.2.1.业务等级区分原则 为保障中国移动容灾建设的整体规划,需要对业务等级的区分原则进行统一的约 定。 业务等级区分原则是:从该业务中断对客户和企业这两个方面造成的负面影响程 度将业务分类为关键业务和非关键业务。其中企业的影响又可区分为对企业的直接影 响和对企业的间接影响: qb-j-001-20

58、05 21 对客户的影响,是指如果此项业务无法开展,对客户感知造成的影响,包括 客户服务质量、客户满意度、客户忠诚度的下降。 对企业的直接影响,是指如果此项业务无法开展,对移动公司造成的财务影 响,包括对收入造成的损失,为解决问题增加的成本等方面的影响。 对企业的间接影响,是指如果此项业务无法开展,对移动公司造成的非财务 影响,包括对企业信誉、市场竞争力、业务开展、连带的客户诉讼等方面的 影响。 由于很难对影响程度进行量化,本规范中采用定性的方式描述业务影响程度,以 5 个级别来衡量: 可以忽略(5 级) 较小影响(4 级) 一般影响(3 级) 较严重影响(2 级) 严重影响(1 级) 关键业

59、务:关键业务:是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和 客户感知造成严重或较严重影响的业务及其所依赖的业务。如缴费开机业务。 非关键业务:非关键业务:是指由于该业务中断,将会对企业运营(包括直接和间接的影响) 和客户感知产生一般或较小影响或基本没有影响的业务。如综合结算、合作伙伴管理 等业务。 6.2.2.业务恢复要求指标级别 保障业务在发生灾难后能够恢复正常,是 boss 容灾系统最基本的功能。而业务 恢复的效果,由以下两个重要指标来决定: 恢复时间目标恢复时间目标(recovery time objective,以下简称,以下简称 rto):):rto 表示了从 灾难发

60、生直到业务流程再次运行(即被恢复)的时间。rto 有两个组成部分,明确灾 难发生后指示恢复流程开始的决策时间(decision time)和进行灾难恢复流程的实施 时间(deployment time)。一般来说,恢复时间(rto)越短,那么灾难恢复方案 的成本就越高,但是由于灾难造成的业务损失就越小;反之,恢复时间(rto)越长, 灾难恢复方案的成本较低,但是由于灾难造成的业务损失就较大; qb-j-001-2005 22 恢复点目标(恢复点目标(recovery point objective,以下简称,以下简称 rpo): rpo 是灾难发生 后业务能够容忍的数据丢失量,或者说灾难发生造

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论