警务云_双活数据中心解决方案_设计报告.doc_第1页
警务云_双活数据中心解决方案_设计报告.doc_第2页
警务云_双活数据中心解决方案_设计报告.doc_第3页
警务云_双活数据中心解决方案_设计报告.doc_第4页
警务云_双活数据中心解决方案_设计报告.doc_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.警务云灾备技术建议书2016年10月28日1 项目概述31.1 项目背景41.2 系统现状描述41.2.1 应用系统现状41.2.2 IT系统现状41.3 需求分析51.3.1 行业发展要求52 系统总体设计原则83 容灾建设方案103.1 业务系统特征及灾备需求113.1.1 公安行业信息化发展趋势113.1.2 灾备建设需求113.1.3 警务综合平台场景分析113.2 总体架构设计113.3 应用双活架构设计114 关键技术114.1 网络层解决方案114.1.1 全局负载均衡(GSLB)114.1.2 DWDM134.1.3 HyperMetro技术154.2 主机层解决方案204.2.1 VMware容灾技术204.3 数据库层解决方案214.3.1 Oracle RAC技术214.4 应用层解决方案244.4.1 Weblogic集群技术244.5 管理层解决方案294.5.1 灾备决策支持平台方案295 容灾相关产品及规格305.1 Tecal RH5885 V3机架服务器305.1.1 功能和价值305.1.2 规格参数315.2 OceanStor V3系列存储315.2.1 功能和价值315.2.2 规格参数325.3 FusionSphere云操作系统325.3.1 FusionCompute虚拟化325.3.2 FusionManager云管理345.3.3 规格参数355.4 SNS系列355.4.1 功能和价值355.4.2 规格参数365.5 BIG-IP 本地流量管理器平台365.5.1 功能和价值365.5.2 规格参数375.6 BIG-IP 广域流量管理器平台375.6.1 功能和价值375.6.2 规格参数375.7 OceanStor BCManager管理软件375.7.1 产品特性375.7.2 应用场景385.7.3 规格参数386 方案配置清单387 相关成功案例387.1 青海公安客户本地双活项目387.1.1 项目背景387.1.2 项目需求387.1.3 解决方案387.1.4 客户价值397.2 安徽公安厅同城应用双活灾备系统项目397.2.1 项目需求397.2.2 解决方案397.2.3 客户价值407.3 江苏省公安厅居民身份查询系统同城灾备建设407.3.1 项目需求407.3.2 解决方案407.3.3 客户价值417.4 成功案例列表41文档格式要求:/一级标题 中文采用: 黑体 小二英文采用 Arial:小二 /二级标题 中文采用: 黑体 三号英文采用 Arial:三号/三级标题 中文采用: 黑体 小三英文采用 Arial:小三/四级标题 中文采用: 黑体 四号英文采用 Arial:四号/正文采用 宋体:小四 英文采用Arial:小四,段落行距为1.5倍 当前生产中心I/O性能数据收集主要收集需要进行灾备保护的应用、主机存储的I/O性能数据。数据的收集从两方面获得: 从主机上获得I/O性能数据(如在UNIX平台上可利用IOSTAT,SAR可得到I/O性能数据;在Windows服务器上可利用Perfmon工具获得Windows服务器的I/O性能数据); 从存储平台上获得I/O性能数据,通过存储平台的性能采集工具可以获得访问存储的每个LUN上的I/O分布情况,包括I/O特征(EMC提供完整的工具收集存储平台的I/O性能信息)。/分支结构采用以上格式1 项目概述1.1 项目背景随着XXX公安的业务量增长和业务的高速发展,对于IT系统的依赖程度越来越高,XXX公安存在数据中心新建、升级扩容、业务迁移及整合以及灾备建设需求。使用特定规格产品设计,提供简单可靠、易于部署和管理、便于扩展和升级的IT基础架构和灾备系统架构,以及业务迁移、数据中心整合的专业服务,为用户提供更好的投资保护,满足用户业务发展的需求。1.2 系统现状描述1.2.1 应用系统现状根据项目的具体情况补充,从业务的角度梳理客户灾备系统建设需要的考虑的全部应用系统,包括应用系统的名词、应用系统的功能简述,以及系统提供的服务时间,下表为示例。序号应用系统名称应用系统功能简述日常服务时间段1警务综合应用平台核心应用,旨在实现公安业务系统整合,消除部门间的信息孤岛,在整合基础上进行各类应用,实现公安信息资源的最大化利用。24(08:30-17:302情报信息综合应用平台关键应用, 金盾二期重点建设项目,在获取公安内、外部信息资源的基础上利用综合信息资源库中的各类信息,进行分析和挖掘,发现各类情报并协通各警种和条线部门。24(08:30-17:30)3部门间信息共享服务平台关键应用平台,从外部社会单位(如银行、电信、民航、邮政、证券、保险、社保)进行数据采集、数据整合和信息共享。08:30-17:304网上作战系统刑侦核心业务系统,与各类资源库、现场勘查管理系统、指纹比对系统同,DNA系统、警综、大情报系统及其他相关警种信息管理系统的信息交换,实现信息资源库的共享整合,形成综合信息数据库群,提供智能串并案功能、线索应用功能、手机话单分析功能、人员身份证号和电子信息的布控和比对预警功能24(08:30-17:30)5人口信息管理系统关键应用,二代身份证登记指纹人口信息管理系统升级改造机会点,主要针对人口信息管理系统中的身份证管理子系统进行,将指纹信息前端采集系统和指纹信息管理系统作为身份证管理的子系统从系统进行开发和系统集成。08:30-17:301.2.2 IT系统现状1.2.2.1 服务器现状根据项目的具体情况补充,可参考如下格式(下表为示例):主机设备用途数量品牌及型号主机冗余策略机房OS数据库(版本)中间件用于系统数据交换平台2HP-UNIX rp5470UNIXSyBase交换平台的数据库Amtrix四平路数据库1HUAWEIRH5885windows 2003 R2SyBase control V6.0/张江(大机房)应用1HUAWEIRH2288windows 2008 R2/Weblogic其他机房数据库1HUAWEIRH5885windows 2003 R2达梦 V7.0/其他机房1.2.2.2 存储现状业务系统中的数据库总量大约为40TB,虚拟机占用空间约为50TB。现网中的存储设备为NetApp FAS3000、IBM DS5000以及华为S5600T等。根据项目的具体情况补充(下表为示例):品牌及型号使用年限机房基本配置HW 5600T1年以上张江大机房600GB SAS * 243T NL SAS * 12BM DS34005年以上四平路机房250GBHP8年以上四平路机房430GB1.2.2.3 网络现状*局的数据机房有3个,两个位于*(A和B),一个位于*局办公室(C)。A机房运行了大多数业务系统,B机房为灾备机房,C机房运行了一些OA业务系统。C机房业务将来要迁移至A机房。*两个机房之间直线距离2km,光纤距离78km,约12根裸纤可用;C和B之间,有两条租用的专线:1条是2Mb/s的专线;另1条是60Mb/s的专线,业务数据已经占用了40Mb/s左右的带宽,剩余十几Mb/s的带宽作为灾备数据的传输。下表为示例:机构名称线路用途连接的应用系统线路类型和带宽*局*分部同城政务内网连接内部办公业务系统(财务、非税收费用等)SDH专线,2Mbps逻辑链路*局*分部同城政务外网连接生产业务系统中国电信城域网,MPLS-VPN 40Mbps*局*分部同城政务外网连接生产业务系统中国电信城域网,MPLS-VPN 80Mbps*局*分部同城政务内网连接内部办公业务系统(财务、非税收费用等)SDH专线,2Mbps逻辑链路*局*分部互联网web服务中国电信互联网60Mbps1.3 需求分析1.3.1 行业发展要求1.3.1.1 国家灾难恢复规范要求国家对加强信息安全保障工作十分重视,先后出台了多项有关灾难备份的保障措施。已出台的有关文件如下:2003年9月,中共中央办公厅、国务院办公厅下发了国家信息化领导小组关于加强信息安全保障工作的意见(中办发200327号)。该指导意见明确提出国家和社会各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复,制定和不断完善信息安全应急处置预案。灾备建设要从实际出发,提倡资源共享、互为备份。文件要求:要高度重视灾难备份工作;灾难备份建设要从实际出发,提倡资源共享,鼓励社会力量参与灾难备份设施建设和提供技术服务;明确了“谁主管,谁负责、谁运行,谁负责”的建设及管理方针。2004年1月9日,全国信息安全保障工作会议下发了关于做好国家重要信息系统容灾备份工作的通知。该通知明确指出国家重要信息系统容灾备份工作的主要目标是“提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,避免引起社会重要服务功能的严重中断,保障社会经济的稳定”。通知指出:国家重要信息系统容灾备份建设工作要坚持“统筹规划、资源共享、平战结合”的原则,充分调动和发挥各方面的积极性,全面提高抵御灾难打击能力和灾难恢复能力。与此同时,为贯彻落实27号文件和中央领导的指示,国信办于2004年9月份下发了关于加强国家重要信息系统灾难备份工作的意见(信安通200411号)。文件强调了“统筹规划、资源共享、平战结合”的灾备工作原则;国家为此圈定了银行、保险、证券、税务、海关、民航、铁路、电力等必须建立灾难备份的八个重点行业,同时提出,灾难备份建设要从实际出发,提倡资源共享,可以采用自建、共建和利用社会化服务等模式,鼓励社会力量参与灾难备份设施建设,提倡使用社会化灾难备份服务,走专业化服务道路。2007年11月1日,国家正式下发了信息安全技术信息系统灾难恢复规范(GB/T 20988-2007) 。该规范作为我国目前颁布的第一部关于信息系统灾难恢复工作的行动指南和标准;明确定义了灾备行业的规范用语;规范了整个灾难恢复的工作流程;作为资料性附录,提供灾难恢复预案的模板;引入了灾难恢复的分级机制(目前确立为六个级别)。规范指出要加快实施八个重点行业(银行、电力、铁路、民航、证券、保险、海关、税务)的灾难恢复工作。1.3.1.2 行业灾难恢复规范要求在经济全球化、社会信息化的时代背景下,社会面貌发生了深刻的变化,影响国家安全和社会稳定的因素明显增多,维护稳定工作面临的形势呈现出许多新变化、新特点。同时,信息化的发展,提高了社会生产力,也为进一步加强和改进公安工作提供了强大的动力。多年以来,我国公安机关在大力提高队伍的整体素质和战斗力,有效维护国家安全和社会稳定的斗争中,始终坚定不移地走“科技强警”之路,坚持向信息化要警力、要战斗力。孟建柱部长向全国公安机关和广大民警提出的“三项建设”中,第一项就是“推进公安信息化建设”。他强调,要深入推进公安信息化建设,切实提高公安机关在动态环境下驾驭社会治安局势的能力。要加强和改进执法工作,进一步细化执法标准、严密执法程序,切实提高执法精细化水平。要深入推进社会矛盾化解工作,创新社会管理,更加积极地开展矛盾纠纷排查,更加积极地运用调解手段化解矛盾。要坚持公安信息化建设与群众路线相结合,不断完善群众工作机制、创新群众工作方法,构建和谐警民关系。要进一步加强公安队伍建设,提高队伍管理科学化水平,努力打造一支素质过硬、作风优良、公正廉洁的钢铁队伍。前不久,公安部副部长张新枫在全国公安信息化建设与应用推进会上指出,各地公安机关要明确目标,强力推进,坚决打赢信息化建设应用的攻坚战。他说,全国公安信息平台建设和应用已经在平台框架、研判体系、实战应用等方面取得了重大阶段性成果,在维护国家安全和社会稳定方面,已经发挥出了越来越大的作用。围绕深入推进信息平台的建设与应用,他强调,随着信息主导警务战略的深入推进,各地公安机关要紧紧抓住有利时机,进一步加大工作力度:首先要以平台功能完善为抓手,进一步理顺信息化应用总体架构;第二,要以分析研判为重点,进一步落实人员动态管控措施;第三,要以基础信息采集维护为着力点,建设一支高水平的信息采集维护专门队伍;第四,要以研判队伍专业化建设为载体,进一步提高析研判的能力和水平。公安信息化建设的主要任务是,加快完善网络、安全和信息中心等信息化基础设施。根据实际需求,进一步调整、优化网络结构,增加基层所队接入网带宽。在地市级以上公安机关开展涉密应用的部门,完善密码设备配备,加大涉密安全保障系统的覆盖范围。对公安身份认证和访问控制系统,进一步进行扩容,并建设、完善公安信息网边界接入平台。增强信息中心数据处理能力,提高服务保障水平。通过对网络基础设施、安全技术设施和信息中心技术系统的优化与增强,进一步满足和保障应用普及深化的需要。加快构建以“情报信息平台”为龙头的高端应用系统建设。在整合各部门、各警种信息资源的基础上,加快构建以信息化应用为支撑、以情报信息研判为主要内容、以服务于警务决策为目标的公安“大情报”系统,坚持以情报信息主导警务。积极推动地理信息技术与公安信息系统的应用结合。目前公安信息化建设已开始进入到高端应用阶段,在“金盾工程”二期中,以构建公安“情报信息”系统为龙头,以平台建设、资源整合、信息共享为主线,全力推动应用普及和深化,妥善解决发展不平衡问题,全面提高公安信息化应用的整体水平。各地的建设不断的出现新成果、新经验进展顺利并正在体现出强大的战斗力和生命力。2 系统总体设计原则华为公司针对本次灾备项目,将依据技术先进性、可扩充性、高可靠性、高可用性、成熟性、可管理性的总体设计思想;结合华为公司众多灾备系统成功案例和实际经验,进行整体的解决方案设计。l 技术先进性:系统设计应采用当前先进而成熟的技术,不仅可以满足本期工程的需求,也应把握未来的发展方向。l 可扩充性:在系统设计时应充分考虑可扩充性,从而确保新功能、新业务的增加在原有的系统平台上扩展和实现。l 高可靠性:具备先进的灾备的设计;充分保证系统的高扩展能力和高容错能力,具有通道负载自动均衡能力和性能调节能力,提供极为充分的可靠性各项指标设计。l 高可用性:在不停机情况下,实现不停机扩容、维护、升级等服务,提高性能以满足新的业务需求,具备724365连续工作的能力。l 成熟性:应尽量选用经过大量运用、成熟可靠的系统。l 可管理性:要求配置实时性能监测管理软件。可对CPU使用率、内存使用率、交换区使用情况、I/O操作、队列状态、磁盘空间、卷磁盘错误、系统事件、系统中各进程对系统资源占用等性能和操作数据等服务器性能进行实时监控和管理。l 可实施性:选用成熟的技术,成熟的案例经验和设计方案,制定详细的技术实施方案。3 容灾建设方案3.1 业务系统特征及灾备需求3.1.1 公安行业信息化发展趋势警务云数据中心建设虚拟化是云平台建设的基础。通过虚拟化技术进行整合,形成一个对外提供计算资源为主的池化管理(包括服务器池、存储池、网络池等),同时提供运行环境等基础服务。服务器虚拟化能够消除XX省公安厅信通口原有业务系统的“一台服务器运行一个应用程序”模式下的效率低下现象,在这种模式下,大多数服务器远未得到充分利用。借助服务器虚拟化技术,一台服务器可用作多个“虚拟机”,而且每个虚拟机都可以在不同的环境下运行,例如 Windows、Linux或Apache。因此,采用服务器虚拟化能够将多台服务器整合到更少的物理设备上,从而有助于减少空间、能耗以及管理需求。通过服务器虚拟化平台的建设,可以将现有的业务系统逐步迁移到服务器虚拟化平台,并通过双活数据中心帮助增强业务连续性并提供全面的数据保护,以便管道局能够获得连续的应用程序可用性以及跨两个物理站点的自动灾难恢复能力。网络虚拟化通过各种网络技术,将不同的应用相互隔离,使得不同用户在同一网络上不受干扰地访问各自不同应用。在交换网络中可以通过虚拟局域网(VLAN)技术来区分不同业务网段,在路由环境下可以综合使用VLAN、MPLS-VPN、Multi-VRF 等技术,实现对网络访问的隔离。在数据中心内部,不同逻辑网络对安全策略有着各自独立的要求,可通过虚拟化技术将一台安全设备分割成若干逻辑安全设备,供各逻辑网络使用。存储虚拟化是指利用虚拟化技术,统一整合管理FC SAN,IP SAN等多种存储设备,形成统一的资源池供上层业务使用,屏蔽不同存储之间的差异。“站点双活+异地数据备份”灾备体系建设传统的数据中心容灾已经从主备数据中心开始向双活数据中心过渡。主备数据中心的建设模式可以在很大程度上提升业务连续性。用户所有的业务系统都在主数据中心运行,而在备数据中心为业务系统提供冷备或热备,当主数据中心的应用出现故障时,可以将单个应用或数据中心整体切换到灾备数据中心。但这种模式造成了备数据中心常年处于闲置状态而造成资源浪费。而通过资源整合,可以极大的提升资源利用率,同时双活数据中心的服务能力是双倍的。3.1.2 灾备建设需求业务恢复需求是制定灾难恢复规划的重要依据,用以确定灾难恢复目标和确定灾难恢复策略及灾难恢复顺序,指导开展应急恢复工作。按照公安行业业务系统重要性及业务系统中断对整个公安业务影响的范围和程度,可将公安业务系统灾备建设需求分为四个等级:公安业务业务分级A级 B级 C级 D级 业务重要性核心业务 重要业务 一般业务 辅助及测试业务 业务影响范围部级/省级 市、县级 办公室级 小组级 数据重要性核心原始数据 二次处理数据 总结数据 测试数据 业务连续性(维护时间) 30分钟/次60分钟/次2小时/次4小时/次 公安业务系统按照业务模式可划分为BSS、OSS和MSS三类,其应用模型对应OLTP和OLAP两种模式,如下表所示:公安业务类型划分业务模式划分 BSS(业务支撑系统)公安情报、综合信息查询、交通管理、出入境、机动车驾驶人信息、刑侦、治安、决策指挥等 OSS(运营支撑系统) 内部网管、网优、资源管理PKPMI、数据交换平台、请求与服务、搜索引擎等系统 MSS(管理支撑系统) OA、邮件、财务、ERP,手机办公、后勤管理等系统 应用模式划分 OLTP BSS、OSS;高数据负载、高网络负载;多线程应用;多用户并发;响应实时性高、事务小而多(除峰值阶段) OLAP BASS;高数据负载;多线程应用;响应实时性较低、事务大而少 结合公安行业的主要应用系统,对业务系统的灾备建设需求综合评定如下表所示:业务名称业务模式应用模式业务重要性数据重要性业务连续性综合评定警综系统BSSOLTP/OLAP核心业务核心原始30分钟A 情报系统BSSOLTP/OLAP核心业务核心原始30分钟A 部门间共享和服务BSSOLTP重要业务核心原始30分钟APGISBSSOLTP重要业务核心原始30分钟A综合信息查询BSSOLTP/OLAP核心业务二次处理30分钟ADNA信息系统BSSOLTP/OLAP重要业务核心原始60分钟A/B指纹信息系统BSSOLTP/OLAP重要业务核心原始60分钟A/B现场勘验系统BSSOLTP重要业务核心原始60分钟A/B交通综合管理系统BSSOLTP/OLAP核心业务核心原始30分钟A出入境管理系统BSSOLTP核心业务核心原始30分钟A经侦信息系统BSSOLTP核心业务核心原始30分钟A人口信息管理系统BSSOLTP/OLAP核心业务核心原始30分钟A治安信息管理系统BSSOLAP重要业务核心原始60分钟A/B决策指挥BSSOLAP核心业务核心原始60分钟A/B资源管理OSSOLTP重要业务核心原始30分钟A网管系统OSSOLTP重要业务核心原始30分钟A数据交换系统OSSOLTP重要业务二次处理60分钟A/B请求服务系统OSSOLTP重要业务二次处理1小时BOAMSSOLTP重要业务二次处理60分钟A/B邮件MSSOLTP重要业务二次处理2小时B后勤管理MSSOLTP一般业务二次处理2小时C测试业务nBSS/OSS/MSSOLAP测试业务测试数据4小时D3.1.3 警务综合平台场景分析3.1.3.1 业务场景分析公安的大部分业务各类应用系统隶属于公安系统不同业务管理部门,是在不同的时期建立的,因此它们所运行的平台、数据结构等是不同的。警综平台是公安主体业务网上办理、网上流转和警务信息资源大集中、高共享的信息化工作平台,实现公安业务系统整合和业务信息最大化共享。其建设目标: 实现公安业务系统整合,完成单点登录,全网漫游; 建立公安信息库进行整合,形成数据仓库,消除部门间的信息孤岛; 在整合基础上进行各类应用,实现公安信息资源的最大化利用。图 31警务信息综合应用架构警综平台的建设涉及到以下8个基础信息数据库:数据库名称责任单位人口基本信息资源库户政出入境人员资源库出入境管理机动车/驾驶人信息库交警警员基本信息资源库人事在逃人员信息资源库监所管理违法犯罪人员信息库监所管理被盗抢汽车信息资源库交警安全重点单位信息资源治安警综平台里面包含诸如警用地理信息系统、大情报系统等多个分支系统,出于应用需求,这些应用系统都具备专用的数据库以及硬件设备,这些数据库和硬件设备也是属于警综平台的。一般情况下,这些应用系统都是独立立项建设,然后融入到警综平台中统一维护和管理,具体情况将在下面分项应用系统场景分析中介绍。除去专用的应用系统外,警综平台存储建设的重点就是8个基础信息库的建设。3.1.3.2 警综平台需求分析 高性能需求:多个业务部门及下级部门同时进行信息录入以及信息查询,需求存储系统高性能以满足业务需要。 异构阵列统一管理需求:警综平台建设时间长,原本各系统各自建设,警综平台整合时不可能完全抛弃原有系统。现有大部分省市的警综平台中,存储系统普遍存在异构存储阵列多,数据互联互通困难,设备管理复杂,扩容、容灾困难等问题。需统一管理、统一规划。 高可靠及业务连续性需求:警综平台建设的原则就是警务信息资源大集中、高共享。然而信息的集中意味着风险的集中,信息集中后的警综平台一旦发生故障致使业务中断或者数据丢失,其影响的几乎是所有公安系统业务。因此警综平台的业务安全性和可靠性在公安内部就是一项重要的政治任务。3.2 总体架构设计基于系统总体设计原则,结合华为公司在*行业灾备系统成功案例和实际经验,推荐*行业灾备总体架构如下图。推荐灾备总体架构为同城和异地的两地三中心模式。同城灾备推荐A类业务采用同城应用双活灾备;B类业务采用同城应用主备灾备模式;C类业务采用数据级主备(如通过阵列异步复制功能实现)。异地灾备推荐A、B类业务采用应用主备灾备模式;C类业务采用数据级主备(如通过阵列远程异步复制功能实现)。3.3 应用双活架构设计针对公安行业核心业务(如警务云、八大库)的高业务连续性要求,推荐采用华为双活灾备解决方案。该方案采用虚拟化存储网关和主机集群、网络集群技术在同城的两个数据中心构建跨站点的业务集群和存储虚拟化集群。双活灾备方案有别于传统主备模式的容灾方案,传统的主备方案,灾备中心不能对外提供服务,只有当灾难发生时业务才切换到灾备中心,造成业务中断时间长、业务切换风险高和设备资源利用率低的问题,华为双活灾备解决方案能够实现双数据中心同时对外提供负载均衡的业务,并且保障在集群单设备故障或者单站点故障的情况下,数据不丢失、业务不中断,实现RPO=0、RTO=0的业务连续性指标。l 同城双活方案架构描述采用虚拟化存储实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。在新建数据中心部署多台虚拟机服务器平台,以及虚拟化存储和存储阵列等设备,同老数据中心现有的虚拟化服务器平台和之前采购的虚拟化存储设备之间组成双活集群。整个双活系统分为存储层、前端网络层与应用层与容灾管理层。存储层,新老数据中心各部署一台华为存储,组成一个存储双活集群,为两数据中心主机业务同时提供读写服务。同时,在新建数据中心配置与现网HP阵列系列(如HP XP24000)同等级和同容量的存储阵列。为了提升热点数据的存储性能,使高价值硬盘得以更充分的利用,可以配置不同类型的硬盘:SAS、NL-SAS、SSD以合理分配资源;通过业务存储提供的智能分级功能对热点数据进行持续监控并从机械硬盘迁移到SSD中,进一步提升系统性能。两个数据中心的存储阵列利用HyperMetro双活技术做镜像冗余配置,使得两个数据中心存储数据实时镜像,互为冗余。任意数据中心故障,数据零丢失,实现数据层面的双活。网络层,数据中心之间应用集群IP心跳和FC数据传输网络都采用裸光纤直连,传递应用集群信息和双写IO数据同步,满足双活数据中心网络时延要求。应用层,两个数据中心的虚拟机服务器构成一个集群,通过警务云虚拟化平台的DRS提供跨数据中心的虚拟化自动负载均衡,通过警务云虚拟化平台 HA提供跨数据中心的自动故障转移功能,实现业务层面的双活。容灾管理层,为了实现双活数据中心存储设备的统一管理,建议部署统一容灾管理软件,通过统一容灾管理软件实现双活数据中心的可视化管理,并通过管理软件直观的展示双活业务的物理拓扑。针对虚拟机业务双活需要,可以将容灾管理软件部署在两个数据中心当中任意一台虚拟机上,即可实现管理业务的双活。建议部署拓扑图如下: 4 关键技术4.1 网络层解决方案 4.1.1 全局负载均衡(GSLB)技术概述随着用户对应用可用性和扩展性需求的进一步增加,越来越多的用户不满足于在单一数据中心提供服务,开始考虑容灾、用户就近访问等问题。这正是负载均衡设备中的全局服务器负载均衡技术(GSLB)所要解决的问题。绝大部分使用负载均衡技术的应用都通过域名来访问目的主机,在用户发出任何应用连接请求时,首先必须通过DNS请求获得服务器的IP地址,基于DNS的GSLB正是在返回DNS解析结果的过程中进行智能决策,给用户返回一个最佳的服务IP。适用场景全局负载均衡技术适用场景如下: l 跨站点负载均衡:可以实现跨数据中心的流量分担,用户就近访问某一数据中心。l 客户端访问切换:当生产中心故障,可以将用户的访问流量自动切换到容灾站点,从而实现客户端访问路径的自动切换。组网架构GSLB对于DNS请求的处理流程如下:1) 客户端向本地DNS发起站点查询请求。2) 当本地DNS中没有该站点对应的IP地址信息时,则转发该请求给GSLB Master。3) GSLB Master转发该请求给所有GSLB Slave。4) 所有GSLB Slave反馈响应信息给GSLB Master。5) GSLB Master会选择最快响应的GSLB Slave(例如:Site A中的GSLB Slave),并返回应答给本地DNS。6) 本地DNS转发GSLB Master的应答给客户端。7) 客户端就可以访问提供服务的应用服务器了,例如:Site A中的Real Server。技术特点从GSLB处理流程可以看出,其核心在GSLB策略,常用的一些GSLB策略包括:1) 各内容站点的“健康状况”GSLB Controller对各内容站点负载均衡设备上定义的VIP或服务器(没有本地负载均衡的情况)进行第四层TCP/UDP健康检查和第七层应用健康检查。未能通过健康检查的站点不会被选为最佳的内容节点。2) 地理区域或用户自定义区域一个区域为若干条IP地址前缀。根据用户本地DNS的IP地址,将特定IP范围的用户优先分配到某个通过健康检查的站点。值得一提的是,由于DNS本身的工作原理所限,GSLB Controller只能看到用户本地DNS的IP地址,而不是用户终端的IP地址。当用户使用错误的本地DNS(如教育网用户配置网通的DNS服务器)时,GSLB Controller返回的DNS应答将不是最佳的站点。这是基于DNS的GSLB的一个弱点,但由于绝大部分运营商现在限制其他运营商的客户使用自己的DNS,出现这种错误配置的比例非常小。3) IP地址权重可以为DNS应答中的每个IP地址分配权重,权重决定与其他候选IP相比分配到该IP的流量比例。4) 站点(Site)权重可以为每个Site分配权重,权重决定与其他候选Site相比分配到该Site的流量比例。5) 会话能力阈值通过厂商自由的GSLB协议,GSLB Controller可以获得每个站点负载均衡设备当前可用会话数和会话表大小的最大值,当前会话数/最大会话数比值超过定义的阈值时,该站点不再被选择。6) 活动服务器指一个GSLB节点绑定到一个VIP上的活动真实服务器数量。可以配置策略优先选择活动服务器最多的IP地址。7) 往返时间(RTT)RTT策略是基于区域之外最常用的策略。有两种模式的RTT测量:Active RTT测量与Passive RTT测量。在实际部署中,由于网络限制和性能原因,Active RTT往往无法使用,Passive RTT更实用一些。8) 当前可用会话数9) 站点管理优先级(Admin Preference)为每个站点预设优先级,选择优先级较高的站点。10) 10)最少选择选择从前被选择的次数最少的节点。11) 11)轮询(Round Robin)采用轮询方式选择站点。 4.1.2 DWDM技术概述WDM 波分复用(WDM,Wavelength Division Multiplexing)是指,在1根光纤上承载多个波长(信道)系统,将1根光纤转换为多条“虚拟”纤,每条虚拟纤独立工作在不同波长上。由于WDM 系统技术的经济性与有效性,使之成为当前光纤通信8最广泛使用的光波复用技术。DWDM技术是指相邻波长间隔较小的WDM技术,工作波长位于1550nm窗口。可以在一个光纤上承载8160个波长。主要应用于长距离传输系统。适用场景在数据中心之间建设一个L1层的DWDM的9网络,可以提供一个高带宽、超低延迟、高安全性的带宽环境。组网架构华为OSN系列OTN设备将为数据中心容灾提供业界领先的广域传送特性,适合于对容量、实时性等要求较高的容灾系统,华为OSN系列具备海量级数据传送能力,最大支持40G/100G80波(3.2T8T);支持14种专业级存储接口(FC/FICON/ESCON等),具备7大主流存储厂商的兼容性认证;针对各种容灾组网类型,OSN系列提供电信级的50ms级可靠保护;提供业界最佳的3000公里SAN拉远能力,满足长距离异地容灾需求。技术特点DWDM的技术特点和优势:1) 充分利用光纤的带宽资源,传输容量巨大DWDM系统中的各波长相互独立,可透明传输不同的业务,如SDH、GbE、ATM等信号,实现多种信号的混合传输。如图6所示,多个光信号通过采用不同的波长复用到一根光纤中传输,每个波长上承载不同信号,在一根光纤中传输,大大提高了光纤容量,极大的节约了光纤资源,降低线路建设成本。2) 超长的传输距离利用掺铒光纤放大器(EDFA)等多种超长距传输技术,可以对DWDM系统中的各通路信号同时放大,实现系统的长距传输。3) 平滑升级扩容由于DWDM系统中的每个波长通道透明传输10,不对通道数据进行任何处理,因此,扩容时,只需增加复用光波长通路数即可,方便易行。 4.1.3 HyperMetro技术OceanStor系列产品的HyperMetro功能,可以实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。4.1.3.1 HyperMetro双活集群原理存储双活集群技术HyperMetro最大支持32个存储控制器,向应用服务器提供无差异的并行访问,同时处理应用服务器的I/O请求;各控制器间互为备份,均衡负载,控制器故障后,其承接的业务自动切换到正常控制器,保证系统的可靠性、业务的连续性。集群间的通信支持FC或10Ge链路,通信包括集群心跳和数据镜像。其工作原理如下图所示。4.1.3.2 存储数据镜像通过HyperMetro LUN功能,保证两个站点磁盘阵列之间数据的实时同步。两台存储设备上的LUN被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入两个数据中心的存储设备,保持数据实时一致。具体的IO读写流程如下图所示。假如数据中心A阵列收到写I/O,处理流程如下:1、申请写权限和记录写日志:数据中心A阵列收到主机写请求,先申请HyperMetro LUN的写权限;获得写权限后,HyperMetro将该请求记录写日志。日志中只记录地址信息,不记录具体的写数据内容;该日志采用具有掉电保护能力的内存空间记录以获得良好的性能。2、执行双写:将该请求拷贝2份分别写入本地LUN和远端LUN。通常情况下LUN是回写状态,数据会写入该LUN的Cache就会返回。3、双写结果处理:等待两端LUN的写处理结果都返回;4、响应主机:镜像卷返回写I/O操作完成。如果任何一个存储设备故障,采用日志记录故障期间数据的变化情况,待存储设备恢复正常后,将增量数据后台同步到修复的存储设备,整个过程对主机“透明”,不会影响主机业务。4.1.3.3 存储数据修复单块磁盘可能会因为掉电等异常情况出现坏块。如果是可修复错误而且本端无法修复,因为远端站点有镜像数据,则会自动从远端站点获取数据来修复本地数据盘的坏块,进一步提高系统可靠性。假如数据中心A阵列收到写I/O,镜像处理流程如下:申请读权限:阵列收到主机读请求,先确认HyperMetro的本地读权限。读本地LUN。读本地LUN结果返回,如果可修复错误,执行错误修复。重定向远端读。远端读返回。读结果返回。本地写入修复。4.1.3.4 逻辑错误保护当遭遇病毒攻击或人为误操作等异常时,数据中心的数据可能被破坏。采用虚拟快照技术,在操作前对现有数据卷激活快照,实现本地数据保护。虚拟快照采用写前拷贝(COW)技术,仅将变化的数据拷贝至快照卷,系统资源占用少。当原卷数据被错误修改或删除,需要进行恢复时,采用快照对原卷进行回滚,实现数据恢复,并且,快照卷可分别映射给主机进行数据测试和挖掘,不影响生产业务。结合华为容灾管理软件,激活快照前触发数据库完全检查点,待数据下盘完成后,激活快照,保证快照数据完全满足数据库的一致性要求,快速拉起数据库。4.1.3.5 高可靠仲裁防脑裂技术为保证各种异常情况下,存储双活集群能够进行仲裁,建议设计第三方仲裁站点,以保证极端场景下的业务连续性。极端场景包括:出现数据中心整体故障或中间链路故障等场景,存储集群仍然可以访问仲裁服务器进行仲裁,保证业务可靠性和数据一致性。有仲裁站点的场景如下图所示,为保证任一数据中心整体故障或中间链路故障等极端场景下,主机业务的连续性,方案建议采用仲裁服务器。这样,可以保证极端灾难场景下,存储集群仍然可以访问仲裁服务器进行仲裁,保证业务可靠性和数据一致性。第三方仲裁站点位于XX点,XX点与两个数据中心之间通过XX线互联。仲裁服务器可以运行在虚拟机上。当出现任一数据中心整体故障或中间链路故障等极端场景,整个集群的仲裁过程如下:XX数据中心与XX数据中心之间的中间链路断开,导致两个数据中心集群发生分裂,进而两个中心之间的存储虚拟化平台发生“脑裂”,存储虚拟化平台从一个大集群分裂为两个小集群;根据集群“脑裂”的通用原理,当大集群分裂为两个小集群时,每个小集群分别抢占第三方仲裁服务器,抢占成功的小集群“获胜”,将继续对外提供服务,为应用提供存储访问空间;未抢占到仲裁信息的小集群则自动退出集群,不再对外提供服务;当中间链路恢复时,“自动退出的小集群”检测到中间链路由故障变为正常,尝试与“继续服务的小集群”握手通信,经过握手通信两个小集群再次组成一个大集群,以Active-Active模式提供服务,互相之间实现冗余。下图列出了基于仲裁服务器模式,各种故障场景下双活业务是否存活的概要。H1 和H2 表示组成双活HyperMetro LUN的两个阵列,C表示对应的仲裁服务器。无仲裁站点的场景若无第三方仲裁站点,建议用户在某个数据中心部署仲裁服务器,业务表现和上述的描述大致一致,但如果仲裁服务器所在的数据中心整体故障,双活业务停止。若无仲裁服务器,用户可以设置其中一端阵列为优先站点,另一端为非优先站点。当发生脑裂场景,或者非优先站点故障时,优先站点上的lun继续提供服务,非优先站点的lun停止提供服务。不足之处在于当两阵列之间失去联系,可能是站点间链路丢失或其中一个阵列故障。系统不能区分这两种情况,当优先站点阵列故障时,非优先站点不能接管双活业务,双活业务停止。 4.2 主机层解决方案 4.2.1 VMware容灾技术技术概述虚拟机HA是当计算节点上的虚拟机出现故障时,系统自动将此虚拟机在其他正常的计算节点上恢复,使该虚拟机能正常使用。虚拟机在HA的过程中不可以使用。适用场景虚拟机HA使用于虚拟机故障或者主机故障场景,通过监控虚拟机或物理机,当虚拟机故障时在原主机上重新拉起;物理机故障则在其它主机上拉起所有故障的虚拟机。组网架构生产站点部分正在运行的主机或虚拟机发生异常(如主机下电、主机重启、虚拟机蓝屏),虚拟机优先通过DRS功能在本地冗余主机上HA。若本地冗余主机资源不足,则虚拟机通过集群内HA功能在容灾站点主机上HA。 发生容灾时,虚拟机短时间内不可用(依赖于虚拟机HA时间),数据无丢失。容灾后,生产站点虚拟机仍然访问本地存储资源,容灾站点容灾虚拟机将跨站点访问生产站点的存储资源。技术特点当计算节点上的虚拟机出现故障时,系统自动将此虚拟机在其他正常的计算节点上恢复,使该虚拟机能正常使用。虚拟机在HA的过程中不可以使用。HA的目标服务器必须满足该虚拟机需要的资源要求。 虚拟机HA只能在同一个迁移域中进行,一个迁移域即一个Cluster。 4.3 数据库层解决方案 4.3.1 Oracle RAC技术技术概述RAC全称 Real Application Clusters,是Oracle数据库高可用技术的一种,也是Oracle数据库支持网格计算环境的核心技术。从10g版本开始Oracle推出了Oracle Clusterware 集群软件,使得RAC不再依赖于第三方厂商得集群软件实现多节点并发的集群数据库。 如图所示,一组Oracle RAC数据库服务器组成一个集群,他们之间通过高速内网相互联,共享缓存。用户通过外部网络连接到数据库集群,当数据库服务器有单点故障时,上层用户不会受到任何影响。数据库集群共享下层的SAN存储。Oracle RAC是Oracle数据库高可用技术之一,也是Oracle数据库支持网格计算环境的核心技术,可提供多节点并发的数据库应用,并通过监听客户端和服务器端实现负载均衡,把用户连接分配到不同的节点上执行。Oracle Extended RAC在Oracle RAC技术基础上提供了一种跨数据中心的双活集群架构,当单中心故障时,另外一个数据中心存活的节点可自动接管业务,接管过程对上层业务透明,用户无感知。基于Oracle Extended RAC,构建双活数据中心来并行承担相同业务,提高数据中心的整体服务能力和系统资源利用率成为可能。在这种场景下,两个数据中心互为备份,当单数据中心故障时,业务可以能自动切换到另一数据中心,业务不中断。Oracle Extended RAC的核心是共享存储子系统,通过共享访问数据文件、重做日志文件、控制文件和参数文件的方式,确保各节点都能进行读写操作,且在单个节点出现故障时,剩余节点能够自动接管并恢复数据库。双活架构数据中心方案采用共享卷技术,将跨数据中心的存储空间以共享方式提供给上层应用访问,满足Oracle RAC共享存储需求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论