版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1项目背景1.1项目概述随着银行信息化程度的不断提高,信息系统在金融行业的关键业务中扮演着越来越重要的角色,企业对信息系统的依赖程度越来越高,业务中断会造成巨大的经济损失、影响品牌形象并且还可能会造成重要数据的丢失。因此,保证业务连续性是信息系统建设的关键。同时业务系统的高可用和灾难保护的重要性也越来越突出,在我行目前的业务系统中,正在逐渐建设&完善深圳、上海两地三中心架构。考虑到DellEMC存储经过多年的发展,处于行业领先水平,具备安全承载金融行业核心业务的能力,本次项目将在原深圳、上海数据中心部署多台DellEMCPowerMax8000系列高端全闪存以满足在深圳生产中心、同城双活中心及上海数据中心老旧应用项目的生产替换改造、满足业务的高可用及灾备需求。1.2现网存储架构情况现网存储配置:
目前行内基于SAN架构的存储业务相关设备,有交换机和存储共计100多套,涉及业界常见的博科、DellEMC、HDS等,有常规的SAN架构,也有基于存储SAN网关的异构虚拟化架构。现网存储架构的痛难点:为配合我行的应用系统整体架构升级,存储架构由传统的集中式及镜像双活逐渐向业务层面双活改造完善中,我行有如下痛点待解决:1.前期的规划基于SAN网关架构,虽然解决了当时很多管理和数据迁移等问题,但近年来随着公司业务的不断壮大,扩展能力及性能瓶颈等管理难题逐渐凸显,无法跟上前端业务增长的步伐,同时较为复杂SAN链路环境给日常故障快速定位诊断也带来挑战。2.同时部分数据中心镜像双活存储架构方案也有不少隐患及缺陷,比如同数据中心无法严格提供物理级别保护,存储因镜像带来更多的管理压力等等。3.应用单中心部署,业务层面无法做到严格的快速切换恢复,RTO及RPO离理性值还比较远。4.冷备中心不工作,关键时候不能切,成本也存在严重浪费。5.容灾、资源灵活扩展未得到解决。1.3建设要求1)
业务连续性要求作为一家大型银行来讲,一旦业务系统所使用计算及存储等资源,出现故障或宕机,将导致公司业务的完全瘫痪,进而造成巨大的经济损失和对信誉度的影响。因此在存储的选择与架构设计上,我们需要充分考虑存储的稳定性,以保证业务的连续性。设计要求如下:确保核心业务系统所使用的存储高可用;确保业务系统所选用的存储设备,在相关行业内有大量的案例,并为稳定产品;确保从存储、到主机乃至光纤链路,均为全冗余架构模式。2)
存储处理能力要求随着业务的不断发展,对存储设备性能要求也越来越高,部分重要业务需提高存储层面处理能力,以满足未来3-5年的发展需要。3)
高效的运营与管理要求IT技术的迅猛发展正在重新定义我们工作和生活方式,而且正在带来应用领域的革命。同时随着业务的不断扩大,数据散落在各个应用系统。数据集成度低,分布于不同存储、不同主机,数据质量参差不齐,数据整合性差,管理重复度高、难度大、数据可控性不够高,相应数据安全得不到很好的保障。为了构建新一代的数据中心,存储的运营与管理显得越来越重要,因此企业需要构建高效便捷的存储环境,以满足业务需求。4)合规性要求银行核心存储项目,属于国内大型商业银行的重要IT基础设施建设,意义和影响重大,必须满足国家及行业监管机构的合规性要求,本次项目建设需满足包括但不限于以下国家和行业规范:银监会《商业银行业务连续性监管指引》银监会《商业银行数据中心监管指引》银监会《商业银行信息科技风险管理指引》银监会《银行业重要信息系统突发事件应急管理规范(试行)》银监会《银行业金融机构信息科技外包风险监管指引》人民银行《银行业信息系统灾难恢复管理规范》人民银行《关于进一步加强银行业金融机构信息安全保障工作的指导意见》人民银行《关于加强银行数据集中安全工作的指导意见》国家质量监督检验检疫总局《信息系统灾难恢复规范》(GB/T20988-2007)国务院信息化工作办公室《信息系统灾难恢复规范指南》中办发27号文《国家信息化领导小组关于加强信息安全保障工作的意见》工信部《2006-2020年国家信息化发展战略》【2006年5月8日】2设计原则基本原则通过对我行本次存储资源池建设需求的了解,结合金融行业业务系统的应用特点,本次方案设计建设过程遵循如下原则进行:1)可用性原则灾备系统的故障不影响生产系统的运行,不会大幅度影响业务处理能力。系统器件选择要考虑能支持7×24小时连续长时间大压力下工作。系统具有充分的冗余能力、容错能力,如支持双活控制器,满足高可靠性需求,至少达到99.999%可用性。系统具有专业的技术保障体系以及数据可靠性保证机制。确保系统具有高度的安全性,提供安全的登录和访问措施,防止系统被攻击。异常掉电后不丢失数据,供电恢复后自动重新启动并自动恢复正常连接。系统支持运行状态管理和技术保障体系。2)先进性原则系统必须严格遵循国际标准、国家标准、国内信息行业和金融行业的规范要求。需符合存储技术以及IT行业的发展趋势,所选用的产品型号已规模上量。所有的系统处于先进的技术水平,确保较长时间内技术上不落伍。系统的处理能力要达到业内领先,对于业务的使用要留有一定的余量,以满足后续升级的需求。对工作环境要求较低,环境适应能力强。3)开放性原则系统必须支持国际上通用的标准网络存储协议、国际标准的应用开放协议。与主流服务器之间保持良好的兼容性。兼容各主流操作系统、卷管理软件及应用程序。可以与第三方管理平台、云平台集成,提供给用户定制化的管理维护手段。与现有IT系统、软硬件系统兼容并可无缝替换和升级。系统必须支持国际上通用的标准管理协议。4)易维护性原则系统支持简体中文,通俗易懂,操作方便、简单。系统具有充分的权限管理,日志管理、故障管理,并能够实现故障自动报警。系统设备安装使用简单,无需专业人员维护。系统容量可按需要在线扩展,无需停止业务。系统功能扩充需要升级时,支持不中断业务升级。支持WEB管理方式或集中管理方式。5)扩展性原则考虑银行未来三至五年数据中心、业务系统和存储系统的整体规划,既能满足短期建设需求,又能满足该银行中远期规划方向。系统易于扩充。系统选择标准化的部件,利于灵活替换和容量扩展。系统设计遵守各种标准规定、规范。可以与第三方管理平台集成,提供给用户定制化的管理维护手段。具备各主流厂家设备的扩展接入能力。6)经济性原则综合考虑集中存储系统的性能和价格,最经济最有效地进行建设,性能价格比在同类系统和条件下达到最优。7)绿色性原则满足环保与节能的要求,噪声低、能耗低、无污染。必须选用无铅器件。有节能降耗的技术手段。具备环境管理认证,符合环保规定,包材可回收,支持重复利用。3设计方案两地三中心的容灾方式是当前金融行业容灾建设的最高配置和主流方案。通过建设近距离的数据中心(同城双活数据中心)获得接近于零数据丢失的数据保护,通过建设较远距离的数据中心(异地数据中心)获得远距离的数据保护,避免区域性的灾难导致业务无法恢复。在出现小概率的大范围的灾难时,如自然灾害地震,造成同城双活中心与生产中心同时不可用,应用可以切换到异地灾难备份中心。通过实施日常灾难双活演练的步骤,应用可在业务容许的时间内,在异地的灾难备份中心恢复,保证业务连续运行。但异地恢复通常会丢失少量的数据。下图是同城双活架构三层图:支持双活场景:1)IDC故障转移2)LB(负载均衡)故障转移3)应用集群故障转移4)分布式应用集群故障转移5)数据库存储级故障转移3.1方案概述根据我行现有两地三中心容灾解决方案现状:一个生产中心、一个同城双活备份中心、一个异地灾难备份中心。生产中心的数据从业务层面同步地复制到同城双活中心,同时,双活中心的数据异步地复制到异地灾难备份中心。相比仅建立同城灾难备份中心或异地灾难备份中心,“两地三中心”的方式结合两者的优点,能够适应更大范围的灾难场景,对于小范围的区域性灾难和较大范围的自然灾害,都能够通过灾难备份系统较快地响应,尽可能保全业务数据不丢失,实现更优的RPO和RTO。因此,两地三中心容灾解决方案得到了广泛的应用。为配合我行信息系统整体架构,为了达到业务的高连续性要求,结合目前数据中心间网络现状,本次设计在前期对市面上常见的EMC、HDS及华为等品牌进行严格的POC测试,基于EMC存储满足我行业务实际需求的测试结果,并且经过各项指标的综合考虑后,采购EMCPowerMax8000高端全闪存储,采用同城双活+异地灾备的两地三中心方案。如此设计有如下优势:1)深圳同城双活机房和异地上海数据中心的故障或者演练或者计划内停机等操作,不会影响另一个数据中心的容灾能力。2)深圳本地双活中心根据业务流量入口控制,可以将业务无缝在同城两数据中心切换,便于日常维护及单数据中心故障应急3)深圳同城双活的容灾能力可以达到RPO=0的最高水平4)异地上海数据中心既可以节省远距离网络带宽,又可以尽量减少对深圳生产机房性能的影响5)与现网运维能力相匹配,兼容目前前端业务流量切换流程框架,方案稳健且未来扩展性好。6)支持标准API接口,能与本行自动化日常运维平台集成,完成日常运维工作(zone配置、存储初始分配、扩容、回收等自动化)其中,同城双活+异地灾备可以将同城双活切换RTO缩短为“零”,可以大大提高业务连续性能力。3.2方案架构本次建设基于DellEMC高端全闪存PowerMax8000存储,采用业务层面同城双活的两地三中心架构,具体拓扑如下:双活概述:a.单个应用:两个生产中心部署相同的业务系统,结合网络层、主机层及应用的负载均衡技术,实现业务系统在两个数据中心并行工作和负载分担,其中数据在数据库层面采用热备技术(即主库-从库之间实时ADG同步),通过负载均衡技术实现ADG从库日常提供类如查询、抽数、备份等读取操作,实现部分读操作从主库分离,大大分担主库的压力,写仍然在主库,从库分担主库的部分读操作。b.应用集群:两个生产中心部署不同的业务系统,互相实时灾备接管就绪,即部分业务以数据中心A为主,数据中心B为热备,而部分业务则以数据中心B为主,数据中心A为热备,以达到近似双活的效果。一旦主站点出现问题,热备数据中心自动接管主数据中心的业务,对前端业务无感知,用户的业务不会中断。c.本行目前已有部分应用以同城双活中心作为主站点,随着业务量的增加,生产数据中心的承载压力会变大,届时将会有更多的新上应用会优先安放在同城双活中心,以当前生产中心作为热备站点,均衡两中心资源使用效率,充分利用同城2个数据中心的各类资源。4实践亮点及难点DellEMCPowerMax系列高端全闪存结合本行的本地双活+异地容灾的三中心解决方案的应用亮点如下:(1)标准化API助力银行存储资源端到端分配全流程闭环自动化通过标准化API接口串联主机-交换机-存储,通过标准化梳理后,实现全流程自动化资源上线、扩容、回收、下线等常规运维场景,减少了大量的重复人工操作(自动化完成日常资源类操作占比已经超97%,而且持续在提升中)。另外人为错误大幅度减少,近一年来未发生因变更导致的人为故障(原来随着业务量增长需求变多经常出现人为的配置错误,人为变更异常也是时有发生);可根据业务窗口,定制时间段执行相应的资源分配,完成后自动将执行结果通知资源需求部门。数据采集服务器,交换机,存储各端所有数据从设备接口获取,不依赖于任何excel表,并及时更新。操作:支持系统上线和扩容、回收、下线。操作流程
:说明:1)对上游工具的请求,不做任何数据层面的判断,直接落库。2)操作前先对请求的数据做检查,如果检查通过,则生成和前端提交的端到端操作一样的单子,即存储分配,扫盘。如果检查失败,会在单子中记录失败原因,这个时候需要人介入判断是否支持手动操作。3)对于生成单子失败的操作,如果不支持手动操作,则由管理员根据上游传来的信息手动操作,操作完成后手动修改单子状态,修改保存后会自动通知上游。4)对于生成单子失败的操作,如果由于数据不一致(实例名有偏差),申请的量超过自动执行的设置(2T)等原因导致的,可以先检查更新数据,然后再尝试转换成可执行的端到端操作单子(强制执行)。5)目前支持OVMNewCluster,和AddVolume,AddOSVolume等操作类型。6)手动操作记录对应的操作记录:a)OVMNewCluster存储分配,扫盘挂载b)AddVolume存储分配,扫盘挂载,加ASMc)AddOSVolume存储分配,扫盘挂载7)手动操作的单子状态:a)Pending(等待转换成可执行单子)b)Queue(已经转换但还没执行结束)c)Waiting(转换失败,等待手动介入)d)Success(分配成功,并成功通知上游)e)Failed(应上游要求取消操作,或者通知上游失败,如果通知上游失败,需要手动介入,编辑单子状态,再次通知。所以理论上除了上游需要取消,不应该出现Failed的情况。(2)基于DellEMC全闪存端到端NVMe能力和RoCE网络的NOF+高性能解决方案方面,初步达到一定的利用参考价值,经过前期的2轮针对16/32GBSAN环境下NOF+方案测试,了解到NVMe协议整个生态的发展方向,给我行后续向NOF+新型存储应用组网规划,提供了宝贵参考。测试模型:存储配置名称描述数量存储系统存储系统EMCPowerMax8000(4引擎8控,单控512GBCache)1FC前端接口前端16GBFC接口4SSD盘7.68TBNvmeSSD硬盘86服务器测试工具
(3)支持数据高压缩比(达到3倍压缩比以上),相比非压缩存储,在性能无碍的前提下,节省了宝贵的机柜空间和减轻了本就紧张的机房用电力,同等空间使用效率大幅提高,间接节省了采购成本。(4)全链路自动化故障诊断及告警通过RestAPI收集主机-交换机-存储等对象的相关数据,预先设定阀值及植入算法(详细日志在右边点击展开显示),在下图中整体显示全链路状态,一旦有告警会通过红-黄-灰三种颜色分等级(critical、warning、采数异常)直观展示,便于快速定位故障。结合上层应用实践亮点:1、满足业务超流控实施,但不影响业务体验每逢来自前端入口业务异常增高的情况(比如各平台集中活动等),前端负责均衡会自动进行超流量控制,对超过设定阀值的流量进行排队或负载均衡到另外数据中心,确保后端基础架构不被动受牵连,保证前端业务能访问。2、满足业务服务能力快速弹性切流扩容在上述紧急情况下(主节点中心已满负荷),按照提前配置规则,实现自动
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物理14.1 怎样认识电阻教案
- 公司研发费用资本化判定与归集
- 专题07 我国的民族关系与对外开放(教学设计)-中考历史二轮复习学历案+教学设计++测试+背诵清单(部编版)
- 4.海洋开发教学设计初中科学沪教版上海七年级第一学期-沪教版(上海)
- 公司投资审批环节管理方案
- 公司敬业度提升专项行动方案
- 公司固定资产盘点物联网方案
- 物理人教版第十二章 简单机械12.1 杠杆教案及反思
- Module 8 Time off Unit 2 Reading and vocabulary 教学设计 (1)2023-2024学年外研版英语八年级下册
- 语文16 太阳教案
- 唐诗宋词人文解读 知到智慧树网课答案
- 文本信纸(A4横条直接打印版)模板
- 森林灾害防护知识讲座
- 环卫清扫保洁、垃圾清运及绿化服务投标方案(技术标 )
- 国家义务教育质量监测科学四年级创新作业测试卷附答案
- 米糠的综合利用教学
- 造船企业管理 造船成本组成
- 应用光学(吉林联盟)知到章节答案智慧树2023年长春理工大学
- 2023可持续发展追踪-产业系列:智能手机制造商-妙盈研究院
- 起重机司机Q2(限桥式起重机)题库题库(1727道)
- 疼痛的基础理论与知识图片
评论
0/150
提交评论