版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 银行核心存储系统升级改造和统一存储监控方案 目 录 TOC o 1-3 h z u HYPERLINK l _Toc66556727 银行核心存储系统升级改造和统一存储监控方案 PAGEREF _Toc66556727 h 1 HYPERLINK l _Toc66556728 一、 项目背景 PAGEREF _Toc66556728 h 3 HYPERLINK l _Toc66556729 二、 数据中心核心存储架构选型 PAGEREF _Toc66556729 h 4 HYPERLINK l _Toc66556730 三、数据中心存储数据迁移 PAGEREF _Toc66556730 h
2、5 HYPERLINK l _Toc66556731 四、分布式开源集中监控的初步探索 PAGEREF _Toc66556731 h 7 HYPERLINK l _Toc66556732 五、总结 PAGEREF _Toc66556732 h 11【摘要】本文主要介绍了中小银行存储升级和改造实践,主要分为架构选型、迁移实施、集中监控探讨三大块。架构选型从稳定方面考虑,结合我行实际情况,选择EMC高端存储;迁移实施从ORACLE数据库迁移、GPFS集群文件系统迁移、VMware虚拟机迁移、物理设备迁移四个方面做了介绍;集中监控主要是基于Zabbix+Grafana开源软件构建分布式监控平台,列举
3、了SAN网络、数据库统一监控及展示以及未来统一监控平台建设思路。一、 项目背景近年来双模IT已经从预测变为了现实,以大数据、人工智能为代表的新型技术的涌现,给金融科技注入新鲜活力的,吸引了大部分行业同仁的目光。传统金融IT架构以稳态为主,随着利率市场化的经济政策成为国内金融环境的基调,FinTech时代已经伴随着IT技术的飞速发展骤然而来,各类新技术在特定业务场景下的应用不断推陈出新,必将大幅提升金融服务品质,并助力金融行业实现新的利润增长点,真正发挥“科技引领”的作用。但是,敏态系统是以数据为基本原料的,敏态业务的发展,带来了更多的数据调用和交互,银行内最为关键、调用最为频繁的数据,还是核心
4、业务系统的数据,承载核心系统的传统稳态IT,也面临快速增长的数据访问压力。保障核心系统的稳健,不仅关系到传统业务的顺利开展、关系到监管要求的顺利达标,更是为新兴的敏态系统及时获取数据提供基础架构的支撑。根据人民银行关于进一步加强和完善地方性银行业金融机构灾难备份体系建设的指导意见中 “最小必须业务集系统”同城应用级灾备规范的要求,我行多年前就构建了同城双活异地容灾的“两地三中心”容灾架构。同城两个数据中心分别在我行攀枝花总部机房和中国联通公司攀枝花分公司仁和机房,其中,我行攀枝花总部机房为主生产中心,联通机房作为我行同城应急灾备数据中心。同城两个数据中心,通过波分实现两个数据中心网络互通,通过
5、EMC VPLEX VS2存储虚拟化双活网关实现了生产中心多套存储设备和同城灾备中心多套存储设备之间的数据双活。同城两份数据实时同步,故障时自动切换,实现了物理故障的RPO=0和RTO0。通过EMC RecoverPoint实现生产中心核心数据的本地连续数据保护(为减少对生产系统影响,采用异步拆分策略,逻辑错误RPO0),再通过EMC RecoverPoint的CRR异地复制功能实现与异地灾备中心数据同步(RPO10分钟)。设备更新前,我行存储设备多为中端存储,主要包括EMC VNX、Unit系列存储和VPLEX 存储虚拟化双活网关。其中VNX系列存储和VPLEX均已上线运行6年以上,数据处理
6、能力已经出现明显瓶颈,主要表现在CPU利用率长期处于较高水平,数据访问延迟明显增大。同时,电子设备进入生命周期尾声后,硬件故障特别是硬盘的故障率开始上升,对业务的健康稳定运行构成了威胁。本项目目标:1、基于VMAX250F、VPLEX VS6部署双活存储;2、迁移现有中端存储数据至VMAX250F;3、构建我行开源监控平台,实现存储等资源的集中监控。二、 数据中心核心存储架构选型数据中心核心存储阵列承载着行里最关键的数据,是整个数据中心的命脉。如果设计数据中心核心存储架构有五条经验,那么,第一是稳定、第二是稳定、第三还是稳定。这里稳定重复三遍,并不是重要的事情说三次那么简单,而是我们认为确实至
7、少有三个方面的保障才能保证稳定。第一个稳定,是架构稳定。这个架构,有两个数据中心的设计问题,保证两份数据实施同步,保证故障自动切换。但是最好的情况是设备稳定,不要去切换。也就是单台设备,最好是也是稳定可靠的。通过多年使用中端存储的经验,我们认为最考验单台设备稳定可靠的时候,就是设备微码升级的时候。目前,中端存储微码升级基本都是控制器离线升级,也就是每次升级的时候有一段时间是单控制器运行的,此时所有访问都在一个控制器,虽然每次都是在业务量最小的时候升级,但是心里的忐忑总是难免的。随着7x24小时业务增多,我们能够选择的忐忑时间越来越少了。与之比较,业界经典的高端存储,是控制器在线升级,可以保证微
8、码升级过程中的设备冗余性和性能波动,最大限度减少风险。第二个稳定,是经过广泛验证的稳定。现在描述设备稳定性的术语有很多,有一些厂家说设备可用性,有一些厂家说数据可用性。从实际角度来说,没有存储设备是100%可用的,因为存储设备本身就是一个软件和硬件结合的复杂产品,如果哪家说自己的产品没有BUG,那一定是假话。有BUG其实不可怕,可怕的是不知道BUG的存在,不知道如何防范。所以,我们认为要选则同行业案例多的产品,因为使用广泛,盯着这个产品的人就多,有问题被发现的概率就高很多,未知BUG就会少很多。而且同行业的业务类似,同行发现的问题对我行会有很好的参照意义。已知的、有规避办法的问题,就不是问题。
9、第三个稳定,是服务要稳定。产品和方案落地靠的是人,看上去很好很美的方案因为服务不到位落到地上一塌糊涂的事情在IT行业有非常多了。要保证服务稳定,一定要选择好服务的人,这包括了服务人员的技术水平、做事风格和同行业口碑。经过多年的了解,我行对主要设备供应商的工程师技术水平有了基本的评估,会要求在我行认可的范围内选择工程师进行服务。除了稳定性之外,当然要考虑性能。好在目前全闪存阵列基本已经普及,IOPS基本都是几十万甚至上百万,延迟也都能够控制到1ms左右。在闪存阵列领域,最常见的另外一个话题是数据精简技术,这里边涉及到数据精简配置和数据压缩重删。坦率来说,数据精简配置我们基本是遵循尽量不用的原则,
10、原因也比较简单,应用的数据增量有较大的不确定性,一旦给应用承诺一个很大的空间,应用开发人员突然增加大量数据导致后台容量爆仓,会引起整个存储的保护反应,写入被拒绝,造成业务中断。数据重删和压缩目前有硬件和软件两种实现方式,两种实现方式应该说各有优劣。在核心存储领域,我们更倾向于采用硬件办法实现的重删和压缩,因为核心存储更强调稳定性和性能,软件方式在非核心业务采用,也有不错效果。基于以上考虑,我行最终建设采用了DELLEMC的技术方案。具体方案为2套双引擎(4控制器)的VPLEX VS6存虚拟化网关和2套VMAX250F高端全闪存阵列。通过将VPLEX从VS2单引擎(双控制器)升级到VS6双引擎(
11、4控制器),提升了虚拟化双活网关的可靠性和性能,最大网关的CPU利用率从90%多降低到了30%以下。通过将VNX替换为VMAX250F实现了底层存储阵列的升级,每台VMAX250F配置1T高速缓存,2块硬件压缩卡,开启压缩时存储底层延迟低于1ms。从VPLEX端看到的对主机端口的响应来看,读IO的延迟在1ms以内,写IO因为需要在两个数据中心实现双写基本在2ms左右。从日常运维中风险最大的微码升级来看,VPLEX微码升级以控制器为单位进行,因为有四个控制器,整体最高性能波动从50%降低为25%,实际测试中因为不会达到设备性能的最大值,业务层面不会有感知。VMAX升级为在线进行,不需要停止控制器
12、的运行,因此核心在微码升级场景新系统较原有系统有了极大提升。同时,VPLEX和VMAX的方案可以与我行原有的RecoverPoint完美集成,不需要改动本地CDP和异地灾备系统,节省了大量异地灾备重构的时间和资金成本。三、数据中心存储数据迁移本次升级生产中心、同城灾备存储规划:1、生产中心和同城灾备中心分别部署一台DELLEMC VMAX250F高端全闪存储阵列;2、生产中心和同城灾备中心分别部署一台DELLEMC VPLEX V6存储虚拟化网关,实现多台存储阵列的虚拟化和存储双活。图1.生产中心与同城灾备存储架构图新购设备到货并完成初始化和简单配置后,我行计划将已经超长服役的EMC VNX系
13、列存储和VPLEX下线淘汰,EMC VNX系列存储的数据全部迁移到VMAX250F,涉及的系统包含核心系统、现代支付系统、网银、电子银行、综合前置、短信银行等重要业务系统,主机环境包括了VMware环境、AIX环境、Oracle数据库和GPFS文件系统,同期还需要对POWERPATH多路径软件升级、部分数据分布进行调优。DELLEMC原厂可以提供VPLEX VS2到VPLEX VS6的在线升级,然后通过VPLEX的Local方式进行数据迁移,但是此过程是以LUN为单位进行的,很难对原有LUN分布进行优化,同时VS2升级到VS6的过程时间较长。因此,我行经过慎重考虑,选择更加灵活的蚂蚁搬家式数据
14、迁移。根据环境应用环境不同,从数据库、文件系统和VMware虚拟机层面进行迁移。以下迁移均选择夜间、业务量小的时候对系统系统进行,详细迁移方法如下:1、VMware虚拟机迁移:登陆到vCenter,识别VPLEX VS6分配过来的LUN,创建DataStore,逐台扫描识别存储;业务空闲时间逐个迁移业务系统虚拟机,采用Storage vMotion将数据迁移到新的DataStore上。此种迁移方式,迁移过程中虚拟机不关机、业务不中断,保障了业务系统的高可用。2、ORACLE RAC数据库迁移,通过ASM磁盘组方式进行迁移,迁移过程中,业务系统数据库不停库,保障了数据库的高可用。迁移步骤如下:1
15、)SSH登录每个数据库节点,扫描识别VPLEX VS6分配的磁盘,检查两台主机LUN的WWID一致,确保一致后将块设备转换为字符设备;2)grid用户的登录一个节点,sqlplus / as sysasm 登录asm实例;使用alter diskgroup OCRVDISK 添加删除磁盘,并重新rebalance数据;迁移过程中查询v$asm_operation视图查看迁移进度。3、GPFS集群文件系统迁移,通过GPFS集群软件在线增减磁盘,迁移过程中,GPFS文件系统对业务无感知,保障业务系统持续稳定。操作步骤如下:1)SSH登录登录主机,扫描识别VPLEX VS6分配的磁盘,配置cfg文件
16、,通过mmcrnsd创建nsd磁盘。2)使用mmadddisk在GPFS文件系统中添加磁盘,添加完后mmlsdisk确认磁盘状态,确认无误后通过mmdeldisk删除EMC VNX存储对应磁盘。4、Power小型机、非虚拟化物理服务器更新需要有停机窗口,主要是对多路径软件进行升级,同步将原有数据卷映射给VPLEX VS6做虚拟化,通过VPLEX的Local镜像功能,实现数据从原有设备到新购VMAX250F的迁移。因为虚拟化的时间比较块就可以实现,数据迁移主要在底层进行,大部分的时间是多路径软件的大版本升级和重启时间。实际停机窗口在1小时左右。此次迁移完成后,拟对部分非集群部署的服务器通过中间件
17、集群、操作系统集群、数据库集群等集群技术进行集群改造,从而提高系统可用性。四、分布式开源集中监控的初步探索我行之前的监控体系较为分散,从设备来说每种品牌的服务器、存储和SAN网络都有各自品牌的监控软件,从应用来说操作系统和数据库也是分开监控的,这个日常运维带来了很大不便。为实现存储设备、存储网络、服务器、数据库等运行状况集中监控并且能在出现问题时及时解决,我行在本次设备更换中也对分布式开源集中监控进行了初步探索,经过认真地调研选择Zabbix和Grafana构建我行开源监控集中平台。Zabbix是国外银行IT人员在运维中积累的脚本基础上发展来的的开源软件,是基于web界面的企业级开源监控软件,
18、提供分布式系统监控与网络监视功能。具备主机的性能监控,网络设备性能监控,数据库性能监控,多种告警方式,详细报表、图表的绘制等功能。监测对象可以是Linux或Windows服务器,也可以是路由器、交换机等网络设备,通过SNMP、zabbix Agent、PING、端口监视等方法提供对远程网络服务器等监控、数据收集等功能。Grafana 是 Graphite 和 InfluxDB 仪表盘和图形编辑器。Grafana 是开源的,功能齐全的度量仪表盘和图形编辑器,支持 Graphite,InfluxDB 和 OpenTSDB,能够非常美观的展示和分析监控数据的工具,支持手机数据展示、告警等功能。1、Z
19、abbix监控架构:Zabbix根据系统架构、网络环境、监控规模等外界因素分为三种架构:server-client(直接连接)、master-node-client(Node架构)、server-proxy-client(proxy架构)。结合我行容灾系统架构,设备数量不多的具体情况,选择server-proxy-client架构部署Zabbix开源监控平台,在生产中心部署集中监控中心、DB采集引擎,以及Grafana;在生产中心、同城灾备、异地灾备分别部署分布式代理对操作系统、数据库、应用系统、存储、网络等进行采集和推送。架构图如下:图2.运维集中监控平台实施架构图2、存储、SAN交换机监控
20、实现在整体监控架构中,我行采用Zabbix做监控数据的采集、管理和加工,采用Grafana实现数据的展示。Zabbix的监控信息采集本身可以通过多种方式实现,比较常见的有SNMP、Zabbix Agent、PING、端口监视等方法,每种方式都有自己的优点和不足。经过研究和尝试,我们发现SNMP、RestApi和Zabbix Agent是目前最常用也是比较好用的方式。对于服务器和数据库,采用Zabbix Agent方式是比较好的监控方式。通过在服务器安装部署Zabbix agent,定期收集各项数据。通过内部的讨论以及与外部专家的研讨,我们定义的Zabbix Server配置模板对数据库状态、表空间、读写IO,操作系统文件系统、内存、CPU、网口流量等进行监控和展示。Grafana展示监控界
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数字印刷员岗后能力考核试卷含答案
- 废胶再生工岗前理论模拟考核试卷含答案
- 2026年新科教版初中九年级科学下册第一单元生物遗传概率计算卷含答案
- 水土保持员创新思维强化考核试卷含答案
- 芯片装架工操作水平强化考核试卷含答案
- 2026年新科教版初中八年级道德与法治上册第一单元丰富社会生活卷含答案
- 十二碳二元酸装置操作工岗前竞争分析考核试卷含答案
- 印制电路照相制版工安全专项竞赛考核试卷含答案
- 民族拉弦乐器制作工安全综合模拟考核试卷含答案
- 日间手术应急调配预案
- GB/T 39313-2020橡胶软管及软管组合件输送石油基或水基流体用致密钢丝编织增强液压型规范
- GB/T 13331-2014土方机械液压挖掘机起重量
- 中国脑出血诊治指南(2023年)-1
- 第1节-种植工程课件
- 《昆虫记》阅读指导课课件
- 考试-四川省省情省策知识点
- 宿舍用电智能管理系统设计毕业论文
- 有机化学光谱法在有机化学中的应用公开课一等奖优质课大赛微课获奖课件
- 思想道德与法治课件:第四章 第二节 社会主义核心价值观的显著特征
- 质量信得过班组ppt课件(PPT 17页)
- 2021年高考理综物理真题试卷(山东卷)
评论
0/150
提交评论