版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 存储高可用切换问题及分析优化 【摘要】本文介绍在有业务压力下的存储高可用切换测试,从中发现的影响切换时间的问题,以及对问题的分析。一般情况下,我们压力测试关注的都是交易系统吞吐量、业务的响应时间,批处理系统的处理时间,但是我们很少关注某一个计算机部件的故障而导致的高可用切换过程的业务中断时间,以及切换过程中的性能表现。这其实也是我们性能测试所关注的,因为在有压力和没有压力的情况下,这个业务中断的时间是不一样的;切换过程和正常处理过程中系统性能的表现也是不一样的。本文介绍在有业务压力下的存储高可用切换测试,从中发现的影响切换时间的问题,以及对问题的分析。一、 存储服务器高可用的类型存储的高可用
2、类型很多,先来介绍一种存储的高可用类型 GAD连接备存储也类似,但不论应用指向主存储还是备存储,先落盘的都是主存储。然而这些不是本文的关键。二、 单台故障后会发生什么?当主存储故障,备存储会自动切换为主存储(改变了身份),并且应用会通过多路径软件识别出主存储故障(当到达超时时间),切换到备存储。当备存储故障,应用也会通过多路径软件识别出备存储故障,把 IO 路径切换到主存储。三、 测试结果在这个测试当中,我们除了关注我们通常所关注的一定吞吐量情况下业务响应时间、数据库 IO 响应时间、磁盘 IO 响应时间,我们还会关注单台存储故障后的切换时长和切换过程的性能表现。下面是带着压力,存储高可用切换
3、过程中的 CPU 利用率的图。在主存储故障后大约 40 多秒后,似乎应用发现了主存储故障,之后切到备存储做业务,但似乎直到 3 分钟之后,业务量才完全起来,中间 40 秒 3 分钟的过程中,有毛刺状 CPU 。但即使是吞吐量恢复之后,仍然偶尔有吞吐量突然下降的情况。四、 问题分析一般来说,存储高可用的过程 40 秒就足够了,我们做了 LVM 模式高可用的测试,的确在 40 秒完成存储切换,那么:1. 为什么 GAD 切换时间比 LVM 长?首先从原理上讲, LVM 模式是这样的都是主存储,一个存储坏了,只要应用自己发现了,多路径软件直接切到另一个存储就大功告成了。而 GAD 的主存储出了故障,
4、不但应用要把路径切换到备存储,并且,存储本身要做调整。即备存储要把自己的身份变成主存储。为什么要变身份呢?因为,在一个存储故障的情况下,写 IO 的逻辑也和平时不一样。仲裁要告诉备存储,你现在变成主了,而且是没有备机的主机。这么一来,就会多一些时间上的耽搁。当然,这个耽搁也本不该这么长( 2 分钟)2. 为什么有 CPU 的毛刺, 3 分钟之后才完全恢复这是这个 CPU 图中的疑点。明明故障发生 40 秒之后,已经在备存储上看到了有 IO 读写,并且,业务系统也开始做业务了,为什么 CPU 忽高忽低呢?业务的吞吐量也没有完全起来,直到 3 分钟以后。那么,我们做个推理:1) CPU 高的时候,
5、是有业务做成功,即可以做写 IO ,而 CPU 低的时候,没有业务做成功,即不能做写 IO 。2) 那么为什么有时候能写 IO ,有时不能写呢?是不是因为业务系统中用到了多个 LUN ,这些 LUN 并不是同一时间在备存储启动的,而是一个一个慢慢启动的?这个推理其实很好理解,因为,我们在 Windows 开机的时候,很早就可以看到 Windows 的桌面了,但这时候开启应用可能失败。因为 Windows 为了让用户体验更高,采用了先展示桌面,后面慢慢启动那些服务的策略。那么存储系统是不是也是这样的呢?我们做一个小实验,把业务系统写日志的那个盘( LV ),在建盘的时候,把它条带化(打散)到 3
6、 个 LUN 上面。写日志时候,在 LUN1 写 4M 数据(举例),之后就切到 LUN2 上写数据,写满 4M 之后,又去 LUN3 上面写。注:应用的逻辑是,业务完成的标志是写日志完成,如果写不了日志,这个业务就 Hang 住。这个图就完美的验证了上面的猜想。CPU 明显的忽高忽低就是业务量时而有,时而没有,对应的就是日志一会儿可以写,一会儿不能写。为什么时而不能写呢?因为写完 LUN1 ,要切换到 LUN2 上面写,而 LUN2 这时候还没有在存储层面完成主备切换,应用在下 IO 的时候,存储才意识到自己这个 LUN 应该做切换了,而且应该尽快切换(有点像催单的意思),之后 LUN2 优先完成启动,继续做业务。以此类推, LUN3 也是一样。五、 调优基于上述猜想,如何做调优呢?1) 多路径软件( HDLM )探测存储是否活着,有一个超时时间的设置。把这个超时时间缩短,可以尽早发现存储的故障。2) 让存储自己尽早发现自己的故障。多路径软件中有一个 HealthCheck 的选项,大概的意思是每隔多久去看一看自己的 LUN 是不是还活着。如果不活着就在另一台存储上把对应的备份激活。把这个 HealthCheck 的时间缩短,从默认的 60 分钟改为 1 分钟。那么存储在发生故障最多一分钟之后,将获得消息,并把故障的 LUN 在另一台存储上拉起。六、 调优后的结果完美的验证
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个性化服务品牌承诺函3篇
- 2026年比奈量表测试题及答案
- 2026年自然失业行测试题及答案
- 2026年内心的世界测试题及答案
- 2026年高智商反测试题及答案
- 安全教育专题:预防校园欺凌小学主题班会课件
- 2026年说说我们的社区测试题及答案
- 九年级数学下册期中达标测试卷作业讲义北师大版
- 2026年mc红石测试题及答案
- 小学主题班会课件传承中华美德章
- DB14∕T 2163-2020 信息化项目软件运维费用测算指南
- 《义务教育道德与法治课程标准(2022年版)》解读
- DL∕ T 748.8-2001 火力发电厂锅炉机组检修导则 第8部分:空气预热器检修
- 2024多级AO工艺污水处理技术规程
- 重特大突发水环境事件应急监测工作规程
- 2024年县乡教师选调进城考试《教育学》题库带答案(b卷)
- 龙软LongRuanGIS地测空间管理信息系统教程-wx4766
- 惯例话术惯例大全
- (部编版)初中历史七年级下册 明朝的对外关系 说课一等奖
- 《OSPF路由协议》课件
- NPPV无创呼吸机人机对抗个案护理
评论
0/150
提交评论