HC1309114 统一存储维护与故障诊断_第1页
HC1309114 统一存储维护与故障诊断_第2页
HC1309114 统一存储维护与故障诊断_第3页
HC1309114 统一存储维护与故障诊断_第4页
HC1309114 统一存储维护与故障诊断_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 0 修订记录 课程编码课程编码适用产品适用产品产品版本产品版本课程版本课程版本ISSUE HC1309114统一存储V1V1.0 开发开发/优化者优化者时间时间审核人审核人开发类型(新开发开发类型(新开发/优化)优化) 吴昊旻2014年3月14日张博新开发 本页不打印 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. HC1309114 统一存储维护与故障统一存储维护与故障

2、 诊断诊断 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 2 l学习完本章节后,您将能够: p掌握存储系统开工失败的处理流程 p掌握存储控制器故障的处理流程 p掌握RAID组故障的处理流程 p掌握链路异常的处理流程 p了解MSCS的原理以及安装部署流程 目标 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 3 目录 1. 阵列开工失败阵列开工失败 2. 控制器故障 3. RAID故障 4. 链路异常 5.

3、硬盘故障 6. MSCS介绍 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 4 阵列开工失败 l阵列开工失败 现象描述现象描述 可能原因可能原因 故障阐述故障阐述 l开工失败通常发 生在系统异常掉 电后自动恢复的 过程中,机房搬 迁后重新上电, 或者是在更换控 制框后。 l阵列开工失败表现 未ISM无法连接阵 列进行管理,控制 器状态指示灯绿灯 闪烁,通过命令行 登陆提示 “system is not ready please wait”。 l保险箱盘所在硬盘 框MAC地址和DB 中记录不一致; l

4、主备控内存大小不 一致; l保险箱硬盘不在位 ; l系统损坏; Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 5 阵列开工失败诊断思路 No Image Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 6 控制器故障 l常见开工失败处理策略 p“master start VAULT failed” 主控启动保险箱失败 p“master DEV start VAULT failed”设备管理启动保险箱失败 p

5、“read db failed”控制器读DB失败 p“master start DEV failed”主控启动设备管理失败 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 7 目录 1. 阵列开工失败 2. 控制器故障控制器故障 3. RAID故障 4. 链路异常 5. 硬盘故障 6. MSCS介绍 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 8 故障诊断原则 先外部,后内部先外部,后内部 先整体,后局部

6、先整体,后局部 先高级,后低级先高级,后低级 故障诊故障诊 断原则断原则 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 9 控制器故障 l检查控制器状态检查控制器状态 p控制器是能够完成存储业务处理、实现RAID、LUN映射、分条设置或其他业务和 故障告警等功能的部件。通过浏览控制器信息,可以检查控制器的健康状态和运 行状态信息。 l对系统的影响对系统的影响 p如果控制器出现故障,可能会导致读写性能和可靠性降低,甚至业务中断、数据 丢失。 l参考标准参考标准 p在ISM管理软件中: p控制器的健康状

7、态为“正常”,运行状态为“在线”。 p“事件管理”对话框中没有新增与控制器相关的故障信息。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 10 控制器故障 l控制器故障排查思路控制器故障排查思路 p按照前面提到的先外部后内部,先整体后局部的原则,首先应该检查系统指示灯 和声音告警,然后在检查各个FRU部件的指示灯。若是控制器故障我们可以看到 系统指示灯和控制器告警指示灯都红灯常亮。最后再登陆ISM管理软件检查告警 信息确认控制器故障。 l更换控制器更换控制器 p在拔插控制器前需要确认业务已经停止或业

8、务已切换至对端,并检查主机多路径 是否工作正常; p检查控制器缓存中的数据是否已写入硬盘,如果没有进行写盘操作可以对控制器 执行offline操作,触发写盘操作。 p更换控制器时,如果两个控制版本不一致,在更换过程中会自动进行同步,此时 需要时间较长,并可能出现控制器亮红灯或者多次重启现象。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 11 目录 1. 阵列开工失败 2. 控制器故障 3. RAID故障故障 4. 链路异常 5. 硬盘故障 6. MSCS介绍 Copyright 2013 Huaw

9、ei Technologies Co., Ltd. All rights reserved. Page 12 RAID组故障 现象描述现象描述 可能原因可能原因 故障阐述故障阐述 lRAID组故障与成员 盘状态有关。该 RAID组故障时不能 承载业务,导致业 务数据丢失。 l在ISM导航树展开“ 存储资源”节点, 单击“RAID组”。 在右侧的信息展示 区,故障的RAID组 的“健康状态”显 示为“故障”且“ 运行状态”显示为 “离线”。 l硬盘框意外掉电 lRAID组成员盘被拔 出 lRAID组成员盘被其 他硬盘替换 lRAID组成员盘出现 坏道或其他导致读写 失败的故障 l RAID组故障

10、 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 13 RAID组故障 lRAID组故障排查思路 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 14 RAID组故障 lRAID组故障排查思路 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 15 RAID组故障(RAID5双盘失效处理) l定位思路定位思路 p在未修

11、复RAID之前,切勿拔插任何硬盘,避免搞混硬盘故障时间和硬盘位置。 p优先修复RAID,再修复文件系统(若文件系统损坏的话),最后恢复业务。 p全部恢复正常后,更换故障硬盘。 l处理过程处理过程 p确定硬盘失效顺序和时间。 p检查失效硬盘的物理和逻辑状态,如果失效硬盘物理状态未fault则需要尝试将其 拔插以恢复物理状态为normal。 p通过review命令恢复最后失效硬盘逻辑状态为normal,使RAID组变为降级状态。 p更换未恢复的故障硬盘,是RAID组开始重构。 p重构完成后更换review命令恢复的硬盘。 Copyright 2013 Huawei Technologies Co.

12、, Ltd. All rights reserved. Page 16 RAID组故障(RAID5双盘失效处理) l定位思路定位思路 p在未修复RAID之前,切勿拔插任何硬盘,避免搞混硬盘故障时间和硬盘位置。 p优先修复RAID,再修复文件系统(若文件系统损坏的话),最后恢复业务。 p全部恢复正常后,更换故障硬盘。 l处理过程处理过程 p确定硬盘失效顺序和时间。 p检查失效硬盘的物理和逻辑状态,如果失效硬盘物理状态未fault则需要尝试将其 拔插以恢复物理状态为normal。 p通过revive命令恢复最后失效硬盘逻辑状态为normal,使RAID组变为降级状态。 p更换未恢复的故障硬盘,是R

13、AID组开始重构。 p重构完成后更换revive命令恢复的硬盘。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 17 目录 1. 阵列开工失败 2. 控制器故障 3. RAID故障 4. 链路异常链路异常 5. 硬盘故障 6. MSCS介绍 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 18 FC链路异常诊断思路 Copyright 2013 Huawei Technologies Co., Ltd. A

14、ll rights reserved. Page 19 FC链路异常处理步骤 序号 问题 解决方案 1 阵列主机口与光纤 交换机协商失败 1.更改阵列主机端口模式为点对点或者交换机模式,再重新 连接 2.更改阵列主机端口速率为1G、2G或者4G再重新连接 3.升级阵列版本 2 交换机zone配置 问题 1.删除原来的zone; 2.重新创建zone,保证阵列主机口和业务服务器的HBA卡在一 个zone里; 3HBA卡驱动问题 1.卸载原有的HBA卡驱动 2.重新安装新的HBA卡驱动 4硬件故障 采用替换法确定故障点,是光模块还是光纤还是HBA卡故障,确 定后更换。 Copyright 2013

15、 Huawei Technologies Co., Ltd. All rights reserved. Page 20 FC链路异常处理步骤 序号序号问题问题解决方案解决方案 5 存储单元 端FC误码 率过高 登录管理界面查看光纤端口误码情况,如果误码率持续增 长,表示误码率过高,如果误码持续增长,属于非正常情 况,应该从以下几个方面排除误码: 1)查看存储侧是否有光模块告警信息。 2)更换光纤线。 3)更换主机端口。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 21 iSCSI链路异常诊断思路

16、Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 22 iSCSI链路异常处理步骤 序号序号问题问题解决方案解决方案 1 iSCSI主机端口 IP地址或应用 服务器业务网 口IP地址配置 错误 1.确认在应用服务器上是否可以ping通iSCSI主机端口IP地址。 2.确认现场组网环境是直连组网还是交换机组网。 直连组网 = 步骤3。交换机组网 = 步骤4。 3.修改iSCSI主机端口IP地址,使iSCSI主机端口IP地址与应用服 务器业务网口IP地址在同一个网段,然后转至步骤5。 您也可以在应用服务器上

17、修改应用服务器的业务网口IP地址, 使其与iSCSI主机端口IP地址在同一个网段上。 4.分别为iSCSI主机端口和应用服务器添加路由,使iSCSI主机 端口和应用服务器能够通信,然后转至步骤5。 5.请在应用服务器上运行ping命令查看网络链路是否可以通, 其中目的地址为存储系统iSCSI主机端口IP地址。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 23 iSCSI链路异常处理步骤 序号序号问题问题解决方案解决方案 2 应用服务器 与存储系统 之间的线缆 松动或损坏 1.拔插或更换连接存储系统

18、与应用服务器之间的网线。 2.操作结束后,请在应用服务器上运行ping命令查看 网络链路是否可以通,其中目的地址为存储系统 iSCSI主机端口IP地址。 3.操作结束后,iSCSI主机端口的link指示灯是否亮绿 色或蓝色,且在ISM中该主机端口的“运行状态” 显示为“连接”。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 24 目录 1. 阵列开工失败 2. 控制器故障 3. RAID故障 4. 链路异常 5. 硬盘故障硬盘故障 6. MSCS介绍 Copyright 2013 Huawei Te

19、chnologies Co., Ltd. All rights reserved. Page 25 硬盘故障 现象描述现象描述 可能原因可能原因 故故障类型障类型 l场景的硬盘故障主 要包括: p无法识别; p介质故障; p即将失效; p物理故障; l出现硬盘故障时, 硬盘指示灯都将红 灯常亮,并产生相 应告警,硬盘故障 时会导致RAID组 降级甚至失效。出 现介质故障时可能 会导致部分数据损 坏。 l硬盘与槽位接触不良 或硬盘故障 l硬盘出现不可修复的 坏道 l硬盘可修复坏道达到 阈值 l硬盘磁头、电机等故 障 l故障场景 Copyright 2013 Huawei Technologies

20、 Co., Ltd. All rights reserved. Page 26 硬盘故障 l存储系统硬盘故障排查思路 注:这里除接触不良外都可以通过更换硬盘的方式解决,如果涉及到RAID失效时,请 参考RAID故障进行处理。所有更换的硬盘必需是经过华为认证且和产品型号对应的 硬盘,其他途径获取的硬盘存储系统无法识别。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 27 硬盘故障 l硬盘SMART信息简介 p硬盘SMART信息是硬盘生产商们建立的,硬盘上保存的跟执行情况、可靠程度、 读写错误率等属性相

21、关的数据;这些属性反应了硬盘当前的健康状态,通过分析 这些数据能判断该硬盘是否具有风险,比如硬盘即将失效就是通过SMART信息 来判断的,SMART信息中有如下常用的属性: Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 28 硬盘故障 硬盘SMART信息简介 smartsmart判断标准判断标准 Informational Exceptions log page 正常情况该log page内容在smart信息中为:IE asc = 0 x00 ascq = 0 x00 No additional s

22、ense information若为其他打印,如asc和ascq为其他值,则说明硬盘 存在异常,如温度超标,或者硬盘出现即将失效的故障 Total uncorrected errors 正常情况该内容在smart信息中为:Total uncorrected errors = 0若不为0,且为一 个较大的值,则说明该盘存在介质故障的风险 Grown Defect List 正常情况该内容在smart信息中为:Grown Defect List is empty,即Grown Defect List为空。若 “0 x000084-00-000004D3”这样格式的打印,若行数较多,则 说明存在介质

23、故障风险。 Invalid DWORD count 正常情况该内容在smart信息中为:Invalid DWORD count = 0若为一个较大的值 则说明该盘存在链路故障的风险 Running disparity error count 正常情况该内容在smart信息中为:Running disparity error count = 0若该值不为0 则说明该盘存在链路故障的风险 Loss of DWORD synchronization 正常情况该内容在smart信息中为:Loss of DWORD synchronization = 0若为一个 较大的值则说明该盘存在链路故障的风险 Copyright 2013 Huaw

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论