OceanStor S3100 S3200存储快速维护手册_第1页
OceanStor S3100 S3200存储快速维护手册_第2页
OceanStor S3100 S3200存储快速维护手册_第3页
OceanStor S3100 S3200存储快速维护手册_第4页
OceanStor S3100 S3200存储快速维护手册_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、OceanStor S3100 S3200 存储快速维护手册内部公开OceanStor S3100 S3200存储快速维护手册拟制:袁龙日期:2012-2-16审核:日期:审核:日期:批准:日期:华为技术有限公司版权所有 侵权必究2012-2-16华为机密,未经许可不得扩散第 1 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开修订记录日期修订版本描述作者2012-2-16V1.1终稿袁龙/661332012-2-16华为机密,未经许可不得扩散第 2 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开目录1 存储管理软件

2、类问题 .41.1如何获取 S3100/S3200 存储管理软件 .41.2如何通过存储管理软件管理 S3100/S3200 .41.3如何收集 3100/S3200 日志 .61.4如何通过存储管理软件查看 3100/S3200 是否存在故障告警.71.5如何解决管理软件 Error1011 的报错 .71.6如何清除管理软件设置的密码 .82 硬盘类问题 .92.1如何判断硬盘工作状态 .92.2如何停用故障或有隐患的硬盘 .102.3如何实施硬盘更换 .102.4如何处理管理界面无法识别硬盘问题 .112.5如何解决“IMPENDING_DRIVE_FAILURE_RISK_MED”故障

3、问题.132.6如何解决“USM_UNREADABLE_SECTORS_EXIST”故障问题.132.7如何解决“Degraded Drive Channel”故障问题.142.8如何解决“Diagnostic Data Available”告警问题.142.9如何解决双盘失效引发的 LUN 失效 .162.10 如何开启硬盘坏道介质扫描功能 .173 控制器类问题 .203.1如何查看控制器 Firmware 版本 .203.2如何通过 LED 显示快速判断存储阵列状态 .203.3如何登录控制器串口命令行 .223.4如何升级控制器 Firmware.243.5如何解决控制器内存 ECC

4、故障问题 .243.6如何解决控制器 825 天自动重启问题 .243.7如何解决网络风暴引发控制器重启问题 .243.8如何解决“Volume Not On Preferred Path”问题.253.9如何解决控制器 IP 无法 ping 通问题 .253.10 如何解决存储阵列温度过高问题 .264 电池类问题 .274.1如何查看电池状态 .274.2如何解决电池告警问题 .284.3如何更换电池 .295 Linux 主机多路径类问题.305.1如何检查主机是否安装 RDAC 多路径软件 .305.2哪里下载 RDAC 多路径软件 .305.3如何查看已安装的 RDAC 多路径软件版

5、本 .305.4如何检查 RDAC 多路径软件是否启用 .315.5如何在线扫描存储映射给 Linux 系统的 LUN .315.6如何检查主机是否正确安装多路径软件 .315.7如何安装/卸载 RDAC 多路径软件 .332012-2-16华为机密,未经许可不得扩散第 3 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开1 存储管理软件类问题1.1 如何获取 S3100/S3200 存储管理软件存储管理软件可在公司 support 网站上下载,链接如下,可根据操作系统的类型下载对应的安装包:S3000 管理软件版本适用 OS 平台链接OceanStorM

6、anagerWindows/Linux//support/pages/editionctrl/catalog/ShowSoftDetailSuit 9.19AIX/HP-UX/Sol.do?actionFlag=displaySoftInfo&node_id=000001420960&web_doc_id=SarisW0000309150&colID=ROOTWEB|CO0000000065OceanStorManagerWindows/support/pages/editionctrl/catal

7、og/ShowSoftDetailSuit 6.60.do?actionFlag=displaySoftInfo&node_id=000001420960&web_doc_id=SW0000395556&colID=ROOTWEB|CO0000000065OceanStorManagerLinux/cn/Service_Training/Download_Center/StSuit 10.15(rpm 包)orage/S3000/S3100_3200/Software_Download/200905/615320_35_0.htmOcea

8、nStorManagerWindows/support/pages/editionctrl/catalog/ShowSoftDetailSuit 10.15.do?actionFlag=displaySoftInfo&node_id=000001420960&web_doc_id=SW0000287913&colID=ROOTWEB|CO0000000065l 9.19 版本管理软件只能管理固件版本 6.19,可适用于现网绝大部分局点。l 9.60 版本管理软件可管理固件版本 6.19、6.23、6.60,现网很少使用该版本。l 10.15 版本

9、管理软件可管理固件版本 6.19、7.15,现网极少使用该版本。1.2 如何通过存储管理软件管理 S3100/S3200安装好存储管理软件后,操作系统的桌面会出现管理软件的图标,形如,双击图标即可启动存储管理软件的 Enterprise Management 窗口,如下图所示:2012-2-16华为机密,未经许可不得扩散第 4 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开在 Enterprise Management 窗口,通过菜单 Edit Add Storage Array 添加存储阵列 A、B两个控制器的 IP 地址,单击 Add 实现存储管理,

10、如下图所示:控制器默认 IP 地址为:控制器 A:01(网口 1)/01(网口 2)控制器 B:02(网口 1)/02(网口 2)1、S3100/S3200 可通过两种方式管理,即带外管理和带内管理。带外管理方式通过网络进行管理,输入控制器 IP 即可实现阵列管理;带内管理方式通过光纤通道进行管理,所有管理命令通过光纤传输,目前现网都使用带外网络管理方式。2、采用带外网络管理方式,要求同时管理 A、B 两个控制器的 IP 地址,若只管理一个控制器的 IP 地址,存储管理软件的部分功能将无法实

11、现,如无法收集完整日志、无法变更 LUN 归属控制器、无法 reset 电池计时器等。2012-2-16华为机密,未经许可不得扩散第 5 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开控制器 IP 地址被成功管理后,Enterprise Management 窗口将出现代表阵列名称(阵列名称可根据需要修改)的图标,如下图红框所示:双击红框所示图标,即可登录 Array Management 界面,如下图所示,在该界面就可以进行存储相关操作,如创建 RAID、LUN、定义主机、映射 LUN 等。1.3 如何收集 3100/S3200 日志通过存储管理软件同

12、时管理 A、B 两个控制器的 IP 地址后,在管理软件的 Array Management窗口,选择 Advanced Troubleshooting Collect All Support Date 即可收集日志,如下图所示:2012-2-16华为机密,未经许可不得扩散第 6 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开1.4 如何通过存储管理软件查看 3100/S3200 是否存在故障告警在存储管理软件的 Array management 窗口,单击下图红框所示的按钮,即可弹出阵列告警窗口。如果阵列存在故障告警,则会显示详细的告警内容及解决方法;如

13、果阵列没有故障告警,则显示“No failures were detected on the storage array”。1.5 如何解决管理软件 Error 1011 的报错通过存储管理软件管理存储时,要求同时管理 A、B 两个控制器的 IP 地址,如果只管理了一个控制器的 IP 地址,当进行存储配置修改时就会报错 Error 1011,单击 Show Details 按钮可以查看详细的错误描述。根据报错描述信息可知,该错误是由于管理软件没有连接到存储控制器引起,参考 1.2 节的方法将两个控制器的 IP 同时管理起来即可解决。示例:下图报错表示管理软件没有连接到 B 控制器,在管理软件上

14、添加 B 控制器 IP 地址可解决该问题。2012-2-16华为机密,未经许可不得扩散第 7 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开1.6 如何清除管理软件设置的密码通过 3.2 节方法登录控制器串口命令行,运行串口命令 clearSYMbolPassword 即可清除。存储管理软件默认无密码,如果发现存在密码,说明该密码为现场工程师设置的,请联系相关工程师获取。如果忘记密码,可按照本文方法进行清除。2012-2-16华为机密,未经许可不得扩散第 8 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开2 硬盘类

15、问题2.1 如何判断硬盘工作状态通过存储管理软件 OceanStor Manager Suite 图形界面可直观判断硬盘工作状态,硬盘图标对应的状态如下:正常状态:正常工作的硬盘(该硬盘是RAID组成员盘):正常的“Unassigned”硬盘(未被使用的空闲盘):正常工作的热备盘(空闲热备盘):已被使用的热备盘(RAID 成员盘数据已重构到热备盘):正在进行数据重构的硬盘(RAID组更换新盘后会自动重构)故障状态:故障的硬盘(该硬盘是RAID组成员盘):故障的热备盘(处于故障状态的空闲热备盘):故障的热备盘(处于故障状态的已使用热备盘):黄黑相间的菱形,代表几种可能的状态,分别是“By-pas

16、sed(不能识别)”、“Impending Failure(预期故障但当前可用)”、“Lost Redundancy Path(丢失冗余路径)”、“Offline(离线)”。如果硬盘故障,同时会引起RAID组及LUN的状态发生变化:RAID组处于“Degraded”状态(RAID组成员盘故障,主机仍然可以正常访问LUN):RAID组处于“Offline”离线状态(RAID组的所有LUN均无法访问)2012-2-16华为机密,未经许可不得扩散第 9 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开:LUN处于“Rebuild”状态(通常在更换新硬盘或热备盘启

17、用时出现,此时LUN正常可用):LUN处于“Failed”状态(硬盘故障数超过RAID允许故障数最大值时出现,此时LUN无法使用)2.2 如何停用故障或有隐患的硬盘硬盘故障后,需要及时更换。如果硬盘已经彻底故障,即出现红叉的图标,此时硬盘指示灯蓝灯常亮,可直接拔出故障盘,然后插入备件盘,数据将自动重构到新盘上。如果硬盘不是红叉的图标,说明硬盘还没有故障,通常可以正常使用。但如果发现硬盘存在故障隐患,需要提前更换,可按照如下方法处理:通过存储管理软件 OceanStor Manager Suite 图形界面选中该硬盘,单击 Advanced Recovery Fail Drive 将硬盘置为失效

18、状态:此时硬盘蓝灯指示灯常亮,可以安全拔出该硬盘,然后再插入备件硬盘,RAID 组数据将自动重构。2.3 如何实施硬盘更换通过存储管理软件 OceanStor Manager Suite 检查硬盘状态,确认处于故障状态后,再开始更换:步骤一、在控制框前端按下告警消声按钮,关闭告警鸣笛。步骤二、取出新磁盘并置于干净、干燥的环境中待用(如塑料泡沫或者防静电袋上)。按下插销(Latch),向外拉打开故障硬盘托架下方的把手,并向外拉动硬盘托架把手,取出磁盘。2012-2-16华为机密,未经许可不得扩散第 10 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开步骤三

19、、等待 30 秒以上,以便 OceanStor Manager Suite 管理软件更新磁盘被拔除的事件。步骤四、将新硬盘插入,插入硬盘时需要将把手打开,插入后合上把手,借助把手推力将硬盘插到位(可通过观察是否与其他硬盘在同一平面上判断)。磁盘上电完成后,蓝色指示灯、黄色指示灯熄灭,绿色指示灯点亮。如果绿色指示灯开始闪烁,表明 RAID 组正在重构数据到该硬盘,重构完成后绿色指示灯常亮。步骤五、观察新插入磁盘的故障指示灯,如果更换指示灯(蓝色灯)和故障指示灯(黄色灯)熄灭,则表明更换成功;如果故障指示灯依然长亮,请检查硬盘是否正确插入或联系存储工程师支持。2.4 如何处理管理界面无法识别硬盘问

20、题硬盘槽位如果没有插入硬盘,则存储管理软件界面上对应槽位显示为虚框,如下图所示,其中槽位 1、槽位 4 的虚框表示该槽位无硬盘。如果插入新硬盘后,对应槽位仍然显示虚框,表明控制器没有识别到新插入的硬盘,通常是由于框的速率开关设置不当引起。检查方法:通过存储管理软件菜单 Storage Array View Profile 查看硬盘速率属性:2012-2-16华为机密,未经许可不得扩散第 11 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开在弹出的对话框中,选择 Drives 选项,可以查看当前系统硬盘的运行速率,本例硬盘运行速率为 4Gbps。l 如果硬

21、盘速率显示“Not available”,说明该槽位硬盘曾出现故障,已经更换了新硬盘。由于同一槽位存在旧硬盘信息,引起速率无法正常显示,该状态不影响硬盘正常使用,重启控制器后速率显示可恢复正常。然后查看存储阵列前面板的硬盘速率开关,位置如下图红框所示:面板设置的速率必须与硬盘的运行速率一致,否则将出现硬盘无法识别而显示虚框的情况。如果出现阵列前面板开关速率与硬盘速率不一致的情况,需按如下方法处理:下电存储阵列,拨动存储阵列前面板的速率开关(可设置为 2G 或 4G),使面板速率与硬盘运行速率保持一致,然后上电存储阵列。存储阵列有严格的上下电顺序,必须严格按照正确顺序操作,否则可能引发硬盘批量失

22、效:下电顺序:下电控制框 下电扩展框上电顺序:上电扩展框 上电控制框上电完成后,再通过上面的方法检查面板速率是否与硬盘运行速率是否一致,如果速率保持一致,则插入新硬盘后通常可正常识别。2012-2-16华为机密,未经许可不得扩散第 12 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开存储阵列前面板的开关速率只能在下电状态下更改,不能在上电状态在线修改,否则可能引发存储阵列故障,并导致业务中断。2.5 如何解决“IMPENDING_DRIVE_FAILURE_RISK_MED”故障问题查看收集的 All Support Data 日志压缩包中的 recov

23、eryGuruProcedures.html 文件,如果出现该告警,表明硬盘出现坏道,告警即将故障,但当前该硬盘仍然可以正常工作,并未真正故障,需及时申请硬盘备件提前更换。更换时,可按照 2.2 节的方法将硬盘置为故障状态,然后再进行更换。示例:Failure Entry 1: IMPENDING_DRIVE_FAILURE_RISK_MEDDetailsStorage array: s3100_0Volume group: 2RAID level: 1Tray: Controller/Drive trayAffected drive slot(s): 5Service action (rem

24、oval) allowed: NoService action LED on component: YesVolumes: BILLQUERYLUN3, BILLQUERYLUN4Status: Optimal本例中,控制框的 5 号槽位硬盘告警即将故障,需要提前更换。2.6 如何解决“USM_UNREADABLE_SECTORS_EXIST”故障问题查看收集的 All Support Data 日志压缩包中的 recoveryGuruProcedures.html 文件,如果出现该告警,表明硬盘出现坏道,需要更换该硬盘,然后再清除历史坏道信息,消除告警。操作方法:步骤一、查看 recover

25、yGuruProcedures.html 文件,根据文件中的告警提示,更换故障盘。本例中,85 号框 9 号槽位硬盘故障,已被 85 号框 16 槽位的热备盘替换。Failure Entry 3: VOLUME_HOT_SPARE_IN_USEDetailsStorage array: DiskArray-1Volume group: 2Failed drive at: tray 85, slot 9Service action (removal) allowed: Yes2012-2-16华为机密,未经许可不得扩散第 13 页, 共 33 页OceanStor S3100 S3200 存储快

26、速维护手册内部公开Service action LED on component: YesReplaced by drive at: tray 85, slot 16Volumes: oss_v1RAID level: 5Status: Optimal步骤二、故障盘更换完成后,单击存储管理软件菜单 Advance Recovery UnreadableSectors,在弹出的对话框中,选择 Select All,然后单击 Clear 按钮清除硬盘坏道信息消除告警。2.7 如何解决“Degraded Drive Channel”故障问题查看收集的 All Support Data 日志压缩包中的

27、 recoveryGuruProcedures.html 文件,如果出现该告警,表明硬盘环路 IO 传输错误太多而引发环路降级,解决方法如下:通过存储管理软件菜单 Advanced Troubleshooting Drive Channels 打开硬盘环路对话框,选中 Degraded 硬盘通道,单击 Clear Error Counts 清除错误统计,再单击 Set Optimal 恢复通道为 Optimal 状态,恢复后告警消除,存储阵列恢复正常。2.8 如何解决“Diagnostic Data Available”告警问题当控制器发生一些罕见的故障时,Firmware 会自动将控制器的底

28、层日志收集下来存储在控制器里面,存储系统的状态会从 Optimal 变成 Need Attention,前面板的故障灯会亮起(橙色指示灯常亮),recoveryGuruProcedures.html 告警文件会记录“Diagnostic Data Available”。2012-2-16华为机密,未经许可不得扩散第 14 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开解决方法:打开存储管理软件,在 Enterprise Management 窗口,选择需要收集 DDC 日志的存储阵列名称,本例为 S3K_23_24。选择 Tools Execute Sc

29、ript 菜单打开脚本执行界面。输入收集 DDC 的脚本命令(路径可以自由指定):save storageArray diagnosticData file=D:DDCdata.zip;单击 Tools Execute Only 即可完成 DDC 收集,收集完成后告警自动消除。2012-2-16华为机密,未经许可不得扩散第 15 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开2.9 如何解决双盘失效引发的 LUN 失效RAID 组成员盘故障的数量超过允许的最大值时,RAID 组将失效,如 RAID5,同时或短时间内出现 2 个硬盘故障,则 RAID 失效

30、。即使系统配置了热备盘,由于双盘失效时,数据冗余丢失,故障盘数据无法重构到热备盘,因此热备盘无法正常接管故障盘。当双盘失效引发 LUN 失效时,通过存储管理软件 Advanced Troubleshooting View EventLog 查看硬盘故障日志信息,查找“Drive failed - write failure”关键词(也可以将日志保存到本地,然后再搜索),然后记录硬盘的槽位号及故障时间,找到最晚失效的硬盘所在槽位号(最晚失效的硬盘包含更多的数据)。示例:搜索日志文件,发现该阵列短时间内出现 2 个硬盘故障,导致 LUN 失效。其中 85 号框 3 号槽位硬盘最晚失效,该硬盘包含更

31、多的数据,需要先激活。Date/Time: 1/26/12 4:19:19 PMSequence number: 1890Event type: 2248Event category: FailurePriority: CriticalDescription: Drive failed - write failureEvent specific codes: 0/0/0Component type: DriveComponent location: Tray 85, Slot 10Logged by: Controller in slot ADate/Time: 1/26/12 4:20:37

32、 PMSequence number: 1924Event type: 2248Event category: FailurePriority: CriticalDescription: Drive failed - write failureEvent specific codes: 0/0/0Component type: DriveComponent location: Tray 85, Slot 32012-2-16华为机密,未经许可不得扩散第 16 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开Logged by: Controller in

33、slot B激活方法:在管理软件界面单击需要激活的硬盘图标,过管理软件菜单 Advanced Recovery Revive Drive 强制激活硬盘,使 RAID 组处于降级状态,此时 LUN 恢复可用,然后再更换其他故障盘,待其他硬盘数据重构完成后,最后更换被强制激活的硬盘(被强制激活的硬盘通常可临时恢复可用,但后续仍然会故障,因此也要更换)。2.10 如何开启硬盘坏道介质扫描功能对于硬盘故障较多的阵列,建议开启硬盘坏道扫描功能,开启后可有效发现 LUN 存在的坏道,提前告警并提醒更换硬盘。如果不开启该功能,如果硬盘存在坏道,但业务没有访问到该区域,则不会有告警及报错,当访问到该区域时则可

34、能突发业务异常。开启方法:首先,通过存储管理软件菜单 Storage Array Change media Scan Settings 开启阵列扫描功能。系统默认扫描周期为15天,如果业务本身不是非常繁忙,可以使用默认值,否则可将这个值设置稍大一些。2012-2-16华为机密,未经许可不得扩散第 17 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开然后,选中任意 LUN,通过右键菜单 Change Media Scan Settings 打开 LUN 属性对话框。在弹出的对话框中,选择需要开启介质扫描的 LUN(可单独开启某个 LUN,也可以全部开启),

35、单击 OK 完成。2012-2-16华为机密,未经许可不得扩散第 18 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开1、 推荐使用 “Without Redundancy Check”,“With Redundancy Check” 对系统性能影响稍大,而 “Without Redundancy Check”对系统的性能影响更小。2、 开启介质扫描后,系统将在指定的时间(默认 15 天)内完成所有数据区域检查,扫描动作在 IO 压力较小时自动运行。2012-2-16华为机密,未经许可不得扩散第 19 页, 共 33 页OceanStor S3100 S

36、3200 存储快速维护手册内部公开3 控制器类问题3.1 如何查看控制器 Firmware 版本现网绝大部分 S3100/S3200 控制器的 Firmware 为 6.19 版本,少数为 6.23 或 6.60 版本,查看方法:在管理软件的 Array Management 窗口,查看菜单 Storage Array View Profile,弹出的对话框中单击 Controllers 选项,即可查看控制器固件版本。3.2 如何通过 LED 显示快速判断存储阵列状态查看存储阵列后端控制器面板上的 LED 显示代码,如下图红框所示,可快速判断存储阵列的工作状态,默认情况下控制器 LED 显示

37、85,该数字表示控制框的框 ID,如果是扩展框,框 ID 从 0 开始依次递增。2012-2-16华为机密,未经许可不得扩散第 20 页, 共 33 页OceanStor S3100 S3200 存储快速维护手册内部公开如果控制器 LED 显示如下代码,表明控制器存在故障,需要尽快申请备件更换。故障代码含义88the controller is being held in reset by the alternate controlleror offlineE1the controller encounters an unexpected processor exceptionL0Mismat

38、ched controller typesL1Missing interconnect canisterL2Persistent memory errors(较常见)L3Persistent hardware errorsL4Persistent data protection errorsL5ACS failureL6Unsupported Host Card (背板故障也会显示L6)L7Sub-model identifier not set or mismatchedL8Memory configuration error扩展框级联模块 LED 显示代码含义如下,如果出现故障,需要尽快申请备件更换。LED 代码含义-ESM Boot FW is booting upFFESM Boot Diagnostic executing88This ESM is being held in Reset by the other ESMAAESM-A application is booting upbbESM-B application is booting upL0Mismatched ESM typesL2Persistent memory errorsL3Persistent hardware errorsL9Over TemperatureH1S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论