DELL POWEREDGE R RAID恢复与常见问题解决_第1页
DELL POWEREDGE R RAID恢复与常见问题解决_第2页
DELL POWEREDGE R RAID恢复与常见问题解决_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DELL POWEREDGE R510 RAID恢复与常见问题解决1 备份您重要的数据,以免导致数据的丢失。2 重新启动您的服务器,按下ctrm(这是raid 卡的bios),进入raid bios3 选择object(目标对象),回车进入4 选择physical driver(物理硬盘),在物理硬盘这个菜单中,你可以看到各种硬盘的状态:主要有(online(在线)/fail(失败)/rebuild(重建)/ready(预备)。通常情况下ready表示您的机器硬盘处于预备状态,硬盘没有任何数据。Fail表示您的机器这个硬盘脱离了您的阵列,这个时候有可能硬盘坏了,也可能仅仅脱离阵列,您需要在每个

2、硬盘上按一下F2键,检查一下是否有media error (媒质错误),other error(其他错误)如果错误超过10个就需要更换硬盘。如果错误全部是0,仅仅需要rebuild(重建)就可以。在经过5小时后硬盘会从rebuild(重建)状态改变为online(在线),就是raid 回复正常。有关RAID的常见问题1. 为什么硬盘会掉线?SCSI的通讯采用的是并行总线技术,当SCSI链路中出现冲突,设备故障或通讯干扰,就会造成总线无法释放,在此期间SCSI控制器可能无法正确识别到某些磁盘的状态,因此会将这些磁盘置为离线状态。SCSI控制器会尝试通过总线的复位来释放总线。SCSI链路中的任何一

3、个设备的故障都会造成SCSI总线通信故障,它包括下面这些部件:l SCSI线缆l 硬盘背板l 硬盘l SCSI控制器或RAID卡l 有缺陷的SCSI设备固件l SCSI终结器l EMM卡2. 为什么诊断工具可以发现硬盘故障,而硬盘本身却没有报警?硬盘在工作一段时间后,可能因各种原因会产生一些介质错误,但硬盘厂商对这些介质错误都有设定一个报警阀值,当硬盘的介质错误超过预设的报警阀值,硬盘firmware将触发报警,并反映到硬盘报警灯,但有时硬盘虽然产生了介质错误,但这些错误并没达到报警预设阀值,所以硬盘报警灯可能会没有提示。3. 为什么硬盘可以rebuild成功,但却经常掉线?Rebuildin

4、g的操作是一个RAID数据冗余性重新同步的过程,rebuilding成功仅反应出磁盘介质在同步过程中无读写错误。硬盘离线通常跟SCSI总线的稳定性有关(参见问题1)。4. 什么原因导致Rebuilding失败?l Double fault:由于多快磁盘故障,导致数据的冗余性丢失。l 错误的操作:在更换硬盘时,如果该硬盘本身并没有离线,应该使用prepare remove功能通知RAID卡,以便系统更新磁盘状态。否则,系统可能不会接纳更换的硬盘,从而导致不能rebuild,另外,建议热更换故障硬盘。l 新换磁盘上存在不正确的RAID配置信息(仅针对Apaptec公司的RAID卡)l 更换的硬盘物

5、理容量比故障硬盘的小或存在介质故障。l RAID卡故障。l SCSI总线不稳定。5. RAID卡Firmware有什么作用?RAID卡的功能都是由firmware决定的,不同版本的firmware会有不同实现方式,高版本的firmware总是提供更多的功能以及修复早期版本的缺陷。6. 如何维护RAID数据?定期执行check consistency和启用RAID卡的patrol功能是一个良好的维护习惯。通常磁盘的介质会随着时间的推移出现读写故障。当一个写操作遇到坏块 (RAID卡会将其标记,并存放在RAID卡及磁盘的NVRAM中,如果该表中的值到达预设阀值时,硬盘firmware将触发故障告警

6、),该写操作不能完成,但RAID卡会尝试将该数据写到其它健康的块上。当一个正常的读操作遇到坏块,那么数据是可以通过校验信息重新得到,RAID卡将得到的信息放到一个健康的块上,并将先前的坏块标记出来。有时我们可能会遭遇double fault(即数据存放于多个有坏块的的硬盘上),为了防止这些错误的出现,我们必须进行维护。7. 什么是consistency check ?一致性校验是磁盘阵列控制器的一种高级维护功能。它可以预先检查阵列上的数据,以保证它们的一致性,即数据是正确的、没有被破坏。对于有奇偶校验值的阵列(RAID-5),一致性校验通过数据的奇偶校验,并且和存校验值的盘上的校验值进行比较,

7、确定并纠正数据的一致性。对于镜像盘,一致性校验比较RAID-1上2块硬盘的数据是否完全一致。不一致的需要进行同步处理。对于剩余空间的磁盘介质consistency check一样会进行读校验。8. 为什么要进行一致性校验?系统崩溃、意外断电或者硬盘出现坏道,都可能导致阵列上的数据被破坏或不一致。根据硬盘的原厂家的数据,平均每进行1,000,000,000,000,000次的比特位(bit)数据传输,就会产生一个不可恢复的数据错误。以36GB硬盘为例,平均每进行3000次的全盘读操作,就会产生1个错误字节(byte)。如果在阵列不一致的状态时,发生硬盘故障,RAID控制器就无法通过奇偶校验计算出正确的数据,阵列将无法rebuild成功。9. 什么是RAID卡的Patrol功能Patrol功能是基于磁盘介质的,RAID卡firmware会在后台按照设定的计划定期对磁盘介质进行读校验,类似于SCSI卡的verify, 当发现坏块时会对坏块进行标记及搬移。Patrol功能不对RAID数据进行校验。10. 什么是Media errorMedia Error一般是指RAID卡发现的磁盘读写错误。通过这个指标我们可以简单的判断磁盘介质的情况,有media error并不意味者磁盘一定需要更换,因为磁盘的firmware会对坏块进行屏蔽及迁移。但应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论