01 培训课件04 软件定义存储 - 2d故障处理_第1页
01 培训课件04 软件定义存储 - 2d故障处理_第2页
01 培训课件04 软件定义存储 - 2d故障处理_第3页
01 培训课件04 软件定义存储 - 2d故障处理_第4页
01 培训课件04 软件定义存储 - 2d故障处理_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

修订记录,本页不打印,FusionStorage故障处理,本节介绍FusionStorage产品故障处理内容。学员需充分把握特性内涵以助于后续实际环境中进行故障排除和处理,学完本课程后,您将能够:了解FustionStorage的基本故障处理流程了解FusionStorage的告警机制,并能对问题初步定界了解FusionStorage的日志机制,会查看并收集日志了解FustionStorage的典型故障处理方法了解FustionStorage的应急预案,基本故障处理流程介绍告警机制介绍日志机制介绍典型故障处理方法介绍应急预案介绍,故障处理流程,故障处理准则,及时发现故障(平时多关注告警,定期作巡检,)快速识别影响面(判断故障影响的用户数,是否造成双点故障,)准确记录故障信息(故障发生时间段,故障现象是什么,)收集日志(各部件的日志路径,收集方法,),目录,基本故障处理流程介绍告警机制介绍日志机制介绍典型故障处理方法介绍应急预案介绍,告警机制,告警是由系统中各个部件,实时监控或在处理业务时,发现影响系统可靠性的事件时,通过告警模块上报至数据库,并且在portal上呈现给维护人员告警的严重程度从低到高依次为:提示一般严重紧急,告警界面,需要重点关注的告警(1),需要重点关注的告警(2),需要重点关注的告警(3),目录,基本故障处理流程介绍告警机制介绍日志机制介绍典型故障处理方法介绍应急预案介绍,关于日志必须了解的,日志输出有分类-FSM,FSA,MDC,OSD,VBS,DI等日志输出有级别区分-DEBUG,INFO,WARNING,ERROR历史日志有备份-根据场景不同,备份场所也不同关键流程有日志-启动,初始化,创卷等业务流程,CRB等流程日志输出有考虑性能-每15分钟从内存向磁盘持久化一次,紧急情况下,可以用工具立即输出,常用日志路径(1),常用日志路径(2),常用日志归档路径,配有日志服务器时,CNA节点产生的日志每15min被压缩打包一次并上传到日志服务器未配置日志服务器时,CNA节点产生的日志仍会每15min被压缩打包一次并被收到特定目录,当OS安装在U盘上时,日志被放到“/tmp/udisk/log/节点名/日期/时间”目录,当OS安装在硬盘上时,路径是“/tmp/disk/log/节点名/日期/时间”CNA的日志路径:/var/log/galaxenginelog/VRM日志路径:历史日志/var/backuplog/galaxenginelog/日期/实时日志/var/log/galaxengine/*,日志获取方法1-工具收集,日志获取方法2-手动收集,使用putty工具,用非root用户登录需要取日志的节点执行su-root命令,并提示输入root用户的密码,切换至root用户执行TMOUT=0命令,防止PuTTY超时退出执行tar-czvflog.tar,gz日志文件,例如tarczvflog.tar.gz/var/log/dsware/*执行cplog.tar.gz/home/XXX将日志考入可考出的目录chown777/home/XXX/log.tar.gz.将日志拷贝到可拷贝目录下使用非root用户通过winscp登录,拷贝日志以下是常用的默认密码:,目录,基本故障处理流程介绍告警机制介绍日志机制介绍典型故障处理方法介绍应急预案介绍,OSD退出服务,确认故障的方法:在portal上查看告警,告警ID为ALM-51001此故障的影响:在数据重建期间,部分数据处于单副本状态运行,影响可靠性存储池中OSD数量的减少,会导致存储池存储空间减少,性能下降导致故障的原因:根据告警帮助,有以下几种常见的原因导致故障,可以进行初步排查和故障恢复此OSD对应的硬盘故障存储平面网络异常cache硬件(NVDIMM/SSD)故障节点异常(硬件异常/操作系统异常),单个OSD被踢的恢复方法,目前所有的FusionStorage感知的磁盘故障类型,都会最终将磁盘踢出集群,且会上报相应告警,此时需要进行故障更换,如果更换一块新盘,会自动触发故障更换流程将其加入存储池,无需手动操作,插入新盘后,在Portal上查看存储池状态和磁盘状态即可,直到存储池状态变为正常。若将原盘修好后重新插回,或硬盘本身没有任何故障,则需要手动将其加入存储池,有以下两种方法:方法一:在Portal上将磁盘加入集群,单个OSD被踢的恢复方法,方法二:使用命令行更换登录FSM主节点,使用dsware用户,执行如下命令,将磁盘加入集群:$cd/opt/dsware/client/bin/$shdswareTool.sh-opreplaceSingleDisk-idpoolId-slotslotNo-nodeMgrIpnodeMgrIp-force(optional)true/false,整台服务器OSD被踢的恢复方法,方法一:在Portal上点击扩容按扭,进行扩容,整台服务器OSD被踢的恢复方法,方法二:使用命令行进行扩容登录FSM主节点,使用dsware用户,执行如下命令,将磁盘加入集群:$cd/opt/dsware/client/bin/$shdswareTool.sh-opaddStorageNode-idpoolIdfpathname,个别虚拟机无法登录,故障现象及影响虚拟机无法登录,同时可能会看到蓝屏,用户无法使用虚拟机导致故障的原因虚拟机系统盘挂卷失败其它,个别虚拟机无法登录时的恢复方法,1、查看VRM日志,发现有以下异常打印2014-07-2809:04:21,498ERROR005584005635vbs_dsware.c256BSBattachvolume6C4D1C45C024422CB8068BA612C35300failed,output=ret_code=50000001ret_desc=DSwareerror2、尝试手动在该节点上挂载该卷,挂载失败3、新建一个卷,尝试手动在该节点上挂载,挂载成功4、查看VBS的日志,在/var/log/dsware/log-VBS-XXX中搜索到卷名5、使用lsscsi命令获取当前节点上挂载的所有设备6、使用dsware_insight命令查询该节点所有的挂载信息,和步骤5查询到的结果进行对比,发现dsware_insight命令查询到的已挂载的设备比lsscsi命令查询的设备少,此时可以确定是由于卷信息残留导致挂载卷失败7、为进一步确认原因,查看message日志,发现有以下异常8、使用lsof命令查询是否有占用设备符的进程,如下图所示设备符被iotrace进程占用,目录,基本故障处理流程介绍告警机制介绍日志机制介绍典型故障处理方法介绍应急预案介绍,应急预案简介,应急预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论