系统出现宕机的解决方案.docx_第1页
系统出现宕机的解决方案.docx_第2页
系统出现宕机的解决方案.docx_第3页
系统出现宕机的解决方案.docx_第4页
系统出现宕机的解决方案.docx_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HPIntegrity,9000服务器-如何处理;问题;如何处理HP服务器系统宕机的故障;解决方案; 系统宕机,分为几种情况:1.系统不能启动 机器宕掉后重新加电可以启动 系统自己重启。相比第一种情况,后两种情况处理起来容易一些。机器不能启动时,先检查启动停在了什么位置。从时间顺序分为:不能加电;加电后自检失败,不能进入BCH或者EFI;可以进入BCH或者EFI,但是不能启动系统。1) 不能加电按power钮没有反应,或者是按完power钮听到风扇转动但是马上又停掉。这种情况,在MP卡里用PS命令查看机器状态,看看是不是有某些备件出了问题。比如BPS、FAN、CELL、SYSBoard等等。并且检查机器各个指示灯的状态(前后都要看),看看有哪个灯是黄、红或者不亮。检查MP日志,分析值得怀疑的问题。如果前两项工作不能确定问题,就做最小化测试。cpu、memory、bps、板卡。最坏的结果可能是做了最小化测试也不能确定出是什么备件的问题。这项工作最好交给HP响应中心的工程师处理。2. 加电后自检失败,不能进入BCH或者EFI。1. 注意观查自检是停到什么地方的,或者是自检到什么位置后又自动重启了。 例如,自检反复进行,到CPU自检时就重启了。通过记录console日志,来找到自检反复进行的规律。反正机器已经不能用了,要是看不清楚就停掉它,然后重新启动,这样你会看到非常清晰的过程日志。然后记住自检的第一条是什么,再找到下一条相同的信息,它前面的就是重启前的信息了。2. 检查MP日志,如果报错信息能和自检停止的设备对应上,那问题就诊断出来了。如果不能对应,就要具体分析两者之间的关系。例如,自检在CPU处重启了,而MP报的是I/O的错误。那很有可能是CPU的自检已经结果了,而I/O的自检不能开始。这样也可以判断出是I/O出现的问题。通常情况下,MP日志会报出具体出错的备件。换了再说!3. 如果不能确定问题,还是要做最小化测试。但是最小化测试也要有目的性。不能和前面提到的供电问题等同。通过自检和MP日志,首先要确定一个大方向,比如怀疑可能是CPU,也或者是内存,也可能是I/O和CPU。这时候做最小化测试是可以进入BCH或者是EFI的。这种情况下,把怀疑的备件一个一个的加回来,直到问题又出现,这样故障点就找到了。之所以要确定大方向,就是要在最小化成功后,尽快的把问题备件找到。3. 可以进入BCH或者EFI,但是不能启动系统。这种情况,可能是软件,也可能是硬件问题导致的,处理起来,稍复杂一些。我们以根有mirror为例。1. 如果两条引导路径都找不到那就可能是I/O的硬件问题了。用SEA(PA)或者是MAP(IA)来查看所有的硬盘的路径。如果找不到了,那肯定是硬件问题。如果可以找到,但是和配置信息中的引导路径不同。可能是用户自己修改了引导路径,也或者是由于硬件问题导致路径地址发生变化。这时请检查block图。如果引导硬盘的槽位地址和block中的地址不同,那么考虑scsi链路的硬件问题(disk midplane,core i/o都可能有问题,corei/o的可能性很大)。如果硬盘地址和block相同,而配置引导路径不同,那么显然是配置错误,修改好它就可以。2. 如果有一条引导路径找不到看看从另外的路径上能不能启动。如果另外的路径能启动,那么就是找不到路径的这块盘有问题,或者是disk midplane有问题。做个交叉测试,确定是硬盘的问题还是disk midplane的问题。3. 如果两条路径都可以找到分别从不同的路径引导。如果其中一个可以成功,用交叉测试的办法来确定是硬盘还是disk midplane问题。如果两条路径都不能启动,那么通常报错会是一样的。可能的原因是i/o硬件问题、软件问题。i/o硬件问题拔掉所有的外设后重启。如果拔掉外设后启动成功,就要定位是哪一个外设引起的。经常出现的情况是,scsi设备或者是光纤设备有问题。如果还不能启动,做最小化测试。这种最小化测试,范围定在与i/o有关的设备就可以了。例如,core i/o、板卡等。 软件问题通常有几种情况:内核文件问题、文件系统问题、系统数据问题。 内核文件问题,问清楚用户之前做过什么操作并尝试从备份内核启动。如果失败,尝试用光盘恢复内核。最后的办法就是备份带恢复。 文件系统问题,会在启动时报出详细的错误,比如某个文件系统满、文件系统检查失败,文件系统丢失等等。这种情况下,进入单用户状态去解决。需要注意的事,如果是文件系统检查失败,不要轻易做fsck -o full操作。如果是/usr这种比较重要的文件系统,可以尝试用只读方式mount,赢得备份机会。例如,由于/usr文件系统自检失败,导致系统不能启动。这时首先进入单用户,用mount -o ro把/usr挂载上。用剩余空间新建LV,把/usr的数据复制到新LV上。修改mount table,新/usr指向新LV。如果重启机器后还是不能启动,找备份带吧。系统数据问题,由于用户误操作删除了数据,导致系统不能启动。比如误删除了/etc下的一些配置文件。从单用户启动,去/usr/newconfig/etc下找对应的文件复制回来。这里的文件,只是一些简单的配置,还需要手工修改。如果不能确定出哪些文件丢失,还是要用备份带恢复。机器down掉后重新加电可以启动机器down掉了,按电源开关后机器可以正常启动。这种情况下,检查HPMC和MP日志。一般都是HPMC或者超温造成的。如果是超温,有可能按电源开关没有反应,这时要拔掉电源线,等机器冷却后再加电。在系统正常启动后,检查系统日志:shutdownlog、eventlog、oldsyslog等。 还有的情况是机器并没有down掉,而是panic。这时候做TOC就可以了。系统自己重启检查系统日志、HPMC和MP日志。如果运行双机,还要检查双机日志。双机的锁盘或者心跳出现问题的时候,都有可能导致系统重启。讲这些日志信息发送给HP响应中心工程师分析即可。上面提到的系统日志,主要包括:/var/adm/syslog/syslog.log/var/adm/syslog/OLDsyslog.log/var/tombstones/ts99 (pa)/var/tombstones/MCA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论