服务器常规维修与判断方法_第1页
服务器常规维修与判断方法_第2页
服务器常规维修与判断方法_第3页
免费预览已结束,剩余9页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、效劳器故障排除方法相比 PC 而言,效劳器出故障的机率是小多了, 但是它出故障造成的损失可也大多了。 作为效劳器维修人员需要了解一些效劳器故障恢复的根本知识, 知道在维修时可以做些什 么来最快速的解决问题也可以减少故障停机时间。本文并不是一本效劳器故障解决的完全手册, 但如果能够认真的按照下面的步骤维修 维护,它也许可以解决大多数问题,但当你做完所有的这一切仍不管用时,不用惭愧,去 找维修专家吧,可以放心的是,这些维修步骤不会出现大的损害,最坏的情形是“It doesnot work at all 。本文主要分三局部,第一局部讲的是效劳器故障排除的根本原那么性问题。第二局部讲述了一些效劳器硬件

2、故障排除的实例。第三局部讲述了一些效劳器软件故障排除的实例第一局部 效劳器故障排除的根本原那么性问题一、效劳器开机无显示应怎么办1. 检查供电环境,零 -火;零 -地电压?2. 检查电源指示灯,如果亮,正常吗?3. 按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?4. 是否更换过显示器,更换另一台显示器。5. 去掉增加内存6. 去掉增加的 CPU8. 检查内存和 CPU 插的是否牢靠9. Clear CMOS10. 更换主要备件,如系统板,内存和 CPU二、效劳器故障排错的根本原那么是什么1. 尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:去除CMOS,恢复

3、资源初始配置;c: BIOS, F/W,驱动程序:升级最新的BIOS , F/W和相关驱动程序;d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表TPL吗?2. 从根本到复杂a:系统上从个体到网络:首先将存在故障的效劳器独立运行,待测试正常后再接入网 络运行,观察故障现象变化并处理。b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。c: 软件上从根本系统到现实系统:指从根本操作系统开始逐步到现实系统为止。3. 交换比照a:在最大可能相同的条件下,交换操作简单效果明显的部件;b: 交换 NOS 载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既

4、交换整体环境;三、效劳器故障排除需要收集哪些信息 ?效劳器信息:1. 机器型号2. 机器序列号 S/N: 如: NC000755343. Bios 版本4. 是否增加其它设备,如网卡,SCSI 卡,内存, CPU5. 硬盘如何配置,是否做阵列 , 阵列级别6. 安装什么操作系统及版本 Winnt 4, Netware, Sco, others? 故障信息1. 在 POST 时,屏幕显示的异常信息2. 效劳器本身指示灯的状态 ?3. 报警声和 BEEP CODES4. NOS 的事件记录文件 ?5. Events Log 文件? 确定故障类型和故障现象 :1. 开机无显示;2. 上电自检阶段故障

5、;3. 安装阶段故障和现象;4. 操作系统加载失败;5. 系统运行阶段故障;第二局部 效劳器硬件故障处理几例硬件故障是指效劳器硬件出现异常而导致的各类错误。由于效劳器构成比拟复杂,因 此在检查的时候必须认真、仔细。 下面以一台万全 4500 为例说明。例子,在实际问题中 如果遇到相似现象,也需要具体问题具体分析,不要盲目套用有一台万全 4500,配有 256M 内存,使用一个 PIII XEON 500 带 2M 高速缓存的处理 器。开机后没有任何显示,但系统日志上提示了一条 CPU 电压为 0 伏的信息,系统指示 灯三灯不停在闪烁指示灯三灯闪烁是效劳器的另一种报警方式,我会在文后说明 。这

6、种错误一般是处理器电压调节模块VRM出错或CPU出错或CPU与CPU板块接触不 良,但也可能是 CPU 板块出错,这时情况就比拟复杂了,必须经过认真慎重的思考。因 为 CPU 板块在整个效劳器中,占有举足轻重的地位,如果它出错效劳器是会报致命错误 的,并且在系统日志中会提示致命错误, 但报 CPU 电压错的情况也有 5%左右。我们立刻 把 CPU 调换在另一 CPU 插槽中,开机后依然是刚刚的那种故障。所以在初步判断中,可 以排除是 CPU 板块坏。这时,取出 CPU 仔细擦拭金手指,以及 CPU 板块中与 CPU 接触的地方后,开机依然 无显示。相对处理器坏的情况来说处理器电压模块 VRM

7、出现故障的情况比拟大。于是立即 在另一台万全 4500 中取下一个处理器电压模块,安装在此效劳器中。开机后,效劳器依 然没有任何显示,系统日志上依然提示 CPU 电压为 0 伏的信息,系统指示灯三灯依然不 停在闪烁。这时的情况就比拟明显了。于是立即从另一台万全4500中取下一个CPU安装后,开机正常总结:在效劳器的维修中,线索都会显得扑朔迷离,一般来说不可能一次就可以准确地判断 出问题的所在。 这样就要求相关人员要有信心及耐心。 出现错误一般的流程是通过系统日 志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。总之,效劳 器出错后,必须一步一步解决,没有捷径可言。又如:有一台

8、万全 4200 开机不显示,发现开机时系统日志没有任何信息,且系统指示灯不 亮。初步判断是电源方面出现了错误。经过仔细检查,发现效劳器的电源是正常的,因此 最大的可能就是效劳器的电源管理板出现故障。 更换电源管理板后, 开机显示正常。 但这 时,新的问题来了:自检时,用 CTRL+M 不能检测到硬盘。硬盘在别的效劳器上是正常的,因此立即去除此效劳器的CMOS,但依然不正常。立刻上网找到此效劳器的最新 BIOS,升级BIOS后也不能解决问题。又检查硬盘笼子和 效劳器里的数据线及电源线后依然出错。这时,一般情况会疑心是效劳器的I/O板输入输出板块有问题。但就在这个时候,我发现在 I/O 板上有一个

9、非联想的旧式网卡,立即 去除此网卡后效劳器就一切正常。硬件故障并不单单指硬件有问题, 它也指硬件之间不兼容。 因为效劳器的正常运作需 要各部件之间的大力协调。 建议大家在采购各元件时, 都采用同一品牌原装的, 并且要采 用能发挥效劳器性能的元件上例中的旧式网卡即使正常也会严重影响效劳器性能 ,这 样才不会发生莫明其妙的故障。还有一种情况: 用户需要把他的万全 3200升级到双网卡, 我建议他购置原装网卡, 但 当他看到万全 4500的网卡是采用的 INTEL 82559 芯片后,断然决定不使用原装网卡而采 用另一品牌也采用 INTEL 82559 的网卡。过了几天,他打 给我说,他的新网卡不能

10、使 用网络冗余及数据校验,并疑心效劳器有问题。维修工程师带了一个 INTEL 82559 网卡 到用户那里,仔细检查了效劳器的环境完全正常后,把 INTEL 82559 网卡安装到机器上 后一切正常。 这个例子更加说明了, 要发挥效劳器的最大性能及功能, 必须使用原品牌原 装的配件。 非原品牌非原装的配件, 不能支持效劳器的某些功能, 严重的会影响到效劳器 的正常使用。要防止硬件故障发生频率,效劳器管理人员必须注意效劳器的使用环境完全正常。比 较重要的效劳器必须在恒温、恒湿的环境;电压也要符合,不仅要采用UPS,还必须接地线,必须是左零线、右火线,零地电压在 13 伏。在开、关效劳器上必须符合

11、正常的流 程。工作人员必须严格执行操作流程。一般情况来说,效劳器维修人员对于硬件故障只要有丰富的经验都能很快找出故障所 在,如果不能解决就必须迅速与效劳器的售后效劳中心 8008108888联系。第三局部 效劳器常见软故障解决思路与实例效劳器软件故障是在效劳器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致效劳器出现软件故障的原因有很多,最常见的是效劳器 BIOS 版本太 低、效劳器的管理软件或效劳器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。有一台万全3500效劳器,配置为双 PIII 500带521K高速缓存的CPU

12、、512M内存。 开机后,系统日志报电压调节模块异常 VRM 的错误,报错的信息是: “。从外表来 看,极有可能是效劳器的电压调节模块或其它硬件出现故障, 极容易导致维护人员认为是 硬件故障。维护人员立刻使用其它万全 3500的硬件来测试,发现即使使用新的配件,此 效劳器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板CPUManagement Control的固件FIRMWARE,于是升级了 CPU 管理板块的 FIRMWARE 后,效劳器恢复立即正常。FIRMWARE 升级方法是, 1 用软盘启动电脑,然后插入 firmware 软盘并运行上面 的相关文件cabril

13、lo ; 2系统刷新BMC主板控制器和HSC热插拔背板控制器; 3 然后系统询问执行第几个选项 通常为 2; 4 然后系统询问效劳器的电源配置 通 常为 2;5 如果答复有两个电源,系统询问效劳器是否有辅助风扇即在第三个电源冗余电源的位置上 是否有风扇通常为 N; 6 然后系统询问是否重写 BMC kernel use area;通常为N然后系统询问是否输入一个 asset tag 通常为N7最后系 统询问在刷新后是否要重新启动系统; 通常为 Y 。这种升级方法也适合刷新系统 BIOS 等,命令的参数不同以及更新 FIRMWARE 及 BIOS 文件名不同,参数请参考效劳器的说 明。任何一款效

14、劳器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所 以我们不能错误地认为效劳器的 BIOS 程序就很完善,而应该经常更新效劳器的 FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法将会导致严重的后 果。目前流行的中高档效劳器都拥有强大的管理程序,为客户提供了方便的管理途径;服 务器也拥有各种操作系统下的驱动程序, 方便了客户在各种操作系统中的使用。 但是,世 上任何一款程序都会有一些 BUG,这些BUG将影响用户使用。但是效劳器厂商总是会在 第一时间内开发出新的程序,客户只需要及时更新这些程序就可以防止这类故障。当效劳器的软件故障为此类时,表现的现象

15、也不尽相同。一般来说,管理程序BUG会导致系统速度变慢, CPU 占用率变高,无法正常使用某些功能等;驱动程序的 BUG 会 导致死机、 与某些软件有冲突, 磁盘工作不稳定等。 查看管理程序是否出错的最好的方法 就是在系统中首先禁止此类管理工具, 再观察效劳器是否还是异常。 由于管理工具是随着 系统启动而启动的,所以应首先防止它的启动。以 WINDOWS NT4 为例,就首先在管理 工具效劳中禁用某些效劳器软件效劳, 再修改注册表中的启动项即可。 如果是驱动程序有 问题的话,就以平安模式进入系统,看是否正常。但是需要注意的是,在平安模式中,系 统速度变慢是正常的特别是磁盘 I/O 方面。效劳器

16、的维护人员就应该经常在效劳器网站上下载最新的管理工具程序及驱动程序 这样会减少很大一部份软件故障的发生。相比之下,软件冲突造成的故障判断比拟困难,需要管理人员有比拟丰富的经验以及 敏锐的观察力。曾经有一位用户说, 他有一台万全的效劳器无法安装 SQL SERVER 2000,已经重装 N 次 NT 了,排除是系统故障。而这唯一的效劳器又将作为非常重要数据库效劳器,因此非 常着急。 于是维修工程师去了他的公司查看。 这台效劳器所在的机房是非常标准、 完善的 机房,检查了这台效劳器的情况, 发现并没有硬件上的故障, 于是排除了光驱读盘力差的 可能。但是,用户刻的 SQL SERVER 2000光盘引起了工程师的疑心,工程师让他拿出了 正版的 SQL SERVER 安装,结果还是不行。在安装的过程中,没有出现丝毫错误,可就 是在运行的时候会自动退出, 没有任何提示。 但是,我在管理工具中的事件查看器的系统 日志中却发现了一条信息:win data.exe导致一个无效的数据溢出。 Win data是用户自己编 写的一个程序, 而且是随操作系统启动而启动的程序。 我立即结束掉这个进程后, 再运行 SQL 一切正常。对于此类软件故障,操作员最好先查看有关的日志,看看系统中是否有可疑的进程。 目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论