版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
/十大X86服务器常见故障——硬件篇摘要:由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过……标签:X86服务器常见故障说起X86平台的CPU,我们可能会如数家珍的报出N多种,Inter的至强5600、至强7500,AMD强劲的12核心x86处理器--“Magny-Cours”(马尼库尔)等等。在它的基础上,辅以带ECC、ChipKill、热插拔技术的内存;防止数据异常丢失的RAID硬盘;提供不中断电力供应的冗余电源等等共同构建出一个完整的X86服务器.由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。因此,X86应该算是我们广为熟知的架构了。用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过……硬件故障篇Top10网卡服务器网卡故障回放:近几日,内网用户通过代理服务器进行连接时不太稳定,ping的速度有时低于1ms,有时高达500多ms,数值相差之大也说明了网络时好时坏。起先判断是蠕虫病毒作祟,但经过详细筛查,确定非病毒引发的故障;再对网线进行测试,衰减、串扰、回波损耗等各项技术指标都在正常指标之内,最后更换网卡故障才得以解决.解决方案:我们知道一款优秀的网卡除了拥有高速率外,还需要关注2个技术指标,TOE(TCPOffloadEngine,TCP减负引擎)技术和RSS(Receive-sideScaling接收端调节)技术,它们能大幅减轻CPU的资源,解决了输入/输出流(I/O)的瓶颈,使网络吞吐大幅提升,这两项技术可以使系统的响应指标的TPS值能提升2.1到2。5倍,所以一块好的网卡是保证服务器快速、稳定连接的保障。一般来说,网卡出现故障的状况较低,即便是损坏也可以使用独立网卡代替,它的危害程度也不是很高。危害程度:★★控制难度:★综合评定:★☆Top9风扇服务器风扇组故障回放:某服务器经常死机或者自行重启,在排除了软件隐患后,把目光转向了硬件平台。检测CPU、硬盘的温度,全部超出标准,旋即拆开服务器,热气涌出,原是机箱内的风扇坏掉了,温度升高导致系统不稳定。解决方案:降低机箱内的温度主要是改变热传导率系数,塔式服务器通过增加风扇物理数量和加快风扇转速来引动气流的循环,排除热量.效果非常好,噪音非常大;机架式和刀片式服务器由于空间有限则利用新型的“智能风扇"系统来控制空气的流动。这种风扇以“组”的方式出现,每个“组”包括两个串联而成的冗余风扇,它们通过智能IC芯片来实时监控风扇的转速和服务器内部的温度,温度过高时,智能芯片调高风扇的转速以抑制热量升高;低功耗运行时智能风扇系统将会自动降低风扇的转速,减轻能耗的排放;而如果其中一个冗余风扇损坏,另外一个风扇会将其自身转速提高一倍,完全弥补风扇停转引起的风速不足情况,大大提高了服务器的稳定性和可靠性.危害程度:★★控制难度:★★综合评定:★★Top8电源模块服务器电源模块故障回放:某日清晨,刚刚走进机房就感觉一股热浪迎面扑来,查看温湿度表,显示室内温度已经超过了35℃解决方案:对CPU、主板、内存、硬盘进行详细诊断,全部正常,对电源进行测试,发现电压输出非常不稳定,将其拆开,一颗滤波电容已经漏液,想必是机房温度升高,电源负载过重,高频整流滤波电路内的二极管被击穿所致,尽管尚能供电,却是非常的不稳定。立即寻找同型号的电源予以置换,服务器得以恢复正常。为了保证今后此类故障不在出现,所有服务器全部配备了冗余电源,一旦出现电源模块损坏的故障可以立即恢复,大大降低了危害程度.危害程度:★★★控制难度:★★☆综合评定:★★☆Top7CPU
服务器处理器故障回放:笔者曾经有一台基于Intel双核至强3040核心的服务器,开机无显示,系统指示灯疯狂的闪烁,怀疑是CPU与主板的接触不良,将其更换到多路服务器主板的另外一个CPU插槽之上,依旧没有反应.解决方案:经测量,CPU电压居然降至1付以下,原来是CPU的VRM(VoltageRegulatorModule,电压调节模块)出现了故障,不能执行主板上DC电路转换,无法为CPU提供稳定的工作电压,只能更换CPU。这个故障是比较致命,CPU的损坏将直接导致整个服务器的不可用,但是CPU本身的安全性是非常高的,故障率极低。所以在日常维护任务中,由于CPU的损坏导致的服务中断较为少见,它的危害程度不算太高,如果是多路服务器更是不用担心CPU损坏而带来的服务器宕机了。危害程度:★★★☆控制难度:★★☆综合评定:★★★Top6内存mini服务器内存故障回放:一台2GB*2内存的服务器,由于自身承载的服务过多,服务器的处理数据的速度越来越慢,于是,另购2条同型号的内存条来升级服务器.将这些内存全部插入主板后,系统检测只有6GB,另外2GB内存神秘消失,反复的插拔新的内存依旧无法正常检测。解决方案:带着疑问查阅服务器的官方网站,终于得出结论,该服务器的内存插槽是配对使用,1-4、2-5、3—6、7—10、8—11、9—12,新内存插在了2、3槽,无法形成配对,自然只能检测出一条内存,将内存插到5槽,8GB内存顺利被检测。服务器内存的优势不仅仅体现在性能上,她在容错能力同样投入很多精力,目的是为整个平台提供高稳定环境,很多内存采用的ECC(ErrorCorrectingCode,错误检查和纠正)技术、Register、Chipkill都是为了提高内存的稳定性,使各个内存条和插槽之间能更好的融合。危害程度:★★★☆控制难度:★★★综合评定:★★★☆Top5硬盘故障回放:某服务器近期经常出现死机、无征兆的重启,经数据中心IT运维人员进行检测后发现是硬盘工作时间太长,出现了物理坏道.于是立即将此硬盘拆下,将硬盘内的数据导出,结果在转移数据的过程中,不停地弹出I/O错误,这直接导致数据转移的速度非常慢,且丢失了很多重要数据。解决方案:这种情况多数是磁头或者盘片出现了错误。联系专业的数据恢复公司,拆开硬盘,果然是盘片出现了划伤,好在划伤面积并不大,更换磁头后重新恢复数据,恢复了95%以上的数据,算是比较好的结果了。这个故障发现的及时,在盘片没有出现更多物理损伤前予以解决,如盘片损坏严重,数据将永久性丢失,为了避免这种状况的发生我们需要做到以下几点:选择质量上乘的服务器硬盘,比如:平均无故障时间超过1600000小时,年故障率低于0.55%,抗震方面要有300G/2ms的以上的耐冲击能力等等;关键服务器采用RAID模式,比如:RAID5,它由至少3块硬盘组成,在向硬盘写入数据信息的同时,还写入校验信息,当其中有1块硬盘出现故障时,可以根据算法从另外2块硬盘上得出这块故障硬盘的数据,安全性大大提高.危害程度:★★★☆控制难度:★★★☆综合评定:★★★☆Top4RAID故障回放:某企业更换新的数据中心,服务器需要逐步迁移,一台文件服务器成为先行者。这是一台采用的RAID1容灾策略的服务器,迁移过程中没有任何问题,但是使用不久一次雷暴天气后服务器异常关闭,经检测防雷系统并没有起到应有的作用,导致服务器两块硬盘同时损坏。解决方案:对于RAID1来说,只能允许一块硬盘的损坏,当2块硬盘同时损坏后,数据将全部丢失,对于RAID3、5来说同样如此;而对于RAID6,虽然支持两块硬盘同时掉线,但是第三块盘再度掉线后,系统将也将全面崩溃!上述故障数据将是不可逆性恢复,由此可见RAID技术虽好,仍有一些弊端,因此对于极其重要的服务器我们不仅仅要做出RAID的策略,还要将核心数据同步备份到其他介质,比如:磁带、磁盘等。危害程度:★★★☆控制难度:★★★★☆综合评定:★★★★Top3主板故障回放:根据日志的记录,Wsus服务器在凌晨2点宕机了,回滚当日监控录像和环境记录,没有任何异常,起初怀疑是病毒或者策略等软件因素造成的意外状况,但是重启服务器时却是另外一番景象。开机→风扇转动,电源模块指示灯狂闪→尚未自检,随即再次启动→电源模块指示灯再次闪烁,如此周而复始.解决方案:更换CPU、内存插槽,更换电源模块,插拔硬盘,故障依旧,将这些设备放置到同型号的服务器上,没有任何问题。于是怀疑主板损坏,联系厂家工程师,经检测确实是主板故障,更换主板后恢复正常。同CPU一样,主板的故障率是比较低的,但是它的危害程度却远高于CPU,对于多路服务器来讲,单一CPU的损坏并不会影响整个服务器的运转,我们失去的或许只是性能和速度;而对于主板,它几乎没有替代品,只能依靠厂家的更换,因此它的危险性较高。危害程度:★★★★控制难度:★★★★★综合评定:★★★★☆Top2静电防静电、雷击的UPS已普及故障回放:一间极为普通的机房内,春节过后,准备手动升级病毒库,刚刚触摸服务器,瞬间一个电火花出现,紧接着服务器死机了,重新启动服务器很多数据莫名其妙的丢失。解决方案:不要小看这电火花,当人体接触金属物质产生电火花时,人体的静电电压已经超过3000伏,而硬盘只需1000伏左右的静电就会造成数据丢失,因此防静电工作务必做好,如今机房最为普遍、最为简便的防静电措施就是铺设防静电地板,它不仅能过滤很多的静电,在防火、防潮、防锈方面也起到很大作用,保护效果非常明显。另外,闪电、雷暴等自然灾害也会造成硬件的损坏,这要破坏要远远高于静电,所以保护硬件安全也需要部署B/C级防雷。危害程度:★★★★☆控制难度:★★★★★综合评定:★★★★☆Top1不明原因的故障
故障回放:有故障现象,无故障原因解决方案:类似的事情有很多,比如说系统蓝屏,可能是软件冲突,也可能是病毒,还可能是内存,亦有可能是主板电容爆掉……,面对这种故障我们很难第一时间与以判断,这个时候我们就需要在综合的角度进行考量。首先重装系统,排除软件的故障;然后,逐一替换系统硬件,排除硬件故障的可能性;如问题依旧就需要考察服务器的应用环境是否正常,比如电力供应是否满足需求,温湿度是否在正常指标之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年重点排放单位碳核算数据质量内部管理制度建设与合规要点
- 2026年新能源锂电池模组PACK线电芯堆叠±0.02mm精度实现
- 河北省保定市满城区市级名校2026年初三下学期第三次(4月)月考生物试题含解析
- 山西省运城市芮城县重点达标名校2026年中考第三次质量调研化学试题试卷含解析
- 河北省邯郸市复兴区达标名校2026年初三下学期第十四次周考生物试题(B)试卷含解析
- 2026年湖南省长沙市教科所初三9月零次考试生物试题试卷含解析
- 山东省枣庄市薛城区临城重点名校2026年初三5月质量检测试题(A卷)生物试题文试题含解析
- 江苏省南京市三区联盟2026届初三下学期期中考试(月考3)化学试题含解析
- 2026年河北省石家庄市四十中学初三下学期阶段性测试(一)化学试题试卷含解析
- 2026年甲醇加注作业安全规程与地方管理办法编制要点
- 2026河北省公务员录用省市县乡四级联考8650人备考题库及1套参考答案详解
- (2025年)(完整)《中华人民共和国妇女权益保障法》知识竞赛题库及答案
- 2026年及未来5年市场数据中国密闭式冷却塔市场竞争格局及投资战略规划报告
- 法庭安全教育培训课件
- 2026年鄂尔多斯职业学院单招职业技能测试模拟测试卷附答案解析
- 月结正式合同模板(3篇)
- 雨课堂学堂在线学堂云《研究生生涯发展与规划(山大 )》单元测试考核答案
- 2026年滁州职业技术学院单招职业适应性测试题库参考答案详解
- 春季养肝课件
- 江苏省施工现场安全生产管理制度全套完整版
- 无法参加庭审申请书模板
评论
0/150
提交评论