版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、修订记录课程编码适用产品产品版本课程版本ISSUE所有服务器V1.1开发/优化者时间审核人开发类型(新开发/优化)徐长明2014.10董挺/李文海优化本页不打印华为服务器日常维护和故障处理介绍目标学完本课程后,您将能够:掌握服务器日常巡检及日常维护操作掌握服务器故障诊断的思路熟悉服务器日志信息收集方法掌握服务器常见故障处理方法熟悉服务器部件更换流程及注意事项掌握服务器日常问题求助渠道目录服务器日常维护1.1 维护准备1.2 日常巡检1.3 软件升级服务器故障处理2.1 故障诊断流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更换流程及注意事项2.5 求助渠道1.1 维护准备-硬件工
2、具服务器日常维护硬件工具一览表(按需提前准备)。名称说明浮动螺母安装条用于牵引浮动螺母,使浮动螺母安装在机柜的固定导槽孔位上。螺丝刀用于拆装螺钉,一般为一字、十字、六棱套筒等。斜口钳用于剪切绝缘套管、电缆扎线扣等。万用表用于测量电阻、电压,检查导通关系等。防静电腕带用于接触或操作设备和器件,可防止静电放电。防静电手套用于插拔单板、手拿单板或其他精密仪器等,可防止静电放电。线扣用于绑扎线缆。梯子用于高处作业。便携机自备网线,用于通过网络访问管理网口或业务网口,捕获数据。串口线服务器侧串口接口一般为DB9或RJ45。温度计/湿度计用于监控机房温度、湿度是否满足设备稳定运行环境。1.1 维护准备-软
3、件工具服务器日常维护软件工具一览表(按需提前准备)名称说明SSH Secure Shell Client开源工具,用于Windows客户端命令行方式访问Linux系统以及文件传输。UTest Tools服务器U盘检测工具,用于检测服务器硬盘、内存、SSD卡、BBU电池、出厂拷机等。Inspect Tools用于服务器日常远程批量巡检以及带外日志收集。Fusion Upgrade Tools用于批量升级服务器固件iMana/BIOS,以及BIOS批量设定。Winrar第三方软件,需自备,用于压缩文件或解压。Office第三方软件,需自备,用于编辑Word、Excel等文档。bmc_collect
4、.shmm_collect.sh用于服务器带外日志收集(联系TAC工程师获取)。Collection.shWinInfoCollection.bat用于Linux/Windows日志收集(联系TAC工程师获取)。1.1 维护准备-软件工具服务器日常维护软件工具一览表(按需提前准备)名称说明SSH Secure Shell Client开源工具,用于Windows客户端命令行方式访问Linux系统以及文件传输。UTest Tools服务器U盘检测工具,用于检测服务器硬盘、内存、SSD卡、BBU电池、出厂拷机等。Inspect Tools用于服务器日常远程批量巡检以及带外日志收集。Fusion U
5、pgrade Tools用于批量升级服务器固件iMana/BIOS,以及BIOS批量设定。Winrar第三方软件,需自备,用于压缩文件或解压。Office第三方软件,需自备,用于编辑Word、Excel等文档。bmc_collect.shmm_collect.sh用于服务器带外日志收集(联系TAC工程师获取)。Collection.shWinInfoCollection.bat用于Linux/Windows日志收集(联系TAC工程师获取)。1.1 维护准备-必读资料服务器日常维护前必读资料如下表)名称说明资料获取用户指南各型号服务器的用户指南,介绍服务器产品的结构、规格和安装。资料获取方式:通
6、过浏览器访问链接/enterprise/productsupport?lang=zh&pid=9856522&idAbsPath=7919749|9856522,进入相应服务器目录。维护指南各型号服务器的维护指南,介绍服务器产品的结构、规格和安装。告警参考各型号服务器的告警参考,介绍iMana/MM所支持的服务器产品各类型告警信息及处理建议。机房规范客户机房日常维护规范,现场维护时必须严格遵守客户机房管理规范。以实际客户机房规范为准。目录服务器日常维护1.1 维护准备1.2 日常巡检1.3 软件升级服务器故障处理2.1 故障诊断流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更换流
7、程及注意事项2.5 求助渠道1.2 日常巡检-意义服务器日常维护巡检目的如下:及时发现并消除设备运行过程中可能存在的缺陷或隐患,并采取适当的措施予以恢复和处理,维持设备的健康水平,降低设备的故障率。实时掌握设备和网络的运行状况,了解设备和网络的运行趋势,提高维护人员对突发事件的处理效率。 通过定期维护和保养设备,使设备的健康水平长期处于良好状态,确保系统能够安全、稳定、可靠的运行。通过定期检查、备份、测试、清洁等手段,及时发现设备在运行过程中出现的自然老化、功能失效、性能下降等缺陷,并采取适当的措施及时予以处理,以消除隐患,预防事故的发生。1.2 日常巡检-基本原则采用唯一的标识或名称创建问题
8、解决记录日志一次只做一个改动,并记录结果使用华为提供的工具、资源、软件清楚操作系统和应用软件的更新制定可靠的备份计划现场保留备件,故障时及时更换保存最新网络拓扑图方便解决问题1.2 日常巡检-现场巡检现场巡检包含机房环境和设备运行状态两方面。机房环境巡检常见安全标识参考下表。图标说明提示危险用电器件。请注意防止电击危险。请勿打开此器件。警告:所有带有此标识的器件都存在电击危险,被标识区域没有可维护的器件!提示危险器件。该器件可能造成电击危险。被标识区域没有可维护器件,请勿打开此器件。警告:请注意防止电击危险,请勿打开此器件!提示高温表面。警告:小心烫伤,请等器件降温后再接触!提示危险用电器件。
9、该标识表示误操作可能会导致设备损坏或人身伤害。该标识是设备外部的接地标识。接地电缆的两端分别接在不同设备上,表示设备必须通过接地点接地,保证设备正常运行及操作人员的人身安全。该标识是设备内部的接地标识。接地电缆的两端都接在同一个设备上的不同组件上,表示设备必须通过接地点接地,保证设备正常运行及操作人员的人身安全。该标识表示为静电敏感区,请勿徒手触摸设备。在该区域操作时,请采取严格的防静电措施,例如佩戴防静电腕带或者防静电手套。1.2 日常巡检-现场巡检机房环境检查主要包括机房内部的温湿度、供电等序号技术指标项结果参考1工作温度10 35(41 95)2.存储温度-40+65(-40 149)3
10、温度变化率15/h(59/h)4工作湿度8% RH 90% RH(无冷凝)5存储湿度5% RH 95% RH(无冷凝)6工作海拔高度3000m7电源交流供电:输入电压范围100V AC 240V AC,50/60Hz直流供电:标称-48VDC,电压波动范围38.4V57.6V DC1.2 日常巡检-现场巡检服务器相关线路布局巡检,参考下表,如需插拔线缆,务必在客户授权后方可进行。序号检查内容检查结果备注1线缆总布放强电、弱电线应该分别从机柜两边走线,即业务、电源线分离。特别注意光纤是否有被小角度弯曲或强行拉伸。2电源线布放整齐、美观、有序,尽量与机房内其余机柜布线风格保持一致,电源线禁止挽圈。
11、3业务线布放整齐、美观、有序,尽量与机房内其余机柜布线风格保持一致。4地线连接服务器设备要按规定接地。5线缆标签标注、粘贴标签字体清晰,标注明确且含义准确,粘贴牢固。6电源线插头检查检查服务器的电源线是否牢固插入电源插座。7信号线插头检查检查服务器、交换机等设备之间的信号、数据线连接是否牢固。1.2 日常巡检-现场巡检服务器运行状态巡检,参考下表序号检查方式备注1服务器指示灯巡检华为服务器前后面板分别提供UID按钮/指示灯、HEALTHY健康指示灯、网口指示灯、电源开关按钮指示灯等。通过观察指示灯状态可以初步诊断当前服务器的状态。指示灯状态说明参考服务器产品文档。2服务器iMana健康信息巡检
12、如果客户现场有管理网络,则使用客户管理网络进行巡检,否则用网线连接iMana管理网口和便携机网口。登录iMana Web对健康状态进行查询,相关告警信息参考iMana告警参考进行分析处理。3MM管理模块健康信息巡检如果客户现场有管理网络,则使用客户管理网络进行巡检,否则用网线连接主用MM管理模块网口和便携机网口。通过MM Web界面查看刀片服务器MM管理模块、服务器刀片、交换模块、电源模块、风扇模块的健康状态。相关告警信息参考MM告警参考进行分析处理。1.2 日常巡检-现场巡检服务器现场巡检后输出报告,参考下表项目名称XXX服务器设备巡检清单以及报修联络方式巡检人/联系方式巡检时间巡检地址相关
13、保障人员现场接口人故障主接口人我司现场值守工程师报修电话企业中国区:4008229999 企业全球TAC:/en/about/contact/index.htm运营商中国区TAC:客户400830218/800830218/02986360000 工程师/合作方:8008303118/02981770177 运营商全球TAC:02981770999主机序列号/单板序列号设备所在位置巡检项巡检内容巡检检查项巡检结果备注前面板健康指示灯系统故障指示灯状态红色常亮或红色闪烁表明异常,绿色表示工作正常正常 不正常前面板电源按钮/指示灯系统电源指示灯状态绿色常亮为正常运行正常 不正常前面板硬盘指示灯硬盘
14、状态指示灯状态绿色常亮或闪烁为正常,黄色或不亮为异常正常 不正常后面板指示灯交流电源指示灯(电源模块)绿色常亮为正常运行,不亮为无电源输入正常 不正常风 扇风扇运行状态风扇很响或异响为异常,平稳运行为正常正常 不正常网线以及其他线缆线缆连接状态网线及光纤线是否插好,接口指示灯是否亮正常 不正常iMana健康信息通过iMana查看服务器健康状态和告警日志信息查看服务器的健康状态日志信息、散热管理及电源管理的当前状态是否有任何告警正常 不正常MM 健康信息通过MM查看刀片服务器健康状态和告警日志信息通过Web界面查看Tecal 刀片服务器MM管理模块、服务器刀片、交换模块、电源模块、风扇模块的健康
15、状态及告警信息。正常 不正常其他其他部件如果硬件其他有异常请联系现场值守工程师正常 不正常备注指示灯对应关系及iMana、MM健康状态和告警信息的查询,请参考服务器产品文档(产品文档可在配套光盘中获取到,或者通过登录/enterprise进行下载)。1.2 日常巡检-远程巡检通过客户网络远程访问服务带外管理软件(iMana或SMM),使用巡检工具进行服务器健康状态巡检。巡检工具具有以下特点: 图形用户界面(GUI)和 命令行界面(CLI)32位系统和64位系统都支持支持单台或批量巡检 支持巡检报告导出 支持批量收集服务器BMC或刀片服务器SMM板的日志 支持RH系列V2服务器、高密等自研服务器
16、和E9000和E6000 刀片服务器SMM巡检,不支持RH2488服务器 刀片服务器日志收集时,会同时收集刀片、风扇、电源等日志信息1.2 日常巡检-远程巡检巡检工具使用前准备工作:一、控制台要求控制台用来运行巡检工具,泛指客户的PC机或笔记本电脑,推荐用Windows系统或SLES11 SP1以上的Linux系统(工具支持的客户端详见用户指南)。其它辅助工具 ,如用来编辑批量配置文件的Excel组件。;将工具上传到Linux系统控制台的SSH工具;用于解压日志的压缩工具,如winrar。二、待巡检服务器配置信息待巡检服务器的BMC IP地址、root用户对应的密码、SNMP版本和端口号待巡检
17、刀片服务器的主SMM板 IP地址、root用户对应的密码、SNMP版本和端口号。批量巡检需要编辑待巡检服务器详细列表,支持xls、xlsx、xml格式文件,该方式也支持单节点服务器巡检。 1.2 日常巡检-远程巡检1.2 日常巡检-远程巡检巡检工具主界面如下1.2 日常巡检-远程巡检巡检工具主界面参数说明参数名称 中文解释备注StartIPAddress搜索的起始服务器IP地址iMana或主用MM IP地址(建议使用浮动IP,以免MM主备切换导致主用MM静态IP无法访问其他部件)EndIPAddress搜索的结束服务器IP地址必须和StartIPAddress在不超过两个网段内, 如果只有一台
18、服务器则和StartIPAddress相同,末尾值不能比StartIPAddress小,跨网段要比StartIPAddress大Password(root) root用户的密码iMana或主用MM模块的root用户的密码SNMPVersionSNMP版本号有 v1、v2c、v3 三个值,默认为 v3SNMPPortSNMP服务端口号默认为161CommunitySNMP访问的团体名v2c 使用默认为rwpublicAuthenticationProtocolSNMP V3鉴权算法有 MD5、SHA 两个值,默认为 MD5PrivacyProtocol SNMP V3加密算法有 DES、AES
19、两个值,默认为 DESIPMIPortIPMI端口号默认为 623SSHPort SSH端口号默认为 221.2 日常巡检-远程巡检IPAddress:服务器IP地址ProductName:服务器型号,如果是刀片服务器,显示的是MM板的型号(如MM620或MM910)SerialNumber显示服务器的序列号Result :服务器巡检结果(OK:正常、Minor:轻微告警、Major:严重告警、Unknown:未知)ErrorMessage:错误信息,比如设备连接不上、错误的密码等Log directory可以直接跳转到巡检结果保存路径,默认路径为工具包中Work目录,格式为xml格式。exp
20、ort可以自行选择巡检结果保存格式xls、xlsx或xml。巡检结果中Result存在告警的,可以通过右键来收集日志。1.2 日常巡检-远程巡检巡检结果格式,参考如下1.2 日常巡检-远程巡检巡检工具命令行方式,与图形界面类似,命令行通过配置文件(xls、xlsx或xml格式)来设置待巡检服务器的配置信息,通过命令行工具Inspect_cli.exe执行巡检。Linux客户端操作方式与Windows类似,差异在于Linux客户端通过命令行方式来调用图形界面;命令行方式调用脚本为Inspect_CLI.sh目录服务器日常维护1.1 维护准备1.2 日常巡检1.3 软件升级服务器故障处理2.1 故
21、障诊断流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更换流程及注意事项2.5 求助渠道1.3 软件升级服务器固件(iMana/BIOS/SMM)在满足客户新需求或出现异常时,可能需要升级固件,对于iMana/BIOS/SMM在升级固件时提供图形界面和命令行两种升级方式。对于批量升级时建议选用批量升级工具,以此减少升级时间。系列默认IP掩码地址默认用户名默认密码RH00rootrootHuawei12#$BH0110XH0104MM610MM620MM1-1MM2-2浮动IP-1rootHuawei12#$或huaweiostaMM910MM1-MM2-浮动IP-rootHuawe
22、i12#$1.3 软件升级服务器固件(iMana/BIOS/SMM)升级包获取方式。登录/enterprise,依次选择“软件下载IT服务器”,进入对应产品软件版本路径后获取。R1服务器iMana升级包文件为image.tar.gz,BIOS升级包文件为bios.tar.gz。V2服务器iMana升级包文件为image.hpm,BIOS升级包文件为biosimage.hpm。刀片服务器MM610升级包文件(BC01SMMA.uImage、ppc.bz、mm_fpga.rbf)刀片服务器MM620升级包文件(ASUP.tar.gz)刀片服务器MM910升级包文件( MM910-CPLD-Vxxx
23、.hpm、MM910-ManageApp-Vxxx.hpm)1.3 软件升级服务器固件iMana/BIOS通过图形界面升级,需要客户端登录iMana Web系统,iMana Web登录界面如下图所示。1.3 软件升级iMana/BIOS软件版本查询方法-Web方式:登录界面可以查看,也可以登录iMana Web,依次进入“系统信息固件版本”1.3 软件升级服务器固件iMana/BIOS图形界面升级操作流程:登录iMana Web界面。R1服务器依次进入“常见任务固件升级”,V2服务器依次进入“配置固件升级”。选择固件包,点击“Upgrade”升级。说明:iMana升级不需要重启操作系统,但需要
24、做两次升级操作;BIOS升级一次,需要重启操作系统生效。1.3 软件升级iMana/BIOS软件版本查询方法-CLI方式:ipmcget -d version,回显如下rootBMC:/#ipmcget -d version IPMC CPU: SPEAr310IPMI Version: 2.0FPGA Version: (U8)027CPLD Version: (U13)021BIOS Version: (U10)V170Active iMana Version: (U48)5.97Active iMana Built: 15:18:45 Apr 11 2014Backup iMana Ve
25、rsion: 5.971.3 软件升级(接上页)Driver Version: 1.00Driver Built: 15:19:02 Apr 11 2014Uboot Version: U-Boot 1.3.5 (May 24 2012 - 10:48:52)-SPEAr310Mainboard BoardID: 0 xaa04Mainboard PCB: .ARAID CARD BoardID: 0 xaa21RAID CARD PCB: .BIPMB Address: 0 x841.3 软件升级服务器固件iMana/BIOS命令行升级操作流程:1、通过SSH工具将升级包上传到iMana的/
26、tmp目录。2、通过SSH工具登录iMana,依次执行如下命令进行升级。说明:iMana升级不需要重启操作系统,但需要做两次升级操作;BIOS升级一次,需要重启操作系统生效。服务器平台升级固件命令行备注R1iManaipmcset -d upgrade -v /tmp/image.tar.gz升级过程终于到提示输入0,选择全部升级BIOSipmcset -d upgrade -v /tmp/bios.tar.gz升级过程中不能出现服务器重启,升级完成后重启服务器生效V2iManaipmcset -d upgrade -v /tmp/image.hpm 1最后面数字1表示升级完成后自动复位iMa
27、na,对于BIOS不生效。BIOSipmcset -d upgrade -v /tmp/biosimage.hpm升级过程中不能出现服务器重启,升级完成后重启服务器生效1.3 软件升级刀片服务器SMM(MM620/MM910)图形界面升级需要客户端登录HMM Web系统,HMM Web登录界面如下图所示。1.3 软件升级软件版本查询方法-Web方式。1.3 软件升级刀片服务器SMM(MM620)图形界面升级流程如下图示。登录备用MM620 HMM Web界面,依次进入“System ManagementFirmware Upgrade”。点击“Browser”选择客户端保存的MM620软件升级
28、包文件。点击“Upgrade”进行升级,升级完成后提示“是否立即重启MM”,选择“确定”,MM立即重启。再次登录备用SMM Web,依次进入“System ManagementFirmware Upgrade”,确认版本Software Version是否升级成功。参考步骤14,升级主用MM620。1.3 软件升级刀片服务器SMM(MM910)图形界面升级流程如下图示,使用静态IP升级。1、登录备用HMM Web,依次进入“System ManagementFirmware upgradeMM”。2、点击View查看BOM版本,当“固件升级”中的“BOM Version”值大于等于“002”时
29、,MM910不可以回退到V100R001C00SPC150及以前版本。3、勾选要升级的MM模块,点击“Browser”选择客户端保存的CPLD升级包文件。4、点击“Upgrade”进行CPLD升级,升级完成后,在提示界面点击“确定”重启MM910(如果CPLD和固件都需要升级,可以单击“取消”,先不重启MM910,等升级固件之后再重启MM910,以节省升级时间)。1.3 软件升级刀片服务器SMM(MM910)图形界面升级流程如下图示,使用静态IP升级(续)5、重复步骤14,升级MM910 ManagementApp软件包。6、命令行登录备用MM910,依次执行cd /tmp/updatefla
30、g/、ls l,当屏幕回显为空,表示MM910双工作区之间的数据已同步完成。7、参考步骤16,升级主用MM910固件。其他固升级件参考E9000 MM910管理模块升级指导书。1.3 软件升级SMM软件版本查询方法-命令行方法。smmget -l smm -d version,回显如下SMM Version Information:Uboot Version :(U54)012CPLD Version :(U1082)008 121120PCB Version :SMMA REV BFPGA Version :(U1049)007 121116Software Version :(U54)2.
31、0IPMI Module Built:Mar 14 2013 22:31:441.3 软件升级刀片服务器SMM命令行升级操作流程,使用SMM静态IP升级:1、通过SSH工具将升级包上传到备用SMM的/tmp目录。2、通过SSH工具登录备用SMM,执行cd /tmp进入升级文件目录,依次执行如下命令升级。3、主用SMM重复步骤12升级。其他固件升级参考E9000 MM910管理模块升级指导书。服务器平台升级固件命令行MM610BC01SMMA.uImageppc.bzmm_fpga.rbfupdate BC01SMMA.uImageupdate ppc.bzupdate mm_fpga.rbfr
32、ebootMM620ASUP.tar.gzupgradeall ASUP.tar.gzrebootMM910MM910-CPLD-Vxxx.hpmMM910-ManageApp-Vxxx.hpmsmmset -l smm -d firmwareupdate -v MM910-CPLD-Vxxx.hpmsmmset -l smm -d firmwareupdate -v MM910-ManageApp-Vxxx.hpmrebootcd /tmp/updateflag/ls -l /回显为空,表示双工作区同步完成1.3 软件升级服务器iMana/BIOS需要批量升级时,可以使用批量升级工具,主界面
33、如下1.3 软件升级iMana/BIOS批量升级流程如下,详细参考Fusion Upgrade Tools用户指南:1、依次进入批量升级工具“Upgrade ManagementBatch Upgrade”2、输入iMana用户名、密码、IP地址段,点击“+”;若设备iMana用户名和密码不完全相同,可以通过配置文件File来配置。3、点击“Search”搜索服务器设备。4、点击“Select”选择客户端保存的iMana/BIOS升级包文件,升级工具会自动校验升级包可匹配的设备在“Device Type”中。5、在“Device List”中选择要升级的设备,点击“Upgrade”进行升级。6
34、、升级工具自动切换到“Upgrade Tasks”显示各设备升级进度及升级结果。7、对于升级失败的设备,可以在“Upgrade Tasks”列表中重新升级。目录服务器日常维护1.1 维护准备1.2 日常巡检1.3 软件升级服务器故障处理2.1 故障诊断流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更换流程及注意事项2.5 求助渠道2.1 故障诊断流程-基本原则诊断故障时,应先排除外部的可能因素,如电源中断、对接设备故障等。根据网络拓扑图,分析网络环境是否正常、互连设备是否发生故障,尽可能准确定位出是网络中哪个网元发生故障从告警信号流中可以看出,高速信号的告警经常会引起低速信号的告
35、警。因此在故障诊断时,应先排除高速部分的故障。分析告警时,首先分析高级别的告警,如紧急告警、严重告警,然后再分析低级别的告警,如轻微告警。先诊断外部,后诊断内部先诊断网络,后诊断网元先高速部分,后低速部分先分析高级别,后低级别告警2.1 故障诊断流程-资源服务器及节点模块的运行健康状态,可通过观察其指示灯状态进行初步诊断管理软件界面集中设备管理功能、友好的图文界面、安全的信息传输和丰富的增值工具。客户通过MM模块提供的命令行或Web界面,可以对E6000/E9000服务器机箱中所有设备当前的状态进行监控和管理。可以从华为技术有限公司的技术支持网站及运维之家获取服务器红宝书、案例资料,帮助您分析
36、和处理故障。指示灯iMana模块MM模块案例资料2.1 故障诊断流程开始根据告警处理建议处理故障观察故障现象并收集信息是否有告警?告警是否消除?分析故障信息并判断故障种类定位故障原因采取措施排除故障故障是否排除?结束联系华为是否是否是否目录服务器日常维护1.1 维护准备1.2 日常巡检1.3 软件升级服务器故障处理2.1 故障诊断流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更换流程及注意事项2.5 求助渠道2.2 故障信息收集方法服务器发生故障时,需要收集以下几类信息进行故障诊断。基本故障信息(包括客户基本信息、设备型号及配置、故障现象等信息)服务器硬件日志(通过iMana或M
37、M收集服务器硬件相关信息),用于确认服务器的系统故障。业务层日志(包括操作系统、业务软件相关日志),用于分析软件层面的问题。2.2 故障信息收集方法基本故障信息收集,参考如下表格。服务器基本故障信息问题单号如123456问题接收时间xxxx年xx月xx日xx时xx分xx秒客户名称xxx客户地址xx省xx市xx县/镇/街道客户姓名张三联系方式电话/邮箱设备型号如Tecal RH2285 V2设备序列号2102310XXXXX设备硬件配置如CPU、内存、RAID、网卡型号等OS及业务软件版本如suse11sp1 64位、oracle 10u2故障发生时间xxxx年xx月xx日xx时xx分xx秒故障
38、现象如安装系统过程自动重启。故障前的动作如修改BIOS硬件狗。故障后已采取的动作及结果如插拔电源线重新安装,故障依旧更换光盘,故障依旧.2.2 故障信息收集方法通过服务器iMana管理软件可以收集服务器硬件相关信息,日常问题主要关注以下信息:iMana/BIOS版本。CPU、内存、RAID卡等硬件配置信息(包括型号和数量)。节点服务器健康状态(包括CPU温度、风扇转速、电源功耗、硬盘状态等)。节点服务器历史事件日志(用于分析故障时间点前后的服务器状态)。最后一屏(用于查看服务器宕机时的画面信息)。开机自检码(用于分析不开机、不上电问题)。sol日志(仅限于V2服务器)。2.2 故障信息收集方法
39、iMana日志收集脚本bmc_collect_vx.y.z.sh(x.y.z代表不同的版本号)使用方法:1、通过SSH工具将bmc_collect.sh上传到iMana的/tmp目录下。2、通过SSH命令行登录iMana,依次执行如下命令进行日志收集。cd /tmp; chmod +x bmc_collect_v2.1.5.sh./bmc_collect_v2.1.5.sh /日志会保留在/tmp目录,格式为BMC_Borad Name _date_time.tar.gz3、通过SSH将日志文件下载到本地客户端。2.2 故障信息收集方法iMana日志收集脚本bmc_collect_vx.y.z
40、.sh(x.y.z代表不同的版本号)使用方法:1、通过SSH工具将bmc_collect.sh上传到iMana的/tmp目录下。2、通过SSH命令行登录iMana,依次执行如下命令进行日志收集。cd /tmp;chmod +x bmc_collect_v2.1.5.sh./bmc_collect_v2.1.5.sh /日志会保留在/tmp目录,格式为BMC_Borad Name _date_time.tar.gz3、通过SSH将日志文件下载到本地客户端2.2 故障信息收集方法通过服务器SMM管理软件可以收集服务器硬件相关信息,日常问题主要关注以下信息:SMM/iMana/BIOS版本。刀片型号
41、、CPU、内存、RAID卡等硬件配置信息(包括型号和数量)。整机框健康状态(包括刀片CPU温度、硬盘状态以及风扇转速、电源功耗、交换板状态等)。SMM事件日志及节点服务器历史事件日志(用于分析故障时间点前后的服务器状态)。2.2 故障信息收集方法SMM日志收集脚本mm_collect_vx.y.z.sh(x.y.z代表不同的版本号)使用方法:1、通过SSH工具将mm_collect.sh上传到主用SMM的/tmp目录下。2、通过SSH命令行登录主用SMM,依次执行如下命令进行日志收集。cd /tmp;chmod +x mm_collect_v1.0.4.sh./mm_collect_v1.0.
42、4.sh /日志会保留在/tmp目录,格式为MM_Name_Board_Name_Board_SN_“date_time.tar.gz3、通过SSH将日志文件下载到本地客户端。2.2 故障信息收集方法操作系统日志一般分为Windows和Linux系统日志,收集脚本分别为WinInfoCollection.bat和collection_vx.y.z.sh(x.y.z代表不同的版本号)。2.2 故障信息收集方法Linux日志收集工具主要收集以下信息:环境编辑/usr/bin/env网络信息(包括网卡IP、端口状态、路由、DNS等配置)bus信息(lspci回显,以及各pci设备PCI配置空间、寄存
43、器信息等)中断信息文件系统信息(包括硬盘使用率、硬盘分区及已打开文件列表、文件系统分区表等)内核信息(包括资源限制信息、内核参数、内核版本、进程信息、历史记录history、cpu信息、内存信息、内核文件和文件系统文件等)已安装的软件包pkg信息操作系统日志:messages、mcelog、syslog配置文件、grub文件、重启记录、dmesg日志等1初始化配置文件inittab1DMI Table(dmidecode)日常问题分析主要关注操作系统版本、grub配置文件、messages日志、mcelog日志、重启记录以及history等。2.2 故障信息收集方法Linux日志收集工具适用于
44、通用Linux系统(如SUSE、RHEL等,vmware、solaris不适用),使用方法:通过SSH工具将Linux日志收集脚本collection_vx.y.z.sh(x.y.z表示工具版本号)上传到操作系统的任意目录(以/home为例)。执行命令cd /home 进入脚本所在目录执行命令chmod +x collection_vx.y.z.sh添加可执行权限。执行命令./collection_vx.y.z.sh收集日志。工具执行完成后会在/home/目录下生成“Linuxlog_厂商_设备型号_设备序列号_年月日时分秒.tar.gz”文件(即日志包),同时会提示人工查看/var/cras
45、h目录是否生成crash日志。2.2 故障信息收集方法Windows日志收集工具主要收集以下信息:类别描述CPU物理CPU信息Disk操作系统识别到的硬盘及盘符信息Driver已加载的驱动信息及驱动版本信息Memory物理内存信息及内存地址分配空间Network网卡数量及配置信息Process操作系统运行中的进程信息Resources操作系统版本信息、中断分配、错误日志、资源使用率等System操作系统版本信息、计算机名称、环境变量、当前运行的service、开机自动运行程序等winevt操作系统所有事件日志(包括系统、应用程序、安全、认证等)2.2 故障信息收集方法Windows日志收集工具
46、适于通用Windows2003/2008/2012/Win7系统,使用方法:1、通过FTP/TFTP协议类工具将Windows日志收集工具包devcon文件夹和WinInfoCollection_vx.y.z.bat(x.y.z表示工具版本号)上传到操作系统的任意目录。2、进入脚本所在目录3、双击WinInfoCollection_vx.y.z.bat运行脚本。4、工具执行完成后会在当前目录下生成WinInfoCollection文件夹,同时工具会提示人工查看DUMP日志是否生成。2.2 故障信息收集方法Vmware主机日志收集方法,在主机命令行执行vm-support命令,会生成日志包,如下
47、图所示。Ubuntu/Solaris主机主要收集内核版本、/var/log/目录文件。Qlogic HBA卡日志收集工具,参考官方使用说明。Windows版本/SupportCenter/Customer_Support_main?id=kA0800000000CgoCAELinux版本/SupportCenter/Customer_Support_main#!/feedtype=SINGLE_ARTICLE_DETAIL&dc=All&criteria=BESTANSWERS&id=kA0800000000Ce1Emulex HBA卡日志收集工具,参考官方使用说明。/downloads/on
48、ecapture/2.2 故障信息收集方法Fusion Inspect Tools不仅提供巡检功能,也提供日志收集功能。2.2 故障信息收集方法Fusion Inspect Tools命令行方式收集带外日志,日志路径会在Summary字段中体现。Windows系统Linux系统目录服务器日常维护1.1 维护准备1.2 日常巡检1.3 软件升级服务器故障处理2.1 故障诊断流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更换流程及注意事项2.5 求助渠道2.3 故障定位方法故障定位的基本步骤如下。获取充分的故障信息后,需根据这些信息,并结合相关原理知识和已有的故障诊断经验,初步判断故
49、障的范围和种类。排除故障是指采取适当的措施或步骤清除故障、恢复系统的过程,如检修线路、更换设备、修改配置数据、复位等。定位故障从众多可能原因中找出该单一原因,通过分析、比较各种可能的故障原因,不断排除不可能因素,最终确定故障发生的具体原因。 判断故障定位故障 排除故障2.3 故障定位方法确定故障的范围确定故障的范围,即确定在什么地方、以什么思路去查找故障处理的方向。确定服务器故障范围时需区分以下两种情况:所有业务发生故障需进一步了解对接设备是否同时发生故障。部分业务发生故障需进一步了解故障业务类型及其分布情况,其它业务是否同时发生故障。确定故障的种类确定故障的种类,即确定采用何种方法分析问题、
50、解决问题。2.3 故障定位方法服务器发生故障时,可以参考服务器告警参考和维护宝典(包含常见案例),进行故障定位。服务器告警参考获取方式:通过浏览器访问以下链接/enterprise/productsupport?lang=zh&pid=9856522&idAbsPath=7919749|9856522,进入相应服务器目录,查找iMana 告警参考(刀片服务器为MM610/620/910 告警参考)。服务器维护宝典链接/ehedex/hdx.do?docid=DOC1000041337&lang=zh2.3 故障定位方法服务器告警参考使用说明:ALM-0149FFFF 温度过高严重告警(Inle
51、t Temp)告警解释告警描述:Above upper major threshold 当温度传感器检测到进风口温度高于严重告警阈值时,产生此告警。该传感器严重告警阈值可以通过命令uppercritical设置。产生此告警的传感器名称有:Inlet Temp告警属性告警ID 告警级别 告警类型 0149FFFF 严重 故障对系统的影响 设备运行在较高温度的环境下,会降低设备器件性能,影响设备寿命,增加能耗,影响业务2.3 故障定位方法(续)可能原因产生此告警的原因有:机房温度过高。进风口被堵住。处理步骤检查机房空调运行是否正常,降低设备工作环境温度,或者把设备转移至温度较低的环境,把环境温度控
52、制在10到30。当温度降低到要求范围内后,查看告警是否会自动消除。 是 = 处理完毕否 = 步骤 2检查进风口是否被堵上。 是 = 步骤 3否 = 步骤 4移除堵物,查看告警是否消失。 是 = 处理完毕否 = 步骤 4联系华为技术支持处理。告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。2.3 故障定位方法服务器红宝书汇总常见案例,包括服务器硬件、操作系统、业务软件等方面引起的各类故障处理经验。案例一:RH2285插上AC电源线后需按动电源按钮才能上电问题现象插上AC电源线后,过大约1分钟机器不能自动开机,必须按前面板电源按钮才能开机。问题原因服务器通电策略Restore on A
53、C Power Loss设置为Power off。解决方法服务器开机按delete键进入BIOS,依次进入AdvancedIPMI 2.0 Configuration Restore on AC Power Loss设置为Power on,按F10保存退出。2.3 故障定位方法案例二: LSI SAS2208卡License Key配置错误导致自检异常问题现象硬件配置: Tecal RH2285 V2服务器(12块硬盘),LSI2208卡(8盘License Key)。系统启动过程硬盘自检阶段,提示“Number of disks exceeded the maximum supported
54、count of 8 disks”。问题原因服务器配置为12硬盘背板,但搭配了仅支持8块硬盘的LSI2208卡,因此无法识别12块硬盘解决方法更换RAID卡为12盘对应的RAID卡。RAID卡SR220 SR320 SR420 SR520 SR620 硬盘背板8盘8盘或12盘24盘8盘2.3 故障定位方法案例三: RH2285安装OS过程中自动重启问题现象安装OS过程中,不同阶段发生自动重启。iMana上报如下信息。问题原因服务器BIOS开启硬件狗,导致OS安装过程中触发硬件狗超时复位单板。解决方法服务器开机按delete键进入BIOS,依次进入AdvancedIPMI 2.0 Configu
55、ration BMC WDT Action For POST/BMC WDT Action For OS Loader设置为Disabled,按F10保存退出。2.3 故障定位方法案例四: RH2285无法安装Windows2003sp2系统问题现象RH2285配置LSI12078卡安装OS过程中,无法发现硬盘,重启后屏幕如下图。问题原因Windows2003sp2系统未包含LSI1078卡驱动,导致无法发现硬盘,无法安装系统。解决方法第一种:使用Service CD引导盘安装Windows2003sp2系统。第二种:使用Windows2003sp2镜像,同时加载LSI1078卡驱动安装系统。
56、2.3 故障定位方法案例五: Tecal BH620服务器安装RHEL 6U2 64位系统花屏问题现象 Tecal BH620服务器安装RHEL 6U2 64位系统过程中花屏,安装完成后依然花屏。问题原因RHEL 6U2/6U3自带xgi驱动对Z9s显卡支持不完善。解决方法第一种:安装系统时选择“Install system with basic video driver”方式安装。第二种:系统已安装完成,将显卡驱动从xgi改为vesa,通过init3、init5复位图形桌面。2.3 故障定位方法案例六:Windows 2008 R2系统每隔1小时自动关机问题现象服务器安装了Windows20
57、08R2系统,但是每隔1小时自动关机,业务无法访问。问题原因Windows2008R2系统开机自动启动WLMS(Windows License Monitoring Service,无法禁用)会持续监控License的状态,一旦过期,则会强制每隔1小时关机。解决方法使用正版Windows2008R2系统,保证License有效。2.3 故障定位方法案例七:SUSE11SP1持续运行208天以上宕机问题现象服务器配置Intel CPU,安装Suse11sp1系统,持续运行约208随机发生宕机。问题原因安装Suse11sp1操作系统的服务器,在操作系统运行208天以上会随机触发Suse内核除0 B
58、ug,导致异常死机或重启。解决方法第一种:规避措施,通过命令uptime查看操作系统运行时长,若解决208天时,人工重启系统。第二种:根本解决方案,升级内核版本到9-0.7.1(解决方案产品以解决方案为准)。2.3 故障定位方法案例八:网卡显示为未知设备问题现象TecalRH2285服务器配置Intel 82580网卡,安装Suse10sp2系统,通过命令lspci查看网卡显示Unknown Device。问题原因第一种:未安装网卡驱动。第二种:已安装网卡驱动,但是系统自带pci.ids文件过旧,无法识别新硬件。解决方法第一种:通过lspci -n查看未知设备厂家id和设备id,通过http:
59、/pci-ids.ucw.cz/确认设备型号,下载驱动并安装。第二种:通过http:/pci-ids.ucw.cz/ 下载最新pci.ids文件,覆盖操作系统自带/usr/share/pci.ids。2.3 故障定位方法案例九:光模块不匹配导致网卡无法使用问题现象服务器配置双端口Intel 82599卡,安装Suse11sp1系统,使用命令ifconfig -a无法识别82599所有端口。问题原因Intel 82599卡两个端口配置的光模块型号不同,故障网口在系统日志中显示“fail to load because unsupported SFP + module type was detec
60、ted”。解决方法Intel 82599标卡只能使用Intel配套光模块,更换光模块。目录服务器日常维护1.1 维护准备1.2 日常巡检1.3 软件升级服务器故障处理2.1 故障诊断流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更换流程及注意事项2.5 求助渠道2.4 部件更换流程及注意事项注意事项:防静电机柜正确接地严格按照操作步骤执行部件轻拿轻放,严禁暴力施工需要中断业务时必须由客户停止业务并关机,在客户正式授权后方可实施更换确定故障源准备备件确认影响范围采取规避措施更换确认更换效果反馈2.4 部件更换流程及注意事项服务器常见更换部件主要如下CPU/内存/硬盘主板电源背板/电
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届国家管网集团高校毕业生招聘笔试参考题库(浓缩500题)及参考答案详解
- 2026国网安徽省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题附答案详解(能力提升)
- 2026秋季国家管网集团华中公司高校毕业生招聘笔试模拟试题(浓缩500题)及答案详解(夺冠系列)
- 2025国网湖北省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题含答案详解(综合卷)
- 2026秋季国家管网集团山东分公司高校毕业生招聘考试参考题库(浓缩500题)及答案详解(夺冠)
- 2026秋季国家管网集团浙江省天然气管网有限公司高校毕业生招聘笔试参考题库(浓缩500题)含答案详解(轻巧夺冠)
- 2026年黑河市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)附答案详解ab卷
- 国家管网集团湖南公司2026届秋季高校毕业生招聘考试备考试题(浓缩500题)及参考答案详解(突破训练)
- 2026秋季国家管网集团华中公司高校毕业生招聘考试参考题库(浓缩500题)带答案详解(轻巧夺冠)
- 2025国网河南省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题附答案详解(基础题)
- 2025年年少先队知识竞赛考试真题题库及答案
- 英语二必考500词
- DLT5210.1-2021电力建设施工质量验收规程第1部分-土建工程
- 昇兴(安徽)包装有限公司年产 18 亿只铝制两片罐项目环境影响评价报告书
- 企业电气安全事故案例分析
- 2023学年完整公开课版液压方枕器
- 2023年度环保管家服务招标文件
- 固定式人字抱杆整立施工作业指导书
- 犬胃切开术的课件资料
- 天津某钢厂高速线材主轧线设备安装方案年产万吨
- 人教版初中语文《名著导读》
评论
0/150
提交评论