服务器故障处理预案.._第1页
服务器故障处理预案.._第2页
服务器故障处理预案.._第3页
服务器故障处理预案.._第4页
服务器故障处理预案.._第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息系统服务器故障处理预案 第 1 页 共 10 页 公司公司 信息系统服务器故障应急处理预案 初稿 信息系统服务器故障应急处理预案 初稿 目目 录录 第一部分 服务器故障的处理响应 2 第二部分 服务器硬件故障的诊断和处理 4 第三部分 服务器软件故障的诊断和处理 5 信息系统服务器故障处理预案 第 2 页 共 10 页 第一部分 服务器故障的处理响应 一一 服务器故障的定义 服务器故障的定义 本预案所指的服务器故障是指公司管理信息系统范围内的网络服务器设备的故障 包 括因设备质量原因导致的系统故障 人为因素和网络系统外界因素而导致的系统故障 计 算机病毒感染及遭受黑客或恶意代码攻击而导致的应用系统故障等 涉及本预案的服务器设备包括小型机和 PC 服务器 设备清册参见附表 1 二二 服务器故障的分类 服务器故障的分类 以服务器设备的故障性质和故障可能涉及的范围 按照以下的标准进行分类 服务器硬件故障 服务器硬件故障 包括服务器的底板故障 IO 板及 IO 设备故障 CPU 板及 CPU 故障 内存板及内存故障 磁盘阵列及磁盘故障以及磁带库故障等 这类 故障将直接影响服务器的正常运行 情况严重的 将使服务器陷于瘫痪状态 基于该服务 器的所有应用将无法正常使用 如果该服务器承担的是网络的控制和管理职能 将对整个 管理信息系统造成极为严重的影响 如果该服务器承担的是单个或多个应用系统的运行和 管理 那么 这些应用系统将无法提供正常的服务 服务器系统软件故障 服务器的系统软件故障 包括操作系统故障 网络控制和管理 系统故障 集群管理系统故障等等 严重的服务器系统软件故障 同样会使服务器陷入瘫 痪状态 故障造成的影响 视该服务器承担的应用系统的不同而不同 如果该服务器承担 了网络的控制管理或关键应用职能 将有可能造成非常严重的后果 关键应用服务故障 关键应用服务故障 包括 Oracle 数据库故障 SQL Server 数据库 故障 PI 数据库故障 OA 故障 WEB 服务故障 邮件服务故障等 这些应用服务软件的 故障 对于相关的应用系统将产生一定的影响 其影响范围和损害程度随故障的性质和严 重程度而定 严重的 将引起系统瘫痪 三三 服务器故障响应处理流程 服务器故障响应处理流程 信息系统服务器故障处理预案 第 3 页 共 10 页 y 故障发现人员故障发现人员 信息中心信息中心 信息中心按预案第二部信息中心按预案第二部 分内容即故障的分析和分内容即故障的分析和 诊断进行处理诊断进行处理 根据故障性质和根据故障性质和 类型分类处理类型分类处理 服务器服务器 硬件故障硬件故障 服务器系统服务器系统 软件故障软件故障 关键应用关键应用 服务故障服务故障 故障故障 部件确定部件确定 是否是否 保修期保修期 n y 要求制造厂要求制造厂 维修服务部维修服务部 维修维修 y 更换部件更换部件 病毒和入侵病毒和入侵 扫描检查扫描检查 事件日志和事件日志和 服务检查服务检查 操作系统操作系统 能启动 能启动 n y 恢复或重装恢复或重装 相应的系统相应的系统 n 恢复或重装恢复或重装 操作系统操作系统 病毒和入侵病毒和入侵 扫描检查扫描检查 事件日志和事件日志和 服务检查服务检查 备份备份 重要数据重要数据 备份备份 重要数据重要数据 能否自行处能否自行处 理 理 联系相关软件服务联系相关软件服务 商提供技术支持商提供技术支持 n 恢复或重装相应恢复或重装相应 的应用软件的应用软件 信息系统服务器故障处理预案 第 4 页 共 10 页 第二部分 服务器硬件故障的诊断和处理 一 一 硬件故障诊断硬件故障诊断 硬件故障的诊断一般是在服务器操作系统无法引导启动的情况下进行 可以通过对主 机 BIOS 配置 主板故障指示灯 面板状态屏幕 面板 LED 指示灯提供的信息进行 如条 件允许 如光驱引导启动正常 还应使用设备制造厂家提供的专用诊断软件进行检查和分 析 二 二 识别硬件故障的方法识别硬件故障的方法 1 电源故障 电源故障的现象一般为 电源部件开关在 合 状态 指示灯不亮 面板状态屏幕不亮 按电源开关机器无反应 主机电源 LCD 指示灯不亮 无任何报警声 2 如果在开机后出现错误代码或 哔 声错误信息 则应对照该型服务器的用户手 册中有关的错误信息列表进行判别 3 如果服务器的前面板有显示主机状态的液晶屏幕 应根据屏幕显示的信息对照用 户手册中相应的内容进行判别 4 如果服务器的底板 CPU 板 内存板上有显示状态的 LED 指示灯 一般都可以 在机箱内找到代表指示灯意义的说明贴纸 可依此进行判别 5 服务器一般都自带用于对硬件系统进行检测的诊断程序光盘 在服务器可以用该 光盘进行引导启动的情况下 应使用该光盘进行系统测试 三 三 故障排除顺序故障排除顺序 1 如果系统无法上电 可按以下步骤进行操作 1 检查以确保电缆和电源线都牢固插进相应的插座 2 检查以确保系统所有部分均已打开并已正确调整 3 如果服务器电源线插入带开关的多插座接线盒 应确保接线盒上的开关已打 开 4 将另一个电气设备电缆或电源线插入电源插座 并打开该设备 5 断开电源线 等待 20 秒 然后再次插入电源线并重新启动系统 2 如果系统可以上电 但无法完成开机自检测试 可按以下步骤进行操作 1 如果系统发出一系列哔声 则表示系统有错误 应参阅该型服务器的用户手 册中的 错误信息 章节进行判别 或与产品供应商联系维修 2 如果系统无法运行开机自检测试 且屏幕显示错误信息 应参阅该型服务器 的用户手册中的 错误信息 章节进行判别 如果手册推荐的方法无法解决 问题 应与产品供应商联系维修 3 如果系统通过开机自检测试 但不运行 可按以下步骤进行操作 1 检查以确保服务器在安装实用程序中配置正确 2 如果服务器仍无法工作 应关机并卸下除显示器和键盘以外的所有外围设备 测试服务器 并注意现在是否正常工作 3 如果服务器仍不工作 应关闭显示器 服务器和所有外围设备 然后按 4 条 执行 4 检查内置硬件 1 断开的电源线 卸下服务器主机盖 2 检查所有附件板是否牢固地固定在各自的插槽中 3 确保所有磁盘驱动器电源电缆和数据电缆已牢固并正确地联接 使用机内配 置的布线和开关配置图 查对海量存储器配置 信息系统服务器故障处理预案 第 5 页 共 10 页 4 检查并确保内存条和内存扩展板牢固地固定在各自的插槽中 且添加的内存 条符合要求 5 重新装上服务器盖板 并锁定系统 6 重新装上所有电源线和电源电缆 7 打开服务器电源 查找错误信息 8 经以上步骤检查 仍无法得到有意义的错误信息 应与产品供应商联系维修 第三部分 服务器软件故障的诊断和处理 一 一 服务器软件故障分析和诊断服务器软件故障分析和诊断 软件故障分析和诊断主要通过对主机运行状况 服务与进程 网络连接状况 系统端 口 事件日志记录进行检查 这种检查的必要条件是服务器操作系统可以引导启动 并可 以提供相应的检查界面 1 主机运行状况的检测 服务器主机的 CPU 内存 磁盘的使用情况对服务器的性能影响很大 如果出现问题 将直接影响到服务器的正常运行 进而对服务器上正在运行的重要的应用系统带来不可预 料的后果 因此 处理服务器软件故障前 对主机的 CPU 内存 磁盘资源使用情况进行 检测是一个非常重要的步骤 往往可以在第一时间发现主机基本性能的状态异常 在 Windows 平台上 一般使用任务管理器中的 性能 选项卡检测主机 CPU 和内存 的运行状况 使用资源管理器检查磁盘的使用情况 检查要点为 CPU 使用值 一般不会持续超过 50 内存 认可用量总数 持续超过 物理内存总数 会引起系统性能下降 内存 认可用量峰值 持续接近 认可用量限制 系统将有崩溃的危险 任何装有运行系统的磁盘的可用空间趋近于零 系统将停滞或有崩溃的危险 装有操作系统的磁盘 一般为 C 的可用空间不应低于磁盘分区总容量的 15 根据实际的运行观察 当服务器 C 盘可用空间小于 50 M 时 系统的运行将进入 不稳定状态 2 服务 进程管理的检测 服务器主机上的服务和进程主要来自二个部分 一是操作系统本身提供的系统服务和 进程 这些服务的功能和状态在 Windows 的服务列表中有比较详细的描述 这些服务的异 常 系统一般会给出比较明确的错误提示 另一部分是应用系统的服务 服务器上往往运行着非常重要的应用系统 例如大型的 数据库系统 Mail 系统 Web Server 或特殊业务的应用系统等 应用系统的进程和服务是 否正常运行是判断应用系统是否正常的关键 如果这些关键的进程和服务已经停止 则应 用系统肯定无法正常工作 监测服务器上的进程和服务是服务器管理的一个重点 对于进程的监测尤其重要 检 查的要点为 有无可疑的进程活动 有无不显示进程标识符 PID 的进程活动 有无不显示映象名称的进程活动 有无不显示用户名或显示非法用户名的进程活动 有无大量占用 CPU 的进程 信息系统服务器故障处理预案 第 6 页 共 10 页 有无大量占用内存的进程 有无 GDI 对象异常的进程 3 网络状况检测 服务器网络组件的运行状况是服务器能否维持正常的网络访问和提供正常的网络服务 的一个关键 在服务器运行异常时必须检测服务器网卡的配置情况是否正常 最简单的测 试是在 DOS 提示符下运行 ipconfig all 命令 察看各个网络连接当前的配置状态 使用网络监视器可以获得更多的信息 在网络监视器的实时部分 主要监视网络利用 率 每秒帧数 每秒字节数 每秒广播 每秒多播等指标 在捕获统计中 主要监视缓冲 区里的帧 当缓冲区超出限制时帧的丢失数 缓冲区利用率 丢失的帧数等指标 当发现以上指标有异常 应进一步对捕获的数据帧进行分析 此时应特别注意查寻有 无源地址或目标地址异常的帧 有无协议异常的帧 4 系统端口检测 网络中的服务器系统通常会提供一系列的服务给网络中的其他机器进行访问和使用 这些服务都是通过一些指定的端口进行通讯的 所以系统业务端口的正常与否对于系统业 务有直接的影响 对服务器的系统业务端口的检测可以在 DOS 提示符下使用 netstat 命令 该命令随带 的参数所表示的意义如下 a显示所有连接和监听端口 b显示包含于创建每个连接或监听端口的可执行组件 在某些情况下已知可 执行组件拥有多个独立组件 并且在这些情况下包含于创建连接或监听端 口的组件序列被显示 这种情况下 可执行组件名在底部的 中 顶部 是其调用的组件 等等 直到 TCP IP 部分 注意此选项可能需要很长时 间 如果没有足够权限可能失败 e显示以太网统计信息 此选项可以与 s 选项组合使用 n以数字形式显示地址和端口号 o显示与每个连接相关的所属进程 ID p proto显示 proto 指定的协议的连接 proto 可以是下列协议之一 TCP UDP TCPv6 或 UDPv6 如果与 s 选项一起使用以显示按协议统 计信息 proto 可以是下列协议之一 IP IPv6 ICMP ICMPv6 TCP TCPv6 UDP 或 UDPv6 r显示路由表 s显示按协议统计信息 默认地 显示 IP IPv6 ICMP ICMPv6 TCP TCPv6 UDP 和 UDPv6 的统计信息 p 选项用于指定默认情况的子集 v与 b 选项一起使用时将显示包含于为所有可执行组件创建连接或监听端 口的组件 Interval重新显示选定统计信息 每次显示之间暂停时间间隔 以秒计 按 CTRL C 停止重新显示统计信息 如果省略 netstat 显示当前配置信息 只 显示一次 对于 UNIX 服务器 可通过 Connect 系统业务端口 发送请求 以监测端口是否能够 响应 5 日志检查 服务器上的应用系统或重要进程运行时会产生大量的日志文件 这些日志文件对于检 信息系统服务器故障处理预案 第 7 页 共 10 页 查程序运行状态 查找程序出错原因很有帮助 对于 Windows 平台上 可使用的日志系统是管理工具中提供的 事件查看器 其中 包括了系统日志 应用程序和安全性日志 需要重点关注的是 错误 和 警告 另外 服务器上运行的应用程序也会提供相应的日志系统 其提取日志的方法因应用 系统的不同而不同 可参照相关的用户手册进行 在 UNIX 平台上 日志是以文件的形式存放 不同版本的 Unix 日志文件的目录是不同 的 在 Solaris 下一般是在 Unix var log 在 AIX 下 需要关注的日志文件有 文件描述建议 core 和 snapcore由应用产生的 dump 文件 可用于 诊断错误 可删除 nohup outnohup 命令的输出结果可删除 xerrorsX11 的输出结果可截短 mbox用户邮箱中的邮件可截短 smit log 和 smit script用户使用 smit 命令后的日志可适当保留最后 1000 行 或删除 var adm wtmp记录用户的登录信息 是二进制文 件 用 who 命令来阅读其内容 根据需要保留 60 天中有 用的内容 其余删除 etc security failedlogin记录用户失败的登录信息 是二进 制文件 用 who 命令来阅读其内容 可根据需要保留 60 天中 有用的内容 其余删除 var adm sulog用户使用 su 命令的日志可根据需要保留 60 天中 有用的内容 其余删除 var adm cron logcron 的日志可截短 var tmp snmpd logsnmp 监控进程日志可截短 var tmp dpid log var tmp dpid2 log var tmp hostmidb log var tmp muxatmd snmp 子系统日志可截短 dead letter未成功的邮件可删除 trcfile trace实用程序的输出可删除 var adm messages用于记录 syslog 进程的日志可适当保留最后 1000 行 或删除 etc shutdown log系统关机过程日志 用 shutdown l 命令产生 可适当保留最后 1000 行 或删除 二 二 服务器软件故障的处理服务器软件故障的处理 服务器的故障中 大部分是软件故障 软件故障对于服务器稳定运行的影响很大 严 重时将引起整个系统崩溃 一般常见的软件故障主要有操作系统文件损坏或丢失 设备驱 动程序错误或损坏 服务进程不能启动 网络地址配置错误或丢失 以及应用系统软件方 面的程序出错等等 1 操作系统故障的处理 对于 Windows 系统 如果操作系统故障前对操作系统有过不适当的修改而无法复原 或发现系统提示缺少必须的文件 提示某些文件错误等情况 在排除服务器感染病毒的可 能以后 应即使用升级安装对操作系统进行恢复 信息系统服务器故障处理预案 第 8 页 共 10 页 升级安装之前 应对重要的配置文件和数据文件进行备份或加适当的保护 一般情况下 重要的数据文件不宜置于安装操作系统的磁盘 如 C 盘 在备份时 应尽量将这些重要文件置于具有安全保护的机器上 当升级安装无法恢复系统时 可以考虑全新安装操作系统 安装完成应注意打好补丁 然后进行应用系统的恢复 对于 UNIX 操作系统的故障 当无法在短时间内找到故障原因和处理方法时 应立即 与系统服务商的技术支持人员联系 对由于病毒感染引起的操作系统故障 可参照 反病毒处理预案 处理 2 系统服务进程的故障处理 系统服务进程故障时 应检查 服务 中相应的服务项 检查要点有 状态 启动类 型 登录身份 服务失败时计算机的反应 以及该服务所依赖的系统组件是否已经正常启 动 如有异常 应根据情况作相应处理 无异常后 可启动该进程 并作进一步检查 如该进程的状态在 已启动 检查上述项目无异常的 可重新启动该服务 并作进一 步检查 经上述处理仍无法消除故障时 可进入 控制面板 添加或删除程序 添加或删除 Windows 组件 检查与故障的服务相对应的组件是否被钩选 如已被钩选 可先将其取 消后 再次钩选重装 对于应用系统的服务故障 应检查分析该软件的错误日志 根据分析的结果采取相应 的措施 必要时 应重装应用系统 3 设备驱动程序故障处理 设备驱动程序故障时 将引起相关设备的异常运行 其故障现象类似于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论