计算机机房应急预案_第1页
计算机机房应急预案_第2页
计算机机房应急预案_第3页
计算机机房应急预案_第4页
计算机机房应急预案_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机机房应急预案

XXXX单位名称

20XX年XX月

编制人员

编制审核

XXXXXXX

前言

近年来,经常会听到某地机房发生因某种原因导致灾难性的事件;由于处理不及时或人为因

素操作不当,导致严重后果,造成了巨大的经济损失。为了避免类似事情发生,项目组每年对应

急预案进行修订,优化使用流程及操作步骤,保障在突发情况下及时、有效处理各类应急情况。

本应急预案编制依据《单位网络系统运行管理规定》而编写。

根据单位领导提出新的改进建议,应急预案的版本修订相比之前有了较大的改动,项目组结

合机房的实际情况,针对所涉及故障及其处理方法分别进行说明并细化了每一个处理步躲,增

加了非工作时间机房出现突发事件的处理步骤及紧急联系人相关信息,确保维护人员能够直观、

及时、有效地处理突发情况,在维护人员不能第一时间到达现场,其他人员也能以及有效协助

处理突发情况。

项目组每年组织两次的机房应急演练,模拟机房设备故障,维护人员参照应急预案能够熟练

操作并进行突发事件的处理,验证应急预案对于机房的有效性和可用性。

a次

1概述.....................................................................1

1o1目的.............................................................1

1o2应急预案存放....................................................1

1o3编制依据.........................................................1

1.4技术资料.........................................................1

2适用范围及启动条件.....................................................1

3应急组织和职费.........................................................2

4应急响应流程.............................................................3

4.1应急事件响应.....................................................3

4.2应急事件升级.....................................................3

5应急执行流程.............................................................4

5o1影响程度的评估..................................................4

5.2宣告启动应急.....................................................4

5O3应急恢复........................................................4

5.4事后处理..........................................................5

5.5应急注意事项.....................................................5

6应急恢复步骤.............................................................6

6o1强电系统故障....................................................6

6o2UPS故障........................................................8

6.3网络系统故障.....................................................9

6.4机房漏水.........................................................11

6.5空调故障.........................................................13

6.6机房火灾.........................................................16

附表一交换机信息...................................................20

附表二自主运维办公交换机信息.....................................20

附表三交换机常用命令..............................................21

附表四机房应急预案联系人信息表...................................21

附表五机房服务器联系人信息表.....................................21

7预案附录...............................................................22

附录一机房示意图...................................................22

附录二配电柜操作说明书............................................22

附录三UPS操作说明.................................................22

附录四空调操作手册.................................................22

附录五设备监控软件使用说明书.....................................22

1才既述

1.1目的

为了提高单位计算机机房、网络突发事件的应急处理能力,最大程度地预防和减少突发事件

及其造成的损害,保障设备正常运行,制定本预案。本预案参照单位领导的要求,对机房空调、

也力、消防、漏水以及网络系统五种突发情况制定具体的应急工作流程。

1.2应急预案存放

1)电子版本

本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中.

2)纸质版本

本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。

1.3编制依据

本应急预案编制依据《单位安全管理规定》编写。

1.4技术资料

序号资料名称存放地点获取方式

1UPS使用手册机房缓冲区桌面进入机房获取

机房专用空调操作维

2机房缓冲区桌面进入机房获取

护指南

3消防使用手册机房缓冲区桌面进入机房获取

2适用范围及启动条件

1)地域范围:

本预案适用于本单位机房及网络运行中发生故障时使用。

2)人员范围:

本预案在执行中涉及的人员包括机房、网络运维人员,相关主管领导,大楼安保人员以及机

房内各应用系统负责人等。

3)启动条件

机房、网络运行中出现的一般性突发事件和重大突发事件。

一般性突发事件:是指机房、网络突发故障,将影响机房提供正常服务及网络服务的能力且

预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:

I)市电中断和UPS故障引起的电力供应中断.

2)机房空调冷凝水或上下水管道漏水。

3)机房温度超过30℃。

4)网络故障影响用户范围超过20%,预计修复时间在2小时以内。

重大突发事件:是指一般性突发事件在特定的时间内无法修复或发生特殊事件时,严重影响

机房提供正常服务及网络服务的能力,并且修复时间大于2小时,此时除了立即启动应急预案外

还应升级为重大事件,其中包括但不限定于以下分类:

1)机房出现火灾。

2)市电中断和UPS故障引起的电力供应中断。

3)机房温度超过40℃。

4)网络故障造成全网中断,预计修复时间超过2小时。

3应急组织和职责

计算机机房应急组名单如下:

表1应急小组名单

部门/岗位职责姓名联系方式

单便领导重大应急决策指挥

部门主任应急决策指挥

应急小组组长负责讦估应急事件4协调处理

应急预案操作岗启动应急预案并实施

2

4应急响应流程

4O1应急事件响应

1、发生突发事件时,通过电话或当面通知应急小组组长报告情况。

2、必要时第一时间启动应急预案。

3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人员进行应

急处理。

4、电话通知机房内生产业务系统管理员做相应的应急措施。

5、应急小组组长根据情况判定是否需要将事件升级为重大事件。

6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和

单位领导。

4o2应急事件升级

在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:

1、立即通知部门主任。

2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的应急措施.

3、根据应急决策领导的决策指令处理故障。

4、事件处理完毕后,应急,:、组组长将事件处理详细经过形成书面报告,上报部门主任和

单位领导。

3

5应急执行流程

5o1影响程度的评估

表2影响程度评估表

影响程度及范围

序号故障类型

一般性突发事件重大突发事件

影响程度大,修复时间大于30影响程度为重大,修复时间2

市电中断和UPS

分钟,小于2小时的电力供应小时以上的电力供应中断,影

1故障引起的电力

中断,影响范围为机房内所有响范围为机房内所有设备及

供应中断。

设备及系统.系统.

影响程度一般,机房出现小摊影响程度重大,机房出现大面

积水,修复时间大于30分钟,积漏水,或者漏水修复时间2

2机房漏水小于2小时的机房漏水,影响小时以上的机房漏水,影响范

范围为机房内所有设备及系围为机房内所有设备及系统。

统。

影响程度大,机房温度超过30影响程度重大,机房温度超过

度,修复时间大于30分钟,小40度,修复时间2小时以上

3机房温度过高

于2小时的,影响范围为机房的空调故障,影响范围为机房

内所有设备及系统。内所有设备及系统.

焉响程度大,修复时间大于30影响程度重大,修复时间2小

分钟,小于2小时的网络系统时以上的网络系统故障,影响

4网络系统故障

故障,影响范围为生产业务系范围为生产业务系统及影响

统及影响用户范围超过20$.用户范围超过20%.

影响程度重大,影响范围为机

5机房火灾—

房内所有设备、系统及用户。

5O2宣告启动应急

应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案的执行.重大事

件时要向部门主任、单位领导汇报,

5o3应急恢复

突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复。

4

表3应急恢复步骤

序号启动条件恢复步骤操作人员备注

应急小组组长、应急

1市电中断见步骤6。1

预案操作人员

应急小组组长、应急

2UPS故障见步骤6.2

预案操作人员

应急小组组长、应急

3网络系统故障见步骤6.3

预案操作人员

应急小组组长、应急

4机房漏水见步骤6。4

预案操作人员

应急小组组长、应急

5空调故障见步骤6。5

预案操作人员

应急小组组长、应急

6机房火灾见步骤6.6

预案操作人员

5o4事后处理

事后仔细分析事件发生的原因,查找引起事件发生的根区原因,力争杜绝类似问题的再次

发生;总结每次应急处理的经验与不足,及时进行总结记录,作为知识储备,进行共享;重大事

件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程,并提出预防措施建议。

5.5应急注意事项

为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:

■平时多做应急演练,对应急小组的组织和预案执行力进行检脸和加强O

■熟读应急预案,责任分工明确,应急流程掌握熟练.

■加强技术能力和业务能力。

■通讯保持畅通,应急小组的人员要保持24小时手机开机.

■处理应急突发事件时要认真做好应急处理记录,有利亍进行问题回溯。

5

6应急恢复步骤

6O1强电系统故障

601.1市电中断

1)当发生市电中断或同时收到UPS输入、电量仪、空调及数据库读取异常等告警短信,立

即到机房检查UPS工作状态.非工作时间发生电力中断时,电话联系保安人员进入机房

确认是否停电,同时联系附近的紧急联系人协助处理,并直接跳到第三步。

紧急联系人

姓名联系电话备注(住所)

2)检查UPS的负载量及电池能够支持的时间:

步球:双击UPS控制面板“ESC”按键,点击“^3”键,找到相关信息,查看电池负

载;在“电池参数显示”处,查看备用时间确认UPS供电轲余时间。(具体详情可参照附录

三:《UPS操作说明》进行操作.

图1UPS控制面板

3)立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组长。(如

电话无人接听,立即拨打物业人员手机询问具体情况,物业人员详细联系方式可参照附

表三:《联系人信息表》进行查询)

4)当发生单路供电中断时,应立即通知物业切换至另一路供电,观察UPS状态是否供电正

常,等待第一路供电恢复切回.

5)如物业通知无法切换电路且30分钟内无法恢复供电,应立即按照附表五:《机房服务器

联系人信息表》的清单顺序通知各生产业务系统管理员进行系统备份并关闭系统.同时

维护项目组关闭机房内负责的所有设备。

6)向部门主任及单位领导汇报当前情况。

7)确认所有服务器关闭后,直接手动拉下配包柜01后面A4、A5、A6、B2、B5、C3机柜输

出开关,关闭网络设备.

8)当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护组人员按

6

顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所有设备.

图2配电柜01

9)待市电恢复供电后,打开网络机柜对应的输出开关,启动网络设备。

10)按附表五中的清单分批次对系统服务器加电,通知相关人员进行测试,并要求相关人员

电话回复系统测试结果。

11)如UPS故障造成的电力供应中断,手动重启UPS,查看UPS故障是否解除并恢复正常.(在

UPS显示屏上点击“开机”,查看UPS是否正常启动)

⑵如UPS故障依旧,立即通知各生产业务系统切换备份系统。

13)向部门主任和单位领导汇报当前情况,并联系厂商对UPS进行检修。

14)待所有系统恢复正常后,提交处理报告,上报部门主任和单位领导。

7

6O2UPS故障

60201UPS电池漏液、冒烟

1)发生机房电池漏液、冒烟或监控组人员发现机房电池柜冒烟,立即到机房查看电池状态。

(电池柜位于储藏室内部)

图4机房电池柜

2)如发现是电池漏液、冒烟导致,应按照下列处理方法操作。并密切观察UPS工作状态。

3)关闭电池供电时,先将机房手提式干冰灭火器放置电池柜附近.

4)打开两组电池柜,手动关闭电池开关。开关位于电池柜的下方,此时应用力向左拨动电池

开关,直至开关显示“OFF”状态。

图5电池柜的开关位置

5)如电池出现火情,使用事先准备的手提式干冰灭火器进行灭火。

6)确认无火情后,查看UPS状态,供电情况,立即联系厂商工程师进行检修。

注意:关闭电池开关不会影响机房的正常供电。

7)向部门主任做口头汇报,电话上报单位领导.

8)事件处理完毕后,将事故处理报告,单位领导。

6O2O1电池火情无法控制导致机房火灾

1)处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情。

2)仃开电池柜,手动关闭电池开关。

3)立即按照机房火灾处理步廉进行操作。(详情见步骤6.6机房火灾进行操作)

4)火灾处理完毕后,消除火灾报警,恢复市电,查看UPS运行状态,如无法恢复市电,立

即通知物业切换备用电路,观察UPS状态是否正常供电。

8

步骤:打开机房配电柜2,手动用力推上机房电力闸恢复市电供应.

图6机房也力总开关

5)立即联系UPS厂商进行处理并向部门主任做口头汇报,电话上报单位领导。(详细联系方

式可参照附表三:《联系人信息表》进行查询)

6)统计火灾造成损失,提交相关更换UPS电池的申请。

7)事件处理完毕后,将事故处理报告,上报部门主任和单位领导.

6.2o3UPS故障处理流程

图7UPS故障处理流程图

6.3网络系统故障

局部楼层网络中断

1.如果是局部楼层断网,首先判断是否是交换机故障;

2o远程PING交换机管理地址(各楼层管理地址详见附表1)看是否可以正常PING通

3。如果可以PING通,证明交换机本身没有故障,网线没有故障.交由网络管理员处理.

4.如果不能PING通,说明交换机主线断或交换机宕机,应去弱电机房找到该楼层交换机上

联端口和电源灯状态是否正常,如果上联端口不亮(光纤口),证明主线有问题,更换主线测试。

5O如果看到交换机电源灯不亮,证明交换机掉电,检查电源和电源线。

9

6.如果以上通过检查交换机和线路后故障现象仍然存在,由此判断可能交换机存在异常,按

交换机故障进行处理。

交换机故障

1.当确认是交换机出现故障时,应首先从库房中找备用交换机进行更换;

2.若原有故障交换机有配置,应立即联系网络管理员对更换的交换机进行配置

(网管应有所有交换机的配置备份)

3.配置完成后,测试是否正常;

全网中断

1o首先测试网络的连通性,查看是否可以PING通网关地址,如果可以PING通说明从PC

到核心交换机之间的链路正常,如PING不通应检查接入交换机是否有故障、是否掉电或者交换

机主线是否不通;如果确实不通,按照局部楼层网络中断中的第4条、第5条处理。

2o通过访问邮件、外网网站,判断是局域网问题还是广域网问题,如果局域网正常;无法

访问互联网说明广域网中断,向运营商进行报修。

3oPING核心交换机到核心路由器的互联IP地址的连通性,如果可以PING通,说明路由

器以下网络连通性正常;

4.用tracert命令tracert办公网网段的任意地址如果tracert结果可以从出去,但不能

到达外部网络,说明有可能是核心路由器上联链路中断,向运营商进行报修。

5o若可以访问办公地址,无法访问互联网网站如:百度、搜狐,需要检查代理服务器是否

正常,PING是否可以连通,向运营商进行报修。

其他网络中断故障

1.当办公网部分用户无法获取IP地址,不能上网的时候,尝试用能上网的主机,进行IP测

试。

2.用PING命令去DHCP服务器是否可以PING通,并通知网络管理员登陆DHCP服务器进行

检查服务是否正常,如果是DHCP服务器故障,应立即切换备用DHCP

3.如果从网管员处确定DHCP服务器没有故障,应PING核心交换机的这个IP地址看是否有

延时长、丢包的现象,如果有应该可以初步判断院内有ARP广播风暴形成环路或者大面积病毒爆

发;再次交由网络管理员处理。

10

6.4机房漏水

1.根据机房环境监控检测的漏水示意图,查找漏水位置,判断漏水严重性.

2O在非工作时间,通过电话第一时间通知值班室保安,关闭上水总开关。

3.机房漏水并触发告警分为以下3种情况:

1)上水管漏水:使用地吸打开空调前地板,查看上水管漏水位置(1层饮水间通过

走廊从机房6号空调地板下进入机房)。

图8空调上水管道

2)发现漏水位置,应立即关闭位于一楼饮水间顶棚的上水总开关,将水迹擦干。

3)立即联系机房工程有限公司,处理水管漏水故障。(详细联系方式可参照附表三:《联

系人信息表》进行查询)

4)空调冷凝漏水:分别检查3台空调地板的下水管道是否漏水,空调下水开关是否打开.

(开关逆时针旋转为打开,顺时针旋转为关闭)

图9机房1、2号空调下水管道及开关

图10机房3号空调下水管道及开关

5)如下水开关正常打开,冷凝水无法下水,说明下水管道堵塞。

6)首先关闭机房内空调及空调下水管阀门(下水阀门1—4)

7)分别打开上水阀门1和上水阀门4,进行机房下水反冲.

11

上水闽门I

上水管道

下水帘《

图11机房上下水管道及阀门示意图

8)空调反冲过程中,密切关注机房温度,确保温度不影响机房内设备的运行。

9)反冲完成后,首先关闭上水阀门,然后打开空调下水阀门并打开空调。

10)如故障依旧,联系厂商进行检修.

11)空调压缩罐瓶体结霜:打开空调前面板,查看压缩罐上是否结霜。(拆卸面板工具在

机房缓冲区的工具箱里)

图12机房1、2号空调压缩罐位置

图13机房3号空调压缩罐位置

12)关闭空调,将压缩罐上的霜及滴下的水迹擦干.

13)尝试重新开启空调,观察空调运行状态。

14)如故障依旧,立即联系厂商进行处理。

4.事件处理完毕后,将事故处理报告,上报部门主任和单位领导。

12

6O4O3机房漏水处理流程图

图14机房漏水处理流程图

6.5空调故障

6.5o1高压报警

1)收到空调高压告警后,立即进入机房查看空调运行状态。

2)尝试将报警空调进行复位,进行启动恢复。

步骤:1、2号空调点击空调控制面板的“报警复位”按键,3号空调点击面板上的“消音”

按键。

3)若故障依旧,将高压报警空调关闭。

步骤:在空调控制面板点击“关机”按钮,逻辑关闭空调,再将空调左侧物理开关关闭.

13

图15空调控制面板

图16空调物理开关

4)检查室外风机过滤网及空调过滤网是否尘土较多。(室外机在机房后面,院食堂正对面;

空调过滤网在空调正上方)

图17空调室外机

图18空调室过滤网

5)若为室外风机过滤网脏,应进行冲洗,若室内机空调过滤网脏,应联系厂商更换。(详细联

系方式可参照附表三:《联系人信息表》进行查询)

6)冲洗室外机,应打开上水阀门2(室内)和阀门6(室外),开始冲洗。冲洗完毕后,关闭

阀门2和阀门6.

图19室内上水开关

14

图20室外上水开关

图21冲洗室外机

7)重新启动空调,按住空调减压阀释放压力。(减压阀的位置在压缩罐上一个红色按钮)

图22空调压缩机减压阀

8)若仍然存在高压告警的现象,应联系空调厂商进行处理。(详细联系方式可参照附表四:

《联系人信息表》进行查询)

9)高压故障处理完毕后,将事故处理报告,上报部门主任和单位领导。

60502低压报警

1)收到空调低压告警的短信后,立即进入机房查看空调运行状态。

2)查看控制器面板,确认空调发生低压报警。(见图29)

3)尝试将报警空调的告警进行复位,进行启动恢复;复位报警空调方法见《高压报警》处理

第一步。

•1)苫故障依旧,关闭低压故障的空调;关闭空调方法见《高压报警》处理第二步.

5)立即通知空调厂商对空调进行检修.

6)低压故障处理完毕后,将事故处理报告,上报部门主任和单位领导。

15

6.5o3空调故障处理流程图

6.6机房火灾

机房采用自动报警装置,具有感烟和感温功能探测器,并采用自动灭火装置,当机房内发生

火灾时按以下流程进行处理。

如非工作时间内机房发生火灾时,在维护人员无法迅速赶到时,由保卫处保安按照应急步

方展进行火灾处理并及时联系附近的相关同事协助处理.

紧急联系人

姓名联系电话备注(住所)

1)查找火源位置.

16

图24机房防护区指示灯

2)在配也柜01后关闭着火点位黄的输出开关,切断着火点供电。

图25配电柜01

3)根据火情情况,使用机房内手提式干冰灭火器进行灭火。(矶房各进出门附近安放两个干冰灭

火器;机房物品间处安放两个干冰灭火器)。

图26干冰灭火器

灭火器使用方法(详情见灭火器瓶体):

1、拉出保险销

2、站在上风处,喷口对准火焰基部

3、按下压把即可喷射灭火

17

图27干冰灭火器使用方法

4)机房消防系统开启气体灭火自动喷洒,在温感(68摄氏度)和烟感同时报警时,会自动启动。

5)若在气体灭火没有自动喷洒前发现火势较大无法控制时,确保机房内人员撤离,可手动启动

气体机房灭火装置进行灭火。直接按下控制器上的红色按粗,机房内七氟丙烷灭火装置将在

延迟30秒后进行全淹没式喷射,如按下位于控制器下方的红色按钮,灭火装置将立即喷射.

图28紧急气体灭火按键

6)灭火处理后,确认机房内无火情,按排烟风机绿色按钮,进行排风换气处理气体;

18

图29排风扇控制器

7)火灾处理完毕后,统计火灾损失,立即向部门负责人做口头汇报,电话上报单位领导。

8)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。

6.6.3火灾系统流程图

直找火源交

切断火源供电

19

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论