运维系统及中心机房应急预案_第1页
运维系统及中心机房应急预案_第2页
运维系统及中心机房应急预案_第3页
运维系统及中心机房应急预案_第4页
运维系统及中心机房应急预案_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运输队的应急措施随着网络信息化建设的深化,在机房各种设备、系统及信息和网络安全等方面加强应对突发事件的能力是我们目前面临的重要任务。 为了确保系统和机房的安全和稳定,以保证正常运行为宗旨,根据“以预防为主,积极处置”的原则,处理有效的突发事件,建立统一的指挥、职责明确的运行秩序,迅速建立和发生处理强机房安全系统的目标该预案可分为应用系统的故障应急过程和机房的突发事件应急过程系统故障的紧急过程一、系统故障的应急处理的说明1 .发生故障系统运输服务小组可以通过以下方法知道故障的发生1.1、运输服务中心通过网管发现故障1.2、保养网站通过保养检查发现故障1.3、用户发现故障,向呼叫中心报告1.4、常驻人员发现故障2 .通报故障受理监视系统运输服务小组在知道发生了系统故障后,立即作出应答,向残疾人和职场详细了解系统故障情况。3、信息研究判定运输服务小组根据理解的系统故障情况进行分析判断,决定是采用一般的故障处理流程,还是立即开始系统突发的故障应急处理。4 .事前方案启动如果需要开始紧急情况,立即通知系统突发事故紧急指导小组,指导小组开始紧急情况,全面管理系统突发事故紧急情况。5 .资源确认系统突发事故应急方案启动后,首先根据现场突发事故的实际情况、紧急度、技术难度、备品等情况,根据经验安排和确认相关资源(主要是参加者)。 主要有以下资源本公司的技术支持人员相关制造商的技术支持人员本公司采用的技术专家六、预案执行根据预定的预案进行突发故障的应急修理,发生问题时立即向系统突发故障的应急指导小组报告。七、预告结束预案结束时间由故障现场技术人员根据现场的实际进展情况,由用户和有关部门调整后报告系统突发故障的紧急指导小组决定。八、结果报告预案中止后,相关预案参加者将根据事件过程的经验教训,修改和完善事件应急方案。 然后集中向系统突发故障的应急指导小组报告。二、系统故障应急处理流程图机械室突发事件的应急处理一、机械室突发事件的分类1、自然灾害:指地震、火灾等自然因素引起的网络和信息系统的破损。2、事故灾害:指因电力中断、网络损坏、软件、硬件设备故障等造成的网络和信息系统损坏。3、人为破坏:人为破坏网络线路、通信设施,由黑客攻击、病毒攻击、恐怖攻击等造成的网络和信息系统的破坏。二、应急处理者组织机构三、紧急机构人员的岗位责任1 .紧急总指挥责任1.1、保证在任何时间及时协调与紧急行动相关的所有部门人员1.2、提供必要的紧急应答设备1.3、在紧急情况下全面负责紧急行动1.4、必要时向外部求助。 例如119、110、120等。2 .紧急副总指挥责任2.1、在总指挥指导下具体开展工作,总指挥不在时履行总指挥责任2.2、根据获得的紧急信息发出命令。三、各相关设备负责人的责任3.1、有责任尽快收集信息向紧急总指挥报告事故情况3.2、负责现场临时设备的应急和事态管理3.3、服从上级指挥。四、突发事件处理原则1 .预防为主。 立足安全防护,加强警报,重点保护基础信息网络和有关信息安全稳定的重要信息系统,从预防、监视、应急、应急等环节,在管理技术人员等方面采取各种措施,充分发挥各方面的作用,共同建立安全保障体系。2 .迅速的反应。 突发事件发生时,根据迅速的反应机制,及时得到充分且准确的信息,跟踪研究判断,决断,迅速处理,最大限度地减少危害和影响。3 .分级责任。 根据“谁是负责人,谁是负责人”的原则,建立和完善安全责任制和联动工作机制。 按照各负责人的职能,各部门履行其职务,加强各负责人的协调与合作,共同履行应急处理的管理责任。4 .以人为中心。 以保障人员和公共利益安全为首要任务。5 .常备不懈。 加强技术储备,规范应急措施和操作流程,定期进行预案演习,确保应急措施切实有效,实现网络和信息安全突发公共事件应急处理的科学化、程序化和规范化。五、关闭机房紧急电源的具体措施机械室各设备的关闭顺序如下六、机械室的日常维护1 .健全机房管理制度1.1在正常工作日内,信息技术部人员负责机械室的监控,主要责任是巡视网络设备和系统的运行情况,在发生异常时及时处理,消除网络故障的危险性。1.2休息日技术人员轮流值班,处理相关异常。1.3机械室采用来客登记制度,未经许可,相关人员不得进入公司机械室区域。2、在机械室内严格采取防雷、防火、防尘、防静电等措施和机械室24小时监视等措施。3 .认真备份数据,定期进行数据库的完整备份,每月检查服务器的运行情况和备份情况。4 .对机房的主要网络设备(路由器、基干交换机等)进行全时监视,发现异常时立即处理,确保网络整体的正常运行。七、服务器和存储装置故障处理1 .不匹配的流程2 .应急措施的具体措施2.1机械室漏水应急方案(1)机房漏水时,第一目击者应当立即通知运输服务队,立即报告监控系统的突发故障。(2)空调系统发生漏水时,运输服务小组的负责人可以立即使故障的空调无效,去除机械室的积水,立即与设备供应商联系处理,同时启动备用空调,必要时可以暂时用备用空调冷却服务器。(3)墙体或机械室门浸水时,运输服务队负责人应当立即采取有效措施,确保机械室的安全,立即清除积水,修理墙体和门窗,消除浸水的危险性。2.2发生设备被盗或人为损害事件的应急方案(1)设备被盗或人为损坏,使用者或管理者应当立即报告系统突发故障,保护现场。(2)系统突发故障应急指导组接到报告后,通知用户保护部门、相关领导,审查现场情况,清点被盗物资,调查人为损失情况,制作必要的影像记录和文字记录。(3)事件部门和当事人应当积极与公安部门合作进行调查,把有关情况报告给系统突发故障应急指导小组。(4)系统突发故障应急指导队由运输服务队、事件部门立即恢复系统正常运行,调查事件。 运输服务团队和事件部门必须在调查结束后一天内书面报告系统突发故障。 事态或结果严重时,必须向有关领导报告。2.3机械室长时间停电应急方案(1)定期检查机房供电设备的运行情况和电路电缆设备的情况,发生以下突发事件时,按照以下方案处理(2)机械室发生商用电源突然停电或电源异常时。 首先,必须联系物流部门确认正常停电和预定停电时间。 必须确认不间断电源的电池可以供给的时间,确认设备正常工作,发生突然停电的情况下,要适时地停电空调等UPS电源供给范围外的设备,预防突然来电时瞬间电流过大而设备破损等现象。(3)在确认停电时间超过机械室UPS的搭载范围后,首先确定停电的范围和受影响的设备的范围。 立即通知各部门做好了停电的应急准备。 之后,通知机械室的电源保全者和设备的负责人到达现场,准备各设备的电源停电。 UPS的供电量达到剩馀10%后,按照操作手册关闭各服务器的电源,最后关闭核心交换机和路由器,等待电源恢复。(4)确定停电的原因在自己的电力供给系统的范围内时,立即向负责人报告,并与相关维护人员联系,在现场进行检查。 如果无法预测恢复时间,通知后台做好柴油发电和移动电源车的供电准备(5)恢复供电后,按照操作程序逐渐恢复机房设备和UPS的供电,避免瞬间电流过大导致设备损坏。2.4通信网络故障的应急方案(1)发生通信线路中断、路由故障、通信量异常、域名系统故障后,操作员应立即通知本部门信息系统管理员,经过初步判断,立即向运输服务队和系统突发故障紧急指导队报告。(2)运输服务队接到报告后,应立即调查通信网络故障位置,隔离故障区域,立即将事态报告给系统突发故障应急指导队,通知相关通信网络运营商调查原因,同时相关技术人员检测出故障区域,并对故障区域和服务器的(3)事态和结果严重时,必须向紧急指挥室和有关领导报告。(4)应急处理结束后,运输服务小组应提交故障分析报告,并在调查结束的一天内书面报告系统突发故障应急指导小组。2.5不良信息和网络病毒事件的应急方案(1)发现不良信息或网络病毒时,信息系统管理员必须立即切断网线,停止不良信息或网络病毒的传播,并向指挥中心的运输服务队和系统突发故障紧急指导队报告。(2)运输服务小组应当根据系统突发故障应急指导小组的指令,采取隔离网络等措施,及时杀死或清除不良信息,追踪不良信息源。(3)事态和结果严重时,应当向监视中心办公室和有关领导报告。(4)处分结束后,运输服务队必须在调查结束后一天内书面报告事件的经过、影响、处分结果。2.6服务器软件系统故障的应急处理(1)服务器软件系统发生故障后,运输服务队的负责人必须立即组织起动备份服务器系统,备份服务器接管业务应用程序,立即报告系统的突发故障,同时有关负责人发生故障安排保持系统状态,取出系统镜像备份磁盘并保留原始数据。(2)运输服务小组根据系统突发故障应急指导小组的指令,在确认安全的情况下,必须重新启动故障服务器系统如果系统重新启动成功,则检查数据丢失情况,如果利用备份数据进行恢复,重新启动失败,则立即是相关制造商(三)事态和结果严重的,应当向监视中心的紧急指挥室和有关领导报告。(4)处分结束后,运输服务队必须在调查业务结束之日内报告系统的突发故障。2.7黑客攻击事件的应急措施(1)如果网络被非法入侵,web内容被篡改,应用服务器上的数据被非法复制、修改、删除,或者发现黑客正在通过入侵检测系统进行攻击,则用户或管理员将断开网络(2)接到报告后,系统突发事故应急指导小组立即向运输服务小组确认情况,关闭服务器和系统,修改防火墙和路由器的过滤规则,阻止或删除被破坏的登录帐户,成为可疑用户(3)运输服务团队必须及时整理系统,恢复数据、程序,恢复系统和网络的正常情况严重时,必须向监视中心的紧急指挥室和有关领导报告,请求支援。(4)处分结束后,运输服务队必须在调查业务结束之日内报告系统的突发故障。2.8核心设备硬件故障的应急处理(1)核心设备发生硬件故障后,运输服务小组立即向系统突发故障应急指导小组报告,找出故障设备和故障原因,并进行预处理。(2)如果故障设备在短时间内无法修理,运输服务团队将启动备用设备,将系统必须正常运行的故障设备从网络上断开,进行故障诊断。(3)排除运输服务队伍故障后,在网络空闲时间还存在更换备用设备的故障时,立即与相关厂家联系,认真填写设备故障报告书进行调查。(4)事态和结果严重时,必须向监视中心的紧急指挥室和有关领导报告。2.9业务数据破损应急方案(1)业务数据发生损坏时,运输服务队应当立即报告系统突发故障,对业务系统目前的数据进行检验备份。(2)运输服务小组调用备份服务器的备份数据,在备份数据损坏的情况下,调用磁带机的历史备份数据,在磁带机的数据还不可用的情况下,调用异地备份数据。(3)业务数据损坏事件超过2小时后,运输服务小组应当立即报告系统突发故障,通知紧急指导小组手动开展业务。(4)运输服务队等待业务数据系统恢复后,检查历史数据和当前数据的差异,重新备份相关系统的业务员要追加记录的数据,并在业务结束后一天内报告系统突发故障的紧急指导队。2.10雷击事故的应急方案(1)遇到雷暴天气或接到上级部门的雷暴天气警报时,运输服务队必须立即报告系统突发故障,得到同意后,关闭一部分服务器,关闭电源,暂停内部计算机的一部分网络工作(2)雷暴天气结束后,运输服务队经系统突发故障应急指导队同意,立即开通服务器,恢复内部计算机网络工作,检查设备和数据。(3)因雷击损失时,运输服务队应当向有关部门确认,报告损失,并在调查结束之日内报告系统的突发故障。 必要时,应向监视中心的紧急指挥室和有关领导报告。2.11空调设备故障应急方案机械室专用空调损坏时,必须在第一时间启用机械室备用空调,访问制造商通知修理,向信息部的有关领导传达指示,得到许可后,按照机械室设备关闭的顺序关闭各种设备。2.12火灾事故的应急措施(1)机械室发生火灾时,首先要遵循确保人员安全的原则。其次,保护重要的设备、数据的安全性。第三,要保护一般设备的安全(2)人员避难的顺序是,机房的职员立即响起火灾警报,119电话向公安消防请求支援,全员戴上防毒面具,所有不参与灭火的人员按照预定路线迅速撤出机房(3)人灭火的步骤,首先关闭所有电源,启动自动淋浴系统,或者使用灭火器,消防值班人戴

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论