




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、内部资料运维应急故障 处理方案文件编码AQ2I-02-S001版本V03文件层级口 一阶 口二阶三阶文件类别体系文件 口技术文件编制部门运维部机密等级内文口秘密口机密口绝密编制人文件类别通用项目审核编制日期审批生效日期总页数9分发编号01文件发布盖章公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码1 /9文件制/修订记录虫他章节制/修订记录版本修订人修订日期备注修订前修订后全部全部首次制定无V012,34,5职责/作业内容V01V02全部全部按新的角色职责V02V03定义更新角色 1r,.,户.J公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方
2、案页次/总页码2 /91目的用于突发性事件发生后的应急处理措施,确保在紧急情况下仍能保证系统平台正常 运行2适用范围本程序适用于所有在系统平台运行过程中能事先预测到的非自然灾害所产生的突 发性事件。3术语和定义突发事件:r.Hr .由于系统软件,硬件,接入线路,机房电力,温度等发生问题和突发意外,引起故 障时间达30分钟以上,造成关键服务不可用,形成重大影响的事件。4职责负责突发性事件应急处理计划和对策的拟定和执行。4.2 平台研发部,移动应用部,客户服务部,服务营销部:由部门负责人及相关人员共同处理突发性应急事件。4.3 质量管理工程师:负责突发性事件应急处理计划和对策的监督执行。5作业内容
3、5.1突发事件分类和应急处理公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码3 /95.1.1 基础设施环境不可用包括运营商网络割接、机房电力、空调、线路接入等基础设施出现故障,且影响时对于运营商已告知问题原因时处理方案:1 .提前通知相关运营人员和客户服务部2 .通告影响时间,影响范围3 .公告用户4调整域名解析,启用容灾机房对于运营商未告知问题原因时处理方案:1 .紧急联络机房接口人2 .了解故障原因,和影响时间,评估影响范围3 .紧急公告,启用预案同已知问题处理30分钟的故4 .1.2设备不可用 服务器硬件故障、交换机及防火墙等网络设备发生故障,且影响时间
4、高于公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码4 /9障处理方案:1 .通知相关运营人员和客户服务部2 .启用备份设备3 .分析故障原因,通知厂家售后4 .1.3服务不可用软件程序问题,且影响时间高于 30分钟的故障处理方案:1.通知相关运营人员和客户服务部.2.回滚到上-个稳定软件版本3 .保存日志文件,分析定位问题原因4 .通知开发人员修正软件缺陷5 .测试通过之后重新上线数据库问题,且影响时间高于 30分钟的故障处理方案:1 .通知相关运营人员和客户服务部.2 .提前建立数据库集群3 .从库出现问题,访问解析到其它从库上4 .主库出现问题,将一台从库
5、提升为主库5 .定期全备份和增量备份数据文件6 .保存日志操作文件Br jM.遭受恶意攻击,且攻击时间高于 30分钟的故障处理方案:1 .通知相关运营人员和客户服务部.2 .在防火墙上操作内容:定期检查更新防火墙策略;屏蔽恶意IP;限制每秒的连接数。3 .在服务器上操作内容:提前部署cache服务器;屏蔽公网访问核心服务端口;公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码5 /9设定iptables策略。4 .病毒入侵等情况操作内容:定期扫描系统和应用软件漏洞;定期升级系统Patch;利用云服务。对于已经执行上述措施,仍无法抵御攻击的情况,将部分服务迁移到公有
6、云上,利 用云服务进行容灾。5 .1.4正常业务量徒增处理方案:1 .和相关运营部门建立即使沟通机制,了解产品推广活动2 .购置IDC富余带宽,用于抗峰值3 .将关键服务分布式部署4 .2故障记录和备案5.2.1 建立事件记录表5.2.2 分析故障原因,制定解决方案,避免相似故障再次发生5.3应急预案演练5.3.1 明确演练范围和参与人员如果组织是第一次进行灾难恢复演练,不要尝试在演练中测试整个业务连续性计 划,而应该选择计划中的一两个部分来进行测试。多次小规模的演练比一次大规模的演 练能够让组织获得更多的价值0在明确了演练的范围后,组织需要确定演练的参与人员。参与人员通常是与演 练范围相对应
7、的执行人员,同时也可以包括熟悉演练范围的管理人员。预先明确演练范围和参与人员的好处在于,能够深入演练,加深理解,并控制 规模。当组织逐渐适应这种演练时,就可以开始进行复杂的、测试整个计划的演练了公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码6/95.3.2 组建演练规划小组这是一个关键的步骤,组织需要将一小部分演练参与人员纳入到规划小组中。小组 成员也可以包括非具体执行人员,但他们必须了解演练范围内的业务和流程。规划 小组至少应该包含一位公司高层,以增强规划的可信度。5.3.3 设定演练目标让规划小组的每一个成员都了解本次演练的范围,并通过讨论设定演练的目 标
8、。组织第一次进行演练,目标应该设定在三个到五个之间一一尽量简化每一次演 练。并且,在测试过程中尽量让这些目标量化或者可视化。以下是演练目标设定的一些例子:?验证灾难恢复流程的有效性?验证应急通讯列表的可用性并及时更新?让高层管理人员熟悉他们的角色和责任?测试并提高员工的灾难恢复意识验证恢复时间目标(RTO5.3.4 设计演练场景灾难场景可以很简单,也可以很复杂。它可能是简单的一次火灾,也可能是恶劣大气之后的一系列事件。不论如何,该场景必须能够对预定的业务连续性计划某一JfrV(些)部分进行测试,并能够达到规划小组所设定的目标。在创建场景的时候,可以思考以下几个问题:场景是否可信?参与人员会 .
9、相信该场景的可能性吗?该场景是否可能发生?是否能够获得一个积极的结果?是否足够简单?是否含有过于专业的术语以至于观众无法听懂?是否超越了参与 人员的知识范围?场景解决方案是否过于简单?参与人员是否适合这一场景 的设定?组织可以考虑使用一个曾经发生过的灾难事件作为场景,这一事件可能导致,或者曾经导致了组织的业务中断。同时,组织也可以通过参考风险分析报告,选择一个最有可能发生的会影响到业务的事件。当然,风险分析报告内的事件排序公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码7 /9必须要被所有参与人员认可。还有一个方法是设计一个会突出已知缺点的场景,这 种情况下,需
10、要在演练中引导参与人员,让他们逐渐意识到这些缺点。设计灾难场景时,使用参与人员都知道的真实的地点,并使用城市、当地 媒体、消防部门的名称,可以帮助提高场景的真实性。在演练的过程中,主持人需要逐渐给出更多的场景信息,并引导参与人员 进行讨论,这要求掌握好时机,并最终能够导出一个具有逻辑性的结论。场景设计 的一些例子包括:?上午io点5分,大楼报出火警?上午10点15分,火灾应急响应小组报告服务器机房起火?上午10点20分,部门经理报告一个小组成员尚未找到,可能还在火灾大楼里 这些能够引起讨论的信息可以通过各种方式传递给参与人员,例如,可以 发送到参与人员的Email地址,也可以现场发放复印件,或
11、者只是主持人口头说明 这些信息,不论选择了哪种方式,要适合参与人员,并且在加入时尽量使信息更加 生动有趣。5.3.5 设计演练评估清单在明确了演练范围、设定好演练目标后,为了恰当地衡量这些目标是否达成,需要 设计一份演练评估清单,用以在演练中跟踪和记录目标的达成情况。I评估清单应该包括评估者的姓名、需要评估的目标、评估的标准等,并为 评估者预留出进行评论和做笔记的地方。一份好的评估清单能够帮助组织: ?确保对演练进行很好的评估 ?突出与理想状态之间的差距 ?可以在培训和宣传中突出缺点 ?突出设施设备的不足之处?强调执行人员的支持和意见的必要性 ?强调持续维护和演练的必要性5.3.6 选择员工担
12、任演练中的角色公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码8 /9灾难恢复演练中有几个基本的角色,即参与者、观察者、评估者和主持人,每个角 色都很重要,并且需要在演练前进行相应的指导与培训。参与者:通常负责业务连续性计划特定部分的具体执行,他们不必参与到 演练的规划。观察者:可以是组织中的任何人,只要他们对组织的业务或者流程有基本 的了解即可。这些人需要一直参与到演练中,并允许在演练的任何部分提出具有建 设性的评论和意见。评估者:负责评估演练和填写评估清单,观察演练中的一个或多个目标是 否达成。主持人:负责整个演练的管理、参与人员之间的沟通,提供额外的信息以
13、 逐渐推进讨论,负责演练后的总结,并完成演练报告。f. . . ,一 . , , , , . ., . - Hr . . . . .5.3.7 召开演练前的指导会议在演练实施前,召开辅导会议,向参与人员解释参与者、观察者和评估者的角色, 允许他们提问,并为每一个人提供演练日程、地点和其它信息。最重要的是要向参与人员明确一些基本规则,以帮助参与人员消除紧张情绪,这些规则包括:?是整个组织在进行测试,不是某一个参与人员?学习业务连续性计划,并将演练当作一次培训?开诚布公地进行对话?尊重他人?讨论时不准用手指指着别人?不要期望演练能够解决所有问题?保持心情愉快5.3.8 进行演练后的总结演练后的总结是整个演
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桥梁工程设计考题及答案
- 幼儿园数学智慧点滴试题及答案
- 家具设计中如何实现艺术性与功能性的结合试题及答案
- 盐湖提锂技术成本降低与产能快速扩张可行性研究报告
- 绿色环保产业发展资金申请报告:环保产业技术创新与产业化
- 电动汽车安全技术的现状与发展前景探讨试题及答案
- 新安全工程师施工安全考点试题及答案
- 未来科技背景下的大学物理考试试题及答案
- 2025特岗教师招聘教学能力测试题目及答案
- 2025南航招聘空姐面试试题及答案
- 静脉导管常见并发症临床护理实践指南
- 围手术期血糖管理专家共识
- 上肢肘腕关节松动术
- 2024年3月昆明市高三语文三诊一模考试卷附答案解析
- (高清版)DZT 0419.3-2022 矿产资源潜力评价规范(1:250 000)第3部分:成矿规律研究
- 科学道德与学术规范知识试题及答案
- 将健康社区纳入社区发展规划
- 痛风科普讲座课件
- 心肌梗死的早期识别与紧急处理
- 国开【形考】《管理英语(3)》形成性考核1-8答案
- 2023学年完整公开课版用户思维
评论
0/150
提交评论