服务器故障应急响应专项方案说明_第1页
服务器故障应急响应专项方案说明_第2页
服务器故障应急响应专项方案说明_第3页
服务器故障应急响应专项方案说明_第4页
服务器故障应急响应专项方案说明_第5页
已阅读5页,还剩2页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

服务器故障应急方法方案部门版本编号Ver_1.0日期密级企业内部使用文档信息文档名称服务器故障应急方法方案日期版本号更新说明-03-14Ver_1.0建立文档、初始化

方案概述造成服务器出现故障问题是一个庞大集合,能够分成很多个造成服务器出现故障原因,依据服务器故障出现情况进行分类,确定故障属于哪一个等级,依据对应故障等级对故障做对应处理,确保故障处理步骤是标准化。假如没有一套故障处理标准,工程师只能靠经验去判定,不过依靠经验判定并不是不能够,有时候这种处理方法会很高效,不过大多数这种处理方法全部是不太合理,假如更换了运维工程师,显然每一个工程师经过经验去判定故障原因方法全部不尽相同,这么差异将会使故障处理事后不能够得到很好统计和存档,以供其它工程师以后借鉴故障处理案例。故障处理标准化优点:依据步骤能够确定哪些故障应该立即汇报上级,哪些能够自行处理后,再写故障处理汇报汇报上级,这么做有利于提升故障处理效率。对于工程师经验判定,可能出现判定失误情况,依据故障判定步骤,能够不遗漏任何可能情况对服务器故障进行排除。有时候工程师处理了故障以后只是简单做了一下汇报,并没有部分故障处理过程统计,和故障处理具体时间统计,这么对需要追溯以前具体情况时候就束手无策了。划分故障等级故障等级故障说明故障处理第一步Ⅰ级(紧急)当系统出现下列相当严重现象时,属一级故障:系统整体瘫痪,全部操作失去响应;系统瓦解,关键硬件或文件系统损坏无法自动修复;发生间歇性、随机性、反复性开启或应用退出,无法保障企业业务正常处理。立即汇报上级Ⅱ级(关键)当系统出现下列比较严重现象时,属二级故障:关键部件(含软、硬件)停止工作,造成系统降低运行状态,用户业务受到严重影响;系统整体性能严重下降,无法自动恢复正常运行状态;关键数据、参数和配置信息损坏,无恢复,造成用户数据及业务统计严重损失;立即汇报上级Ⅲ级(关键)当系统出现下列现象时,属三级故障:部分设备或软件异常,局部功效受限,系统整体仍可正常工作,对用户业务影响不大或存在隐患;关键备用设施因故障离线,主用设施仍能正常工作;系统运行指标(比如:I/O效率、CPU效率)受到直接或间接影响,用户业务处理缓慢;立即汇报上级Ⅳ级(告警)当系统出现下列情况而不影响用户业务时,属四级故障:不在运行状态线路、端口损坏;出于安全考虑而且是受保护软件降级或应用重启;因存放空间不足造成性能下降;系统硬件、软件产品功效、安装、或配置方面支援;业务仍然能够正常运作,不过服务器报出故障信息;故障排错判定故障分类序列问题种类具体内容一机房网络故障1、骨干网光纤切割;

2、机房网络升级;

3、机房网络设备调试;

4、机房网络设备损坏;二政府部门封网1、服务器没有立案;

2、域名立案存在问题;

3、黑客入侵造成服务器违法行为;

4、违规代理服务器;

5、服务器转发违禁网站;

6、服务器放置网站内容不符合当地政府法例法规;三机房铺助设备故障1、机房空调故障问题;

2、机房灰尘过多问题;

3、机房电力供给问题;四机房机柜迁移1、机柜扩容;

2、机柜移位;

3、服务器迁移机柜;五服务器硬件故障1、电源线损环;

2、服务器电源损坏;

3、服务器非人为硬盘损坏;

4、服务器受黑客入侵攻击时造成硬盘损坏;

5、CPU温度过高烧毁;

6、内存使用中损坏;

7、主板在电源损坏时轻易烧毁;六服务器系统故障1、黑客攻击造成系统瘫痪;

2、缓存日志过多没有整理;

3、人为配置不妥造成系统瓦解;

4、硬盘损坏造成系统瓦解;七服务器应用故障1、服务器放置应用程序存在bug后门等;

2、服务器环境配置问题;

3、黑客攻击造成应用程序瓦解;

4、硬盘、内存兼容性差造成应用程序瓦解;

5、应用程序没有优化占用服务器硬件资源过高造成瓦解;

6、用户负载过多造成应用程序瓦解;八服务器硬件超负荷1、数据超出硬盘读写负载能力造成应用程序瓦解;

2、CPU使用率跑满造成服务器宕机;

3、使用内存cache占用过多造成宕机;

4、硬盘空间使用满造成宕机;九服务器网络超负荷1、用户量过多,服务器带宽不足,造成卡顿,用户访问程序故障;

2、系统连接数过多造成系统拥堵网络带宽使用不上;

3、数据库数据读写占用过多服务器连接数,达不到预期服务器带宽;十人为违规操作1、人为违规关机;

2、人为违规操作更改或删除服务器应用;

3、机房人为关机或断电;十一服务器受到攻击1、服务拒绝攻击造成系统瓦解,如常见UDP洪水攻击等;

2、利用型攻击造成黑客入侵系统,如特洛伊木马、口令猜测等;

3、信息搜集型攻击,如体系结构探测、DNS域转换等

4、假消息攻击,如DNS高速缓存污染、伪造电子邮件等十二不可预知原因1、机房遭遇火灾事故;

2、机房遭遇地震事故;服务器出现故障故障应急处理步骤服务器出现故障判定故障等级判定故障等级汇报上级汇报上级汇报上级Ⅰ级(紧急)Ⅱ级(关键)汇报上级汇报上级汇报上级Ⅰ级(紧急)Ⅱ级(关键)Ⅲ级(关键)Ⅳ级(警告)统计发生时间统计发生时间统计发生时间故障排错步骤故障排错步骤统计发生时间统计发生时间统计发生时间统计发生时间故障排错步骤故障排错步骤统计发生时间故障排错步骤故障排错步骤故障排错步骤故障排错步骤问题处理完成问题处理完成故障处理汇报故障处理汇报发送邮件给相关人员发送邮件给相关人员服务器故障处理完成服务器故障处理完成故障排错步骤故障排错开始故障排错开始是否有备用服务器判定故障等级是否属于Ⅰ是否有备用服务器判定故障等级是否属于Ⅰ级或Ⅱ级启用备用服务器启用备用服务器是是否否检验目前故障服务器检验目前故障服务器实施数据备份和日志备份脚本实施数据备份和日志备份脚本查看报错日志,依据故障分类确定故障范围,逐条排除查看报错日志,依据故障分类确定故障范围,逐条排除尝试修复故障,而且验证是否处理问题 尝试修复故障,而且验证是否处理问题否是故障处理完成故障处理完成数据和日志备份在进行故障修复时候,需要对服务器系统和软件配置文件进行修改,这些修改可能造成风险是很大,这时保留备份配置文件信息、应用数据、系统日志信息会很关键,能够直接经过shell脚本对服务器关键数据进行备份。故障处理汇报故障处理汇报文件命名规则文件名前缀故障等级服务器名称故障类型故障处理汇报Ⅰ级—紧急Linux服务器名称(终端#前面字符)故障分类—具体内容Ⅱ级—关键Ⅲ级—关键Ⅳ级—告警比如:故障处理汇报_Ⅰ级—紧急_squid-chendu_系统瓦解故障处理汇报内容故障发觉时间Xxxx年xx月xx日xx:xx(二十四小时制)处理完成时间假如处理一次就处理直接写:Xxxx年xx月xx日xx:xx(二十四小时制)假如数次处理后才处理,按下面格式写:Xxxx年xx月xx日xx

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论