




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.服务器故障应急措施方案部门版本编号Ver_1.0日期密级公司内部使用文档信息文档名称服务器故障应急措施方案日期版本号更新说明2014-03-14Ver_1.0建立文档、初始化方案概述导致服务器出现故障的问题是一个庞大的集合,可以分成很多种导致服务器出现故障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。如果没有一套故障处理的标准,工程师只能靠经验去判断,但是依靠经验判断并不是不可以,有时候这种处理方式会很高效,但是大多数这种处理方式都是不太合理的,如果更换了运维工程师,显然每一个工程师通过经验去判断故障原因
2、的方式都不尽相同,这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其他工程师以后借鉴故障处理案例。故障处理标准化的优点:根据流程可以确定哪些故障应该立即汇报上级,哪些可以自行解决后,再写故障处理报告汇报上级,这样做有助于提高故障处理效率。对于工程师经验判断,可能出现判断失误的情况,根据故障判断流程,可以不遗漏任何可能的情况对服务器故障进行排除。有时候工程师处理了故障之后只是简单的做了一下汇报,并没有一些故障处理过程的记录,以及故障处理的详细时间记录,这样对需要追溯以前的具体情况的时候就束手无策了。划分故障等级级紧急当系统出现下列相当严重的现象时,属一级故障:系统整体瘫痪,全部操作失
3、去响应;系统崩溃,关键硬件或文件系统损坏无法自动修复;发生间歇性、随机性、重复性的启动或应用退出,无法保障公司业务的正常处理。立即汇报上级级重要当系统出现下列比较严重的现象时,属二级故障:关键部件含软、硬件停止工作,导致系统降低运行状态,客户业务受到严重影响;系统整体性能严重下降,无法自动恢复正常运行状态;重要数据、参数和配置信息损坏,无恢复,导致客户数据及业务记录严重损失;立即汇报上级级关键当系统出现下列现象时,属三级故障:部分设备或软件异常,局部功能受限,系统整体仍可正常工作,对客户业务影响不大或存在隐患;关键备用设施因故障离线,主用设施仍能正常工作;系统运行指标例如: I/O 效率、 C
4、PU 效率受到直接或间接影响,客户业务处理缓慢;立即汇报上级级告警当系统出现下列情况而不影响客户业务时,属四级故障:不在运行状态的线路、端口损坏;出于安全考虑并且是受保护的软件降级或应用重启;因存储空间不足导致的性能下降;系统硬件、软件产品功能、安装、或配置方面的支援;业务仍然可以正常运作,但是服务器报出故障信息的;故障排错判断故障分类一机房网络故障1、骨干网光纤切割;2、机房网络升级;3、机房网络设备调试;4、机房网络设备损坏;二政府部门封网1、服务器没有备案;2、域名备案存在问题;3、黑客入侵导致服务器违法行为;4、违规代理服务器;5、服务器转发违禁网站;6、服务器放置的网站内容不符合当地
5、的政府法例法规;三机房铺助设备故障1、机房空调故障问题;2、机房灰尘过多问题;3、机房电力供应问题;四机房机柜迁移1、机柜扩容;2、机柜移位;3、服务器迁移机柜;五服务器硬件故障1、电源线损环;2、服务器电源损坏;3、服务器非人为硬盘损坏;4、服务器受黑客入侵攻击时导致硬盘损坏;5、 CPU温度过高烧毁;6、内存使用中损坏;7、主板在电源损坏时容易烧毁;六服务器系统故障1、黑客攻击导致系统瘫痪;2、缓存日志过多没有整理;3、人为配置不当导致系统崩溃;4、硬盘损坏导致系统崩溃;七服务器应用故障1、服务器放置的应用程序存在bug后门等;2、服务器环境配置问题;3、黑客攻击导致应用程序崩溃;4、硬盘
6、、内存的兼容性差导致应用程序崩溃;5、应用程序没有优化占用服务器硬件资源过高导致崩溃;6、用户负载过多导致应用程序崩溃;八服务器硬件超负荷1、数据超过硬盘读写负载能力导致应用程序崩溃;2、 CPU使用率跑满导致服务器宕机;3、使用内存cache占用过多导致宕机;4、硬盘空间使用满导致宕机;九服务器网络超负荷1、用户量过多,服务器带宽不足,导致卡顿,用户访问程序故障;2、系统连接数过多造成系统拥堵网络带宽使用不上;3、数据库数据读写占用过多服务器连接数,达不到预期的服务器带宽;十人为违规操作1、人为违规关机;2、人为违规操作更改或删除服务器应用;3、机房人为关机或断电;十一服务器受到攻击1、服务
7、拒绝攻击导致系统崩溃,如常见的UDP洪水攻击等;2、利用型攻击导致黑客入侵系统,如特洛伊木马、口令猜测等;3、信息收集型攻击,如体系结构探测、DNS域转换等4、假消息攻击,如DNS高速缓存污染、伪造电子邮件等十二不可预知因素1、机房遭遇火灾事故;2、机房遭遇地震事故;服务器出现故障故障应急处理流程服务器出现故障判断故障级别判断故障级别汇报上级汇报上级汇报上级级紧急级重要汇报上级汇报上级汇报上级级紧急级重要级关键级警告记录发生时间记录发生时间记录发生时间故障排错流程故障排错流程记录发生时间记录发生时间记录发生时间记录发生时间故障排错流程故障排错流程记录发生时间故障排错流程故障排错流程故障排错流程
8、故障排错流程问题处理完成问题处理完成故障处理报告故障处理报告发送邮件给相关人员发送邮件给相关人员服务器故障处理完毕服务器故障处理完毕故障排错流程故障排错开始故障排错开始是否有备用服务器判断故障等级是否属于是否有备用服务器判断故障等级是否属于级或级启用备用服务器启用备用服务器是是否否检查当前故障服务器检查当前故障服务器执行数据备份与日志备份的脚本执行数据备份与日志备份的脚本查看报错日志,根据故障分类确定故障范围,逐条排除查看报错日志,根据故障分类确定故障范围,逐条排除尝试修复故障,并且验证是否解决问题尝试修复故障,并且验证是否解决问题否是故障处理完成故障处理完成数据与日志备份在进行故障修复的时候
9、,需要对服务器系统以及软件的配置文件进行修改,这些修改可能造成的风险是很大的,这时保存备份配置文件信息、应用数据、系统日志信息会很重要,可以直接通过shell脚本对服务器重要的数据进行备份。故障处理报告故障处理报告文件命名规则文件名前缀故障级别服务器名称故障类型故障处理报告级紧急Linux服务器名称终端#前面的字符故障分类详细内容级重要级关键级告警例如:故障处理报告_级紧急_squid-chendu_系统崩溃故障处理报告内容故障发现时间Xxxx 年 xx 月 xx 日 xx:xx 24小时制处理完成时间如果处理一次就解决的直接写:Xxxx 年 xx 月 xx 日 xx:xx 24小时制如果多次处理后才解决,按下面格式写:Xxxx 年 xx 月 xx 日 xx:xx 24小时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 硕士论文全攻略
- 济南幼儿师范高等专科学校《大数据隐私与数据安全》2023-2024学年第二学期期末试卷
- 苏州市相城区2025年初三周考生物试题一含解析
- 山西省晋中市太古区2025年四下数学期末质量检测模拟试题含解析
- 山西省名校2025届高三下-期末联考历史试题试卷含解析
- 内蒙古医科大学《传感器原理与应用》2023-2024学年第二学期期末试卷
- 宁波工程学院《中级日语听说》2023-2024学年第二学期期末试卷
- 江苏省苏州工业园区星澄校2025届初三3月第一次模拟语文试题含解析
- 山西省运城重点达标名校2024-2025学年初三下学期第五次重点考试数学试题含解析
- 江西省上饶市2025届四年级数学第二学期期末经典模拟试题含解析
- 陕09J01 建筑用料及做法图集
- 心电监护技术
- 餐厅销售技巧培训
- 2020版5MW风力发电机组安装手册风电机组安装手册
- 2023年房修工程师年终总结及年后展望
- 《广州市城市树木保护专章编制指引》解读(分享版)
- 电机与电气控制技术课程说课
- 国土空间规划与自然资源“一张图”构建的理论方法和实践
- 2023学年度六年级语文下册期末复习(根据课文内容填空)
- 2023学年完整公开课版虎皮鹦鹉
- 共产主义原理
评论
0/150
提交评论