云平台服务器存储应急专项预案_第1页
云平台服务器存储应急专项预案_第2页
云平台服务器存储应急专项预案_第3页
云平台服务器存储应急专项预案_第4页
云平台服务器存储应急专项预案_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云平台服务器存放应急预案目录1 目标 32 适用范围 33 规范内容 33.1 故障分类 33.2 应急准备 33.3 具体方法 34 故障处理规范 44.1 机房停电 44.2 主机故障 44.3 存放系统故障 44.4 云平台软件系统故障 44.5 云平台管理服务器故障预防 54.6 云平台日常告警故障排除 55 硬件故障预防和排除 55.1 故障预防 55.2 故障排除 55.3 故障处理 6目标为提升云平台服务器、存放故障处理能力,形成科学、有效、反应快速日常管理步骤和应急处理机制,确保平台安全和稳定运行,最大程度地减小故障对生产影响,降低业务中止风险,特制订本规范。适用范围本规范适适用于提供云计算虚拟化平台服务服务器、存放管理,应对发生和可能发生故障。规范内容服务器运维和应急处理应包含风险评定,检测体系和应急处理三个步骤,合理有效实施控制将预防故障影响扩大。故障分类平台故障包含服务器硬件和存放系统故障;自然灾难(水、火、电等)造成物理破坏;人为误操作造成损害等。应急准备部门责任人员明确职责和管理范围,依据实际情况,安排应急值班,确保到岗到人,联络通畅,处理立即正确。具体方法(1)建立安全、可靠、稳定运行机房环境,防火、防雷电、防水、防静电、防尘;建立备份电源系统。(2)虚拟化平台服务器应采取可靠、稳定、兼容性硬件,落实责任管理机制,遵守安全操作规范;对虚拟机和管理服务器进行定时备份;采取有效虚拟化监控工具,立即发觉问题和日汇报。故障处理规范机房停电接到停电通知后,相关人员应立即布署应对具体方法,开启备用电源,确保服务器正常运行。主机故障(1)平台服务器出现硬件告警需要停机维护,服务器责任人应立即通知相关人员,将业务虚机迁移到集群中其它服务器主机上,再将故障服务器切换至维护模式并从HA集群中移除,负责陪同硬件厂家现场更换至成功恢复。(2)若服务器硬件二十四小时内无法恢复,服务器责任人需书面汇报原因并立即通知业务管理人员进行数据应急备份,预防灾难扩大。(3)若虚拟化存放硬件出现告警,第一目击人应立即通知存放管理员,并上报主管领导,存放管理员应在汇报1小时内联络厂家到场处理,处理完成后因汇报原因,找四处理方法;并立即对数据做完整性检验,消除反复发生隐患。存放系统故障(1)做好存放系统定时备份,一旦出现数据损坏、丢失,能够立即恢复系统。(2)发生存放系统故障后,相关人员应检验出现故障原因并立即排除。(3)如遇系统瓦解,数据丢失,应启用备份文件进行数据恢复。云平台软件系统故障(1)日常做好虚拟机定时备份和快照,系统瓦解后,能够立即恢复虚拟机。(2)发生虚拟机系统故障后,相关人员应立即通知业务人员检验出现故障原因并立即排除。(3)如遇虚拟机系统需要启用备份系统进行恢复时,应在恢复后和业务管理员仔细检验业务是否恢复并做好恢复统计。云平台管理服务器故障预防虚拟化服务器采取群集配置。配套管理软件对虚拟数据中心管理单元进行集中管理,系统平台常年二十四小时运行,天天将产生大量任务日志和统计信息。同时管理服务器担任了整个平台主机管理和集中配置角色,使用率极高。为了安全,应定时备份配置数据库,定时检验告警日志。云平台日常告警故障排除当虚拟化平台出现告警信息,经过以下步骤排除:确定故障原因。查看已触发警报内容,确定故障前操作是否是引发该故障原因,对合规操作引发告警,进行消除。对提醒硬件产生告警,应查看硬件状态信息,对确定是硬件问题按硬件维护预案处理。对提醒因资源不足或性能引发告警,因查看近期性能图表,找出原因,消除故障提醒。对于无法判定故障,可导出系统日志发给厂家分析处理。硬件故障预防和排除故障预防保持双机运行状态正常,单机出现故障后,立即对故障单机进行修复。故障排除当服务器出现硬件故障,经过以下步骤排除:(1)确定故障原因。依次查看电源、硬盘、内存、主板、处理器等,如条件许可,可使用替换法检测各硬件。(2)恢复固件缺省配置。比如去除第三方厂商备件和非标配置件。故障处理(1)硬盘故障处理:当硬盘出现黄灯提醒预警时,应先查看硬盘数据是否丢失,如数据存在应先做好数据备份,将此服务器各应用快速转移,然后排查报警具体原因,如因为错误操作或硬盘连接不好引发报警,可尝试重启服务器,重新插拔硬盘等操作即可处理问题。如硬盘损坏,应立即将备用硬盘替换下故障硬盘,使服务器恢复正常工作。排查过程中,如不能正确判定问题原因,不能随便操作,可向售后服务咨询处理。(2)内存故障:因为我们服务器有多组内存,单条内存故障时,会对服务器性能稍有影响,当不会影响整体使用,所以如发觉内存条损坏时,安排时间将损坏内存条替换掉即可。(3)RAID卡故障:服务器RAID卡出现故障时,系统会无法识别出硬盘,服务器不能正常使用,所以应第一时间开启备用服务器。将故障服务器移出生产网络后更换RAID卡,RAID卡经过硬盘重新读取RAID配置信息后即可恢复使用。(4)电源故障:现阶段我们服务器全部是双电,假如单路电源故障不影响运行,假如长久单路停电运

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论