云计算故障运维处理概述_第1页
云计算故障运维处理概述_第2页
云计算故障运维处理概述_第3页
云计算故障运维处理概述_第4页
云计算故障运维处理概述_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、云计算故障运维处理概述技术创新,变革未来云计算时代的IT架构更加复杂,掌握云计算的基础故障处理知识有助于快速定位故障点,从而采取针对性的手段排除故障,保证业务正常运行。学完本课程,您将能够:了解故障处理定义了解通用故障处理模型熟悉云计算基本故障分类熟悉云计算故障处理流程熟悉云计算故障信息收集方法了解云计算故障应急处理了解云计算日常问题求助渠道故障处理概述云计算基本故障分类云计算故障处理流程云计算故障处理信息收集云计算故障应急处理云计算日常问题求助渠道什么是故障处理?故障处理是指在故障发生之后,采取措施,使系统尽快恢复正常在故障处理中,使系统恢复正常是首要任务找到故障原因,避免下一次故障更为重要

2、故障处理对工程师的要求精通各种技术原理熟悉相关产品特性具备丰富的经验沉着冷静,处乱不惊故障处理往往被认为是一件很复杂,很高大上的工作故障处理衡量要点:MTBF和MTTR平均故障间隔( MeanTimeBetweenFailures ,MTBF),是描述产品在操作使用或测试期间的平均连续无故障时间平均修复时间(Mean Time To Repair,MTTR),是描述产品由故障状态转为工作状态时修理时间的平均值常见故障处理模型常见故障处理模型自顶向下自底向上业务跟随配置对比组件更换有经验的工程师根据现场故障情况,灵活选择故障处理模型常见故障处理模型-自顶向下原理如果某个层次的系统没有故障,可以推

3、断在这个层次下的其他系统也没有故障示例如果某台虚拟机不能远程登录,但可以ping通,可以推断下层的网络连通没有问题:应用层业务管理层中间件层虚拟平台层物理硬件层常见故障处理模型-自底向上原理由底层向上层排错,逐层缩减故障范围,直到找到故障点示例如果某台虚拟机不能远程登录,已经定位清楚是物理硬件层故障,使用自底向上模型逐步排查服务器、存储、网络等硬件问题:应用层业务管理层中间件层虚拟平台层物理硬件层常见故障处理模型-业务跟随原理跟随业务的流向,逐步排错示例某云桌面客户的用户不能访问NAS共享文件,使用业务跟随模型,根据访问NAS的业务网络路径,逐步排查云桌面、云平台、物理主机和NAS等问题:云桌

4、面云平台物理主机NAS第一步第二步第三步常见故障处理模型-配置对比原理对比故障节点和正常节点的配置,找到可疑故障点示例某客户有两台云桌面,其中一台运行异常,可以找到另外一台运行正常的云桌面,对比两边的配置,找到可疑故障点:客户终端云平台物理主机后端存储云桌面A(正常)云桌面B(异常)对比常见故障处理模型-组件更换原理更换可疑的故障组件,找到可疑故障点示例某服务器和存储之间网络连接故障,可以逐步更换网线、网口、服务器、存储等1、更换网线2、更换服务器网口3、更换存储网口4、更换服务器服务器存储5、更换存储讨论:选择哪种故障处理模型?故障示例某云平台上有68台云桌面虚拟机供用户使用,现在其中的22

5、台不能正常登录,另外46台一切正常。一小时前所有云桌面虚拟机登录访问正常。讨论请使用前面介绍过的故障处理模型,试着找出可能的故障点,并说明选择哪种故障处理模型比较合适。故障处理概述云计算基本故障分类云计算故障处理流程云计算故障处理信息收集云计算故障应急处理云计算日常问题求助渠道云计算基本故障分类云计算常见故障分类硬件类公用组件类管理节点类虚拟机类用户桌面类云计算硬件类故障简介硬件类故障排除,需先修复相应的硬件故障,然后修复其他软件故障,最终将业务成功恢复云计算硬件类故障服务器故障存储故障网络设备故障TC瘦终端故障公用组件类故障简介公用组件类故障排除,每一个组件的变更可能涉及大范围业务,需提前做

6、好数据备份,计划好回滚方案,必须熟悉各组件原理和流程云计算公用组件类故障浏览器Java插件NTP域控制器DNSDHCP管理节点类故障简介管理节点类故障排除,必须熟悉各管理节点的架构原理和工作流程,后面会分三个章节单独介绍云计算管理节点类故障FusionComputeFusionManagerFusionAccess虚拟机类故障简介云计算虚拟机类故障登录故障使用故障配置故障Tools故障虚拟机类故障排除,如果涉及到有可能损坏用户数据的操作,建议提前备份好虚拟机数据,再做进一步的故障排除操作用户桌面类故障简介云计算用户桌面类故障外设使用性能体验软件兼容用户桌面类故障排除,需熟悉用户桌面软硬件产品,

7、掌握相关原理和操作流程故障处理概述云计算基本故障分类云计算故障处理流程云计算故障处理信息收集云计算故障应急处理云计算日常问题求助渠道云计算故障处理流程信息收集故障判断故障定位故障排除确认检查记录归档一个故障可能由多个原因引起,可以反复进行如上流程,直到彻底排除故障云计算故障处理具体实施流程收集并记录相关信息是否能判断故障范围和类别确定故障范围和类别定位故障原因进行故障排除记录故障处理过程联系华为技术支持故障是否被排除是是否否故障信息收集与判断故障信息是故障处理的重要依据,维护人员应尽可能多的收集故障信息,包括:故障现象描述故障发生的时间及频率故障发生的地点故障的范围、影响故障发生前设备运行状况

8、故障发生前对设备进行的操作以及操作的结果故障发生时是否有设备指示灯异常维护人员根据收集的故障详细信息,对故障范围和类型进行判断 故障定位常用故障定位方法:查看告警信息查看监控信息是否正常查询操作日志,分析操作过程是否有误检查数据配置是否正确观察设备指示灯状态是否正常故障排除告警如果发现告警与故障的产生现象相匹配,通过告警流程进行处理监控由于性能原因导致系统故障时,需要进行扩容操作错误根据操作日志发现进行了错误的操作时,需要对该操作进行恢复数据配置错误检查配置数据时,对错误的数据进行更正硬件状态错误根据硬件指示灯类型进行故障处理,如无电源指示时需要上电或重启,无数据传输时可插拔或更换连线等根据故

9、障定位结果进行故障排除处理比故障处理更重要:日常维护周期维护变更维护文档维护恢复操作性能维护日常维护可以提前发现、消除故障故障发生时,良好的日常维护计划和文档也有利于快速排除故障故障处理概述云计算基本故障分类云计算故障处理流程云计算故障处理信息收集云计算故障应急处理云计算日常问题求助渠道信息收集声明在信息收集操作过程中,请严格遵守以下原则:使用信息收集工具(如FusionCare)前,应事先向客户主动提供该工具的说明;任何维护操作必须得到客户的授权,禁止进行超出客户审批范围的任何操作;将问题定位数据传出客户网络必须得到客户的授权。故障信息收集类型云计算故障信息收集分类基本故障信息告警信息事件信

10、息日志信息基本故障信息收集待收集现场现场反馈结果故障现象描述故障出现时间故障出现的频率业务影响程度当前故障是否已经处理问题出现时,是否有相关系统进行过调整或者任何操作对维护过程中出现的问题所实施的操作问题出现后,是否采用什么措施进行处理对问题进行处理后,达到的效果现场有无明显的告警信息现场告警信息是否已经收集通过基本信息,可大概了解现场发生的问题、目前的状态、产生故障前的设备状态和引起故障的可能因素告警信息收集 - FusionCompute单击“告警ID”,根据弹出的告警帮助处理该告警告警信息可以导出告警信息收集 - FusionAccess单击“告警ID”,根据弹出的告警帮助处理该告警告警

11、信息可以导出告警信息收集 - FusionSphere OM告警信息收集 - ManageOne SC告警信息收集 - FusionStorage Block事件信息收集 - FusionCompute单击“事件ID”,根据弹出的告警帮助处理该告警事件信息可以导出事件信息收集 - FusionAccess单击“事件ID”,根据弹出的告警帮助处理该告警事件信息可以导出事件信息收集 - FusionSphere OM事件信息收集 - ManageOne SC事件信息收集 - FusionStorage Block日志和系统信息收集 - FusionCare工具FusionCare支持多种产品Fus

12、ionCompute信息收集FusionAccess支持的OS:Windows、 linux收集日志,包括操作系统、模块、脚本等需要配置Ftp服务当系统异常时,维护工程师可使用FusionCare工具对系统的日志等信息进行收集,以便定位故障原因FusionManagerFusionStorageFusionSphere OpenStack日志和系统信息收集 - 云桌面虚拟机在“开始 所有程序 Huawei FusionAccess”中,单击“Collect Log”日志压缩包文件的默认目录及文件名为“C:HdpLog.zip”。断流检测工具 - FusionNetDoctorFNM(Fusio

13、nNetwork Manager)作为统一的运维工具的管理入口便于权限控制,提供不感知业务的原子功能:推送文件、获取文件、运行特定脚本文件运维工具APP中集成定位脚本与软件版本解耦发布(屏蔽抓包工具的安全问题),通过Openstack、CPS、FNM的接口完成节点信息查找、脚本推送并运行、收集运行结果。故障处理概述云计算基本故障分类云计算故障处理流程云计算故障处理信息收集云计算故障应急处理云计算日常问题求助渠道重大事故界定重大事故指发生突然、影响面广、涉及范围大、并可对网络的安全运行与服务质量造成严重后果的设备或网络事故包括双节点故障、机柜异常掉电等应急处理在系统或设备发生紧急事故的情况下,为

14、迅速排除故障、恢复系统或设备的正常运行,从而尽量挽回或减少事故损失而对设备进行的一种故障处理行为应急处理流程成立应急小组是否属于应急预案中的事故按照应急预案处理事故分析和后续处理重新制定应急预案并处理事故是否解除是是否否应急处理以快速恢复设备的正常运行与业务的正常提供为核心指导思想业务快速恢复原则业务恢复应综合考虑相应操作恢复业务成功的可能性和相应操作时间代价参考的操作排序如下:耗时比较短,成功可能性比较大的操作耗时比较短,成功可能性比较小的操作耗时比较长,成功可能性比较大的操作应急日常准备类别要求设备级备份主备用设备要求:定期进行数据一致性检查,以及运行状态检查,确保应急时能够接管业务。负荷

15、分担设备要求:定期进行负荷评估,评估业务单平面运行性能评估,确保单点故障业务可以全部由另一个设备接管。(可选)容灾容灾局及相关切换准备。备件关键设备需要常备备件。日常告警清理日常告警需要及时处理,确保没有未确认的活动告警,避免出现问题时,信息混乱,影响事故处理中的判断决策。基本信息维护人员需要准备以下基本信息:组网信息、设备基础信息、软件列表、网络设备IP地址信息、业务信息、备件信息、远程维护信息、相关接口人人员要求维护人员需要熟悉以下知识:Linux基本操作命令维护网络的组网与数据规划熟悉服务器及存储基础知识基本TCP/IP原理、路由原理和交换原理云计算各解决方案的组成、工作原理和业务流程故

16、障处理概述云计算基本故障分类云计算故障处理流程云计算故障处理信息收集云计算故障应急处理云计算日常问题求助渠道联系我们-电话热线步骤2:选择您所在国家地理位置,比如:中国。步骤3:选择您所在城市地理位置,比如:北京。步骤1:登录Suppport-E 网站:/cn/service-hotline联系我们-其他 非电话热线方式:购买咨询、技术支持 (Support-E):/cn/how-to-buy/contact-us产品售后技术支持、帐号及维保查询服务邮箱: Support_e 网上自助建单/ects/#!ecare/sr/newLoginFailed.html支持范围:全球服务时效: 7X24小时Support-E网站资源/enterprise华为云计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论