05 云计算故障处理2020更新 HCIE 云计算-课件02 FusionCloud故障处理_第1页
05 云计算故障处理2020更新 HCIE 云计算-课件02 FusionCloud故障处理_第2页
05 云计算故障处理2020更新 HCIE 云计算-课件02 FusionCloud故障处理_第3页
05 云计算故障处理2020更新 HCIE 云计算-课件02 FusionCloud故障处理_第4页
05 云计算故障处理2020更新 HCIE 云计算-课件02 FusionCloud故障处理_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

FusionCloud故障处理,FusionCloud是物理分散、逻辑统一、业务驱动、云管协同、业务感知的数据中心解决方案,可支持企业或机构业务的持续发展,能满足对业务全生命周期的管理。了解和掌握FusionCloud的故障处理方法,可以更好的部署和维护企业云计算环境。,学完本课程后,您将能够:FusionCloud故障分类FusionSphereOpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOneServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作,FusionCloud故障分类FusionSphereOpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOneServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作,FusionCloud系统架构,Region1,FusionSphere计算节点,3rdpartyvSphere,对象存储,Hadoop:FusionInsight,文件存储,防火墙,监控管理CESCloudEyeService,日志管理CTS:CloudTraceService,Ceilometer,消息通知SMN,OpenstackAPI,基础设施层,3rdparty云服务,服务目录,扩展服务API,基础服务API,公共服务API,运维,日志,监控/性能,告警,容量,单点登录,运维管理员,运营,统一认证,服务市场,服务注册,统一认证,运营API,运维API,Console集成,系统运维界面,Keystone,计量信息,日志/监控/告警数据,SDR话单:ServiceDetailRecord,3rd短信/邮件,Mail/SMS,API网关,3rdparty计费,资源池层,云服务层,管理域,分布式存储,对象存储服务器,服务器,组织/Project,服务目录&控制台,SSO,弹性云服务器控制台,块存储服务控制台,虚拟私有网络服务控制台,私有镜像服务控制台,安全服务控制台,混合云服务控制台,HDS服务控制台,ADS服务控制台,容器服务控制台,对象存储服务控制台,文件存储服务控制台,交换机,ECS,EVS,SFS,VPC,Oracle服务,ELB,IMS,Nova,Cinder,Manila,Neutron,Glance,HDS,VMware云服务,安全服务(6个服务),灾备服务(5个服务),VPN,Openstack控制节点,MppDB:LibrA,3rdpartyOracle,ADS,OBS,公共服务,RDS,混合云服务,FusionInsight服务器,LibrA服务器,vSphere服务器,Oracle服务器,任务中心TaskCenter,云备份,云容灾,Ironic,BMS,SAPHANA,vFW,EIP,SG,AS,vAPP,容器服务,灾备服务控制台,FusionCloud故障概览,FusionCloud故障分类FusionSphereOpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOneServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作,FusionSphere日志目录汇总,FusionSphere日志目录汇总,FusionSphere日志目录汇总,FusionSphere日志目录汇总,查看日志信息,使用putty/Xshell/SecureCRT等工具,通过SSH登录CPS反向代理执行以下命令,导入环境变量sourceset_env选择鉴权方式举例:查看nova-api运行日志cat/var/log/fusionsphere/component/nova-apizgrep*xxxxzgrepvolume_id*|grepERROR,FusionCloud故障分类FusionSphereOpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOneServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作,虚拟机创建流程,创建虚拟机故障点,虚拟机故障分析,FusionCloud故障分类FusionSphereOpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOneServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作,创建卷流程,存储问题定位定界分层,结合openstack场景存储组网及业务流程,总结存储问题定位定界分层:存储设备对接配置存储管理平面网络存储数据平面网络存储多路径卷挂载关系,存储对接问题排查点,blockstroage-driver角色部署,商用环境中volume_driver_ratio值为3,表示对接一个存储需要3个物理服务器部署cinder-volume模块的blockstroage-drive,通过如下命令查询cpstemplate-params-show-servicecindercinder-volume|grepvolume_driver_ratio如下所示的配置需要在6个节点上部署blockstroage-drive角色可以执行如下命令查看角色与节点的分布:cpshost-list|grep-B2blockstorage-driver,检查cinder-volume服务状态,使用cinderservice-list命令进行查询,其中cinder后端存储名称对应的状态是up表示对接正常(举例中后端存储名称分别为StorageManager01,StorageManager02),每个后端存储都会启动一个cinder-volume服务,尝试多次观察,对应cinder-volume服务都为up状态。cinderservice-list,检查cinder-scheduler资源刷新状态,观察cinder-scheduler后端存储信息刷新状态,检查pool_name资源池名称、total_capacity_gb总容量信息与磁阵上对应状态进行比较确认对接输入的资源池等信息正确。tail-f/var/log/fusionsphere/component/cinder-scheduler/cinder-scheduler.log回显如下:2016-08-25T21:00:21.614+08:00localhostcinder-schedulerDEBUGpid:103502GreenThread-138258tid:53414160req-4f3dd7f7-28ef-46f3-a1c7-d140eccc3942host_manager.py:468update_service_capabilitiesReceivedvolumeserviceupdatefromcinderStorageService01:uTier_support:True,uio_workload:0,uQoS_support:True,upools:uSmartCache:True,uQoS_support:True,uthick_provisioning_support:True,uhuawei_vvol_support:True,uallocated_capacity_gb:-9139,utotal_capacity_gb:2816.0,uthin_provisioning_support:True,ufree_capacity_gb:2298.0,uprovisioned_capacity_gb:518.0,upool_name:uStoragePool002,ureserved_percentage:0,umax_over_subscription_ratio:1.0,uSmartTier:True,uvolume_backend_name:uStorageService01,udriver_version:u1.1.0,ureserved_percentage:0,uvendor_name:uHuawei,ustorage_protocol:uiSCSI,检查cinder-volume资源刷新状态,正常场景会显示资源刷新信息,异常场景会显示对接错误原因。tail-f/var/log/fusionsphere/component/cinder-volume/cinder-volume.log回显如下:2016-08-25T21:08:21.739+08:00localhostcinder-volumeDEBUGpid:102428MainThreadtid:57459888hw_manager.py:53update_service_capabilitiesCalculatetheio_workloadresult,capabilities:Tier_support:True,io_workload:0,QoS_support:True,driver_version:1.1.0,volume_backend_name:StorageService01,reserved_percentage:0,pools:SmartCache:True,allocated_capacity_gb:-9139,QoS_support:True,pool_name:StoragePool002,huawei_vvol_support:True,thick_provisioning_support:True,thin_provisioning_support:True,free_capacity_gb:2298.0,provisioned_capacity_gb:518.0,total_capacity_gb:2816.0,reserved_percentage:0,max_over_subscription_ratio:1.0,SmartTier:True,vendor_name:Huawei,storage_protocol:iSCSI使用psaux命令检查cinder-volume进展状态是否正常;如果进程正常,且发现Cinder-volume中无日志更新,可以使用重启进程命令:cinder-volumeControl-ARESTART,指定后端存储创建卷测试,如果卷可以正常创建说明存储对接正常,否则表示对接存在问题,命令参考:cinderextra-specs-listcindercreate10-volume-typesan002-nametestConectcinderlist,对接问题排错思路,存储管理、数据平面网络问题排查,具体现网网络排查可根据现网不同的组网、网络设备及排查经验进行排查,物理服务器RH2288H,交换机,存储网络,存储设备,物理服务器上执行ping临时IP,交换机执行:interfaceVlanif存储VlanIDipaddress临时IP子网掩码commitping存储设备IPundointerfacevlanifxxcommit,存储设备IP,IPSAN场景1.排查端口链接状2.判断目标服务器IP是否可达FC/FCOE场景1.查看主机与存储连接情况,IPSAN场景1.检查目标存储控制面IP可达2.检查目标存储数据面IP可达3.检查多路径软件是否正常FCOE场景1.检查服务器端HBA卡状态及物理主机侧WWN号2.检查服务器本端HBA卡与远端存储设备FC端口是否连接正常3.华为多路径软件命令查看存储数据面网络是否正常,FusionCloud故障分类FusionSphereOpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOneServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作,网络虚拟化,面向租户的逻辑网络控制,虚拟机网络,OVS类型网络分层定位定界,故障可能现象:虚拟机获取不到IP虚拟机不通,qvm0,Tap0qvm0均为FusionSphere虚拟网口,只有开启安全组的前提下,才会有qvm0口,FusionNetDoctor工具,FusionNetDoctor是面向运维人员的,虚拟网络领域基于PING包的断流检测定界工具。工具在FusionCloud系统部署时默认在管理虚拟机中安装运行,在出现虚拟网络断流故障时由运维人员、用户登录使用进行断流定界。用户进行具体流量定界时,工具将动态推送脚本和tcpdump工具到目标节点运行抓包流程,只抓取报文头部进行断流定界分析,并收集节点流量分析结果后直接显示给用户,不做数据保存。当租户虚拟机间的网络不通时,运维人员通过FusionNetDoctor工具的Web页面查询,就能故障位置进行快速定界。,检测功能核心能力,断流检测工具-使用流程示例(虚机信息查询),支持多种方式查询:IP、name、ID,详细信息汇总,详细信息导出到文件,方便后续定位,虚机关联网络拓扑示意,断流检测工具-适用场景(VM间断流检测)-TYPEI,L2层流量转发路径同主机L2层跨主机L2层跨AZ间L2层,断流检测工具-适用场景(VM间断流检测)-TYPEI,L3层流量转发路径同主机L3层跨主机L3层跨AZ间L3层,断流检测工具-使用流程示例(VM间断流检测),断流检测工具-适用场景(VPN断流检测),VPN上行流量,VPN下行流量(有L2GW),VPN下行流量(无L2GW),断流检测工具-使用流程示例(VPN断流检测),断流检测工具-使用流程示例(VPNping探测),断流检测工具-适用场景(EIP断流检测),EIP上行流量,EIP上行流量,断流检测工具-使用流程示例(EIP断流检测),断流检测工具-使用流程示例(EIPping探测),断流检测工具-适用场景(ELB断流检测),融合ELB东西向上行流量,融合ELB东西向下行流量,断流检测工具-适用场景(ELB断流检测),融合ELB南北向上行流量,融合ELB南北向下行流量,断流检测工具-使用流程示例(ELB断流检测),断流检测工具-使用流程示例(ELB断流检测),故障案例:虚拟机不通,FusionCloud故障分类FusionSphereOpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOneServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作,ManageOneServiceCenter节点故障,故障描述:数据库主节点实例正常,数据库备节点实例复制状态异常。可能原因:服务器网络中断。备数据库复制错误。预期角色与实际角色不符。故障倒换后数据冲突(GTID)。“binlog”被清理导致复制中断。人为对备数据库进行写操作,导致数据冲突。,复制状态错误表(1),复制状态错误表(2),FusionCloud故障分类FusionSphereOpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOneServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作,典型案例一:发放虚拟机失败,问题描述:某局点已完成FusionCloud6.3基本平台搭建工作,并完成FusionCloud镜像制作、规格创建、网络VPC预设置等准备工作,但发放虚拟机时报错,提示发放失败。告警信息在SC上并无任何告警信息。,故障处理,经分析定位,发现在ServiceOM上主机组并未打标签,导致在ManageOneSC设置“规格”页签上,其规格标签值无法与后端主机组进行对应;当下发虚拟机时,系统无法通过规格的标签值找到对应的主机组资源,最终下发虚拟机失败。规格标签值设置界面,故障处理,主机组标签值设置界面,建议与总结,在FusionCloud6.X版本内,主机组标签与规格标签需要严格对应,缺一不可,典型案例二:业务VM无法访问,问题描述:在ServiceOM运维portal上会发现某些虚拟机状态是Error,某些虚拟机在使用过程中突然业务中断,某些虚拟机不能登录、某些虚拟机出现卡死、蓝屏、黑屏、OS故障等。业务影响:虚拟机上部署的业务中断。,故障预判,故障预判:虚拟机内部故障(OS故障、卡死、蓝屏、黑屏)主机故障(下电)网络故障(internal_base)后端存储故障物理服务器硬件故障,紧急变更,紧急变更:虚拟机迁移、重启主机重启,主机上电主备接入交换机手动倒换网卡主备模式或者负载均衡时倒换,或者down掉某个网口主备存储交换机手动倒换存储链路重新插拔,处理思路,故障点为:A.业务网络故障;B.存储网络或者存储链路故障;C.管理网络异常故障;E.物理存储设备故障;F.物理主机故障;G.虚拟机内部故障(卡死,蓝屏,黑屏,OS故障);,故障点分析,可能故障点一:虚拟机OS故障,蓝屏,卡死等故障可能故障点二:业务平面网络故障,大面积虚拟机无法访问可能故障点三:管理网络故障,大面积虚拟机无法访问,故障案例三:Nova服务异常,故障现象:告警台上有组件故障告警,后台执行命令发现为nova组件异常(即Nova无法提供服务)虚拟机生命周期的业务流无法进行,“novaservice-list”nova服务异常FMportal界面上显示虚拟机状态未知,如下图所示故障影响:与虚拟机生命周期相关的系列操作无法进行,影响严重。,日志收集,确认服务异常的节点,在fs后台导入环境变量之后,执行novaservice-list如果state的收集方法:将相应主机上的up变成down,说明该服务异常,需要登录对应的节点收集日志,查询节点ip的方法:cpshost-list|grephost-control1ssh到该主机上,收集日志目录章节中的nova日志目录下的文件拷贝到/home/fsp目录下面,然后修改文件权限,然后将日志拷贝到首节点,使用工具WinSCP工具,将日志拷贝出来(注意:每个故障节点都要收集),故障定位,ssh到异常服务的主机上,打开日志:vi/var/log/fusionsphere/component/novaControl/novaControl.log按shift+g到文件最后,然后向上搜索关键字ERROR,找到最近的错误信息发现日志中报错为“startnxupfailed.cantfindupservice”,表示开启了存储多路径,而存储多路径包没有安装。,解决方案,解决方案安装存储多路径软件若不需要存储多路径,关闭存储多路径开关,FusionCloud故障分类FusionSphereOpenStack日志查看虚拟机故障处理存储故障处理网络故障处理ManageOneServiceCenter节点故障处理典型案例分析常见的服务异常处理思路FusionCloud高危操作,Nova服务异常处理思路,主机系统故障,Nova服务异常,组件故障,时间不同步,进程卡死或不写心跳,打开存储多路径开关,没有安装多路径软件,Rabbitmq连接异常或者消息队列占满,Nova-compute依赖的服务异常,Nova依赖的组件故障,处理主机故障,处理故障组件,同步时间,手动重启服务,安装存储多路径软件,修复rabbitmq服务or根据告警台的73401告警,进行告警处理,根据日志中具体报错,修复依赖服务,参照其他组件故障的修复方法修复,Glance服务异常处理思路,组件故障,Glance服务异常处理,DNS配置错误,时间不同步告警,Swift空间不足,根分区空间不足,处理主机故障,修改DNS配置,同步时间,扩容swift,手动删除根分区一些不用的文件,Cinder-volume服务异常处理思路,Cinder-volume服务异常处理,后端存储配置错误(人为修改),Cinder-volume节点时间不一致,Cinder-volume启动脚本执行异常,存储管理平面网络异常,存储设备资源池&RAID配置排查,时间同步,多路径软件包安装,检查网络是否正常,SSH,telnet,ping,多路径开关配置,Cinder相关进程挂死处理思路,卷及快照相关操作无响应,CPS命令检查cinder状态正常无告警产生,使用cinderservice-list查询服务正常,检查cinder-volume日志无更新,重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论