




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
HA 高可用性第一部分:配置管理集群中的HA功能 第二部分:配置管理Fault Tolerance (HA和FT集成在集群功能中,配合DRS和vMotion完成)第三部分:VMware Data Recovery(独立的功能插件)服务器不同层面的 HA应用层(RAC、RHCS等)|OS (WFC Windows Failover Cluster)|Vsphere虚拟化层面(HA,FT)|物理层面(NIC,Mulitpath,Power等)vSphere HA 介绍,主要动作。Power OFF / 网络隔离|ESXi1ESXi2|vm1vm2vm3vm4vm1=重启= (需要一定时间,存在服务中断)vm2vSphere5 HA 的新特性FDM技术提供的增强特性 FDM是Fault Domain Manager的缩写,它的前身在ESX4叫作AAM,是用来管理HA的最重要的一个组件。它负责Cluster的心跳、主机之间的通信 ,和vCenter的通信、协调虚拟机的位置、调度虚拟机的重启、记录日志等等。Hostd代理,负责监控直接和虚拟机打交道,例如让虚拟机开机、监控虚拟机的状态等。FDM需要Hostd的帮助来完成对虚拟机的操作(例如开机)。简而言之,FDM依赖hostd,如果hostd失效了,FDM也会暂停工作。针对 ESXi 主机 HA监控 针对 单个vm虚拟机的HA监控针对主机监控,ESXi 主机 HA【Master和Slave】架构,5.0的HA功能新特性:=1. ESX4的时候,节点分成Primary和Secondary,最先加入cluster的5个节点成为Primary,并各自存有一份AAM Database。vSphere 5对此进行了简化。现在不再有Primary和Secondary的概念了,取而代之的是Master和Slave。一个Cluster中只有一台Master,其余都是Slave。2.可以同时使用管理网络和存储网络进行通讯检测,错误检查更加准确3. 引入IPv6.的支持4. 加入2种网络故障情景检测 (网络分割)and (网络隔离).Master 作用Master的作用是管理整个集群,作为集群的主要管理者,它监控虚拟机的运行状态,判断某一个ESXi主机是否宕机,它监控每个VM的位置,并判断VM是否需要在其他主机上重启。对于一个集群来说,Master是其上所有虚拟机的“主人”。1.Master监控slave主机,当slave主机出现故障时,重启 “slave主机中”的 虚拟机。 2.Master监控所有被保护“虚拟机的”电源状态,如果被保护的虚拟机出现故障, 它将重启这个虚拟机。 3.Master管理在Cluster内部的主机清单,并且对添加和删除Cluster内部的 主机进行管理,新增、删除主机)4.Master管理被保护虚拟机的清单,在每一次用户发起开关机操作时,更新 这个清单,vCenter会要求Master保护或者不保护某些虚拟机,vm开机后,监控,保护。 用户正常关闭vm,脱离保护,不监控5.Master缓存Cluster配置,Master通知和提醒slave主机,Cluster配置的修 改6.Master发送心跳信息给slave主机,让slave主机知道master的存在7.Master报告状态信息给vCenter,vCenter正常情况下只和Master通讯Slave的作用1.Slave主机监视 本地运行的虚拟机状态,把这些虚拟机运行状态的“显著变化” 发送给Master。) 2.Slave监控Master的健康状态,如果Master出现故障,Slave将会参 与 “新的 Master”的选举) 3.Slave运用vSphere HA特性,这些特性不需要Master的协调。这些 特性包括”VM Health Monitoring” 查看主机 在 Cluster 中的状态。(必须集群开启 HA 之后)主机 - 摘要 Master / Slave【Master的选举】没有Master的集群就会Fail了。当Master失效时怎么办?集群不能没有Master,因此Master的选举会马上被触发。Master选举会在以下情况被触发:HA创建时; Master宕机;Master处于isolated 或者 集群出现了partitioned状态;Master被置于维护状态或Standby状态;集群被重新配置时;Master和vCenter失去了联系;选举需要15秒时间。选举通过UDP协议(端口8182)进行。选举的规则是:拥有最多的datastore的主机当选。如果主机拥有的datastore一样多,ID。 ESXi 主机故障类型 和 检测 vSphere HA 群集的首选主机负责检测从属主机的故障。根据检测到的故障类型,在主机上运行的虚拟机可能需要进行故障切换。在 vSphere HA 群集中,检测三种类型的主机故障:主机网络故障检测:电源故障 + 网络故障 + 虚拟机故障Master主机必须检测并相应地处理故障。Master主机必须可以区分故障主机与处于网络分区中的主机或已与网络隔离的主机。首选主机使用网络和数据存储检测信号来确定故障的类型。主机电源故障主机停止运行,电源中断(即发生电源故障)。. 主机网络:主机失去与Master主机的网络连接。 network partition(网络分割)主机失去与Master、网络管理流量,隔离地址流量,以及其它Slave流量。network isolation(网络隔离:严重) 主机上的虚拟机检测:VM虚拟机它蓝屏状态。两种类型的网络故障,network isolation(网络隔离) 和 network partition(网络分割) network partition(网络分割) 一个lave通过网络联系不到master,但是它和其它ESXi主机的网络连接没有问题,甚至例如还能正常和网关(隔离地址)通信,提供对外服务)。那么该Slave并不认为自己是故障状态,继续使用Heartbeat datastores的信号(两者相互读写存储上的文件的方式)来与Master通信,确保Master知道自己现在的情况。Master会再根据存储上的信号来进一步判断 Slave到底是分割,还是隔离,以便做出相应的处理。 network isolation(网络隔离) 一个或多个slave丢失了所有的管理网络连接,这样的slave 既不能联系到master也不能联系到其他ESXi主机,也无法ping通网关(隔离地址)这种情况下,slave 主机主动通过heartbeat datastores来通知master它已经是隔离状态,具体上这个slave是通过使用一个特殊的二进制件:host-X-poweron来通知 vSphere HA master能 够采取适当的措施来确保保护VMs. 注:如果确保网络基础结构具有足够的冗余度且至少有一个网络路径始终可用,则主机网络隔离应该在极少数情况下才出现。|GW| (隔离地址)|-|SW|-|-X-|MS1S2S3vmvm vmvm vmvm vm vm |=| SAN 存储network partition(网络分割):此时 S1能连接GW,能连接其他 S,但是不能和M通信,S1不会主动向 M 发出故障信号。M通过 存储HA 继续监控 S1M向存储中写文件,S1读取文件,通过存储网络沟通 M和S1的健康状况,以便M 判断如何处理S1上的 VM|GW| (隔离地址)|-|SW|-|X|-X-|-X-| |MS1S2S3vmvm vmvm vmvm vm vm |=| SAN 存储Network isolation(网络隔离): S1 丢失所有的管理网络。S1无法ping通M,此时,会主动ping 其它集群成员,平隔离地址,如果还是不通,S1会认为自己已经处于 网络隔离 状态,此时需要通过“”存储网络“”通知 M 进行保护,S1 主机通 过heartbeat datastores 生成一个特殊的二进制件:host-X-poweron来打上相应的标记,来通知 M 它已经是隔离状态,vSphere HA master能 够采取适当的措施来确保保护VMs. vSphere HA保护VMs具体过程: 当一个slave已经检测到自己是网络隔离状态,它会生成一个特殊二进制文件 host-X-poweron文件在heartbeat datastores上,master看到这个标志,它就知 道了slave已经是isolation状态, 然后master通过vSphere HA锁定其他文件 (datastores上的其他文件). 当slave主机看到这些文件已经被锁定,它知道master正在执行重启VMs的响应. 然后slave才可以执行配置过的隔离响应动作(对自己的虚拟机的动作)。(如正常关机或者关闭电源(虚拟机)以释放该虚拟机锁定的存储资源,让它可以在其他主机上运行起来 ) |GW|-|SW|-| X |-X-|-X-|MS1 S2S3vmvm1 vm2vm3 vm5 vm6 vm7 | | |=| SAN 存储| vm1的 vmdk虚拟磁盘文件此时 S1 已经处于隔离状态, 如果将隔离响应设置为 保持虚拟机开机,那么如果S1主机上的 vm1 实例将一直处于开机状态,这个 vmdk 文件会被 该 vm1 锁定。将实例转移到其它ESXi主机时,新的实例将无法读取该 vmdk文件。我们可以通过隔离响应,设置 S1 将该虚拟机“关机/关电源”,释放 vmdk,这样vm1就能在其他的ESXi主机上顺利重启。脑裂情况=如果某台主机禁用其隔离响应(即隔离时使虚拟机处于打开电源状态,锁定vm的 vmdk文件)且无法访问管理和存储网络(无法通过存储发送隔离信息给Master,无法关闭vm,释放vmdk。)此时可能发生“裂脑”情况。在这种情况下,即使虚拟机的原始实例仍在孤立主机上运行,孤立主机也会丢失磁盘锁且虚拟机会故障切换至另一主机。孤立主机恢复后,能够重新访问虚拟机的数据存储时,将会有两个虚拟机副本,但原来独立主机上的副本无权访问 vmdk 文件,这样便避免了数据损坏。为了从此情况中恢复,ESXi 会针对已丢失硬盘锁的虚拟机生成一个问题(关于主机何时摆脱隔离状态并认识到无法重新获取磁盘锁)。vSphere HA 将自动回答该问题,这就使已丢失磁盘锁的虚拟机实例关闭电源,只留下具有磁盘锁的实例。 注意: vSphere HA有一定的局限性: =1. vSphere HA只能提供VM级别的FO,而不能提供Service和Application的FO。 2. vSphere HA不能提供“0时差”的切换,因为启动VM的时间是未知的。 在集群中启用和配置HA集群-右键-打开HA 功能-确定,此时会有一个较长的过程,主要是在 集群成员ESXi 主机上安装 集群代理软件, 选举 Master配置完成后,在集群成员 ESXi 主机的摘要中,会看到 vSphere HA 为: 正在运行,表示HA 功能已经成功的在集群中启用。管理网络冗余警报解决办法:如果条件有限不想给管理网络做冗余,又不想看到该报警,可以将HA高级选项das.ignoreRedundantNetWarning 设置为“True”即可。 HA面板的选项vSphere 全局设置主机监控状态,是否启用主机监控。(确保集群正常运作的关键)会ESXi 主机启用网络监控,每秒发送ping 包检测。检测健康状况。在需要进行ESXi主机网络中断的维护时,要关闭这个项目,以免造成 Master 误判断。主机隔离响应 机制要求启用“主机监控状态”。如果“主机监控状态”处于禁用状态,则主机隔离响应 将同样不会发生。接入控制启用:不允许违反可用性限制的虚拟机,在ESXi主机上打开电源禁用:允许违反可用性限制的虚拟机,打开电源例如: S1 主机被判断为 隔离,触发隔离相应(设置为关机),此时,S1上的虚拟机会关机,释放vmdk锁,并且尝试在 S2主机上重启。如果 S2 上资源紧缺时,例如S1上的vm1将要在 S2上重启,vm1要求 3G 内存,此时 S2 只空闲1G内存,如果接入控制启用:则 vm1 无法在S2上开机。如果接入控制禁用:vm1在S2上强制开机,此时S2想尽办法凑齐资源,包括启用虚拟内存,会大幅度影响 该vm1的性能。接入控制策略(启用接入控制时生效)设置“集群能够承载何种规模的主机失败”。让集群中的 ESXi 成员主机作 资源 预留,确保失败主机的vm能够有足够的资源在其它成员上开机。 1:按个数计算,例如,只能负载 “1” 台主机的失败,(集群中的主机配置各有高低时,不推荐使用个数。)2:按照CPU和内存的资源比例计算: 集群资源总和的百分比。2+2+2+2+2=10G 20% = 2G。 此时各个成员预留资源,最多能够负担 “2G的内存”的失败。3:设置使用一台专门的ESXi 主机作为 预备主机,接管集群成员失败的 vmvm虚拟机监控选项虚拟机重新启动优先级(“此处为全局”,下方虚拟机菜单可以针对某个虚拟机做级别调整,或者使用全局配置)失败ESXi1 S1ESXi2 S2|vm1 vm2 vm3=此时,对vm1,vm2,vm3 确定一个重启的优先顺序,确保最先得到新主机中的资源,级别低的vm 可能面临无法启动的境地。例1,可能需要先打开提供基础架构服务(如 DNS 或 DHCP)的虚拟机电源,再打开群集内的其他虚拟机电源。虚拟机的重新启动优先级设置因用户需求而有所不同。请为提供最重要服务的虚拟机分配较高的重新启动优先级。例如2,在多层应用程序中,可以根据虚拟机上所驻留的功能来对分配进行排序。 高。将为应用程序提供数据的数据库服务器。 中等。使用数据库中的数据并在网页上提供结果的应用程序服务器。 低。接收用户请求、将查询传递到应用程序服务器并将结果返回给用户的 Web 服务器。主机隔离响应 (需要开启主机监控状态)。当 成员 ESXi 主机 确定自己已经处于 “隔离状态”,对该主机上的 “”虚拟机 “”做 何种操作。 确定当 vSphere HA 群集内的某个主机失去其管理网络连接但仍继续运行时出现的情况。可使用隔离响应使 vSphere HA 关闭独立主机上运行的虚拟机电源,然后在非独立主机上将其重新启动。 当主机无法与其他主机上运行的代理通信且无法 ping 其隔离地址时,该主机确定其已被隔离。 发生这种情况时,主机将向存储发送隔离信号,让Master得知自身情况,此时自身主机会执行其隔离响应。响应包括: “保持打开电源”(默认) “关闭电源然后进行故障切换”(断电) “关机然后进行故障切换”(正常关机,可以保留其状况)=安装 VMware Tools(在 vSphere Client 中,后两个选项分别为“关闭电源”和“关机”)。还可以为各个虚拟机自定义此属性。要使用“关机”设置,必须在虚拟机的客户机操作系统中安装 VMware Tools。关机操作优于关闭虚拟机电源操作将虚拟机关机的优点在于可以保留其状况。关闭虚拟机不会将最近的更改刷新到磁盘中,也不会提交事务在关机完成时,正在关机的虚拟机需要更长时间进行故障切换。未在 300 秒内或在高级属性 das.isolationshutdowntimeout 中指定的秒数内关机的虚拟机将被关闭电源。 vm 虚拟机监控 (默认禁用) 禁用如果在设置的时间内没有收到单个虚拟机的 VMware Tools 检测信号,虚拟机监控将重新启动该虚拟机。同样,如果没有收到虚拟机正在运行的应用程序的检测信号,应用程序监控也可以重新启动该虚拟机。可以启用这些功能,并配置 vSphere HA 监控无响应时的敏感度。启用虚拟机监控后,虚拟机监控服务(使用 VMware Tools)将通过检查正在客户机内运行的 VMware Tools进程的常规检测信号和 I/O 活动来评估群集内的每个虚拟机是否正在运行。如果没有收到检测信号或 I/O 活动,则很有可能是客户机操作系统出现故障,或未分配给 VMware Tools 用来完成任务的时间。在这种情况下,虚拟机监控服务会先确定虚拟机已发生故障,然后决定重新引导虚拟机以还原服务。有时,仍然正常工作的虚拟机或应用程序会停止发送检测信号。为了避免不必要的重置,虚拟机监控服务还监控虚拟机的 I/O 活动。如果在故障时间间隔内未收到任何检测信号,则会检查 I/O 统计间隔(群集级别属性)。I/O统计间隔确定在前两分钟(120 秒)内是否已发生与虚拟机有关的任何磁盘或网络活动。如果没有,则重置该虚拟机。可以使用高级属性 das.iostatsinterval 更改此默认值(120 秒)。您可以配置监控敏感度的级别。高敏感度监控可以更快得出已发生故障的结论。然而,如果受监控的虚拟机或应用程序实际上仍在运行,但由于资源限制等因素导致未收到检测信号,高敏感度监控可能会错误地认为此虚拟机发生了故障。低敏感度监控会延长实际故障和虚拟机重置之间服务中断的时间。请选择一个有效折衷满足需求的选项。下表介绍了监控敏感度的默认设置。也可以通过选中自定义复选框来指定监控敏感度和 I/O 统计间隔的自定义值 虚拟机服务级别/应用程序做 监控 (需要“监控对象软件”能够和vmTool 做接口,通信)要启用应用程序监控,必须先获取相应的 SDK(或使用可支持 VMware 应用程序监控的应用程序),然后使用它来设置要监控的应用程序的自定义检测信号。完成此操作后,应用程序监控的工作方式将与虚拟机监控的工作方式大致相同。如果在指定时间内没有收到应用程序的检测信号,将重新启动其虚拟机。目前只有少数的软件能够支持。#在有更好的功能出现之前,推荐 应用程序 和 服务 的监控 由 OS 自身完成,比如 Redhat 的 HA# 虚拟机监控敏感度: 低(2分钟)中(60秒)高(30秒)=重启虚拟机数据存储检测信号 (选择存储设备作为 “存储监控” 的 介质)前提,必须是共享存储只选择单个存储(坏掉就会停止 存储heartbeat)任意选择存储 (只要还有能使用的存储,就继续使用。)从选择的存储中,按优先级选择。(坏掉1个,可以用第2个) 测试HA 功能=实施HA的前提条件:1、隔离地址设置正确,ESXi可以和隔离地址通信。2、ESXi 之间确保至少有一条网管网络可以通信。3、设置好用于存储信号检测的。数据存储(共享存储)4、两台ESXi主机都是同一个VDS的成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中小企业融资风险分析与防范
- 银行信贷审核流程与风险控制
- 儿童经典诵读材料含拼音100篇
- 高校创新创业心得体会模板
- 管理学核心知识点练习题集
- 保温板检测流程及结果报告
- 移动端应用设计流程与规范
- 建筑物节能改造项目计划书
- 电子商务中消费者权益保障策略-洞察及研究
- 个性化治疗中的养血口服液成分选择-洞察及研究
- GB/T 45604-2025船舶与海洋技术大抓力平衡锚
- 上门灭蚊合同范例
- 教师资格考试中的科研素养提升试题及答案
- 双休背景下的自律学习的重要性课件-高一下学期自律的力量主题班会
- 采棉机棉花采摘合同协议书
- 工贸公司管理制度
- 员工岗前培训管理办法
- 公司股权转让协议法人股权转让
- T-CALC 005-2024 急诊患者人文关怀规范
- 农产品电商知识培训课件
- 认识数字123幼儿园课件
评论
0/150
提交评论