




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华为FusionSphere 5.1 可靠性技术白皮书文档版本V1.0发布日期2015-04-15华为技术有限公司版权所有 华为技术有限公司 2014。 保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼 邮编:518129网址:文档版本V1.0 (2014-09-05)华为专有和保密信息 版权所有 华为技术有限公司27华为FusionSphere 5.0 可靠性技术白皮书前 言前 言概述本文档介绍FusionSphere产品的系统可靠性能力。读者对象本文档主要适用于以下工程师:l 公司MKT、行销、渠道商在项目拓展中使用符号约定在本文中可能出现下列标志,它们所代表的含义如下。符号说明用于警示紧急的危险情形,若不避免,将会导致人员死亡或严重的人身伤害。用于警示潜在的危险情形,若不避免,可能会导致人员死亡或严重的人身伤害。用于警示潜在的危险情形,若不避免,可能会导致中度或轻微的人身伤害。用于传递设备或环境安全警示信息,若不避免,可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果。“注意”不涉及人身伤害。用于突出重要/关键信息、最佳实践和小窍门等。“说明”不是安全警示信息,不涉及人身、设备及环境伤害信息。修改记录修改记录累积了每次文档更新的说明。最新版本的文档包含以前所有文档版本的更新内容。文档版本 01 (2015-04-15)第一次正式发布。华为FusionSphere 5.0 可靠性技术白皮书目 录目 录前 言ii1 系统架构说明11.1 华为FusionSphere解决方案总览12 架构可靠性22.1 网络路径全冗余22.2 网络分平面通信32.3 管理节点HA42.4 流量控制52.5 故障检测52.6 数据一致性审计62.7 管理数据备份与恢复62.8 全局时间同步63 FusionCompute可靠性73.1 虚拟机热迁移73.2 存储冷热迁移83.3 虚拟机负载均衡83.4 虚拟机HA93.5 虚拟机HA主机自治103.6 虚拟机故障隔离103.7 虚拟机OS故障检测113.8 黑匣子113.9 管理节点虚拟化部署113.10 主机故障恢复114 FusionStorage可靠性124.1 数据存储冗余设计124.2 多故障域设计134.3 数据安全级设计134.4 数据强一致性144.5 NVDIMM掉电保护154.6 I/O流控154.7 磁盘应用可靠性154.8 元数据高可靠性165 FusionManager可靠性175.1 管理节点HA部署175.2 主备双机数据一致性175.3 管理数据即时备份175.4 进程僵死保护186 网络可靠性196.1 存储多路径访问206.2 虚拟化网络流量控制216.3 网卡负荷分担226.4 交换机堆叠236.5 交换机互连冗余236.6 虚拟路由冗余保护247 硬件可靠性257.1 内存可靠性257.2 硬盘可靠性257.3 支持磁盘在线定时故障检测和预警257.4 电源可靠性267.5 系统检测267.6 板载软件可靠性26华为FusionSphere 5.0 可靠性技术白皮书7 硬件可靠性1 系统架构说明1.1 华为FusionSphere解决方案总览图1-1 华为FusionSphere解决方案总览华为FusionSphere解决方案对业务系统的多个应用整合后,提高了服务器利用率和系统可靠性,降低采购成本,提高维护效率。通过弹性主机基本服务提供方便快捷按需使用的优质弹性服务;自助申请调度资源、查询,无需人工服务;成本低,体验好:低于传统业务模式,自动服务显著提高响应速度。2 架构可靠性架构可靠性关注的主要内容是当前解决方案是如何保证数据中心间和数据中心内各个子系统间的业务可靠性和公共平台的可靠性。2.1 网络路径全冗余FusionSphere解决方案的网络按照层次划分,可以分为核心层、汇聚层、接入层和虚拟网络层。核心层交换设备主要完成各数据中心之间的通信互联,同时提供FusionSphere对外网络出口。可通过使用S93xx交换机集群,保证对外与防火墙/NAT和对内各数据中心汇聚交换机连接的冗余。汇聚层交换设备位于各个数据中心机房内部,完成本数据中心内各接入层交换机的流量汇聚,对外与核心层交换机通过三层互通,同时对接入层交换机提供二层接入功能。通过使用S93xx交换机集群,保证了对外与核心层交换设备和数据中心内接入层交换机连接的冗余。接入交换机位负责本机柜内部的服务器接入。可通过使用S53xx交换机堆叠,保证对外与汇聚层交换设备和对内虚拟网络层连接的冗余。虚拟网络层位于服务器内部,负责服务器内部的虚拟机之间以及对外通信功能。通过采用多网卡绑定,避免单个网卡故障引发的业务中断。图2-1 网络路径全冗余的配置示意图2.2 网络分平面通信整个云计算系统逻辑上可以分为三个平面:管理平面、存储平面和业务平面。为了保证各种网络平面数据的可靠和安全,FusionSphere采用分网络平面的架构方案,不同平面间采用VLAN进行隔离,单个平面的故障不影响其他平面继续工作。例如当管理平面暂时故障时,业务平面还能够用于继续访问虚拟机。此外,系统还支持基于VLAN的优先级设定,使得内部的管理/控制报文具备最高的权限,从而使得在任何时候,管理员和用户均可以管控系统。下图给出了从服务器接入层交换设备汇聚层交换设备间的网络连接图:图2-2 网络分平面通信隔离示意图在服务器内部,可通过对多个网卡的合理绑定和分类,允许将管理、业务和存储平面部署在不同物理网卡上,并将其连接到不同的接入层交换设备接口上,从而实现物理层面的网络隔离。2.3 管理节点HAFusionSphere的业务主备管理节点采用管理平面的心跳检测,备用节点实时检测主用节点的健康状态,一旦发现主用管理节点故障,备用管理节点将立刻接管主用节点业务,持续对外提供服务。针对管理节点上的应用进程,通过采用软件狗的方式对运行在管理节点上的进程进行实时检测,如发现进程吊死或进入死循环,软件狗将会检测到相关进程的异常状态,并触发相关进程的重启恢复;如果发现进程重启后仍不能恢复正常,则进行业务管理节点的主备倒换并出主备心跳异常告警以保证应用进程的可靠性。图2-3 管理节点HA示意图管理节点负责对全系统的业务进行管理,采用主备高可靠性的工作方式,如果主备管理节点同时故障,相关的新增业务会受影响,例如虚拟机的创建和删除等,但对于已经存在并运行中的虚拟机无影响,用户继续使用虚拟机上的应用程序,不会有任何感知。2.4 流量控制为向用户提供稳定的高可用的并发业务和避免大流量冲击导致系统崩溃,管理节点针对系统关键流程设计了完善的流量控制机制。首先在VRM接入点采用操作流控措施,从前端抑制系统过载,保证系统的稳定性。其次是针对系统内部的瓶颈环节,增加了镜像文件下载流控,鉴权、虚拟机相关业务流控(包括虚拟机迁移,虚拟机HA,虚拟机的创建,虚拟机的休眠和唤醒,启动和停止),O&M流控,确保各个环节不因为流量过载导致业务失效。2.5 故障检测系统提供了故障检测和告警的功能,同时它包括了在Web浏览器中显示故障信息的工具。一旦集群进入正常状态,系统提供使用数据可视化工具观察集群管理和分配负载的功能,可以帮助用户确定是否有负载均衡问题、失控进程或硬件性能下降的趋势,将对合理调整、分配系统资源,提高系统整体性能起到重要作用。历史记录允许查看集群每日的、每周的,甚至是每年消耗的硬件资源。通过在每个被检测的节点包括定制化的虚拟机上运行探针程序,OM系统可以收集被检测节点或者虚拟机的核心指标如CPU使用情况、基础网络流量和内存数据等,检测到诸如进程崩溃、管理和存储链路异常,节点宕机、系统资源过载等各种异常,使系统具备完善的故障检测能力。另外华为FusionSphere解决方案提供了健康检查工具,为技术支持工程师和维护工程师提供的一套日常检查工具,并能输出各部件健康检查报告,方便技术支持工程师和维护工程师快速了解系统的健康状况。通过检查系统当前信息和运行状态,反映系统健康或亚健康状态,在开局、巡检、升级等维护场景中使用。2.6 数据一致性审计FusionSphere提供了数据一致性审计功能,除了系统本身针对关键资源提供的自审计和恢复能力之外,还支持定时审计VM,卷,网络等关键资源的数据和状态的一致性,发现有异常,会自动记录或出告警,并针对记录情况提供操作指导,以便维护人员做相应的判断和恢复措施,从而保证系统内部各种相互关联数据的一致性,防止残留资源数据对系统的影响。2.7 管理数据备份与恢复系统提供管理节点配置数据和业务数据定期本地和异地备份能力,支持与第三方FTP Server对接配置的能力。当管理节点服务异常无法自动修复时,通过本地备份的数据立即恢复;当由于灾难性的故障导致管理节点双点同时故障且不能通过重启等操作进行恢复,可使用异地备份数据立即恢复(1个小时之内完成),减少故障恢复时间。2.8 全局时间同步FusionSphere解决方案系统内部提供了时钟同步功能,可以保证所有网元(IPSAN,交换机,管理节点,计算节点,服务器BMC,防火墙等)时间一致,还支持外接NTP时钟源设备,可以保证全局时间统一且精准,方便系统维护以及各个网元的正常消息交互。 3 FusionCompute可靠性3.1 虚拟机热迁移虚拟机是弹性计算服务的资源实体,为保证虚拟机的可用性,规避业务中断的风险,系统提供虚拟机热迁移能力,即虚拟机在不中断业务的情况下实现迁移。虚拟机迁移时,管理系统会在迁移的目的端创建该虚拟机的完整镜像,并在源端和目的端进行同步。同步的内容包括内存,寄存器状态,堆栈状态,虚拟CPU状态,存储以及所有虚拟硬件的动态信息。在迁移过程中,为保证内存的同步,虚拟机管理器(Hypervisor)提供了内存数据的快速复制技术,从而保证了在不中断业务的情况下将虚拟机迁移到目标主机(图示如下)。同时,通过共享存储保证了虚拟机迁移前后持久化数据不变。图3-1 虚拟机热迁移特性示意图降低客户的业务运行成本:根据时间段的不同,客户的服务器会在一定时间内处于相对空闲状态,此时若将多台物理机上的业务迁移到少量或者一台物理机上运行,而将没有运行业务的物理机关闭,就可以降低客户的业务运行成本,同时达到了节能减排的作用。 保证客户系统的高可靠性:如果某台物理机运行状态出现异常,在进一步恶化之前将该物理机上运行的业务迁移到正常运行的物理机上,就可以为客户提供高可用性的系统。 硬件在线升级:当客户需要对物理机硬件进行升级时,可先将该物理机上的所有虚拟机迁移出去,之后对物理机进行升级,升级完成再将所有虚拟机迁移回来,从而实现在不中断业务运行的情况下对硬件进行升级,保证服务的持续可用性。虚拟机热迁移典型应用场景:l 根据需要按照迁移目的手动把虚拟机迁移到空闲的物理服务器l 根据资源利用情况将虚拟机批量迁移到空闲的物理服务器3.2 存储冷热迁移FusionSphere提供了虚拟机磁盘的冷迁移和热迁移,冷迁移是在虚拟机关机时候,将其磁盘文件从一个存储移动到另一个存储,热迁移可以在不中断业务的前提下,将虚拟机磁盘从一个存储迁移至另一个存储。图3-2 存储冷迁移原理架构图3-3 存储热迁移原理架构3.3 虚拟机负载均衡系统发放一个虚拟机、虚拟机热迁移或者计算节点故障异地重启恢复时,在系统配置成负载均衡模式的情况下,根据各个物理计算服务器节点现有的负载状况进行动态的调配,使得集群中各个物理计算服务器的负载处于一个动态的均衡状态。3.4 虚拟机HA当CNA物理服务器宕机或者重启,系统可以将具有HA属性的虚拟机故障迁移到其他计算服务器,保证虚拟机能够快速恢复。当计算服务器宕机后,由于单个集群内可以运行上千个虚拟机,为避免大量虚拟机迁移造成网络拥塞和目的服务器过载,系统会根据网络流量、目的服务器负荷选择将虚拟机迁移到不同的目的服务器。图3-4 虚拟机HA特性示意图当VRM与CNA的心跳中断超过30秒则会触发虚拟机HA,当一个虚拟机有运行状态突然异常消失也会触发HA在其他正常的计算节点上快速恢复业务。防止脑裂:通过存储层面的锁机制防止同一个虚拟机实例在多个CNA上同时启动。CNA节点的掉电恢复:CNA节点掉电恢复后,业务进程开机自启动恢复,其上之前运行的虚拟机全部故障迁移至其他计算节点。3.5 虚拟机HA主机自治FusionSphere支持虚拟机HA主机自治。HA主机自治功能使主机可以不依赖VRM进行心跳检测,通过在主机之间实行网络心跳检测,从而在VRM故障时,主机之间仍然可以正常HA。HA主机自治功能可同时配置与主机相关联的数据存储来检测主机的状态,避免管理网络故障时VRM对HA的结果产生误判。虚拟机HA主机自治功能开启后,支持主机业务平面故障检测并告警。3.6 虚拟机故障隔离虚拟机的本质就是通过虚拟化技术,将一台物理服务器虚拟成多个计算机。虚拟机之间彼此相互独立,一个虚拟机故障不会影响其他虚拟机。用户对虚拟机的使用体验和对传统物理机的体验相同。图3-5 虚拟化环境下的软件协议栈示意图因此在一个虚拟机内的任何操作,不对同一台物理服务器上的其它虚拟机和虚拟化平台自身的可用性产生危害。即使虚拟机的运行出现故障,比如操作系统崩溃、应用程序错误导致死机等情况,同一物理服务器上的虚拟化平台以及其它虚拟机仍然可以正常运行,继续为用户提供服务。3.7 虚拟机OS故障检测当虚拟机本身发生故障时,系统能够根据用户预先设置的故障处理策略,通过虚拟机与主机之间的心跳,再配合虚拟机的网络和磁盘IO行为判断虚拟机是否故障,并决定在本地或异地重新启动虚拟机,尽快恢复业务的运行。用户也可以设置为虚拟机发生故障后不作处理,在这种故障处理策略下,系统即使检测到虚拟机发生故障,也不会去重启。对于虚拟机OS内部故障,如Windows虚拟机的蓝屏故障,或Linux虚拟机黑屏挂死,这类故障系统能检测到并处理。l 增强系统的自动化维护手段,减少了维护人力投入。l 最大限度的减少了虚拟机业务中断时间,缩短了平均故障恢复时间,提升系统可靠性。3.8 黑匣子虚拟化软件和虚拟化管理软件支持黑匣子功能,在管理节点或者计算节点出现系统崩溃、进程死锁或异常复位故障时,会将“临死信息”备份到本地目录,用于后续故障定位。黑匣子主要用于管理节点和计算节点上收集并存储操作系统异常退出前的内核日志、诊断工具的诊断信息等数据,以便操作系统出现死机后,系统维护人员能将黑匣子功能保存的数据导出分析。为了让这些系统定位数据不丢失,黑匣子支持把操作系统死机前收集的数据通过netpoll方式实时发送至远端服务器进行备份,如果网络异常则会保存在本地。3.9 管理节点虚拟化部署FusionSphere解决方案管理软件可以选择部署到虚拟机中,即管理节点支持虚拟化部署模式。管理节点部署到虚拟机上(即管理节点虚拟机),其本身支持主备冗余,热迁移,HA,另外:l 主备管理节点虚拟机支持使用IPSAN存储和本地存储,除了IPSAN本身高存储可靠性,主备管理虚拟机存储还支持使用RAID组,进一步提升了系统的可靠性。l FusionCompute支持管理节点虚拟机开机自启动(即管理节点虚拟机所在主机上电,VRM管理节点虚拟机支持自启动)当主备管理节点虚拟机由于异常同时故障都无法自动启动时,FusionManager支持VRM的心跳故障检测和告警,并且FusionCompute本身提供管理节点拉起工具进行恢复。3.10 主机故障恢复CNA节点故障更换支持如下场景:整机,硬盘,主板,网卡,RAID卡。当整机或者CNA节点操作系统故障,通过重启或者对应的告警处理无法恢复时,FusionCompute支持对该节点进行更换,并支持一键式或命令行方式恢复其上原有的业务和配置。主机恢复后其上绑定主机的虚拟机能够自动被拉起,并且之前在添加主机时进行的网络,存储,计算,ntp等公共配置能够自动恢复。4 FusionStorage可靠性分布式存储FusionStorage作为一种与计算融合的存储软件,通过在服务器上部署该软件,可以将所有服务器的本机磁盘组织成一个虚拟存储资源池,在某些使用场景下完全替换外置SAN。FusionStorage使计算和存储高度融合,达到高性能、高可靠、高性价比。4.1 数据存储冗余设计FusionStorage支持用户数据按照设定的两副本、三副本进行冗余存储。如下图所示,以3个节点组成一个资源池,存储数据为两副本的简单模型,1个节点上的主副本数据,其备副本数据会均匀分布在其他节点上,单点故障系统不会丢失数据。图4-1 FusionStorage 数据两副本存储示意图l 两副本场景下,在FusionStorage一个资源池内,出现一块磁盘故障,整个系统不会丢失数据,不影响业务正常使用。l 三副本场景下,在FusionStorage一个资源池内,出现两块磁盘同时故障整个系统不会丢失数据,不影响业务正常使用。l FusionStorage系统数据持久度在两副本场景下,达到4个9,在3副本场景下数据持久度达到7个9。4.2 多故障域设计FusionStorage默认一个资源池为一个故障域。如下图所示,FusionStorage存储系统创建了两个资源池,默认为2个独立的故障域,当不同资源池(故障域)各出现一块硬盘同时故障时,不会出现双点故障或三点故障,即全系统不会数据丢失,很大程度上降低了双点故故障或三点故障的概率。图4-2 FusionStorage多故障域示意图4.3 数据安全级设计同一个资源池内,数据存储支持Server级或Rack级粒度的安全分布,可有效降低两副本双盘故障或三副本三盘故障的概率。1. Server级安全级别。系统默认为Server级安全界别。同一节点内主副本数据,对应的备副本数据,仅会分布在该节点之外的其他节点上。这样,同一Server内任意磁盘故障,整个系统不会丢失数据,不影响正常业务使用,如下图所示。图4-3 FusionStorage数据安全级示意图(Server级)2. Rack级安全级别。同一Rack内主副本数据,其对应的备副本数据,仅会分布在该Rack之外的其他节点。这样,同一Rack内任意刀片或磁盘故障,整个系统不会丢失数据,不影响正常业务使用,如下图所示。图4-4 FusionStorage数据安全级示意图(Rack级)4.4 数据强一致性FusionStorage采用强一致性复制协议来保证多个副本数据的一致性,即只有当所有副本都写成功,才返回写入磁盘成功。正常情况下FusionStorage保证每个副本上的数据都是完全一致,从任一副本读到的数据都是相同的。如果某个副本中的某个磁盘短暂故障,FusionStorage会暂时不写这个副本,等恢复后再恢复该副本上的数据;如果磁盘长时间或者永久故障,FusionStorage会把这个磁盘从群集中移除掉,并为副本寻找新的副本磁盘,再通过“rebalance”机制使得数据在各个磁盘上的分布均匀。4.5 NVDIMM掉电保护FusionStorage运行过程中在内存中有一些关键的动态数据(如元数据等),如果服务器掉电则这些数据会丢失。为了防止这种情况的发生,FusionStorage引入了NVDIMM来保证节点突然掉电的数据不会丢失,NVDIMM是一种非易失性的内存,具备访问速度快,掉电后数据不会丢失的特点。4.6 I/O流控FusionCube支持I/O资源过载流控。当IO过载时,根据流控算法和策略有选择的减少低优先级业务,优先保证一定的高优先级业务成功,避免系统因资源不足而出现处理延迟、业务成功率降低,严重时出现系统复位、宕机等。4.7 磁盘应用可靠性FusionCube支持硬盘Smart检测、快慢盘检测、磁盘SCSI错误处理、硬盘热插拔和识别处理、磁盘扫描等,上层业务根据Smart Data返回的相关IO错误和磁盘状态信息, 完成读修复、磁盘移除和重建、坏块标记、有效数据磁盘扫描、Smart超阈值和慢盘处理(预重建后移除磁盘)。l 读修复功能(Read Repair) Read Repair是一种在读操作时,当发现有读失败,会判断错误类型,如果发现是磁盘扇区读取错误,可以通过从其它副本读取数据,然后重新写入的方法进行恢复。这是磁盘的特性,对大部分读扇区错误可以修复。如果此方法还不能修复,那么就通过隔离流程为副本选择其它硬盘并把故障的硬盘踢出集群。l 坏块标记(BST)如果系统在磁盘扫描或者读数据的过程中,有坏道存在,数据访盘产生EIO错误,首先会进行上面的读修复流程,从另一个副本读取数据修复,但是在修复时,可能另一个副本不可用,此时需要对坏块进行BST标记,这小块数据丢失了,后续通过上层应用修复。l 移除磁盘和重建通过SmartData检测到磁盘WP,ABRT,DF等相关错误,Smart Data上报特殊的EIO到DSware,可以直接进行踢盘判断和处理,如果当前只有一个副本,则拒绝移除磁盘,走双盘失效流程;如果当前有两个副本,则可移除磁盘并进行数据重构。l 有效数据磁盘扫描通过对数据进行读取扫描,防止静默数据错误(silent data corruption),如果扫描失败出现坏道(返回扩展的EIO),则进行更细粒度的扫描出具体是哪些扇区故障,针对故障扇区进行读修复;如果读修复不成功,进行坏块BST标记;l Smart超阈值、慢盘的处理(先预重建后踢盘)当检测到超阈值或者慢盘时,系统优先将该盘上的主分区迁移,同时预先重建另一份拷贝(如果原有为2份拷贝,新增1份变为3份拷贝),待这份拷贝重建完成后,再将超阈值或慢盘进行移除磁盘处理。4.8 元数据高可靠性卷、快照等配置信息的元数据,在系统中存放在两个元数据卷上,每个元数据卷是2份拷贝,全系统为4份副本,确保元数据的高可靠。5 FusionManager可靠性5.1 管理节点HA部署管理系统采用板级主备,主节点通过浮动IP地址对外提供服务。当主节点被检测进程故障、主节点OS崩溃、主节点所在主机OS崩溃,系统发生主备倒换,备节点升主,配置浮动IP地址并将MAC地址刷新到网关,所有原主节点检测的进程在备节点启动,对外提供服务。主备管理节点采用管理平面的心跳检测,备用节点实时检测主用节点的健康状态,一旦发现主用管理节点故障,备用管理节点将立刻接管主用节点的任务,保证整个系统不间断运行。5.2 主备双机数据一致性系统采用支持双机运行数据库,正常运行时,主数据库提供读写操作,当主数据库有变更时,实时的将变更同步到备数据库,为保证主数据库的性能,该同步采用异步方式进行。系统主备倒换时,数据库平滑切换,确保数据不丢失。5.3 管理数据即时备份在重大操作维护工程师在对系统进行重大操作(如升级、重大数据调整等)前,为了保证FusionSphere在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低,可提前对FusionCompute,FusionManger网元的管理数据进行备份。FusionManager支持管理数据备份与第三方FTP Server对接配置,支持各个网元备份管理数据上传至第三方FTP服务器。支持对FusionCompute,FusionManager网元的管理数据统一即时备份和备份状态查询。5.4 进程僵死保护由于系统原因会出现进程运行状态正常,但是不提供服务的情况,这种状态叫进程僵死, FusionManager增加了进程僵死保护的机制,可以检查出进程处于僵死状态, 并自动将出于僵死状态的进程杀死重新启动,从而让进程正常提供服务。6 网络可靠性网络子系统主要采取以下四个措施来增强系统的可靠性。分别是:通过网卡绑定技术提高服务器端口的可用性;可以通过交换机堆叠技术将两台交换机虚拟成一台使用在提高链路的利用效率的同时大大提高了接入交换机的可靠性;同时通过Trunk后的SmartLink技术接入汇聚交换机。最后在核心路由器侧,采用VRRP技术部署主备两台路由器以便提高网络核心部分的可用性。数据中心网络总体方案如下: 图6-1 数据中心网络总体方案示意图整体网络划分为三层,分别为:1)接入层服务器和存储设备上行接入到接入层交换机。服务器侧建议采用6网卡(业务+管理+存储)方式进行组网,业务、管理平面分别通过两网卡聚合确保链路冗余,存储平面通过多路径确保链路冗余。在接入交换机划分VLAN,将管理、业务、存储三个平面逻辑隔离。为简化组网提高组网可靠性,建议接入交换机采用堆叠方式:业务平面网络:用于承载虚拟机业务数据。管理平面网络:用于承载管理服务器以及资源服务器之间的内部管理消息流量。存储平面网络:用于承载服务器和磁盘阵列之间的专用数据访问。2)汇聚层接入交换机上行到汇聚层交换机。汇聚交换机建议采用交换机集群的方式,接入交换机采用ETH-TRUNK上行至汇聚交换机,汇聚交换机堆叠之后,无需启用VRRP功能,如果需要汇聚交换机提供网关功能,则直接将VLAN IF接口作为用户网关地址。3)核心层汇聚交换机上行接入核心层交换机。核心交换机也建议采用集群的方式。核心交换机采用OSPF或者静态路由的方式同上层设备进行对接:当采用OSPF对接时,OSPF发布地址包括核心交换机互联地址,直连路由地址以及loopback地址。当采用静态路由方式时,建议核心交换机同上级设备采用VRRP地址为网关地址。6.1 存储多路径访问计算节点支持存储Initiators模块的冗余部署,其上虚拟机通过标准协议(iSCSI等)访问存储系统,并通过多块网卡的负荷分担技术、交换机的堆叠和集群技术提供存储路径的物理冗余。图6-2 数据存储多路径访问示意图上图给出了计算节点和存储节点使用协议通信时的多路径访问流程,任意一个虚拟机对所挂载的任意一个虚拟卷,都将至少有两个完全冗余的路径来实现卷的多路径访问,并通过多路径软件来实现访问多路径的控制和故障切换,从而避免单点故障带来的系统可靠性问题。6.2 虚拟化网络流量控制虚拟化网络流量控制提供发送方向的带宽配置控制能力,包含二个部分:1.基于网络平面的带宽控制;2.基于虚拟网卡的带宽控制。1)基于网络平面的带宽控制图6-3 网络平面QoS示意图支持基于网络平面的带宽控制功能,管理平面、存储平面和业务平面基于物理的带宽能力,分配一定配额的带宽,保证各个平面的流量拥塞不影响到其它平面。可配的参数有:保证带宽(服务器需配备智能网卡),上限带宽和带宽优先级。提供网络平面的保证带宽能力(需要配备智能网卡),保证各个网络平面的流量,即使在极端拥塞的情况下,其带宽至少能达到保证带宽所配置的值。系统管理员可根据实际环境的业务场景,分配大小合理的保证带宽给网络平面使用。2)基于虚拟网卡的带宽控制支持基于虚拟网卡的保证带宽(服务器需配备智能网卡),上限带宽,带宽优先级控制能力,保证虚拟机的网络通信质量,同时避免不同虚拟机之间的拥塞互相影响。当某一虚拟机由于业务需要,要求对其某个虚拟网卡使用的带宽提供保证,以保证虚拟机在拥塞的情况下仍然保持高质量的网络通信,可通过设置虚接口的保证带宽来实现。当管理员需要限制某一虚拟机可占用的带宽的上限时,可通过设置虚拟机网卡的上限带宽来实现。当管理员需要拥塞情况下,对于不同的虚拟机有不同的带宽抢占能力时,可通过配置其带宽优先级来实现,使优先级高的虚拟机抢到更多的带宽。6.3 网卡负荷分担对于物理服务器提供的多块网卡,出于可靠性以及流量负载均衡的考虑,系统采用了Bonding模式(支持主备和负荷分担绑定模式)。使用绑定模式之后,网卡被绑定成逻辑上的“一块网卡”后,同步一起工作,对服务器的访问流量被均衡分担到多块网卡上,这样每块网卡的负载压力就很多,抗并发访问的能力提高,保证了服务器访问的稳定和畅快,而且当其中一块发生故障的时候,另外的网卡立刻接管全部负载,过程是无缝的,服务不会中断。避免单个网卡或者链路故障引发的业务中断。服务器绑定多网卡的实际意义在于当系统采用绑定多网卡形成阵列之后,不仅可以扩大服务器网络进出口带宽,而且可以实现有效负载均衡和提高容错能力,避免服务器出现传输瓶颈或者因某块网卡故障而停止服务。6.4 交换机堆叠堆叠是将同一物理位置上的交换机通过堆叠电缆或高速上行口组成一个高可靠的设备组,例如S5300接入交换机设备是通过堆叠口实现堆叠的。通过堆叠,在提高可靠性的同时,可以实现对交换机的集中管理和维护,降低用户的维护成本。通过堆叠技术,将两台物理交换机作为一台交换机进行处理,交换机之间无需配置TRUNK,对于接入设备服务器而言,相当于只看到一台物理设备。处于堆叠组中的两台物理交换机处于主备状态,单台设备故障,由另外一台设备接管。堆叠系统建立之前,每台交换机都是单独的实体,每台交换机有自己独立的IP 地址,对外体现为多台交换机,用户需要独立的管理所有的设备;堆叠建立后堆叠成员对外体现为一个统一的逻辑实体,用户使用一个IP 地址对堆叠中的所有交换机进行管理和维护,堆叠协议会通过选举确定堆叠的主交换机、备用交换机和从交换机,可以实现主备交换机之间数据备份和主备倒换。交换机通过堆叠线缆连接成环型或链型,运行堆叠管理协议,选举出主交换机,负责堆叠系统的管理,包括分配堆叠成员的ID、收集堆叠的拓扑信息,并将拓扑信息通告给所有的堆叠成员;主交换机指定备用交换机,备交换机在主交换机出现故障的时候升级为主交换机来管理整个堆叠。6.5 交换机互连冗余Smart Link,中文译为灵活链路,又称为备份链路,是一种为链路双上行提供可靠高效的备份和切换机制的解决方案,常用于双上行组网。相比STP(Spanning Tree Protocol,生成树协议),Smart Link 技术能够提供更高的收敛性能,相比RRPP(Rapid RingProtection Protocol)和SEP(Smart Ethernet Protection),Smart Link 技术提供了更简洁的配置使用方式。双上行组网是目前常用应用组网之一,该组网下通过生成树协议阻塞冗余链路,起备份作用。当主用链路故障时,将流量切换到备用链路。虽然这种方案从功能上可以实现客户冗余备份的需求,但是在性能上却不能达到很多用户的要求,因为即使采用快速生成树协议的快速迁移,也只能是秒级的收敛速度。这对于应用于电信级网络核心的高端以太网交换机,是非常不利的一个性能参数。基于上述原因,华为FusionSphere合引入了Smart Link 解决方案,针对双上行组网,实现主备链路冗余备份及快速迁移。该方案为双上行组网量身定做,即保证了性能,又简化了配置,同时,作为对Smart Link 的一个补充,还引入了端口联动的方案,也即是Monitor Link,用于检测上行链路,使Smart Link 备份作用更为完善。6.6 虚拟路由冗余保护VRRP(Virtual Router Redundancy Protocol)虚拟路由冗余协议,是一种容错协议。该协议通过把几台路由设备联合组成一台虚拟的路由设备,使用一定的机制保证当主机的下一跳交换机出现故障时,及时将业务切换到其它交换机,从而保持通讯的连续性和可靠性。VRRP 将局域网的一组路由设备构成一个VRRP 备份组,相当于一台虚拟路由器。局域网内的主机只需要知道这个虚拟路由器的IP 地址,并不需知道具体某台设备的IP 地址,将网络内主机的缺省网关设置为该虚拟路由器的IP 地址,主机就可以利用该虚拟网关与外部网络进行通信。VRRP 将该虚拟路由器动态关联到承担传输业务的物理设备上,当该设备出现故障时,再次选择新设备来接替业务传输工作,整个过程对用户完全透明,实现了内部网络和外部网络不间断通信。7 硬件可靠性硬件可靠性主要是服务器的硬件冗余以及故障检测,下面以RH2285型号的华为自研服务器为例介绍。7.1 内存可靠性内存错误主要包括硬错误和软件错误,其中硬件错误是由于失效或者损坏的硬件造成的,器件会不断返回不正确的数据,硬件错误可以通过RH2285等自研服务器启动
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育技术应用授课案例分析
- 矛盾纠纷预警机制建设实务指南
- 电力设备巡检及故障处理规范
- 六年级英语语法知识总结
- 基层医疗机构护理人员培训教材全集
- 妊娠合并心脏病产后管理方案
- 八年级语文经典古诗文默写练习
- 工业机器人维护手册
- 糖皮质激素临床应用点评报告
- 教育培训机构教师考核与激励方案
- 间歇充气加压用于静脉血栓栓塞症预防的中国专家共识(2022年版)
- 长春南湖水质情况分析报告
- 外阴癌疾病演示课件
- 孙康映雪的故事
- (完整版)《供应链管理》历年自考判断题试题及答案
- 地质灾害治理工程单元、分部、分项工程划分(完整资料)
- MySQL数据库PPT完整全套教学课件
- 十四号线道岔监测系统的应用与分析
- GB/T 6441-1986企业职工伤亡事故分类
- 剖宫产术后护理常规
- 分子杂交技术hu
评论
0/150
提交评论