可用性解决方案设计思路.doc_第1页
可用性解决方案设计思路.doc_第2页
可用性解决方案设计思路.doc_第3页
可用性解决方案设计思路.doc_第4页
可用性解决方案设计思路.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一部分:可用性(Availability)设计可用性设计的重要性可用性设计是数据中心规范化设计的核心。从总体原则来讲,可用性设计是数据中心面向服务设计的基础,通过可用性设计,理清每一种业务的可用性等级、所需资源及资源之间的依赖关系,才能最终为相应的业务提供适当的服务;从运维管理来说,可用性设计是服务等级协议(Service Level Agreement,简称SLA)的核心内容,没有可用性分析和设计,在运维管理中,就无法做到重点突出、张弛有度,将使运维管理的标准化、流程化失去支撑,变成空中楼阁;从未来的容灾规划来说,可用性设计为容灾设计提供了依据。任何的容灾标准都有科学、严格的等级划分,任何的容灾规划都会根据业务的可用性等级适用相应的容灾等级,进行科学的匹配,从而为不同的业务应用提供适用的保护等级;因此,没有可用性设计的数据中心规划是不完整的,将会使核心业务暴露在极高的风险中。可用性设计的原则一、 设计逻辑顺序原则应该通过业务的可用性调研,推导出适用的技术,再通过技术推导出适用的产品,最后再对方案和预算进行双向匹配,作出最优化的调整;二、 核心业务优先原则当由于预算、技术条件或其他资源限制而需要妥协时,应首先保证核心业务需要;三、 避免漏洞原则由于可用性是一个“链”,忽略任何一个环节,都可能导致整个业务系统出现单点故障,而避免出现单点故障也是进行可用性设计最重要的目标之一。另一方面,任何的系统都不可能没有漏洞,最重要的是当出现问题的时候,一定要有相应的后备手段。比如:我们都知道高端磁盘阵列的可用性是最高的,设备本身都是全冗余设计,但我们不能寄希望于这个单一设备不发生故障,如果设备发生故障,我们必须要有相应的后备手段来控制系统的停机时间;四、 以数据为核心的原则由于数据是整个数据中心的核心资产,是业务运行的基础,而且数据具有唯一性、不可再生性等特点,所以在可用性设计中,数据的可用性是核心;五、 平衡性原则掌握平衡是一门艺术,我们要进行集中,但不能为了集中而集中,管理层面需要集中,将控制点集中,有利于管理。设备层面需要根据客观情况进行分布式部署,从而为不同的应用提供相应的可用性、冗余度、计算资源、存储资源等。特别需要注意的是,不能在集中的过程中造成某些环节过于集中,从而形成单点故障,适度的分散和隔离有利于防止大规模全面瘫痪的恶性事故。可用性分析的基本方法第一,可用性分析是以应用为对象进行的,换句话说,用户需要对前端业务的真实可用性需求有一个基本准确的把握。如果IT部门不是很清楚的话,调研人员可以协同IT部门向业务需求部门的主管人员征询,一般可以用单位停机时间造成的损失进行衡量。主要的目标是确定每一个业务应用可用性的范围,务必实事求是;第二,可用性分析的核心量化指标是RPO/RTO,如下图所示:IT系统的可用性核心指标就是恢复点和恢复时间,这是可用性调研的主要内容。第三,可用性是一个“链”,就像所谓“木桶原理”,可用性的最终指标,取决于最薄弱的环节也就是我们通常所说的“单点故障(Single-Point-of-Failure)”,因此,我们需要在分析中,找到每一个应用对应的整个链条,而不是将整个注意力放在某一个焦点上。如下图所示:即使在一个非常简单的网络中,一个应用系统也会存在一个完整的链条:从客户端到网络,再到服务器、存储设备,任何一个环节出现故障,都会导致应用一定程度的可用性丧失。而越是集中的点(如存储、服务器),故障导致的破坏性越大,反之,越是分散的点(如客户端、桌面交换机),故障导致的破坏性越小。当然,IT设备之外的支撑设施(如供电系统、制冷系统)也是应用可用性链条中的一个环节,但那部分的可用性规划放在机房建设章节中具体论述,此处不作为重点。第四,在调研的基础上,有针对性地采用不同的技术来满足不同应用的可用性要求。如下图所示:从这张图上,我们可以简单地对业务系统的关键程度进行级别的划分,RPO/RTO要求越高的应用越是关键,反之亦然。那么,不同的业务级别,相应地就应该采用不同的技术来满足其要求。如非关键业务通常利用传统的备份恢复手段,可以达到小时到天级别的可用性等级,而关键业务则应采用集群、映像恢复、数据镜像、快照等技术来满足,可以达到分钟到秒级的可用性等级。针对数据中心整合后可用性提高的具体建议在调研的基础上,我们可以对咸阳社保各个委办局的应用进行可用性级别的划分,如下表所示:A、B、C三类服务器其实代表了三类不同的应用,它们的可用性级别依次分别为高中低三个档次。相应地,这三类应用可用性需要采用的技术如下表所示:应用可用性级别技术A类服务器集群、存储镜像B类系统映像恢复、数据快照C类系统映像恢复、传统备份恢复技术解释什么是集群?集群(Cluster)是由两台或多台节点机(服务器)构成的一种松散耦合的计算节点集合,为用户提供网络服务或应用程序(包括数据库、Web服务和文件服务等)的单一客户视图,同时提供接近容错机的故障恢复能力。集群系统一般通过两台或多台节点服务器系统通过相应的硬件及软件互连,每个群集节点都是运行其自己进程的独立服务器。这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统,协同起来向用户提供应用程序、系统资源和数据。除了作为单一系统提供服务,集群系统还具有恢复服务器级故障的能力。集群系统还可通过在集群中继续增加服务器的方式,从内部增加服务器的处理能力,并通过系统级的冗余提供固有的可靠性和可用性。集群的分类:1、 高性能计算科学集群:以解决复杂的科学计算问题为目的的IA集群系统。是并行计算的基础,它可以不使用专门的由十至上万个独立处理器组成的并行超级计算机,而是采用通过高速连接来链接的一组1/2/4 CPU的IA服务器,并且在公共消息传递层上进行通信以运行并行应用程序。这样的计算集群,其处理能力与真正超级并行机相等,并且具有优良的性价比。 2、 负载均衡集群:负载均衡集群为企业需求提供更实用的系统。该系统使各节点的负载流量可以在服务器集群中尽可能平均合理地分摊处理。该负载需要均衡计算的应用程序处理端口负载或网络流量负载。这样的系统非常适合于运行同一组应用程序的大量用户。每个节点都可以处理一部分负载,并且可以在节点之间动态分配负载,以实现平衡。对于网络流量也如此。通常,网络服务器应用程序接受了大量入网流量,无法迅速处理,这就需要将流量发送给在其它节点。负载均衡算法还可以根据每个节点不同的可用资源或网络的特殊环境来进行优化。 3、 高可用性集群: 为保证集群整体服务的高可用,考虑计算硬件和软件的容错性。如果高可用性群集中的某个节点发生了故障,那么将由另外的节点代替它。整个系统环境对于用户是一致的。 在可用性设计中,我们所说的集群通常指的是高可用性集群,或者叫“故障转移集群”,主要是用于防止服务器的单点故障造成整个应用的停机。由于传统的双机热备方式,造成服务器利用效率只有50%,在新上应用或者服务器更新换代时都同时购买两台,构成双机热备的模式。通过数据中心整合,可以将传统的双机热备模式改造成N:1或者N:M的热备模式,如下图所示:例如:在一个中型规模的数据中心,具有6个核心应用,原来采用6套双机热备系统,总共12台服务器,在进行整合以后,可以将整个集群整合为6:1模式,只需要一台热备服务器,总共7台服务器,即可达到原来12台服务器所具有的可用性指标(即任意一台服务器发生故障,都有热备服务器可以接管该应用),节省5台服务器。这就可以大大提高高可用集群中服务器的利用效率。什么是存储镜像(Mirroring)?镜像功能实现了两台存储设备(支持DAS、SAN、IP-SAN等)之间的镜像关系,每一次I/O的写入都分别通过两条主机通道到达两台存储设备的控制器,并当两个I/O都返回正确的结果之后,操作才算完成。如下图所示:所以,两台磁盘阵列中的数据完全保持实时同步,不用担心任何的数据一致性问题。当某一台存储设备发生故障时,镜像系统自动将故障设备排除出镜像关系,即在对故障设备的写入超时达到规定的阈值时,系统自动判断该存储设备发生故障,不再尝试写入到故障设备,而只是继续对另一台正常存储设备的读写,并将故障信息报告给系统管理员,请求人工干预,修复故障设备。当故障设备修复之后,如果原来的数据仍然存在,就可以利用快速重新同步(Fast Re-sync)将故障期间在另一台存储设备上发生的数据变化增量同步到修好的存储设备上,从而大大缩短系统的故障“愈合期”。在这种存储镜像架构中,没有存储设备的主从关系,实质上,这是镜像(Mirroring)和实时复制(Replication)的区别。什么是实时复制(Replication)?以VERITAS Volume Replicator为例,解释典型的实时复制是如何实现的。如下图所示:在上图中,有一个单独的卷,是VVR复制所需的日志卷,这是一个先进先出的队列,保证对源端和目的端写入的VVR数据卷中的数据在I/O级别保持一致性即每一个I/O在写入到VVR数据卷的时候都是完全一样的顺序,不管是在本地VVR数据卷,还是在目的端的VVR数据卷,都完全一样。如果我们需要将Oracle数据库应用进行远程复制,就需要对服务器中运行的Oracle数据库相关的数据进行复制,其中主要包括的数据为:Oracle数据文件、Oracle控制文件、Oracle重做日志、Oracle归档日志以及其他文件数据卷的内容(如应用程序、中间件等),这些数据都需要进行远程保护。因此,我们通过将上述相关的数据都放在VVR数据卷中,保证在复制过程中,上述数据能够实时复制到目的端对应的位置。除了上述这些有变化的数据之外,在服务器本地所存在的都是一些不会变化的数据,如Oracle数据库的安装文件等,这些数据在Oracle正常运行过程中是不会变化的,因此,只要配置好之后,并不需要对其进行实时复制保护,换句话说,在目的端的Oracle安装配置的参数,只要指定好对数据访问的路径,当进行容灾切换时,就能够将目的端的数据库启动起来,这些参数并不会随着业务系统的运行而变化。通过这样的方式,我们可以在本地和异地维护两套应用系统,包括其中所有的业务数据、配置信息及相应的运行环境等,从而实现远程异地容灾。实时复制技术的特点是区分主从站点,数据从主站点复制到从站点,如果主站点发生故障,则需要启用从站点的数据来为业务提供数据访问支持。由于主从切换的操作非常复杂,时间往往难以控制,所以一般需要尽量避免发生站点切换动作。因此,实时复制更多用于远程异地容灾,而不是本地数据中心内的高可用。结论一:A类应用适合采用集群+存储镜像的方式达到秒0级别的RPO/RTO目标。实时复制技术适合于远程异地容灾,而不是本地数据中心内的高可用。什么是裸设备恢复(Bare Metal Restore,简称BMR)?裸设备恢复是与传统恢复方式相比较而言的,如下表所示,传统恢复方式需要大约9个步骤才能恢复一台服务器的运行环境,而BMR只需要3个步骤,大大缩短了恢复系统所需的时间,减少了人工操作的复杂程度,从而为缩短停机时间提供了有效的工具。传统恢复Bare Metal Restore1. 修理硬件1. 修理硬件2. 收集所有必需的介质2. 点击“prepare to restor”3. 重新启动3. 重新启动4. 通过CD-ROM或软盘,重新安装操作系统5. 重新启动6. 通过CD-ROM,重新安装备份客户端软件7. 重新启动8. 从备份服务器进行恢复9. 重新启动BMR功能的作用就是简化和优化服务器的恢复过程。使用BMR解决方案,用户可以通过一个命令,系统就能在瞬间完成整个服务器恢复任务,既不需要对员工进行培训,也不需要执行繁琐的管理任务。利用这一个解决方案,就能够满足大量平台的需求,而且不需要为每台服务器定制恢复程序。其详细功能如下: 全自动系统恢复 通过一个命令,系统将自动执行服务器恢复任务,基本不需要用户进行干预,而且保证实现百分之一百的完整性和一致性。 简单易行的“傻瓜”恢复过程 在恢复数据之前,再也不需要由技术娴熟的技术人员重新安装操作系统和 配置硬件。 加快服务器的恢复速度 由于减少了设置系统和配置硬件的时间,服务器执行恢复的速度会加快,因此将使停机时间减少到最低限度。 自动恢复服务器配置 在每次执行预定备份任务时,系统将自动记录和更新磁盘配置和网络设置的详细信息,保证使所有系统配置完全恢复到故障发生前的状态。 连续快速恢复 能够执行多个服务器的恢复任务,同时执行海量恢复操作。什么是映像恢复(Image Restore)?技术人员所熟知的Symantec Ghost就是典型的映像恢复技术,只不过Ghost不能支持服务器的快速恢复。现在在Windows平台已经具有和Ghost类似的映像恢复技术。通过完全整合文件系统和数据块级别的备份恢复机制,可以达到比BMR更快速的备份恢复速度,利用Windows PE(Pre-installation Environment)技术将恢复工具整合到一张引导光盘,可以有效提高Windows映像恢复的灵活性、兼容性、性能。我们在做传统的硬件平台裸机恢复时,为了搭建一个启动环境常常需要手动收集媒介的维护和配置文件,这通常是一个非常痛苦的过程。因为每台服务器都有一个自己独自的配置,此外为了达到完全恢复的目的,备份必须随着系统配置的变化而实时更新,然而由于系统环境变量往往并不相同,要把所有的系统参数都收集起来是不现实的。利用映像恢复的Restore Anyware功能,能够以极快的速度在异构硬件平台之间(包括在不同的存储控制器和硬件抽象层)实现恢复。管理员可以在短短几分钟之内执行裸机恢复,除极大的缩短恢复时间之外,Restore Anyware功能也使得恢复过程变得连贯和可预见。因为使用Restore Anyware将不再需要处理传统恢复所需要的所有系统变量,可以估算,由于Restore Anyware 可以在异构硬件之间执行恢复,用户不需要为了恢复的目得而去购置维护另外一套相同的硬件平台,硬件投资被大幅度节省,显著降低IT部门的运行成本;另外一方面,即使用户不是采用新硬件平台执行恢复,而是仅仅打算更换一块板卡,或者一个处理器用以升级目前的硬件配置,有了Restore Anyware 也使得升级变得轻松而勿需担心了。Restore Anyware功能使得管理员可以在系统备份映像和 VMWare 虚拟机之间实现自由转换,从而可以更灵活地管理恢复环境。通常我们有很多理由需要把物理的系统迁移到虚拟的系统上,比如有时候系统运行在多虚拟服务器平台会比运行在一个单一的物理平台上更有效率,或者是当灾难发生时,我们往往没有足够的硬件将每个系统恢复到一个独立的物理硬件平台(或者说是相同的硬件平台)之上,此外,虚拟的系统也可以用作一个测试平台,当用户想对系统作一些更改或改进时(比如补丁程序、应用程序安装及其他程序),为了证实这些更改或改进不会导致实时运行系统上的运行故障,可以先将映像转换到虚拟环境,然后在这些虚拟平台上做测试,确认正常后再将其恢复到真实系统中。因此,与裸设备恢复相比较,映像恢复的主要优势是:一、单一的引导光盘,方便恢复管理;二、强大的异机恢复功能,跨越不同品牌、型号,甚至物理和虚拟之间的界限。什么是快照?快照的定义与作用SNIA(存储网络行业协会)对快照(Snapshot)的定义是:关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品。而从具体的技术细节来讲,快照是指向保存在存储设备中的数据的引用标记或指针。我们可以这样理解,快照有点像是详细的目录表,但它被计算机作为完整的数据备份来对待。快照有三种基本形式:基于文件系统式的、基于子系统式的和基于卷管理器/虚拟化式的,而且这三种形式差别很大。市场上已经出现了能够自动生成这些快照的实用工具,比如有代表性的有NetApp的存储设备基于文件系统实现,高中低端设备使用共同的操作系统,都能够实现快照应用;HP的EVA、HDS通用存储平台以及EMC的高端阵列则实现了子系统式快照;而Veritas则通过卷管理器实现快照。快照的作用主要是能够进行在线数据恢复,当存储设备发生应用故障或者文件损坏时可以进行及时数据恢复,将数据恢复成快照产生时间点的状态。快照的另一个作用是为存储用户提供了另外一个数据访问通道,当原数据进行在线应用处理时,用户可以访问快照数据,还可以利用快照进行测试等工作。因此,所有存储系统,不论高中低端,只要应用于在线系统,那么快照就成为一个不可或缺的功能。 两种类型目前有两大类存储快照,一种叫做即写即拷(copy-on-write)快照,另一种叫做分割镜像快照。 即写快照即写即拷快照可以在每次输入新数据或已有数据被更新时生成对存储数据改动的快照。这样做可以在发生硬盘写错误、文件损坏或程序故障时迅速地恢复数据。但是,如果需要对网络或存储媒介上的所有数据进行完全的存档或恢复时,所有以前的快照都必须可供使用。即写即拷快照是表现数据外观特征的“照片”。这种方式通常也被称为“元数据”拷贝,即所有的数据并没有被真正拷贝到另一个位置,只是指示数据实际所处位置的指针被拷贝。在使用这项技术的情况下,当已经有了快照时,如果有人试图改写原始的LUN上的数据,快照软件将首先将原始的数据块拷贝到一个新位置(专用于复制操作的存储资源池),然后再进行写操作。以后当你引用原始数据时,快照软件将指针映射到新位置,或者当你引用快照时将指针映射到老位置。 分割快照分割镜像快照引用镜像硬盘组上所有数据。每次应用运行时,都生成整个卷的快照,而不只是新数据或更新的数据。这种使离线访问数据成为可能,并且简化了恢复、复制或存档一块硬盘上的所有数据的过程。但是,这是个较慢的过程,而且每个快照需要占用更多的存储空间。分割镜像快照也叫作原样复制,由于它是某一LUN或文件系统上的数据的物理拷贝,有的管理员称之为克隆、映像等。原样复制的过程可以由主机(Windows上的MirrorSet、Veritas的Mirror卷等)或在存储级上用硬件完成(Clone、BCV、ShadowImage等)。即写快照和分割快照的定位不同。即写快照主要用于防止逻辑错误由于即写快照的数据必须依赖于原始数据的存在,当原始数据丢失以后,即写快照的数据将没有任何意义,所以不能防止存储介质问题导致的数据丢失;分割快照主要用于数据快速恢复由于分割快照的数据不依赖于原始生产数据的存在,当原始生产数据丢失以后,分割快照的数据可以立即启用,由于格式与原始数据完全一致,所以它比从备份系统中进行恢复速度快很多倍;另外,即写快照在初始化的时候,需要一个应用“写静默”的时间间隙,用于快照软件捕获当前卷的数据状态,写静默时间间隙的长短取决于生产卷的数据量大小。如果应用系统I/O过于频繁,将导致即写快照初始化失败。在初始化成功以后,系统对该卷的写入会产生两倍的I/O量,这将导致生产系统I/O性能的下降,直到删除此次即写快照为止。而分割快照的缺点主要是:1、初始化所需要的时间较长,分割快照和镜像初始化的时间相同,卷越大,时间越长;2、占用空间较大,快照所需的存储空间和生产卷相等。结论二:B类应用适合采用映像恢复(或裸设备恢复)+数据快照的方式达到分钟小时级别的RPO/RTO目标。数据快照还可用于A类服务器的时间点备份,提供即时可用的备份数据。系统恢复方面映像恢复优于裸设备恢复,优于传统恢复。传统备份恢复为什么仍然是必须的?虽然现在已经有很多技术可以很好地满足不同应用的RPO/RTO指标要求,但备份仍然是数据保护的最后一道保险。备份的重要特征是可以在与生产系统相隔离的存储介质上保存多个不同时间点的数据副本。这是存储镜像和实时复制所无法做到的,对于快照来说,要像备份系统一样保存无限多个数据副本也几乎是不可能的,那会浪费很多的在线存储空间,并造成生产系统的性能下降。什么是归档?数据归档就是在二级存储设备上存储非活动数据,如在线磁盘。这些数据是在将来可能需要的信息,因此不能删除他们。可能有合法的原因来保存这些数据,也可能是机构需要,如市场研究或正当的理由也许就像删除它会让人很不舒服。不管怎样,最后的决定是存储而不是将其删除。保存数据的问题或者是由于合法原因,或者是“以防万一”,也就是它必须保存在某个地方。如果没有一个有效的归档策略,这就意味着数据会和其他东西一样被保存在同样的地方主存储。对于昂贵的资源来说,在主存储上存储非活动数据是一个巨大的浪费。在主存储之间每GBdelta的价钱至少在5到10美元之间甚至最贵形式的归档存储,那是非常大的。另外,主存储旨在快速传输过度过程数据。它基本上不能支持数据恢复法规或在它被写入存储后的几年,不能证实这一系列数据的完整性。这些都是归档存储的重要要求。如今的商业机构要求,当客户、合作伙伴、员工、审计、律师、股东或公司内部部门需要某些内容文件时,这些指定的内容必须及时可用。内容和电子记录的安全、可用性、完整性和可靠性对当今企业的生存具有举足轻重的影响。如果所需内容不完整,隐私或安全政策被触犯,或所需内容不能在限定的时间内被访问,后果可能导致企业的名誉受损、收入损失、股价下跌、个人法律责任、法院制裁以及销毁电子证物的指控。根据行业分析公司Enterprise Storage Group(ESG)的调查,超过50%的企业数据含有固定内容,例如文件、图片、电子邮件以及其他数据。这些数据每年都以90%的速度增长,而且需要随时被访问。另据ESG统计表明,仅美国就有超过15万部由联邦或州立法机构起草的有关适当信息处理的法律和法规。这些法律法规对记录的创建、存储、访问、维护和保存做了明确的规定,而且要求保存记录的时间越来越长,在某些情况下甚至会超过一个人的寿命。以著名的萨班斯法案为例,该法案强调企业的信息技术策略和企业内控活动(不论是人还是机器)的操作流程都必须进行明白地定义并保存相关记录,而后才能实施。它还规定,公司首席执行官和首席财务官必须对财务报告的真实性宣誓,倘若提供不实财务报告的,他们有可能将被处以10年或20年监禁的重刑。萨班斯法规案已于2006年7月15日在中国正式生效,适用于所有在美国上市的中国企业。同时,国内关于企业经营运作的法规体系也日渐成熟,各行业的监管力度日益加大和完善,再加上越来越多的国内企业开始与国际接轨,这些企业都需要考虑相关的法规遵从要求。这就对企业的财务报表、公司往来信息以及电子邮件等文档提出了归档需求。有效结合备份与归档备份和归档都是数据存储的应用形式,只是应用目的不同:备份是对数据进行复制,是为了确保在出现数据丢失或系统灾难时将复制的数据恢复回来,因此备份关注的是业务信息的变化和更新,因此备份通常是短期的并且经常被覆盖;归档则是针对海量数据的应用,是对数据进行有计划的迁移,当数据停止改变或不被频繁使用时,通过归档把它们转移到一个文档,使之存于日常的备份窗口之外,但仍需保证其可用性。备份和归档虽有区别但又互相联系。只要涉及到数据归档必然会有数据备份的需求,并且两者都是对存储设备进行操作,因此它们完全可以基于同一技术体系来实现。数据归档与备份对企业而言具有两种不同但互补的功能:备份用于快速复制和恢复,以减少故障、人员错误或灾难带来的影响;归档则用于对数据进行有效的管理、保留和长期的访问与检索。用户可以将归档和备份结合起来采用,以达到优化成本、改进存储基础设施的整体效力。备份能够在有效的归档解决方案的环境下变得更加有效率,而归档也可以利用备份基础设施满足用户的数据保护需要。归档策略通过统一的归档平台,将所有非结构化数据(包括电子邮件、文件、Sharepoint文档、即时通讯消息等等)统一迁移到廉价的二级存储上,同时对其建立全文索引,当用户需要访问归档信息时,系统可以自动根据需要回迁相应的数据,而不需要人工干预。当用户需要在整个归档库内部搜索所需信息时(如审计需要),可以利用归档系统后台的搜索引擎进行全文搜索,立即找到所需的任何信息。如下图所示:大多数调查报告显示真正的活动数据,在90天内Windows标注的数据,仅仅以每年3%到5%的速度增长,新的归档可以推迟未来几年的存储购买。用户可以根据自己的需要灵活地设定不同应用数据的归档策略,在主存储上保留90天到3年的活跃数据是比较典型的归档策略,然后可以在每一个月进行一次归档迁移。归档的影响用户体验不变很多用户担心归档会改变使用数据的原有习惯,实际上,不管是邮件归档、文件归档等,好的归档系统都为用户提供了完全透明的使用体验,即归档前后对用户产品的影响是微乎其微的。基于磁盘的归档策略最快速、最明显的好处是它可以今年或在以下的几年里减少主存储的需求,潜在的节省了IT预算中的存储购买预算。在很多情况下,用户可以释放他们主存储能力的80%,通过重新分配存储,用户实际可以减少存储量进而减少能源消耗。一个有效的归档策略可以通过减少80%的备份负载,推迟升级到备份的投资。通常归档以后的数据是不允许修改的,或者即使修改,也将形成新的数据版本,所以,针对归档库的备份不需要像备份主存储中的数据那样频繁,你甚至只需要对归档数据进行一次性备份即可。什么是重复数据删除(Data De-duplication)?重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。高度冗余的数据集(例如备份数据)从数据重复删除技术的获益极大;用户可以实现10比1至50比1的缩减比。而且,重复数据删除技术可以允许用户的不同站点之间进行高效,经济的备份数据复制。 备份设备中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。 就在几年前,D2D备份似乎还好得令人难以置信。受价格低廉的 ATA(以及稍后的SATA)硬盘的影响,很多人会选择用D2D取代虚拟磁带库或做备份到磁盘的工作,使备份速度变得更快,不必再担心在磁带驱动器和磁带库上产生的机械故障,并且使文件恢复变得更加轻松。 但是今天,我们的磁盘备份设备的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天。问题是在我们的备份设备中有太多的重复数据。现在终于有了解决这个问题的办法,善于抓住机会赚钱的厂商们声称他们的新一代“删除重复数据”产品可以按20:1,甚至300:1的比例缩减我们需要存储的数据量。果真如此吗?让我们仔细看看。 重复数据删除技术支持在已有的磁盘设备上存储更多的备份数据。因此采用“重复数据删除”技术可以增加您保存备份数据的时间,减少数据中心的消耗,降低成本。如果您删除重复数据后再通过WAN发送,那么您就能够节省大量的带宽,并且可以取代磁带实现网上离线备份。重复数据删除技术唯一的缺点是备份速度变慢。 当您的备份程序在网络中多次从同一目录下备份相同的文件,或者从多个地址处备份相同的文件时,重复的数据在临时区域进行备份。大部分网络上的重复数据量令人吃惊,这些数据从56个用户保存在他们本地目录下的假日聚会的PDF格式邀请函,到每个服务器的系统驱动器上3GB Windows文件,真是包罗万象,应有尽有。 解决临时区域内文件重复的方案是增量备份。尽管我们很喜欢这样做,尤其是喜欢选择永久增量备份的方法,但当我们考虑到RAID灾难恢复时,我们想到的是重复数据删除,而不是增量备份。增量备份主要是避免重复。 重复数据删除最基本的形式是单一实例存储(single-instance store),当每个文件存储到系统上时,存储系统会为存储的文件内容生成一个散列(hash);如果系统中已经存在具有相同散列(hash)的文件,系统就会再创建一个表示副本的指针指向已存在的文件,而不是保存另一个副本。 尽管文件级SIS能够节省一些空间,但是如果我们不只消除重复文件而且还消除了文件内存储的重复数据,那事情可就变得让人有兴趣了。想想Outlook的 .PST文件。例如一个典型的Outlook用户可以拥有300-MB或更大的.PST文件,文件上保存着他过去所有的电子邮件;每天他都会收到一个或更多新的邮件,就因为那天他的.PST文件改变了,你的备份程序就把这个.PST文件包括在增量备份里了,即使这个300MB的文件只有25 KB 的改变。 重复数据删除产品能够识别这个25 KB的新数据,并且剔除其余没有改变的旧的数据,只保存25 KB的新数据,从而节省大量磁盘空间。再进一步设想一下,550KB的附件在20个用户的 .PST文件内,如果它们能够被消除,您就可以缩减大量的数据。 硬件或软件 各大厂商除了采用的方法不同外,他们物理架构的备份目标也不同。Data Domain、ExaGrid 和昆腾是包含磁盘阵列的monolithic appliances(单块集成电路设备)。 Data Domain和昆腾有NAS或VTL接口,而ExaGrid就是一个NAS设备。Symantec Netbackup Puredisk为代表的软件产品,则通过备份软件客户端直接在备份之前就进行重复数据删除,不仅节省了后台存储的空间,而且可以用于基于广域网的集中备份。 尽管带有VTL接口的备份设备看起来更高级并且更易于与现存的基于磁带的备份环境集成,但是采用NAS 接口,会为您的备份应用提供更多的控制。当备份文件过了保存期时,一些像赛门铁克的NetBackup之类的备份产品能够从它们的磁盘存储库中删除这些过了保存期的备份文件。当重复删除的NAS设备发现这个删除行为时,它可以重新分配它的自由空间和散列(hash)索引。而对于VTL接口的设备来说,因为您没有删除磁带,所以无法在VTL上释放出空间,直到虚拟磁带被复写,空间才能得以释放。 节省带宽 子文件重复删除技术不仅用于在备份应用中节省磁盘空间。新一代的备份应用,包括Asigra的 Televaulting,EMC的 Avamar Axion和赛门铁克的NetBackup PureDisk都采用基于散列(hash)的重复数据删除技术来减少通过WAN发送备份所需要的带宽。 首先,像生成增量备份的传统备份应用技术一样,新一代的备份应用技术也采用常用的办法如归档位,最后修改的日期,并且文件系统更改从最后一次备份起已经发生改变的文件ID日志。然后它们将文件切成更小的块并且为每个块生成散列(hash)。 然后,将这些散列(hash)与已经备份在本地的数据块的散列(hash)对象进行比较。没有出现在本地缓存和文件系统元数据中的散列(hash)被发送到中央备份服务器,再将数据与散列(hash)表进行比较。如果没有发现相同的散列,备份服务器发回一个散列表;然后被备份的服务器发送那些散列代表的数据块到中央服务器进行保存。 与对被备份到多个目标的服务器数据(它们甚至被备份到整个企业的各个目标)进行“重复删除”的备份方案相比,上述这些备份方案缩减数据的程度更高。例如,如果CEO发送100 MB的PowerPoint文件到500个分支机构,只有第一个会被备份,所有其它的只会发送散列到总部并且告知“我们已经收到,谢谢。” 这种方法几乎避免了影响基于散列的系统的可扩展性问题。因为每个远程服务器只保存其本地数据的散列(hash),散列表不会增长到超出可用的空间,中心位置的磁盘I/O系统比传送备份的WAN 的速度快得多,在磁盘上搜索一个巨大的散列索引也比发送数据快得多。 有几个客户的报告中都写到,他们在不对备份流程做大改动的情况下,的确获得了20:1的缩减比例。小企业可以采用 Asigra, EMC 和赛门铁克的新一代备份软件取代传统的备份方案。中型企业可以采用面向数据中心的备份设备。需要很高备份性能的大型企业可能不得不等待下一代产品了。 不要惧怕冲突 我们之前一直听说用户害怕使用基于散列的重复删除,因为有可能发生散列冲突两组数据生成相同的散列,从而导致数据损毁。尽管有因为散列冲突导致数据损毁的风险,但是它发生的概率与每天存在的存储管理风险相比是非常小的。 重复删除技术通常采用MD-5 (a 128 字节的散列) 或 SHA-1 (a 160字节的散列) 算法。生成相同的MD5散列的两个随机数据块的可能性大约是1/1037。如果一个PB的数据采用 MD-5算法,以平均大小为4KB的数据块进行“重复删除”处理,两个块生成相同MD-5散列的可能性大约是1/1020。 通过比较,具有一百万小时MTBF(平均故障间隔时间)的两个互为镜像的驱动器在彼此一小时内发生故障的可能性是都是1/1020-比发生散列冲突的机会几乎高10亿倍。通过以太网或FC发送的数据受CRC-32检验和的保护,其未检出数据差错的概率大约是1/4x109。 记住存在散列冲突是很重要,但并不意味着数据会全部丢失。如果重复删除系统错误地把两个数据块识别成含有相同数据的块,当它们不被存储时,系统会继续执行操作。但当存储数据时,数据被错误识别的这个文件会被破坏。所有其它的数据会被正确地恢复。发生散列冲突的概率应该小于行星碰撞或黄石公园大火山喷发的概率。 存在于数据重复删除中更大的风险是来自硬件故障的灾难性的数据损失。因为任何特定的备份工作的数据,实事上,是任何特定的大文件被切成块,分散在整个重复数据删除设备中,它不关心你备份了那个服务器多少次,如果你在重复删除设备中损失了一个RAID设置,你会损失很多数据。于是增强的数据保护功能,例如电池备份缓存和RAID 6,对重复删除目标来说,比对基本的存储应用更重要。结论三:C类应用适合采用映像恢复(或裸设备恢复)+传统数据备份的方式达到小时天级别的RPO/RTO目标。目前越来越多的用户开始将备份和归档进行融合,取得了比较好的效果。备份领域也出现了一些相对比较新兴的技术,如重复数据删除,就是值得采用的新技术之一。技术规划A类应用综合运用高可用集群、存储镜像、快照、映像恢复、传统备份等方式,保障业务的最高可用性。如下图所示:针对A类应用,原来已经部署了双机热备的服务器,我们可以将其根据操作系统进行同类别归并,如AIX操作系统一组、HP-UX操作系统一组、Windows操作系统一组,通过集群软件构建大规模多点集群,采用N:M集群方式节省热备服务器的数量,建议按照每10台生产服务器配置2台热备服务器的配比关系,统一建立整个集群系统。对于虚拟机环境也类似,不过需要注意将热备虚拟机交叉部署,一方面平衡服务器运算性能,一方面降低某一台物理主机发生故障带来的影响。同时采用映像恢复技术对服务器操作系统卷进行快速完整的备份,一旦这台服务器发生故障,应用切换到热备节点时,可以用映像恢复机制快速恢复该节点,甚至可以进行异构恢复,比方说恢复到不同硬件型号的服务器上,或者恢复到虚拟机环境中。在SAN网络方面,利用两台大型SAN交换机为服务器和存储设备提供全冗余连接,每台服务器配置2块HBA卡,利用统一的动态多路径管理软件实现服务器到存储之间多条路径的负载均衡或热切换(取决于磁盘阵列是否提供链路负载均衡的功能)。在存储方面,原来已经部署双机热备的A类应用,已经配备了相应的磁盘阵列,我们可以在新购的磁盘阵列中分配一片空间对其核心数据进行镜像,彻底解决磁盘阵列的单点故障问题。当某一台磁盘阵列(不管是老的磁盘阵列、还是新的)发生故障时,都不会出现数据丢失或业务停机的现象,保证了存储层面的最高可用性。同时,通过快照技术,可以每2小时的时间间隔进行快照,然后将快照数据备份到备份系统中,进行长期保存。对于备份存储,可以使用FC-SAN,也可以使用IP-SAN,这样可以选择成本较低的存储方式,由于快照本身对性能几乎没有影响,所以只需要大容量、廉价的SATA硬盘存储,即可实现高效的Server-Free备份。B类应用综合运用数据快照、映像恢复、传统备份恢复方式保障业务的即时可恢复性。如下图所示:在服务器层面,由于没有A类服务器的集群支持,所以映像恢复就显得更加重要,通过同时采用映像恢复技术对服务器操作系统卷进行快速完整的备份,一旦这台服务器发生故障,可以用映像恢复机制快速恢复该服务器,甚至可以进行异构恢复,比方说恢复到不同硬件型号的服务器上,或者恢复到虚拟机环境中。数据存储层面,很多B类服务器的数据量都不大,原来都采用服务器内置硬盘进行数据存储。对于小于100GB以下的数据量,都可以仍然将数据存储在服务器内部。利用IP-SAN连接IP-SAN存储设备,并对生产数据进行快照,将快照数据存放在IP-SAN磁盘阵列中,从而为B类服务器提供一份即时可用的快照数据,一旦生产数据丢失以后,可以立即启用快照数据,通常这样的操作可以在20分钟内完成,这要比传统的备份恢复快很多倍。由于IP-SAN在此处仅仅用于备份和快照,可以不采用冗余连接,即使IP-SAN网络完全瘫痪,也不会影响服务器的正常运作,因为数据在服务器内部,所以不受影响。同样的,通过快照技术,可以每2小时的时间间隔进行快照,然后将快照数据备份到备份系统中,进行长期保存。由于快照本身对性能几乎没有影响,所以只需要大容量、廉价的SATA硬盘存储,即可实现高效的Server-Free备份。C类应用综合运用映像恢复、传统备份等方式保障业务适度的可恢复性。如下图所示:在C类应用方面,由于此类服务器都没有进行SAN连接,所以只能采用普通的LAN备份方式提供保护。如果某服务器发生故障,则首先需要利用映像恢复机制进行系统恢复(可以恢复到不同的服务器,或者虚拟机),然后再从备份系统中找到相应的备份数据进行恢复,根据数据量的不同,恢复时间会有所加长。统一数据归档通过构建统一的归档平台,可以将所有非结构化数据(包括电子邮件、文件、Sharepoint文档、即时通讯消息等等)统一迁移到廉价的二级存储上,同时对其建立全文索引,当用户需要访问归档信息时,系统可以自动根据需要回迁相应的数据,而不需要人工干预。当用户需要在整个归档库内部搜索所需信息时(如审计需要),可以利用归档系统后台的搜索引擎进行全文搜索,立即找到所需的任何信息。如下图所示:统一备份无论是ABC哪一类的应用,都需要采用备份系统进行统一的备份,所以,备份系统应该是一个统一的数据保护管理平台。在这个统一的平台上,应该具有以下几个特点:1. 统一的管理界面,所有策略通过主备份服务器统一设置,统一调度;2. 统一的设备管理,不管是DAS、NAS、FC-SAN、IP-SAN,还是传统的磁带机、磁带库、虚拟磁带库等备份设备,都交给备份服务器进行统一管理,备份的介质服务器进行读写;3. 统一整合所有备份技术,不管是传统的备份到磁带、LAN备份、LAN-FREE备份、SERVER-FREE备份,还是新兴的重复数据删除、磁盘到磁盘到磁带(D2D2T)等,都应该由备份平台进行统一管理;4. 全面支持虚拟环境的备份,包括小型机的虚拟分区备份(应该对分区数量没有限制),以及x86平台上的虚拟机(如VMware ESX或Citrix XEN Server)备份,应该支持普通的虚拟机内备份和基于物理主机的脱机备份,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论