版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、灾备系统可靠性按照整个系统的灾备要求,整个系统可从以下可靠性来实现系统的可用性,从而使得灾备系统的业务安全性得到有效的保障。大项细项说明数据中心可靠性云计算方式跨地域数据中心通过云管理平台对整个多地数据中心集中管理的方式来实现更智能更自动化的容灾备份应用可靠性以传统方式为主按照高可用的要求来设计应用架构,主要有应用层负载均衡、集群等技术云计算方式将服务器架构精简成几个镜像文件,利用通过IT自动化技术一步到位的恢复服务器实例和数据数据可靠性传统方式采用传统的远程数据复制技术和灾备软件技术可实现在线模式/离线模式、同步/异步方式,并可采用完全备份、增量备份、差异备份等不同策略云计算方式分布式存储系
2、统、快照、模板、镜像等技术数据库可靠性传统方式采用完全备份、增量备份、差异备份、HA等技术中间件可靠性以传统方式为主类似于Oracle RAC、CICS 集群、DB2 HADR等工具操作系统可靠性以传统方式为主类似于LVM 镜像、HACMP等工具虚拟机可靠性云计算方式HA、热迁移、Vmotion、FT、快照、模板、回滚、虚拟机复制等云计算技术硬件可靠性服务器冗余的设备/处理器/I/O适配器卡/电源/内置磁盘RAID技术保护存储设备(含带库)外置磁盘, I/O总线、SAN交换机、LAN、LAN交换机冗余设备/部件、磁盘 RAID、多路径(Multi-Path)软件磁盘复制通过磁盘复制的可用性网络
3、设备冗余的部件、冗余设备链路冗余链路和链路的负载均衡其中,北京天云趋势科技有限公司能提供的平台关键技术主要体现在以下几个方面:云节点层面(1)提供云虚拟节点级别的备份方案云计算平台的底层技术之一虚拟化技术中提供的HA高可用性功能确保了虚拟机级别实现冗余可靠性,从而有效保障上层业务应用的连续性;此外,虚拟机快照、模板、回滚、迁移功能以及相关的存储技术可以实现本地的数据恢复和业务恢复。云虚拟节点高可靠性:为提高云节点的可用性,Elaster提供的云虚拟节点的HA配置,支持HA模式中的一主一备的可靠性部署;具备HA的虚拟机在宕机后,系统会在同类型的其他主机上启动该虚拟机的备份,确保客户业务的连续性(
4、如下图所示)。也可采用虚拟机集群的方式通过Elaster集成的负载均衡功能实现高可靠性。此功能对于用户的关键应用业务特别适用,可最大程度的保证关键业务的持续性和不间断性。云虚拟节点复制和快照:Elaster提供了在线虚拟机复制、虚拟机快照等,虚拟机快照覆盖内存及存储数据,能够按照增量方式实现快照的保存,也能对整个虚拟机全部一次性进行快照和保存。其中,对快照可采用完全备份、增量备份、差异备份、HA等不同的备份策略来实现。云虚拟节点模板:对于采用同样操作系统和同样应用软件的虚拟机而言,通过此功能可在3-5分钟内实现需在物理机上0.5-3个小时的部署时间,可大大节省管理员部署业务应用的时间。(2)能
5、提供云物理节点级别的备份方案提供物理级别的备份方案,特别是其上最关键的设备。为了保证系统连续运行,必须采用关键业务所处的服务器集群结合传统的双机热备份容错技术,以解决硬件的故障。从物理上保证关键应用软件运行所需的物理环境的可靠性。而且虚拟机快照、模板和迁移功能也能提高物理级别的容灾备份的高效性。云物理节点集群技术:整个云平台系统在部署实现后,逻辑上主要分为四个层次:由下而上分别是主机(Host)集群(Cluster)机架(Pod)资源域(Zone)。其中,集群是云平台的第二层。主机是云平台资源池的最基础的单位。主机可以根据需要随时动态的加入云平台以提供额外的虚拟机资源。最终用户无法直接访问物理
6、主机,也不能决定他们的虚拟机在哪台物理主机上运行。在云平台资源不足时,通过Elaster管理可动态添加新增的主机来解决资源不足的问题。集群是云平台的第二层。一个集群由一组共享同一台存储设备的服务器构成。同一个集群的主机必须使用相同的虚拟层Hypervisor类型。同一个集群的主机必须位于同一个子网中,同一个集群中的虚拟机可以在不同主机间动态迁移(live migrate)。从而来提供物理节点的灾备。云节点迁移:迁移技术为服务器云虚拟节点提供了便捷的容灾方法。目前电力行业的云计算数据中心系统所采用的云计算管理平台对于主流的虚拟化平台如 VMware、XenServer、KVM 都提供了很好的迁移
7、功能。迁移服务器可以为用户节省管理资金、维护费用和升级费用。以前的X86 服务器,体积比较“庞大”;而现在的服务器,体积已经比以前小了许多,迁移技术使得用户可以用一台服务器来同时替代以前的许多台服务器,这样就节省了用户大量的机房空间。另外,云虚拟节点中的服务器有着统一的“虚拟硬件资源”,不像以前的服务器有着许多不同的硬件资源(如主板芯片组不同,网卡不同,硬盘、RAID 卡、显卡不同)。迁移后的服务器,不仅可以在一个统一的界面中进行管理,而且通过云平台管理系统,可实现在物理服务器因为各种故障停机时,可以自动切换到网络中另外相同的虚拟服务器中,从而达到不中断业务的目的。总之,迁移的优势在于简化系统
8、维护管理, 提高系统负载均衡,增强系统错误容忍度和优化系统电源管理。(3)跨地域数据中心支持容灾备份天云趋势TCloud云管理平台在异地数据中心之间对管理服务器集群既做了本地的备份方案考虑,又做了异地主从式的互为备份。同时在管理设计时,可考虑了多条链路负载均衡线方式来增强备份。下图所示是异地数据中心之间的备份解决方案,该方案同时提供了多数据中心之间统一管理的解决方案和备份方案。总之,TCloud云平台容灾解决方案相对于传统灾备方案,具有以下优势:首先,整个云计算备份解决方案中利用了一种直接到目标架构的方法避过备份服务器,将数据直接从资源服务器发送到存储介质上。这加快了备份速度,占用带宽更少,而
9、且避免了备份服务器的瓶颈。同时,备份服务器需要的CPU、内存和存储资源更少,因为整个过程不需要处理整个数据集。其次,云计算备份解决方案还可以具有其他一些节省时间和完善备份流程的功能特性。多个同步备份任务不会受到物理存储目标或者备份服务器吞吐量的限制而流畅运行。因为这些解决方案并不是将每个虚拟机视为一个物理服务器,所以这些解决方案只需要处理很少代表虚拟机的镜像文件就可以了,而且不需要处理虚拟机中实际包含的上千份离散的文件。第三,云计算备份解决方案改善了异地数据中心之间的备份,并提高了异地数据中心系统的有效管理。数据层面分布式存储系统云节点的容灾服务主要是在底层采用云分布式存储系统。该系统是由北京
10、市云基地提供的TCloud分布式存储系统。该系统底层采用的是分布式并行文件系统,可支持上层应用从集群中的任一云计算虚拟化节点直接访问存储系统上的数据。该系统能对基于此系统的应用数据进行3-16分备份,同时能采用分布式的计算来对这些数据进行快速的并发处理。如下图所示,该系统可通过Hadoop技术将PC机和PC服务器上的物理磁盘有效整合成一个虚拟对象,变成一个统一的存储资源池。在存储文件时,该系统可实现将一份数据同步复制成多份(最多到16份)进行存取和读写,由于其底层的物理存储资源也是分布在多台物理节点上,节点之间通过计算机网络相连,分布式文件系统的服务基于客户机/服务器模式来满足分布式存储系统的
11、应用。这样,最终形成的分布式存储系统可做到多点数据备份,线上允许部分节点失效而不影响业务的不间断运行。TCloud分布式存储系统充分体现了云计算的特点,相对于传统存储技术而言,具有以下特点:l 高性能u 并行的文件读写有效提高并发访问性能,最大可扩展至4096计算机节点,能高速、稳定的通讯,并可实现单点管理与控制,实测带宽速度取决于底层物理磁盘所处资源节点的物理数量,实际项目中最大可达数TB/s。u 智能并行分布式机制和客户端数据缓存机制降低读写延迟,可有效避免IO读写的瓶颈。u 可自定义数据块大小,覆盖范围从16K到64M,特别适合TB级文件,PB级的文件的应用系统。l 高可用性u 支持多路
12、径并发访问底层的物理磁盘。u 3-16份原始数据可确保任何一份数据丢失都不会影响整个系统的使用。u 在不停止服务的情况下可以动态加入和移除节点或磁盘而不影响应用的使用。u 系统的自修复功能易于数据和业务容易恢复。l 高可扩展性u 可扩展至4096个计算机物理节点,而每个计算机节点的硬盘空间取决于所挂载的硬盘数量。这样可保证存储空间足够大。u 可支持数千个节点的集群系统。u 支持不同品牌存储设备、硬盘、处理器和服务器。u 能动态地增加或减少节点与存储。l 高容错性u 某个数据文件或某一段数据出问题,都有存放在其他物理节点上的同样数据,并可通过系统自动检查对该受损数据进行自动修复。u 某个节点、磁
13、盘或连接出现问题时,仍然可以提供上层应用对外提供的访问服务。l 易管理和节约投资u 自动在各个节点间同步配置文件和系统信息。u 可在集群内任何一个节点上完成对该分布式存储系统的管理任务,命令将在所有节点上生效。u 支持快照功能和数据备份功能。u 管理网络和数据网络可以分开。u 可充分利旧,且对所用存储和服务器没有特别的性能要求。应用系统自动恢复技术从数据中心角度来说,云计算技术将服务器架构精简成几个镜像文件,这使得整个服务器实例可由几个镜像文件数据来代替,利用云平台管理系统中的IT自动化技术可以在恢复数据的同时恢复整个服务器。而传统备份是要求故障服务器在数据重新加载并恢复服务之前找回并启动。所
14、以,更加完善的云计算灾备解决方案利用了这种将服务器架构变成几个镜像文件的精简性,可通过IT自动化技术一步到位的恢复服务器实例和数据。云灾备模式关键技术随着社会信息化程度的提高和企事业单位对信息系统依赖性的增强,信息系统的容灾备份成为灾难发生时确保业务连续性和数据可用性的重要手段。云灾备作为灾备领域的一个新兴概念,它的出现为企业提供了一个行之有效的解决方案。云灾备是指将灾备看做一种服务,由客户付费使用灾备服务提供商提供的灾备服务的模式。采用这种模式,客户可以利用服务提供商的优势技术资源、丰富的灾备项目经验和成熟的运维管理流程,快速实现客户的灾备目标,降低客户的运维成本和工作强度,降低灾备系统的总
15、体拥有成本。云灾备模式之所以被提出并逐渐得到应用,相关技术的发展起到了至关重要的作用。1 重复数据删除技术重复数据删除技术是指将存储系统中存在的大量内容相同的数据删除,只保留其中一份,从而缩减存储空间的技术。在云灾备中,该技术既能大幅减少灾备中心存储的数据量,降低灾备中心的建设和运维成本,又能大幅减少数据备份和恢复过程中用户和灾备提供商间的数据传输量,提高备份和恢复的性能,是一项十分重要的技术。按照检查重复数据的粒度不同,重复数据删除技术可以分为对象/文件级和块级的重复数据删除。文件级删重技术是在文件级别的粒度下查找重复数据的方法。该技术计算速度快,但粒度太粗,即使不同文件内部存在很多相同的数
16、据,也不能被检测并实现冗余消除。块级别的重复数据删除根据切分数据块方法的不同,又可分为固定分块和可变分块的删重技术。固定分块技术是使用固定大小的分块策略在存储系统中识别相同数据的一种方法,可以提供很高的处理速度,但是对编辑和修改的序列很敏感,处理效率低。变长分块是一种基于内容技术的分块方法。与固定分块不同的是它的块断点不以一个预设值来确定,而是以其文件内容进行计算,当满足一定的标准之后方认为其为块断点。其优点是对于插入问题和删除问题处理高效。无论是插入还是删除一小部分字节,只会影响一到两个块,其余的块保持不变。其主要缺点是计算开销较大和检测重复块时指纹值索引查找的开销较大。由于其对数据变化的低
17、敏感性,变长分块逐渐成为重复数据删除技术的主流。随着灾备中心的规模不断增大,存储的数据量和访问量不断增加,单一节点上的重复数据删除方法已不能满足性能和容量的需求。除上述基本重复数据删除技术外,一些优化和改进技术对云灾备是至关重要的,包括高性能、可扩展的、分布式的重复数据删除技术,以及为提高灾备中心数据可靠性的高可靠重复数据删除技术。1.1 高性能可扩展重复数据删除技术在提高重复数据删除性能方面,可以使用减轻磁盘瓶颈技术。在重复数据删除系统中,为了节约成本,一些系统仅具有少量的内存,因而不能支持所有的数据索引一次性地进入内存进行检测,从而导致了大量的磁盘访问,这成为性能下降的最主要因素。针对这种
18、情况,Data Domain重复数据删除文件系统中采用了减轻磁盘瓶颈的3种技术1,它们分别是:(1)摘要向量,一种内存中紧凑的数据结构,用于辨别新的块。(2)基于流的块排列,一种用于提高磁盘上的被连续访问块的访问局部性的数据排列方法。(3)局部性保持,保持了重复块的指纹值的局部性从而达到缓存的高命中率。应用这3种技术,可实现高吞吐率、低开销的相同块删除存储系统。在提高重复数据删除可扩展性方面,Extreme Binning技术2利用文件的相似性,可以将每个文件的磁盘访问次数降至一次,达到较好的吞吐率。在具有多个节点的系统中,每个文件通过一个路由算法分配到唯一的一个节点。每个节点是与其他节点相独
19、立的自治节点,从而允许查找相似文件的操作最大地并行化。当数据量增大时,吞吐率也会随着节点数目的增多而增大。1.2 高可靠重复数据删除技术在高可靠性重复数据删除方面,R-ADMAD高可靠性提供机制3将变长数据块打包成定长对象,利用纠错码对将象编码后分存到一个冗余组中的多个存储节点上。冗余组是根据系统的当前状态和失效域动态创建的。R-ADMAD还提出了一个分布式和动态的恢复过程。2 云存储安全技术在云灾备应用环境中,用户的数据存放在由云服务提供商管理和维护的服务器上,不再受用户的直接控制,增加了数据的潜在风险。各种因素,如云服务提供商的系统故障、服务器被攻击、云服务提供商内部人员的泄密或蓄意破坏等
20、,都有可能造成用户数据的泄密、损坏或丢失。可以说,数据安全已成为限制云灾备在企业中进一步推广和应用的关键因素,而云存储安全技术则试图解决云灾备服务模式带来的种种数据安全问题。云灾备环境由3个参与方组成:用户(云灾备服务的使用者)、云服务提供商、可信第三方。2.1 完整性检查和持有性证明技术完整性检查是指检查从CSP读回的数据和之前写入的数据是否一致,即数据是否被篡改。基本方法是写文件时使用某种单向哈希函数对数据计算得到一个哈希值,存放在本地可靠存储中。读文件时进行同样计算得到哈希值并和本地的哈希值比较。为了降低完整性检查的复杂度,可以采用Merkle哈希树的方法,将文件分成若干数据块,最底层的
21、树叶节点对应数据块的哈希值,次底层节点是每两个哈希值的哈希值,由此逐层递归构造出一个二叉树,根节点对应最终的哈希值。此时检查一个数据块完整性的复杂度由O(n)降为O(log n),其中n为数据块个数。上述方法可以验证CSP返回的数据的完整性。然而在很多情况下用户需要知道其数据是否始终由CSP完好保存并可获取。当用户在云中存储大量数据时,如果用户每次将所有数据下载到本地,用上述完整性验证方法检查数据是否完好,这种做法显然是不可行的。为此研究者提出了持有性证明,即CSP可以通过某种方法向用户证明其仍然完好的持有用户数据,并且数据是可获取的,而不需要提供完整数据。这些方法可以分为两类:基于RSA公钥
22、密码算法的4-5和基于对称密码算法的6-7。基于RSA的方法利用了基于RSA的哈希函数的同态性。令N=pq为一RSA模数,其中p和q为大质数,F为代表文件的大整数,用户保存k=F mod (N ),其中(N )=(p-1)(q-1)。在一次挑战-应答过程中,用户发送ZN中的随机元素g,CSP返回s=g F mod N,用户验证是否g F mod N=s。这类方法的最大优点是允许用户发起无限次的检查,缺点是由于需要进行有限域上以文件数据块为指数的指数运算,计算开销较大,尤其在文件预处理阶段。基于对称密码算法的持有性证明的基本思想是首先将文件加密并用纠错码编码,然后在编码后的文件的一些随机位置插入
23、和文件数据不可区分的“岗哨”。用户在挑战时要求CSP返回在这些随机位置的岗哨,可以证明只要CSP以大于一定值的概率做出有效应答,则文件是可恢复的。该类方法的优点是计算开销小,但只适用于加密的文件,并且只允许用户进行有限次的检查。除上述基本方法外,为了解决持有性证明在实际应用中面临各种问题,还提出了多种扩展和增强的持有性证明方法。这些扩展和增强对提供安全可靠的云灾备服务是至关重要的,包括:对公开审计的支持,由可信的第三方代替用户行使验证数据完好的职能,减轻用户的负担,同时保持数据对第三方的机密性8;对动态数据的支持,从而允许用户对数据(文件)进行增、删、改等操作9;对分布式存储和数据冗余编码的支
24、持,当用户通过持有性证明发现某些节点的数据损坏时,能及时通过存储在其他节点的冗余数据进行恢复10。2.2 可问责技术通过上述方法可以发现CSP破坏数据安全性的行为,然而仍需涉及一旦这种行为发生如何处理的问题。可以仿照现有云存储服务提供数据访问性能和可用性保证的方法,由用户和CSP间签订关于数据安全(如数据机密性、完整性)的服务水平协议(SLA)。CSP按照协议要求提供服务,保证用户数据的安全性,用户为服务支付费用。一旦CSP不能达到协议要求,用户可以根据协议要求赔偿。安全服务水平协议的引入可能会导致纠纷:例如:当数据安全性被破坏时,CSP为减少经济损失可能宣称该错误是由用户导致(如用户客户端软
25、件缺陷),或者数据安全性本未破坏,而用户虚假指控CSP违反协议,试图不当得利。为解决上述问题,研究者提出了可问责性的概念。一个多方参与的分布式系统称作是可问责的,如果它满足以下两个条件:(1)能够可靠地发现错误。(2)每个错误能以不可否认的方式归咎到至少一个过失方11。在一个可问责的云存储环境中,当CSP违反安全服务水平协议(例如破坏了数据的完整性或可用性),用户能够发现并向第三方机构(如法律仲裁机构)证明CSP的违规行为,从而要求经济赔偿。可问责性是双向的,当CSP没有违规行为或过错是由用户导致时,用户无法无端指控CSP,从而转嫁责任或不当得利。可问责性证明可以通过鉴证机制实现。鉴证是将用户
26、和其发出的请求绑定以及将CSP和数据的某个状态绑定的签名消息。可以利用这些鉴证在一个轻量级的审计协议中验证CSP的行为12。3 操作系统虚拟化技术除了数据级的灾备,还应提供系统级的灾备。即在将数据复制到云端的同时,也将受保护的应用程序的状态复制到云端,当灾难发生时可以立即切换到云端的应用程序运行,保证业务连续性。系统级灾备是通过操作系统虚拟化和检查点实现的。检查点用来捕获进程某一时刻的运行状态,从而实现进程迁移。进程迁移既可以是用户应用程序进程到云灾备中心的迁移,也可以是云灾备中心内部的虚拟机池间进程迁移,以实现根据前端用户的需求自动地调节灾备服务提供商有限的硬件与软件资源,动态地、弹性的反应
27、前端业务对灾备的需求。当程序因故障中断,如果不能保留其中间运行状态,恢复后从头运行将会带来极大的消耗。检查点技术能够解决这个问题。通过保留各个进程的运行状态,恢复时能够复原到最近一次保留的数据映像。传统的检查员机制是基于库的检查点机制。例如以静态库的形式实现,或通过加载动态链接库来追踪程序运行过程中的数据变化。也有一些检查点机制实现于内核级别甚至硬件级别。例如通过在文件系统层之上引入一个中间层来实现保留文件系统状态的检查点机制13;或者借助Fuse内核模块实现的支持检查点机制的文件系统,通过Fuse侦测、拦截内核级别的文件系统操作并将控制权传递给用户,从而能够在用户空间对文件系统状态进行保留1
28、4。随着操作系统虚拟化技术的发展,基于虚拟容器的检查点技术也得到了很好的应用。虚拟容器是通过系统虚拟化技术构建出来的一个进程运行的较独立的上下文环境。虚拟容器检查点技术能够有效保护容器内运行的应用程序和服务而不需要对应用进行修改。用于构建虚拟容器的系统虚拟化技术可以分为如下3类:(1)基于容器的操作系统级别虚拟化技术15。这类技术通过对系统内核的修改,能够将特定的进程进行封装,形成相对独立的进程运行环境。其优点是构建进程运行环境,即虚拟容器,仅仅需要对系统资源做逻辑上的重新组织和调度,不需要在容器底层设立复杂的指令模拟层和Hypervisor(虚拟化系统管理程序)。因此这是一种轻量级的系统虚拟化技术,额外开销小。这类技术的缺点是应用范围有局限,不能支持多种内核,虚拟容器内部的运行环境必须与包含容器的物理主机上的宿主系统相类似。(2)半系统虚拟化技术。这类技术采用了根据操作系统内核定制的Hypervisor,力求在保留Hypervisor带来的隔离性和安全性基础上,尽量提升虚拟容器内部进程的运行效率。其典型代表是Xen16。Xen通过修改Linux系统的内核,在半虚拟化Hypervisor中集成了半虚拟化系统调用层,能够快速响应虚拟容器内部进程发出的系统调用等特权指令。同时,对于普通指令,半虚拟化Hypervisor不做任何处理,而直接将 CPU资
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 世纪佳缘在线销售面试经验
- 生物医药研发人员的招聘面试技巧
- 新媒体公司在线客服专员的工作流程及规划
- 铁路运输企业区域销售经理的职责与能力要求详解
- 分支行内控制度与操作规程
- 主管的沟通技巧与艺术培训资料
- 高新技术企业在中国的融资策略研究
- 大数据企业项目经理面试要点详解
- 2025年AI艺术生成技术在智慧城市中的应用探索
- 携手前行心理演讲稿
- 2024年全国高中数学联赛模拟卷(1-7)(一试)附详细解答
- 初中八年级物理课件-4.4 光的折射
- 泥石流灾害与防治工程
- 高分子材料工程专业英语翻译(DOC)
- 【高中数学】充要条件+课件+高一上学期数学人教A版(2019)必修第一册
- Soul《心灵奇旅(2020)》完整中英文对照剧本
- 理学ERP沙盘模拟人机对抗创业版
- SB/T 10439-2007酱腌菜
- LY/T 1718-2017低密度和超低密度纤维板
- JJG 768-2005发射光谱仪
- 起重司索工安全操作培训ppt讲课教案
评论
0/150
提交评论