数据保护概述(1.5)._第1页
数据保护概述(1.5)._第2页
数据保护概述(1.5)._第3页
数据保护概述(1.5)._第4页
数据保护概述(1.5)._第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 数据保护数据保护 数据信息的可用性数据信息的可用性( (Availability) ) % Uptime% DowntimeDowntime per YearDowntime per Week 98%2%7.3 days3hrs 22 min 99%1%3.65 days1 hr 41 min 99.8%0.2%17 hrs 31 min20 min 10 sec 99.9%0.1%8 hrs 45 min10 min 5 sec 99.99%0.01%52.5 min1 min 99.999%0.001%5.25 min6 sec 99.9999%0.0001%31.5 sec0.6 s

2、ec Millions of US Dollars per Hour in Lost RevenueMillions of US Dollars per Hour in Lost Revenue 6.56.5 3.63.6 2.82.8 2.62.6 2.02.0 1.61.6 1.61.6 1.51.5 1.31.3 1.21.2 1.11.1 Retail brokerageRetail brokerage Point of salePoint of sale EnergyEnergy Credit card sales authorizationCredit card sales aut

3、horization TelecommunicationsTelecommunications Call locationCall location ManufacturingManufacturing Financial institutionsFinancial institutions Information technologyInformation technology InsuranceInsurance RetailRetail Source Meta Group, 2005 数据丢失的原因数据丢失的原因 用户误操作用户误操作 系统错误系统错误 电力电力故障故障 灾难事故灾难事故

4、 介质故障介质故障 数据丢失原因统计数据丢失原因统计 人为错误 应用软件故障 计算机 病毒 场地灾害 系统硬件故障 32% 44% 3% 7%14% RAID, 集群以 及本地远程 数据镜像 唯一方式是采用 远程数据复制或 离线数据备份及 介质异地存放 软件投产前 在本地的数 据拷贝上进 行测试 source: Ontrack, a data availability service provider 隔离的, 实时的数 据复制 6 建立容灾高可用环境的必要性建立容灾高可用环境的必要性 降低关键业务运行 风险 最大限度地保护业 务数据的实时性, 完整性和一致性 增强数据中心的可 用性和业务规划

5、的 灵活性 增强企业的核心竞 争能力 部分灾难大事记 1993年,世贸中心大楼发生爆炸,爆炸前,约有350家企业在 该楼中工作。1年后,再回到世贸大楼的公司变成了150家,有 200家企业由于无法存取重要的信息系统而倒闭、消失。 1995年1月,日本阪神大地震,摧毁了1700多套计算机系统。 1999年6月,美国一家著名的商业交易网站的主机宕机,由于 24小时内未能恢复访问,事件发生的两个星期后,该公司的股 票值下跌了36%。 在我国台湾地区,直到1999年大地震之前,各公司对灾害防备 都不重视,地震发生后,由于关键业务中断为很多公司带来了 损失。 “911”事件中,由于有1993年爆炸的前车

6、之鉴,在世贸大楼内 的一些公司建起了自己的容灾系统,因此,当灾难再次降临时, 有一批公司仍可及时地通过自己的容灾系统很快恢复营业。 7 数据保护的基本原则 信息冗余 设备级 RAID1 RAID3、RAID4、 RAID5 系统级 备份(本地、远程) 快照 连续数据保护 信息冗余 空间上 RAID1 RAID3、RAID4、 RAID5 软件镜像 时间上 备份(本地、远程) 快照 连续数据保护 名词术语名词术语 RPO-Recovery Point Objectives 恢复点目恢复点目 标标(指能把数据恢复到过去的那一个时间点 ) RTO- Recovery Time Objectives

7、恢复时间恢复时间 目标目标(指在出现问题后“什么时候”可以恢复数据 ) Data Replication 数据复制数据复制(将数据拷贝到另 外一个或多个不同的物理站点上,从而保持源数据与目标 数据的一致性。分同步、异步复制 ) CDP (Continuous Data Protect) 持续数据 保护 Tape Tape BackupBackup Periodic Periodic ReplicationReplication Recovery Point Objective (RPO) WksDaysHrsMins Secs Recovery PointRecovery Time Recov

8、ery PointRecovery Time Tape Tape BackupBackup Periodic Periodic ReplicationReplication Asynchronous Asynchronous ReplicationReplication Asynchronous Asynchronous ReplicationReplication Synchronous Synchronous ReplicationReplication Synchronous Synchronous ReplicationReplication SecsMinsHrs Days Wks

9、Recovery Point Objective (RPO) is the point in time to which systems and data must be recovered after an outage. This defines the amount of data loss a business can endure. Different business units within an organization may have varying RPOs. Recovery Time Objective (RTO) Recovery Time includes:Rec

10、overy Time includes: Fault detection Recovering data Bringing apps back online Recovery Time Objective (RTO) is the period of time within which systems, applications, or functions must be recovered after an outage. This defines the amount of downtime that a business can endure, and survive. Global G

11、lobal ClusterCluster WksDaysHrsMins SecsSecsMinsHrs Days Wks Recovery PointRecovery Time Recovery PointRecovery Time Global Global ClusterCluster Manual Manual MigrationMigration Tape RestoreTape Restore Tape RestoreTape Restore 传统数据保护方案 备份与恢复:备份与恢复: 低廉低廉 费时、费力费时、费力 安全性?安全性? 13 介质变革:磁盘 vs. 磁带 磁带 离线

12、顺序访问 容量大 速度慢 价格低 磁盘 在线 随机访问 容量 速度快 价格 更适宜构建系统 一种常用的数据保护技术 快照(snapshot) 15 为什么“快照”?(1/2) 1K、1M、1G、1T我们是否愿意等待? 可否不停机进行备份? 漏备、错备、多备 “快快”:解决批量数据备份中的长时间窗 口问题; “照照”:至少在逻辑上生成独立冗余数据, 解决硬件故障以外的本地数据保护问题; 16 快照技术快照技术的提出最初主要用于备份,在以前要备份某个时刻的 数据,需采用一种叫分离镜像的方式(远程镜像或是本地镜像 ),这种方式需要占用一块和主卷相同容量大小的卷作为镜像 卷,并且需要停掉主机IO一段时

13、间(分离主卷与镜像卷),具 体的步骤如下: 1,如果某个时刻想要对整个镜像卷进行备份,需要停止读写主 卷的应用,然后分离主卷和镜像卷。 2,拆分之后,主卷恢复上层IO(整个停机时间不会很长,如 果不采用镜像卷,会有很长的停机时间,损失过大),之后主 卷的读写不再跟镜像卷关联。此时的镜像卷保持停止IO那一时 刻原卷数据的完整镜像,此时可以使用备份软件,将镜像卷上 的数据,被分到其他介质。 3,拆分镜像后,主卷的所有IO回以bitmap的方式记录下来。 Bitmap每一位表示卷上的一个块。带备份完成后,恢复镜像, 镜像卷的数据需要重新同步,程序搜索bitmap中所有为1的块, 如果镜像卷上对应的块

14、尚未写入,则同步两个卷。 17 为什么使用这么复杂的方式备份,到了每个时间点需要备为什么使用这么复杂的方式备份,到了每个时间点需要备 份,直接份,直接copy不行吗不行吗? 1, 备份的时候,如果停掉主卷的应用服务,直接将主卷的 数据备份是可以的,但由于备份数据量大,需要很长一段时 间完成,停机所造成的损失太大。 2, 不停掉IO服务,直接在某一时刻备份会有什么后果? 由于备份时间太长,备份过程中的IO会造成备份的数据不 一致(漏备,错备,多备) 1, 备份过程中,一个已备份的文件移到一个未备份的目录 多余的备份 2, 备份过程中,一个未备份的文件移到一个已备份的目录 漏掉的备份 3, 备份过

15、程中,一个即将备份的数据已被修改错误的备份 18 为什么“快照”?(2/2) 存储网络工业协会(SNIA)对快照的定义: 快照(snapshot)为一个数据对象产生完全可用的副完全可用的副 本本,它包含对该数据对象在某一时间点时间点的映象,快照 在快照时间点对数据对象进行逻辑复制逻辑复制操作,产生数 据对象在该时间点的一致性数据副本时间点的一致性数据副本,但实际的部分 或全部物理复制过程可能在复制时间点之外的某些时 间进行。快照可以在非常短的时间内完成数据对象逻 辑副本的创建,其数量级通常为几秒,因此也称为零 时间复制 快照技术可以最大限度减小复制操作对上层应用的影快照技术可以最大限度减小复制

16、操作对上层应用的影 响,同时保证复制操作语义的原子性响,同时保证复制操作语义的原子性 分层分层与虚拟化虚拟化:快照背后的思想(1/2) “零时间复制产生一致性数据 副本”意味着什么? 独立的逻辑数据视图独立的逻辑数据视图 关联的物理数据分布关联的物理数据分布 “完全可用”的副本意味着什么? 逻辑的副本具备可用性、一致性逻辑的副本具备可用性、一致性 分层分层与虚拟化虚拟化:快照背后的思想(2/2) 快照技术的主要策略分离镜像(1/3) Applications Write Read 逻辑数据集 物理数据集 应用 Is it RAID1Is it RAID1? 分离镜像技术是基于硬件的快照,其基本

17、思想是建立一个分离 的可寻址的存储实体,包含真实的数据快照,可以在这个实体上 执行操作。 具体来说,分离镜像快照技术在快照时间点到来之前,首先 要为源数据卷创建并维护一个完整的物理镜像卷,这一过程与标 准的RAID1相似:同一数据的两个副本分别保存在由源数据卷和 镜像卷组成的镜像对上。在快照时间点到来时,镜像操作被停止 ,镜像卷转化为快照卷,获得一份数据快照。快照卷在完成数据 备份等应用后,将与源数据卷重新同步,重新成为镜像卷。对于 要同时保留多个时间点快照的源数据卷,则必须预先为其创建多 个镜像卷。 分离镜像快照的优点为:在快照命令发出之后立即就能得到 一个完整的物理副本,不再需要额外的复制

18、操作。快照操作的时 间非常短,仅仅是断开镜像卷对所需的时间,通常只有几毫秒, 这样小的“复制窗口”几乎不会对上层应用造成影响。 但是分离镜像快照也存在一些缺点:首先,这种快照技术缺乏灵活 性,无法在任意时间点为任意的数据卷建立快照:如果源数据卷没 有预先创建镜像卷,将无法建立快照;当一个镜像卷正处于重新同 步状态时,也无法用于建立快照。其次,预先创建镜像卷占用了大 量的存储资源,并极有可能造成资源的浪费。最后,快照时间点之 前持续的镜像操作将会增加系统的开销,尤其当一个源数据卷同时 维持多个镜像卷时。 按需复制快照技术按需复制快照技术在快照时间点之后,才开始建立一份快照时刻源 数据卷的完整物理

19、副本。存储子系统接收到快照操作请求,首先暂 停上层应用;接着为源数据卷建立快照卷,并为其分配大于或等于 源数据卷容量的存储空间;并建立一个控制位图,控制位图的每一 个控制位表示源数据卷的一个复制单位是否已经被复制到快照卷, 复制单位一般为数据块或磁道;控制位图建立之后,所有的控制位 都被初始化,表示所有的数据块尚未复制。至此创建快照的操作已 经完成,源数据卷的数据已经被逻辑复制到快照卷上,被暂停的上 层应用恢复运行,源数据卷和快照卷都能被访问。此时源数据卷上 的数据并没有被物理复制到快照卷上,快照卷实际上是空的。 快照建立之后,一个后台复制进程开始将源数据卷的数据块顺序复制到快照 卷,并在控制

20、位图上标记该数据块完成复制。如果上层应用要访问快照卷的 某数据时,将首先检索控制位图:如果对应的控制位显示该数据还没有被复 制到快照卷上,则从源数据卷访问实际数据,否则直接访问快照卷。当源数 据卷上某数据要被更新时,如果该数据尚未完成复制,这些数据将首先被复 制到快照卷上,并标记控制位图对应的控制位,然后才能更新源数据卷的数 据,这种操作称为写前复制,也就是我们前面所提到的CoW;如果要更新的 数据已经完成复制,则数据更新将直接进行,不再影响快照卷的操作。写前 复制技术确保复制操作发生在更新操作之前,使快照时间点后的数据更新不 会出现在快照卷上,保证了快照操作的原子性。 按需复制快照按需复制快

21、照在快照时间点之前,不会占用任何的存储资源,也不会影响系 统性能;而且它在使用上非常灵活,可以在任意时间点为任意数据卷建立快 照。在快照时间点,存储子系统要为快照卷分配存储空间,并建立控制位图 ,因此,产生的“复制窗口”的长度与源数据卷的容量成线性比例,一般为 几秒钟。 通过后台复制进程和写前复制技术,源数据卷所有的数据块最终都将被复制 到快照卷,得到源数据卷的完整物理副本,但完成这一过程的时间不仅与源 数据卷的容量有关,而且还受到上层应用数据访问的影响,很难准确估算, 可能需要几个小时甚至更长时间。 3.2.3虚拟视图快照技术虚拟视图快照技术 虚拟视图快照技术在快照时间点之后,只建立一份快照

22、时刻源数据卷的逻辑 副本,最终也不会产生完整的物理副本。这种快照技术也在创建快照时才建 立快照卷,但只需分配相对少量的存储空间,用于保存快照时间点之后源数 据卷中被更新的数据。由于被更新的数据通常仅占源数据卷容量很小比例, 一般建议为每个快照卷保留源数据卷20%的空间,如果数据更新超过这一比 例,快照将失效。 在虚拟视图快照技术中,每个源数据卷都有一个数据指针表,该指针表的记 录数量等于源数据卷的数据块数量,每条记录保存着指向对应数据块的指针 。在创建快照时,存储子系统为源数据卷的指针表建立一个副本,作为快照 卷的数据指针表。当快照时间点结束时,快照建立了一个可供上层应用访问 的逻辑副本,快照

23、卷与源数据卷通过各自的指针表共享同一份物理数据。 快照创建之后,当源数据卷中某数据将要被更新时,为了保证快照操作的原 子性,使用写前复制技术:首先将原始数据复制到快照卷的某个数据块,并 修改快照卷数据指针表的对应记录,使其指向该数据块,最后才能更新源数 据卷。对快照卷中数据的访问,必须查询数据指针表,根据对应数据块的指 针确定所访问数据的物理存储位置。虚拟视图快照的工作原理如图3-2所示 虚拟视图快照技术的“复制窗口”的长度也为几秒钟,但为快照 卷分配的存储空间却大大减少;复制操作只在源数据卷发生更新 时才发生,因此系统开销比后台进程复制源数据卷的全部数据要 小得多。但是由于快照卷仅仅保存了源

24、数据卷被更新的数据,此 快照技术无法得到完整的物理副本,它对需要完整物理副本的应 用是不适用的。 3.3 写前复制(写前复制(CoW)策略)策略 我们可以看到,在当前的主流快照技术中,都使用了如下同样的 方法来保证数据的一致性。那就是,快照创建之后,当源数据卷 中某数据将要被更新时,为了保证快照操作的原子性,均使用了 写前复制技术。本小节我们将专门来讨论该策略。 下面我们以文件系统快照为例来讨论CoW策略19。文件系统快照 是整个文件系统某一时刻的静态只读副本。在文件系统快照中采 用CoW策略来保证副本的一致性,同时也能较容易地实现文件系 统的活备份。 文件系统中的文件和目录都是由磁盘上的数据

25、块构成的,文件系统级的快照 是在数据块一级进行操作的。图3-3中显示了文件系统中的一个文件 myfile.dat由磁盘上的3个连续数据块构成,内容分别为A,B和C。创建了快 照S0后,S0中的myfile.dat仍由活动文件系统中原来的myfile.dat的3个物理 块构成。 快照的CoW策略基本原理如下:当一个用户修改了该文件的数据后,快照 S0中就要分配一个空块,将活动文件系统中的原数据块内容C复制到S0中 ,然后才将原数据块内容C改写为C。这样一来,活动文件系统中 myfile.dat的版本就包含数据块A,B和C。快照中的myfile.dat旧版本 则包含数据块A,B和C。结果如图3-4

26、所示。 此后如果继续有对C块的操作,则直接对C进行修改,快照中保存的 始终是快照开始时刻的文件系统的一个静态副本,快照得到的数据是一个一 致性得到保证的副本,而文件系统此时也可以进行正常的工作。文件的完整 性和一致性也就都可以得到保证了。 前面所提到的当前主流快照技术可以说都是基于数据块层次的,无法保证文 件或文件集的数据完整性和一致性,同时由于这些技术往往与存储设备相关 ,实施代价较高,移植性不好,也不适合我们的容灾备份系统。所以,为了 保证数据一致性,本文将要实现的快照技术将是基于文件级的热快照。 快照技术的主要策略分离镜像(2/3) ApplicationsApp: e.g. Backu

27、p Write Read 逻辑数据集 物理数据集 应用 Read Write 差量数据集 缓冲区 快照技术的主要策略分离镜像(3/3) Applications Write Read 逻辑数据集 物理数据集 应用 差量数据集 缓冲区 优:安全性优:安全性 高,响应快,高,响应快, 对系统性能影对系统性能影 响小响小 缺:空间效率低,缺:空间效率低, 可扩展性差,快照不可扩展性差,快照不 适合写适合写 快照技术的主要策略写时拷贝(1/3) Applications Write Read 逻辑数据集 物理数据集 应用 3.3 写前复制(写前复制(CoW)策略)策略 我们可以看到,在当前的主流快照技

28、术中,都使用了如下同样的方法来保证 数据的一致性。那就是,快照创建之后,当源数据卷中某数据将要被更新时 ,为了保证快照操作的原子性,均使用了写前复制技术。本小节我们将专门 来讨论该策略。 下面我们以文件系统快照为例来讨论CoW策略19。文件系统快照是整个文 件系统某一时刻的静态只读副本。在文件系统快照中采用CoW策略来保证副 本的一致性,同时也能较容易地实现文件系统的活备份。 文件系统中的文件和目录都是由磁盘上的数据块构成的,文件系统级的快照 是在数据块一级进行操作的。图3-3中显示了文件系统中的一个文件 myfile.dat由磁盘上的3个连续数据块构成,内容分别为A,B和C。创建了快 照S0

29、后,S0中的myfile.dat仍由活动文件系统中原来的myfile.dat的3个物理块 构成。 快照的CoW策略基本原理如下:当一个用户修改了该文件的数据后,快照S0 中就要分配一个空块,将活动文件系统中的原数据块内容C复制到S0中,然 后才将原数据块内容C改写为C。这样一来,活动文件系统中myfile.dat 的版本就包含数据块A,B和C。快照中的myfile.dat旧版本则包含数据 块A,B和C。结果如图3-4所示。 此后如果继续有对C块的操作,则直接对C进行修改,快 照中保存的始终是快照开始时刻的文件系统的一个静态副本, 快照得到的数据是一个一致性得到保证的副本,而文件系统此 时也可以

30、进行正常的工作。文件的完整性和一致性也就都可以 得到保证了。 前面所提到的当前主流快照技术可以说都是基于数据块层次的 ,无法保证文件或文件集的数据完整性和一致性,同时由于这 些技术往往与存储设备相关,实施代价较高,移植性不好,也 不适合我们的容灾备份系统。所以,为了保证数据一致性,本 文将要实现的快照技术将是基于文件级的热快照。 快照技术的主要策略写时拷贝(2/3) ApplicationsApp: e.g. Backup Write Read 逻辑数据集 物理数据集 应用 Read Write 快照技术的主要策略写时拷贝(3/3) ApplicationsApp: e.g. Backup W

31、rite Read 逻辑数据集 物理数据集 应用 Read Write 1:Copy 2:Write 优:空间优:空间 效率高,快效率高,快 照可读写,照可读写, 可扩展性好,可扩展性好, 易改进易改进 缺:缺:COW 操作影响系操作影响系 统性能统性能 快照技术的主要策略写重定向(1/4) Applications Write Read 逻辑数据集 物理数据集 应用 快照技术的主要策略写重定向(2/4) Applications WriteRead 逻辑数据集 物理数据集 应用App: e.g. Backup Read Write 快照技术的主要策略写重定向(3/4) 快照技术的主要策略写重

32、定向(4/4) Applications Write Read 逻辑数据集 物理数据集 应用App: e.g. Backup Read Write ROW 优:空间优:空间 效率高,快效率高,快 照可读写,照可读写, 响应快,可响应快,可 扩展扩展 缺:物理缺:物理 数据交叠,数据交叠, 映射关系维映射关系维 护复杂护复杂 数据备份方法数据备份方法 热备份(Hot Backup): 应用服务不中断. 冷备份(Cold Backup): 应用服务被中断. 一般通过备份代理管理备份不同类型的数 据: 结构化数据 (such as databases) 半结构化数据 (such as email)

33、非结构化数据 (file systems) Backing up datab can occur useing two different methods: A Hot backup, which means that the application is still up and running, with users accessing it, while backup is taking place. A Cold backup, which means that the application will be shut down for the backup to take place

34、. Most backup applications offer various Backup Agents to do these kinds of operations. There will be different agents for different types of data and applications. 40 备份的分类和级别备份的分类和级别 全备份(全备份(Full Backup) 累积(差分)备份(累积(差分)备份(Cumulative Cumulative (Differential(Differential) )) 增量备份(增量备份(IncrementalIn

35、cremental) FullCumulativeIncremental 数据备份中的去重 42 重复数据删除(Deduplication) 重删级别:File,Block 数据指纹: MD5, SHA-1, SHA-256, SHA-512 重删后的数据恢复 连续数据保护 (CDP) SNIA对连续数据保护(CDP)的定义: CDP是这样一种方法,它在不影响主要数据运行的前提下, 可以实现持续捕捉或跟踪目标数据所发生的任何改变,并 且能够恢复到此前任意时间点。连续数据保护系统可以基 于块、文件或应用实现,可以为恢复对象提供足够细的恢 复粒度,实现几乎无限多的恢复时间点 三种实现方式:基准参考

36、数据模式、复制参考数据 模式、合成参考数据模式 产品方案:基于应用,基于文件,基于数据块的CDP CDP是一个实时的数据备份系统,它自动地将应用数据的所有 变化实时的纪录下来。它的关键是将每一个应用数据的变化加 上了时间索引。这样,当出现数据丢失、数据损坏、或者安全 问题时,就可能恢复到最近的完好数据。 持续数据保护 1基于应用实现持续数据保护 对需要保护的关键应用程序,可以在其中直接嵌入和运行CDP 功能。这种实现CDP的方式首先能够和应用进行深度整合,确 保应用数据在持续保护中的一致性。CDP功能可以由软件厂商 将其直接嵌入在软件产品中,也可以是软件厂商提供API接口, 由第三方软件开发商来开发完成。 基于应用的C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论