




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i 华 中 科 技 大 学 硕 士 学 位 论 文 摘摘 要要 随着信息技术和网络技术的快速发展,现代社会的运作日益依赖于数据信息。 数据信息的丢失和损坏将对社会造成难以估量的损失,因此,采用备份系统保护数 据的完整性与安全性的需求日益增长,如何构建高性能的数据备份系统成为当前存 储研究发展的重要课题。 分析了现有的数据备份系统基本原理和系统结构,并对与实现数据备份系统相 关的一些重要技术进行了深入研究。研究了数据备份系统的业务流程,设计了数据 备份系统的总体结构,同时还设计了用户代理、服务器代理、存储代理和三者通信 接口,测试结果表明,该结构的数据备份系统有高效的备份性能。构成系统总体结 构的管理服务器不参与数据备份和恢复任务中的数据传输,从而平衡了系统负载。 从系统功能的角度看,数据备份系统由备份子系统、恢复子系统和安全子系统 三个子系统组成,采用先进的差分备份方式,既能实现本地数据备份,亦可进行远 程数据备份。设计与实现了备份子系统和恢复子系统,给出了各个模块的功能流程 和实现方法。在几个主要的模块中,完全备份模块实现了数据初始化完全备份;差 分备份模块用来捕捉更新数据并形成差分文件;数据传输模块实现了数据的发送和 接收;数据恢复预处理模块用来检查系统恢复环境、准备好恢复文件,测试结果表 明,使用该模块可以提高系统数据恢复的效率。 为了提高系统的安全性和可靠性,设计并实现了身份认证、数据传输动态加密、 数据一致性检验,保障了系统数据的安全性和一致性。 关键词:关键词:数据备份,差分备份,动态加密,数据一致性 ii 华 中 科 技 大 学 硕 士 学 位 论 文 abstract with the rapid development of information technology and network technology, the daily operation of society is now increasingly dependent on data. any damage or corruption of data will bring incalculable loss. the demands of using backup system to protect data integrity and security are growing fast. how to build a data backup system with high performance is one of the most important issues in storage research and development. based on analyzing the principle and structure of the data backup system, some important techniques of backup are thoroughly researched. system business process is researched. a design of data backup systems overall structure is delivered, together with the design of user agent, management server, storage agent and their communication interfaces. tests show that data backup system based on this structure has efficient backup performance. the management server doesnt take part in data transmission in backup and recovery process, balancing the load of the system. from the perspective of system function, the data backup system includes backup subsystem, restore subsystem and security subsystem. the system using advanced differential backup can achieve local and remote data backup. design and implementation of the backup and restore subsystems are delivered. function process and implement method of each module are given. the full backup module can achieve an initialized full backup. the differential backup module is used to capture data update and make a differential file and data transmission module is used to send and receive data. the data recovery pretreatment module is used to check system environment and make restore file ready. test shows that the use of this module can increase the efficiency of data recovery of system. in order to improve the security and reliability of the data backup system, the identity authentication, data dynamic encryption and data consistency test are designed and implemented. they protect the security and consistency of system data. keywords: data backup, differential backup, dynamic encryption, data consistency 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密 ,在_年解密后适用本授权书。 不保密 。 (请在以上方框内打“” ) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 本论文属于 1 华 中 科 技 大 学 硕 士 学 位 论 文 1 绪论绪论 1.1 课题背景课题背景 网络技术的飞速发展和网络的日益普及,使得信息交流空前简化,同时也刺激 了信息量的高速增长。数据已经成为我们工作、生活中不可缺少的因素,现代社会 是在一定意义上的以数据为中心的数字化社会。数据是信息的符号,数据的价值取 决于信息的价值。由于越来越多的有价值的关键信息转变为数据,数据的价值也就 越来越高1。 在当今信息化社会,政府机构和企业对计算机网络应用和数据信息的依赖越来 越强,不分昼夜在线传递的大量网络数据和海量存储的数据库,成了各级政府机构 和金融、保险、大型企业赖以生存的命脉。然而,恐怖事件、自然灾害、系统故障、 人为误操作、计算机病毒、黑客攻击等不确定因素在时刻威胁着数据的安全。任何 原因导致的数据丢失或损坏,都将产生不可弥补和无法估量的损失。在震惊全球的 911 事件中,位于美国世贸大厦里的公司就上演过数据丢失的悲剧,只有 25%使用 了海量数据存储系统的公司能够在灾难发生后迅速恢复业务,而其他很多公司则因 数据全部丢失而遭受毁灭性的打击甚至破产。2002 年深圳证券交易所事件、2002 年 及 2003 年首都机场离港系统故障等都是典型例子。毫无疑问,任何以预防为目的的 保护措施,无论其多么全面周到、细致入微,都只能尽量地减少而不能完全杜绝灾 难的发生,当突发事件和人为、意外所造成的计算机数据的破坏、丢失突如其来的 时候,数据恢复努力的成败就是事关信息数据安全与否的最后生死线2, 3。 从现阶段来看,采用数据备份系统备份关键数据是解决数据损坏和丢失的唯一 可行的解决方案。数据备份系统包含数据存储、数据备份和高可用技术,是各种技 术的综合应用,并且因用户需求的不同和使用环境的不同而有不同的解决方案4。 目前, 数据备份系统的研究和产品还主要集中在国外, 如 ibm、 emc、 veritas 等国际知名大公司都有自己研发的数据备份系统方案产品。本课题以国家“973”计 2 华 中 科 技 大 学 硕 士 学 位 论 文 划项目中数据存储的安全性问题为背景,针对系统文件数据经常因用户误操作、病 毒、系统故障等原因而造受损失,提出对系统文件关键数据进行备份,在数据破坏 时实现数据恢复,保证系统业务的连续性。系统的开发,在目前保障数据安全性的 需求日益增长的情况下,具有广阔的应用前景。 1.2 国内外研究概况国内外研究概况 1.2.1 国外研究概况国外研究概况 数据备份系统包括存储、备份和传输技术,是多种技术的综合应用5, 6。 从系统架构上来分,网络数据存储系统主要包括直连存储(direct attached storage, das) 、存储区域网(storage area networks, san)和附网存储(network attached storage, nas)三大类7-11。das 的存储设备直接和服务器相连,它以服务 器为中心,在服务器周围连接一些可共享的设备,通过小型计算机接口(scsi)命令传 输数据。das 的数据管理需要第三方软件支持,数据只能异地备份。nas 是一种基 于文件的存储结构12。san 是一种将磁盘阵列、磁带等存储设备与服务器等通过高 速通道连接起来的专用子网。对于 san 和 nas 而言,其技术上最大的区别在于是 采用专门的协议还是现有的 ip 技术,以及数据共享等问题的分别考虑,san 的优势 在于最初解决网络带宽问题的考虑,而 nas 更侧重于通用性和数据共享的考虑13。 国外对数据备份系统的研究和开发,开始于 20 世纪 80 年代中期。到目前为止, 成熟的产品主要集中在少数知名 it 公司手中,如 ibm、veritas、emc 等,这些 在存储和数据备份恢复领域处于领导地位的公司都有各自的存储备份技术和优秀的 数据备份恢复系统。 1ibm 公司的异地备份系统 ibm 的pprc (peer to peer remote copy, 点对点远程复制) 复制技术是基于ess 企业级数据存储服务器,通过 escon(enterprise systems connection,企业管理系 统连接,是一种光纤通道)通道建立配对的逻辑卷备份技术。这是ibm 的最高级别 备份系统,主要适用于大、中型和电信企业。pprc 备份系统能够自动将源卷上的 3 华 中 科 技 大 学 硕 士 学 位 论 文 数据同步到目标卷,实现以存储为基础的、实时的、与应用无关的数据远程镜像功 能,可根据需要选择同步或异步方式。pprc 实现较为简单,纯粹基于硬件,是无 数据丢失且具有完全恢复功能的灾难恢复系统。 2veritas 公司多层次灾难恢复系统 veritas 提供的是基于软件的备份复制的多层次灾难恢复系统。 这个系统集成 了volume replicator、cluster server 和global cluster manager,其代表是veritas volume replicator。 veritas volume manager可以在不同的地理位置建立数据集的镜 像,以可靠、高效、一致的方式通过ip网络将数据复制到异地站点,无论企业的存 储是分布于lan、man还是wan层次上。 在具体的功能配合上,veritas 的产品各司其职:veritas cluster server 处 理本地可用性问题,veritas volume replicator将重要数据复制到远端站点,global cluster manager 监控并管理每个站点的复制工作和集群。如果出现站点故障或主站 点的应用完全失效,global cluster manager将控制并转移生产任务到备用站点,重新 引导客户机的流量。 3emc 公司srdf 同步复制系统 emc 的 srdf(symmetrix remote data facility,symmetrix 远程数据镜像技术) 实现了数据在不同环境间的实时有效复制。 srdf是在symmetrix成功经验的基础上, 通过对磁盘子系统的性能不断改进而产生的。 srdf 拥有两套磁盘子系统,分别称之为 r1 和 r2,存放实时数据拷贝的 r2 子 系统被安置在与存放原始数据拷贝的 r1 子系统不同的地点。 这样就确保了在数据中 心发生故障时,r2 系统仍然是可用的,而且与 r1 是同步的。由于使用了不同的子 系统,所以可对 r1 和 r2 分别进行寻址。第二个数据拷贝 r2 可以按照只读模式供 附加在第二个子系统上的第二个处理器使用。总的来说,srdf 磁盘子系统被分为本 地 r1 和远程 r2 两部分,任何写入 r1 的数据都会同时被自动复制到 r2 之上。 srdf 的工作独立于操作系统,为用户提供了一种稳定良好的远程镜像备份系 统,并且具有很大在的灵活性和可控性。 4 华 中 科 技 大 学 硕 士 学 位 论 文 1.2.2 国内研究概况国内研究概况 由中国互联网络信息中心发布的第 21 次中国互联网络发展状况统计报告显 示,截至 2007 年 12 月,网民数已增至 2.1 亿人。其中,绝大多数的计算机网络系统 用户,由于缺乏数据安全意识和配置、使用数据备份系统的知识和技能,导致已经 应用的计算机系统水平相对较低。 国际数据备份技术及其应用蓬勃发展,而国内仍处于初期发展阶段,刚刚起步 的国内厂商犹如风中小草,尽管有政府的支持,依然举步维艰。我国的网络数据安 全备份技术起步于 80 年代后期,取得了一系列研究成果,也形成了一些产品。 1联想一键恢复 leos 系统 联想集团的一键恢复 leos 系统主要用来保护用户操作系统,随联想天骄系列 pc 机出售,具有数据隐藏分区模块、硬盘保护模块和一键恢复模块。用户可以轻松 将系统数据恢复到最近一个时间点备份。 2爱数数据备份方案 作为国内首个具有完全知识产权的系统备份与灾难恢复产品提供商,爱数率先 提供当前最先进的基于磁盘的完整存储备份方案,及企业在线备份服务。主要产品 有爱数备份存储柜、爱数备份软件企业版和爱数备份卫士。爱数的产品已应用于上 海海鼎信息工程股份有限公司、北京视翰科技等多家企业。 国内的数据备份系统产品与国外公司的产品相比,市场占有率低,知名度低。 同时,在产业规模、技术水平、开发能力和国际竞争能力等方面与国际先进水平相 比有着很大的差距。为应对国际品牌的挤压和发展民族品牌,研究和开发数据备份 系统变得更加需要和迫切。 1.3 课题研究内容课题研究内容 课题主要研究实现数据备份系统,深入研究了数据备份系统的业务流程,高性 能架构和高安全性。具体来说,本文的主要研究内容是: 1首先从传统 c/s 结构入手,研究并设计基于 c/s/s 架构的数据备份系统,系 5 华 中 科 技 大 学 硕 士 学 位 论 文 统由用户端、管理服务器和存储端组成。管理服务器负责备份/恢复任务的调度,不 参与用户端与存储端的数据传输,平衡了系统负载。研究系统的业务流程,为了匹 配系统业务,设计与 c/s/s 相对应的备份代理、服务器代理、存储代理程序,它们构 成了系统的软件结构。 2从系统功能角度出发,研究备份子系统和恢复子系统的功能模块划分,给出 模块功能实现的方法和程序流程,实现备份/恢复子系统。在恢复子系统中,研究并 设计数据恢复预处理功能模块,与现有系统相比,能够提高数据恢复的效率。出于 系统自身安全性考虑,研究数据备份系统的安全性技术。综合设计并实现身份认证、 数据传输动态加密和数据一致性检验三种安全技术。 3对大文件和小文件备份性能进行对比测试,表明文件大小影响系统性能;通 过与 ftp 对比测试,备份系统的性能优于 ftp;对数据恢复预处理模块的测试结果 表明,预处理模块能提高系统的恢复效率。 1.4 本文组织结构本文组织结构 本文的组织结构如下: 第一章介绍了课题的来源、背景,国内外研究概况和课题的研究内容。 第二章研究了数据备份系统的基本原理、现有的备份技术。 第三章对系统的业务流程进行研究,设计了数据备份系统的总体结构,并着重 设计了备份代理、服务器代理、存储代理和三者通信接口。 第四章对备份子系统和恢复子系统进行功能模块划分,给出了各个模块功能实 现的方法和程序流程,实现了备份和恢复子系统。 第五章研究了有关系统安全的技术,设计并实现了身份认证、数据传输动态加 密和数据一致性检验,三者的结合应用,提高了系统的安全性。 第六章对大小文件备份性能、系统平均响应时间、数据恢复预处理模块进行了 测试和分析。 第七章对已做研究工作进行总结和对未来工作的展望。 6 华 中 科 技 大 学 硕 士 学 位 论 文 2 数据备份系统分析数据备份系统分析 随着网络系统应用的不断拓展,存储的数据量与日俱增,数据的可靠性已经越 来越被重视。因此,建立安全可靠的数据备份系统,保护数据的安全是一项重要任 务,以便使其在发生人为或自然灾难的情况下,确保数据不损失。本章将讨论数据 备份系统的基本概念、分类、基本架构,备份的基础知识和数据备份实现相关的技 术。 2.1 数据备份系统的基本原理数据备份系统的基本原理 2.1.1 数据备份系统的概念数据备份系统的概念 数据备份系统,也称为容灾系统或灾难恢复系统,就是通过特定的数据备份恢 复机制,能够在各种灾难损害发生后,仍然能够最大限度地保障提供正常应用服务 的计算机信息系统14-16。 数据备份系统是通过在异地建立和维护一个备份存储系统,利用地理上的分离 来保证系统和数据对灾难性事件的抵御能力,是数据保持高可用性的最后一道防线。 一份数据备份的作用,不仅仅像房门的备用钥匙一样,当原来的钥匙丢失或损 坏了才能派上用场。有时候,数据备份的作用,更像是我们为了留住美好时光而拍 摄的照片,把暂时的状态永久的保存了下来供我们分析和研究。当然我们不可能凭 借一张儿时的照片就回到从前,在这一点上,数据备份就更显神奇,一个存储系统 乃至整个网络系统完全可以回到过去的某个时间状态,或者重新克隆一个指定时间 状态的系统,只要在这个时间点上,我们有一个完整的系统数据备份。 2.1.2 数据备份不等同于数据复制数据备份不等同于数据复制 刚刚接触“备份”这个概念的人,往往将其等同于简单的数据复制(拷贝) ,认 为只要将数据拷贝后保存起来,就可以确保数据的安全。这种认识是片面的,因为 7 华 中 科 技 大 学 硕 士 学 位 论 文 这样做的结果是:我们花费了大量的资金与宝贵的时间,却仍旧无法做到有效地保 护数据的安全,同时还埋下了很大的隐患。 数据复制是指将重要的数据复制到其他存储介质,并保存在其他地方,当数据 遭到意外损坏或者丢失时,再将保存的数据副本恢复到系统17。单纯的数据复制根 本无法留下其历史记录以做追踪,亦无法留下系统的 nds(novell netware)和 registry(microsoft windows nt)等系统状态信息,这样只能将部分数据进行恢复, 而数据的应用环境、属性及历史操作记录等重要信息都无法再次重现。系统管理者 在着手规划一个安全备份的网络环境时,也无法充分了解完全备份方案应具有那些 条件要素,往往投入了大量的人力、物力与财力却仍然无法实现预想的良好效果。 对于成千上万的文件和海量数据,简单的复制也将显得力不从心。 完善的备份必须在数据复制的基础上,提供对数据复制的管理,不仅要消除手 动备份的麻烦,更要能实现自动化和跨平台的备份,满足使用者的全面需求。一个 完善的备份解决方案应具备自动化的程序设定、保障数据的安全性和完整性、存储 管理和跨平台的备份功能。 由此可见,备份不等于单纯的拷贝,管理也是备份的重要组成部分。管理包括 备份的可计划性、磁带机的自动化操作、历史记录的保存以及日志记录等等。正是 有了这些先进的管理功能,在恢复数据时我们才能对所有的信息了然于胸,特别是 还可以查询一些重要的历史记录,使备份真正变得既轻松又可靠。从这个意义上说, 备份应该是“拷贝+管理” 。 2.1.3 数据备份系统的分类数据备份系统的分类 数据备份系统按照所保障内容分类,可以分为数据级和应用级数据备份系统。 数据级数据备份系统是指建立一个异地的数据备份系统,该系统是对本地系统关键 数据的复制,当出现灾难时,可将数据从异地系统迅速拷贝至本地系统从而保证业 务数据的完整性与一致性。应用级数据备份系统比数据级数据备份系统层次更高, 即在异地建立一套完整的、与本地数据系统相当的备份应用系统(可以同本地应用 系统互为备份,也可与本地应用系统共同工作),在灾难出现后,远程应用系统迅 8 华 中 科 技 大 学 硕 士 学 位 论 文 速透明地接管或承担本地应用系统的业务运行,保证信息系统提供的服务完整、可 靠、安全。 数据备份系统按照数据备份恢复功能实现的距离远近,又可以分为远程数据备 份恢复系统和本地数据备份恢复系统。远程数据备份是指通过在远程建立和维护一 个备份存储系统,利用地理上的分离来加强系统对数据损坏事件的抵御能力18。 数据备份系统还有许多其它分类方法:根据备份介质的不同,可以分为磁带备 份、磁盘备份和光盘备份等;根据备份时间的不同,可以分为即时备份和定时备份; 根据备份的自动化程度,可以分为手工备份和自动备份。 2.1.4 数据备份系统的结构数据备份系统的结构 一个完整的数据备份系统应该有以下几个逻辑部分组成: 备份源系统:主要用于从特定的系统中提取备份数据,确保备份数据与关键数 据的及时同步更新。操作系统、数据库和备份任务都需要相应的备份源代理程序, 获得备份数据。 备份管理器:用于管理和运行备份任务,提供备份用户管理、任务调度管理、 备份数据库管理、备份跟踪和审计、数据迁移等功能。备份管理器和备份源系统进 行通信,并将来自源系统的数据传送至目标系统。 备份目标系统:主要完成把备份数据保存到备份介质的工作,提供备份设备管 理和介质管理等功能。 2.2 数据备份的基本概念数据备份的基本概念 2.2.1 备份的方式备份的方式 通常的备份方式有三种,它们是完全备份,增量备份和差量备份19-22。 完全备份(full backup):完全备份是指对整个系统(如组成服务器的所有卷) 或用户指定的所有文件数据进行一次全面的备份。这是最基本也是最简单的备份方 式。这种备份方式的好处就是很直观,容易被人理解;如果在备份间隔期间出现数 9 华 中 科 技 大 学 硕 士 学 位 论 文 据丢失等问题,可以只使用一份备份文件就可以快速的恢复所丢失的数据。但是它 的不足之处也很明显:它需要备份所有的数据,因此每次备份的工作量都很大,需 要大量的备份介质;如果完全备份进行的比较频繁,在备份文件中就有大量的数据 是重复的,这些重复的数据占用了大量的磁带、磁盘空间,这对用户来说就意味着 增加成本。如果需要备份的数据量相当大,备份数据时进行读写操作所需的时间也 会较长,因此这种备份不能进行得太频繁,只能每隔一段较长时间才进行一次完整 的备份。这样一旦发生数据丢失,只能使用上一次的备份数据恢复到前次备份时数 据状况,这期间内更新的数据就有可能丢失。 增量备份(incremental backup):增量备份只备份相对与上一次备份操作以来新 创建或者更新过的数据。在特定的时间段内只有少量的文件发生改变,因此增量备 份没有重复的备份数据,既节省了磁带空间又缩短了备份时间。这种备份方法比较 经济,可以频繁的进行,但是在增量备份系统中,一旦发生数据丢失或文件误删除 操作时,恢复工作会比较麻烦。因为恢复操作需要查询一系列的备份文件,从最后 一次完全备份开始,将记录在一次或多次的增量备份中的改变应用到文件上,增量 备份的恢复需要多份的备份文件才可以完成。在这种备份下,各盘磁带间的关系就 像链子一样一环套一环,其中任何一盘磁带出现了问题都会导致整条链子脱节,因 此这种备份的可靠性很差。 差分备份(differential backup):差分备份只备份上一次完全备份后新产生和更 新的数据。它的主要目的是将完全恢复时所涉及到的备份记录数量限制在2个,以简 化恢复的复杂性。差分备份在避免了另外两种策略缺陷的同时又具有了它们的优点: 首先,它无需频繁的做完全备份,工作量小于完全备份,因此备份所需要的时间短、 节省磁盘空间;其次,虽然每次做差分备份工作的任务比增量备份的工作量要大, 但是它的灾难恢复相对简单。系统管理员只需要对两份备份文件进行恢复,完全备 份文件和最近一次的差分备份文件,就可以将系统恢复。在增量备份中要顺序的进 行从上次完全备份以来的每一次增量备份的恢复。 增量备份和差分备份都能以比较经济的方式对系统进行备份,这两种方法的备 份方法都是依赖于时间,或者是基于上一次备份,或者基于上一次完全备份。表2.1 10 华 中 科 技 大 学 硕 士 学 位 论 文 对三种备份方式进行了比较。 表2.1 完全备份、增量备份和差分备份的对比 完全备份 增量备份 差分备份 定义 对整个系统或用户指定的所 有文件数据进行全面的备份。 只对上次备份后新创建和 更新过的数据进行备份。 只备份上次完全备份后 新产生和更新的数据。 优点 备份的数据最全面、最完整。 只需利用一份副本, 就可以恢 复全部数据。 没有重复的备份数据,可缩 短备份时间,快速完成备 份,而且能节省备份介质存 储空间。 恢复数据时, 只需要两份 数据, 一份是上次完全备 份, 另一份是最新的差分 备份。 缺点 备份工作量大,备份时间长, 需要大量备份介质。 如果完全 备份进行频繁, 则备份文件中 会有大量重复数据, 重复的数 据占用大量存储空间, 对用户 来说意味着增加成本。 可靠性较差,备份数据的份 数太多;当发生灾难时,恢 复数据比较麻烦,需要按顺 序依次恢复每次备份的数 据,环环相扣。 应用 范围 不适用于业务繁忙、 备份时间 有限的网络系统。 不能进行太 频繁, 通常只是在备份的最开 始一两天采用。 一般不使用增量备份,而用 差分备份代替。 适用于各种备份场合。 2.2.2 文件级备份和块级备份文件级备份和块级备份 备份的等级分为文件级备份和块级备份23。 文件级备份,即备份产品只能感知到文件这一层,将磁盘上所有的文件,备份 到另一个介质上。文件级备份产品的基本机制,就是将数据以文件的形式读出,然 后再将读出的文件存储在另外一个介质上。这些文件,在原来的介质上,存放可以 是不连续的,各个不连续的块之间的链关系由文件系统来管理。而备份产品将这些 文件备份到存储介质上后,该文件的备份数据的存放就是连续的。恢复数据的时候, 软件会重构磁盘文件系统,并从存储介质读出数据,向磁盘写入数据。 11 华 中 科 技 大 学 硕 士 学 位 论 文 块级备份,就是备份块设备上的每个块,不管这个块上有没有数据,或者这个 块上的数据属于哪个文件。块级备份不考虑文件,原设备有多少容量,就备份多少 容量。它抛开了文件系统直接对磁盘扇区进行读取,并将读取到的扇区写入用于备 份的存储介质。 块级备份不经过操作系统的文件系统接口,而是直接通过磁盘控制器驱动接口 直接读取磁盘,所以相对文件级的备份来说速度有所加快。块级备份所备份的数据 量相对文件级备份要多,因为块级备份会备份许多空扇区。另一方面,文件级备份 会将原来不连续的文件备份成连续存放的文件,恢复的时候也会在原来的磁盘上连 续写入,所以很少造成碎片。块级备份在备份之后,原来不连续的文件在备份系统 的存储介质上的存放还是不连续的,恢复的时候也只是将快的状态原样恢复,碎片 数量不会减少。 2.3 数据备份技术数据备份技术 2.3.1 冷备份与热备份冷备份与热备份 冷备份又叫离线备份,它是指当执行备份操作时,服务器将不接受来自用户和 应用对数据的更新。离线备份很好的解决了备份选择进行时并发更新带来的数据不 一致性问题,且备份速度快。缺点是:在实施备份的全过程中,服务器只能作备份 而不能及时响应用户的需求,用户需要等待很长的时间。这种方式的恢复时间比较 长,但投资较少24。 热备份也称在线备份,或数据复制,即同步数据备份,就是在用户和应用正在 更新数据时,系统也可以进行备份。由于是同步备份,资源占用比较多,投资较大, 但是它的恢复时间非常短。在热备份中有一个很大的问题就是数据有效性和完整性, 如果备份过程中产生了数据不一致性,会导致数据的不可用。解决此问题的方法是 对于一些总是处于打开状态的重要数据文件,备份系统可以采取文件的单独写/修改 权,保证在该文件备份期间其他应用不能对它进行更新。热备份的技术主要有两个: 写前拷贝(copy-on-write)和软件快照技术(snapshot)。 12 华 中 科 技 大 学 硕 士 学 位 论 文 2.3.2 写前拷贝技术写前拷贝技术 写前拷贝(copy-on-write)的基本思想是:当正在备份的文件或数据库对象发生 改变时,将磁盘上的原有数据块拷贝到一个临时磁盘位置,并使用一个特殊的位图 索引标明原有块的位置,以及临时存储的相对位置,类似于缓存索引。备份系统由 该索引表决定下一次读取的数据块是否在临时存储的相应位置,如果在,则重定向 备份进程访问临时磁盘位置的原数据块。当文件或数据库对象结束备份时,就清除 位图索引,释放临时存储的数据块,提供给下一次使用25。写前拷贝大多数在数据 库备份环境下实现的。 2.3.3 软件快照技术软件快照技术 快照(snapshot)就是对预先定义的数据的一个完全的拷贝,它包含一个数据在 开始拷贝的时刻的映像26。 快照技术可以分为两种类型:一种是基于硬件的快照,利用了卷映像的技术执 行磁盘驱动器上的数据拷贝;另一种是基于软件的快照,是通过内存作为缓冲区由 软件提供文件系统和数据库的即时数据映像,这样当备份的时候,就可以获得完整 数据的拷贝,这种方式存在缓冲区调度的问题。有四种主要的快照技术:分离镜像 (split-mirror)、写前拷贝(copy on write)、重定向写(redirect on write)、日志结 构的文件系统27, 28。第一种属于基于硬件快照,后三种属于基于软件的快照。 如图2.1所示,快照首先要建立一个与主存储系统互为镜像且分离的可寻址的存 储实体,备份操作在该存储实体上进行,而不是在主存储系统上进行,从而使备份 不至于影响服务器正常运行。当备份结束时,由于主机可能在备份期间对主存储系 统数据进行改写,从而使得镜像存储中的内容与主存储中不一致,为了镜像存储与 主存储之间快速同步,在备份期间对主存储系统中的数据的改写要进行记录或缓存 下来。 快照是在完全备份和增量备份之间的权衡。每一个快照是一个完整的文件系统 树,它在概念上类似与一个完全备份。然而,它的实现更类似于一个增量备份,因 13 华 中 科 技 大 学 硕 士 学 位 论 文 为快照和存档文件系统共享任何一个未被修改过的块;一个快照只需要对发生改变 的块进行额外的存储。为了取得合理的性能,存储快照的设备必须有效的支持随机 访问29。 图2.1 快照示意图 软件快照的工作原理是30:维护磁盘存储上的文件系统数据结构的历史拷贝。 对于每一个文件系统或数据库的存储块,软件快照都保存其存储分配的一份复制拷 贝。文件系统和数据库的视图就由这些即时的块分配所决定,所以,在任何一个时 刻,假如希望能取得文件系统映像,那么所需要做的即保证对这些块的可访问性, 这就是软件快照。它冻结文件系统的块分配视图,当然也可以冻结系统的子集,如 目录或数据库的表。在备份期间,备份系统能够利用系统的快照视图,读取数据块。 软件快照要求将新的数据块或更新的数据写到某个位置,该位置将不被现存的快照 块分配所引用。假如新的数据覆盖现存快照视图的块分配,那么快照视图就失去了 完整性。由此可以得出一个结论,为了既保存新的数据,也保存原有的数据,软件 快照需要足够多的存储空间。所需要的空闲空间取决于文件或数据库系统的活动频 度,以及与原有数据相关的新数据产生量。 2.3.4 镜像技术镜像技术 镜像是在两个或多个磁盘或存储系统上产生同一个数据的镜像视图的一种信息 存储过程,其中一个存储系统为主镜像系统,另外的存储系统都被认为是从镜像系 14 华 中 科 技 大 学 硕 士 学 位 论 文 统。按主从镜像存储系统所处的位置可以分为:本地镜像和远程镜像,远程镜像又 可分为同步远程镜像和异步远程镜像以及半同步镜像31。传统存储阵列中的raid-1 就属于典型的本地镜像技术。 1. 同步远程镜像 同步远程镜像技术类似于raid-1,两者最大的不同是镜像操作的源和目的可以 远离达100km。同步远程镜像在进行本地写i/o操作的同时,立即将所有写到主镜像 系统上的数据拷贝到远程镜像卷上;并且镜像系统只有在得到远程站点发回的确认 消息后, 才向有 i/o请求的主机发出输入输出已完成的信号, 也就是说直到在两个存 储系统上的数据全部写完之后,数据传输才有可能取得控制权。 同步镜像很大程度上受制于同步确认信号的返回,在数据传输过程中,如果发 生了数据的丢失,远程的存储池不可使用,或者内部站点联接失效此时应用程序会 向主机报告i/o出错,即使主存储站点有很好的工作系统,业务也会发生中断。 2. 异步镜像 针对同步镜像的弱点,异步镜像采用了一种完全不同的方式,它允许镜像过程 与本地写操作分离,使得应用服务器不必由于等待远程存储的写操作而遭受性能上 的损耗。镜像完成本地写i/o操作后即向应用程序发送完成信号,然后才与异地的镜 像代理通讯完成数据镜像32。 异步镜像在提高本地应用性能的同时,却会导致远程数据的一致性的威胁。远 程的拷贝在任一个指定的时间点上都滞后于源端数据。这种滞后依赖于网络的带宽 和在远程终端上提交写磁盘操作时资源的可用性。当原系统发生错误时,丢失缓冲 数据和传递中数据的可能性更大。 为解决异步镜像中的问题,必须在更高级别上谐调确保远程站点数据的一致性。 目前实现的方法有延迟写,再同步等方式来弥补异步镜像的不足。 3. 半同步镜像 半同步镜像。它具有同步镜像的一些特点,但是从本质上来讲仍旧属于异步操 作。在这种镜像方式下,在主站点和从站点之间要添加特殊的设备,来缓存镜像操 作,隐藏从主机发出的延迟。 15 华 中 科 技 大 学 硕 士 学 位 论 文 这个方法典型的用于存储阵列,它本质上是没有异步能力的。从根本上讲,镜 像的关系是存在于本地存储池和路由器之间的。一旦数据被传输到路由器,主机所 关注的处理已经完成。问题是路由器必须要对i/o请求进行缓存,直到数据被成功传 输为止。因为缓存区通常较小,因此需要高速的链路来确保i/o请求的缓存区不会溢 出33。 2.3.5 raid 技术 技术 raid(redundant array of inexpensive disks)是指廉价冗余磁盘陈列。磁盘阵 列(raid)的提出是保证计算机存储系统可靠性的一个重要发展34。raid是uc berkeley大学的一群研究人员katz r.h、gibson g.a和patterson d.a于1989年在ieee 杂志的高性能计算的磁盘体系结构一文中提出来的35。raid是由许多台磁盘机 或光盘机按一定规则,分条(striping)、分块(declustering)、交叉存取(interleaving)等, 来备份数据、提高存储系统可靠性和性能的36。raid技术有多种实现方式,通常采 用的有raid 0、raid1、raid 5、raid 10等。 raid 0又称数据分块,是使用“条”技术来跨越磁盘分配数据的。其目的是将 容量和传输率提高到最大,但没有容错,一旦硬盘出现故障,阵列中的所有数据将 会丢失。这种模式可靠性并没有提高。 raid 1又称镜像法,它使用两个完全相同的盘,即每次将数据同时写入两个盘, 一个作为工作盘,另一个作为镜像盘。一旦工作盘发生了致命故障,镜像盘可立即 顶上,使系统工作不间断。这种盘阵列可靠性高,但有效容量将减小一半。 raid 5是一种旋转奇偶校验独立存取阵列,它按一定规则把奇偶校验信息均匀 分布在阵列中所有的盘上,是一种容错能力分布合理的阵列。为了提供冗余,它最 少需要三个磁盘(不包括热备份盘)。raid 5是通常使用最多的数据保护方案37。 raid 10实际上是raid0rad1。它采用分块和镜像技术,通过分块镜像集实 现。采用分块技术,多个磁盘可并行读写,磁盘i/o性能很高;采用镜像存储使得可 靠性是所有磁盘阵列中最高的38, 39。由于集中了raid0和raid1的优点,raid10的 性能是所有raid类型中最好的,但代价较高40-42。 16 华 中 科 技 大 学 硕 士 学 位 论 文 表2.2给出了raid技术多种实现方式的比较。 表2.2 raid算法对比 raid级别 raid 0 raid 1 raid 5 raid 10 容错性 无 有 有 有 冗余类型 无 复制 奇偶校验 奇偶校验 热备份选择 无 有 有 有 硬盘要求 一个或多个 偶数个 至少三个 至少三个 有效硬盘容量 全部硬盘容量 硬盘容量50% 硬盘容量n-1/n 硬盘容量n-1/n 2.4 本章小结本章小结 本章首先分析了数据备份系统基本原理,介绍了数据备份系统的概念与分类、 数据备份与数据复制的区别以及数据备份系统的结构,这些内容是理解全文的基础; 接着研究了文件级备份和块级备份,完全备份、增量备份和差分备份三种备份方式。 对三种备份方式的优缺点进行了比较分析,为下文系统总体设计时,采用基于完全 备份和差分备份相结合的方式作铺垫;最后研究了数据备份技术,这些技术为系统 的实现提供了理论参考。 17 华 中 科 技 大 学 硕 士 学 位 论 文 3 数据备份系统的设计数据备份系统的设计 数据备份是实现数据恢复的重要途径之一。本章设计了一个数据备份系统,给 出了系统的总体架构和业务流程设计,并对总体架构中的备份代理、服务器代理、 存储代理和三者通信接口模块进行了设计。 3.1 系统总体结构系统总体结构 3.1.1 系统的设计原则 系统的设计原则 系统的设计本着下面三个原则: 1实用性 用户接口及界面设计充分考虑视觉特征、应用习惯等进行优化设计,界面尽可 能美观大方,操作简便实用。 2安全性 通过身份认证技术、数据传输过程中的动态加密和一致性检验充分保证数据的 有效性和安全性。 3可扩充、可维护性和可移植性 系统采用模块化构造,即可以根据需要灵活修改某个模块或增加新的功能以及 重组系统的结构。同时,充分考虑如何使系统获得良好的可维护性、可移植性。 3.1.2 系统整体架构 系统整体架构 数据备份系统的架构不是基于传统的 c/s 结构, 而是 c/s/s 模式, 也就是用户端 (client) ,管理服务器(server) ,存储端(storage) 。由图 3.1 可以看出整个系统主 要由三个部分构成:一个是用户端,它是备份源和恢复目的地,备份代理程序安装 在用户端主机上,提供友好的用户界面,屏蔽各种功能的内部逻辑流程;第二个是 管理服务器,它是系统的大脑,服务器代理程序安装在管理服务器上,主要实现任 18 华 中 科 技 大 学 硕 士 学 位 论 文 务的调度,负责与其它两个部分进行通信,实现数据备份/恢复;第三个是存储设备 端,存储代理程序安装在存储设备主机上,实现对备份数据对象存储和管理。其中 备份代理程序和服务器代理程序都是基于 windows 平台,数据传输环境依托于 tcp/ip 网络。 图 3.1 数据备份系统的总体架构 管理服务器是整个数据备份系统的指挥中枢。服务器代理程序安装在管理服务 器上,负责接收用户的备份/恢复任务请求,对备份/恢复任务进行调度,指挥用户 端和存储端协同完成备份/恢复的任务。管理服务器不参与用户主机和存储端主机之 间的数据传输,平衡了系统负载。 用户端由用户主机和磁盘设备组成,是备份的源端/恢复的终端。备份代理程序 安装在用户主机上,用来生成完全备份和差分备份文件,发起备份和恢复任务请求, 执行备份和恢复任务。磁盘是用来存储本地备份文件,包括初始化的完全备份文件 和产生的差分备份文件。 存储端由存储管理主机和存储设备组成,是备份的终端/恢复的源端。存储代理 19 华 中 科 技 大 学 硕 士 学 位 论 文 程序安装在存储端主机上,用来接收/回传备份数据,对备份数据的存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- YY/T 1934-2025骨科植入物及手术器械的人因设计要求与测评方法
- 工业园区规划与绿色建筑
- 工业废水处理技术与设备更新
- 工业废水处理技术进展汇报
- 工业机器人设计与应用趋势
- 工业废物处理与资源化利用研究
- 工业机器人技术及其产业发展趋势
- 工业自动化中的数据分拣技术应用
- 工业自动化系统的日常运行与维护
- 工业材料动态性能优化实践
- 《陶行知教育名篇》读书笔记
- 2023年江苏省盐城市大丰区部分事业单位招聘专职安监人员8人(共500题)笔试必备质量检测、历年高频考点模拟试题含答案解析
- EXCEL常用函数的教程课件
- 湖北省武汉市江汉区2022-2023学年三年级下学期期末数学试卷
- 井下变电所检修高爆开关施工安全技术措施
- 广东省广州市白云区2022-2023学年数学六年级第二学期期末质量检测试题含解析
- 医疗设备、医用耗材管理制度培训讲座
- 导游基础知识(中职)全套PPT教学课件
- 魅力台州优质获奖课件
- ZZ028 中职法律实务赛项赛题-2023年全国职业院校技能大赛拟设赛项赛题完整版(10套)
- 电动剪刀式升降车作业风险辨识及控制措施清单
评论
0/150
提交评论