开题报告一种虚拟机镜像高可用备份系统的设计与实现_第1页
开题报告一种虚拟机镜像高可用备份系统的设计与实现_第2页
开题报告一种虚拟机镜像高可用备份系统的设计与实现_第3页
开题报告一种虚拟机镜像高可用备份系统的设计与实现_第4页
开题报告一种虚拟机镜像高可用备份系统的设计与实现_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

研究生学位论文开题报告报告题目 一种虚拟机镜像高可用备份系统的设计与实现 学生姓名 李莉 学号 201228015029001 指导教师 钟华 职称 研究员 学位类别 工学硕士 学科专业 计算机软件与理论 研究方向 网络分布式计算与软件工程 培养单位 填表日期 2014年6月20日 大学制填 表 说 明1. 本表内容须真实、完整、准确。2. “学位类别”名称填写:哲学博士、教育学博士、理学博士、工学博士、农学博士、医学博士、管理学博士,哲学硕士、经济学硕士、法学硕士、教育学硕士、文学硕士、理学硕士、工学硕士、农学硕士、医学硕士、管理学硕士等。3. “学科专业”名称填写: “二级学科”全称。报告提纲1、 选题的背景及意义2、 国内外本学科领域的发展现状与趋势3、 课题主要研究内容、预期目标4、 拟采用的研究方法、技术路线、实验方案及其可行性分析5、 已有科研基础与所需的科研条件6、 研究工作计划与进度安排7、 参考文献 1. 选题的背景和意义 1.1 数据备份和恢复技术在当今信息化社会,政府机构和企业对计算机网络应用和数据信息的依赖越来越强,不分昼夜在线传递的大量网络数据和海量存储的数据库,成了各级政府机构和金融、保险、大型企业赖以生存的命脉。然而,恐怖事件、自然灾害、系统故障、人为误操作、计算机病毒、黑客攻击等不确定因素在时刻威胁着数据的安全。任何原因导致的数据丢失或损坏,都将产生不可弥补和无法估量的损失。在震惊全球的911 事件中,位于美国世贸大厦里的公司就上演过数据丢失的悲剧,只有 25%使用了海量数据存储系统的公司能够在灾难发生后迅速恢复业务,而其他很多公司则因数据全部丢失而遭受毁灭性的打击甚至破产。2002 年深圳证券交易所事件、2002年及 2003 年首都机场离港系统故障等都是典型例子。毫无疑问,任何以预防为目的的保护措施,无论其多么全面周到、细致入微,都只能尽量地减少而不能完全杜绝灾难的发生,当突发事件和人为、意外所造成的计算机数据的破坏、丢失突如其来的时候,数据恢复努力的成败就是事关信息数据安全与否的最后生死线。从现阶段来看,采用数据备份系统备份关键数据是解决数据损坏和丢失的唯一可行的解决方案。高性能的数据备份和灾难恢复技术能充分保护系统中有价值的信息,保证灾难发生时系统仍能正常工作。目前,在计算机领域,灾难备份和灾难恢复已经成为一个研究热点。1.1.1 灾难备份和恢复的基本概念对于计算机系统来说,灾难是指一切引起系统非正常停机的事件。造成计算机系统灾难性事故的原因有自然灾害、基础设施的突发性事故、计算机系统故障和各种人为因素等。这些事故导致企业丧失了全部或部分业务处理能力,引起企业营运收入下降、信誉降低和形象受损,甚至威胁其生存。灾难备份和灾难恢复是降低灾难发生的损失、保证计算机系统连续运行的重要措施。灾难备份是指为了减少灾难发生的概率,以及减少灾难发生时或发生后造成的损失而采取的各种防范措施。灾难恢复是指计算机系统灾难发生后,在远离灾难现场的地方重新组织系统运行和恢复运营的过程。灾难备份的主要目标是:保护数据和系统的完整性,使业务数据损失最少甚至没有业务数据损失;灾难恢复的主要目标是:业务快速恢复,使业务停顿时间最短甚至不中断业务。灾难备份和恢复需要通过技术和管理的双重手段,确保在计算机系统灾难发生、数据丢失和应用中断后,能够在在指定的时间内在本地或异地恢复计算机系统的关键数据,重新建立业务处理系统。灾难备份和恢复系统包括数据备份、计算机场地的实时切换、短时间内的业务恢复等重要内容。1.1.2 灾难备份系统的衡量指标衡量灾难备份的主要技术指标为恢复点目标RPO(Recovery Point Object,简称RPO)与恢复时间目标RTO(Recovery Time Object,简称RTO。其中,RPO灾难发生时刻与最近一次数据备份时刻的时间间隔,即尚来不及对数据进行备份(导致数据丢失)的时间,代表丢失的数据量;RTO系统从灾难发生到重新启动的时间,代表系统恢复的能力。RPO主要针对的是数据丢失,代表了数据容灾的指标。为尽可能减少数据丢失,需要建立一个远程的数据存储系统,并对生产系统进行数据的镜像备份。RTO对的是服务丢失,是衡量应用容灾的指标,即在数据容灾的基础上,在灾备中心建立一套完整的与生产系统匹配的备份应用系统。在灾难发生时,灾难备份中心可以迅速接管业务运行,不仅能最大限度地降低丢失的数据量,而且能最大限度地减少系统恢复时间,保证系统不问断地运行。RTO和RPO二者没有必然的关联性。RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。1.2 数据复制技术与方式在建立灾难备份和恢复系统时会涉及多种技术,如数据复制、多级存储、NAS、快照、集群等。其中,数据复制技术是灾难备份系统的关键技术之一。数据复制技术主要是将生产中心的生产数据复制成灾难备份数据,灾难备份数据与生产数据应保持一致。目前,数据复制的主要方式有同步数据复制和异步数据复制两种。1.2.1 同步数据复制同步数据复制方式的主要思想是在主机向本地磁盘写数据的同时,将数据传到备份中心的磁盘系统,在确认远程备份系统的数据同步更新后,完成写数据的操作。同步数据方式的数据实时性强,灾难发生时备份数据能够与生产数据保持一致,几乎没有数据丢失,恢复时间短。其缺点是由于数据更新操作时间长,影响应用的性能。同时,由于数据在两个站点的传输要消耗时间,使得I/O时间受到两个站点之间距离的影响,两个站点间的距离限制很难突破60公里。由于现代传输技术的限制,该方式对生产中心和备份中心之间的距离和通讯质量有严格要求,一般适用于同城(而异地)的备份。1.2.2 异步数据复制异步数据复制方式的主要原理是在主机系统向本地写磁盘数据后,将本地生产数据以后台的方式复制到异地。异步数据方式对数据的更新操作不必等本地卷和备份卷的数据都更新完毕后才算是更新完成,因此减少了更新操作的时间,同时对主机性能的影响较小。但是,由于不同步,会出现数据的丢失。企业选择复制模式应该结合自身的容灾目标和实际情况来考虑。如果优先考虑系统性能,同时能够接受备份中心数据更新的较小延迟,就应该采用异步数据复制方式。如果优先考虑避免数据的丢失,同时生产主机的工作负载能够承受同步拷贝带来的性能损失,生产中心与备份中心的距离不超过100公里,就可以考虑采用同步数据复制方式。1.3 虚拟机镜像备份的重要意义随着IT产业对于资源整合利用的需求越来越强烈和云计算的迅速发展,服务器虚拟化逐渐成为主流趋势。虚拟化意味着更少的硬件,更低的成本和更高的IT效率。虚拟机相比于物理机,提高更高的资源利用率同时更好安全和易于管理。随着数据中心虚拟化的趋势,物理机向虚拟机的迁移过程中,数据从物理磁盘迁移到了虚拟磁盘,也就是虚拟机对应的镜像文件。因而,随着对于数据安全的愈来关心,针对对于虚拟机镜像的数据保护措施也越来越重要。因此,切合实际的需要,本题旨在构建一个虚拟机镜像的备份系统,解决虚拟机镜像的安全保障问题。2. 国内外本学科领域的发展现状和趋势目前,国内外已经有一些通用的数据备份和恢复的解决方案,主要有:IBM公司的跨域并行系统耦合体技术IBM公司根据异地远程灾难备份的需要,提出基于大型计算机主机的灾难备份技术,即跨域并行系统耦合体技术(Geographically Dispersed Parallel Sysplex,简称GDPS),该技术已成为目前大型计算机系统灾难备份技术的主要解决方案GDPS是一种多站点应用可用性解决方案,具有管理远程拷贝配置和存储子系统、自动执行并行Sysplex操作任务、从单一控制点执行故障恢复等功能,从而达到了提高应用可用性的目的。在IBM主机系统的灾难备份中,它将S390并行Sysplex技术与远程拷贝技术集成在一起,能够提高应用的可用性和灾难恢复能力。在GDPS的方式下,IBM推出了两种远程数据拷贝功能:一种是基于同步数据复制方式的端到端远程复制技术(Point-Point Remote Copy,简称PPRC),远程备份距离可达103公里;另一种被称为扩展远程拷贝(Extended Remote Copy,简称ERC),提供广域网范围的数据备份。跨域并行系统耦合体(GDPS)和对等远程拷贝(PPRC)两种技术的组合,看成是IBM在灾难恢复领域的前途所在。通过GDPS和PPRC,IBM使灾难发生后进行恢复的时问缩减到以分钟计算。EMC SRDF远程数据备份系统EMC的远程数据备份软件SRDF (Symmetrix Remote Data Facility)是一个在线并且独立于主机的数据镜像存储解决方案,可在多种操作系统下使用。该方式可在多达16个本地或远程的磁盘Symmetrix系统间提供完整的数据备份。在数据中心操作发生故障时,系统管理人员可以快速地从源系统切换到目标系统。当主结点的故障排除之后,通信连接被重新建立,SRDF能够自动地在结点之间进行数据同步,从而使正常的操作得以恢复。SRDF能够同时为大型机、Unix、Windows NT和As400系统提供完整的业务连续可用性能力。数据复制通道既可以采用传统的网络,也可支持光纤通道、T1T3、E1E3、ATM和波分多路复用等多种方式。SRDF可提供三种工作模式:1同步模式在Symmetrix源系统和远程目标系统之间提供实时数据镜像,在应用的I0结束之前,数据被实时同步地写入两个系统的高速缓存中,从而确保数据的最大可靠性。2半同步模式把数据写入源系统,完成输入输出,然后使目标系统中的数据同步化。在数据同步之前,本地IO操作已经完成,但在目标系统实现同步化之前,对相关数据的第二个写操作将不被接受,从而在数据访问性能上有一定的提高。3自适应拷贝模式在将数据从源系统传送到目标系统的过程中不需要等待确认,适用于大规模的数据传输,如数据中心MA8000的迁移或合并等。Veritas异地备份容灾方案Veritas容灾系统大致可分为三个部分:备份中心主机网络存储系统的构建以及应用系统的安装;建立数据中心与备份中心的数据同步传输系统;建立基于广域网的集群系统。远程数据同步复制的实现又包括两个部分:有足够带宽的网络连接和好的数据复制管理软件。数据复制管理软件采用Veritas Volume Replicator (vVR)。vvR采用可靠的连接和监听协议,可向远程备份系统同步进行逻辑卷复制。vVR支持广域网节点问数据的同步和异步复制,支持多点到多点的复制。一份数据最多可同时复制到32个节点。Veritas的GCM(Global Cluster Manager,简称GCM)软件可实现广域网的集群管理。GCM软件可与VCS(Veritas Cluster Server,简称VCS)有机集成,从单控制台管理多达32个地域的VCS集群系统,实时监测每个VCS Cluster的运行状况,并可根据用户应用要求制定多种切换策略。当某个地域发生故障或灾难而导致该地域的Cluster终止时,GCM会马上监测到,并可根据策略自动或手工快速地将应用切换到远程的Cluster。3. 课题主要研究内容、预期目标3.1 研究内容本文旨在设计和实现一个虚拟机镜像的高可用备份系统,其中的研究内容主要有以下几方面:首先,研究对于虚拟机镜像文件的特性和实际环境可能存在的异构存储环境,使用同步还是异步的数据复制方式来进行数据备份。研究同步方式的可行性和对系统运行的影响,研究异步方式对数据丢失量的影响。其次,研究镜像备份的具体策略。研究镜像备份的合理周期,研究基于优先级的备份策略,研究备份过程对节点的性能影响,包括CPU使用率,磁盘和网络的IO,研究针对不同虚拟机镜像的可定制备份策略等。再者,针对镜像文件大的问题,研究在数据复制中的数据传输量的优化,尽可能减少不必要的传输,如检测增量改变和检测数据相关性。再者,系统的设计的实现(包括系统的总体架构设计,模块的划分,模块之间的通信,各模块内部的具体实现和测试)和对备份系统的整体的性能衡量(从恢复点目标RPO与恢复时间目标RTO两方面进行衡量)也是研究内容。3.2 预期目标现一种能够适用于目前vServer平台的虚拟机镜像高可用备份系统。在尽量不影响原有存储服务的情况下尽可能的提高PRO和PTO指标。 4. 拟采用的研究方法和技术路线4.1 增量备份和按需备份技术虚拟机镜像与一般的通用数据相比有一些特殊性,为备份机制带来了一些实际问题。首先,虚拟机镜像的最明显的特点是大文件,虚拟机镜像文件代表了虚拟机的虚拟硬盘,容量一般都是10G级别以上。对于小文件或者一般文件的多份冗余备份的策略在这种情况下就不太适用,会造成明显的空间浪费和系统资源消耗。因此,要求更精确合理,更经济适用的增量备份策略,即只备份改变量。其次,现代Linux系统上的虚拟机镜像支持稀疏文件的格式,即一个虚拟机镜像的显示大小可能远大于实际大小,比如分配了100G空间的虚拟机,可能只使用了2G,那么对于备份的要求就是需要我们按照使用量来备份,而并非显示量(或者说,系统注册量)。再者,现代虚拟机链式克隆技术的出现,导致不同虚拟机镜像之间可能存在关联性,如何检测这些镜像之间的树状关联关系,利用这些关系优化数据传输。4.2 智能备份策略鉴于虚拟机镜像文件的特殊性,采用单一的固定周期或者频率的备份策略会对存储系统的性能造成明显影响,会影响整个虚拟化平台的运行状况。因此,需要更加合理的备份策略,需要尽可能的满足备份的需要,又高效节约的利用资源,可能的智能策略包括:1 基于优先级的备份策略。多个虚拟机镜像在实际生产系统的重要性不一定相同,可以划分他们的优先级。对于优先级高的镜像可以采用更高的备份频率,优先级低的镜像采用更低的备份频率,或者结合模板技术不进行实际备份。特别是在系统资源紧缺的情况下首选备份优先级高的镜像。2 资源敏感的备份策略。虚拟机的镜像存储系统要实时的对外提供数据访问,会产生动态的资源的消耗,而备份系统要尽可能的不影响数据的正常访问,要监控系统资源的使用情况,合理的安排备份任务。5. 已有科研基础与所需的科研条件已有的科研基础:1 阅读了大量关于虚拟化,存储系统,资源监控,数据灾难备份的相关文献。2 调研了数据备份和恢复技术的发展和前景3 调研了一些主流的文件系统和一些现代文件系统的性能表现和特性支持。4 软件工程技术中心已经开发和实现了vServer虚拟化平台,可以作为实验的基础条件。5有Linux平台,Xen虚拟机架构,文件系统,存储架构,python编程方面的相关研究和经验。所需的科研条件:1 可能还需要一些专业的存储或者快速的设备,不过对研究工作的核心不产生实质影响。6. 研究工作计划与进度安排1 进一步深入调研数据备份和恢复的相关文献和技术2 调研更多的主流开源虚拟机镜像的管理系统3 设计具体的备份系统原型4 研发测试工具做备份系统的整体性能度量测试5 根据测试的结果不断地迭代优化备份系统7. 参考文献1 Guide, Disaster Recovery Solutions. Overview of Veritas Technology and Services Used for Technology Recovery at an Alternate Site. (2003).2 刘迎风, 祁明. 容灾技术及其应用. 计算机应用研究 6 (2002): 7-10.3 Milligan, Charles A., George A. Rudeseal, and Jay S. Belsan. Incremental disk backup system for a dynamically mapped data storage subsystem. U.S. Patent No. 5,210,866. 11 May 1993.4 Van Rietschote, Hans F. Disaster recovery and backup using virtual machines. U.S. Patent No. 7,093,086. 15 Aug. 2006.5 Chervenak, Ann, Vivekenand Vellanki, and Zachary Kurmas. Protecting file systems: A survey of backup techniques. Proceedings Joint NASA and IEEE Mass Storage Conference. Vol. 3. 1998.6 Lee, Edward K., and Chandramohan A. Thekkath. Petal: Distributed virtual disks. ACM SIGOPS Operating Systems Review 30.5 (1996): 84-92.7 Borthakur, Dhruba. HDFS architecture guide. Hadoop Apache Project. http:/hadoop. apache. org/common/docs/current/hdfs_design. pdf (2008).8 Rosenblum, Mendel, and Tal Garfinkel. Virtual machine monitors: Current technology and future trends. Computer 38.5 (2005): 39-47.9 Slaughter, Gregory L., et al. Highly available cluster virtual disk system. U.S. Patent No. 5,964,886. 12 Oct. 1999.10 White, Barry B. Virtual storage system and metho

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论