(计算机系统结构专业论文)数字有机体空间回收机制的研究与实现.pdf_第1页
(计算机系统结构专业论文)数字有机体空间回收机制的研究与实现.pdf_第2页
(计算机系统结构专业论文)数字有机体空间回收机制的研究与实现.pdf_第3页
(计算机系统结构专业论文)数字有机体空间回收机制的研究与实现.pdf_第4页
(计算机系统结构专业论文)数字有机体空间回收机制的研究与实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机系统结构专业论文)数字有机体空间回收机制的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要全球的数字化浪潮,带来了海量的数据,在企业经营中也有大量有价值的数据产生,这些数据对企业的生存与发展至关重要,而且企业这些数据会以几何速率增长。因此业界对开放式的网络存储架构的需求变得越来越迫切,并且网络存储架构已经成为一种科技进步的必然趋势。由于传统存储技术d a s 的广泛采用,使得数据分散到各个服务器上,并且服务器大多都工作在不同的操作系统平台上( 比如i - i p u x 、s o l a f i s 、l i n u x 等) ,这就形成了所谓的“信息孤岛 【l 】,网络存储n a s 和s a n 的出现,虽然解决了部分问题,但与d a s 之间的数据访问和管理相互独立,这就给数据的共享和统一管理带来了很大的困难。为此,存储虚拟化就显得特别重要了。通过存储虚拟化系统,所有存储资源将映射成一个统一的虚拟存储空间,用户可以通过应用程序接口a p i 、命令行、g u i 以及基于w e b 的用户界面来对它进行透明的访问和管理。本研究室所开发的数字有机体系统就是一个虚拟的存储系统。其核心思想是通过聚集网络上的各种存储资源,形成虚拟的单一空间,向业务系统提供统一的映像,并提供数据的高可用性保证,从而满足大规模网络应用的需要。然而本系统在使用中面临如下问题:首先由于使用本系统每个用户都有一个配额限制,所以当一个用户使用共享的存储资源达到自己的最大配额时,就必须删除自己的资源以便为新资源腾出空间,然而令人遗憾的是系统并没有给用户提供一个很好的资源删除方式。其次当注销用户时,系统管理员只是注销该用户的用户信息,而没有处理该用户的资源,导致该用户资源所占的存储空间被白白浪费。最后对于一些特定资源,系统并没有给系统管理员提供一种跟踪方式。为解决上述问题,本文在深入理解数字有机体操作系统的故障恢复机制、配额机制以及分布式数据库的基础上,提出了一种基于数字有机体的空间回收机制。该机制主要分为两个部分:一部分是研究如何收集用户资源;另一部分是研究如何收集系统特定资源。测试表明该机制很好的解决了上述问题。关键词:空间回收,用户资源,系统特定资源,数字有机体a b s t r a c ta b s t r a c tt h ed i g i t a lw a v eo ft h ew o r l dh a sb r o u g h tt h en e e d so fh u g ed a t ap r o c e s s ,s od o e st h ee n t e r p r i s e d a t ap l a y e da ni m p o r t a n tr o l ei nt h ee n t e r p r i s e w h i l ea tt h es a m et i m e ,d a t ai nt h ee n t e r p r i s ea r ei n c r e a s i n gr a p i d l y d u et ot h ew i d e l ya d o p t i o no ft r a d i t i o n a ls t o r a g et e c h n o l o g yd a s ,t h ed a t ah a sb e e ns c a t t e r e di n t od i f f e r e n ts e i v 睨 w h i c hr u n sd i f f e r e n to p e r a t i n gs y s t e m t h a ti st h es o c a l l e d i s o l a t e di n f o r m a t i o ni s l a n d ”a sar e s u l t ,s t o r a g ev i r t u a l i z a t i o nh a sb e e no nt h ec e n t r a li m p o r t a n c e t h r o u g ht h es t o r a g ev i r t u a l i z a f i o ns y s t e m ,a l ls t o r a g er e s o u r c e sw i l lb em a p p e di n t oau n i f i e dv i r t u a ls t o r a g es p a c e ;t h r o u g ht h ea p i ,c o m m a n dl i n e ,g u ia n dt h ew e bi n t e r f a c e ,t h eu s e rc a na c c e s sa n dm a n a g et h e s ed a t ae a s i l y t h ed i g i t a lo r g a n i s ms y s t e m ,w h i c hw a sd e s i g n e db y8 010l a b ,i sav i r t u a ls t o r a g es y s t e m t h r o u g hf o r m i n gau n i f i e dv i r t u a ls t o r a g es p a c eo fd i s t r i b u t e dr e s o u r c e so nt h en e t w o r k ,i tp r o v i d e sav i r t u a lu n i q u ei m a g es p a c ea n dm e e t st h en e e d so fl a r g e - s c a l en e t w o r ka p p l i c a t i o n s h o w e v e r ,t h es y s t e mw h i c hi sb e e nu s i n gi sf a c i n gt h o s ef o l l o w i n gp r o b l e m s :f i r s to fa l l ,e a c hu s e rh a saq u o t a , s ow h e nu s e r su s es h a r e ds t o r a g er e s o u r c e st om c c tt h e i rq u o t a sb yt h el a r g e s t ,i ti sn e c e s s a r yt od e l e t et h e i ro w nr e s o u r c e si no r d e rt or e s e r v e dr 0 0 1 1 1f o rn e wr e s o u r c e s h o w e v e r ,t h em a i np r o b l e mi st h es y s t e md o e sn o tp r o v i d eu s e r s 丽mav e r yg o o dw a yo fr e s o u r c e sr e m o v e s e c o n d ,w h e nl o g g i n go f fb s e r s a c c o u n t s ,s y s t e ma d m i n i s t r a t o r so n l yl o g so f fu s e r s u s e ri n f o r m a t i o n ,b u td o n tr a n o v eu s e r s r e s o u r c e s ,w h i c hc a u s eu s e rs t o r a g es h a r i n gs p a c eb ew a s t e d f i n a l l yt l l es y s t e mc o u l dn o tp r o v i d et ot h es y s t e ma d m i n i s t r a t o ram e t h o dt ot r a c kt h o s er e s o u r c e s i no r d e rt os o l v et h ep r o b l e ma b o v e ,t h i st h e s i sd e l v ei n t od i g i t a lo r g a n i s ms y s t e mr e c o v e r ym o d u l e ,a sw e l la sq u o t am e c h a n i s m b a s e do nd i g i t a lo r g a n i s ms y s t e mam e c h a n i s mf o rt h ed i s t r i b u t e dd a t a b a s es p a c e sr e c y c l i n gm e c h a n i s mw a sp r o p o s e d t h em e c h a n i s mi sm a i n l yd i v i d e di n t ot w op a r t s :o n ei st os t u d yh o wt oc o l l e c tu s e rr e s o u r c e s , t h eo t h e rp a r ti st oe x a m i n eh o wt oc o l l e c ts y s t e mr e s o u r c e s t e s ts h o w e dt h a tt h em e c h a n i s mc o u l ds o l v et h ep r o b l e m sa b o v ew i t h i nh i g he f f i c i e n c y a b s t r a c tk e y w o r d s :s p a c e sr e c y c l i n gm e c h a n i s m ,u s e rr e s o u r c e s ,s y s t e m - s p e c i f i cr e s o u i o e s ,d i g i t a lo r g a n i s ms y s t e mm独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名翠雄一日期:枷了年6 月7 日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后应遵守此规定)签名:牡导师签名:立生堂l日期:舯了年6 月 日第一章绪论1 1课题的背景及意义第一章绪论在当今世界,信息正以爆炸性的速度在增长,从而给传统的信息存储手段带来了严峻的挑战。因为传统的存储手段的存储空间有限,而需要存储的信息是无限快速增长的。这迫切需要新的存储解决方案。在这种强烈的需求下,网络存储的概念被提出。由于任何一个单一的设备,无论它的存储功能多么强大都是有限的,而同时,网络上的存储设备是无限的,并且可以不断地得到扩充。从这个角度上说,网络上的存储空间是无限的。如今,网络存储已成为市场和学术研究的热点。由于附网存储 2 】( n a s ) 和存储区域网( s a n ) 【3 】的价格昂贵,同时并没有隐藏各种存储设备的特性,使得管理员的负担加大。因此虽然它们在一定程度上解决了大规模存储的问题但是添加这样的存储设备,但使用率并没有如预期的那样。所以,有必要研究一种价格相对低廉而存储能力强的存储系统。基于此,虚拟存储技术被提出,该技术彻底的屏蔽了存储设备的各种物理特性,极大地减轻了管理员的负担,方便了管理员对设备的管理。面对这种情况,电子科技大学8 0 1 0 研究室经过多年的研究,提出了一种新的虚拟存储系统一数字有机体系统【6 】,该存储系统不仅满足大规模存储的需要,还从数据存放的安全性和可靠性上予以了一定程度上的保证。如今,该系统已在实际应用中得到了检验,得到用户的充分肯定。但是当前的数字有机体系统在使用中仍然存在如下几大弊端:第一,在管理员注销该用户时,必须要对该用户的资源作出处理,要么删除该用户的资源,要么将该用户资源指派给其他用户。但无论那种处理方式,前提都是管理员要获知该用户的所有资源。由于数字有机体系统并没有提供这样的接口。从而导致该用户的资源由于没有得到处理而永远滞留于系统中,白白占据系统的存储资源。第二,当引入界面应用程序后,同样由于系统没有提供获取用户资源接口,使得用户不能通过界面应用程序来浏览自己的资源,从而导致用户不能灵活的管理自己的资源。第三,目前用户对自己创建资源的位置都是靠自己的记忆来获取的。如果用户忘记了,怎么办呢? 第四,对于系统的一些特定资源管理员如何跟踪。由电子科技大学硕士学位论文此可以看出,数字有机体系统在使用中主要面临的是不方便用户和管理员使用的问题。基于此,本设计提出的用户文件收集机制和系统特定资源收集机制很好的解决了系统存在的这些缺点。1 2 数字有机体系统简单的说,数字有机体就是将数量众多,分布广泛的计算机聚合成一个有机的整体,向应用提供强大的存储,处理和通信的能力。单从存储这方面看,数字有机体系统就退化成一种虚拟的存储系统。它努力解决现有的存储系统所面临的所有问题,同时又满足业务对存储系统的各种要求。作为虚拟存储系统的数字有机体系统有如下三个特性:( 1 ) 充分利用网络上的各种存储资源首先,网络上的存储资源是海量的,在一些存储资源存储能力达到或者接近其极限时,另一些存储资设备的存储资源却被白白浪费。面对这种对存储资源使用的极端不均匀,数字有机体系统采用了各种算法使得各种存储设备的存储资源被合理利用,极大地避免存储资源使用不均的情形出现。其次,众所周知,集中式的数据存储带来的缺点:第一,可靠性降低。集中存储数据的存储资源被破坏将导致用户无法访问存储数据。第二,数据的集中存储导致访问速度的变慢。比如,在5 0 个站点中,每个站点访问数据都将向数据存放站点进行请求,显然若将访问数据就近存放在访问站的附近站或者访问站上,岂不是更好。最后,数字有机体系统容易扩充各种存储资源。由于数字有机体系统的存储虚拟性,使得网络上存储设备的各种特性被屏蔽,从而使得各种设备更容易被管理。并且可以购买性价比高的存储设备方便的对网络存储资源进行有效地扩充。显然,使用价格适中的存储设备构建的存储系统远比去买高性价比的存储设备更便宜。( 2 ) 形成虚拟的单一存储空间数字有机体系统由众多各种类型的存储设备组成,而每个设备都共享出自己空间的一部分,其上用来存放数字有机体系统的资源。数字有集体系统采用各种映射机制,将共享空间上的数据映射到一颗全局一致的目录树上,耳p d p f s 目录树。这里的数据映射,不光是将本地的数据映射到该目录树上,还将本地的资源映射到所有的其它节点上。这里的全局一致,不仅是对一个用户而言,也是对每个节点而言的。即每个用户在每个节点上看见的这颗目录树都是一样的,使用的都是这个单一的存储空间。用户不需要了解数字有机体是怎样实现虚拟存储的,也不2第章绪论需要了解自己创建的资源存储在那些位置上,用户只需要进入d p f s 目录做创建自己的资源、删除资源等操作,系统自动会进行相关的实质操作。由于提供了一颗全局一致的目录树,从而使得各个用户之间可以方便的共享数据。用户不必登录到其它节点上访问资源,在本地就可以访问。另外,数字有机体系统将业务与存储管理独立开来,从而使得存储管理的改变与业务系统的开发互不影响。最后,由于提供了单一的存储空间,这样就使得管理员可以方便的管理整个数字有机体空间,而不必到每一个存储点。( 3 ) 数据高可用性、高可靠性保证数字有机体采用了冗余机制实现资源的可靠性。在资源的创建过程中,采用独有的资源存放策略以及在资源查找中使用特定的资源查找策略,使得数据的高可靠性和高可用性得到保证。1 3 数字有机体系统中空间回收机制研究的内容数字有机体系统中空间回收机制的研究内容分为两部份。一部分如何在d p f s这颗巨型目录树中将指定用户的资源找出来,即用户资源收集。要求当用户在任何一个节点决定删除资源或者浏览资源时,系统能快速返回用户资源。通过界面引用程序,用户能方便的批量删除资源或者资源的副本,而不是调用系统命令逐个删除资源。另一部分是收集系统特定资源,这里特定资源是一个相对概念,本文是指系统中那些创建很久的资源、所占存储空间很大的资源以及很少被访问的资源。这里为了保证系统快速的响应请求,必须事先收集这些资源,将它们放在特定的地方。为了冗余,可能会放在多个地方,那么就必须尽力要保证几个地方的数据一致性。1 。4 论文组织本文主要论述了数字有机体系统中空间回收机制的研究与实现。本文首先介绍了网络存储的现状和数字有机体的基本概念,接着讲述了数字有机体空间回收机制的设计与实现。本文的结构安排如下:第二章首先介绍一些流行的存储系统并分析它们的特点,接着对他们进行简单的比较,最后简要介绍了数字有机体系统的一些存储特点。第三章对数字有机体系统进行了整体介绍,使读者对数字有机体系统有个明电子科技大学硕士学位论文确的认识。第四章空间回收机制的设计与实现。第五章测试与分析。第六章结论。4第二章相关工作2 1 存储系统概述第二章相关工作随着信息的爆炸性增长,存储设备也在不断地发展,大致经历了如下几个阶段。最初,存储设备质量大、又重,而且同服务器直接相连。接着,硬盘出现。硬盘体积减小、存储容量增大。硬盘实际上成为了一个标准,被用来作为衡量服务器的一个指标。最后,尽管硬盘速度发展很快,但还是满足不了市场的需求,于是出现了独立的存储设备,比如磁盘阵列。前面的这些存储方式因此被称为直连式存储【7 j ( d i r e c t a t t a c h e ds t o r a g e ,简称d a s ) ,这是由于存储设备都附接于服务器。图2 - 1 业务与存储设备间的关系从图2 1 可以看出,数据管理层将业务服务层与存储设备层分离出来。数据管理层提供业务服务对存储设备访问的一个支持。当系统从界面1 进行分离时,形成了存储区域网络( s a n ) 等;当系统从界面2 进行分离时,形成了网络附接存储( b i a s ) 。业务系统提供统一的虚拟存储设备。除了从界面1 和界面2 进行分离外,网络存储的发展还导致了一种技术的发展壮大,即虚拟存储系统。2 2 常见存储系统介绍存储的分类方式有多种,若根据服务器类型来分,存储就分为:封闭系统的存储和开放系统的存储。开放系统的外挂存储根据连接的方式分为:直连式存储电子科技大学硕士学位论文( d 拍n - a t t a c h e ds t o r a g e ,简称d a s ) 和网络化存储( f a b f i c , - a t t a c h e ds t o r a g e ,简称f a s ) ;开放系统的网络化存储根据传输协议又分为:网络接入存储( n e t w o r k a t t a c h e ds t o r a g e ,简称n a s ) 和存储区域网络( s t o r a g ea r e an e t w o r k ,简称s a n ) 。如d a s 、n a s 、s a n 都属于开放系统的外挂存储。2 2 1 直连式存储( d a s )直连式存储指的是存储设备直接连在服务器上的存储设备。如图2 2 所示,存储设备本身只是存储硬件的简单堆叠,对存储设备的操作都是通过上层如a p p l i c a t i o ns e r v e r 发出操作指令,这些操作指令通过f i l es y s t e m 来实现。最终文件系统会调到具体的磁盘驱动进行数据的访问。作为用户,只需熟悉a p p l i c a t i o ns e r v e r 所提供的操作接口,而不必关心下面的具体实现。a p p l i c a t i o ns e r v e rf i l es y s t e ms c s i ,f cj b o dl c ll、图2 - 2d a s 结构直连式存储依赖服务器主机操作系统进行数据的i o 读写和存储维护管理,数据备份和恢复要求占用服务器主机资源( 包括c p u 、系统i o 等) ,数据流需要回流主机再到服务器连接着的磁带机( 库) ,数据备份通常占用服务器主机资源2 0 3 0 ,因此许多企业用户的日常数据备份常常在深夜或业务系统不繁忙时进行,以免影响正常业务系统的运行。直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。2 2 2 网络附接存储( n a s )如图2 1 所示,当从界面2 截断时,下面的部分即数据管理和存储设备被整合起来就是网络附接存储。如图2 3 所示,文件系统被放到了存储设备上,这样由于6第二章相关工作每个存储设备都有文件系统,该文件系统是专门针对存储系统进行了优化的,所以从性能上说要高于文件服务器,并且利于扩展。a p p l i c a t i o ns e r v e r众af i l es y s t e mf i l es y s t e mr a i dr 加l c li c iu图2 3 n a s 结构图n a s 采用网络( t c p 口、a t m 、f d d i ) 技术,通过网络交换机连接存储系统和服务器主机,建立专用于数据存储的存储私网【1 6 】。随着d 网络技术的发展,网络接入存储( n a s ) 技术发生质的飞跃。n a s 优点如下所述:首先减轻服务器负担。n a s 设备的目的就是为了分离网络设备中的服务器和存储,让这二者独立进行。这样做能够让服务器( 特别是通用服务器) 有更多的计算资源来处理用户的各种应用和业务( 比如电子邮件处理、远程应用等) 。n a s 则是用来帮助服务器完成一些文件的任务和i 0 的操作。其次方便数据共享。当前的企业内部网络越来越庞大,形成了一个多操作系统、网络设备多样化的复杂网络环境。n a s 设备正是为这种多样性环境而设计的,除了对多种操作系统( u n i x 、l i n u x 、w i n d o w s 等) 的支持外,还支持多种网络协议( t c p i p 等) ,这种设计使得n a s 可以轻而易举的支持多个系统之间的数据共享( u n i x 和w i n d o w s 之间、u n i x 和l i n u x 之间、l i n u x 和w i n d o w s之间的数据传输共享) 。终端客户则根本不知道数据原先是在u n i x 系统上,还是l i n u x 系统上,异或是在w i n d o w s 上。最后,n a s 还具有高可扩展性和易管理性的特点等。当然n a s 并不是完美无缺,n a s 设备同样具有一些缺点。这是因为传统的t c p i p 协议不可避免的给n a s 带来一些“先天”的缺点。存储性能的局限。n a s虽然比传统的d a s 设备在存储性能上有很大的提高,但是只适合应用在较小的网络或者局域网内。因为n a s 受限于企业网络的带宽,很可能会出现当多台客户端7电子科技大学硕士学位论文访问n a s 文件系统时,n a s 的性能大大的下降,最终不能满足用户的需求。可靠性还有待提高。当企业内部网络发展到一定的规模时,n a s 设备的数据服务和数据管理形成了网络的双重负担,也就是说n a s 除了要处理正常的终端数据l i e 请求外,还需要做备份和恢复等操作。并且n a s 后期的扩容成本高;一般的n a s没有高可用配置,容易形成单点故障。2 2 3f c - s a n同n a s 不同,如图2 1 ,当从界面1 处进行截断时,存储设备就被单独的独立出来,存储设备通过高速的光纤通道与f i l es y s t e m 相连,如图2 - 4 所示,这就是s a n 。为了保障存储设备与上层之间的通信流畅,s a n 一般有其独有的网络。s a n 并不是特定的设备,只是一种存储方法而已。图2 - 4f c s a n 结构图与单机d a s 系统比较,s a n 具有以下优势:s a n 网络具有出色的可扩展性,理论上最多可以连接1 6 0 0 万个设备。s a n 不必停机或中断与服务器的连接即可增加存储。s a n 支持在线数据备份,因此不必建立单独的备份系统。s a n 可以在较广的范围内部署。与n a s 相比,s a n 的不同之处在于:s a n 对外提供的是磁盘设备,既在服务器上看到的是磁盘;而n a s 对外提供的是文件服务,服务器看到的是网络文件系统。s a n 需要专门的传输网络,而n a s 通常使用业务系统的网络,因此s a n 的第二章相关工作网络投入远高于n a s 。s a n 也存在以下不足之处:f c s a n 的传输距离通常不超过5 0 公里,因此还不能整合更多的主机,也不适宜大规模分散部署。缺乏统一的标准,时至今日,互操作性仍是f c s a n 实施过程中存在的主要问题。基于f c s a n 的存储设备价格仍居高不下,普通单位难以负担。2 2 4s a nj 口n a s 的融合由于存储思路的不同,带来了s a n 和m 峪两种存储方式。它们都从一定程度上解决了大规模存储信息的需求。同n a s 相比,s a n 没有文件操作和管理系统,但s a n 更高速。实际上,由于理念不同带来的这两种存储方式不但不矛盾,还可以共存于一个系统网络中,充分发挥它们自己的优势,使得系统网络的网络存储特性更好【1 9 】。当然,从理论上来说,n a s 和s a n 的融合存在其合理性【2 l 】,满足了一定程度上的市场需求。但由于s a n 采用的是光纤通道,对存储设备之间的距离有所限制,不能太远。n a s 正好弥补了这种缺陷,借助于现有的快速以太网络,n a s 通过p网络向光纤通道发送相应的命令。2 2 5 虚拟存储技术存储虚拟化是对存储资源实施和配置的逻辑抽象【捌,就是把多个存储介质模块( 如硬盘、邶) 通过一定的手段集中管理起来,所有的存储模块在一个存储池( s t o r a g ep 0 0 1 ) 中得到统一管理,从主机和工作站的角度,看到就不是多个硬盘,而是一个分区或者卷,就好象是一个超大容量( 如1 t 以上) 的硬盘。这种可以将多种、多个存储设备统一管理起来,为使用者提供大容量、高数据传输性能的存储系统,就称之为虚拟存储。从虚拟化存储的拓扑结构来讲主要有两种方式:即对称式与非对称式。对称式虚拟存储技术是指虚拟存储控制设备与存储软件系统、交换设备集成为一个整体,内嵌在网络数据传输路径中,其结构如图2 5 所示。9电子科技大学硕士学位论文图2 5 对称式虚拟存储非对称式虚拟存储技术是指虚拟存储控制设备独立于数据传输路径之外。从虚拟化存储的实现原理来讲也有两种方式;即数据块虚拟与虚拟文件系统,其结构如图2 - 6 所示。在这里,多个磁盘阵列通过f c 交换机同时接入服务器。服务器上部署的虚拟设备软件则将这些磁盘阵列聚合成逻辑卷的形式提供给服务器的文件系统使用。这种方式能较好的解决多个设备的统一访问和管理问题,也能较好的提高数据访问速度,投入小。但存在两个问题:单个磁盘损坏时可能影响整个存储系统的访问,因此可靠性不高,难以用于关键业务;进行虚拟化管理要占用主机的处理能力,影响业务系统的处理性能。不过,现在处理器性能的提升远快于存储设备性能的提升,因此第二个问题并不是很大。图2 - 6 非对称式虚拟存储另一类虚拟化存储技术在文件系统内实现。为了解决附接存储的问题,在主机层进行扩展也是一种可行的选择,这就是分布式并行文件系统。传统的分布式并行文件系统如图2 7 所示。1 0第二章相关工作图2 7 分布式并行文件系统示意图分布式并行文件系统解决了以下几个问题:对各种存储设备的兼容问题。由于虚拟处理是在文件系统内实现的,文件系统通过设备驱动程序访问设备,因此只要设备能够被主机访问,即可被管理。解决了各种存储设备的互操作问题。分布式并行文件系统能够对各种存储设备进行统一管理和存取。解决了多台服务器间共享数据的问题。对每台服务器来说,看到的都是相同的虚拟文件系统,因此数据可以在主机间方便地共享。部分解决了d a s 系统的数据可靠性问题。由于数据可以在多个主机间复制,而且这些复制可以被统一管理,因此单个主机故障时能够保证数据仍然可用。加快了数据访问和数据处理的速度。由于数据可以同时分布在多台服务器上,因此可以同时在多台服务器上并发的访问数据并处理数据,从而提高了数据访问和处理速度。用分布式并行文件系统来建立虚拟存储系统和共享数据仍然没有解决以下问题t大范围的分散部署。分布式并行文件系统的网络环境通常是内部高速局域网,不能是广域网,因此无法分散大规模部署。大范围的数据共享。由于分布式并行文件系统无法在大范围内部署,因此其数据共享的范围也较小。需要配套的存储管理系统。分布式并行文件系统本身并没有存储管理功能,因此需要单独的存储管理系统配合。2 2 6 数字有机体系统的存储特性数字有机体系统空间回收机制的特性主要表现在以下三个方面:首先为了增电子科技大学硕士学位论文强可靠性,系统采取冗余机制,即在用户创建资源时,系统根据一定的算法将资源存放在几个地方;其次随着资源热点度的变化,资源的副本数和存储位置也在不断变化;最后为了加快资源的查找,获取资源的信息,我们将资源的属性存放在了数字有集体数据库中,这样带来的是删除资源时的同时也必须删除该资源在数据库中的存放信息。由于数字有机体资源的放置策略、资源属性的放置策略都是自己独有的,因此无论是d a s 、n a s 、s a n 存储技术,还是一些传统的虚拟存储技术在解决删除整个资源、删除资源具体位置上的副本时都无能为力。关于数字有机体的删除策略将在第三章进行介绍。用户资源收集模块中将面临站的死亡和启动带来的用户资源表的一致性,这样就需要将一个站内数据库的数据复制到其它站的数据库中。由于本模块只是调用数据库小组提供的一些接口,而并不关心具体的数据复制是怎样实现的,因此这里并没有对常用数据复制技术进行介绍。1 2第三章数字有机体系统第三章数字有机体系统3 1数字有机体系统概述数字有机体操作系统是一个基础平台,它完成的许多功能并不是用户直接使用的,即它不像财务管理那样的应用软件,每一个功能都是直接供人使用的。数字有机体操作系统主要的目标是将分布在较大范围内的大量计算机聚合成一个有机的整体,以便向应用提供强大的处理、存储和通信等能力,从而满足大规模网络应用的需要。与现有的b t ( p 2 p 27 】下载) 相比,b t 下载只提供一种快速下载文件的能力。它也不同于现有的c d n 系统,它完全具有c d n 的功能,并且还具有许多c d n 不具备的功能。它具有以下特性:( 1 ) 它将大量计算机的存储设备管理起来,建立一个超海量的存储系统,并且提供给所有计算机共享,以取代现有的昂贵的共享存储设备。( 2 ) 它将分布在大量计算机上的文件组织起来,形成一棵统一的目录树,以便用户间可以自由共享文件,并且提供透明访问能力,用户无需关心文件究竟在哪台计算机上。( 3 ) 它提供有效的复制机制,保证用户设定的最少副本数,并保证数据不会因为单台计算机的损坏而丢失,从而有效的保证文件的可用性。( 4 ) 它提供有效的数据放置机制,可以预先将热点文件放置到用户将要访问的地方,从而提高文件访问的效率。( 5 ) 它具有良好的缓存机制,可以将远地的、本地经常访问的文件缓存在本地,从而提高文件访问的速度。( 6 ) 它能够同时从多个副本存储点获得数据,从而充分的利用网络带宽,提高获得文件的速度。( 7 ) 通过缓存机制和放置算法,可以将用户经常访问的文件放置在最靠近用户的地方,从而减少主干网络的带宽开销。( 8 ) 它提供按照语义发现资源的能力,从而提高了用户使用资源的方便性。( 9 ) 它能够根据用户请求的资源找到最适合提供资源的服务点,从而将任务迁移到资源的所在地。( 1 0 ) 它能够根据用户的位置信息,找到尽可能靠近用户的服务器为用户提电子科技大学硕士学位论文供服务。( 11 ) 它能够在所有服务器间均衡负载,从而有效的提高资源利用率。( 1 2 ) 它对基于d n s 的网络应用提供基于d n s 的透明调度机制,从而在不修改现有应用的情况下使现有应用也能利用数据有机体操作系统的特点。( 1 3 ) 它提供基于请求的、分布式并行的调度机制,有效的去除了调度这一单一故障点,从而提高了整个系统的可靠性。数字有机体系统的内核核心是一个文件系统,该文件系统兼容已有的应用软件并作为l i n u x 文件系统的一个子文件系统,在数字有机体操作系统被安装后即可挂载使用;使用时能够像访问普通文件一样访问数字有机体文件系统中的文件。整个数字有机体系统的文件被组织在本地的d p f s 目录下,该目录是一个全局一致的目录树,即将存放在数字有机体系统中不同站、不同节点上的资源统一映射n d p f s 目录下,使得每个节点上看到的这颗目录树都是一样的。数字有机体系统的用户可以做如下的操作:创建目录、创建文件、删除子目录、删除文件、修改目录或者文件名字、遍历目录树等。本章将通过对数字有机体系统进行了整体介绍,从而得出空间回收机制在整个数字有机体系统中的位置,为其设计和实现提供必要的支持和依据。3 2 数宇有机体网络拓扑结构在理解数字有机体网络拓扑结构之前,先理解两个基本概念:一个是站,另一个是节点。站是数字有机体的基本组成单位,每个站由至少一个主机组成,站与站之间地位对等。节点实际上就是主机的另外一种说法而已,站内节点之间地位对等。它的网络拓扑结构如图3 1 所示【2 8 1 。一个局域网内可有多个站,通过路由器同远地的局域网连接。因此从硬件结构来看,数字有机体系统分为三个层次,即节点、站、数字有机体。每个节点都有自己的存储设备,它们可以是主机内的磁盘,也可以是外接的磁盘阵列,甚至是s a n 这样的存储设备。从软件结构来看,数字有机体系统是构建在现有l i n u x 操作系统上的软件层。它用来建立统一的文件存储空间和文件系统映像,以便业务系统可以象访问本地的文件一样,访问分散放置在整个系统内的文件。1 4第三章数字有机体系统图3 1 数字有机体网络拓扑结构图3 3 数字有机体系统结构外核接口请求处理本机通内外进程读写l文件核通c a c h e系统v f s操作文件信接口信接目录集实系统文件系统操作集实现口c a c t 把现数字有机体系统内核站问配空文文副本额间件件机回读缓副操作制收写存系本站间副本管理管统理恢模站内共享空间管理复块站内操作实现站内副本管理分布式并行数据库元数据管理模块( d p s q l )网园圜圉站间络通信锁模块基础模块数字有机体系统外核图3 2 数字有机体系统结构图1 5电子科技大学硕士学位论文由上图可见,整个数字有机体系统主要分为三大块:数字有机体内核、数字有机体外核以及分布式并行数据库( d p s q l ) 【2 9 1 。空间回收机制位于数字有机体外核的站间副本管理模块中。其中,数字有机体内核是基于l i n u x 内核开发的,遵循了l i n u x 的风格实现;而数字有机体外核在l i n u x 应用层实现。而数字有机体外核直接使用分布式并行数据库( d p s q l ) 提供的数据存储功能。下面分别对这三大块进行介绍。3 3 1 数字有机体内核数字有机体内核核心部分既是分布式并行文件系统( d p f s ) ,下面对该文件系统进行介绍。d p f s 文件系统是与l i n u x 操作系统内核紧密结合的一个功能模块。它与l i n u x文件系统和资源管理子系统的关系可以用图3 3 表示。图3 - 3d p f s 文件系统与其他部分间的关系应用程序一般使用语言库提供的函数访问文件,如用f o p e n 函数打开文件。语言库内实现了将应用程序的调用转换为系统调用的处理,因此语言库最终将调用文件系统调用来完成操作,如f o p e n 转换为s y s系统调用。open系统调用将使进程的控制转入内核。在内核,l i n u x 的虚拟文件系统( v f s )将完成对系统调用的处理。v f s 并不直接操作文件,它依赖具体的子文件系统操作文件。如访问本地的c x t 3 文件系统的文件时,则需要调用e x t 3 文件系统的处理函数。系统内通常可以同时存在多个不同的子文件系统。为了让虚拟文件系统可以同时管理这些子文件系统,每个子文件系统需要按照固定的方式向虚拟文件系统注册。按照l i n u x 文件系统规范,具体文件系统需要安装在某个目录下( 称为安装点) ,然后成为本地目录树的一部分。d p f s 文件系统将安装在d p f s 目录下,然后分布式资源目录树就称为d p f s 下的一颗子树。安装文件系统时,实际上是告诉虚拟文件系统d p f s 目录以下的文件和目录都由d p f s 文件系统处理。1 6第三章数字有机体系统虚拟文件系统要访问文件时,仍然需要具体文件系统的函数支持。为了统一各种不同子文件系统与虚拟文件系统间的接口,v f s 文件系统定义了多组函数指针。每组函数负责完成一类特定的功能。v f s 直接调用这些函数指针指向的函数来访问和操作文件。因此,每个具体子文件系统需要实现自己的相应的函数,并将这些函数的地址以固定的形式传递给虚拟文件系统,以便v f s 可以调用它们。虚拟文件系统针对i n o d e 、s u p e rb l o c k 和f i l e 分别定义了三组函数指针,即s t r u c tf i l e _ o p e r a t i o n s 、s t r u c ti n o d e _ o p e r a t i o n s 和s t r u c ts u p e ro p e r a t i o n s 。其中,s u p e rb l o c k的操作集在注册d p f s 文件系统时传递给虚拟文件系统。另外两个在获得文件或者目录的i n o d e 时传递给虚拟文件系统。l i n u x 虚拟文件系统的更多信息请参见其他参考资料,这里不再详细描述。d p f s 文件系统也不直接操作文件。从某种意义上将,d p f s 文件系统只是资源管理系统在l i n u x 操作系统内核的一个接口,只是为了方便用户使用资源管理系统而实现的一种特殊接口而已。因此,d p f s 文件系统要操作文件和目录,它需要使用通信机制请求资源管理系统提供服务,以便完成对文件和目录的真正操作。d p f s 文件系统的主要任务是根据l i n u x 虚拟文件系统的接口规范,实现相应的函数和完成必要的操作,以便l i n u x 的虚拟文件系统可以访问到资源管理系统中的文件。在l i n u x 的内核中,文件系统是通过w s ( v i r t u a lf i l es y s t e m ) l 句上为用户提供一个统一的接口访问操作系统中的文件系统的【3 1 】。l i n u x 中所有具体文件系统的类型结构首先在v f s 中注册文件类型。同样的,数字有机体也在v f s 中注册了文件类型为d p f s ,v f s 的s u p e r、和等结构中的操作集指针被填充b l o c kd e n t r yi _ n o d e上d p f s 的对应操作集。在d p f s 内部实现了v f s 定义的标准接口集,该接口集定义了数字有集体内核的删除操作。当用户在数字有机体环境中时,其发出的命令通过v f s 传给了d p f s ,然后通过内外核通信接口将该命令发给了数字有机体外核。数字有机体外核在处理用户命令时,直接使用具体文件系统的功能( 例如,e x t 3 和n f s 等) ,利用它们直接访问物理磁盘文件或网络文件。从而避免了直接对磁盘,内存、磁带等硬件设备进行管理,简化了实现过程。当数字有机体外核处理完用户命令时,也通过内外核接口将操作结果原路返回给用户。1 7电子科技大学硕士学位论文3 3 2 数字有机体外核数字有机体外核主要包括6 个模块:基础模块、元数据管理模块、副本管理模块、文件系统操作集、外核接口请求处理、本机通信接口模块和系统恢复模块。为了叙述方便,在介绍各个模块功能之前,先介绍一些基本概念。3 3 2 1基本概念( 1 ) 资源和资源d 、站d 、用户d资源是数字有机体中描述和管理的基本对象,资源包括的范围很广,可以是任何能被组织和管理的实体。比如:文件、目录、服务等。每个资源在数字有机体当中都有一个唯一的全局标识:一个以d p f s 开头的分布式路径名。比如资源:d p f s f i l e l 。 3 2 】资源d 是资源全局标识经过m d 5 算法加密后得来的一个数值,每个资源对应一个唯一的资源d 。站d 是站名经过m d 5 算法加密后得来的一个数值,每个站对应一个唯一的站d 。用户d 是用户名经过m d 5 算法加密后得来的一个数值,每个用户对应一个唯一的用户d 。( 2 ) 副本副本是资源的具体存在形式,与传统分布式系统一样,数字有机体使用资源的多个副本分散存放来保证资源的可访问性和访问效率。( 3 ) 元数据元数据指描述数据的数据。这里分别指文件的描述信息和服务的描述信息。元数据管理的目的是为其他模块提供查找和定位文件或者服务提供者的能力。文件的定位指系统根据文件的标志( 指文件的分布式资源目录名) ,快速的找到文件存储位置的过程。文件存储位置指存储文件副本的站的信息。我们为每个文件建立一个精简的描述信息,其中包括文件的存储位置。因此,找到文件的描述信息即可获得文件的存储位置。这样,文件的定位转化为快速找到文件的描述信息。对于一个文件来说,其描述信息被分布式地存储在系统中的某些站( 节点) 上。但是,不同的文件,其描述信息的存储位置不同,理论上将理论上讲,系统的每个站( 节点) 都参与存储和管理文件的描述信息。一个文件的描述信息存储位置由定位系统的d h t 机制给出。对文件描述信息的维护包括增加新的文件描述信息,第三章数字有机体系统查找文件的描述信息、一致更新描述信息和删除描述信息。( 4 ) 站内共享空间映射每个节点都可以共享出本机的部分存储空间。为了方便的使用和访问站内其他节点的存储空间,每个节点需要将其他节点的共享空间通过n f s 机制映射到本机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论