




已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)数据备份系统中备份索引的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕士学位论文数据备份系统中备份索引的研究与设计 数据备份系统中备份索引的研究与设计 计算机软件与理论 硕士生:余咀胜 指导教师:李磊教授倪德明副教授 摘要 备份索引记录了数据备份发生的“历史痕迹”,是数据备份系统中必不可少的组 成部分。作为数据备份的重要方式之一,增量备份在备份底层数据增量的判断处理上 千差万别,如文件备份依据修改的时间,数据库依据事务号或日志号等,整体上缺乏 一个统一的备份框架,导致备份索引一直以来没有受到足够的重视,表达能力弱,适 应性不强。 本文首先提出测度的概念,使数据新旧变化的度量方式在概念结构上得到统一, 建立一种通用的基于测度的数据备份模型,解决了备份底层需求在描述上不统一的问 题;然后基于此模型,给出通用的备份索引设计思想、原则和方法,并重点论述了与 备份结点生长树同步映射的备份索引表示、设计方法:最后简要地讨论了数据备份一 些常规性能的基本度量和评价依据。 关键词:数据备份、备份模型、备份索引设计、备份性能度量 坐查兰堡主兰垡丝苎塾塑鱼堡墨竺! 墨竺童! ! 塑! 塞皇堡生 s t u d ya n dd e s i g no fd a t ab a c k u pc a t a l o g s c o m p u t e rs o f t w a r ea n dt h e o r y n a m e : y u ,y i s h e n g s u p e r v i s o r :p r o f l i ,l e i :a s s o c i a t ep r o f n i ,d e m i n g a b s t a r c t d a t ab a c k u pc a t a l o g sm e m o r i z e st h eh ist o r yp r o c e d u r eo fd a t ab a c k u p ,a n d ili sae s s e n t i mc o m p o n e n to ft h ed a t ab a c k u ps o f t w a r e a sa ni m p o r t a n tm e a n s o fd a t ab a c k u p ,i n c r e m e n t a lb a c k u ph a sd i f f e r e n tc r i t e r i o n si nt h ed e c i s i o n o ft h ed a t ac h a n g i n g ,s u c ha sl a s tm o d i f i c a t i o nt i m eo ff i l e s ,t r a n s a c t i o n n u m b e ro rl o gn u m b e ro fd a t a b a s e f o rt b i sr e a s o n ,t h e r eis n tau n i v e r s a l b a c k u pf r a m e w h i c hd i r e c t sn oe n o u g ha t t e n t i o np a i dt ob a c k u pc a t a l o g sw i t h b a de x p r e s s i o na b i l it ya n da d a p t a b i l i t y , t h i sp a p e rf ir s t l yg i v e san e wc o n c e p ta n d s t r u c t u r eo fm e a s u r ew h i c h u n i t e st h em e a s u r eo fd a t ac h a n g e ,a n db u i l d san e wb a s e d o n m e a s u r ed a t ab a c k u p m o d e lw h i c hr e s o l v e s t h e r e q u i r e m e n tq u e s t i o n o ft h eb o t t o m b a c k u p d i s a g r e e m e n t b a s e d - o n t h em o d e l ,t h ep a p e rs e c o n d l yg i v e sg e n e r a li d e a s , p r i n c i p l e a n dm e t h o d so fd e s i g n i n gc a t a l o g s ,a n d s t r e s s e st h em e t h o do f c a t a l o g sd e s i g n i n gw h i c hs y n c h r o n o u s l ym a p s w i t hb a c k u pn o d ei n c r e m e n tt r e e s - fi n a l l y ,s o m eg e n e r a lp e r f o r m a n c em e a s u r i n ga n de v a l u a t i n go fd a t ab a c k u pa r e b r i e f l yi n t r o d u c e d k e yw o r d s :d a t ab a c k u p ,b a c k u pm o d e l ,c a t a l o g sd e s i g n i n g ,b a c k u pc a p a b i l i t y m e a s u r i n g ! 些查兰堡圭兰堡堡苎 垫塑墨丝墨笙! :主! 墨堕墨! ! 塑婴塞兰丝生 第1 章引言 1 1 数据备份概述 1 1 1 数据备份的定义 数据备份技术是伴随着计算机的发展而发展起来的,可以说是计算机的发展史就 是一部数据备份的发展历史。从字面上理解,数据备份就是对数据进行的复制。但是, 就数据备份作为信息安全领域的一个重要分支来讲,具有更加丰富的内涵,复杂性远 远不至如此。目前,对数据备份来说它虽已有很长的一段发展过程,但在国际上对数 据备份仍然没有一个统一的定义。例如,互联网上英文计算机词典里给出的定义为: 一个文件或文件系统或者是其它资源的一个多余的复制以防止原先的出错或丢失;备 份通常用来指,对计算机磁盘上的所有文件周期性所做的每份复制并把它存放到磁带 :或其它可移动的介质上 0 1 。l y o n s 和a l a n 在1 9 9 6 年给出的定义为:数据备份 就是仅仅对数据所作的后备存储,以便公司员工能够去灾难发生地点用曾经备份过的 还原文件和应用软件,能够象什么也没发生过一样继续商业活动 0 2 。o r a c l e 公司在 数据库文档中给出的定义为:备份就是数据的一份复制,这份复制可以包括数据库的 多个重要部分如控制文件和数据文件等,备份是一种安全措施,用来防止未预料到的 数据丢失和应用性错误,如果丢失了原来的数据,那么可以通过备份来重新构建 0 3 。 另外还有w c u r t i sp r e s t o n 等人虽写了数据备份领域内久负盛名的经典专著 o 且i = n 且i n ( 自然数) ;t n 且t ) = i n ( m ) 且t = m a x ( m ) ;函数m ,我们称 之为测度函数。测度函数反映了备份对象的每一个最小备份单元所对应的测度点。 r 例如,有一个备份对象由1 3 个最小备份单元组成,数据变化用测度函数表示对应 n l ,n l o ,则可以把数据状态映射函数:m ( u 。) = t 的映射关系描述如表3 一l 所示,函 数的图形如3 3 所示。 表3 - 1 测度函数的简单示例 坐i !匕l !l !il !;! 口i ! i ! ! i ! ! l 望:i 坚 t1n 51n 7in 6l n l ln 9 n l o1n 6 n 31 n 3 l n 7 ln 7 n 8l n 2 驴 14 ! 坐望璧型生兰兰堕堕皇一 墼塑墨堡墨堑! 墨塑室! ! 塑笪壅皇堡生 根据测度函数,为找出备份对象在测度点i 和测度点j ( i ( j ) 之间发生的数据, 我们规定d i 表示备份对象d 中m ( u - ) = i 的最小备份单元所组成子备份对象:d 表示备份对象d 中m ( u 。) = j 的最小备份单元所组成子备份对象。这样对在测度点i 基础上到测度点j 之间发生的数据增量进行备份,我们可以抽象描述为执行 n c b c k ( i ,j ) 操作,求出i j = d j d i ,并对其复制对数据进行备份的目的是 为了在需要时恢复使用,类似地,在测度点i 基础上恢复到在测度点j 数据状态的恢 复操作,可以抽象描述为执行r e s t o r e ( i ,j ) 操作,即复制ij ,然后d i + i j _ d i 。 这里的加减法规定为是小备份单元集合( 即子备份对象) 的逻辑加和逻辑减,即相减 是去掉相同的最小备份单元,相加是所有的最小备份单元组成并集操作。 可见,在这个模型里,数据备份被描述为广义的增量备份,但其语义覆盖r 全备 份,只要取i = m i n ( m ) ,j = m a x ( i n ) ,则i n c b c k ( i ,j ) 就表示是全备份。 3 2 3 备份与恢复概念的数学定义 下面,我们进一步从数学的角度出发来对备份恢复进行定义: ( 1 ) i n e b c k : ( d i ,j ,k ) ;i ,j ,k e n ) 呻 b j ,kfk ,j n ,j k ) 即i n c b e k 是一个从数据集,整数,整数所组成的三元组到所有备份集的一个映 射。其中j 表示备份开始的起始测度点,即要备份测度值大于等于j 的那些备份单元: k 表示备份结束的终止测度点,即备份后当前数据集集中备份单元的最大测度值。 例如:l n c b c k ( d ,i ,j ) = b i ,j 表示备份当前的数据集d 中所有测度值大于等于i 而小于j 的备份单元,生成的 备份集为b i ,j 。 , 规定符号d i 表示d 中所有测度值小于i 的部分。 、 规定符号d j d i 表示d 中所有测度值大于i 但是小于j 的部分。 设d = u l ,u 2 ,u 3 ,o o t i l l ) 贝ud i = ( u xjm ( “x ) i d j d i = u x 【i sm ( u x ) j ) , ( 2 ) r e s t o r e : b i ,j ii j n ) 的幂集_ d j d i j n 即,r e s t o r e 是一个从备份列的幂集到数据集中某一部分的映射,这一部分是由 测度值i ,j 决定的,即测度值在 i ,j 之间的备份单元的集合。 例如:r e s t o r e ( b i ,j ) = d j d i 表示获取备份集为b i ,j ,并用其还原b i ,j 中相应的测度值( 即位于i 和j ) 对应 的备份单元中的一个或若干个或所有的备份单元的内容。 3 2 4 备份和恢复一些重要性质 下面接着再来讨论备份和恢复一些重要性质 ( 1 ) 可恢复性 如果有o i + r e s t o r e ( b 1 十5 ) = d j ,我们称备份集舻。使数据集d i 恢复成了数 兰兰堕兰翌型羔:垡墼 垫塑墨堡至竺生鱼堡窒! ! 塑竺壅兰堡生 据集d j ,如果b 。是存在的,我们称d i 可恢复到d j 。 ( 2 ) 等价性 首先,我们给出备份集的等价性定义。 备份集的等价性:设有两个备份集b i l , 1 1 ,b i 2 j 2 ,如果这两个备份集应用于同个 数据集,而恢复到同样的状态,我们称此两个备份集是等价的。例如,所有满足d i + r e s t o r e ( b ) = d j 的备份集b ,与都是等价的。 ( 3 ) 合一性 合一性是备份集所具有的性质,指一列备份集在满足某种情况时,该列备份集可 以等价成为一个备份集。 定理设数据集为d ,有两个备份集b i j 1 = n c b c k ( d ,i1 ,j 1 ) ,b 。2 ( d ,i 2 ,j 2 ) ,如果j 1 = i 2 ,则两个备份集是可合一的,合并结果为b d j 2 证明: 显然,b i l j i 备份了自测度i 1 以来所有改变过的备份单元,直到测度j l 所标志的 状态为止,而b f 2 _ j 2 备份了自测度j 1 以来所有改变过的备份单元,直到测度j 2 所标 志的状态为止。我们有:d ,l + r e s l o r e ( b 叱”) + r e s l l o r e 佃“m ) = 1 ) “, d “+ r e s t o r e ( b “j 2 ) = d j 2 因此,b a ,j l 和b “一,与b i l , 一:是等价的。也就是说b l l , j t 和b i 2 ,2 是可以合一的。 证毕 两个备份集合一的情况可以很容易地推导到n 个备份集合一的情况,过程类似, 我们在此就不详细的推导了。 3 2 5n 覆盖问题( n c o v e rp r o b l e m ) 在这- - 4 , 节,为表明m b d b 在理论可以进一步深入扩展,我们讨论n 覆盖问题。 覆盖( c o v e r ) 的定义:如果一个备份集旷,记录了某一备份单元u 的最新状态,我 们称该备份集覆盖了备份单元u ,即覆盖u 。 如果一个各份列b : b “,b nj 2 ,b i 3 , j 3 ,) 所包含的备份集覆盖了数据集d 的所有备份单元的最新状态,我们称b 覆盖d 。 覆盖与可恢复性的关系: e h - - 者的定义,我们可以得到:覆盖是可恢复的充分必要条件。也就是说覆盖与 可恢复性是等价的。 中山大学硕士学位论文 数据备份系统中备份索引的研究与设计 数据可恢复性定理如果备份列b 覆盖了数据集d ,则d 是可以通过b 得到恢复( 还 原) 的。 为了恢复数据,我们必须应用一定数量的备份集( 即合适的备份列) ,有限覆盖定 理为我们提供了这样一个理论依据,即在满足一定条件下,我们总可以找到有限个备 份集来完成恢复任务。 下丽给出有限覆盖定理发证明。 有限覆盖定理设d = ( u l ,u 2 ,u 3 ,u r l ) 为一包含n 个备份单元的数据集, b = ( b t l j ,b “,b i 3 j , 为备份d 后得到的一个备份系列。如果d 中任意一个备 份单元u ,的最新状态都包含在至少一个备份集b u 中,则我们可以从b 中选出有限个 ( 如n 1 个) 备份集,b = fb i l j l ,b n ,j 2 ,b “p ,b i m j m ) ,使得b 姜b ,1 3 覆盖d 。 证明: 显然,由于各份单元是有限的,最大值n ,我们无论如何总可以找到有限个备份 集,使得这有限个备份集覆盖了d 。 r 证毕。 为了描述备份对数据的保护程度,我们引入覆盖度的定义。 覆盖度( c o v e r e d ) 假没对于一个数据集d = u l ,u 2 ,u 3 ,u f i ) 而言,其每 一个备份单元叫被一个备份列b = b i l j l ,b j 2 “,b i s ”,) 中的n 个备份集所覆盖, 则称u 的备份覆盖度为e 。,简称u 为n 覆盖度的。 记c o v o r ( ) 为覆盖度函数,它是一个从备份对象,备份列的二元组到正整数的 一个映射。 c o v e r : ( 备份对象,备份列) 一 n 即有c o v e r ( u - ,b ) = n 定义b 对d 的覆盖度为:m i n n l ,n 2 ,n 3 , : 记作:m i n c o v e r ( d ,b ) :r a i nf c o v e r ( u 1 ) ,c o v e r ( u 2 ) ,c o v e r ( u 3 ) ,) 也称 此为最小覆盖度。 下面我们将给出求最小覆盖度的算法。 p r o c e d u r em i n c o v e r ( d ,b ) b e g i n : i n tu n = f 0 : f o re a c hb n6 i nb f o re a c hii n a ,b 中山大学硕士学位论文数据备份系统中备份索引的研究与设计 f u i + + : ) r e t u r nm i n ( u 0 ,a 1 ,u 2 ,) e l l d n 覆盖的定义如果有c o v e r ( d ,b ) = k ,称b 对d 是n 覆盖的。 下面我们将给出一个定理,它说明我们总可以制汀出一个备份计划,使得备份列 对数据集是n 覆盖的,也即n 覆盖备份存在性定理。 定理n 覆盖备份计划是存在的。 证明: 我们只要能够给出一个算法,使得由此算法得到的备份计划满足 m i nc o v e r = n 。定理即获证明。 设数据集为d ,箕备份列为b = b z ,b 。,bs ,b n ,) ,注意,这里异j h i 代替了备份集的常见写法b 8 ,主要是为了证明上的方便。同时,我们引入两 个函数,s t a r t ( ) ,e n d ( ) ,它们分别求出一个备份集b f 的最小测度值和最柳0 度值。 p r o c e d u r en c o v e r b e g i n : b a c k u pd a n dg e tb l 。b2 ,b 3 ,b ”,w h e r e i t s a t i s f y s t a r t ( b 1 ) = 0 ,e n d ( b 1 ) = m l s t a r t ( b2 ) = 0 ,e n d ( b2 ) = 1 1 1 2 s t a r t ( b ) = 0 ,e n d ( h ) = m ” w h i l e ( m e a s a r e ( d ) i si n g r e a s i n g ) b a c k u pdw h e r ef ts a t f s f y : g t a r t ( b i ) = e n d ( bj n ) ,e n d ( b 一) = i n ) e n d 显然,此备份计划对d 是n 覆盖韵。 证毕。 中山大学硕士学位论文 数据备份系统中备份索引的研究与设计 再举一个例子说明如下 当n = 3 时,备份计划如下所示: 0m lm 2m 3 m 4m 5 m 6m 7 m 8m 9m l o m 1 口_ 亡1 口_ _ 口口一口口口口口口口 口 上图中,b i 表示依次生成的备份集,m i 表示逐渐增大的测度。显而易见,所有 测度值在m i 和m j + 1 之间的备份单元都被备份了三次。 3 3 模型可行性验证 对数据库和文件系统备份的典型代表是o r a c l e 数据库和u n i x l i n u x 文件系统的 备份,我们就讨论m b d b 模型在o r a c l e 数据库及u n i x l i n u x 文件系统备份机制下的 验证。 3 3 1 对o r a c l e 数据库备份的验证 o r a c l e 数据库的备份方式是全备份+ 增量备份+ 差量备份,其中增量备份是按级别 进行的,定义为备份自从最近一次级别在n - 1 或更低级的备份以来发生改变的数据块, 例如,增量级别2 备份,首先确定最近以来低级别的级别1 或级别o 备份,然后备份自 那次备份以来发生改变的数据块。对于差量备份概念是定义为备份自从最近一次级别 在n 或更低级的备份以来发生改变的数据块。对数据块的变化是在块中记录有s c n ( s y s t e mc h a n g e dn u m b e r ) 号。对备份需求的满足,关键在于用户对备份级别的定 制。 在m b d 8 模型中,只要将s c n 映射成测度点,数据块映射成最小备份单元,o r a c l e 增量使用的级别完全可以进一步分解成用测度表示的i n c b c k ( i ,j ) 操作中,只是每次 测度点i 和j 在不断发生变化而已。这里要说明的是,在m b d b 模型中,测度点更具抽象 性,可以映射到特定偏序集中,并且基于测度点来定制备份,l l o r a c l e 数据库提供的 ! 型型量墅墅蔓量垡笙苎 壑堡墨堡墨竺主墨堡鲞! ! 堕塑窒皇堡盐 级别定制要具灵活性,更适合备份软件系统的设计使用。所以o r a c i 。数据库的备份机 制是m b d b 模型的特殊情形,m b d b 模型更具有普遍性。 。 下面以一个例子来说明,m b d b 模型解决o r a c l e 数据库备份机制的问题。我们假设 有一个备份计划,以星期为周期循环,基本情况是星期日进行全各份,星期一二 三进行增量级别2 的备份,星期四进行增量级别为1 的备份,星期五、六进行增量级别 2 的备份,在以后的日子里每一星期重复上一星期的备份情况。备份方式如图3 5 所示。 图3 5o r a c l e 数据库备份实例示意图 对于这个例子,在船册模型处理时,首先将每天进行备份时备份对象的最大测度 点明确记录下来,假设对应关系如图3 6 所示,则在m b d b 模型中可以执行序列操作 i n c b c k ( i ,j ) 来完成类似需求的备份操作,完整对应关系如表3 2 所示。由此可知,m 1 3 d b 模型完全可以表达o r a c l e 数据库的备份机制。 l t t 正站“击蝎前n 8 娟n 姆m ln 1 2 n i 3n i 4a i 5 0 :2 :! :20 : 22 f2 :0 0 删0 u n 耻硼h 皓协口卜汀和s 越s 惭t 惜 v 洲b 珥阶s *乱2 图3 咱o r a c l e 数据库备份实例中测度点映射关系示意图 表3 - 2o r a c l e 数据库备份实例与n b d b 模型映射对照表 d a y s l 】“m o nt r i e sw e dt h u r e t is a ts u n l0 r a c l e f b a c k u p o2221220 1 ( i e v e l ) fm e a s u r e n in 2n 3n 4n 5n 6n 7n 8 lp o i n t 犯d b【b ( m i n ( 皿 r b ( 矗1 i b ( n 2 i b ( n 3 i b ( n l 。i b ( n 5 ,i b ( n 6 i b ( n i l b a c k u p ) ,n t )n 2 )n 3 )n 4 )n 5 )n 6 )n 7 )n 8 ) 注释:表3 2 是只取第一周的情形;i b 是i n c b c k 的缩写;m 是表示整个测度区间 中山大学硕士学位论文 数据备份系统中备份索引的研究与设计 3 3 2 对u n i x l i n u x 文件系统备份的验证 u n i x l i n u x 文件系统的备份基本上是使用备份工具c p i o 、t a r 、d u m p 等,但关于 全备份和部分备份的处理也是基于级别的备份,0 级是完全备份,l 级是一个增萎备 份,自从上- 次0 级备份以后所发生的所有一切改变的进行备份,2 - 9 级每个级别备份 自从上一次其下最低一级的备份以后的所有改变。例如,一个2 级备份要备份上一次 l 级备份以后的改变;如果没有l 级各份,那么备份上一次0 级备份以后的改变。对 于备份需求的满足,同样关键在于用户对备份级别的定制。 由此,u n i x l i n u x 文件系统的备份机制弓o r a c l e 数据库类似,也是基于级别来 进行增量备份的,但不同的是其记录数据的变化是通过时间反映的,记录数据变化是 以文件为最小单位的。时间序列也是一个偏序集,可以映射到正的长整数集上,同时 把文件映射为最小备份单元,所阻m b d b 模型在u n i x l i n u x 文件系统的备份机制上也 是适用的,m b d b 模型同样包含u n i x l i n u x 文件系统的备份机制。 3 4 相关工作和比较 备份领域内的,存在现象是商业化产品走向前边,理论研究滞后,所以论及备份 相关模型很少,偶尔出现,也是与具体的应用联系非常密切。 1 7 和 1 8 是讨论网络 可靠性的后备模型方案,与数据备份要讨论的问题差距甚远。 1 9 介绍的是e m c 存储 公司,为解决复合对象在分布式计算环境下的存储管理提出的模型,与数据备份关系 密切,但是从数据存储管理角度,用面向对象的技术,从应用层方面来论述x o p e n 备份归档系统。 本章提出的m b d b 模型,与 1 9 中提出的x o p e n 系统模型完全不一样,x o p e n 系统用备份服务a p i 机制来解决分布式备份任务,而m b d b 是一个基本的理论框架, 是一个备份系统的底层基本支撑体系结构,对备份系统的功能开发设计,完全是应用 系统的工作部分。因此,这两个模型要解决的问题完全不同。 ! 坐堕! 兰堕童堡兰苎 墼塑鱼堕墨丝主鱼堡室! ! 塑堑塞量堡生 第4 章备份系统的备份索引设计 4 1 m b d b 模型在设计中的应用 m b d b 模型在提出对,是为了解决我们要研发一个备份软件系统过程中遇到的三个 主要问题,它们分别是如何定义一个统一接i z l 标准的各份恢复控制语言、如何根据 备份索引给出备份性能参数和度量方案的依据、如何对用户数据保护策略给出规范的 管理和实施机制。 本文主要是讨论备份索引的设计,所以首先在此讨论m b d 8 理论框架如何应用到 备份索引的设计过程中。其实,当论及备份索引的具体设计时,所涉及的问题已经不 仅仅是备份索引设计本身,这时必须从整个系统建设的角度来分析问题。因为备份索 引的设计不是孤立的,它是备份软件系统的数据结构,这个数据结构设计的优劣,与 整个系统的分析设计有着密切的关系,下面我们从三个方面讨论m b d b 在备份软件系 统研发过程中的结合使用情况。 ( 1 ) 系统需求分析阶段,目前数据备份的基本需求有a 计算机网络数据备份的自 动化,以减少系统管理员的工作量:b 使数据备份制度化、科学化:c 对介质管理的 有效化,防止读写的操作;d 对数据形成分门别类的介质存储,使数据的保存更细 致、科学:e 自动介质的清洗轮转,提高介质的安全性和使用寿命;f 以备份服务器 形成备份中心,对各种平台的应用系统及其他信息数据进行集中备份,系统管理员 可以在任意台工作站上管理、监控、配置鍪份系统。实现分布处理,集中管理的特 点:g 维护人员可以容易地恢复损坏的整个文件系统和各类数据;h 备份系统还应考 虑网络带宽对备份性能的影响,备份服务器的平台选择及安全性,备份系统容量的 适度冗余备份系统蘸好的扩展性等因素等方面。通常需求复杂,内容较多,在分类 整理形成文档前要进行适当的分析,对那些数据性的,会进入备份索引设计阶段处理。 功能性的需求,则在程序设计编码阶段实现。所以在此阶段,有没有m b d b ,关系不大, 只随着系统设计的深入,才会应用到船d b 来描述解决更底层的问题。 ( 2 ) 备份索引数据库设计阶段这一阶段也是本章所要讨论的内容,也是本文的重 点内容。这一阶段是“启下承上”,“承上”是指反映需求,“启下”是指部分实现m b d b 对于数据备份需求方面,比如( 1 ) 中列举的a 、d 、f 、g 等与备份索引的设计直接相关, 即备份索引在设计上要首先保证这些需求的信息含量,并用合理的结构来表示这些数 据。在设计这些数据结构的同时,必须充分考虑到包容! i l b d b 分解后的元数据信息, 比如备份的源数据对可备份数据对象的分解粒度大小、备份测度点对备份源数据变化 的映射方式、为恢复简洁自动化对目标数据集的卷存放等这些问题都直接体现对r b d b 模型的支持程度,反映m b d b 的思想在备份索引设计中的应用情况。 ( 3 ) 程序设计、编码阶段数据备份需求的满足,主要体现在程序功能实现上,程 度功能是程序设计、编码来完成的,比如( 1 ) 中列举的a 、d 、f 、h 是在程序设计上实 现的,无论什么备份需求,程序设计实现上都要与数据的备份索引交互,所以在此阶 段一方面以备份索引数据处理相结合的程序实现备份需求功能外,另一方面有一些复 杂的相对独立数据( 即支持标准数据接口) 的算法处理在程序设计上实现,比如备份性 能评价算法、恢复用数据集选择算法、及自动化周期备份的日程时钟判定算法等在设 计时直接体现出m b d b 模型的思想。总之,在系统详细设计、编码阶段,m b d b 直接应 用到备份系统的代码级、数据级,是备份系统的基础。 22 中山大学硕士学位论文 数据各份系统中备份索引的研究与设计 4 2 设计思想、原则和方法 4 2 1 基本设计思想 一个备份系统的备份索引基本设计思想就是结合数据备份需求,满足系统功能设 计和实现的需要。在这个大前提下,备份索引就是备份系统要处理的数据部分,在系 统中是中心地位,系统的功能实现和展开基本上是围绕着备份索引进行的。这样看来, 与m s ( 管理信息系统) 有些类似,但实质上有很大的不同。 在m i s 中,数据库技术的核心思想是数据的独立与共享,所以开发数据库应用, 就是利用计算机数据库技术来组织,管理和使用信息。不同形式的数据库应用可谓多 种多样,但功能需求的核心是围绕着数据库管理的信息来展开的。在数据库应用由虽 然功能很多,许多功能在逻辑上相似,往往只是处理的数据不同,很多时候,信息管 理软件的功能基本上是数据的查洵,更新,维护,并不需要复杂的算法。所以,数据 库应用需求分析设计也是围绕数据( 信息) ,而不是功能展开。在数据库应用分析设计 阶段是要解决“有什么”,然后再明确“做什么”。 而在数据备份系统中,是真正的先分析用户备份( 保护) 需求,定义基本功能,然 后再转向定义数据( 结构) 。还有一个重要差别m i s 中数据的增长,差不多是用户在处 理业务时手工添加( 录入) 的,而在备份系统中,少量要定制的数据由用户设置录入, 大量的数据则是系统执行自动化备份任务周期性产生的。而且在备份系统中的算法较 复杂,不象m i s 中那些功能较单一不涉及复杂算法。 由此,备份系统中的备份索引虽然与m l s 中的数据库有相似之处,但其在整个系 统设计过程中和m i s 有其不同的特点及要求。因此,备份系统的备份索引的设计不能 与m i s 的数据库设计混为一谈,有很多共相同之处,也存在相当大的差异。 4 2 2 设计原则 在进行备份系统的备份索引的设计时,为了体现其基本的设计思想,因此需遵循 相应的原则,现分别介绍如下: ( 1 ) 最大需求满足原则即是要保证备份索引在设计时,充分表达功能需求实现时 所需要的数据信息。只有在备份索引数据结构上有信息表示,才能让程序处理数据实 现相应的备份功能需求。只有最大化地表示备份需求,才能提供保证程序能实现相应 功能的基础。比如,备份需求中即有手工操作备份,又有自动化周期各份,此时在备 份索引设计中应能充分地体现出,对这种不同需求所需操作数据信息的表示,对自动 化备份可能要设计出表示时间日程相关的数据结构来存放周期性检查信息等。 ( 2 ) 关系数据库来存储表示,不用文件或目录服务来表示用关系数据库来存储表 示的优点是显而易见的。一个备份软件系统的数据部分备份索引与数据库有部分相 似,采用数据库机制来表示存储备份索引不仅可以方便数据的访问及操作,而且对保 证数据的一致性、安全性等方面有明显的优于文件或目录服务方式。目前l d a p 服务 在一些分布式系统应用领域有很好的前景和应用,但经比较不适用于备份软件系统对 备份索引数据管理上的要求,因此使用关系数据库表示和存储是设计备份索引的重要 原则之一。 ! 型奎兰堡主兰垒垒兰 塑塑墨笙墨竺! 墨堡| 强! 塑里塞兰堡计 ( 3 ) 分层分级设计原则备份索引数据在备份系统中有其固定的特征,在设计时应 与这些特征相符合。首先备份索引涉及的内容丰富,按需求可分层,比如直接有与需 求对应的数据部分,也有与需求无关在数据交互上的数据信息。其次,备份索引数据 在物理位置上可能会涉及多个主机,因此适当的分层分级有利用数据的管理和共享交 互。 ( 4 ) 考虑与程序实现方便性相一致原则实际研发工作中,在许多类型的应用系统 开发中,许多技术细节本身就关系到功能需求能否实现或正确实现,如有数据库应用 程序开发经验的人谁都知道,根本不可能抛开数据类型去定义一个数据实体的属性。 如果在备份索引设计中忽略一些至关重要的技术细节往往造成功能实现或需求满足 不完整,会造成混乱影响后续的开发工作。比如,存储备份索引的数据库机制与程序 设计语言之间接口细节,要充分考虑到;还有,备份索引数据在网络传输时的安全陛 保证措旌,应结合在程序实现方便上对备份索引设计有充分的认识。 4 2 3 设计方法 对各份索引进行设计,基本的设计方法是沿用关系数据库的设计方法,另结合备 份系统的特点,对备份索引信息表示结合备份结点生长树同步映射方法,采用数据流 程图、e r 图分析工具,分析数据关系,设计备份索引的数据结构。 。 一般数据库设计方法有两种,即属性主导型和实体主导型。属性主导型从归纳数 据库应用的属性出发,在归并属性集合( 实体) 时维持属性间的函数依赖关系。实体主 导型则先从寻找对数据库应用有意义的实体入手,然后通过定义属性来定义实体。一 般现实世界的实体数在属性数1 1 0 以下时,宣使用实体主导型设计方法。在备份软 件系统中,实体数要远远小于1 1 0 ,因此用实体主导型设计方法来设计备份索引数据 摩。 另外,为反映c a t a l o s 数据库设计与m i s 中数据库设计上的差异,详细论述备份 节点生长树与备份索引同步映射机制,这一方法设计的备份索引在关系数据库的平面 设计方式上进行扩展至立体设计方式,是在分布式系统中应用关系数据库时对数据库 的设计方式的一个补充、一个增强方式,在本文中被称之为增强型关系数据库设计方 法。 ! 坐望兰型墅兰兰垡笙苎一一 一 墼塑墨丝墨竺鱼堡窒! ! 塑堑壅篁堡生 4 3 信息表达和备份结点生长树 4 3 1 信息表达 在这一小节,主要介绍用数据库设计技术来设计备份系统的备份索引,并说明备 份索引在数据备份系统中如何表达备份数据需求信息。 在备份索引中需要记录的基本实体有备份客户,存储设备介质。这些都是注册到 备份索引数据库中的静态信息。其中一个备份客户就是网络环境下要进行数据保护的 台主机上,对于主机上的数据源又可以有多种形式,比如o r a c l e 数据库或文件系统 下的某个目录。存储设备介质是网络中另一用来存储备份目标数据的主机上的磁盘或 磁带或光盘等。, 图4 - 1 备份源数据及目标数据e r 图 备份客户、备份源数据、存储介质、备份目标数据的之间的关系如图4 1 所示, 其中备份客户和需要备份的数据源之间是一对多的“拥有”关系,即在一个备份客户 主机上有多个数据源需要备份,成为备份对象,比如一台l i n u x 平台主机上的文件夹 h o m e 、u s r d o c 或o r a c l e 数据库实例0 7 0 或o z j b 等;备份客户和存储介质之间是 多对多的“存储”关系,即多台备份客户可以使用多台备份存储介质,其中某一备份 客户可以使用多个主机上的存储介质,并且一个主机上的存储介质同时可以提供给多 个各份客户共同使用;存储介质和备份目标数据之间是一对多的“拥有”关系,即一 台主机上的介质可以存储很多个备份目标数据集;备份源数据和备份目标数据之间是 一对多的“存储”关系,即一个备份源数据多次备份后形成多个备份目标数据存储在 备份介质上。对每个实体,只标识出其中的一个属性,另有其他的属性在此省略未标 出。主机r p 地址通常是备份客户的重要属性,在逻辑转换设计上肯定要包括的,而 卷索引属性是否为重要属性则与存储介质的类型有关。 ! 些茎兰堡主兰垡堡奎一 塾塑鱼堡墨堕主量竺室! ! 塑婴塞兰堡生 为满足备份基本功能上的需求,在备份索引中还需记录一些静态实体信息,它们 是日程( s c h e d u l e ) 和策略( p o l i c y ) 。日程主要是用来安排手动的立即备份还是自动化 的定制时间启动备份操作;而策略则是对备份方式的描述,是全各份还是增量备份及 数据是否加密、压缩等。 备份 方法 簧略 类型 备份数据源l ! 厂r 蓉石主语 优先 级 数据 加密 活动 时阃 ) 一 1 日程 类型 u 计i 赢 起始 时问 爹一 图4 2 备份数据源、计划日程、备份策略实体e - r 图 备份源数据、备份策略、计划日程三个静态实体的之间的关系如图4 _ 2 所示,其 中备份数据源和备份策略之间是一对多的关系,即对每一个特定数据源,一定会有多 个备份策略与其对应,反映对这个数据源的备份需求情况,比如,对一个文件目录下 的文件数据的备份,可以采用的备份方法有多种方式,每次执行备份的优先级在整个 网络环境里也有所不同。备份策略和计划日程之间是一对一的关系,对于每一个备份 策略唯一地对应一个计划日程,因为对备份数据源的一个备份策略,可以定义这个备 份策略的时间持续情况,是只执行一次的立即备份,还是周期性执行的自动化备份, 用一个关于时间定义的日程对应是很自然的处理方式。 在表示实体之间的关系时,也列举了一些主要属性。备份策略涉及的类型、备份 方法( 全备份或增量备份) 、策略开始有效时间、执行优先级、数据备份后的加密、数 据是否压缩等,是对一个数据源备份进行定制需要的最基本信息;计划日程涉及的主 要是时间相关的属性,包括日程类型( 日期型、频率型、日期+ 频率混合型) 、持续时 间、起始时间、结束时间、排除时间、备份任务启动时间等,也是涉及备份时间定制 方面的基本属性信息。 另外,在备份系统的备份索引中还存在有一个重要的动态实体,即作业( j o b ) 。 通常备份系统在运行当中,每进行一次备份或恢复操作,都是一次作业提交给备份服 务器运行。因此,作业实体是上述各个基本的静态实体在程序运行调度各种算法操作 的过程或结果,是备份系统中相当重要的一个实体。作业实体与备份数据源、计划日 程、备份目标数据有直接的关系,也另外的静态实体也有间接的关系,由此可见,作 、比实体在整个备份索9 1 数据库中占据中心地位。 作业和各个主要的静态实体之间的关系如图4 3 所示。 中由大学硕士拳侥硷文 数据备份系统中备份索引的研究与设计 图4 - 3 备份作业和静态实体e r 示意图 在备份作业和各个主要静态实体之间的关系e r 图中,可见备份源数据和备份作 业之间是一对多的关系,因为对于一个指定的数据源,要备份的次数据肯定多于一次, 备份工作是长期的( 由于数据总是在变化) ,对每一次备纷都会提交一次作业:备份作 业和目标数据之间是一对多的关系,其实它们也可以是一对一的关系,但当目标数据 文件或数据量很大时,分解成多个数据单元来存储便形成一对多的关系;由于备份策 略和计划日程之间的关系是一对一的,按照备份作业的含义,它们和备份作业的关系 必然是一对多的。因为计划日程中定义了一个时闻段内,要多次重执行备份任务, 必然是每一次的各份执行都提交一次作业,故一个计划日程必然会产生多个备份作 业,每个作业代表计划目程内的一次备份恢复任务在备份系统中的执行。 动态实体备份作业的属性中除了与各个静态实体相关的一些以外,还有作业序 号、作业类型( 备份、恢复) 、作业状态、出错情况、完成情况、启动时间、结束时间、 传输数据量大小等,这些属性是个备份作业应满足的最基本的特性。 这里讨论,备份索引应体现的一些主要的实体关系情况,我们称之为强实体。在 备份系统中还有一些弱实体,它们作为一些实体又不明显,但又具备实体的基本特性。 比如系统操作授权用户、备份源数据备份到目标数据过程中的一些中间过渡性质的逻 辑数据对象、系统逻辑时钟等等,也是备份索引设计中应包含的内容,在此就不再一 一律细列举。 中山大学硕士学位论文 数据备份系统中备份索引的研究与设计 4 3 2 备份结点生长树 通过对备份需求的深入分析,让备份索引深层次地反映备份需求,经分析验证让 备份索引与备份结点生长树保持同步映射,可以对备份系统功能实现、程序算法设计 简化有良好的支持作用。 4 3 2 1 备份作业增长分析 由4 3 1 小节知,备份作业是备份索引中的动态实体,表现在数据库上就是表中 的记录是随着备份恢复操作不断增长的,而且这种增长是与备份数据源、计划日程 等静态实体有着密切的关系。经过进一步的分析,备份作业的增长有一定的规律, 现就其主要特征简单论述如下: ( 1 ) 备份作业反映了备份的历史,对每一次备份恢复都保留有记录。由于对每次 作业都有如实的记录,整个备份历史都如实记录在备份作业库中。大量的备份作业历 史库,都是一次次备份恢复操作执行的结果。如果没有或遗失了那条作业记录,必 然会造成数据恢复上的困难。如果没有发生过或很少发生过应用系统的数据意外,面 对大量的备份作业数据记录条目,必然会想到利用它做点什么,能从中挖掘点什么, 进一步分析这些备份作业历史对整个备份系统的额外价值。 ( 2 ) 备份作业的所有历史内容,反映了每一个备份数据源备份需求中的规律性。 备份作业通常记录着备份服务器中的作业提交执行情况,包括整个网络环境内的备份 客户的备份恢复操作执行情况,因此表面看来内容杂乱无章,其实对于任何一个具 体备份数据源来讲,反映了对那种数据源备份需求。因为备份作业中的记录条目,是 由其它实体发生关系,经程序执行算法调度后不断增长的。这些记录条目可进一步追 溯备份策略、计划日程等。只不过备份策略和计划日程直接反映了备份需求,而备份 作业是内容里包括了备份策略
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学美术鉴赏试题及答案
- 出师表课件笔记
- 企业安全培训课程内容课件
- 2025水利工程施工监理合同专用条件模板样本
- 2025公寓房屋买卖合同范文
- 2025年三维打印设备购销合同
- 2025医院临时工劳动合同书
- 2025【合同范本】简易个人房屋转售合同
- 冰的秘密课件
- 版权溯源技术优化-洞察及研究
- 邮储银行招聘考试笔试试题集及参考答案
- 投标部奖罚管理办法
- 补充耕地后期管护方案(3篇)
- 设备设施运行台账教学幻灯片
- 健康四大基石科普讲座
- 护士培训班自我介绍
- 2025深入贯彻中央八项规定精神学习教育测试题和答案
- 音乐人工智能应用-洞察阐释
- 2026年中考英语一轮复习:1600个必背词汇 话题记忆+默写本
- 2025年华电煤业招聘笔试备考题库(带答案详解)
- 小流域治理工程监理工作报告小流域治理监理报告
评论
0/150
提交评论