




已阅读5页,还剩84页未读, 继续免费阅读
(计算机系统结构专业论文)基于共享存储的高可用性系统设计及管理模块实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 = = = 2 = = = = = = = = = = = = ;= = = = = = = = = = = 一: 摘要 作为集群技术在关键性事务处理领域应用的结果,高可用性系统是系统可用性 与成本之间的一个平衡。在对计算机系统高可用性的关键技术进行分析的基础上, 深入研究了基于共享存储的高可用性系统的体系结构。初步设计了一个以服务组为 监测对象的基于i s c s i 共享存储的双节点高可用系统原型,给出了高可用性系统管 理软件的总体设计及管理模块的实现。系统被设计具有良好的可扩展性。 高可用性系统设计中面临的首要问题是系统的体系结构设计。详细分析了高可 用性系统的体系结构及其存储互连技术,建立了一个基于i s c s i 的高可用性系统的 体系结构模型。同时磁盘阵列的高可用性也保证了系统中数据的高可用性。为系统 建立了m a r k o v 模型,从理论上分析了系统能达到的可用度。 高可用性系统管理软件是高可用性系统的核心。详细分析了高可用性系统管理 软件的功能及其实现的关键技术。基于w i l l d o w s 2 0 0 0 x p 的服务技术设计了一个双 节点管理软件,采用多进程并使用里程间通讯技术相互监测以提高软件的稳定性, 使用异步输入输出技术提高软件的运行效率。给出了其进程划分、模块划分及主要 数据结构。管理软件支持扩展到不同操作系统平台及多节点。 高可用性系统管理软件的管理模块是管理员用来管理高可用性系统的一个独立 的可执行程序。管理模块采用视图数据分离方式实现,使用多线程技术提高运行效 率,采用优化的通讯协议通讯。分析了管理模块的技术方案,详细讨论了管理模块 的设计实现。 关键词:高可用性,共享存储,服务,异步输入输出,多线程,进程间通讯 华中科技大学硕士学位论文 ;= = = = = 。= 一 a b s t r a c t a st h ea p p l i c a t i o no fc l u s t e r t e c h n o l o g yi n c r i t i c a lt r a n s a e t i o n p r o c e s s i n g ,h i g h a v a i l a b i l i t y ( h a ) s y s t e mi sa b a l a n c eb e t w e e n a v a i l a b i l i t ya n dc o s t b a s e do nt h ea n a l y s i s o f h i g ha v a i l a b i l i t yk e yt e c h n i q u eo fc o m p u t e rs y s t e m ar e s e a r c ho nt h ea r c h i t e c t u r eo fa h i g ha v a i l a b i l i t ys y s t e mb a s e do ns h a r e d s t o r a g ei sd o n e ap r o t o t y p eo ft w on o d e s , s e r v i c e g r o u po r i e n t e dh i g ha v a i l a b i l i t ys y s t e mb a s e do ns h a r e d - s t o r a g ei sd e s i g n e da n d i t sm a n a g e m e n tm o d u l ei si m p l e m e n t e d i tw i l lh a v eg o o d s c a l a b i l i t y t o d e s i g nah as y s t e m ,s y s t e ma r c h i t e c t u r ei st h ef i r s ti s s u et h a th a st ob es o l v e d a f t e rt h ed e t a i l e da n a l y s i so fa r c h i t e c t u r ea n ds t o r a g et e c h n o l o g yo fh i g ha v a i l a b i l i t y s y s t e m ,aa r c h i t e c t u r em o d e lb a s e d o nai s c s id i s ka r r a yi sp r o p o s e d a tt h es a l l et i m e , d i s ka r r a ye n s u r e st h eh i 曲a v a i l a b i l i t yo f s h a r i n gd a t ai nt h es y s t e m a m a r k o vm o d e li s s e tu pt oa n a l y z ea v a i l a b i l i t yo f t h i ss y s t e m h i g ha v a i l a b i l i t ym a n a g e m e t s o f t w a r ei st h ep o i n to fh a s y s t e m a f t e rt h ef u n c t i o n s a n dk e yt e c h n i q u eo ft h es o f t w a r ea r ed e t a i l e dd i s c u s s e d ,at o wn o d e sm a n a g e m e n t s o f t w a r eb a s e do nw i n d o w s 2 0 0 0 p ss e r v i c ei sd e s i g n e d t h eu s eo fm u l t i - p r o c e s s , i n t e r p r o c e s sc o m m u n i c a t i o na n d m o n i t o t i n ga m o n g t h e m p r o v i d e t h e i m p r o v e d s t a b i l i t y t h eo v e r l a p p e d i o p r o v i d e s t h eb e r e t e f f i c i e n c y t h e m o d u l e d e c o m p o s i t i o n ,t h ec o n c u r r e n tp r o c e s sd e c o m p o s i t i o n a n dt h em a i nd a t as t r u c t u r eo ft h e s o f t w a r ea r ep r e s e n t e d t h es o f t w a r ei sd e s i g n e dt ob ec a p a b l et oe x p a n dt od i f f e r e n t o p e r a t i o ns y s t e ma n d t w om o r en o d e s t h em a n a g e m e n tm o d u l eo ft h eh i 曲a v a i l a b i l i t ym a n a g e m e n ts o f t w a r ei su s e df o r t h ea d m i n i s t r a t o rt oa d m i nh i 曲a v a i l a b i l i t ys y s t e m i t i sa l l i n d e p e n d e n te x e c u t a b l e p r o g r a m i ti si m p l e m e n t e db y d o c u m e n t - v i e wf r a m e w o r k t h em u l t i - t h r e a d s d e s i g n p r o v i d et h eb e r e te f f i c i e n c ya n d t h es p e c i a lc o m m u n i c a t i o n p r o t o c o li su s e d k e vw o r d s :h i g ha v a i l a b i l i t y , s h a r e d - s t o r a g e ,s e r v i c e ,o v e r l a p p e di o ,m u l t i - t h r e a d , i n t e r p r o c e s sc o m m u n i c a t i o n 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果a 尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 知。扛 日期:够年f 月6 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于, 不保密说 ( 请在以上方框内打“”) 学位论文作者签名 日期:二删乒年! _ 月i 日 指导教师 日期: 日 华中科技大学硕士学位论文 ;= = = = = = = 等= = = = = = = = = = = = 鲁= = = = = 高= = = = = = = = : 1 绪论 随着信息技术的飞速发展,计算机系统被广泛地应用于社会生活的各个方面。无 论是在会融、电信等关系到国计民生的关键性部门和行业,还是在平时的日常生活中, 我们都广泛地使用计算机系统处理信息。这一方面极大地提高了整个社会的效率,节 省了社会资源,但与此同时,对于计算机系统的依赖也产生了极大的风险。计算机系 统并不是完全地可靠,一些内部和外部的原因都会导致系统的破坏、数据丢失,而使 其不能再对外提供服务。因此,尽可能地提高系统的可用性( a v a i l a b i l i t y ) 就显得非 常的重要。而且由于现代计算机系统的规模和复杂性的迅速提高,这一问题显得尤为 突出。 1 1 高可用性系统概述 看起来不可思议的的,系统越大却越不稳定,也就是说可用度越低。我们可以构 建小的,非常可靠的模组,但却很难构建包含数千个模组和几百万行代码的稳定的系 统,虽然这种系统是现代社会的核心。 几十年前计算机刚出现的时候,硬件失效是主要的系统故障。但今天,硬件失效 相对于操作环境及软件失效引起系统故障而言已是较小的方面了。 上世纪5 0 年代后期发明的计算机能提供1 2 小时的平均无故障时间 1 l 。数十个全 时计算机维护工程师能在8 小时内修好机器。这样这台机器可以提供6 0 的可用度。 由于这些计算机主要由电子管和继电器组成,而这些部件的寿命通常只有几个月,所 以那时计算机很少能工作整整一天而不出问题。 随着技术的发展,现在的典型的计算机系统能提供9 9 9 的可用度。这意味着每 年有大约9 小时的失效时间。这样的可用度可以适用于办公室或备份运行,却不适用 于关键商业应用或在线业务。这样的应用通常需要9 9 9 9 9 的可用度。 对增长的,高性能的硬件与软件系统的需求在过去的2 0 年中得到戏剧化的增长。 高级的,复杂的硬件和软件系统在我们的日常生活中发挥着重要的作用。我们通常认 为由汽车,电话,银行,计算机及i n t e r a c t 所执行及完成的任务是理所当然的。几乎 所有的工业都依赖大型的,复杂的硬件和软件系统的可靠运行,它们通常扮演重要的 角色来使增强工作的生产力,来给客户提供服务,来保障安全,来提供我们不断创新 的技术基础。当一切平稳运行时,我们很难意识到这些计算机系统在日常生活中的存 在。然而,当这些系统失效时,它们就能立即得到我们的重视了。有些系统失效可能 华中科技大学硕士学位论文 = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 一= 只会给我带来一些不便,但一些系统的失效就会导致重大损失,甚至是生命的损失。 就像我们对复杂硬件和软件系统增长越依赖,潜在的风险就越大。近几年软件数量的 爆炸性增长使得工业界对有效设计,有效测试及配置这些复杂系统以达到用户所要求 的水平的能力被降低。软件系统的问题可能会变得更糟,因为它们有额外的负担来屏 蔽硬件失效。 “高可用”经常被使用来指能使用服务运行更长时间的系统。这可以非常典型的 用“9 ”的个数来量化。表1 1 显示了年均当机时间及不同可用级别系统的典型应用【2 l 。 表1 1 可用级别与典型应用 9 的个数每年当机时间典型应用 3 个9 ( 9 9 9 )大约9 小时桌面电脑或服务器 4 个9 ( 9 9 9 9 )+ 大约1 小时企业级服务器 5 个9 ( 9 9 9 9 9 )大约5 分钟电信级服务器 |6 个9 ( 9 9 9 9 9 9 )大约3 1 秒电信级交换设备 虽然表1 1 所关注的是当机时间,但用户所关心的是可用时间。这意味着服务不 仅要每年除了n 分钟之外都要能正常运行,而且失效时间要尽可能的短,当机的频率 也要尽可能的低,要使终端用户察觉不到问题的发生。对于大多数的系统,目标是更 少的失效及更快速的恢复。这个概念被称为“服务可用性”。 为了提供这些可用级别,系统必须以种可靠的方式来设计。 图1 1 表示了一个计算机系统的运行维护周期。在其发生故障前,系统能正 常运行一段时间。突然系统出现故障,然后故障系统被修复,接着系统恢复正常工作。 系统将不断重复这一周期。图中平均无故障时间m t t f ( m e a n t i m e t o f m l u r e ) 为系统 ( 或系统的一个部件) 在发生故障前能正常运行的平均时间,它是一个统计上可测量 的参数,表示系统可靠性( r d i a b i l i t y ) 的参数,也就是表示系统能够连续提供服务的 能力。平均修复时间m t t r ( m e a nt i m et or e p a i r ) 为修复系统和在修复后将它恢 复到工作状态所用的平均时间。m t r r 是一个表示系统可维护性的参数。平均故障间 隔时间m t b f ( m e a nt i m eb e t w e e nf a i l u r e s ) 也是一个经常用到的参数。m t b f 等于 m t t r 与m t t f e 3 】之和:m t b f = m t t r + m t t f l 4 1 。 发生故障 图1 1 计算机系统的运行一维护周期 华中科技大学硕士学位论文 = = = = = = = = = = = = = = z = = = = = = ;= = = = = = = = = = 2 = = = 一 根据上面的定义,对于一个可修复系统,其稳态可用性( a v a i l a b i l i t y ) 与平均无故障 时间( m t t f ) 、平均修复时间( m t t r ) 的关系如式( 1 1 ) 所示: 可用性:婴 埘,+ m t t r ( 1 1 ) 可用性表示了系统在一给定时间内能提供服务的可能性。有很多因素会造成系统 当机,包括为了维护而有计划的当机以及意外故障等,高可用性方案的目标就是使当 机时间以及故障恢复时间最小化。 1 2 高可用性系统研究的现状 有关系统的可用性方面的研究一直是国内外研究的一个热点问题。在可用性的理 论方面,研究者们提出了各种可用性分析方法和模型,如动态故障树分析方法【”、可 靠图法1 6 j 、m a r k o v 模型分析法口4 j 、p e 伍网模型分析法【9 。1 0 j 等。这些研究都试图从理论 上分析一个系统的可用性,解释怎样的系统结构会带来系统的高可用性。 在计算机系统体系结构的研究方面,计算机系统的可用性的研究同样也引起研究 者们巨大的兴趣。比如采用何种软硬件体系结构以构建高可用的计算机系统,怎样快 速有效从错误中恢复一个系统的正常运行等。考虑到计算机系统软硬件自身的错误在 减少,由于人为因素带来的系统失效的情况成为主要原因,而这单靠系统结构方面的 改善是无法解决的。因此研究者们把更大的注意力放在了提高系统的恢复能力上,希 望能够提高计算机系统处理自身错误的能力。 如j i m g r a y 提出的t r o u b l e f r e es y s t e m s 的概念,b u e r l a m p s o n 认为系统设计面 临的挑战之一就是保持系统的总是可用,而且能够白适应环境的改变i l ”。j o h n h e n n e s s y 建议研究的目标应在可用性、可维护性、可扩展性上【l 2 j 。i b m 公司提出了 新的研究计划:自主运算( a u t o n o m i cc o m p u t i n g ) ,把计算机系统看作一个可以自调 节、自我管理、自我诊断的生物系统,其主要目标也是使计算机系统更加“聪明”而 不是更加的快速。d a v ep a t t e r s o n 、k a t h yk e l l i e k ( u cb e r k e l e y ) 、a r m a n d of o x ( s t a n f o r d ) 等领导的r e c o v e r y - o r i e n t e dc o m p u t i n g ( r o c ) 研究项目【l ”。他们认为硬件故障、软件 b u g 、操作人员的误操作等都是要处理的存在的事实( f a c t s ) ,而不是有要要解决的 问题( p r o b l e m s ) 。r o c 更加关注于m t t r 而不是m t t f ,通过减少系统的恢复时间 来提供系统的高可用。 面对客户对高可用性系统的强劲需求,各大公司都相继推出了自己的商用高可用 性集群系统。8 0 年代朱期首先出现于基于u n i x 的高可用系统。随后,各主要大厂商 纷纷推出自己的高可用系统,i b m 公司在a i x 平台上的h a c m p 4 1 ( 可以支持多达 华中科技大学硕士学位论文 3 2 个r s 6 0 0 0 服务器或s p 节点) 、m i c r o s o f t 的m s c s t ”】( 即原w o l f p a c k 项目,目 前支持的节点数为4 个,其只运行于w i n d o w s 平台上) 、v e r i t a s 公司的v c s ( 可 支持3 2 个异构节点的群集,支持包括s o l a r i s 、w i n d o w s n t 、h p u x 等多种系统平 台) 、r o s e 公司推出的r o s e h a 、l e g a t o 公司的n e t w o r k e r 和c o s t a n d b y s e r v e r 、 以及w e s t e r n m i c r o 公司的s a v w a r e f i a 等【1 6 0 ”,国内的如中科院计算所的c n i c h a 等,以及一些基于l i n u x 平台的高可用性集群系统:t u r b o l i n u x 公司的t u r b o c l u s t e r 、 r e d h a t 的p i r a n h a 等。 1 3 主要技术 从可用性的定义可以知,提高系统的可用性基本上有两种方法:增加m t t f 或减 少m t t r 。增加m t t f 要求增加系统的可靠性。而对于系统而言,当故障的产生难以 进行有效的预测和消除时,通过快速故障恢复,降低平均修复时间( m t t r ) 也可以 达到提高可用性的目的。为了达到增加系统可用性的目的,总的来说可以从硬件和软 件两方面着手。 1 3 1 通过硬件集成提高系统可用性 1 ) 部件级冗余 处理系统通过采用多个处理单元来实现高可用性;网络系统采用多个支持热插拔 的网络接口卡来避免单点失效;y o 系统采用磁盘阵列增强数据的安全性;电源系统 采用冗余支持热插拔电源提供备份及在线更换;机箱系统采用冗余风扇组成散热系 统,一旦主风扇失效,备份风扇立即接替工作。使用硬件监控模块控制机箱温度及产 生中断向c p u 报告状态。 有关计算机存储系统的可靠性方面的一个重要进展就是磁盘阵列( r a i d ) i l s j 的 提出。这种体系结构是u cb e r k e l e y 大学的一群研究人员k a t z 、1 l h g i b s o n a 和 p a t t e r s o n d a 于1 9 8 9 年在i e e e 杂志的高性能计算的磁盘体系结构一文中提出来 的d 9 。r a i d 是由许多台磁盘机或光盘机按一定规则,如分条( s t r i p i n g ) 、分块 f d e c l u s t e r i n g ) 、交叉存取( i n t e r l e a v i n g ) 等,来备份数据、提高存储系统可靠性和性 能的【2 0 1 。r a i d 技术有多种实现方式,通常采用的有r a d0 、r a i d1 、r a i d5 、 r a i d1 0 等。 r a i d0 又称数据分块,是使用“条”技术来跨越磁盘分配数据的。其目的是将容量 和传输率提高到最大,但没有容错,一旦硬盘出现故障,阵列中的所有数据将会丢失。 这种模式可靠性并没有提高。r a i d1 又称镜像法,它使用两个完全相同的盘,即每 4 华中科技大学硕士学位论文 次将数弼同时写入两个盘,一个作为工作盘,另一个作为镜像盘。一虽工作盘发生非 致命故障,镜像盘可立即顶上,使系统工作不问断。这种盘阵列可靠性高,但有效容 量将减小一半。r a i d5 是一种旋转奇偶校验独立存取阵列,它按定规则把奇偶校 验信息均匀分布在阵列中所有的盘上,是一种容错能力分布合理的阵列。为了提供冗 余,它最少需要三个磁盘( 不包括热备份盘) 。r a i d5 是通常使用最多的数据保护方 案【2 “。r a i d1 0 实际上是r a i d 0 + r a d l 。它采用分块和镜像技术,通过分块镜像集 实现。采用分块技术,多个磁盘可并行读写,磁盘i o 性能很高:采用镜像存储使得 可靠性也成为所有磁盘阵列中最高的 2 2 - :2 3 1 。由于集中了r a i d 0 和r a i d t 的优点, r a i d l 0 的性能是所有r a i d 类型中最好的,但代价较高【2 4 “】。 通过这些措施的采用,可以提高服务器系统的m t t f 。 2 ) 系统级冗余 系统级冗余是从两个节点的服务器系统开始,随着性能和可扩展性的需求,可以 使用两个以上的节点。工作方式如下:在主系统中组件( 硬件或软件) 失效时,重要 的应用程序可以被转移到从服务器上,这样可避免故障并保证应用服务的可用性。这 个过程就是故障接管( f a i l o v e r ) 。该过程不可避免的会造成该服务性能的下降,但不 会发生全局永久性损失。 系统级的冗余与使用部件级冗余的容错系统完全不同。部件级容错系统要依赖于 专有的硬件来检测可能出现豹硬件失效。如果检测到硬件失效,系统就立刻切换到另 外的冗余硬件。在这种系统中,在n 。1 个部件都发生故障时( 即只要有一个部件仍然 正常) 系统对用户来说仍然是可用的( 用户看不到发生的故障) ,这种接管是无缝透 明的而且能保证服务的不间断( n o n s t o p ) 。但是其成本代价太高,这是由于n 个部 件提供的仅是一个部饽的性能,而成本超过n 倍以上。如果容错机是基于双冗余的话, 其价格与商业通用机比价将是2 4 :1 2 6 。而高可用性系统不将可用性获得认为是要使 用一系列复制的物理组件,而是把它看作是一系列的在系统范围内共享的资源之间的 相互合作,并且以此来保证必需的服务。高可用性使用工业标准的软件和硬件,通过对 服务的快速恢复,使得在系统、组件或应用程序出错时能最大程度的降低系统停机时 间。 另一个区别是,在一个部件冗余容错的系统中没有服务的中断,而在一个高可用 性的环境中会有很小的服务中断。这种服务中断并非不能被接受,很多网站愿意承受 高可用性系统带来的一个很短的停机时间,而不是使用花费高的多的容错系统。如果 一个应用能够容忍一个很短暂的中断,高可用系统对于它们来说将是一个非常优秀的 解决方案。许多行业的应用是非常时间关键性的,它们不能容忍哪怕几秒的中断时间, 但也有许多其他行业的应用能够容忍数据库在一小段时间内不可用。对于这些行业来 华中科技大学硕士学位论文 = = = = = = = = = = = = = = = = = = = = = = = = = = ;= = 一! 说,高可用系统能够为其提供服务的连续性而不用完全的冗余。它将是一个性价比很 高的解决方案。 系统的体系结构通常如图1 2 所示。 磁盘阵列磁盘砰列 图t 2 高可用系统结构图 图1 2 中的服务器系统中,局域网、服务器、服务器的适配器、光纤交换机、磁 盘阵列等都采用了冗余的结构,避免了单一失效点。i b m 的h a c m p 口4 】在解决系统高 可用性的问题时就采用的这种冗余设计。 1 3 2 通过高可用管理软件提高系统可用性 在有多节点的高可用系统中,高可用管理软件可以提高系统的m t t f 。 硬件容错系统不能解决由于软件和人为错误等原因产生的失效。如前所述,这却 是系统停机的最常见的原因之一。高可用管理软件可以处理这一类的失效。 高可用管理软件的功能主要是两方面,故障接管和存储备份。 1 ) 故障接管 高可用管理软件安装在高可用服务器系统中的每个节点上。在节点内,高可用管 理软件通过监测业务应用程序来获取其状态。当被监测程序出现异常或失效时,高可 用管理软件将依据事先设定的策略进行操作。在节点间,高可用管理软件通过网络传 递心跳及进程现场信息到其他节点。一旦需要转移业务应用,其他节点将利用现场信 息来恢复业务应用的状态。 6 华中科技大学硕士学位论文 = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 一= : 2 ) 数据备份 数据备份技术是解决数据高可用性的重要技术。对于关键性的应用程序和数据, 一旦系统崩溃,备份的数据就成了唯一的希望。当然对数据进行备份,也是出于保证 数据的安全性、对系统信息做历史记录、在灾难发生时恢复系统等多方面考虑的。 备份分为冷备份和热备份两种。在进行冷备份时,系统管理员要首先发出一个停 机通知,然后停止服务并断开服务器的网络连接。然后安装备份设备、开始备份。待 备份完毕后再连接网络、启动服务。一旦出现故障,还可以从容地发出一个通知,停 止服务并开始数据恢复,甚至可以重新安装系统。 热备份则是在用户和应用服务正在更新数据时,系统也可进行备份。对于热备份, 存在两个完整性问题。每一个文件或数据库实体都需要作为一个完整的、一致的版本 进行备份。对于存在关联版本的若干文件或者数据库实体,必须一并备份,并保持它 们的一致性。 1 4 本文内容 本论文为国家自然科学基金项目“统一存储网( u s n ) 理论、结构与实验研究” ( 6 0 1 7 3 0 4 3 ) 研究的一部分,该部分研究工作的目标是要实现一个基于统一存储网的 高可用性系统,保证整个系统中运行的应用和服务的高可用性。针对这一目标,本文 进行了如下的研究工作: 1 ) 高可用性系统关键技术研究; 2 ) 高可用性系统管理软件实现技术研究; 3 ) 基于共享存储的高可用系统总体设计; 4 ) 基于共享存储的高可用性系统管理模块实现。 华中科技大学硕士学位论文 = = = = = = = = = = : 2 高可用性系统关键技术研究 本章将分析高可用性系统的主要关键技术,包括硬件冗余、存储互连、高可用性 系统管理软件、心跳技术及检查点技术。 2 1 高可用硬件 增加m t t f 要求增加计算机系统的可靠性。计算机工业界千方百计地制造可靠性 部件。除了提高部件的可靠性外,改善系统可靠性的一个重要技术就是使用冗余部件。 通过对关键部件的冗余设计,当一个部件( 主要部件) 发生故障时,由另一个部件( 备 用部件) 继续提供服务。单一失效点是带来系统不可用的很重要原因。冗余技术可以 很好地解决系统单一失效点这一问题。 部件级冗余是指对服务器自身的部件进行备份。例如采用多个处理单元,采用多 个网络接口卡,i o 系统采用磁盘阵列,提供备份电源,冗余风扇散热系统等。 系统级冗余是指以服务器为单位的备份。通过从两个节点的服务器系统开始,随 着性能和可扩展性的需求,可以使用两个以上的节点。在主系统中组件失效时,业务 应用程序可以被转移到备份服务器上,即故障接管。该过程不可避免的会造成该服务 性能的下降,但不会发生全局永久性损失。 2 2 高可用存储 高可用系统的存储互连指的是在服务器节点与存储系统之闯提供i o 连接的技 术。一些广泛使用的存储互连协议有s c s i 协议、光纤通道协议等以及i b m 公司的s s a 协议。由于现有的网络存储技术的迅速发展特别是i p 网络存储技术的发展,基于s c s i 和i p 技术的网络存储体系结构也被高可用性系统广泛地采用。一些典型的存储互连 体系如f c s a n 、i p s a n 的结构,以及新提出的基于i p 技术的统一存储网的体系结 构等。以下将对高可用系统中采用的存储互连协议和存储体系结构进行详细的分析。 1 ) s c s i 协议。s c s i 的起源可以追溯到1 9 7 9 年,s h u g a r t 公司研制的s a s i ( s h u g a t t s s o c i a t e ss y s t e m i n t e r f a c e ) 。研制这种新型接口的目的是为了开发一种使用逻辑地址 而不是物理地址寻址的接口。1 9 8 2 年2 月,s h u g a t 和n c r 向a n s i 提交s a s i 作为工 作文件。a n s i 采纳了这个建议,并成立了a n s ix 3 t 9 2 分委会研究这个标准,并在 1 9 8 2 年4 月正式命名为s c s i 。s c s i 发展过程中发布的协议包括s a s i 、s c s i 1 、c c s 、 s c s i 2 、s c s i 3 、u l t r a1 6 0 。s c s i 的最新发展就是u l t r a 3s c s i ,它是标准u l w a 2 的两 华中科技大学硕士学位论文 = = = = ;= = = = = = = = = = = = = = = ;= = = = = = 一= : 倍,但价格与u l t r a 2 相当。而u l t r a 3s c s i 空有一个标准,没有现成的产品,u l t r a1 6 0 s c s i 则补充了这一产品空白,它的性能与u l t r a 3s c s i 相当。u l t r a l 6 0s c s i 是u l t r a3 s c s i 的最好实现,是u l t r a 3s c s i 的子集。u l t r a l 6 0 采用低压差分信号,可提供最高 1 6 0 m b s 的传输速度。提供了双时钟沿传输、域确认、c r c 等新功能。 起初s c s i 设计的目的是为了把许多种不同类型的设备挂接到由单的i o 控制 器控制一个i o 总线上。尽管s c s i 规范支持多连接,但两个i o 控制器共享同一条 i o 总线上的s c s i 设备却不那么容易,目前大多数s c s i 主机控制器却仍然未能实现 这个功能。与使用单一的s c s i 总线的直连存储方式相比,网络存储能够提供灵活的 服务器到存储设备的连接,这对系统的高可用性是非常有益的。 2 ) 光纤通道协议。光纤通道是在s c s i - 2 的基础上发展而来的一种新的s c s i 协 议,它不仅可以作高速i o 存储,还可以用作l a n 的介质。与传统的s c s i 一2 协议相 比较,它具有以下几个特点:( 1 ) 数传率高,传统的s c s i 中最快的u l t r a _ 1 1 只有8 0 m b s 的数传率,而光纤通道的数传率为1 0 0 m b s ,全双工的情况下可以达到2 0 0 m b s ( 2 ) 传输距离远,传统的s c s i 数据传输的极限距离是2 5 米,光纤通道连接线既可以是铜 缆也可以是光纤,其中铜缆的传输极限距离是3 0 米,而在多模光纤上利用短波激光 进行数据传输可以达5 0 0 米,单模光纤上利用的长波激光进行数据传输更是高达1 0 公罩:( 3 ) 可连接节点数多,传统的s c s i 协议通常只能挂接7 个或1 5 个节点,光纤 通道可以挂接1 2 7 个节点;( 4 ) 连接方法多样,传统s c s i 接口技术只能采用菊花链 的连接方法而光纤通道可以很方便地利用h u b ,s w i t c h e s ,b r i d g e s ,g a t e w a y 进行多种方式的连接。光纤通道为存储局域网的设计提供三种拓扑结构,点对点方式; 仲裁环结构:交换开关方式。这三种方式的有效数传率都可以达到1 0 0 m b s ,全双工 时可达到2 0 0 m b s 。 3 ) s s a 协议。s s a ( s e r i a ls t o r a g e a r c h i t e c t u r e ,串行存储体系结构) 是i b m 大 力推广的面向新世纪的新型存储体系结构,它支持海量存储,其性能远远超过了传统 的s c s i 存储体系。s s a 定义了一种i o 设备连接的高性能串行连接,它专门为存储 应用如硬盘驱动器、主机适配器及阵列控制器而设计。 s s a 网络是一个环型结构,类似于f d d i 网络,但是用于存储i o 的传输。s s a 出于采用了双环路连接方式,任何一条s s a 链路故障都不会导致应用及系统故障,具 有很高的可用性。操作系统仅仅记录下s s a 链路故障的信息以便提示系统管理员解决 故障。 i b m 也开发出了连网算法,使多操作和数据可以并发地共存于s s a 环中。s s a 也具有一些优越的属性,如在个环上它可以支持1 2 7 个设备,传输率达到2 0 m b s , 设备间距离可达1 5 米,且对总的总线长度上没有限制,缆线和连接器都很小,仅用4 华中科技大学硕士学位论文 = = = = = = = = = = = = ;= = = = = ;= = 一一 针。总之,s s a 是替代并行s c s i 的合理的候选者,但遗憾的是它未能得到业界的广。 泛支持。 4 ) 存储区域网。存储区域网( s a n ,s t o r a g ea r e an e t w o r k ) 2 7 1 简单的讲,它是 一种利用f i b r ec h a n n e l 等存储协议连接起来的可以在存储资源和服务器之间建立直 接的数据连接的高速计算机网络。存储区域网结构与附网存储不同,从体系结构方面 看去它是一个网络,而附网存储实际上是挂接在网络上的存储设备。 在传统的存储区域网中,采用光纤通道协议把多个存储设备和服务器连接在一起 形成一个存储区域网,存储设备可以共同构成一个存储池,存储设备和服务器都可以 很方便的添加到网络中去,具有较好的可扩展性。存储设备从服务器分离出来,与服 务器形成一个多对多的关系,存储设备上的数据容易被其它服务器共享,存储设备之 间的数据迁移也变得很容易。采用存储区域网,数据的备份、恢复、迁移都是通过存 储区域网本身来完成,而不需要借助于服务器和现有的l a n w a n ,大大减少了服务 器和网络的工作负载。当采用了具有高带宽的光纤通道协议,整个存储网络将具有很 高的数传率,数据访问性能很好。 5 ) i p s a n 。传统的s a n 构建在f c 协议上,而当今数据网中占统治地位的技术 是i p 和以太网。基于这些成熟的网络技术建立存储网是许多技术专家和厂商的心愿。 随着以太网的速度提升到1 g 并向1 0 g 发展,以及i p 技术应用的进一步深入,基于 i p 的存储网技术逐步成熟。i p 存储同样在块一级上传送数据。因为i p 存储运行在已 经存在的网络体系结构上,典型的如非常成功的以太网,它可以保留以太网的众多优 势。i p 存储的协议层次如图2 1 所示。 存储协议 ( 如s c s l ,f c p ) 传输协议 ( t c p 或其他) 网络层:i p 链路层和物理层 ( 咀太网) 图2 1i p 存储的协议层次 图2 1 表示了i p 存储的协议层次。在以太网的基础上,可以构建一个i p - s a n 1 0 华中科技大学硕士学位论文 ;= = = = = = = = 2 2 ;= 一= 为存储应用提供高带宽、低延迟的服务。但是如果通过广域网( w a n ) 访问存储系 统,由于t c p i p 本身的特性,性能和延迟将不可预知,将导致有些应用不能正常运 行。因此,i p 存储的传输层可能需要对t c p 作些修改。i p 存储协议主要有:f i b r ec h a r m e l o v e ri p ( f c i p ) 、i n t e m e tf i b r ec h a n n e lp r o t o c o l ( i f c p ) 、和i n t e r a c ts c s i ( i s c s l ) 等。 在s a n 的网络存储环境中,除了通过使用冗余的措施提高可用性,存储虚拟化 是一项很重要的技术。存储虚拟化是指将s a n 中的所有存储资源都整合成一个虚拟 的大的存储资源。通过应用s a n 的存储管理备份软件,可以保证整个存储资源很高 的可用性。 6 ) 统一存储网络。统一存储网络( u n i f i e ds t o r a g en e t w o r k ) 是一种新提出的基 于i p 技术的网络存储系统。n a s 技术直接将存储设备挂在网上,具有良好的共享性、 丌放性、可扩展性。缺点是当n a s 设备直接与l a n 共用同一外部物理网络时( 这是 种常用的配置方式) ,易形成拥塞而影响性能。特别在做数据备份时如不通过内部 的i p 网络而直接通过外部网络进行时,将导致性能严重较低,这影响了它在企业级 存储中的地位。 s a n 由于光纤通道的存储网和l a n 分开,性能就很高。在s a n 中,容量扩展、 数据迁移、数据本地备份远程容灾数据备份都比较方便。然而,从s a n 技术近两年 开始进入市场的情况看,有些问题也是使人头疼的。第一是不同厂家的存储设备在 s a n 中互联困难重重。各厂家自己的一套工作得很好,一旦其中有别的厂家的设备, 不是连不上,就是出错。有些厂家结成联盟,使设备可以互联。但不同的联盟之间还 是不能互联。为此,国际上成立了存储网络工业协会( s n i a ) ,力图达到尽可能多的 厂家实现互联。虽然各厂家的设备都遵循光纤通道标准,但具体的实现又有很大差别。 即使各厂家都愿意将技术改变以适应互联,其工作量也是令人难以接受的。第二个问 题是用于互联的交换机和集线器等都是基于光纤通道( f c ) 协议,其价格要高出以太 网互联设备好几倍。另外,在远程备份时,光纤通道要专门布线,成本很高。 u s n 的基本原理是利用i p 互联设备构成存储区域网( s a n ) ,又通过s a n 中的 交换通道多路接入l a n 回路,形成一种广义的附网存储( n a s ) ,存储设备都是商 月的n a s 设备,或通过转换桥将s c s i 和f c 设备转换为i p 接口,接入基于i p 协议 的s a n 。用户所需得数据可不通过服务器直接从存储设备给出,提高了相应性能( 具 有n a s 的优点) ,也可以送到服务器处理后转发给客户机。由于其中又包含s a n 结 勾,在数据备份、数据迁移、灾难恢复方面就具有s a n 的优点。另外,由于采用的是 i p 协议,与l a n 和i n t e r n e t 的连接是无缝的,远程备份十分方便。这都显示了其 在高可用性方面的优势。 u s n 的统一基于以下三方面的含义:( 1 ) 统于t c p i p 的基础之上,充分利用 华中科技大学硕士学位论文 企业现有的局域网,构建基于t c p i p 的存储专用网络,使得存储专用网和企业现有 网络统一起来;( 2 ) 所有的存储资源,包括文件设备( 如n a s 等) 和数据块设备( r a i d , s c s i 设备等) 通过i p 网络连接起来,通过统一存储网管理软件进行高效的、统一管 理,从而实现文件级存储设备和数据块级存储设备统一于同一系统;( 3 ) 整个系统 通过u s n 管理软件对外提供文件访问和数据块访问两种服务,使得文件访问和数据 块访问统一于同一系统,从而服务于尽可能多的应用。 2 - 3 高可用性系统管理软件 高可用性系统管理软件是高可用性系统的核心。在有多节点的高可用系统中,高 可用管理软件可以提高系统的m t t f 。 硬件容错系统不能解决由于软件和人为错误等原因产生的失效。如前所述,这却 是系统停机的最常
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论