已阅读5页,还剩63页未读, 继续免费阅读
(通信与信息系统专业论文)基于pc平台的电信网管软件的高可用性的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
四川大学硕士学位论义基于p c 平台的电信刚管软件的高可用性的研究与实现 基于p c 平台的电信网管软件的高可用性 的研究与实现 通信与信息系统专业 研究生叶敏指导教师周安民 摘要 随着通信与计算机技术的迅速笈展,越来越多的企业依赖基于i n t e r n e t 和 i n t r a n e t 的远程服务。企业开始对系统的高可用性( h a ,h i g ha v a i l a b i l i t y ) 应用 提出了越来越高的要求。在提高系统可用性的方法中,双机热备是一个常见并且有 效的实现方法。目前,双机热备方案的实现大多都是基于大型机或小型机,操作系 统也是u n i x l i n u x 居多。对于一般用户来说,这种的成本太高,且易用性不够好。 基于这种现状,作者对高可用性的理论和常用实现模式进行了深入的研究,针 对电信网管软件( t m n ,t e l e c o m m u n i c a t i o n sm a n a g e m e n tn e t w o r k ) 的应用特点, 设计了基于p cw i n d o w s 的高可用系统方案。该方案使用纯软件式的双机热备方式, 不需要额外增加昂贵的共享式存储设各( 如,磁盘阵列) ,采用独立流量备份措施, 使用全备份和增量备份结合的方法进行备份。该方案可利用普通的p c 机,操作系统 为w i n d o w s ,无需昂贵的大型机或服务器,易用性好。经过实现验证,达到了高可 用性系统的设计目标。 本文通过对双机热备系统的高可用性的理论研究,详细分析了高可用性集群系 统的应用模式和实现模式的优劣,以及引起系统故障的原因和系统故障检测方法, 研究了数据备份的基本规则、备份系统结构、备份类型和常见的备份技术。 根据企业用户的委托需求,本文设计并实现了基于p c 平台的电信网管软件的高 可用性系统。所设计和实现的系统分为h as e r v i c e 和h am a n a g e r 两大模块,其中 h as e r v i c e 包括h e a r t b e a t 、m o n i t o r 、f a i l o v e r 和b a c k u p 四个子模块。论文作者 参与了项目的需求调研,作为项目开发的主要研究人员,设计了用户需求分析报告 四川大学硕士学位论文 基于p c 平台的电信网管软件的高可用性的研究与实现 和概要设计报告。在概要设计通过用户组织的专家组评审通过后,论文作者参与设 计了项目的详细设计,并负责了其中的h am a n a g e r 模块、h e a r t b e a t 子模块和 f a i o v e r 子模块的详细设计、代码编写与实现,还负责搭建了系统测试环境对系统 进行了测试。测试结果表明,系统达到了设计需求,能够实现p cw n d o w s 平台上的 网管系统的高可用性。 关键词:电信网管软件:高可用性;双机热备:心跳 阴川大学硕士学位论文基于p c 平台的电情网管软件的奇可用性的研究与实现 r e s e a r c ha n di m p l e m e n to nt m n h i g ha v a i l a b i l i t y b a s e do np cw 访d o w s m a j o r c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m p o s t g r a d u a t e :y em i l ls u p e r v i s o r :2 i - i o u a n m i n a l o n gw i t ht h er a t e dd e v e l o p m e n to fc o m m u n i c m i o n sa n dc o m p u t e rt e c h n o l o g y , m o r ga n dm o r ee n t e r p r i s e sr e l yo i lt h er e m o t e 螂v i c c sb a s e do l li n t e m e ta n di n w a n c t t h e s ee n t e r p r i s e sh a v eh a c r e a s 啦d e m a n d s0 1 1h i g h - a v a i l a b i l i t yo f s y s t e m i nt h em e t h o d s o fi m p r o v i n gs y s t e ma v a i l a b i l i t y , h o t - s t a n d b ys y s t e mi sau s u a la n de f f e c t i v es o l u t i o n n o wm o s th o t - s t a n d b ys y s t e m sr e a l i z a t i o nb a s eo nw o r k s t a t i o n , a n du s u a l l y 唧t h e u n i x l i n u xo s f o rg e n e r a lu s e r s t h i ss o l u t i o nc o s tal o ta n di sn o tf r i e n d l y t ot h eu s e r s t h ea u t h o ra i | a l y z e dt h eb a s i ct h e o r yo fh i g h - a v a i l a b i l i t y , a n dt h eu s u a li m p l e m e n t m o d e so f h i 曲- a v a i l a b i l i t y , a i m e da tt h ea p p l i c a t i o nc h a r a c t e r i s 6 co f t e l e c o m m u n i c a t i o n s m a n a g e m e n tn e t w o r k , p r o p o s e das o l u t i o no ft m nh i g ha v a i l a b i l i t yb a s e do np c w m d o w s , a c c o r d i n gt 0s u c hp r e s e n tc o n d i t i o n t h i ss y s t e mu s e sp u r e s o f t w a r eh o t - s t a n d b y s y s t e m , d on o tn e e df o ra d d i t i o n a le x p e n s i v es h a r e dd e v i c e s ( i e d i s ka r r a y ) , t t s e s t h e i n d e p e n d e n tf l o wb a c k u ps y s t e ma n dt h e 劬b a c k u pa n di n c r e m e n t a lb a c k u pt y p e ;u s e s n o r m a lp ca n dw i n d o w so s ,n o tn e e d sf o re x p e n s i v ew o r k s t a t i o n , w h i c hi sc o n v e n i e n tt o u s e t h r o u g hi m p l e m e n ta n dt e s t i n g , t h i ss y s t e m 锄a c h i e v et h ed e s i g ng o a l : h i g h - a v a i l a b i l i t y t h ea v a i l a b i l i t yo fd u a l - c o m p u t e rh o t - s t a n d b ys y s t e mi sa l s oa n a l y z e di nt h i sp a p e r t h ea d v a n t a g e sa n dd i s a d v a n t a g e so fa p p l i c a t i o nm o d e sa n di m p l e m e n tm o d e sa l e a n a l y z e di nd e t a i lt h e r e a s o nc a u s e ds y s t e mf a i l u r e sa n dh o wt od e t e c tt h e s ef a i l u r e s 雠 a l s od i s c u s s e di nt h i sp a p e r t h eb a s i cr u l e so f d a t ab a c k u p ,t h es m l c r a 七o f b a c k u ps y s t e m , b a c k u pt y p e sa n dc o m m o nt e c h n o l o g i e sa r ea n a t y z e dh e r e i i i 四川大学硕士学位论文 摹于p c 平台的电信啊管软件的高可用性的研究与实现 a c c o r d i n gt oe n t e r p r i s eu s c i j sr e q u e s t , t h i sp a p e rd e s i g n sa n di m p l e m e n t st h et m n h i g h - a v a i l a b i l i t ys y s t e mb a s e do np cw m d o w s t h es y s t e mc o n t a i n st w om a i n m o d u l e s :h as e r v i c ea n dh am a n a g e r h as e r v i c ei ss e p a r a t e di n t of o u rs u b m o d u l c s : h c a r t b c a z , m o n i t o r , f a i l o v e ra n db a c k u p t h ef l u t h o rt o o kp a r ti nt h er e q u e s ta n l y s e a sa m a i nm e m b e ro ft h ep r o j e c t t h ea u t h o rd e s i g n e dt h es p e c i f i c a t i o nd e s i g m a r e rt h eu s e r p a s s e ds p e c i f i c a t i o nd e s i g n , t h ea u t h o rt o o kp a r ti nt h ed e t a i ld e s i g no ft h ep r o j e c t , a n d t o o kc h a r g eo fd e t a i ld e s i g n , c o d i n ga n dt e s t i n gt h eh am a n a g em o d u l e , h e a r t b e a t s u b m o d u l ca n df a i l o v e rs u b m o d u l e t h ea u t h o ra l s ob u i l d e dt h et e s t i n ge n v i r o m n c n ta n d t e s t e dt h ew h o l es y s t e n l jt h et e s t i n gr e s u l ts h o w st h a tt h i ss y s t e ma c h i e v e st h eb a s i c r e q u i r e m e n t s ,a n dr e a l i z e st h eh i g h - a v a i l a b i l i t yo f t m ns o f a v a r eb a s e do np cw m d o w s k e y w o r d s :t e l e c o m m u n i c a t i o nm a n a g e rn e a v o r k , h i g l la v a i l a b i l i t y , h o t - s t a n d b y , h e a r t b e a t i v 四川大学硕士学位论丈基于p c 平台的电信网管软件的奇可用性的研究与实现 1 绪论 1 1 背景介绍 随着通信与计算机技术的迅速发展,越来越多的企业依赖基于i n t e r n e t 和 i n t r a n e t 的远程服务。当前许多企业的系统是关键业务系统,需要不问断为客户提 供服务,即使发生短暂的业务中断,也会导致难以估量的经济和名誉损失。另一方 面,计算机系统并不是完全地可靠,一些内部和外部的原因都会导致系统地破坏、 数据丢失,而使其不能再对外提供服务。因此,企业开始对系统的舸用性应用提 出了越来越高的要求。 对于关键业务,停机通常是灾难性的。因为停机带来的损失也是巨大的。表1 - - i “1 列举了部分行业组织的直接停机故障损失。除了引起直接经济损失,停机还会 引起间接损失,而这些损失对企业有着更加长期的影响,如顾客满意度降低,在公 众和新闻中造成不利影响,声誉降低等。因此,实现系统的高可用性是非常重要的。 表1 一l 停机故障的直接损失 行业 每小时的平均停机故障损失 咨询服务业6 4 8 万美元 能源业2 8 0 万美元 信用卡业2 5 8 万美元 电信业2 0 0 万美元 制造业1 6 0 万美元 金融业1 5 0 万美元 零售业1 1 0 万美元 高可用性是指在相当长的时间段内,系统连续不断地执行其功能的能力。所跨 越的这个时间段可能超出其分立组件的建议工作时间。获得高可用性最常使用的方 式是容错。高可用性并不是一个简单的可计量术语。必须在逐个案例的基础上,同 时清晰的理解要求具有高可用性的系统本身所具有的限制以及可用性所能达到的程 度嘲可用性表示了系统在一给定时间内能提供服务的可能性。有很多因素会造成 系统宕机,包括为了维护而有计划的宕机以及意外故障等,高可用性方案的目标就 是使宕机时间以及故障恢复时间最小化。业界根据可用性把计算机系统分为如下几 类,如表i - - 2 翻所示。表i - - 2 给出了各种系统可用性的能力,每一种方案可以容 忍的宕机时间也明确地说明了该方案的全面性、复杂性和成本。 四川大学硕士学位论文 多于p c 平台的电信网管软件的高可用件的研窭鼍实现 表1 2 计算机系统的可用性和宕机时间 系统可用性分类可用比例 年宕机时间可用性分类 ( p e r c e n ta v a i l a b i l i t y ) ( d o w n t i m e y e a r ) 9 9 5 3 7 天常规系统 ( c o n v e n t i o n a l ) 9 9 98 8 小时 可用系统( a v a i l a b l e ) 9 9 9 95 2 6 分钟高可用系统( h i 曲l y a v a i l a b l e ) 9 9 9 9 95 3 分钟 f a u l tr e s i l l e n t 9 9 9 9 9 9 3 2 秒 f a u l tt o l e r a n t 凡是网络存在的地方、有服务器应用的地方都需要网络管理,网管软件就是应 用在这些领域。从实际运用来看,网管软件主要应用于电信、银行、金融、石油石 化等各个行业,主要是对其网络中的网络设备、服务器、中间件、数据库、电子邮 件、w e b 系统、d n s 、电子商务等进行监测和管理管理。网管软件作为有效的网络运 维工具,当其部署于整个网络系统,作为网络运转的一个有效组成部分,并形成完 善的信息采集、输入、输出等体系时,就成为真正意义上的网管系统。网管系统可 以帮助运维人员提高工作效率,保障网络7 x 2 4 持续、稳定运行。 基于p cw i n d o w s 平台上的电信网络管理软件的高可用性方案就是为了保证p c 上的电信网络管理系统的高可用性。该方案采用双机热备份系统,使用纯软件的 m a s t e r - - s l a v e 模式。两个机器通过数据备份保持数据致,通过心跳信号线检测 对方工作状态。正常情况下从服务器( s l a v e ) 处于s t a n d b y 状态,两个机器通过 t c p i p 网络进行通信。一旦主服务器( m a s t e r ) 失效,从服务器能自动激活,接管 主服务器的工作。当主服务器恢复正常后,从服务器退回到s t a n d b y 状态。该高可 用性方案不会对p c 上的网管系统造成任何影响,实现对用户端的操作透明化。 1 2 国内外高可用性研究现状 目前,在高可用性的理论方面,研究者们提出了许多可用性分析方法和模型, 如动态故障树分析方法鲫、m a r k o v 模型分析法伍”、p e t r i 网模型分析法嘲等。这些 研究都试图从理论上分析一个系统的可用性,解释怎样的系统结构会带来系统的高 可用性。 在计算机系统体系结构的研究方面,计算机系统的可用性的研究同样也引起研 究者们的巨大兴趣。比如采用什么形式的软硬件体系结构来构建高可用性的计算机 系统;怎么快速有效从错误中恢复一个系统的正常运行等。考虑到计算机系统软硬 四川大学硕士学位论文摹于p c 平台的电信网管软件的商可用性的研究与实现 件自身的错误在减少,由于人为因素带来的系统失效的情况成为主要原因,而这单 靠系统结构方面的改善是无法解决的。因此研究者们把更大的注意力放在了提高系 统的恢复能力上,希望能够提高计算机系统处理自身错误的能力。 实现高可用性最常用的方法是为系统增加冗余组件。系统的硬件和软件都可以 做到充分冗余,但是成本会急剧增加。因此,高可用性的实现应控制在合理的成本 范围内。在实际工程中,没有适合于任何场合的最完美的解决方案,只有针对特定 问题的合适解决办法。对不同的情况,提供相应的最佳性价比解决方案。 目前随着客户对高可用性系统的强劲需求,各大i t 公司都推出了自己的商用高 可用性集群系统。在国外厂商方面,如i b m 公司在a i x 平台上的h a a 旧即,m i c r o s o f t 的惦c s n 岫, v e r i t a s 公司的v c s ,r o s e 公司推出的r o s eh a , l e g a t o 公司的n e t w o r k e r 和c o - s t a n d b y s e r v e r ,以及w e s t e r n m i c r o 公司的s a v w a r e h a “埘,n e c 提供的开放式 关键业务系统即是软件方式的双机热备系统。s t o n e s o f t 公司具备拥有先进安全、 动态负载均衡及高可用性等功能的防火墙及v p n 方案的s t o n e g a t e 、为第三方及多 种类型的服务器提供负载均衡及高可用性的功能的群集产品系列s t o n e b e a t 、以及 为应用及数据库服务器提供高可用的软件方案s e r v e r c l u s t e r t m 。s t o n e s o f t 所有方 案都是为实现安全及舸用性企业构想而设计。p l u s w e i i 公司提供两种产品:实现 双机热各容错的p l u s w e l lc l u s t e r 容错软件和基于纯软件镜像方式实现备份的 p l u s w e l lm i r r o r 软件。 在国内,国内的如中科院计算所的c n i c - h a ;曙光公司和s t o n e s o f t 公司合作 推出了高端互联网安全解决方案d a w n i n g g a t e ,成为了安全和高可用市场的新活力; 其他许多公司提供的双机热各解决方案大多都是使用国外厂商的成熟软件,如北京 瑞宁科技有限公司和北京蓝科泰达科技有限公司。 总的来说,双机热各已经应用到了各个行业,使用的设备大多为大型机和小型 机,操作系统也是以l i n u x 为主。因此,研究p cw i n d o w s 平台上的电信网管系统 高可用性还是有它独特的意义。目前,w i n d o w s 还是主流的操作系统,p cw i n d o w s 平台上高可用性方案的研究成功,可以极大的降低高可用性的成本,提高操作的易 用性。 1 3 论文结构 本文的研究目标是设计并实现基于p c 平台的电信网管软件的高可用性系统。论 文作者参与了项目的需求调研,作为项目开发的主要研究人员,设计了用户需求分 析报告和概要设计报告。在概要设计通过用户组织的专家组评审通过后,论文作者 参与设计了项目的详细设计,并负责了其中的h am a n a g e r 模块、h e a r t b e a t 子模块 和f a i l o v e r 子模块的详细设计、代码编写与实现,还负责搭建了系统测试环境对系 四川大学硕士学位论文基于p c 平台的电信网管软件的高可用性的研究与实现 统进行了测试。 在方案的设计上,使用普通的p c ,无需昂贵的大型机或服务器;操作系统为 w i n d o w s ,易用性较强;使用纯软件式的双机热备,通过网络传输传送需要共享的数 据,不需要额外增加昂贵的共享式存储设备( 如,磁盘阵列) 。使用这种设计方案, 可以极大的降低成本,为中小企业实现高可用性方案提供了一种参考。 本文共分为五章,主要内容如下: 第一章,绪论。主要介绍了高可用性的定义及实现系统高可用性的重要性;分 析了国内外高可用性系统的现状,说明了课题的研究意义和论文组织结构。 第二章,高可用性系统理论与技术研究。首先介绍了可用性的理论基础:分析 了高可用性的应用模式和实现模式;分析了引起系统故障的原因及检测故障的方法; 最后对双机热备的关键技术一数据备份,进行了相应的阐述。 第三章,基于p c 平台的电信网管软件嗣用系统的需求分析。介绍了电信管理 网的背景知识,及需求分析的内容。 第四章,基于p c 平台的电信网管软件舸用系统的设计与实现。设计并实现了 基于p c 平台的电信网管软件高可用系统,给出了系统的总体设计和整体结构,以及 模块间的接口。对每个模块进行了具体的说明,包括模块的设计和具体实现。并在 作者负责的模块里,给出了部分实现界面和代码。 第五章,系统测试与分析。说明了系统测试的原理,及本系统测试的结果,并 对结果进行了分析。 第六章,结束语。总结全文,并指出了系统需进一步改进之处。 4 四川大学硕士学位论文基于p c 平台的电信网管软件的高可用性的研究与实现 2 高可用性理论与技术研究 2 1 可用性理论基础 2 1 1 可用性定义 高可用性( h i g ha v a i l a b l e ) 系统,是指在某一台主机上特定的作业因主机设备 异常而无法继续运作时,可在最短的时间内在其它正常的主机上重新启动该项作业 咖。高可用性系统致力于提供高度可靠的服务。通常使用岍t f 、岍r 和湃b f 作为 系统的高可用性信能参数。 平均无失效时间m t t f ( m e a nt i m et of a i l u r e ) :指系统( 或系统的一个部件) 在发生失效前正常运行的平均时间。m r t f 是一个表示系统可靠性( r e l i a b i l i t y ) 的可测量参数,也就是表示系统能够连续提供服务的能力。 平均失效间隔时间h i b f ( m e a nt i m eb e t w e e nf a i l u r e s ) ,描述了系统在两次 故障之间的平均小时数,这也是一个经常用到的参数。 平均修复时间m t t r ( m e a nt i m et or e p a i r ) :指网络发生故障到恢复正常工作 状态之间所耗费的平均时间量。在大多数情况下,m r 包括发现网络产生故障的时 间,以及诊断问题的时间。此外,m t t r 还包括在适当的时候维修网络的时间,以及 修复网络使之投入正常工作状态的时间。在理想情况下,检测、诊断以及修复网络 故障的计时是以分钟为单位测量的叫。m t t r 是表示一个系统可维护性 ( s e r v i c e a b i l i t y ) 参数,也就是修复系统故障使系统恢复正常的能力 现在很多人混淆了m t t f 和册b f 这两个术语。从计算商可用性的角度来说,以 m t b f 代替枷广r f ,或者用l f i t f 代替m t b f ,在多数情况下几乎没有区别。也有人认为, m t b f 等于舯r 与m t t f 之和:耵b f 枷丌r + m t t f 嘛嘲。本文中,将使用m t b f 代替 f r r f 计算机系统的可用性( a v a i l a b i l i t y ) 是通过系统的可靠性( r e l i a b i l i t y ) 和可 维护性( m a i n t a i n a b i l i t y ) 来度量的。可用性被定义为: a = h f r b f ( 婀b f + m 订r ) 通过上面的公式可以看到当 f r t r 接近0 时,a 趋近百分之百,系统的可用性越 高;当册b f 较大时,m i t r 对a 的影响较小。 2 1 2 可用性的描述方法 描述系统可用性方法主要有两种方法:百分比方法和百万小时故障时间数方法。 可用性百分比的重要用途在于计算预测一年时间内的停机时间量。用年的总 分钟数乘以可用性百分比就可以判断停机时间。这给出了每年将用于操作维护的分 钟数,而权衡依据就是所预期的停机时间。每年有3 6 5 天,一共有5 2 5 ,6 0 0 分钟, 而每四年有一闰年,因此计算方式应该是每年加天的四分之一时间。也就是每年 5 四川大学硕士学位论文基于p c 平台的电信刚管软件的高可用性的研究与实现 为5 2 5 ,9 6 0 分钟。另外,还应该理解年度可用性。年度可用性就是设备每年的故障 时间量。当知道一个设备的, m t b f 后,就可以用婀b f 除年的小时数( 8 ,7 7 6 ) ,来 预测每年的平均故障时间。表2 - - 1 “”描述了与正常时间和故障时间相关的9 的数据。 通常也用五个9 来描述商可用性系统。 每年正常工作分钟数= 高可用性百分比x 5 2 5 ,9 6 0 每年停机分钟数= 5 2 5 ,9 6 0 一正常工作时间 表2 一l 正常工作时间和停机时间 9 的个数可用性百分比每年正常工作分钟每年停机分钟数年停机时间 数 l9 0 o o o 4 7 3 3 6 45 2 嘲3 6 5 目 29 9 0 0 0 5 2 0 7 0 0 4 5 2 5 9 6 3 5 日 3 9 9 9 0 0 5 2 5 4 3 4 o5 2 5 9 6 8 5 小时 49 9 9 9 0 5 2 5 9 0 7 4 5 2 5 9 6 1 小时 59 9 9 9 9 5 2 5 。9 5 4 75 2 5 9 65 分钟 69 9 9 9 9 9 5 2 5 9 5 9 50 5 2 5 9 6 3 2 秒 如表2 一l 所示,对可用性百分比中的每增加一个9 ,结果就可以获得相当大的 增加。在第二个9 后,每额外增加一个9 ,成本变为原来的两倍。也就是说,如果 从三个9 到四个9 ,组建网络的费用将为原来的两倍。但是,双倍的金钱将买来1 0 倍多的可用性。 例如,如果某特定系统的孵b f 值为1 0 0 ,0 0 0 小时,盯t r 为l 小时,它就具 有相当高的可用性1 0 0 ,0 0 0 1 0 0 ,0 0 1 ,即9 9 9 9 9 。如果我们把舯r 缩减为6 分钟, 可用性会增加为9 9 9 9 9 9 。但是要获得仅有6 分钟停机时间的可用性,需要一个 可以持续正常运行1 0 0 ,0 0 0 小时的组件,即两次故障间隔时间要超过1 1 年。这是 指整个系统在1 1 4 年内共有6 分钟的停机时间,而不是碰巧检查的某一个组件。考 虑到所有的实际需要,利用现有的技术是完全不可能实现的。每年少于1 0 分钟的停 机时间( 大概9 9 9 9 8 ) 是可能实现的,但是要达到更高的可用性就很困难了。 第二种描述可用性的方式是用百万小时故障时间数( d p m ) 方法。使用这种方法, 可以描述设备或网络在一百万小时运行时间内发生故障的时间数。该方法一般用于 大型网络。 使用d p m 方法,可以报告用百分比方法难以追踪到的、可用性方面的问题。因 为d p m 通常用于现成的网络,可以使用它测量出部分或整个网络的停机。也可以在 网络运行期间,组成网络的设备运行( 综合全部设备) 期间,甚至是在用户使用该 四川大学硕士学位论文 摹于p c 平台的电信网管软件的高可用性的研究与实现 网络期间测量出这一百万小时。 假设网络有1 0 0 0 个集线器、交换机和路由器组成,而性自龟上的任何退化刚氐都 作为网络停机,同时假设计算是以每年8 7 6 6 小时( 考虑到闰年) 为基础,并按月傲 故障记录,并假设每月有两个故障。d p m 的计算如下: 每年小时数= 8 7 6 6 设备数目= 1 0 0 0 每年累积小时数= 每年小时数 设备数目= 8 7 6 6 1 0 0 0 = 8 ,7 6 6 ,0 0 0 每月累积小时数= 每年累积小时数1 2 - 8 ,7 6 6 ,0 0 0 1 2 = 7 3 0 。5 0 0 单个故障情况下的故障小时数百万小时= l ,0 0 0 ,o o o 每月累积小时数 = l ,0 0 0 ,0 0 0 7 3 0 5 0 0 = 1 3 6 8 9 d p 肛月故障数 单个故障情况下的故障小时数百万小时= 2 $ 1 3 6 8 9 = 2 7 4 另外一种使用d p m 方法记录故障的方法是基于网络使用的百万小时。假设网络 是大型的,并且在不断增长。同时假设将用户使用网络的每一小时时间进行登记, 并且有几千用户,在一个月的时间内,积累了1 ,2 0 0 ,0 0 0 小时运行时间。在该网 络中,如果有两个故障,则d p m 结果将是1 6 7 。计算如下: 总计网络小时数= 1 ,2 0 0 ,0 0 0 1 百万实际时间= l ,0 0 0 ,0 0 0 1 ,2 0 0 ,0 0 0 = 0 8 3 3 3 3 d p m = o 8 3 3 3 3 2 = i 6 7 d p m 方法主要用于测量己建成的网络的性能,而百分比方法主要用于预测尚在 设计中的网络的性能。两种方法之间可以进行转换。本文中均使用百分比方法。 2 1 3 双机热备系统的高可用性理论分析 对高可用系统的理论分析,可以使用故障树分析方法、可靠图法和m a r k o v 模型 等分析法m 一。而在高可用性系统方案中,双机热备系统是一种常用的实现方式。 在不考虑网络的可用性的情况下,采用排队论来分析一下双机热备系统的可用性。 系统中节点的个数为n ,假设如下: 系统的每个节点存在两个状态,即活动状态和故障状态; 同时出现两个或两个节点故障或修理的概率是零; 对每个节点在时刻( t ,t + t ) 发生故障的条件概率是五t ,对每个节点在 时刻( t ,t + t ) 完成修理的条件概率是t ,故障和修理的到达时间也服从指 数分布,且修理如新; 节点间的故障接管时间不考虑。 在以上假设的基础上,双机热备系统的可用度可形式化为一个岫1 m m 队列, 其状态转换图如图2 - 1 所示,图中系统的平均无故障时间为l 五,平均修复时间为 “。 四川大学硕士学位论文 摹于p c 平盒的电信网管软件的高可用雌的研究与实现 ( h 一1 卫 图2 一l 双机热备系统状态转换图 设p = ,计算可得: 代入得: 跗,= 医矧一v 因此,整个系统的可用度“”: 纠叫加_ 砉禹 一+ 2 2 高可用性集群 2 2 1 高可用性集群的应用模式分析 在高可用性集群系统结构中,可以划分为两大类:双节点结构和更大规模的结 构。双节点结构即通常所说的双机备份系统。在应用双机备份时,有多种应用模式, 典型的包括主从,互备、多点集群三大类。 主从模式( a c t i v e s t a n d b y ) 是最标准、最简单的双机热备,即是目前通常所 说的双机热各系统( h o t - - s t a n d b y ) 。它是最基本的集群系统结构,任何一种集群系 统都是由它衍生而来的。它使用两台服务器,一台作为主服务器( a c t i v e ) ,运行应 用系统来提供服务。另一台作为备机,安装完全一样的应用系统,但处于待机状态 ( s t a n d b y ) 。当a c t i v e 服务器出现故障的时候,通过软件诊测( 一般是通过0 跳诊 断) 将s t a n d b y 机器激活,保证应用在短时间内完全恢复正常使用。 互备模式( a c t i v e a c t i v e ) ,也称为d u a l - - a c t i v e 模式。互备模式与主从模式 的最主要区别在于,两台服务器都同时运行服务程序。两个相对独立的应用在两台 8 印 矿 寺 褊 四川大学硕士学位论文摹于p c 平台的电等网管软件的高可田性的研究与实现 机器同时运行,但彼此均互为备机,当某一台服务器出现故障时,另一台服务器可 以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性。这种方式 实际上是双机热各的一种应用。它避免了两个应用使用四台服务器分别实现双机热 各。 多点集群可以理解为双机互备的扩展。多机服务器可以组成一个集群。根据应 用的实际情况,可以灵活地在这些服务器上进行部署,同时可以灵活地设置接管策 略。比如,可以由一台服务器作为其他所有服务器的备机,也可以设置多重的接管 关系,等等。这样,就可以充分地利用服务器的资源,同时保证系统的高可用性。 如图2 2 所示。例如当服务器b 和c 上有备份的应用程序时,服务器a 可用,从服 务器b 和c 备份应用程序。当任意服务器发生失效时,被保护的应用程序可以从失 效服务器上转移到备份服务器上 圜 服伫r 篡 j 画画 共享磁盘阵列 麸享磁盘阵列 图2 - - 2 多点集群 主从模式和互备模式相比,主从模式的成本更大。因为建立主从模式需要购置 两台主机来交替执行应该有一台机器完成的工作。其中一台集群虽然大部分时间闲 置,但是同样需要耗电、管理员维护、占有数据中心空间、空调降温以及耗费其他 有限和宝贵的资源。但是,随着时间的推移,主从模式会变得最具可用性。因为从 服务器没有运行不必要的程序,所以几乎不会出现导致系统故障的错误。互备模式 更能节省硬件费用,为一般机构所接受。但它也存在自身的缺点,当有需要时,由 于自身的服务程序出了问题,其中一台服务器可能无法按要求接替对方的工作。另 外双机互备存在着性能瓶颈,即如果进行切换后,在一台服务器上就有同时运行两 个应用,有可能负载过大。并且,有些情况下会有不止两台服务器对外提供服务。 在这种情况上,多点集群就显示出了其必要性。 在软件产品方面,有两大类软件产品。一类是双机软件( 姒) ,另一类则称作集 群软件( c l u s t e r ) 双机软件只能支持两台服务器以主从方式或互备方式工作。而集 群软件除了支持双机工作外,还可以支持多台服务器( m u l t in o d e ) 工作,同时部署 9 四川大学硕士学位论文摹于p c 平台的电信两管软件的高可用性的研究与实现 多个应用,并在多个服务器阃灵活地设置接管策略。在两种情况下需要使用集群软 件:一是有超过两个应用,本身就需要部署三台或更多的服务器。二是只有两个应 用,但每个应用的负载均较大,不宜采用双机互备的方式,而是需要由第三台服务 器来作为这两个应用的备机。般地讲,集群软件具有更多的技术含量,具备更高 的可靠性。同时,往往价格( 平均到每台服务器) 也高于双机软件。 在选择产品时,应根据应用的实际情况来确定。最理想的方式,则是在应用数 量少、负载不是很大时先使用双机软件,然后在应用数量增多、负载增大时平滑过 渡到集群软件。典型的双机热备产品,如l a n d e r c l u s t e r 集群软件。在该系统中, 每台主机运行各自的应用系统,用户数据存放在共享存储子系统上。l a n d e r c l u s t e r 的守护进程通过e t h e r n e t 监测整个集群的运行状态。由p c 服务器、共享磁盘阵 列子系统和l a n d e r c l u s t e r 集群软件包组成一个有效的高可用集群系统。 2 2 2 高可用性集群的实现模式分析 双机备份有两种实现模式,一种是基于共享的存储设备的方式,另一种是没有 共享的存储设备的方式,一般称为纯软件方式或镜像方式( m i r r o r ) 。 基于存储共享的双机备份是双机备份的最标准方案,如图2 3 所示对于这种 方式,采用两台服务器,使用共享的存储设备( 磁盘阵列柜或存储区域网s a n ) 。两 台服务器可以采用互各、主从、并行等不同的方式。在工作过程中,两台服务器将 以一个虚拟的i p 地址对外提供服务,依工作方式的不同,将服务请求发送给其中一 台服务器承担。同时,服务器通过心跳线( 目前往往采用建立私有网络的方式) 侦测 另一台服务器的工作状况。当一台服务器出现故障时,另一台服务器根据心跳侦测 的情况做出判断,并进行切换,接管服务。数据库放在共享的存储设备上。当一台 服务器提供服务时,直接在存储设备上进行读写。而当系统切换后,另台服务器 也同样读取该存储设备上的数据。对于用户而言,这过程是全自动的,在很短时 间内完成,从而对业务不会造成影响。由于使用共享的存储设备,因此两台服务器 使用的实际上是一样的数据,由双机或集群软件对其进行管理。 晕,里l 早 陶阔 l 霹r 辫叫到 嵯务器m濒-嚣 l 蝴雪一 共享磁盘阵列 图2 - - 3基于存储共享的双机备份 1 0 四川大学硕士学位论文摹于p c 平台的电信网管软件聍高可用峰冀研究与实现 在共享存储式结构中,由于引入了共享存储设备,必须使用分布式锁管理,这 使得扩展性受到限制,同时也增加了系统的单一失效点。 对于纯软件的方式,每个节点都有它自己的内存和自己私有的本地存储资源。 系统可以允许节点访问共有设备和资源,只要这些资源是被某一个单独的系统在某 一个时间所拥有和进行管理的即可,这样就避免了缓存一致性系统和分布式锁定管 理( d l m ) 的复杂性。通过支持镜像的双机软件,将数据可以实时复制到另一台服务 器上,这样同样的数据就在两台服务器上各存在一份,如果一台服务器出现故障, 可以及时切换到另一台服务器。 图2 - - 4 为一种形式的非共享存储式的集群结构。在该结构的集群系统中,为了 保证系统中的数据的苫和稠,要通过两个节点之间的数据线实时的备份节点内的数 据和系统的运行状态。 早呈早 服备嚣服务器 图2 - - 4 非共享存储式的双机各份 纯软件方式还有另外一种情况,即服务器只是提供应用服务,而并不保存数据 ( 比如只进行某些计算,做为应用服务器使用) 。这种情况下同样也不需要使用共享 的存储设备,而可以直接使用双机或集群软件即可。但这种情况其实与镜像无关, 只不过是标准的双机热备的一种小的变化。 纯软件方式有四大优点: ( 1 ) 避免了磁盘阵列的单点故障:对于双机热备,本身即是防范由于单个设备 的故障导致服务中断,但磁盘阵列恰恰又形成了一个新的单点。( 比如,服务器的可 靠系数是9 9 9 ,磁盘阵列的可靠系数是9 9 9 5 ,则纯软双机的可靠系数是 卜9 9 9 x 9 9 9 = 9 9 9 9 ,而基于磁盘阵列的双机热备系统的可靠系数则会是略低于 9 9 9 5 ) 。 ( 2 ) 更好的平衡负载:因为数据是被完全备份的,所以客户的应用程序可以在 任一服务器上运行,从而可以更好的平衡负载。 ( 3 ) 节约投资:由于不需要另外添置存储设备( 磁盘阵列价钱昂贵) ,因此采 用这种结构可以减少硬件投资成本。 ( 4 ) 不受距离的限制:由于节点在空间上可以是分散的,两台服务器不需受 s c s i 电缆的长度限制( 光纤通道的磁盘阵列也不受距离限制,但投资会大得多) 。 四川大学硕士学位论文基于p c 平台的电信码管钦件的高可用性的研究与实现 节点间可通过广域网互连,物理匕可以距离很远,使得这种拓扑结构常被用在灾难 恢复的设计中,提供对自然灾害如地震、洪水等的保护,保障了数据的安全和连续 运行。 尽管这种拓扑结构的确可以带来商可用性,但由于数据要不断的被拷贝到备份 节点的磁盘上,以保证故障发生时备份节点可以使用当前的数据,因此它增加了主 节点及网络的负荷,可能会严重影响系统性能。另一个缺点是当一个服务器发生故 障时,可能会有主、从服务器的不一致现象,某个磁盘上的事务处理可能并没有完 全在另一个磁盘上得到继续。因为即便是以最快网络相连,两个服务器问信息传送 仍会有一定的延迟。 纯软件方式以前应用得较少,一方面是由于当时市场上比较流行的双机软件不 支持纯软件方式,另一方面是由于少数支持纯软件方式的产品其可靠性不太令人放 心。但随着n e c 这样的大牌厂商的产品进入市场,纯软件方式将逐渐成为一种方向 从方案选择的角度,建议在进行双机备份时,如果投资充裕、数据量大( i t 以上) , 可以采用共享的存储设备( 如磁盘阵列) 的方式,但应尽量选择高可靠性( 如著名 品牌的) 设备,并且考虑选择双控制器的方案。否则,更好
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年幼儿园给动物分类
- 2026年幼儿园演出节目
- 2025年中国双人修剪机市场调查研究报告
- 2025年中国千兆网卡市场调查研究报告
- 2025年中国冷干面包虫市场调查研究报告
- 2025年中国充绒机市场调查研究报告
- 2025年中国五香香精市场调查研究报告
- 2025年中国不锈钢多功能刻字钳市场调查研究报告
- 2025年中国CG200-A双冷发动机市场调查研究报告
- 国际贸易理论与政策-第6章-生产要素的国际流动
- 勘察处管理制度
- 初升高语文专项知识点巩固练习题库
- 《智慧水电厂建设技术规范》
- 企业行政人员安全培训课件
- 服用叶酸知识培训课件
- 2025年《临床输血技术规范》
- 2025届上海市徐汇区、金山区、松江区高一物理第二学期期末统考模拟试题含解析
- 上海选调生面试题和考官用题本及答案21套
- 项目部处罚管理制度
- 三方代收代付协议模板
- 新版中国食物成分表
评论
0/150
提交评论