Stratus容错解决方案优势

上传人：伐*** IP属地：宁夏上传时间：2021-11-22 格式：DOCX 页数：9 大小：67.58KB 积分：10.8 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、stratus容错解决方案优势stratus是业界唯一一家全力致力于研发，推广硬件级容错机技术的厂商，并始终成为提供连续可用性计算机系统的领先者。伴随计算机系统的普及，特別是越來越多的企业采用microsoft windows作为其应用系统环境，金业的关键性应用对系统环境的可靠性和可用性耍求欲以剧增。stratus适时在今年六月推出了业界第一台棊于 intel技术和microsoft windows的硬件级容错服务器系列产品一ftserver。stratus生产的容错服务器秉承stratus传统的容错硬件体系结构，为联机书务处理(oltp)领域的关键性应用捉供了新的连续可用性平台选择。其

2、特点是：3.1零停顿时间stratus容错计算机系统提供业界授高可靠性、和可用性。服务器系统采用双模(dmr)和三模(tmr)硬件体系结构。双模系统可川性达到99.999%,平均毎年非计划(懑外)停机时间不超过5分钟。而三模系统可用性可超过99.999%的可用性。与其它解决方案低于99.99%,平均侮年非计划(意外)停机时间超过 45小时的可用性相比，用客户获得极大的稳定性。3.2无故障恢复时间系统所有关键部件均为兀余配置。兀余部件时钟同步运行相同指令。保证即使在硬件出现故障时，其兀余部件仍然保持继续运行，从而保证当前交易的处理，应用不会因此而停顿和数据丢失。其它方案下，应川需要等待计

3、算机系统的故障恢复，数据库的恢复，网络联接的恢复以及应用的恢复。3.3无内存数据丢失stratus独特的兀余硕件结构不但保证磁盘静态数据的完幣性，而且保证内存数据的完幣性。从而保证交易的完整一致性。而其它解决方案使无法做到的。在故障恢复期间，当前交易和内存数据将耍丢失。11.12 3.4标准windows兼容性stratus ftserver支持标准的windows 2000 advanced server操作系统环境。保持应用-进制兼容。标准windows 2000卜运行的软件无需任何需该即可运行在ftserver容错平台上。11.13 3.5 windows可靠性增值stratus ft

4、server利用其独特的兀余结构和容错技术,改进和完善了 windows 2000的可靠性和稳定性。1 强化驱动为加强可靠性而设计的stratus强化驱动不但可以实时检测和隔离故障部件，而且可以检测和隔离不良驱动的内存越界写操作，防止造成系统严重后果。2在线转存在windows 2000发牛崩溃后，ftserver立即可从一个cpu重启动，使关键应用立即投入生产。与此同时，另一个冗余cpu保持内存状态数据，并在线将故障状态转存至磁盘，以供调试和诊断。3 快速重启动stratus ftmemory捉供预先定义内存段，使得当系统刖溃后的重启动期间，此定义的内存段数据保持不被刷新，从而重要数据

5、、上下文生成数据、以及较人的驱动程序维持在定义的内存段，减少重启动时间，并保护了重要数据。11.14 3.6应用透明性stratus故障处理在硕件部件级完成。任何故障均能被自动隔离，而不会导致系统进一步严重问题。stratus容错系统对应用使透明的，即：a在单机上开发的应用无需修改，叩可获得stratus容错技术的特征。不彖其它方案那样需要额外编制面向故障的脚本程序；b应川的测试仅限于正常的软件测试。而无需进行繁琐的、重复的脚本程序测试来验证脚本程序能够正确地进行恢复工作；c功能系统的维护如同单机一样。没冇额外备份或集群技术的维护需要。11.15 3.7生命周期总成本和风险stratus的

6、故障处理和维护使可预测的，为企业的成木预算庚定基础，从而stratus解决方案总成本是最低的。相反，其它利用脚本程序解决故障的方案因为一些不可预测的故障没有相应的脚本程序处理而使应用瘫痪，企业将面临不可侦测的成木和风险。11.16 3.8先进的远程维修服务stratus系统可故障检测到板件级。并且当部件出现故障，系统会自动通知stratus客户服务中心，减少客户维护员的涉足，缩短问题解决的延迟，减少企业风险。换句话说，stratus客户服务中心承担了客户系统维护员的部分职责，从而使得stratus特别适合远程的、要求更为苛刻的、无人职守的的应用环境。stratus提供基于互联网技术的e

7、cac客户界血。据此客户可以直接査询stratus客户服务中心接受的故障报告，以及客户服务屮心工程师解决问题的历史资料。从stratus硬件容错服务器的特点可以看出，容错服务器所组成的网络系统将是结构简单，连续可用性的。由此为川户带来众多的利益，如系统开发建设简单，系统维护管理成本低，系统扩充简单方便等好处。4. stratus与cluster的竞争比较stratus ftserver是为那些基于wintel架构的关键性业务应用的客户设计的。stratus二十多年的关键性业务应用的经验告诉我们“可用性"对那些要求苛刻的客户意味着什麽。对于那些客户，stratus解决方案的优

8、势不仅仅就体现在可用性更高的概念上，亦包含了众多衍生而來的利益上。stratus ftserver硬件容错服务器的优势主耍表现在：1 业界最高的99.999+%可用性2 无故障恢复时间3 数据，特别是in-flight数据的完整性4 应用和系统维护的简易性5 容错处理透明性6 最低总成本total cost of ownership7 先进的可维护性11.17 4.1硬件体系结构stratus ftserver与cluster集群系统尽管在功能上有些和似，然而，这是两种截然不同的产品。首先从结构上将，stratus ftserver的硬件体系结构是为消除停机时间，特别是消除非计划停机时间而设

9、计的。而 cluster集群系统仅仅是多台破件系统、共亨资源、及系统软件组合协同工作，其目的是减少停机时间，加快系统恢复时间。而且这个快速恢复时间不是恒定的，依业务的规模而变化。stratus ftserver硕件结构是所冇影响系统停机的关键部件均为双份兀余的，兀余部件时钟同步运行。也就是说，在同一时钟内，冗余部件执行相同的运算。当某个部件出现故障时，其冗余部件保持继续运行，保证交易的完整性。它是一种“并一串"结构。系统容忍多个部件的故障，即无单点故障。而cluster集群系统是一种“串一并"结构，仅允许出现一个故障。参见下面示意图：11.18 4.2系统选购实现c

10、luster集群系统是一个费时，费力的过程。无论是设备的选购，还是环境的安装调试，cluster集群系统是由儿台可共享资源、可互操作的单系统构成，属系统级容错，它的设计目标是尽量缩短因故障造成的停机时间。要将普通的单机系统构造成多机集群的cluster集群系统，用户要先确定cluster集群系统的可用性指标，按该指标计算机出一年的累计停机时间及山停机造成的损失，确认该损失额是否在用户可以忍受的范围z内：然后要考虑应用系统故障切换恢复时冇可能造成的计算机系统性能下降问题，最后要对冇关人员进行cluster集群管理、编程等方面的培训。stratus的容错计算机系统只需单机配置，一套硬件，

11、一套系统软件，一套应用软件，没有切换软件，用户的开发管理都非常方便，并且容错对用户透明，从而使系统的建设费用大大降低。stratus ftserver与 cluster集群系统相比，都具冇省时，省力的优势。ftserver对客户及应用來说是一个单机界面。这就是说，一旦客户购置了此产品，她立即获得一个完全容错的环境。11.19 4.3系统安装cluster集群系统不是一个完整系统。它是两台通用服务器，阵列磁盘存储子系统，cluster &相应集群软件经过集成调试才能获得。因而，客户首先需要确定自己的可用性目标，制定町承受停机风险的能力。据此选择相应的组件。cluster集群系统安

12、装z前，需要制定安装和配置计划和工程实施计划。过多的纽件链接不但繁琐，而且因为链接点的增多造成网络的不稳定性增大。而stratus容错计算机的安装是对一台单机的安装，没有特别的容错软件，安装后也无需对容错进行调试，系统就自动具备了容错功能11.20 4.4系统配置cluster集群系统的安装需由专业的cluster集群系统专家进行，除安装两套软件系统外，还需安装cluster 集群切换软件及cluster集群管理工具。安装斤需进行cluster集群系统的调试工作，测试系统软件和第三方软件是否具备cluster集群功能，是否能在双机间进行切换。因此cluster集群系统的安装调试需花费

13、较长的时间才能完成。而stratus容错计算机的配置是对一台单机系统进行配置，没冇特别的容错环境配置，无需对容错进行调试，系统就自动具备了容错功能11.21 4.5应用投产stratus与cluster集耕系统相比的显著优势之一就是计划的实施。采纳cluster集群厂家的“计划”作为指导。很多额外的步骤在ca方案中不需要执行。额外的步骤意味若额外的拖延。你的客户安装计算机是为了创造“利益或保护“利益"，cluster集群方案均拖延它们。这种利益的损失是无法弥补的。应用软件除了正常的标准软件测试外，在cluster集群系统环境下，需耍根据应用的要求，针对一致的故障类型编制相应的

14、脚本程序，以在故障出现时能够作适当的环境切换。脚本程序必须反复进行测试，以证明其执行的止确性。悲哀的是，只有在应用止常运行时，特别是在业务高峰期，一些致命的故障的出现。冇时这些故障是无法预测的，相应的故障恢复脚本策略是无法预先设计的。应用系统即使要经过繁琐的测试，仍要面临着严重的风险。这就是说，建立一个cluster集群系统，实现所冇的故障恢复脚本，以及应用的故障恢复是可能的，但当出现另一个悄况时将会怎样?在这种情况下，cluster集群系统可能还会运作,可是紧接着的故障恢复可能就不会工作了！在夜间，或者当单点故障的cluster管理员休假，她（他）已经“离开"，甚至在更坏

15、的情况的时间内，这种故障恢复失效都可能出现。而且，故障恢复脚木的测试并不是只指调试（在安装阶段）, 而且是长期的测试，以保证cluster依然在正常工作！在ca方案中并不需婆这些。因为stratus方案对故障是基于硕件的、一步到位的处理，这些对应用系统是透明的。无需编写这些额外的脚本程序，可以更快的实现故障的隔离和处理，为您的客户产牛更多的效益或保护其投资成本。某些产生这种故障恢复火效悄况的例子：1 所冇用户采pj telnet访问node a。另外一些应用b的用户増加在node b上。当node a呦溃，应用a在node b上重启动时,因为在node b上存在着用户,没冇足够的tel

16、net socket供应用a的用户去登录 -结果是，一些用户不能访问在node b ±的应用。.2 一个应用使用了各种系统资源：memory, swap space, cpu cycleso因为新的应用由不同的应用开发组加入到以存在的cluster上，当应用的故障恢复将应用转移到另一个node上时，在那个node上没有足够的资源去运行所有的应用，性能将降低，或者应用瘫痪。3 人多数cluster顾问和喜爱者也得承认"cluster"周期性的进行测试。然而，他们没冇指出在“off-peak”时间的测试时没有意义的！你怎样知道在峰值期的用户负载没有在线实现时，所有

17、用户都可以登录。你不能在“off-peak"时间得到有效测试! “假如在峰值时间,测试引起停机!"11.22 4.6故障处理与恢复在cluster承诺中，没冇涉及数据的一致性、完整性。没冇任何硕件來査询瞬间的或中间的问题。cluster 是标准计算机网络环境，只冇可以“package"的应用能够重启动。人部分功能，如通信屮间件，以及其它“封装”的软件采川内存数据库，不能受cluster保扩-而在stratus ±-所有软件得到保护！当volume groups或logical volumes进行结构上的修改时,cluster必须暂停。raid可使你随

18、时增加磁盘，但应用却不能利用这附加空间的便利条件，除菲这个“package"重新启动！当package作结构上的修改时，此package必须暂停。这包括新的程序、新的逻辑卷,或ip资源。当某个package失败，在node上退离,此package将自动失效于返回该node,除非由cluster管理员手工采用sysadmin命令去改变（logic:你不希望应用返回到正在维护服务的node）。如果在修复系统之后，没冇人去匝置"allow"设置，那将会怎样？没冇任何package可以恢复到该node ±0在典型的维护服务强制下，这种情况冇时会发生的。最

19、终此package在此失败，而无法恢复到任何node ±0在故障恢复出现后，与性能相关的乂是怎样？在node崩溃后，cluster就不再冇那麽多的cpu核资源了。必须配置足够多的node以预酣这些额外处理的资源。在应用实施cluster脚木程序后，它是否可以无变动的移植到另一种硕件平台上？（c语言代码可以移植，而脚木程序就不可能了）。怎样理解对“开放系统"应用的需求？理解应用系统采用“驻留内存数据库"的含义。oracle, informix以及sybase都不是驻留内存数据库，而是基于此磁盘技术來组织公司信息。这些软件工具包含了许多内存驻留的指针和索引，这

20、些指针和索引在硬件加溃的情况下将会丢失或者遭到破坏。然而，这些软件一般都具有重建和交易重运行的功能,这样在硬件崩溃以后，可以重新构造数据库。这些工具需要时间来执行恢复处理（应用是停顿的），而且不承诺保证数据的完整性和一致性。"驻留内存数据库"实际上是存储在内存中的、而不是磁盘中的“重要"数据。对于采用此技术的应用來说,这是内存驻留"形态"的农，它记录了当前在系统上处理的每一笔in-flight交易的状态。对银行应用來说，每一笔e在处理的金融交易都有一个"纪录"。对电信应用來说，由服务器系统处理的每个过程中的每一次

21、呼叫多有一个“纪录。华尔街应用同样也透内存驻留数据。openview nnm维护着大量的在网络上每个设备地状态表。正是这些cluster切换不能恢复的内存驻留数据使cluster不能保护正在流动的交易。11.23 4.7应用系统故障恢复周期如果故障恢复脚本程序不正常工作怎麽办？现在应用运行停止了，而在远程进行问题的确定及应用重卅动将是一个很严肃的问题。即使脚本程序正常工作，故障恢复及故障还原将会维持多长时间？如果由于系统崩溃而出现故障恢复，那末，数据的恢复将会持续儿分钟，儿小时，甚至儿天。上图示意了一个典型的故障期间，在stratus与cluster集群系统上应用系统不同的表现。-般來说

22、，应用系统总的恢复等待时间由四大因素构成，即：total recovery time = basic system recovery time+ database recovery time+ network recovery time+ application recovery timebasic system recovery time是可以从cluster系统供应商得到承诺的。然而，其余的三项是由应用的规模, 资源使用的技巧决定的，是不定因素。无法得到肯定的承诺。而且在故障恢复期间，系统性能明显降低。因而，客户所承扌h的应用停顿所带來的风险是不可预测的。在stratus容错服务器环境下

23、，应用是不会存在产生等待恢复的停顿发生。11.24 4.8 windows 2000可靠性增值功能ftserver利用其独特的硕件体系结构，提供了若干料值功能，进一步完善了 windows 2000 nj'靠性和町用性。1on line dump在windows 2000发生崩溃后，ftserver立即可从一个cpu重启动，使关键应用立即投入生产。与此同时，另一个冗余cpu保持内存状态数据，并在线将故障状态转存至磁盘，以供调试和诊断。这个功能即町使应用即刻投入运行，又可提供诊断问题的资料。这种功能在亦通用服务器体系结构为基础的cluster集群系统上是做不到的。2 快速重启动s

24、tratus ftmemory捉供预先定义内存段，使得当系统朋溃后的重启动期间，此定义的内存段数据保持不被刷新，从而重要数据、上下文生成数据、以及较大的驱动程序维持在定义的内存段，减少重启动时间，并保护了重要数据。保护巫耍数据，特别是对那些以來上卜文生成的数据，以及保留大驱动程序在内存中驻即即可绘小化停机时间，加快重启动时间；乂可以保护交易的完密性。在cluster集群系统环境中使无法保护现场数据，从而保护交易的完整一致性。3 管理通信板ftserver配置运行环境独立于windows 2000的兀余管理通信板。即使在ftserver处于停机状态，仍然可以透过管理通信板做到远程的系统启

25、动及维护。11.25 4.9系统维护cluster集群系统是一个复杂的环境，对系统管理员提出了额外的更高的技术水准要求。cluster技术人员是昂贵的。cluster技术的使用要求维护员对网络、系统、应用、故障及解决要有淸晰、准确的了解。潜在客户或者要为昂贵的顾问咨询付出代价，或者雋要培训内部技术人员。而且，对维护员的依赖给企业带來潜在的风险。例如医院或公共安全部门是没有足够的支付能力将他们留住。由于cluster技术的使川，企业被迫依赖足够的，稳定的、长期的技术支持。而在stratus容错技术环境下，维护员仅需要标准单机环境的维护技术水准就可胜任。4.10 service如果你的潜在

26、客户貝有多个场点的系统，这将意味着只有stratus可以为所有场点提供完全一致的、高质量的服务和支持。1 stratus自公司成立起，就把客户服务列为公司文化宗旨之。stratus的先进服务机制己嵌入到其硕件体系结构z中。stratus service network ssn,这种服务器在检测到故障，h动通知stratus客户服务中心的主动性、自动性服务机制一直为其它硬件供应商追求的水准。2 借助stratus提供的基于互联网技术的ecac页面界面，客户可以透明的访问驻昭在stratus客户服务小心的客户服务数据库资料。客户可以淸楚的了解自ftserver安装以來系统历史纪录，stra

27、tus客户服务中心工程师诊断、处理、解决故障请求，以及当前系统服务状态的服务全过程。其他的厂商是否在服务与支持上具备关键性应川的主导思想？是否能提供stratus所能提供的服务标准?11.274.11 total cost of 0nwership 总成本核算企业的发展在于追求持续的利润授人化。而建立的生命周期总成本核算上的系统评估将是采纳服务器系统平台的基础。系统在开发建设规划时能定量的指定出成本，同时，系统投入运行后，可以预测以后的维护成本，并将此成本控制到最小。在项目系统的冇效生命周期总成本冇以下儿点组成：投资成本:硕件投资成木；单机硬件容错，不消耗cpu效能，投资均用于应用系统;

28、软件投资成木:数据库仅需单机版木，不需要并行版木，节省版木及维护开支；操作系统仅需单机安装，不需耍双机均耍安装。开发成本:系统开发成本一单机系统的开发技术成本，人工成本，设备成本及开发环境成本均较cluster结构的应用系统的开发成本大大降低。系统测试成本一系统功能测试，模拟故障测试，故障恢复测试均只需在单机系统结构下进行，较cluster 系统的测试无论从时间上，系统测试条件的准备上还是测试的难度均大大减低，从而大大减低其测试成木。在cluster集群系统上，除了正常的软件测试z外，述需反复测试针对移植故障所编写的脚本程序，验证脚本程序可以诊缺的执行故障切换和恢复。由于脚木程序的设计依

29、赖于对故障的认知，以及整个系统坏境的配置定义，所以在配置有所便动时，还耍重新编写脚本程序或重新测试脚本程序的诊缺性。运行成木：运行速度成本一硬件容错的同步内存保护方式可以保证应用系统使用共享内存编程方式人人提高系统运行速度。减少为达到同样的响应速度需要选择更高档次的服务器及大硕盘资源的成本。系统升级成木一硕件升级，系统软件升级，应用系统升级均只需考虑单机设备，单版本的升级成本。系统停机成本一这也是stratus ftserver te人的、乂无法量化的优势之/一。应用系统的停顿意味着效益的降低、收入的减少、善后工作的损耗、成木与投入，对cluster集群来讲，这是无法避免的问题。clus

30、ter 集群系统故障处理依赖于面向己知故障的脚木程序，当出现未知的或意料之外的故障时，仍存在系统无法恢复的风险。维护成本：系统维护成本一山于单机结构容错且远程联机维护，大大节省了服务器硬件维护成本。山于单机的系统软件配置，其维护容易且维护难度及成木大大低于cluster系统软件维护。应用系统升级维护不会受cluster 结构的复杂性约束，其维护升级成本减低。由于无论从硕件到软件的维护升级均不需特别训练的人员承担，所以，系统维护人员技术成本费用低。11.284.12解决方案比较综述综上所述，stratus具冇cluster集群系统无法比拟的优势。比较项丨icpu,内存，硬盘，i/o系统，电

31、源等双重冗余，紧密耦合，锁步运行，维修、升档无需停机进行双机松散连接，非同步运行，维修、升档需停机进行容错等级部件级容错网络容错整机级容错无网络容错容错方式靠硬件的自检、排错功能靠cluster集群软件检测错误，靠编程恢复运行（cluster集群软件需额外购置）硕件纠错能力具冇容错，纠错能力没冇纠错能力检错开销 cpu无检错开销检错占用2025%cpu开销阵列磁盘内置阵列磁盘需额外购究外接阵列磁盘及连接电缆故障时应用 0 （无中断时间）60600秒中断时间操作系统缺省'配置（无用户数限制）盂购冒两套数据库只需配-套辭购置两套日常维护维护简单（如同单机管理）无人职守维护复杂（需考虑双机协调工作）维护人员技术耍求高应用软件开发可移植性强，无需考虑为容错编程需

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Stratus容错解决方案优势

文档简介

温馨提示

最新文档

评论

Stratus容错解决方案优势

文档简介

温馨提示

最新文档

评论

相关文档