2Stratus 容错UPtime解决方案IT领域_第1页
2Stratus 容错UPtime解决方案IT领域_第2页
2Stratus 容错UPtime解决方案IT领域_第3页
2Stratus 容错UPtime解决方案IT领域_第4页
2Stratus 容错UPtime解决方案IT领域_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

美国的容错技术正常运行时间保证解决方案文档信息文档标题:美国容错技术正常运行时间保证解决方案日期:2012年3月30日提交人:客户名称客户经理:刘晨,北区销售经理技术顾问:高峰,北区技术支持经理目录1前言摘要42IT核心应用系统和持续可用性53“正常运行时间保证”解决方案介绍64“正常运行时间保证”解决方案的优势145“正常运行时间保证”解决方案如何降低项目成本6斯特拉斯服务计划207个案例研究278STRATUS公司概述319联系信息331前言摘要随着IT平台在许多企业核心应用领域的快速发展和复杂性,在有效提高此类关键系统的可靠性方面存在着可靠性不足、管理复杂等问题。本文旨在向用户名解释使用美国容错技术Stratus Technologies作为核心应用系统的服务器平台架构的正常运行时间保证技术方案如何帮助用户名实现高可靠性、连续可用性并获得经济和技术优势。2信息技术核心应用系统和持续可用性信息技术核心应用系统的可靠性是企业信息化应用的前提。因此,一套完整的可靠性解决方案绝对可以避免操作系统中断造成的服务中断对财产和商誉的巨大影响。目前,集群双机冗余是最常用的可靠性方案。通过购买两套系统和安装集群软件,当一台机器出现故障时,另一台机器将取代它的位置,以确保系统不会被中断。两台机器依靠心跳检测来判断、切换和接管服务。为了提高投资效率,两个系统尽可能采用互备份、主从式和并行等不同的工作方式。然而,双计算机集群的采用使软件和硬件投资增加了一倍,增加了企业的负担。更重要的是,集群环境的部署需要根据不同的作业应用创建集群脚本,并定期重复测试和修改,这将导致误报、人为错误等,给整个可靠性方案增加新的令人不安的因素。一旦系统发生故障或双机集群架构无法切换,将会造成信息流混乱和数据丢失,直接影响企业的正常合作运营,造成巨大的经济损失,更有可能承担法律责任。目前,中国和世界上不同的企业都选择依靠美国容错技术Stratus Technologies提供的世界领先的正常运行时间保证解决方案,该解决方案结合了主动可用性系统和全面的监控服务。Stratus方案比传统双机热备架构具有更高的可靠性,非常适合IT核心应用系统环境,让每一个Stratus客户高枕无忧。3“正常运行时间保证”解决方案介绍斯特拉斯的正常运行时间保证“正常运行时间保证”解决方案是一系列解决方案的结晶,这些解决方案集合了美国30多年的容错技术,并为世界上要求最苛刻的计算机应用领域提供了持续的高可用正常运行时间,包括三项关键技术:1)锁步硬件的锁步技术(全球专利技术)2)自动正常运行时间层软件保护层3)主动可用性管理可用性管理服务。3.1硬件锁步技术正常运行时间保证方案的硬件部分采用了硬件组件级完全冗余的设计原则。整个系统采用双硬件模式,由主板、中央处理器、内存、输入输出通信模块组成。冗余中央处理器/MEM硬件通过斯特拉斯独有的硬件锁步技术在同一时钟周期内执行同一芯片指令。输入输出控制部分采用多路冗余管理模式,在不停止应用系统运行的情况下,组件切换时间减少到秒或毫秒级,从而保证整个系统的连续可用性能高达99.9999%。通过这种精确而强大的技术,当一个组件出现故障时,冗余组件会立即成为一个激活的备件,以继续系统的正常运行,从而提前防止机器停机和数据丢失的可能性。在工作原理上,斯特拉斯采用商用英特尔x86标准架构,在传统的计算机服务器系统上增加了一套原有的单处理器、一套内存和一套输入/输出单元。然后,通过修改主板通信芯片和增加故障监测和隔离功能,斯特拉斯改变到双CPU处理器、双内存和双输入/输出的状态。最后,通过锁步技术实现了两套同时运行且连续可用的功能。这种双模块冗余DMR技术的亮点在于,主机不仅具有冗余的处理和输入/输出组件,而且冗余的组件可以相互通信,从而消除系统中的单点故障,包括中央处理器、内存、输入/输出控制设备、硬盘RAID-1映像,甚至主板。内部输入/输出PCI处理器中央处理器芯片芯片组记忆层云正常运行时间保证层正常运行时间保证技术内部输入/输出PCI处理器中央处理器芯片芯片组记忆层云正常运行时间保证层正常运行时间保证技术时钟锁定中央处理器多路径输入/输出与传统的热备用集群方案相比,该集群方案仅在系统级冗余。严格来说,连接到外部磁盘阵列的机柜也必须配置为实现系统和存储之间的所谓单点故障。然而,由于整个系统仍然连接到两个服务器的心跳线,所以仍然存在单点故障切换问题。此外,这种系统级冗余需要手动脚本设计和集群部署,增加了更多不确定的人为错误因素和人力部署成本。自动运行时间层正常运行时间保证计划中的自动正常运行时间层保护软件层是斯特拉斯30多年的科研成果。它与同步硬件、中央处理器、内存、输入/输出控制和其他设备协同工作,并提供许多有助于提高系统稳定性、易于管理、自我监控、分析、更新、自动错误报告和系统兼容性的增值功能。3.1.1单一系统视图Stratus独特的硬件设计使基于硬件运行的操作系统和软件像普通独立服务器一样简单。整个系统只需要安装一套操作系统就能正常运行。运行在操作系统上的中间件或应用程序也同时安装。从用户的角度来看,它就像运行在一个单一的系统环境中。然而,我们已经知道运载系统运行在两套物理设备上。强化设备驱动程序驱动程序是操作系统识别物理设备的重要程序。操作系统通过驱动程序处理物理设备。增强驱动程序是维护系统稳定性的另一个重要部分。通过增强和重写驱动程序,即使计算机系统的某个设备出现故障(包括暂时或永久故障),也能确保系统不会崩溃。同时,增强的驱动程序还可以使系统识别被替换的设备,并在不启动的情况下自动将其加载到运行系统中。监测和分析快速转储-系统中央处理器/MEM的运行状态。这是帮助用户找到系统故障根本原因的有效手段。根据故障情况和需要,通过及时将CPU和内存数据转移到磁盘,可以有效地捕捉和保持系统的运行状态。提供关键和有用的数据,以确定系统故障的根本原因,从而找到解决方案,避免将来再次出现相同的问题。SNMP-用于通过SNMP协议将系统产生的各种报警信息或状态发送给用户程序或网络管理监控软件,从而实现对故障的可编程监控或管理。变更控制主动升级是斯特拉斯技术公司开发和设计的一项技术,旨在减少用户的计划停机时间,帮助用户最大限度地延长系统的连续运行时间。通用视窗操作系统变得越来越开放,系统和应用程序功能的修改比以前更加明显,补丁和热补丁的发布也越来越频繁。主动升级可以通过命令将两个以双工方式运行的独立模块单元分成两个。一个单元保持系统正常运行,另一个单元用于系统的软件补丁、热修复、程序升级等工作。工作期间,客户系统仍在运行。修复完成后,通过合并两个模块操作,新系统将接管代理旧系统,并将系统返回到双工操作状态。自动报警和警报自动故障报告功能是Stratus产品在改善客户体验和服务管理方面具有独特优势的另一项产品功能。产品的内置设计包括设备状态故障信号的收集、统计和报告,运行状态的自动和定期采集,以及以图形或图表的形式向客户展示相关数据,使客户能够一目了然地了解系统的工作和运行状态。同时,嵌入的信息可以通过配置好的电话网络或互联网自动发送到斯特拉斯的客户服务中心。服务工程师可以根据相关内容及时处理相关故障或报警,并积极帮助用户消除潜在的关机风险。系统兼容性Stratus的ftServer服务器产品采用标准的英特尔至强多核处理器技术,完全符合X86架构的行业标准设计系统。提供用户广泛采用的微软视窗2003或视窗2008 R2服务器版本;红帽Linux企业64位操作系统和VMWare vSphare第5版虚拟化系统。FtServer通过AUL(自动正常运行时间层)软件实施系统可靠性管理,所有操作系统为用户应用程序提供完全的二进制API兼容性。用户在相应平台上开发的应用程序可以自动获得最大的平台运行稳定性,无需任何修改。主动可用性管理可用性管理是通过技术手段帮助用户更好地使用Stratus产品,并在Stratus服务支持的保证下,确保用户的重要计算机平台获得最高级别的运行时保证。Stratus的可用性管理服务不同于传统的向客户求助的服务模式。它通过内置的技术判断来主动发现和辨别错误。它还采用电路隔离、自检和复位恢复来自动修复故障设备。斯特拉斯工程师可以通过电话或互联网积极帮助用户监控或管理系统的使用和运行。内置的管理软件可以收集设备的状态信息,并可以配置为自动启动远程调用功能。斯特拉斯可以主动向斯特拉斯呼叫服务中心发送相关信息。Stratus可以主动分析和判断相关问题,并将需要更换的部件直接发送到用户站点(见下图)。借助Stratus的可用性管理和相关服务支持,它可以更有效地防止系统停机,确保客户系统的一致在线运行,保护客户利益,轻松应对问题。斯特拉斯产品描述和物理特性4“正常运行时间保证”解决方案的优势4.1最大限度减少计划外停机时间Stratus的“正常运行时间保证”解决方案在帮助客户的核心计算机稳定运行以及确保客户的重要程序系统获得最长正常运行时间方面具有显著优势。平台的持续可用性指数高于AL4(即99.999%);按时间衡量,每年平均计划外停机时间不超过5分钟。可用性指数与停机时间4.2更高的可靠性Stratus的“正常运行时间保证”解决方案比其他高度可靠的解决方案提供了更完美的时间保护,并具有其他解决方案无可比拟的可靠性优势。传统的热备或集群方案是由冗余的独立服务器通过操作系统上的一组程序进行组合连接、监控和转换控制来实现的故障恢复方法。这种配置或设置方式相对复杂,动态数据无法得到保护,恢复时间不确定,用户部署、实施、使用、维护和管理困难。业务连续性将受到系统切换的影响。Stratus的完全冗余架构设计确保系统可以在线更换,而无需停止系统。替换零件或模块会自动加载和恢复,而不会影响系统或程序的操作或性能。客户业务系统连续性对比图4.3无内存数据丢失Stratus独特的冗余硬件结构不仅能保证磁盘上静态数据的完整性,还能保证内存数据的完整性。从而保证交易过程中用户程序和数据的完整性和一致性。这在其他解决方案中是不可能的。因为其他方案将在故障恢复期间丢失当前事务和内存数据。4.4应用程序透明度和简单易用的管理Stratus的“正常运行时间保证”解决方案由单一操作系统映像环境组成。用户在使用和管理过程中面临着一个单一的环境,例如一组操作系统、一组中间件或应用程序,它们像正常运行的服务器一样使用。并且不需要额外的软件程序修改、脚本文件或特殊配置就可以获得可用性。操作系统和Stratus Aur(自动正常运行时间层)软件易于安装,面向光盘,系统自动启动,一次完成。只需单击鼠标,即可完成内置磁盘镜像或网络冗余配置。从安装到安装,用户可以非常方便地部署具有高可靠性计算环境的系统。5“正常运行时间保证”解决方案如何降低项目的总体拥有成本投入和运行维护成本趋势图Stratus的“正常运行时间保证”解决方案在帮助用户节省整体解决方案的总体投资成本,同时为用户带来新的可靠性体验方面具有显著优势,包括:投资成本:硬件投资成本;单机硬件是容错的,不消耗CPU效率,所有投资都用于应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论