技术优势总结Stratus 容错UPtime高可靠解决方案_第1页
技术优势总结Stratus 容错UPtime高可靠解决方案_第2页
技术优势总结Stratus 容错UPtime高可靠解决方案_第3页
技术优势总结Stratus 容错UPtime高可靠解决方案_第4页
技术优势总结Stratus 容错UPtime高可靠解决方案_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文档信息文档标题:Stratus 正常运行时间保证架构日期:2015.06提交给:招商银行技术白皮书 Stratus 正常运行时间保证架构StratusStratus容错ftServer系统提供保证服务级别超过99.999+%,为业内最高。从部门级、企业级、顶级系列,可恢复性ftServer系统提供一个有效的负担得起的方式来实现正常运行时间保证,使关键任务、虚拟化、,及云部署运行于不同操作环境。每个ftServer系统包括Stratus同步技术、自动正常运行时间层及ActiveService结构 所有这些同步的工作,都是为了在停机时间发生前解决技术问题。ftServer系统设计的每个环节都是为防止停机时间而设计,而不是与高可用集群和“稳健”的传统服务器那样的简单快速修复。Stratus 正常运行时间保证功能的操作是透明和自动地。Windows 应用程序可以从一个完全的容错服务器环境中受益,没有人工干预,附加编程,或测试。这些自动的功能还可以最大限度地减少操作失误,这是非计划停机时间的另一因素。 最新一代的系统延伸了这些固有的ftServer优势,具有更优越的价格表现,更大的空间效率,和更简单的可维护性。出色的操作简单性,与Stratus远程管理性和可用性功能相结合,让它容易操作且成本易于掌握地配置和管理ftServer系统。Stratus的7*24服务构架提供全面在线支持,基于网络的础事件跟踪,及多厂商合作服务,以确保最高正常运行时间和有效问题解决。一个相关的好处 这可能对那些对底线负责的高管是最具说服力的 Stratus的正常运行时间保证功能通过减少复杂部署,非计划的停机时间,和持续支持,提供一个切实的经济优势加强竞争力。 介绍一个比以往任何时候更健全的IT构架内容。服务器虚拟化和云计算为IT组织带来了新的益处和能力,但是其自身的挑战和风险也是并存的。当多个互相依存的应用程序被批量地加入IT环境,那些高性能和高密度的服务和应用也同时存在风险,因而被形容为关键任务或业务。今天,如果你的服务器停机,你的业务也就停止。尽管具备很多优势,虚拟化软件还不能独自提供关键应用程序要求的、完全的正常运行时间保证。Stratus容错服务器结构保护你的构架,防止IT业务漏洞和部件恢复,让你实现完美虚拟化,和云计算。Stratus的容错服务器系统家族经证实可以提供行业领先的99.999%的正常运行时间,如使用VMware操作环境则效果更好。此优势在那些要求失效脚本,重复测试步骤,及软件更新,以进行应用程序群集测试的群集上面,表现出相当大的改进。这个即时,透明可用的保护资源就内置在每个ftServer系统的Stratus正常运行时间保证技术。坚固性和可维护性被设计在了ftServer硬件和软件的每个方面上。结果是,它成为了行业标准的标杆,相对于竞争的高可靠性群集而言,以Intel处理器为基础的服务器提供非常卓越的正常运行时间,它操作简单,并且财务优势巨大。 本技术白皮书是对ftServer系统的Stratus正常运行时间保证技术的概述。我们会详细解释可恢复性服务器,自动正常运行时间层,和主动可用性管理这些定制设计背后的原理。 正常运行时间保证差异每个Stratus ftServer 系统的正常运行时间保证,包括正常运行时间保证功能,都是超过三十年确保那些要求苛刻的关键任务和关键业务应用程序正常运行时间的经验积累而成。目前,正常运行时间保证设计工作的所有方面都是为了防止停机时间,而不是简单地让它最小化。停机时间预防预防停机时间是重要的设计点,它把ftServer家族与“健全”的传统服务器及高可靠性集群(使用多个服务器,如果集群中一个服务器出现故障,它可保证从停机时间迅速恢复)区分开。不同于未整合于服务器设计的可靠性增强方式,嵌入正常运行时间担保的工作自动地取代停机时间并暴露很少的设备错误。行业领先的正常运行时间每个ftServer系统确保硬件,管理程序,及操作系统的可用性,可以达到持续超过5个9(99.999%)。这些测量是基于真实生产的系统数据。近期数据表明,ftServer系统平均每年的停机时间不足一分钟。Windows应用程序自动受益于Stratus正常运行时间担保的防护无需任何修改。近期数据显示,ftServer系统平均每年的停机时间不足一分钟正常运行时间的原理Stratus通过一套紧密结合的技术,在每个ftServer系统中建立了正常运行时间保证,这套技术协同工作防止停机时间和数据丢失。ftServer硬件及自动正常运行时间层软件不象典型的服务器或集群,它透明地处理绝大多数错误,屏蔽了操作系统,中间设备,和应用软件。Stratus的另一大优势是它持续地保护并维护内存中的数据。我们的独一无二的正常运行时间保护适应Microsoft Windows的操作环境,在裸机及虚拟化安装时可以平等地,准确无误地应用。ftServer结构将可恢复硬件及我们的自动正常运行时间层和主动可用性管理相结合,提供业界最高的正常运行时间水平。可恢复服务器Stratus的可恢复服务器结构,使用可以同时处理相同指令的复制容错硬件组件,消除了单个故障点。在一个部件出现故障时,冗余部件即成为主动备用部件,持续正常操作并避免系统停机时间。同步技术使用Stratus同步技术,ftServer系统保持多个CPU-内存单元精确地同步在完全相同的时间周期内执行相同的命令。同步处理保证检测出任何错误,甚至是瞬时错误,同时系统可以恢复任何CPU-内存单元错误,无须中止程序处理而不会丢失任何数据或状态。许多服务器提供坚固的可靠性、可用性和可维护性(RAS)功能,这可能包括复制(N+1)电源供应,内存镜像,和磁盘驱动(RAID),它们提供一定程序正常运行时间保证。这些RAS性能不保护大部分硬件的故障。只有以Stratus为核心的系统组件提供完整的保护,包括主板、处理器、内存、I/O总线和I/O适配器。 在一个部件出现故障的情况下,冗余部件即为主动备用部件,持续正常操作并避免系统停机时间。系统还可以检测可能导致软件故障的瞬时硬件错误。 容错I/O子系统,逻辑上从CPU内存的子系统分离出来的。硬件逻辑,以定制芯片的形式,扮演CPU和I/O之间的PCI桥梁的角色,并为同步结构提供核心错误检测,故障隔离,以及同步逻辑。CPU/内存子系统内的定制逻辑包含主PCI接口,中断控制功能和交易指令逻辑。I/O子系统中的定制逻辑包含投票逻辑,第二PCI接口,和错误记录器。定制芯片使用一个无源总线,已经安装在ftServer系统背板内,连接在服务器内的复制CPU和I/O模块。容错I/O的实现,是通过使用复制的PCI总线,复制的I/O适配器,和复制的设备。所有重要的PCI适配器都同样是双模的,如:SAS,以太网,远程管理,和光纤通道。内部SAS磁盘存储,与存储扩展一起配置为RAID,通过两个独立的存储总线连接。连接至外部光纤通道的硬件RAID阵列也是双模的,以保证全面的容错操作进行。多路径可满足任何逻辑I/O处理,包括内部和外部的存储操作。任何I/O操作失败都将重新尝试使用备用路径,以确保I/O操作的成功完成。内存数据被广泛地使用在一些高性能、关键业务的应用程序上;这些数据的丢失可导致交易失败或停机时间延长。不幸地是,集群故障转移和软件崩溃都会导致内存数据丢失。ftServer系统同步构架,在至少两个硬件组件中储存内存内容,从而在硬件故障时保护内存数据。双模冗余结构(DMR)Stratus以标准的双模冗余结构(DMR)模式支持ftServer系统,该系统使用两个CPU内存组件(主板)。如前所述,所有主板以同步方式,按照主/从系统时钟配置运行。故障检测和隔离,逻辑把I/O输出和所有主板进行比较;任何不匹配显示为一条错误。DMR系统依据每个主板上的故障检测逻辑,来确定哪个主板是错误的。如果没有主板有错误信号,则根据一个软件运算法则决定将哪个主板从服务中移除。行业标准模块化元件ftServer构架在模块物理设计上充分使用了现成的技术,优化性价比,空间效率,投资保护,和可维护性。实际上,整个ftServer产品线都充分利用了Intel高性能多核处理器和技术。如果一个组件发生故障,ftServer系统的热拔插的客户可更换单元(CRUs),可以不使用工具很简单地进行替换。之后,它们会自动与它们的冗余部件同步。在这个过程中,没有发生应用进程中断或数据丢失。共用机箱设计系统组件被捆绑设计在一个机箱中,包括一块盲插背板。背板可为CPU和I/O集成同时提供电源和信号连接,并且可以轻松出入机箱。这样,在维修最新的ftServer系列产品时,不会有内部电线或工具出现。LEDs状态指示灯以及重要组件的广泛使用,消除了操作中的潜在的操作失误。且因为无需操作命令启动而更换部件或重新配置系统,所以错误的机会被进一步减少。自动正常运行时间层凭借超过30年的技术创新, Stratus自动运行时间层为ftServer系列家族创造了一个可用性支持的生态系统。这在业内是独一无二的,为主板、处理器、内存及I/O总线和相关装置提供了可靠性和容错功能。它还简化了服务器的监测和管理,并能够提供远程服务和支持。其主要功能包括:一个动态系统分析平台,让ftServer系统可以简单安装并管理;24/7监测,内置诊断功能;警报,正常运行时间管理功能,它可以自动取代停机时间和防止数据丢失;强化设备驱动及变更管理功能,为Windows操作环境下的Stratus ftServer系统增加相当可观的可靠性。一个动态系统分析平台Stratus容错服务器以使用成对的硬件组件消除单点故障而闻名。自动正常运行时间层提供一个单一的系统平台,使这些冗余部件可以完美地同步运行。即使是一个部件发生了错误,其冗余部件也会继续操作无中断或数据丢失。你和你的应用程序只是看到一个单一的系统图像。这意味着,你不必修改你的应用程序或注册多个软件号。一个系统平台也大大减少了复杂性,这也是IT部门在与预算和人员编制有限时的另一个主要优势。用传统的可用性技术,如集群,你不得不配置、构建、测试然后维护集群中的每个节点。使用集群,还需要额外关注同步集群节点与多级应用程序层之间的状态信息,包括Web层,中间件和后端数据。集群中每个服务器的软件证书也提高了成本。同时IT职员还需要管理更多的单个物理服务器。综合监测与分析自动运行时间层自动分析并报告监视器反馈给ftServer系统多达500个状况。这样全面监测和分析始终处于激活状态,而不仅仅是在事件导致麻烦之后。自动正常运行时间层可以提供深度信息,让Stratus服务专家得以远程诊断并确定硬件、系统软件和操作系统问题的确切原因。传统服务器没有建立收集、分析,并主动报告这个深度的系统健康信息的功能。它会反复试验,从错误中找出问题是否因为硬件、软件或网络问题、运行环境、或操作错误。结果是,根本原因经常找不到。这意味着同样的问题会不断反复地发生。在99%的情况下,自动正常运行时间层的深度诊断,自动捕获那些准确描述问题根本原因所需要的信息,包括单个硬件部件或软件代码行。然后,Stratus支持工程师会提供一个永久性的修复,防止问题复发。快速转存使用传统Windows服务器,用户不得不在系统崩溃后,忍气吞声地做出一个不舒服的选择。他们可以停止应用程序,捕捉系统内存导出信息并在晚些时候进行分析,或者,他们可以恢复应用程序,但会丢失那些可以帮助他们防止同样的崩溃在今后发生的信息。Stratus通过建立在容错ftServer系统上的冗余硬件的“快速转存”功能,消除这个两难的选择。在操作系统软件故障的情况下,系统自动重新启动。自动正常时间运行层允许一个冗余的CPU-内存单元脱机,同时恢复其余的系统到正常运行。结果是,关键业务服务器迅速重新进入运行,而不会丢失所需信息以确定问题的根本原因。系统和应用程序都完全恢复运行后,会对离线CPU-内存单元中的内容进行一次标准的核心内存转存。当转存完成,脱机CPU-内存单元被重新列入常规的、冗余的操作进程中。系统自动告知Stratus客户服务中心(CAC),报告问题并进行快速的根本问题分析。Stratus的快速转存对于不停止当前运行的服务器或应用程序,而获得一个运行系统内存的转存也是同样有用的。CPU内存单元之一脱机,捕捉内存映像到磁盘,然后带回联状态。因为这一过程是非破坏性的,快速转存可以方便地在系统表现不正常的情况下进行分析和调试。为转存信息而进行烦重的搬运被避免了,因为ftServer系统支持通过Stratus ActiveService进行远程碰撞分析,它提供与Stratus技术专家安全、持续的联系。(更多信息请参见第15页)简单的网络管理协议(SNMP)代理ftServer SNMP代理扩展了Microsoft SNMP代理,允许第三方企业管理控制台远程监控ftServer服务器。任何时候一个系统组件发生以下阶段改变:破损、校准、移动,或插入,ftServer SNMP代理都会以SNMP的形式发出一条通知。同时提供一份ftServer 管理信息库(MIB)文档,允许企业管理软件包告知Stratus报警系统。自动报警及警告自动正常运行时间层实时地评估并逐字过滤数以百计的系统事件,如资源枯竭或性能问题。它决定哪些问题你的ftServer可以自行纠正,以及何时发布自动报警及警告给你还有我们的Stratus专家服务团队。这允许纠正行动在对应用程序产生负面影响之前进行。而传统服务器,反应、解释和进行警告的责任都是直接落在系统管理员身上的。使用ftServer系统,其自动正常运行时间层的功能可以作为一个早期预警报系统,取代停机时间而不中断操作。正常运行时间管理器没有其他供应商可以象Stratus一样自动处理故障和错误。我们的正常运行时间管理器,具备智能纠错功能,即便是一个出故障的部件脱机。如果你的服务器需要更换部件,正常运行时间管理器会发出一个请求要求一个“正确”部件 全天候。在此过程中,正常运行不中断。正常运行时间管理器还开放支持与我们可靠的全球Active Service网络(主动服务网络)联络,提供与正常运行时间专家的即时沟通,无论你的ftServer系统位于世界何处。ftServer构架的另一个重要优势是,它自动穿越瞬态错误,以及导致传统服务器崩溃的其他故障,数据丢失,或两者都有。错误处理增加晶体管密度并降低操作电压,将持续增加瞬态错误的可能性。当可恢复性ftServer硬件和自动正常运行时间层一起工作,会检测、捕获并处理瞬态的硬件和软件错误,如一个集群节点或通用服务器可能繁衍至操作系统、中间设备、或应用软件。除了服务器具备的穿越绝大多数错误条件的能力,正常运行时间管理器还可以捕捉并记录相关事件的信息。如果受影响的部件到达了预设的门槛,正常运行时间管理器将把它自动从服务中移除它。在此情况下,其冗余部件会持续正常运行。扩展软件保护Stratus还自动扩展错误处理至系统软件。因为对于硬件错误,软件是特别脆弱的,恰当的错误处理可以避免许多潜在的软件问题。事实上,使用传统服务器,一些归因于软件的问题实际上是由瞬态的硬件错误导致的。自动正常时间运行层可靠地从硬件问题中分辨出软件问题 极大地提高了效率并及时解决问题。这些功能还帮助隔离并纠正Windows操作系统及设备驱动的故障。ftServer的设计还做了可靠性方面改进,这有助于防止第一时间发生软件故障。值得一提的是,传统服务器和高可用集群没有预防软件故障的性能。传统服务器 即使那些宣传为可恢复的或大型的服务器 也不预防软件诱发的故障。对于此弱点,集群只能重启并恢复机器让软件启动并尽快重新运行。快速磁盘再同步(RDR)RDR通过RAID 1+0为关键任务的应用程序提供更高的保护和更高的可用性。系统无需中断,RDR设备持续扫描磁盘坏区,修复它们,并利用镜像的冗余磁盘数据进行更新和修改。RDR还通过更快的磁盘再镜像提供更好的可用性。如果一个客户可更换单元(CRU)短暂地被移动,只需要更改模块重新镜像。而使用RDR时,替换磁盘的再镜像会快很多。ftServer管理控制台(ftSMC)这个用户界面允许一个管理员为ftServer系统配置、控制、并生成详细的状态信息。ftSMC是一个添加在标准Microsoft管理控制台(MMC)上的插件。ftSMC管理单元可以在任何ftServer系统上本地运行。从任何地方的ftSMC,都可以管理本地和远程的ftServer系统。强化驱动出错的设备驱动被认为是许多Windows操作系统崩溃的根本原因。举例说,Microsoft预计设备驱动错误导致超过30%的Windows NT 4.0重启。Windows 2000server,Windows Server 2003,和Windows Server 2008操作系统,Microsoft通过新的测试和认证程序,提出了对驱动可靠性的显著改进。不过随着Windows 2000、2003、和2008核心可靠性的不断进步,相对于总的操作系统可靠性而言,驱动问题甚至更严重了。Stratus ftServer软件通过使用Stratus强化驱动增强软件,缓解了这个重要的可靠性问题。在发生问题时,PCI I/O适配器被从剩下的系统中隔离。适配器同样提供在线诊断功能,和一个与Microsoft Windows管理设备(WMI)驱动程序相符服务接口。 Stratus 已经拥有一些驱动程序源代码,或者与驱动供应商一同开发,为由ftServer系统销售并支持的PCI适配器和驱动增加功能,并进行进一步的整合和错误插入测试。为了维持最高水平的可用性,Stratus推荐,只有强化设备驱动的PCI卡才能用于ftServer系统。(客户可以定制Stratus专业服务,测试其他PCI卡是否可以在ftServer系统上进行操作。)以下功能增强了硬设备驱动: 全面支持意外移动和适配器插入(也称热移动和热插入) 透明的故障转移(磁带除外) 运行在线诊断的能力 支持在线固件更新 通过开放驱动技术监侧并报告从2004年起,绝大多数代码改变要求增强设备的驱动分离出来,从设备特定的驱动中和驱动程序堆栈中移动到一个单独的代码层里。有了这个嵌入式的开放驱动技术,供应商的源代码不再需要生产一个强化的驱动。不过,供应商驱动必须通过Microsoft Windows WHQL测试,包括支持即插即用的意外移动。因而仍然推荐通过全面测试的驱动,包括与Stratus错误插入工具所进行的测试,以保证驱动的可靠性。延伸测试Stratus采用一个严格的测试程序,目标是完全整合的系统,包括所有的硬件和软件选项,多种配置,包括最高配置。系统通过极端操作和I/O负荷的情况下的测试。大量瞬态错误,包括硬件错误在测试中被持续模拟并重复千百次。自动测试程序提供一个很难通过手工测试达到信任级别。这意味着潜在的问题在系统在客户处安装之前就被识别和解决了。许多这种错误插入测试是Stratus独有的,因为许多模拟错误,如CPU或PCI总线故障,都将会导致传统系统崩溃。Stratus测试发现在系统许多不同部分的错误:Stratus软件,Windows操作系统,及第三方整合产品。找到并解决这些整合及错误插入测试过程中的问题,从而保证了ftServer系统更高水平的软件可靠性。改变控制代理更改你的服务器是非计划停机时间的另一个潜在原因。自动正常运行时间层包含一个改变控制代理,当在线引入任何新硬件或固件时会进行预先检查。这种检查确保任何新的ftServer硬件部件与你的服务器相匹配,同时保证系统软件更新是实用的。而其他服务器把所有更改控制留给你进行,增加你的IT工作负荷以及人工失误的机会。 ftServer主动升级技术 Stratus Active UpgradeStratus主动升级TM软件是一个提供给运行Windows操作环境的ftServer客户的选项。这个史无前例的技术通过让客户进行在线软件升级和重要操作系统的热修复,无须让服务器或应用程序延长脱机时间,最大限度地减少停机时间。主动升级技术,除了已知的、经证实的保护每个Stratus服务器正常运行时间99.999+%之外,又增加了一个新的可用性的砝码。由于有Stratus设计的芯片组,主动升级技术把整个冗余系统从逻辑上分成两个独立运行的服务器,让在线升级成为可能。当一个服务器持续不中断运行应用程序时,软件更新在另一个服务器上进行。之后,双方同步,并作为一个逻辑服务器返回容错操作系统。主动可用性管理主动服务功能的完美结合,提供了其他厂商无法提供的嵌入式可维护性。对于ftServer系统的其他方面也是如此,主动可用性管理的关键设计点是在导致系统停机时间之前检测并解决问题的能力。Stratus ftService支持服务确保正常运行时间,让你获得从其他厂商提供的“故障修复”服务中无法得到服务水平。Stratus技术支持人员通过我们安全的全球ActiveService Network(ASN)监控你的系统。利用服务器的容错设计功能和自动正常运行时间层提供的信息,这些专家7*24远程诊断并修复更多复杂的问题。无论你的系统位于世界何地,经济实惠的ftService保证安全访问至你要求的服务。无需等待维修技师到场的时间 期希望他的更换部件 就可以让你的业务重新工作。几乎每个服务技术师可以到场做的,Stratus主动可用性管理都可以远程做到。这些独一无二的性能令Stratus的服务工程师故障排除并在线解决99%的问题。在整个过程中,系统和应用程序保持正常操作,无需你的IT团队干预。嵌入式适用性图5演示了,Stratus主动可用性管理是如何与具有能让我们的可恢复性服务器和自动正常运行时间层软件确保99.999+%正常运行时间功能的技术相结合。ftServer系统的内置式服务功能,使Stratus服务工程师故障排除并在线解决99%的问题。在整个过程中,系统和应用程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论