服务水平管理和服务水平协议SLA样本.doc_第1页
服务水平管理和服务水平协议SLA样本.doc_第2页
服务水平管理和服务水平协议SLA样本.doc_第3页
服务水平管理和服务水平协议SLA样本.doc_第4页
服务水平管理和服务水平协议SLA样本.doc_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

服务水平管理和服务水平协议SLA样本 服务水平管理和服务水平协议SLA本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 服务水平管理和服务水平协议(SLA)本文描述面向高可用性网络的服务水平管理和服务水平协议(SLA)。 它包括服务水平管理的成功因素以及帮您评估成功与否的性能指标。 本文以一个国际性的网络详细描述遵从高可用性业务工作组确定的最佳方案指导原则的SLA。 服务水平管理概述网络公司一直以来都通过构建坚实的网络基础设施及主动处理每个业务问题来满足不断扩展的网络要求。 当业务异常中断时,公司将构建新流程、管理功能或基础设施来防止此类故障再次发生。 然而,由于快速变更及日益增长的可用性要求,我们现在需要改进模式来预先防止意外故障并快速修复网络。 许多服务供应商和企业一直都试图更好地定义服务水平以便实现商业目标。 关键成功因素SLA的关键成功因素用来定义支持成功构建可获得的服务水平及维护A SLA的主要要素。 要成为合格的关键成功因素,流程或流程步骤必须能够改进进A SLA质量并从整体上提高网络的可用性。 关键成功因素还应具备可测量性,以便使企业能够判本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 断:与定义的程序相比,它所取得的成功程度。 性能指标性能指标提供了公司测量关键成功因素的机制。 您通常需要每月审查一次,以确保服务水平定义或或A SLA运行良好。 网络运行小组及必要的工具组可实施以下测量标准。 注意:对于没有A SLA的公司,我们建议您同时实施服务水平定义、服务水平审核及测量标准。 性能指标包括:?记录的服务水平定义或SLA,包括可用性、性能、主动业务应答时间、排障目标及问题升级等。 ?月度网络服务水平审核会议,审核对服务水平的执行情况并实施改进。 ?性能指标测量标准,包括可用性、性能、按优先级划分的业务应答时间、按优先级划分的排障时间以及其它可测量的A SLA参数。 服务水平管理流程面向服务水平管理的高级别流程主要包括两组:实施服务水平管理本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 实施服务水平管理包括十六步,分为以下两个主要范畴:?定义网络服务水平步骤11-66?创建并维护SLA步骤77-16定义网络服务水平网络管理人员需要定义支持、管理并测量网络的主要规则。 服务水平为所有网络人员提供目标并可用作整体业务质量的测量标准。 您也可将服务水平定义用作网络资源预算工具以及投资于更高服务质量的证据。 它们还提供评估供应商及运营商的表现的方法。 如果没有服务水平定义和测量,公司不可能制定明确的目标。 服务是否满意由用户决定,在应用、服务器/客户机运行或网络支持方面并无明显差距。 由于企业对最终结果没有把握,因此很难作预算。 最终,网络公司在提高网络及支持模式方面都趋向于选择被动应答,而非主动预防的方式。 我们建议采取以下步骤来构建并支持服务水平模式:?分析技术目标及限制因素。 ?确定可用性预算。 本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 ?创建详细记录关键应用网络特征的应用资料库。 ?定义可用性、性能衡量标准及通用术语。 ?创建服务水平定义,包括可用性、性能、业务应答时间、排障平均时、故障检测、升级门限及上报途径。 ?收集测量标准并监控服务水平定义。 第第11步:分析技术目标及限制因素开始分析技术目标和限制因素的最佳方式是集体讨论或研究技术目标与要求。 因为这些人都有特定的业务目标,所以有时这有助于要求其它T IT技术人员参与讨论。 技术目标包括可用性级别、吞吐量、抖动、延迟、应答时间、可用性要求、新特性的推出、新应用的推出、安全性、可管理性及成本等。 随后,公司应研究限制因素,以便使用可用资源实现这些目标。 您可为每个目标创建带有对限制因素解释的工作表。 最初看似大多数目标都无法实现。 随后划分目标的优先级或降低对仍可满足商业要求的目标的期望值。 例如,%,或每年55分钟的故障停机时间。 实现这一目标存在大量限制因素,如硬件的单点故障、远程位置中的故障硬件的平均修复时间本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 (MTT R)、运营商可靠性、预先故障检测、高变更率及当前网络容量限制等。 因此,您需要将这个目标调节到更加易于实现的级别。 下个章节中介绍的可用性模式可帮您制定现实的目标。 您可能也考虑在限制因素相对较少的网络领域提供可用性。 当网络公司公布业务的可用性标准时,公司中的各业务部门可能发现无法接受这个级别的可用性。 这自然而然引发对A SLA的讨论,或为可满足商业要求的模式进行投资/做预算。 确定所有限制因素或风险的工作包括要实现技术目标。 根据实现理想目标的最大风险或影响方面划分限制因素的优先级。 这可帮助公司确定网络改进计划的优先顺序,并确定解决限制因素的难易程度。 限制因素分三类:?网络技术、故障恢复能力和配置?生命周期方案,包括:规划、设计、实施和运行?当前的话务负载或应用行为网络技术、故障恢复能力及配置限制因素是指与当前技术、硬件、链路、设计或配置相关的任何限制因素或风险。 技术限制因素指技术本身造成的任何限制。 例如,当前没有一种技术允许冗余本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 网络环境中实现少于11秒的聚合时间,而这恰恰是维持整个网络上的话音连接的关键。 另一个例子是数据通过地面链路时的原始速度,大约是0100英里/毫秒。 网络硬件故障恢复能力风险调查应集中在硬件拓扑、分级体系、模块化、冗余、F MTBF及定义的路径这几方面。 网络链路限制因素应强调企业网络链路及运行商连接。 链路限制因素可能包括链路冗余和多样性、媒介限制、布线基础设施、本地环路连接性以及长距离连接性。 设计限制因素与网络的物理或逻辑设计相关,包括从为设备可用空间到路由协议实施的可扩展性等各个方面。 您应在配置、可用性、可扩展性、性能及容量方面考虑所有协议和媒介设计。 动态主机配置协议(DHCP)、域名系统(DNS)、防火墙、协议转换及网络地址转换等网络业务限制因素也应列入考虑之列。 生命周期方案定义用于实现解决方案的统一部署、检测和修复故障、防止容量或性能问题以及配置一致性和模块化的网络流程和管理。 您需要认真考虑这个领域,因为专业技术和流程通常是导致不可用性的最大影响因素。 网络生命周期指本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 规划、设计、实施和运行周期。 在每个阶段中,您都必须了解性能管理、配置管理、故障管理及安全性等网络管理功能。 思科A NSA高可用性服务部(HAS)提供网络生命周期评估服务,确定与网络生命周期方案相关的当前网络可用性限制因素。 当前的话务量或应用限制因素只是指当前话务和应用的影响。 不幸的是,许多应用都带有大量需要慎重管理的限制因素。 当前应用的抖动、延迟、吞吐量及带宽要求通常带有许多限制因素。 编写应用的方式也可能产生一些限制因素。 汇编应用资料库可帮您更好地了解这些问题;下文将介绍这一特性。 研究当前的可用性、话务、容量及性能还可帮助网络管理人员了解当前的服务水平目标及风险。 这一工作常通过名为网络基准制定的流程来完成,该流程可帮您定义规定时段内(通常是一个月)的平均网络性能、可用性或容量。 这些信息通常用于容量规划和趋势分析,但也可用来了解服务水平问题。 下面的工作表使用了上述目标/限制因素方法来实现防止安全性攻击或拒绝服务攻击(DoS)的本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 目标。 您也可使用该工作表来决定可最大限度地减少安全性攻击的业务范围。 风险或限制因素限制因素类型潜在影响可用的S DoS检测工具无法检测出全部S DoS攻击类型。 技术/故障恢复能力高不具备对告警做出相应所需的人员和流程。 生命周期方案高当前网络接入策略未加执行。 生命周期方案一般如果利用带宽拥塞来发动攻击,则当前的低带宽互联网连接成为限制因素。 网络容量一般帮助防止攻击的当前安全性配置不完善。 技术/故障恢复能力一般第第22步:确定可用性预算可用性预算是期望在定义的两点间出现的、理论上的网络可用性。 准确的理论信息可在多个方面发挥作用:?公司可将其视为内部可用性目标,并且能够立刻定义偏离并进行补救。 ?网络规划人员可使用这些信息来确定系统的可用性,以确保设计满足商业要求。 造成不可用性或故障停机的因素包括软硬件故障、电源和环境问题、链路或运营商故障、网络设计、人为错误或缺乏流程等。 在评估网络的整体可用性预算时,您必须严格评估上述的所有参数。 如果公司当前正在测量可用性,则可能不需要可用性预算。 用可用性测量标准作为基准来评估服务水平定义使用的当前服务水平。 然而,您可将本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 二者进行对比,以便了解潜在的理论可用性与实际测量结果间的差距。 可用性指产品或业务在需要时投入运行的可能性。 参见以下定义:11-(总的连接中断时间)/(总服务连接时间)11-总和(业务中断期间受影响的连接数量X业务中断时间)/(运行的连接数量X运行时间)11-由以下因素造成的可用性或总的连接中断时间:软硬件故障、电源和环境问题、链路和运营商故障、网络设计、用户错误及流程故障等。 首先需要研究的领域是潜在硬件故障及其对不可用性的影响。 要确定这方面的影响,公司应了解所有网络组件的F MTBF以及MTTR,以确定两点间的路径中所有设备的潜在硬件问题。 如果网络采用模块化和分级体系结构,则几乎任意两点间的硬件可用性都是相同的。 F MTBF信息可用于所有思科组件,并且可根据请求、向本地客户经理提供。 S Cisco NSA HAS项目还使用一种工具来帮本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 助确定硬件可用性及网络路径,即使在系统中存在模块冗余、机底冗余及路径冗余时也能够使用这种工具。 硬件可靠性的一个主要因素是MTTR。 公司应评估它们修复故障硬件的速度。 如果公司未制定备用方案,只依赖于标准Cisco SMART?协议,则潜在的评估硬件更换时间为424小时。 在带有核心冗余但不带有接入。 冗余的典型N LAN环境中,适当的可用性是%,平均修复时间是44-小时。 下一个需要研究的领域是软件故障。 出于测量的目的,思科将软件故障定义为由软件错误引发的设备冷启动。 思科已经开发出许多流程来帮助了解软件的可用性;然而,更新的版本尚需一段时间进行测量,并且我们认为它的可用性不及一般的部署软件。 IOS (18)等一般部署软件经测量,%的可用性。 这个数字是基于修复时间为六分钟(路由器重新装载的时间)的思科路由器的实际冷启动次数来计算的。 采用不同版本的公司,可用性将随着复杂性的增加、互操作性的增强以及排障时间的缩短略有降低。 采用最新软件版本的公司,不可用性将有所提高。 不可用性的分配也本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 相当广泛,这意味着客户将感觉到很高的不可用性或接近一般部署版本的可用性。 您还必须考虑环境和电源的可用性问题。 环境问题与将设备保持在特定的运行温度范围内的冷却系统的故障相关。 当温度大大超过技术指标时,许多思科设备只是停止运转,而不会损害所有硬件。 出于可用性预算的目的,您必须将电源考虑在内,因为它是造成本领域中不可用性的主要原因。 虽然电源故障是造成网络不可用性的重要原因,但对它的讨论还是受到限制,这是因为无法进行准确的、理论上的电源分析。 企业必须基于所在地区的经验、电源备份功能以及实施的流程,对其设备的电源可用性的大约测量结果进行评估,以确保为所有设备提供具备一致质量的电源。 基于保守的估计,我们能够认为配备了备用发电机、不间断供电电源(UPS)系统并采用合格电源实施流程的企业,可实现高达六个九(%)的可用性,而未配备这些系统的企业,其可用性仅为%,或者说每年有636分钟的故障停机时间。 当然,您可根据公司的观察或实际数据来调整这本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 些数值,使其更真实地反映企业的具体情况。 链路和运营商故障是影响N WAN环境中的可用性的主要因素。 切记N:WAN环境只是同企业网络遭遇同样可用性问题的其它网络,包括:软硬件故障、用户错误及电源故障等。 许多运营商网络都已经开始对系统进行可用性预算,但获得这些信息并不容易。 切记,运营商的可用性保证级别很少基于或根本不基于实际可用性预算。 这些保证级别有时只是用来提高运营商知名度的营销和销售方法。 在某些情况下,这些网络还公布看似相互突出的可用性统计数据。 切记,这些统计数据可能只适用于完全冗余的核心网络,而不作为导致不可用性的因素(不可用性由本地环路接入引起),本地环路接入才是是N WAN网络中不可用性的主要因素。 对对N WAN环境进行可用性评估应基于实际的运营商信息以及N WAN连接的冗余级别。 如果公司拥有多个大楼入口设施,冗余本地环路供应商、同步光网络(SONET)本地接入、以及分布在多个地区的冗余长途运营商,则N WAN的可用性将得到明显增强。 本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 电话业务是N WAN环境中、非冗余网络连接相当准确的可用性预算。 使用类似于本文所描述的可用性预算方法进行测量,%。 这种方法业已成功应用于数据环境中,结果基本相同,当前正被用作服务供应商有线网络中分组有线规程的预算。 如果将该数值用于完全冗余的系统,则我们能够假定,%。 当然,由于成本及可用性问题,当前很少有哪家公司部署了分布在多个地区且完全冗余的N WAN系统,所以应使用适当的判断方法测定这种功能。 N LAN环境中不太可能发生链路故障,然而,规划人员可能希望假定连接器断开或松动会引发短时间的故障停机。 对N LAN网络而言,%,或大约030秒故障停机/年。 网络设计是影响可用性的另一个主要因素。 不可扩展的设计、设计错误及网络聚合时间都会对可用性产生负面影响。 注意:出于本文的目的,我们将在下面的篇幅中描述不可扩展的设计或设计错误。 网络设计被限定在可测量的数值上(基于网络中导致话务重新路由的软硬件故障)。 这些数值通本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 常被称作“系统故障切换时间”,并且是系统中自治愈协议功能的影响因素。 使用与系统计算相同的方法便可计算可用性。 然而,它只有在网络故障切换时间满足网络应用要求时才有效。 如果故障切换时间能够接受,则不把它计算在内。 如果故障切换时间不能接受,则计算时必须将其考虑在内,例如:估计或实际的故障切换时间为030秒的环境中下的IP话音(VoIP)。 在这个例子中,用户只是挂断电话,并有可能重新拨叫。 用户肯定会将这030秒看作是非可用时段,但在可用性预算时却未加考虑。 根据系统故障切换时间来计算不可用性时要着眼于理论的软硬件可用性以及冗余路径,因为故障切换将出现在这个领域。 您必须了解可能发生故障并导致冗余路径中出现故障切换的设备数量,这些设备的F MTBF以及故障切换时间。 一个简单的例子就是,冗余的相同设备中,每台设备的的F MTBF为为335433小时,故障切换时间为030秒。 用用35,3433除以8766(年平均小时数,包括闰年),我们能够看出该设备每四年出现一次故障。 如果使用030秒作为故障切换时间,我们便能够假设:由于故障切换,。 由于用户可能会跨两条本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 路径,因此需要将此结果乘以22,即:每年515秒。 当以秒/每年进行计算时,%。 由于可能出现故障切换的网络中的冗余设备数量,在其它环境中,这个数字可能还要略高些。 用户错误和流程可用性问题是造成企业和运营商网络中不可用性的主要原因。 约80%的不可用性问题是由于无法检测错误、变化故障及性能问题造成的。 公司在制定可用性预算时,不愿意接受用户错误和流程引发的不可用性是其它所有理论上的不可用性的四倍这一实施,然而,各种证据一致表明,这种情况存在于许多环境中。 下面我们将详细阐述不可用性的这个方面。 由于您无法从理论上计算由用户错误和流程引发的不可用性数量,我们建议您在制定企业力求完美的可用性预算时不将其考虑在内。 但企业必须了解其流程和专业技术水平中现在所面临的可用性风险。 透彻地了解了这些风险及抑制因素之后,网络规划人员便有可能将这些问题引发的一定数量的不可用性考虑在内。 CiscoNSAHAS项目深入研究了这些问题,并可帮助企业了解由本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 于流程、用户错误或专业技术问题引发的不可用性。 您可将以前定义的所有领域的可用性相乘来决定整个可用性预算。 这种方法通常适用于任意两点间的连接相类似的同机种环境,如:分级体系模块化N LAN环境或分级体系标准N WAN环境等。 这下面的例子中,为分级体系模块化N LAN环境确定了可用性预算。 该环境为所有网络组件都配备了备用发电机和S UPS系统,并对电源进行适当的管理。 企业未使用VoIP,也不希望将软件故障切换时间考虑在内。 估算结果如下:?两个端点间的硬件路径可用性=%?使用D GD软件可靠性作为基准的软件可用性=%?带有备用系统的环境和电源可用性=%?考虑LAN环境中的链路故障的可用性=%?未将系统故障切换时间计算在内的可用性=100%?认为不存在用户错误和流程缺陷的可用性=100%本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 企业希望达到的最终可用性预算是:X X=,%的可用性。 如果我们将用户或流程错误引发的潜在不可用性考虑在内,并假设其引发的不可用性是技术因素引发的可用性的四倍,%。 ,对这个例子的分析使我们了解到,%之间。 现在,这些数值能够用作网络公司的服务水平目标。 能够测量系统中的可用性并确定上述六个领域分别引发的不可用性百分率来计算其它数值。 这使公司能够对供应商、运营商、流程和人员进行适当评估。 这些数值也可用来设置业务期望值。 %之间的可用性不满意,可投资更多资源来获得理想的可用性级别。 网络管理人员了解每个特定可用性级别的故障停机时间将大有帮助。 计算任何可用性级别的年故障停机时间(分钟)的公式如下:故障停机(分钟)/年=525600(可用性级别X5256)%,则结果是525600。 (X5256),。 对于上述可用性定义,这等于网络中所有业务连接的平均故障停机时间。 第第33步:创建应用资料库应用资料库可帮助网络公司了解并定义每个应本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 用的网络服务水平要求。 这有助于确保网络支持每个应用要求及整体网络业务。 当应用或服务器组指出网络存在问题时,应用资料库还可用作网络服务支持的书面基准。 最后,应用资料库可将性能及可用性等应用要求与真实的网络业务目标或当前限制因素进行对比,来调节网络业务目标,使其与商业要求保持一致。 这不仅对服务水平管理很重要,而且对整个网络设计也相当重要。 每次向网络中添加新应用时都应创建应用资料库。 您还可能需要在T IT应用部门、服务器管理部门以及组网部门间达成协议,以便为现有及全新业务创建应用资料库,完成用于商业应用及系统应用的应用资料库。 商业应用可能包括电子邮件、文件传输、b Web浏览、医疗图象处理或制造等。 系统应用可能包括软件分发、用户鉴权、网络备份及网络管理等。 网络分析员及应用或服务器支持应用小组应负责创建应用资料库。 新应用可能要求使用协议分析程序以及具备延迟模拟功能的的N WAN模拟程序来适当地划分应用要求的特征。 这有助于确定必要带宽、应用可用性的最大延迟及抖动要求。 只本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 要您具备所需服务器,便可在实验室环境中开展这项工作。 在P VoIP等其它情况下,包括抖动、延迟及带宽在内的网络要求会很好地公布,且无需再进行实验室测试。 应用资料库应包括以下项目:?应用名称?应用类型?新应用?业务重要性?可用性要求?使用的协议和端口?估计的用户带宽(kbps)?用户数量和位置?文件传输要求(包括时间、量及端点)?网络故障停机影响?延迟、抖动及可用性要求应用资料库的目标是了解应用的商业要求、业务关键性以及带宽、延迟及抖动等网络要求。 此外,网络公司还应了解网络故障停机的影响。 在某些情况下,您可能需要重启应用或服务器,这将大幅度延长总的应用故障停机时间。 完成应用资料库后,您可将所有网络功能进行对比,并帮助本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 调节网络服务水平,使其与商业和应用要求相一致。 第第44步:定义可用性及性能标准可用性及性能标准为企业制定业务期望值。 可根据不同网络区域或特定应用进行定义这些标准。 还能够确定往返延迟、抖动、最大吞吐量、带宽承诺及总体可扩展性等方面的性能。 此外,为了制定业务期望值,企业还应谨慎定义每个业务标准,以便使致力于网络工作的用户及T IT工作组能够全面了解业务标准以及他们与应用或服务器管理要求的关系。 用户及T IT工作组还应了解如何测量业务标准。 以前服务水平定义步骤的结果能够帮助制定标准。 这时,网络公司应明确了解当前网络所面临的风险和限制因素及应用行为,并进行理论上的可用性分析或制定可用性基准。 ?定义业务标准适用的地理区域或应用领域,可能包括园区LAN、本国WAN、外联网及合作伙伴连接等。 在某些情况下,企业在相同区域内的服务水平目标可能有所不同。 这对企业或服务器供应商来说并不罕见。 这时,它们通常基于各自的业务要求制定不同的服务本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 水平标准。 这些在同一地理区域或服务区域中的标准有金牌、银牌和铜牌之分。 ?定义业务标准参数。 可用性及往返延迟是最常见的网络业务标准。 根据需要,还能够包括最大吞吐量、最低带宽承诺、抖动、接受的错误率以及可扩展性功能。 当审核用于测量方法的业务参数时要特别谨慎。 无论参数是否包括在A SLA中,公司都应考虑出现问题或业务不一致性时,如何测量并证明业务参数的可行性。 完成对业务领域和业务参数的定义后,您可使用以前步骤获得的信息来构建业务标准图。 企业还需要定义可能使用户和T IT工作组产生混淆的区域。 例如,往返g ping的最长应答时间与在远程位置单击回车键启动特定应用的最长应答时间有很大区别。 下表列出了美国采用的性能目标:网络区域可用性目标管理方法平均网络应答时间目标可接受的最常应答时间应答时间管理方法LAN99.99%受影响的用户时间55毫秒内10毫秒往返g ping应答WAN99.9%受影响的用户时间0100毫秒内(往返ping)150毫秒往返g ping应答关键N WAN及外联网99.95%受影响的用户时间0100毫秒内(往返ping)150毫秒往返g ping应答第第55步:定义网络业务这是实现基本的服务水平管理的最后一步;它定本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 义您实施用于实现服务水平目标的被动/主动流程和管理功能。 最终文件通常被称作“运行支持计划”。 大多数应用支持计划只包括被动支持要求。 在高可用性环境中,公司必须考虑采用主动的管理流程,以便在网络故障发生前对其进行隔离并加以处理解决。 总的来说,最终文件应:?描述用于实现服务水平目标的被动和主动流程?介绍业务流程的管理方式?介绍测量业务目标和业务流程的方式本部分将描述许多服务供应商和企业均需考虑的主动和被动业务定义的实例。 构建服务水平定义的目标是创建满足可用性及性能目标的业务。 为了实现上述目标,公司必须构建业务,并谨记当前的技术限制因素、可用性预算及应用资料库。 特别是,公司应定义并构建始终能够在可用性模式规定的时间内快速确定并排除故障的业务。 公司还必须定义可快速识别并解决潜在业务问题的业务,如果忽略这些问题,将对可用性及性能产生负面影响。 实现理想的服务水平非一朝一夕之事。 专业水准低、当前流程限制或人员不合格等缺点将妨碍公本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 司实现理想的标准或目标,即使在完成对以前业务步骤的分析后也是如此。 没有一种方法可将所需服务水平与理想目标准确匹配。 为了适应现实情况,公司应测量业务标准及用于支持业务标准的业务参数。 如果没有达到业务目标,公司应利用业务测量标准来帮助了解问题。 在许多情况下,可适当增加预算以改进支持业务,并使这些改进功能成为实现理想业务目标的必要条件。 企业可能会逐步进行多次调节(包括业务目标或业务定义),以使网络业务与商业要求保持一致。 例如,%可用性时,企业可能只实现了99%的可用性。 在服务及支持测量标准方面,企业代表发现硬件替换约需要424小时,远远高出最初的估计的44小时。 此外,企业还发现主动管理功能受到忽视且故障的冗余网络设计没有及时修复。 企业发现的问题还有缺乏实施改进的员工等。 因此,考虑降低当前服务目标后,企业便投资购买实现理想服务水平所需的其它资源。 业务定义应同时包括主动和被动支持定义。 被动定义规定企业如何解决根据用户投诉或网络管理功能中确定已经发生的问题。 主动定义描述企业如何确定并解决潜在的网络问题,包括修复故障的“备用”本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 网络组件、错误检测、容量门限问题及升级问题等。 以下提供主动与被动服务水平定义实例。 被动服务水平定义以下的服务水平领域通常使用帮助台数据库统计数据进行测量并定期审计。 下表显示企业故障严重程度的实例。 请注意:此表不包括处理新业务请求的方式,这项工作可通过A SLA或其它应用资料库编制及性能假设分析来完成。 如果通过相同的支持流程进行处理,新业务请求能够数据严重级别55。 严重级别11严重级别22严重级别33严重级别44严重的业务影响N LAN用户或服务器部分停机严重的N WAN站点故障停机网络功能的丢失或降级对业务造成严重影响,可能需要运行应变措施园区N LAN故障停机;55-999名用户受到影响国内N WAN站点故障停机国际N WAN站点故障停机严重影响性能某些特定的网络功能丢失或降级,如:冗余丢失等园区N LAN性能受到影响LAN冗余丢失对企业无业务影响的功能查询或故障完成问题严重性级别定义之后,定义或研究创建业务应答定义的支持流程。 总的来说,业务应答定义要求采用分级支持结构,以及帮助台软件支持系统来利用故障票跟踪问题。 同时还应为每个优先级故障的应答时间和解决时间、按优先级划分的呼叫数量以及应答解决质量制定测量标准。 定义支持流程可帮助定义公司内部每个支持级本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 别的目标及其任务与责任。 这有助于公司了解用于每个支持级别的资源要求及专业技术水平。 下表举例说明了分级支持结构及其问题解决指导原则。 支持级别职责目标第第11级支持专职帮助台支持接听支持电话、发放故障票、515分钟内解决问题、记录故障票并上报到第22级支持解决40%的入局呼叫第第22级支持队列监控、网络管理、工作站管理为确定的软件故障发放故障票实施接听第11级、供应商的电话,并上报到第33级支持对呼叫负责,直到排障为止在第22级解决所有呼叫第第33级支持必须立刻为第22级提供优先级为11的全部故障所需的支持同意在A SLA解决期限内帮助解决所有第22级未排除的故障不直接对故障负责下一步是确定业务应答及排障业务定义。 它为如何快速排障(包括硬件更换在内)制定了目标。 为这个领域制定目标是非常重要的,因为业务应答及恢复时间直会接影响网络的可用性。 问题解决时间也要与可用性预算保持一致。 如果在制定可用性预算时未将大量高严重级别的故障考虑在内,则公司随后将需开展大量工作来了解此类故障的根源及可能的弥补方法。 详见下表:问题严重级别帮助台应答第第22级应答现场第22级硬件更换解决问题11立刻上报到第22级,网络运行部经理55分钟22小时22小时44小时22立刻上报到第22级,网络运行部经理55分钟44小时44小时88小时33515分钟22小时212小时424小时636小时4415分钟44小时3天33天66天本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 除业务应答及业务排障外,还需制定上报规定。 上报表有助于确保将可用资源集中用于解决严重影响业务的问题。 总的来说,如果分析员集中精力解决问题时,他们很少重视利用其它资源来解决问题。 定义何时需要其它资源有助于促进管理层对问题的认识,并有助于促成未来的主动测量或预防性测量。 详见下表:过去的时间严重级别11严重级别22严重级别33严重级别4455分钟网络运行部经理、第33级支持、联网部主管11小时及时通知网络运行部经理、第33级支持、联网部主管及时通知网络运行部经理、第第33级支持、联网部主管2小时上报副总裁、及时通知主任及网络运行部经理4小时向副总裁、主管、运行部经理、第33级支持提交根源分析,向O CEO通知未排除的故障上报副总裁,及时通知主管及网络运行部经理24小时网络运行部经理5天网络运行部经理迄今为止,服务水平定义始终集中在运行支持部门如何在问题发生后对其采取被动措施上。 运行部门多年前便制定出了包括上述相似内容的运行支持计划。 然而,该方案中忽略了部门如何识别问题以及他们将识别哪些故障等内容。 比较成熟的网络公司试图制定预先确定的网络问题百分率目标来解决这个问题,而不是通过用户故本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 障报告或投诉来被动地确定故障。 下表列出了公司对主动支持功能和被动支持功能的整体测量目标。 网络领域主动故障识别率被动故障识别率LAN80%20%WAN80%20%这为确定更多的主动支持定义开了一个好头,因为它测量起来很简单、也很容易,特别在主动检测工具可自动生成故障票。 这还有助于将网络管理工具/信息集中用于主动排障,而不是在故障发生后被动地查找根源。 然而,这种方法的主要问题在于它无法定义主动支持要求。 这通常会造成主动支持管理功能间的差距并导致更大的可用性风险。 主动服务水平定义更全面的制定服务水平定义方法包括,更详细地解释如何47x24全天候地监控网络,以及运行部门如何47x24全天候对已定义的网络管理站(NMS)门限做出响应。 鉴于管理信息站(MIB)数量的不确定性以及提供B MIB的网络管理信息数量与网络的运行情况相关,因此这看上去是一项无法完成的任务。 同时,完成这项任务需大量资源且代价非常高昂。 不幸的是,这些缺点大大本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 妨碍了我们对主动业务定义的实施,而这种实施从本质上来说非常简单轻松,且只适用于可用性或性能风险极大的网络。 如果公司随后看到了基本主动业务定义的价值,那么只要采用分阶段实施的方法,就能够逐渐添加更多变量,但不会对业务产生重大影响。 所有运行支持方案中均应包括第一个领域的主动业务定义。 该业务定义只是简单阐述运行部门如何识别不同网络区域中的网络或链路故障并对此做出响应。 没有这个定义(或管理支持),公司可能遇到支持不稳定、无法达到用户期望等问题,最终会降低网络可用性。 下表显示了公司如何针对链路/设备故障制定服务定义。 该实例中的企业在每天的不同时段及网络区域方面有着不同的通知和响应要求。 网络设备或链路故障检测方法5x8通知7x24通知5x8排障7x24排障核心LAN P SNMP设备和链路轮询陷阱C NOC创建故障票、向负责N LAN的人员发出寻呼自动向负责LAN的人员发出寻呼、N LAN负责人员为核心LAN队列创建故障票NOC在15分钟内派出出N LAN分析员、根据业务应答定义解决问题立刻研究并排除优先级级11和和22的故障、优先级33和44的故障排队等候次日上午排除国内WAN P SNMP设备和链路轮询陷阱C NOC创建故障票、向负责N WAN的人员发出寻呼自动向负责WAN的人员发出寻呼、N WAN负责人员为核心WAN队列创建故障票NOC在15分钟内派出出N WAN分析员、根据业务应答定义排障立刻研究并排除优先级级11和和22的故障、优先级33和44的故障排队等候次日上午排除外联网P SNMP设备和链路轮询陷阱C NOC创建故障票、向负责合作伙伴自动向负责合作伙伴的人员发出NOC在15分钟内派出合作伙伴分析立刻研究并排除优先级级11和和22的故障、优先本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 的人员发出寻呼寻呼,合作伙伴负责人员为合作伙伴队列创建故障票员、根据业务应答定义排障级33和44的故障排队等候次日上午排除其余的主动服务水平定义可分成两类:网络错误和容量/性能问题。 只有少数网络公司拥有这两个领域的服务水平定义。 因此,这些问题常被忽视或无法得到统一处理。 这对某些网络环境的影响可能不大,但高可用性环境一般都需要一致的主动业务管理。 网络公司希望实现主动业务定义的原因很多,主要是他们尚未基于可用性风险、可用性规划及应用问题对主动业务定义进行要求分析,致使主动业务定义的要求及优势不明确,这主要是因为需要更多的资源。 第二个原因是要平衡能够利用现有及新定义的资源来实施的主动管理数量。 但生成这些告警就可能对可用性或性能产生严重影响。 您还必须考虑事件关联管理或流程,以确保不就同样的问题生成多个主动故障票。 最后一个原因在于:创建一组全新的主动告警经常会生成以前未检测出的初始信息流。 运行部门必须为解决这些最初问题以及增加短期资源做好准备,以便解决这些以前未检测出的问题。 本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 第一类主动服务水平定义是网络错误。 网络错误还可细分为系统错误(包括软硬件错误)、协议错误、媒介控制错误、准确性错误及环境警告。 制定服务水平定义首先要要大体了解如何检测出此类问题、由谁负责解决问题以及故障的影响。 必要时在服务水平定义中添加特定的信息或问题。 您可能还需要在以下领域开展更多工作以确保成功定义:?第第 11、22和和33级支持的责任?利用运行部门能够有效开展的主动工作量来平衡网络管理信息的优先级?按要求进行培训以便确保支持人员能够有效地处理定义的告警?确定事件关联方法以确保不为同样的问题生成多个故障票?记录特定信息或告警,以帮助识别属于第11级支持级别的事件下表是用于网络错误的服务水平实例,帮助您明确了解谁负责发送主动网络故障告警、如何确定故障以及故障影响。 根据上文所述,公司尚需开展更多工作以确保成功。 故障类型检测方法门限采取的行动软件故障(软件造成的每天都使用系统日志查看发生任何优先级 00、11和和22审查问题、创建故障票并在新本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。 文档如有不当之处,请联系本人或网站删除。 故障停机)程序审核系统日志信息由第22级支持完成的故障发生0100多起优先级33(或更高)的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论