服务水平管理和服务水平协议_第1页
服务水平管理和服务水平协议_第2页
服务水平管理和服务水平协议_第3页
服务水平管理和服务水平协议_第4页
服务水平管理和服务水平协议_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

服务水平管理和服务水平合同服务水平管理和服务水平合同(SLA)-09-2008:04:37标签:HYPERLINKSLA[HYPERLINK推送到技术圈]本文描述面对高可用性网络的服务水平管理和服务水平合同(SLA)。它涉及服务水平管理的成功因素以及帮您评定成功与否的性能指标。本文以一种国际性的网络具体描述遵从高可用性业务工作组拟定的最佳方案指导原则的SLA。

作者:汪澍服务水平管理概述

网络公司始终以来都通过构建坚实的网络基础设施及主动解决每个业务问题来满足不停扩展的网络规定。当业务异常中断时,公司将构建新流程、管理功效或基础设施来避免这类故障再次发生。然而,由于快速变更及日益增加的可用性规定,我们现在需要改善模式来预先避免意外故障并快速修复网络。许多服务供应商和公司始终都试图更加好地定义服务水平方便实现商业目的。

核心成功因素

SLA的核心成功因素用来定义支持成功构建可获得的服务水平及维护SLA的重要要素。要成为合格的核心成功因素,流程或流程环节必须能够改善SLA质量并从整体上提高网络的可用性。核心成功因素还应含有可测量性,方便使公司能够判断:与定义的程序相比,它所获得的成功程度。

性能指标

性能指标提供了公司测量核心成功因素的机制。您普通需要每月审查一次,以确保服务水平定义或SLA运行良好。网络运行小组及必要的工具组可实施下列测量原则。

注意:对于没有SLA的公司,我们建议您同时实施服务水平定义、服务水平审核及测量原则。

性能指标涉及:统计的服务水平定义或SLA,涉及可用性、性能、主动业务应答时间、排障目的及问题升级等。月度网络服务水平审核会议,审核对服务水平的执行状况并实施改善。性能指标测量原则,涉及可用性、性能、按优先级划分的业务应答时间、按优先级划分的排障时间以及其它可测量的SLA参数。服务水平管理流程

面对服务水平管理的高级别流程重要涉及两组:

1.定义网络服务水平

2.创立并维护SLA

实施服务水平管理

实施服务水平管理涉及十六步,分为下列两个重要范畴:定义网络服务水平—环节1-6创立并维护SLA—环节7-16定义网络服务水平

网络管理人员需要定义支持、管理并测量网络的重要规则。服务水平为全部网络人员提供目的并可用作整体业务质量的测量原则。您也可将服务水平定义用作网络资源预算工具以及投资于更高服务质量的证据。它们还提供评定供应商及运行商的体现的办法。

如果没有服务水平定义和测量,公司不可能制订明确的目的。服务与否满意由顾客决定,在应用、服务器/客户机运行或网络支持方面并无明显差距。由于公司对最后成果没有把握,因此很难作预算。最后,网络公司在提高网络及支持模式方面都趋向于选择被动应答,而非主动防止的方式。

我们建议采用下列环节来构建并支持服务水平模式:分析技术目的及限制因素。拟定可用性预算。创立具体统计核心应用网络特性的应用资料库。定义可用性、性能衡量原则及通用术语。创立服务水平定义,涉及可用性、性能、业务应答时间、排障平均时、故障检测、升级门限及上报途径。收集测量原则并监控服务水平定义。第1步:分析技术目的及限制因素

开始分析技术目的和限制因素的最佳方式是集体讨论或研究技术目的与规定。由于这些人都有特定的业务目的,因此有时这有助于规定其它IT技术人员参加讨论。技术目的涉及可用性级别、吞吐量、抖动、延迟、应答时间、可用性规定、新特性的推出、新应用的推出、安全性、可管理性及成本等。随即,公司应研究限制因素,方便使用可用资源实现这些目的。您可为每个目的创立带有对限制因素解释的工作表。最初看似大多数目的都无法实现。随即划分目的的优先级或减少对仍可满足商业规定的目的的盼望值。

例如,您制订的可用性级别可能是99.999%,或每年5分钟的故障停机时间。实现这一目的存在大量限制因素,如硬件的单点故障、远程位置中的故障硬件的平均修复时间(MTTR)、运行商可靠性、预先故障检测、高变更率及现在网络容量限制等。因此,您需要将这个目的调节到更加易于实现的级别。下个章节中介绍的可用性模式可帮您制订现实的目的。

您可能也考虑在限制因素相对较少的网络领域提供可用性。当网络公司公布业务的可用性原则时,公司中的各业务部门可能发现无法接受这个级别的可用性。这自然而然引发对SLA的讨论,或为可满足商业规定的模式进行投资/做预算。

拟定全部限制因素或风险的工作涉及要实现技术目的。根据实现抱负目的的最大风险或影响方面划分限制因素的优先级。这可协助公司拟定网络改善计划的优先次序,并拟定解决限制因素的难易程度。限制因素分三类:网络技术、故障恢复能力和配备生命周期方案,涉及:规划、设计、实施和运行现在的话务负载或应用行为网络技术、故障恢复能力及配备限制因素是指与现在技术、硬件、链路、设计或配备有关的任何限制因素或风险。技术限制因素指技术本身造成的任何限制。例如,现在没有一种技术允许冗余网络环境中实现少于1秒的聚合时间,而这恰恰是维持整个网络上的话音连接的核心。另一种例子是数据通过地面链路时的原始速度,大概是100英里/毫秒。

网络硬件故障恢复能力风险调查应集中在硬件拓扑、分级体系、模块化、冗余、MTBF及定义的途径这几方面。网络链路限制因素应强调公司网络链路及运行商连接。链路限制因素可能涉及链路冗余和多样性、媒介限制、布线基础设施、本地环路连接性以及长距离连接性。设计限制因素与网络的物理或逻辑设计有关,涉及从为设备可用空间到路由合同实施的可扩展性等各个方面。您应在配备、可用性、可扩展性、性能及容量方面考虑全部合同和媒介设计。动态主机配备合同(DHCP)、域名系统(DNS)、防火墙、合同转换及网络地址转换等网络业务限制因素也应列入考虑之列。

生命周期方案定义用于实现解决方案的统一布署、检测和修复故障、避免容量或性能问题以及配备一致性和模块化的网络流程和管理。您需要认真考虑这个领域,由于专业技术和流程普通是造成不可用性的最大影响因素。网络生命周期指规划、设计、实施和运行周期。在每个阶段中,您都必须理解性能管理、配备管理、故障管理及安全性等网络管理功效。思科NSA高可用性服务部(HAS)提供网络生命周期评定服务,拟定与网络生命周期方案有关的现在网络可用性限制因素。

现在的话务量或应用限制因素只是指现在话务和应用的影响。

不幸的是,许多应用都带有大量需要谨慎管理的限制因素。现在应用的抖动、延迟、吞吐量及带宽规定普通带有许多限制因素。编写应用的方式也可能产生某些限制因素。汇编应用资料库可帮您更加好地理解这些问题;下文将介绍这一特性。研究现在的可用性、话务、容量及性能还可协助网络管理人员理解现在的服务水平目的及风险。这一工作常通过名为网络基准制订的流程来完毕,该流程可帮您定义规定时段内(普通是一种月)的平均网络性能、可用性或容量。这些信息普通用于容量规划和趋势分析,但也可用来理解服务水平问题。

下面的工作表使用了上述目的/限制因素办法来实现避免安全性攻击或回绝服务攻击(DoS)的目的。您也可使用该工作表来决定可最大程度地减少安全性攻击的业务范畴。风险或限制因素限制因素类型潜在影响可用的DoS检测工具无法检测出全部DoS攻击类型。技术/故障恢复能力高不含有对告警做出对应所需的人员和流程。生命周期方案高现在网络接入方略未加执行。生命周期方案普通如果运用带宽拥塞来发动攻击,则现在的低带宽互联网连接成为限制因素。网络容量普通协助避免攻击的现在安全性配备不完善。技术/故障恢复能力普通第2步:拟定可用性预算

可用性预算是盼望在定义的两点间出现的、理论上的网络可用性。精确的理论信息可在多个方面发挥作用:公司可将其视为内部可用性目的,并且能够立刻定义偏离并进行补救。网络规划人员可使用这些信息来拟定系统的可用性,以确保设计满足商业规定。造成不可用性或故障停机的因素涉及软硬件故障、电源和环境问题、链路或运行商故障、网络设计、人为错误或缺少流程等。在评定网络的整体可用性预算时,您必须严格评定上述的全部参数。

如果公司现在正在测量可用性,则可能不需要可用性预算。用可用性测量原则作为基准来评定服务水平定义使用的现在服务水平。然而,您可将两者进行对比,方便理解潜在的理论可用性与实际测量成果间的差距。

可用性指产品或业务在需要时投入运行的可能性。参见下列定义:

a.可用性

¨1-(总的连接中断时间)/(总服务连接时间)

¨1-[总和(业务中断期间受影响的连接数量X业务中断时间)]/(运行的连接数量X运行时间)

b.不可用性

1-由下列因素造成的可用性或总的连接中断时间:软硬件故障、电源和环境问题、链路和运行商故障、网络设计、顾客错误及流程故障等。

c.硬件可用性

首先需要研究的领域是潜在硬件故障及其对不可用性的影响。要拟定这方面的影响,公司应理解全部网络组件的MTBF以及MTTR,以拟定两点间的途径中全部设备的潜在硬件问题。如果网络采用模块化和分级体系构造,则几乎任意两点间的硬件可用性都是相似的。MTBF信息可用于全部思科组件,并且可根据请求、向本地客户经理提供。CiscoNSAHAS项目还使用一种工具来协助拟定硬件可用性及网络途径,即使在系统中存在模块冗余、机底冗余及途径冗余时也能够使用这种工具。硬件可靠性的一种重要因素是MTTR。公司应评定它们修复故障硬件的速度。如果公司未制订备用方案,只依赖于原则CiscoSMARTnet?合同,则潜在的评定硬件更换时间为24小时。在带有核心冗余但不带有接入。

冗余的典型LAN环境中,适宜的可用性是99.99%,平均修复时间是4-小时。

d.软件可用性

下一种需要研究的领域是软件故障。出于测量的目的,思科将软件故障定义为由软件错误引发的设备冷启动。思科已经开发出许多流程来协助理解软件的可用性;然而,更新的版本尚需一段时间进行测量,并且我们认为它的可用性不及普通的布署软件。IOS11.2版(18)等普通布署软件经测量,证明含有99.9999%的可用性。这个数字是基于修复时间为六分钟(路由器重新装载的时间)的思科路由器的实际冷启动次数来计算的。采用不同版本的公司,可用性将随着复杂性的增加、互操作性的增强以及排障时间的缩短略有减少。采用最新软件版本的公司,不可用性将有所提高。不可用性的分派也相称广泛,这意味着客户将感觉到很高的不可用性或靠近普通布署版本的可用性。

e.环境和电源的可用性

您还必须考虑环境和电源的可用性问题。环境问题与将设备保持在特定的运行温度范畴内的冷却系统的故障有关。当温度大大超出技术指标时,许多思科设备只是停止运转,而不会损害全部硬件。出于可用性预算的目的,您必须将电源考虑在内,由于它是造成本领域中不可用性的重要因素。

即使电源故障是造成网络不可用性的重要因素,但对它的讨论还是受到限制,这是由于无法进行精确的、理论上的电源分析。公司必须基于所在地区的经验、电源备份功效以及实施的流程,对其设备的电源可用性的大概测量成果进行评定,以确保为全部设备提供含有一致质量的电源。

基于保守的预计,我们能够认为配备了备用发电机、不间断供电电源(UPS)系统并采用合格电源实施流程的公司,可实现高达六个九(99.9999%)的可用性,而未配备这些系统的公司,其可用性仅为99.99%,或者说每年有36分钟的故障停机时间。固然,您可根据公司的观察或实际数据来调节这些数值,使其更真实地反映公司的具体状况。

f.链路或运行商故障

链路和运行商故障是影响WAN环境中的可用性的重要因素。切记:WAN环境只是同公司网络遭遇同样可用性问题的其它网络,涉及:软硬件故障、顾客错误及电源故障等。

许多运行商网络都已经开始对系统进行可用性预算,但获得这些信息并不容易。切记,运行商的可用性确保级别极少基于或根本不基于实际可用性预算。这些确保级别有时只是用来提高运行商出名度的营销和销售办法。在某些状况下,这些网络还公布看似互相突出的可用性统计数据。切记,这些统计数据可能只合用于完全冗余的核心网络,而不作为造成不可用性的因素(不可用性由本地环路接入引发),本地环路接入才是WAN网络中不可用性的重要因素。

对WAN环境进行可用性评定应基于实际的运行商信息以及WAN连接的冗余级别。如果公司拥有多个大楼入口设施,冗余本地环路供应商、同时光网络(SONET)本地接入、以及分布在多个地区的冗余长途运行商,则WAN的可用性将得到明显增强。

电话业务是WAN环境中、非冗余网络连接相称精确的可用性预算。使用类似于本文所描述的可用性预算办法进行测量,电话业务的端到端连接的可用性预算大概为99.94%。这种办法业已成功应用于数据环境中,成果基本相似,现在正被用作服务供应商有线网络中分组有线规程的预算。如果将该数值用于完全冗余的系统,则我们能够假定,WAN可用性会靠近99.9999%。固然,由于成本及可用性问题,现在极少有哪家公司布署了分布在多个地区且完全冗余的WAN系统,因此应使用适宜的判断办法测定这种功效。

LAN环境中不太可能发生链路故障,然而,规划人员可能但愿假定连接器断开或松动会引发短时间的故障停机。对LAN网络而言,保守的可用性预计约为99.9999%,或大概30秒故障停机/年。

g.网络设计

网络设计是影响可用性的另一种重要因素。不可扩展的设计、设计错误及网络聚合时间都会对可用性产生负面影响。

注意:出于本文的目的,我们将在下面的篇幅中描述不可扩展的设计或设计错误。

网络设计被限定在可测量的数值上(基于网络中造成话务重新路由的软硬件故障)。这些数值普通被称作“系统故障切换时间”,并且是系统中自治愈合同功效的影响因素。

使用与系统计算相似的办法便可计算可用性。然而,它只有在网络故障切换时间满足网络应用规定时才有效。如果故障切换时间能够接受,则不把它计算在内。如果故障切换时间不能接受,则计算时必须将其考虑在内,例如:预计或实际的故障切换时间为30秒的环境中下的IP话音(VoIP)。在这个例子中,顾客只是挂断电话,并有可能重新拨叫。顾客必定会将这30秒看作是非可用时段,但在可用性预算时却未加考虑。

根据系统故障切换时间来计算不可用性时要着眼于理论的软硬件可用性以及冗余途径,由于故障切换将出现在这个领域。您必须理解可能发生故障并造成冗余途径中出现故障切换的设备数量,这些设备的MTBF以及故障切换时间。一种简朴的例子就是,冗余的相似设备中,每台设备的MTBF为35433小时,故障切换时间为30秒。用35,433除以8766(年平均小时数,涉及闰年),我们能够看出该设备每四年出现一次故障。如果使用30秒作为故障切换时间,我们便能够假设:由于故障切换,每台设备每年平均停机7.5秒。由于顾客可能会跨两条途径,因此需要将此成果乘以2,即:每年15秒。当以秒/每年进行计算时,这个简朴系统中由于故障切换引发的可用性的计算成果为99.99999785%。由于可能出现故障切换的网络中的冗余设备数量,在其它环境中,这个数字可能还要略高些。

h.顾客错误和流程

顾客错误和流程可用性问题是造成公司和运行商网络中不可用性的重要因素。约80%的不可用性问题是由于无法检测错误、变化故障及性能问题造成的。

公司在制订可用性预算时,不乐意接受顾客错误和流程引发的不可用性是其它全部理论上的不可用性的四倍这一实施,然而,多种证据一致表明,这种状况存在于许多环境中。下面我们将具体论述不可用性的这个方面。

由于您无法从理论上计算由顾客错误和流程引发的不可用性数量,我们建议您在制订公司力求完美的可用性预算时不将其考虑在内。但公司必须理解其流程和专业技术水平中现在所面临的可用性风险。透彻地理解了这些风险及克制因素之后,网络规划人员便有可能将这些问题引发的一定数量的不可用性考虑在内。CiscoNSAHAS项目进一步研究了这些问题,并可协助公司理解由于流程、顾客错误或专业技术问题引发的不可用性。

i.制订最后的可用性预算

您可将以前定义的全部领域的可用性相乘来决定整个可用性预算。这种办法普通合用于任意两点间的连接相类似的同机种环境,如:分级体系模块化LAN环境或分级体系原则WAN环境等。

这下面的例子中,为分级体系模块化LAN环境拟定了可用性预算。该环境为全部网络组件都配备了备用发电机和UPS系统,并对电源进行适宜的管理。公司未使用VoIP,也不但愿将软件故障切换时间考虑在内。估算成果以下:两个端点间的硬件途径可用性=99.99%使用GD软件可靠性作为基准的软件可用性=99.9999%带有备用系统的环境和电源可用性=99.999%考虑LAN环境中的链路故障的可用性=99.9999%未将系统故障切换时间计算在内的可用性=100%认为不存在顾客错误和流程缺点的可用性=100%公司但愿达成的最后可用性预算是:0.9999X0.999999X0.999999X0.999999=0.999896,或99.9896%的可用性。如果我们将顾客或流程错误引发的潜在不可用性考虑在内,并假设其引发的不可用性是技术因素引发的可用性的四倍,则最后可用性预算是99.95%。

对这个例子的分析使我们理解到,LAN可用性在99.95%与99.989%之间。现在,这些数值能够用作网络公司的服务水平目的。能够测量系统中的可用性并拟定上述六个领域分别引发的不可用性百分率来计算其它数值。这使公司能够对供应商、运行商、流程和人员进行适宜评定。这些数值也可用来设立业务盼望值。如果您对99.95%与99.989%之间的可用性不满意,可投资更多资源来获得抱负的可用性级别。

网络管理人员理解每个特定可用性级别的故障停机时间将大有协助。计算任何可用性级别的年故障停机时间(分钟)的公式以下:

故障停机(分钟)/年=525600—(可用性级别X5256)

如果可用性级别是99.95%,则成果是525600。(99.95X5256),或者相称于222.8分钟的故障停机。对于上述可用性定义,这等于网络中全部业务连接的平均故障停机时间。

第3步:创立应用资料库

应用资料库可协助网络公司理解并定义每个应用的网络服务水平规定。这有助于确保网络支持每个应用规定及整体网络业务。当应用或服务器组指出网络存在问题时,应用资料库还可用作网络服务支持的书面基准。最后,应用资料库可将性能及可用性等应用规定与真实的网络业务目的或现在限制因素进行对比,来调节网络业务目的,使其与商业规定保持一致。这不仅对服务水平管理很重要,并且对整个网络设计也相称重要。

每次向网络中添加新应用时都应创立应用资料库。您还可能需要在IT应用部门、服务器管理部门以及组网部门间达成合同,方便为现有及全新业务创立应用资料库,完毕用于商业应用及系统应用的应用资料库。商业应用可能涉及电子邮件、文献传输、Web浏览、医疗图象解决或制造等。系统应用可能涉及软件分发、顾客鉴权、网络备份及网络管理等。

网络分析员及应用或服务器支持应用小组应负责创立应用资料库。新应用可能规定使用合同分析程序以及含有延迟模拟功效的WAN模拟程序来适宜地划分应用规定的特性。这有助于拟定必要带宽、应用可用性的最大延迟及抖动规定。只要您含有所需服务器,便可在实验室环境中开展这项工作。在VoIP等其它状况下,涉及抖动、延迟及带宽在内的网络规定会较好地公布,且无需再进行实验室测试。应用资料库应涉及下列项目:应用名称应用类型新应用业务重要性可用性规定使用的合同和端口预计的顾客带宽(kbps)顾客数量和位置文献传输规定(涉及时间、量及端点)网络故障停机影响延迟、抖动及可用性规定应用资料库的目的是理解应用的商业规定、业务核心性以及带宽、延迟及抖动等网络规定。另外,网络公司还应理解网络故障停机的影响。在某些状况下,您可能需要重启应用或服务器,这将大幅度延长总的应用故障停机时间。完毕应用资料库后,您可将全部网络功效进行对比,并协助调节网络服务水平,使其与商业和应用规定相一致。

第4步:定义可用性及性能原则

可用性及性能原则为公司制订业务盼望值。可根据不同网络区域或特定应用进行定义这些原则。还能够拟定来回延迟、抖动、最大吞吐量、带宽承诺及总体可扩展性等方面的性能。另外,为了制订业务盼望值,公司还应谨慎定义每个业务原则,方便使致力于网络工作的顾客及IT工作组能够全方面理解业务原则以及他们与应用或服务器管理规定的关系。顾客及IT工作组还应理解如何测量业务原则。

以前服务水平定义环节的成果能够协助制订原则。这时,网络公司应明确理解现在网络所面临的风险和限制因素及应用行为,并进行理论上的可用性分析或制订可用性基准。定义业务原则合用的地理区域或应用领域,可能涉及园区LAN、本国WAN、外联网及合作伙伴连接等。在某些状况下,公司在相似区域内的服务水平目的可能有所不同。这对公司或服务器供应商来说并不罕见。这时,它们普通基于各自的业务规定制订不同的服务水平原则。这些在同一地理区域或服务区域中的原则有金牌、银牌和铜牌之分。定义业务原则参数。可用性及来回延迟是最常见的网络业务原则。根据需要,还能够涉及最大吞吐量、最低带宽承诺、抖动、接受的错误率以及可扩展性功效。当审核用于测量办法的业务参数时要特别谨慎。无论参数与否涉及在SLA中,公司都应考虑出现问题或业务不一致性时,如何测量并证明业务参数的可行性。完毕对业务领域和业务参数的定义后,您可使用以前环节获得的信息来构建业务原则图。公司还需要定义可能使顾客和IT工作组产生混淆的区域。例如,来回ping的最长应答时间与在远程位置单击回车键启动特定应用的

最长应答时间有很大区别。下表列出了美国采用的性能目的:网络区域可用性目的管理办法平均网络应答时间目的可接受的最常应答时间应答时间管理办法LAN99.99%受影响的顾客时间5毫秒内10毫秒来回ping应答WAN99.9%受影响的顾客时间100毫秒内(来回ping)150毫秒来回ping应答核心WAN及外联网99.95%受影响的顾客时间100毫秒内(来回ping)150毫秒来回ping应答第5步:定义网络业务

这是实现基本的服务水平管理的最后一步;它定义您实施用于实现服务水平目的的被动/主动流程和管理功效。最后文献普通被称作“运行支持计划”。大多数应用支持计划只涉及被动支持规定。在高可用性环境中,公司必须考虑采用主动的管理流程,方便在网络故障发生前对其进行隔离并加以解决解决。总的来说,最后文献应:描述用于实现服务水平目的的被动和主动流程介绍业务流程的管理方式介绍测量业务目的和业务流程的方式本部分将描述许多服务供应商和公司均需考虑的主动和被动业务定义的实例。构建服务水平定义的目的是创立满足可用性及性能目的的业务。为了实现上述目的,公司必须构建业务,并谨记现在的技术限制因素、可用性预算及应用资料库。特别是,公司应定义并构建始终能够在可用性模式规定的时间内快速拟定并排除故障的业务。公司还必须定义可快速识别并解决潜在业务问题的业务,如果无视这些问题,将对可用性及性能产生负面影响。

实现抱负的服务水平非一朝一夕之事。专业水准低、现在流程限制或人员不合格等缺点将妨碍公司实现抱负的原则或目的,即使在完毕对以前业务环节的分析后也是如此。没有一种办法可将所需服务水平与抱负目的精确匹配。为了适应现实状况,公司应测量业务原则及用于支持业务原则的业务参数。如果没有达成业务目的,公司应运用业务测量原则来协助理解问题。在许多状况下,可适宜增加预算以改善支持业务,并使这些改善功效成为实现抱负业务目的的必要条件。公司可能会逐步进行多次调节(涉及业务目的或业务定义),以使网络业务与商业规定保持一致。

例如,当目的远远高于99.9%可用性时,公司可能只实现了99%的可用性。在服务及支持测量原则方面,公司代表发现硬件替代约需要24小时,远远高出最初的预计的4小时。另外,公司还发现主动管理功效受到无视且故障的冗余网络设计没有及时修复。公司发现的问题尚有缺少实施改善的员工等。因此,考虑减少现在服务目的后,公司便投资购置实现抱负服务水平所需的其它资源。业务定义应同时涉及主动和被动支持定义。被动定义规定公司如何解决根据顾客投诉或网络管理功效中拟定已经发生的问题。主动定义描述公司如何拟定并解决潜在的网络问题,涉及修复故障的“备用”网络组件、错误检测、容量门限问题及升级问题等。下列提供主动与被动服务水平定义实例。

被动服务水平定义

下列的服务水平领域普通使用协助台数据库统计数据进行测量并定时审计。下表显示公司故障严重程度的实例。请注意:此表不涉及解决新业务请求的方式,这项工作可通过SLA或其它应用资料库编制及性能假设分析来完毕。如果通过相似的支持流程进行解决,新业务请求能够数据严重级别5。严重级别1严重级别2严重级别3严重级别4严重的业务影响

LAN顾客或服务器部分停机

严重的WAN站点故障停机网络功效的丢失或降级对业务造成严重影响,可能需要运行应变方法

园区LAN故障停机;5-99名顾客受到影响

国内WAN站点故障停机

国际WAN站点故障停机

严重影响性能某些特定的网络功效丢失或降级,如:冗余丢失等

园区LAN性能受到影响LAN冗余丢失对公司无业务影响的功效查询或故障完毕问题严重性级别定义之后,定义或研究创立业务应答定义的支持流程。总的来说,业务应答定义规定采用分级支持构造,以及协助台软件支持系统来运用故障票跟踪问题。同时还应为每个优先级故障的应答时间和解决时间、按优先级划分的呼喊数量以及应答解决质量制订测量原则。定义支持流程可协助定义公司内部每个支持级别的目的及其任务与责任。这有助于公司理解用于每个支持级别的资源规定及专业技术水平。下表举例阐明了分级支持构造及其问题解决指导原则。支持级别职责目的第1级支持专职协助台支持

接听支持电话、发放故障票、15分钟内解决问题、统计故障票并上报到第2级支持解决40%的入局呼喊第2级支持队列监控、网络管理、工作站管理

为拟定的软件故障发放故障票

实施

接听第1级、供应商的电话,并上报到第3级支持

对呼喊负责,直到排障为止在第2级解决全部呼喊第3级支持必须立刻为第2级提供优先级为1的全部故障所需的支持

同旨在SLA解决期限内协助解决全部第2级未排除的故障不直接对故障负责下一步是拟定业务应答及排障业务定义。它为如何快速排障(涉及硬件更换在内)制订了目的。为这个领域制订目的是非常重要的,由于业务应答及恢复时间直会接影响网络的可用性。问题解决时间也要与可用性预算保持一致。如果在制订可用性预算时未将大量高严重级别的故障考虑在内,则公司随即将需开展大量工作来理解这类故障的本源及可能的弥补办法。详见下表:问题严重级别协助台应答第2级应答现场第2级硬件更换解决问题1立刻上报到第2级,网络运行部经理5分钟2小时2小时4小时2立刻上报到第2级,网络运行部经理5分钟4小时4小时8小时315分钟2小时12小时24小时36小时415分钟4小时3天3天6天除业务应答及业务排障外,还需制订上报规定。上报表有助于确保将可用资源集中用于解决严重影响业务的问题。总的来说,如果分析员集中精力解决问题时,他们极少重视运用其它资源来解决问题。定义何时需要其它资源有助于增进管理层对问题的认识,并有助于促成将来的主动测量或防止性测量。详见下表:过去的时间严重级别1严重级别2严重级别3严重级别45分钟网络运行部经理、第3级支持、联网部主管1小时及时告知网络运行部经理、第3级支持、联网部主管及时告知网络运行部经理、第3级支持、联网部主管2小时上报副总裁、及时告知主任及网络运行部经理4小时向副总裁、主管、运行部经理、第3级支持提交本源分析,向CEO告知未排除的故障上报副总裁,及时告知主管及网络运行部经理24小时

网络运行部经理5天网络运行部经理迄今为止,服务水平定义始终集中在运行支持部门如何在问题发生后对其采用被动方法上。运行部门数年前便制订出了涉及上述相似内容的运行支持计划。然而,该方案中无视了部门如何识别问题以及他们将识别哪些故障等内容。比较成熟的网络公司试图制订预先拟定的网络问题百分率目的来解决这个问题,而不是通过顾客故障报告或投诉来被动地拟定故障。

下表列出了公司对主动支持功效和被动支持功效的整体测量目的。网络领域主动故障识别率被动故障识别率LAN80%20%WAN80%20%这为拟定更多的主动支持定义开了一种好头,由于它测量起来很简朴、也很容易,特别在主动检测工具可自动生成故障票。这尚有助于将网络管理工具/信息集中用于主动排障,而不是在故障发生后被动地查找本源。然而,这种办法的重要问题在于它无法定义主动支持规定。这普通会造成主动支持管理功效间的差距并造成更大的可用性风险。

主动服务水平定义

更全方面的制订服务水平定义办法涉及,更具体地解释如何7x24全天候地监控网络,以及运行部门如何7x24全天候对已定义的网络管理站(NMS)门限做出响应。鉴于管理信息站(MIB)数量的不拟定性以及提供MIB的网络管理信息数量与网络的运行状况有关,因此这看上去是一项无法完毕的任务。同时,完毕这项任务需大量资源且代价非常高昂。不幸的是,这些缺点大大妨碍了我们对主动业务定义的实施,而这种实施从本质上来说非常简朴轻松,且只合用于可用性或性能风险极大的网络。如果公司随即看到了基本主动业务定义的价值,那么只要采用分阶段实施的办法,就能够逐步添加更多变量,但不会对业务产生重大影响。

全部运行支持方案中均应涉及第一种领域的主动业务定义。该业务定义只是简朴论述运行部门如何识别不同网络区域中的网络或链路故障并对此做出响应。没有这个定义(或管理支持),公司可能碰到支持不稳定、无法达成顾客盼望等问题,最后会减少网络可用性。

下表显示了公司如何针对链路/设备故障制订服务定义。该实例中的公司在每天的不同时段及网络区域方面有着不同的告知和响应规定。网络设备或链路故障检测办法5x8

告知7x24

告知5x8

排障7x24

排障核心LANSNMP设备和链路轮询陷阱NOC创立故障票、向负责LAN的人员发出寻呼自动向负责LAN的人员发出寻呼、LAN负责人员为核心LAN队列创立故障票NOC在15分钟内派出LAN分析员、根据业务应答定义解决问题立刻研究并排除优先级1和2的故障、优先级3和4的故障排队等待次日上午排除国内

WANSNMP设备和链路轮询陷阱NOC创立故障票、向负责WAN的人员发出寻呼自动向负责WAN的人员发出寻呼、WAN负责人员为核心WAN队列创立故障票NOC在15分钟内派出WAN分析员、根据业务应答定义排障立刻研究并排除优先级1和2的故障、优先级3和4的故障排队等待次日上午排除外联网SNMP设备和链路轮询陷阱NOC创立故障票、向负责合作伙伴的人员发出寻呼自动向负责合作伙伴的人员发出寻呼,合作伙伴负责人员为合作伙伴队列创立故障票NOC在15分钟内派出合作伙伴分析员、根据业务应答定义排障立刻研究并排除优先级1和2的故障、优先级3和4的故障排队等待次日上午排除其它的主动服务水平定义可分成两类:网络错误和容量/性能问题。只有少数网络公司拥有这两个领域的服务水平定义。因此,这些问题常被无视或无法得到统一解决。这对某些网络环境的影响可能不大,但高可用性环境普通都需要一致的主动业务管理。

网络公司但愿实现主动业务定义的因素诸多,重要是他们尚未基于可用性风险、可用性规划及应用问题对主动业务定义进行规定分析,致使主动业务定义的规定及优势不明确,这重要是由于需要更多的资源。

第二个因素是要平衡能够运用现有及新定义的资源来实施的主动管理数量。但生成这些告警就可能对可用性或性能产生严重影响。您还必须考虑事件关联管理或流程,以确保不就同样的问题生成多个主动故障票。最后一种因素在于:创立一组全新的主动告警经常会生成以前未检测出的初始信息流。运行部门必须为解决这些最初问题以及增加短期资源做好准备,方便解决这些以前未检测出的问题。

第一类主动服务水平定义是网络错误。网络错误还可细分为系统错误(涉及软硬件错误)、合同错误、媒介控制错误、精确性错误及环境警告。制订服务水平定义首先要要大致理解如何检测出这类问题、由谁负责解决问题以及故障的影响。必要时在服务水平定义中添加特定的信息或问题。您可能还需要在下列领域开展更多工作以确保成功定义:第1、2和3级支持的责任运用运行部门能够有效开展的主开工作量来平衡网络管理信息的优先级按规定进行培训方便确保支持人员能够有效地解决定义的告警拟定事件关联办法以确保不为同样的问题生成多个故障票统计特定信息或告警,以协助识别属于第1级支持级别的事件下表是用于网络错误的服务水平实例,协助您明确理解谁负责发送主动网络故障告警、如何拟定故障以及故障影响。根据上文所述,公司尚需开展更多工作以确保成功。故障类型检测办法门限采用的行动软件故障(软件造成的故障停机)每天都使用系统日志查看程序审核系统日志信息

由第2级支持完毕发生任何优先级0、1和2的故障

发生100多起优先级3(或更高)的故障审查问题、创立故障票并在新问题出现或问题需要特别注意时派出人员解决硬件故障(硬件造成的故障停机)每天都使用系统日志查看程序审核系统日志信息

由第2级支持完毕任何第0、1和2优先级别的故障的发生

发生100多起优先级3(或更高)的故障审核问题、创立故障票并在新问题出现或问题需要特别注意时差遣人员解决合同错误(只合用于IP路由合同)使用系统日志查看程序每日审核系统日志信息

由第2级支持完毕发生任何优先级0、1和2的故障

发生100多起第3优先级(或更高)故障审核问题、创立故障票并在新问题出现或问题需要特别注意时派出人员解决媒介控制故障(只限于FDDI、POS及快速以太网)使用系统日志查看程序每日审核系统日志信息

由第2级支持完毕任何第0、1和2优先级别的故障的发生

发生100多起优先级3(或更高)的故障审核问题、创立故障票并在新问题出现或问题需要特别注意时派出人员解决环境信息(电源和温度)使用系统日志查看程序每日审核系统日志信息

由第2级支持完毕任何信息对新问题创立故障票并差遣有关人员解决问题精确度错误(链路输入错误)每五分钟进行一次SNMP轮询

NOC受理的门限事件输入或输出错误

任何链路上、每5分钟出现一次错误对新问题创立故障票并派出第2级支持人员解决问题另一类主动服务水平是性能及容量。真正的性能和容量管理涉及例外状况管理、基准制订与趋势分析以及假设分析。服务水平定义只定义需要调查或更新的性能及容量的例外门限以及平均门限。随即,能够以某种方式将这些门限应用到三种性能和容量管理流程中。

容量及性能服务水平定义可细分成几个类别:网络链路、网络设备、端到端性能及应用性能。制订这些领域的服务水平定义需要含有与设备容量、媒介容量、QoS特性及应用规定的特定领域有关的渊博技术知识。出于这个因素,我们建议网络设计师通过供应商输入的信息制订与性能和容量有关的服务水平定义。

与网络错误相似,为容量和性能制订服务水平定义首先应大致理解如何检测这类故障、由谁负责排障以及故障的影响。必要时向服务水平定义中添加特定的信息或问题。您可能还需要在下列领域开展更多工作以确保成功:明确理解应用性能规定基于业务规定及总成本,对公司重要的门限值进行进一步的技术研究预算周期以内和以外的升级规定第1、2和3级支持的责任运用运行部门能够有效开展的主开工作量平衡的网络管理信息的优先级及危急程度按规定进行培训方便确保支持人员理解信息或告警,并可有效地解决所定义的状况拟定事件关联办法以确保不为同样的问题生成多个故障票统计特定信息或告警,以协助识别属于第1级支持的事件下表是面对链路使用状况的服务水平定义实例,协助您明确理解谁负责发送主动网络故障告警、如何拟定故障以及故障影响。公司仍需开展上面定义的更多工作以确保成功。网络领域/媒介检测办法门限采用的行动园区LAN骨干及分派链路五分钟进行一次SNMP轮询

核心及分派链路上的RMON例外陷阱每五分钟的使用率为50%

通过例外陷阱实现90%的使用率向性能和容量电子邮件别名发送电子邮件告知

安排小组组解决问题或制订升级计划国内WAN链路五分钟进行一次SNMP轮询每五分钟的使用率为75%向性能电子邮件别名发送电子邮件告知

安排工作组评定QoS规定或为重复出现的故障制订升级计划外联网WAN链路五分钟进行一次SNMP轮询每五分钟的使用率为65%向性能和容量电子邮件别名发送电子邮件告知

安排工作组评定QoS规定或为重复出现的故障制订升级计划下表给出了设备容量和性能门限的服务水平定义,以确保您创立对避免出现网络故障或可用性问题故意义、很有用的门限。这是一种非常重要的领域,由于未检测出的设备控制板资源问题可对网络造成严重影响。设备重要信息检测办法门限采用的行动Cisco7500CPU、内存、显卡五分钟进行一次SNMP轮询

面对CPU的RMON告知五分钟内的CPU使用率门限是75%,达成99%时,运用RMON发出告知五分钟内的内存使用率门限是50%、显卡使用率门限是99%向性能和容量电子邮件别名工作组发送电子邮件告知方便解决问题或制订升级计划RMONCPU为99%,发放故障票并向第2级支持人员发送寻呼Cisco2600CPU、内存、五分钟进行一次SNMP轮询五分钟内的CPU使用率门限是75%五分钟内的内存使用率门限是50%向性能和容量电子邮件别名工作组发送电子邮件告知方便解决问题或制订升级计划Catalyst?5000背板使用状况、内存五分钟进行一次SNMP轮询背板使用率门限是50%

内存使用率门限是75%向性能和容量电子邮件别名工作组发送电子邮件告知方便解决问题或制订升级计划LightStream?1010ATM

switchCPU、内存五分钟进行一次SNMP轮询CPU使用率门限是65%

内存使用率门限是50%向性能和容量电子邮件别名工作组发送电子邮件告知方便解决问题或制订升级计划下表给出了端到端性能和容量的服务水平定义。这些门限值普通基于应用规定,但也可用于批示某类网络性能或容量问题。由于测量网络中任意两点间的性能需要大量资源并会带来大量的网络开销,因此大多数有性能服务水平的公司都只创立少数性能定义。这些端到端的性能问题也可能出现在链路或设备容量门限中。我们建议根据地理位置制订普通定义。必要时需添加某些核心站点及链路。网络领域/媒介测量办法门限采用的行动园区LAN无

不会出现问题

很难测量整个LAN基础设施始终确保10-毫秒或更短的来回响应时间或向性能和容量电子邮件别名工作组发送电子邮件告知方便解决问题或制订升级计划国内WAN链路现在只使用互联网监视器(IPM)和ICMP回声完毕从SF到NY以及从SF到芝加哥的测量五分钟内平均来回应答时间为75-毫秒向性能电子邮件别名工作组发送电子邮件告知,方便评定QoS规定或为重复出现的故障制订升级计划旧金山到东京现在只使用互联网监视器(IPM)和ICMP回声完毕从旧金山到布鲁塞尔的测量五分钟内平均来回应答时间为250-毫秒向性能电子邮件别名工作组发送电子邮件告知,方便评定QoS规定或为重复出现的故障制订升级计划旧金山到布鲁塞尔现在只使用互联网监视器(IPM)和ICMP回声完毕从旧金山到布鲁塞尔的测量五分钟内平均来回应答时间为175-毫秒向性能电子邮件别名工作组发送电子邮件告知,方便评定QoS规定或为重复出现的故障制订升级计划服务水平定义的最后一种领域是应用性能。由于服务器本身的性能和容量可能是应用性能的最大影响因素,因此应用性能的服务水平定义普通由应用或服务器管理部门制订。网络公司可通过为应用性能创立服务水平定义获得巨大收益,由于:服务水平定义及测量有助于消除部门间的冲突。如果已为核心应用配备了QoS并将其它话务视为可选,则每个应用的服务水平定义都非常重要。如果您选择创立并测量应用性能,最佳不要测量服务器本身的性能。这将有助于将网络故障与应用或服务器故障辨别开来。使用运行在思科路由器上的探针或系统可用性代理软件以及控制数据包类型及测量频率的IPM控制。

下表给出了用于应用性能的简朴服务水平定义。应用测量办法门限采用的行动公司资源规划(ERP)应用

TCP端口1529

布鲁塞尔到SF使用IPM测量端口1529来回性能来完毕从布鲁塞尔到旧金山的测量,布鲁塞尔网关到SFO网关2五分钟内平均来回应答时间为175-毫秒向性能电子邮件别名工作组发送电子邮件告知,方便评定问题或为重复出现的问题制订升级计划RP应用

TCP端口1529

东京到SF使用IPM测量端口1529来回性能来完毕从布鲁塞尔到旧金山的测量布鲁塞尔网关到SFO网关2五分钟内平均来回应答时间为200-毫秒向性能电子邮件别名工作组发送电子邮件告知,方便评定问题或为重复出现的问题制订升级计划客户支持应用

TCP端口1702

悉尼到SF使用IPM测量端口1702来回性能来完毕从悉尼到旧金山的测量悉尼网关到SFO网关1五分钟内平均来回应答时间为250-毫秒向性能电子邮件别名工作组发送电子邮件告知,方便评定问题或为重复出现的问题制订升级计划第6步:收集测定原则和监控

服务水平定义本身并无多大价值,只有在公司收集测定原则和监控与否成功时才干体现出价值。在定义核心服务水平的过程中要定义其测定方法和报告方式。测定服务水平可拟定公司与否在实现目的,还能够拟定造成可用性和性能问题的根本因素。另外,在选择服务水平定义的测定办法时,还要考虑到定义的目的。有关更多信息请参阅“制订和维护服务水平合同(SLA)”。

监控服务水平需要定时召开总结会议以对业务进行阶段性的讨论,普通每月召开一次这样的会议。讨论内容涉及全部测定原则以及这些原则与否与目的一致。如果存在不一致,找出问题的根本因素,并进行改善。讨论内容还应涉及现在的计划和具体案例的进展状况。

制订和维护服务水平合同

服务水平定义是抱负的构成部分,由于它有助于在整个公司范畴内建立一种统一的服务质量和提高可用性。下一步是作为一项改善成果的服务水平合同,这是由于通过这一步能够将公司目的和成本规定直接与业务质量相协调统一。然后,合理计划的服务水平合同能够作为一种模式来提高效率、质量,并通过保持清晰的业务网络维护和故障排除过程来协调顾客与支持部门之间的关系。

服务水平合同含有下列几方面的优点:服务水平合同建立了双方业务责任制,也就是说,顾客和应用部门对网络业务都有责任。如果双方不采用行动来为具体业务建立一种服务水平合同;或不与网络部门就业务影响问题进行交流,那么,双方事实上对所发生的问题都有责任。服务水平合同有助于拟定原则工具和满足业务规定所需的资源。不通过服务水平合同来拟定工作人数和所使用的工具普通只能人为地预计。在这种状况下,从事某一业务的工作人员可能过剩并造成过多支出;也可能局限性而造成无法满足公司目的的规定。调节服务水平合同有助于实现最优化的合理分派。

以文献形式存在的服务水平合同提供一种更简朴精确的办法来拟定业务级别的盼望值。

定义了业务级别之后,我们推荐采用下列环节来编制服务水平合同:

7.满足服务水平合同的必要条件。

8.拟定服务水平合同所涉及的有关各方。

9.拟定业务组分。

10.理解顾客业务需求和目的。

11.拟定每个部门所需的服务水平合同。

12.选择服务水平合同的格式。

13.成立服务水平合同工作组。

14.召开工作组会议并草拟服务水平合同。

15.商讨服务水平合同。

16.测定和监控服务水平合同与否符合规定。第7步:满足服务水平合同的必要条件

IT服务水平合同编制领域的专业人士拟定了服务水平合同成功的3个必要条件。遗憾的是,不能满足这些客观规定的公司在服务水平合同的进程中可能会碰到问题,这些公司还应考虑服务水平合同流程中的潜在问题。如果联网部门能够定义满足基本业务规定的业务级别,即使未执行服务水平合同,也不会带来害处。

下列是服务水平合同流程的必要条件:公司必须含有面对业务的文化。公司必须将顾客需要放在首位,还要恪守优先权自上而下的业务承诺以完全理解顾客需要和想法。

进行顾客满意度调查,并开展以顾客为中心的业务计划。

另外一种业务指标是公司将公司目的拟定为业务或顾客支持满意度。这种状况是很普遍的,这是由于,IT部门现在与整个公司的成功亲密有关。

由于服务水平合同流程重要是基于顾客需要和公司需求来改善业务,因此服务文化就显得格外重要。如果公司在过去未执行这一环节,那么在进行服务水平合同方面的工作时会有一定的难度。全部IT活动必须以顾客和业务计划为中心。公司的远景规划或工作阐明必须与顾客和业务计划相一致,然后为涉及服务水平合同在内的全部IT活动指导方向。经常出现的状况是,公司已布署好网络来满足特定规定,而联网部门却看不到目的或后续业务的需求。在这种状况下,已经为网络事先做好了预算,这种预算可能远远高于或远远低于现在的需要,从而造成最后的失败。

在顾客和业务计划与IT活动相一致的状况下,联网部门能够更容易地与新业务应用的布署、新业务和其它业务需求保持一致。业务关系和实现公司目的的共同关注焦点都非常清晰,并且全部部门都团结协作。您必须努力满足服务水平合同流程和合同方面的规定。首先必须要努力掌握服务水平合同流程以编制有效的合同。

另首先,必须遵照合同的业务规定。不要奢望无需每个参加者的投入和承诺就能建立一种含有高效力的服务水平合同。这种承诺还必须来自管理部门和与服务水平合同流程有关的全部人员。

第8步:拟定服务水平合同所涉及的有关各方

公司级网络服务水平合同在很大程度上依赖于网络单元、服务器管理单元、协助台支持、应用单元和顾客需求。普通状况下,服务水平合同流程涉及到每个领域的管理部门。在公司指定基本的被动支持服务水平合同时,此方案起到较好的作用。规定更高可用性的公司在服务水平合同流程中可能需要技术支持以解决这方面的问题(如:可用性预算、性能限制、应用信息管理和主动管理能力)。对于主动管理服务水平合同方面的问题,我们建议成立一种由网络设计师和应用设计师构成的技术小组。技术支持小组能够对网络可用性和运行能力、实现具体目的所需要的资源进行非常精确的计算。服务供应商的服务水平合同普通不需要顾客的参加,这是由于,编制服务水平合同的唯一目的是获得超出其它服务供应商的竞争优势。在某些状况下,上层管理以高可用性和高性能级别来编制这些服务水平合同以宣传服务,并为内部员工提供内部目的。其它供应商将注意力集中在改善可用性的技术方面上,他们通过编制内部测定和管理的高效业务级别定义来实现这一点。在其它状况下,这两方面的努力会同时发生,但没必要结合在一起,或为了同一目的而进行。

服务水平合同中所涉及各方的选择将基于服务水平合同的目的。可能的某些目的以下:实现被动支持业务目的通过定义主动的服务水平合同来获得最高级别的可用性宣传或推销一种服务产品第9步:拟定服务单元

重要业务和支持服务水平合同普通由许多部分构成,其中涉及支持级别、测定方法、服务水平合同调和的上报途径和总体预算事宜。

用于高可用性环境的业务单元应涉及主动业务定义和被动目的。

其它具体内容涉及下列方面:现场支持正常工作时间和非工作时间的服务程序优先权定义,涉及问题类型、最迟解决问题的时间、解决问题的最长时间和上报程序。按重要程度排列的所支持产品或业务专业技术盼望支持、性能级别盼望值、状态报告和故障解决方案的顾客责任地理或业务单元支持级别问题和规定故障管理办法和程序(呼喊跟踪系统)协助台目的网络故障监测和业务响应网络可用性测定和报告网络容量、性能测定和报告冲突解决程序为执行服务水平合同提供资金网络应用或服务的服务水平合同可根据顾客组规定和业务重要性而有其它规定。网络部门必须认真听取这些业务规定并开发适合整体支持构造的专门解决方案。公司不应将重要业务只针对于某些个人或部门,这一点非常重要,因此对总体支持文化的适应也就很重要。在多数状况下,这些附加规定能够纳入“解决方案”类中。这样的例子涉及基于业务需求的白金级、金级和银级解决方案。有关具体业务需求,请参阅下列示例。

注意:为了维护和改善统一的业务文化,支持构造、上报途径、协助台程序、测定和优先权定义在很大程度上应是相似的。宽带规定和burst(突发)能力性能规定服务质量规定和定义建立解决方案原则的可用性规定和冗余度监控和报告规定、办法和流程为应用和业务单元升级原则为满足预算外规定融资或交叉付费方法。例如,您可觉得WAN站点连接创立解决方案类别。向站点提供含有双路T1业务的白金级解决方案。由不同的运行商分别提供一条T1线。站点应配备2个路由器以确保T1或路由器发生故障时站点不会发生停机现象。金级业务有2个路由器,但是将使用备份“帧中继”。该解决方案在停机时段内提供有限的宽带。银级解决方案只有一种路由器和一套载波业务。针对不同优先级别考虑这些解决方案以拟定故障票。.如果停机规定优先级为1或2的故障票,有些公司可能需要白金级或金级解决方案。顾客公司然后能够投资购置所规定的业务级别。下表阐明了提供3种业务级别的公司,这些级别基于外联网连接的业务需求。解决方案白金级金级银级设备WAN连接冗余路由器核心站点备份冗余路由器无设备

冗余WAN冗余T1连接,多载波含有“帧中继”备份的T1连接无WAN冗余宽带规定与突发Burst含有用于burst(突发)的负载共享冗余T1非负载共享“帧中继”(只用于核心业务应用);“帧中继”64K(只用于CIR)最多为:T1性能始终为100.ms来回响应时间或不大于此值。响应时间100ms或不大于盼望值的99.9%响应时间100ms或少于盼望值的99%可用性规定99.99%99.95%99.9%停机时协助台优先权优先权1:重要业务服务故障优先权2:会影响业务的服务故障优先权3:

业务连接故障第10步:理解客户业务需求和目的

此环节予以服务水平合同编制人员很大的信任。通过理解多种业务组的需求,早期的服务水平合同文献更靠近于业务需求和但愿的成果。设法理解顾客业务停机带来的损失,预计生产力、收入和顾客信誉方面的损失。请切记,即使只是和几个人的连接也能够严重地影响到收入。在这种状况下,确保顾客理解可能发生的可用性和性能方面的风险,从而使公司更加好地理解所需要的业务等级。如果缺少这一步,会有许多顾客只是规定百分之百的可用性。

服务水平合同编制人员还应理解业务目的和公司发展速度方便适应网络升级、工作量和预算。理解将要使用的应用程序也很有协助。公司最佳是有每个应用程序的应用信息文献,如果没有,考虑一下与否能够对应用程序进行技术评定以拟定与网络有关的问题。第11步:拟定每个部门所规定的服务水平合同

重要支持服务水平合同应涉及重要业务单元和功效组的规定,如网络运行、服务器运行和应用程序支持组。这些组应基于业务需求和它们在支持过程中所起的作用来给拟定。考虑多方面规定尚有助于建立一种公平的整体支持解决方案而不偏向或优先考虑特定部门的需求。这有助于支持部门为各个组提供最佳的服务,这是一种支撑公司整体服务文化的方案。例如,顾客可能坚持他的应用在公司范畴内是最重要的,而事实上,该应用故障所带来的停机损失在收入、生产力减少和顾客信誉方面大大不大于其它部门的应用。

公司内不同的业务部门将有不同的规定。网络服务水平合同的一种目的应是实现一种可适应不同业务级别的总体格式。这些规定普通是:可用性、服务质量、性能和平均修复时间。在网络服务水平合同中,这些变量通过下列办法来进行解决:为各业务应用分派不同优先级来调节服务质量,针对多种网络问题的平均修复时间来定义协助台优先次序,开发有助于解决多种可用性和性能规定的解决方案原则。一种加工公司的简朴解决方案示例以下表所示(可在可用性、服务质量和性能方面添加信息):业务部门应用故障损失停机时的故障优先权服务器和网络规定加工公司资源规划高1最高冗余度顾客支持客户服务高1最高冗余度工程文献服务器,专用集成电路设计中2局域网核心构件冗余度销售文献服务器中2局域网核心冗余度第12步:选择服务水平合同的格式

服务水平合同的格式可根据部门或公司的规定不同而有所变化。下面是一种推荐的网络服务水平合同示例的要点:合同目的合同有关方合同目的所提供的服务和所支持的产品协助台服务和呼喊跟踪用于定义平均修复时间的基于业务影响的故障严重性定义用于定义服务质量的核心业务优先权根据可用性和性能规定定义的解决方案类别培训规定容量规划规定上报规定报告提供的网络解决方案新解决方案规定不受支持的产品和应用状况业务方略工作时间提供的支持非工作时间支持的定义假期业务内容联系电话号码工作量预测投诉解决业务授权原则顾客和部门安全责任故障管理程序呼喊开始(顾客和自动呼喊)第一级响应和呼喊修复率呼喊跟踪和历史统计呼入方责任故障诊疗和呼喊关闭规定网络管理故障监测和业务响应故障解决类别或定义遗留故障解决上报方略故障转移责任严重故障和意外状况呼喊解决服务质量目的质量定义测定定义质量目的根据故障优先权开始解决故障前的平均等待时间根据故障优先权来解决故障的平均时间根据故障优先权来更换硬件的平均时间网络可用性和性能管理容量管理扩容质量报告人员配备和预算.人员配备模式运行预算合同维护一致性审视时间表性能报告和审视报告测定原则的调节定时服务水平合同更新同意附件与正表呼喊流程图上报原则网络解决方案原则报通告例第13步:成立服务水平合同工作组

下一步是拟定服务水平合同工作组的组员,其中涉及小组领导。工作组能够涉及顾客、业务单位或职能部门经理或各地区的代表。这些人员向各自的工作组报告服务水平合同方面的问题。经理和核心服务水平合同单元的决策人应加入该组。参加人员能够涉及管理和技术两方面的人员,这些人有助于定义与服务水平合同有关的技术问题和作出IT.级别的决策(即,协助台部门经理、服务器运行部经理、应用部经理和网络运行部经理)。

网络服务水平合同工作组还应由应用推广部和业务部代表构成,以在网络服务水平合同方面达成一致,此合同涉及多个应用和业务部门。工作组有权对网络的重要业务进程、业务、可用性和单个业务的性能规定进行安排。这方面的信息将用于为多种会影响业务的故障类型创立优先权,为网上的重要业务分派优先级,并创立基于业务规定的将来原则联网解决方案。第14步:召开工作组会议和草拟服务水平合同

工作组应首先编制工作组章程。章程应规定服务水平合同的目的、计划、和时间框架。接下来,工作组将编写具体工作计划,并拟定计划表和编写及执行服务水平合同的时间表。该工作组还应编写根据支持原则测定支持级别的报告程序。最后一步是编写服务水平合同草案。

联网服务水平合同工作组最初应每七天召开一次见面会以编写服务水平合同。编写并同意服务水平合同后,工作组能够每月甚至每季度召开一次会议以对服务水平合同进行增补。

第15步:商讨服务水平合同

编写服务水平合同的最后一步是最后协商和订立。这一步涉及以下内容:审视草案商讨内容编辑和修订文献获得最后同意在最后版本送交管理部门审批之前,审视草案、商讨内容和修订的工作能够重复进行多次。

.从网络部经理的角度来看,商讨能够测定的预期成果是相称重要的。

设法吸引其它有关部门的人员来支持性能和可用性合同。这还涉及质量定义、测定办法定义和质量目的。请记住,增加业务相称于额外开支。确保顾客组理解增加级别的业务将收取费用,并由顾客自己拟定这与否是核心业务需求。您能够很容易地执行服务水平合同诸多方面的成本分析(如:硬件更换时间)。

第16步:测定和监控服务水平合同与否符合规定

测定服务水平合同与否符合规定和报告成果是服务水平合同流程的重要方面,由于这有助于确保长久的持续性和成果。我们普通建议,服务水平合同的任何重要构成部分都是可测定的,并在执行服务水平合同前拟定对的的测定方法。然后每月召开顾客和支持部门间的会议以审核测定方法、找出问题的根本因素,并提出解决方案以满足或超出业务级别规定。这有助于改善服务水平合同流程,使它当代质量改善计划相似。

对于公司内管理部门是如何评定服务水平合同及其整体业务级别管理,下列小节提供了更多的具体信息。

业务级别管理性能指标

业务级别管理性能指标将业务级别作为一种衡量成功的办法来提供监控它的机制。这使公司能够对业务问题作出快速反映,并对影响业务或业务环境中的停机损失问题有一种更清晰的理解。如果没有测定业务级别定义,将对以前完毕的工作产生消极的影响,这是由于公司被迫处在被动局面。没有人会说服务真好,相反,会有诸多顾客说服务满足不了规定。因此,业务级别管理性能指标是业务级别管理的重要条件,这是由于它提供办法来充足理解现有服务级别,并根据现在问题进行调节。这是提供主动支持和改善质量的基础。当公司对问题进行根本分析并改善质量时,这将是提高可用性、性能和所提供服务的质量的最佳途径。例如,考虑下列实例。

某公司收到越来越多的投诉说网络经常出现长时间的故障。通过测定可用性,该公司发现重要问题是一小部分WAN站点。更进一步的研究发现大部分问题出现在这以小部分WAN站点上。公司发现问题并解决了这个问题。公司然后拟定可用性的业务等级目的,并与顾客组订立合同。后来的故障测定过程根据服务水平合同的不适应性而变得很快。人们因此认为网络部门是含有很强的专业作风和技术的队伍,是公司的财产。该部门很自然地从被动变为主动,并有助于公司提高经济效益。遗憾的是,今天的大多数联网部门的业务级别定义很有限,并无性能指标。成果是,他们用大量的时间用来应付顾客投诉或故障,而不是主动找出根本因素并开发满足业务需要的网络服务。

通过下列服务水平合同性能指标来拟定业务级别管理进程的成功与否:以文献形式存在的业务级别定义或服务水平合同,服务水平合同涉及可用性、性能、被动业务响应时间、故障解决方案目的和问题上报程序。性能指标测定原则,其中涉及可用性、性能、各优先权的业务响应时间,各优先级的解决时间和其它可测定的服务水平合同参数审视业务级别执行状况和整治工作的每月网络业务级别管理睬议以文献形式存在的服务水平合同或业务级别定义

第1个性能指标只是具体阐明服务水平合同或业务级别定义的文献。业务级别定义的首要目的应是可用性和性能,由于这是重要的顾客需求。

第2个目的很重要,这是由于它们有助于定义可用性或性能级别的实现途径。例如:如果公司含有挑战性的可用性和性能目的,则防止发生故障和在出现故障时快速解决将非常重要。

.第2个目的有助于定义实现盼望可用性和性能级别所需的进程。

被动辅助目的涉及:各呼喊优先权的被动业务响应时间故障解决目的或平均修复时间问题上报流程主动的辅助目的涉及:设备故障或链路故障监测网络故障监测容量或性能问题监测重要目的、性能和可用性的业务级别定义应涉及:

目的目的是如何测定的测定可用性和性能的责任方可用性和性能目的的责任方不一致性进程在可能的状况下,我们推荐,负责测定的人员和负责成果的人员应是不同的人员,以避免利益冲突。由于存在添加、移动和更改方面的错误,未监测到的故障或可用性测定问题,因此还要经常地调节可用性数值。业务级别定义还涉及修改成果的程序以协助提高精确性,并避免不对的的调节。有关测定可用性和性能的办法方面的信息,请参阅下一小节。

在拟定IT范畴内的问题之后,公司要对这些问题或网络进行响应,被动型辅助目的的业务级别定义对于公司在这方面的响应方式进行定义。其中,IT范畴内的问题涉及:故障优先级定义各故障优先级的业务响应时间故障排除目的或平均修复时间故障报告流程普通状况下,这些目的定义指定时间内的故障负责人和在什么状况下他们应停止手中的工作来完毕指定的工作。与其它业务级别定义相似,业务级别文献也应具体论述目的的测定办法、测定负责方和不一致性解决流程。

主动式辅助目的的业务定义对公司提供主动支持的方式进行了定义,其中涉及:网络故障、链路故障和设备故障的识别,网络故障状况和网络容量门限。由于质量主动管理有助于排除故障和快速修复故障,因此需要拟定宣传主动管理的目的。普通状况下,通过拟定建立和解决的主动式案例的目的数量来完毕这一工作,其中,所解决的主动式案例是基于未告知顾客的状况。许多公司在协助台软件中建立了标志以据此来区别主动式案例和被动式案例。业务级别文献还应涉及有关目的测定方式、测定责任方和不一致进程方面的信息。

性能指标测定原则

我们普通推荐,任何定义的业务级别目的应是可测定的,从而使公司能够测定业务级别,找出影响可用性和性能重要目的的根本因素,改善针对具体目的的工作办法。总之,测定目的只是一种工具,使网络管理者能够管理业务等级的持续性,并根据业务规定改善工作质量。

遗憾的是,许多公司不收集可用性、性能和其它测定数据。公司将其归因于没有能力来提供精确性、成本、网络费用和可用的资源。

这些因素能够影响测定业务的能力,但是公司应将注意力集中在整体目的上以管理并改善业务质量。许多公司能够建立低成本、低费用的测定原则,即使这些原则不能提供绝对的精确性,但能够满足重要目的的规定。

测定可用性和性能是业务级别测定原则经常无视的一种环节。成功地使用这些测定原则地公司运用2种非常简朴的办法。一种是从网络的核心位置向边沿发送Internet控制信息合同主机连通性测试信息包(InternetControlMessageProtocol(ICMP)pingpackets)。通过这种办法还能够获得某些性能数据。成功使用这种办法的公司还将类似设备组合为“可用性”组。如局域网设备或本地区办公设备。由于公司对于不同的地理或重要业务地区公司普通有不同的业务级别目的,因此这方面就更加引人注目。这能够使测定原则部门通过可用性组来均分全部设备,从而达成合理的效果。

其它计算可用性的成功办法是使用故障票和称为“受影响顾客分钟(IUM)”的测定方法。此办法对受到停机影响的顾客数量进行统计,并将该数值与停机时间相乘。用总时间占该时间段的比例形式来表达此数值时,这种办法很容易计算出可用性。无论这2种状况中的哪一种,这都有助于识别和测定故障的根本因素,方便使改善工作更有针对性。根本因素类别涉及硬件问题、软件问题、链路和载波问题、电源和环境问题、更改失败和顾客错误。

可测定的被动支持目的涉及:各呼喊优先权的被动业务响应时间故障排除目的或平均修复时间故障排除目的,即MTTR问题上报时间通过从协助台数据库生成报告来测定被动式支持目的,其中涉及下列内容:最初生成报告的时间(或输入到数据库的时间)故障负责人收到呼喊的时间故障上报的时间故障解决完毕的时间这些测定原则可能规定管理部门的干预以在数据库中适宜地输入故障信息,并实时对故障信息进行更新。在某些状况下,公司可觉得网络事件或电子邮件请求自动生成故障票。这有助于拟定生成故障的精确开始时间。

通过这种测定原则生成的报告通过根据优先权、工作组和工作人员来对故障进行分类,以协助拟定潜在问题。

由于测定主动式支持进程规定监控主动式工作并对某些效率测定值进行计算,因此难度比较大。这方面的工作还做得极少。然而,很明显,只有少部分人事实上向协助台报告网络故障,并且很明显需要时间来对故障进行解释,或将问题归结为与网络有关的问题。由于冗余设备或链路的故障对终端顾客的影响较小,因此不是全部的主动式案例都对可用性产生直接的影响。

公司因业务规定和潜在的可用性隐患而执行主动式业务级别定义或合同。然后根据主动式案例与被动式案例的数量或比例进行测定,被动式案例是由顾客生成的。测定每个部分的主动式案例数量是一种较好的理念。这些类别将涉及故障设备、故障链路、网络错误和容量超限。还应通过可用性模式来进行某些工作以拟定对可用性的影响,可用性是通过执行主动式业务定义来实现的。业务级别管理审核

业务级别管理与否成功的另一种测定办法是业务级别管理审视。无论服务水平合同与否可用,都要执行这一步。通过测定负责人和提供定义的业务级别在每月一次的例会上对业务级别管理进行审视。当涉及到服务水平合同时,顾客组也能够加入进来。会议的目的是审视测定的业务级别定义的性能,并进行对应的整治。

每个会议应有一种拟定的工作计划,其中涉及:指定时间段内测定的业务级别的审视某一部分所拟定的改善计划的审视现在业务级别测定原则需要根据现在的测定原则对改善方案进行讨论随着时间的推移,公司还能够分析业务级别适应性趋势以拟定部门的效率。此进程不属于质量范畴或质量改善程序。会议有助于针对具体问题,并根据根本因素来拟定解决方案。

业务级别管理摘要

总之,业务级别管理逐步使公司从被动支持模式变为主动支持模式,在这种模式下,网络可用性和业务级别由业务规定来拟定,而不是由近来的一系列故障来拟定。该进程有助于建立一种不停提高业务级别的环境,并提高公司的竞争力。另外,业务级别管理还是主动网络管理的最重要构成部分。因此,我们极力建议在任何网络规划和设计过程中都采用业务级别管理,并在最新定义的网络构造中采用。这能够使公司在开始阶段就能对的地执行解决方案,并使故障时间和重复工作量降到最低。[原创]大话服务目录

大话服务目录

下列纯属于我个人的理解,并不基于ITIL理论,在没有接触ITIL之前,我脑中的认为的服务目录就是如此,下列所讲的都是基于一种有一定规模的运维服务商而言,并不适

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论