




已阅读5页,还剩74页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
业务支撑网网管系统规范-服务管理流程分册 1 中中国国移移动动业业务务支支撑撑网网网网管管系系统统规规范范 服服务务管管理理流流程程分分册册 中中国国移移动动通通信信集集团团公公司司 2004 年年 4 月月 业务支撑网网管系统规范-服务管理流程分册 2 目目录录 1综述综述.3 2运维管理流程详述运维管理流程详述.4 2.1事件管理.4 2.1.1事件管理描述.4 2.1.2事件管理目的.4 2.1.3事件管理范围.5 2.1.4相关定义.6 2.1.5流程职责/角色11 2.1.6主要内容.12 2.1.7流程衡量标准.13 2.1.8流程图举例.16 2.1.9事件信息项.18 2.2问题管理.19 2.2.1问题管理描述.19 2.2.2问题管理目的.21 2.2.3问题管理范围.21 2.2.4相关定义.21 2.2.5职责/角色25 2.2.6主要内容.25 2.2.7流程衡量标准.26 2.2.8流程图举例.28 2.2.9问题信息项.31 2.3变更管理.32 2.3.1描述.32 2.3.2目的.33 2.3.3范围.33 2.3.4相关定义.33 2.3.5职责/角色38 2.3.6主要内容.39 2.3.7流程衡量标准.41 2.3.8流程图举例.44 2.3.9变更请求信息项.46 业务支撑网网管系统规范-服务管理流程分册 3 2.4配置管理.47 2.4.1描述.47 2.4.2目的.48 2.4.3范围.48 2.4.4相关定义.49 2.4.5职责/角色52 2.4.6主要内容.53 2.4.7流程衡量标准.54 2.4.8流程图举例.55 2.4.9常见配置元素属性表.57 3运维管理流程关系和运维支持体系运维管理流程关系和运维支持体系.67 3.1运维流程相互关系.67 3.2整体运维支持体系.69 4附录附录.71 4.1ITIL 国际规范简介 71 4.1.1ITIL国际规范简介.71 4.1.2分阶段实施方法.73 4.2名词解释.76 1 综述综述 本文作为中国移动业务支撑网网管规范附件之一,将详细描述本期中国移动 业务支撑网网管的四大管理功能,及四大管理功能之关的关系,并借助于流程图的实例 进行详细说明。 运维管理流程包括:事件管理、问题管理、变更管理、配置管理,本附件将分别 对其进行定义和描述,包括:管理目的、管理范围、主要内容、职责/角色规划、流程 示例等。 在本附件最后,还简单介绍 ITIL 的相关内容和实施方法。 业务支撑网网管系统规范-服务管理流程分册 4 2 运维管理流程详述运维管理流程详述 根据本期业务支撑网网管系统建设目标,本期运维管理主要实现事件管理、问题 管理、变更管理和配置管理,而管理流程是运维管理的主线,它将整个运维管理工作有 机地联接起来,下面将对每个流程的内容及其实际应用做一个详细介绍。 2.1 事件管理事件管理 2.1.1 事件管理描述事件管理描述 事件管理流程是为IT用户尽快回到正常工作状态而设计,其关心的重点是快速响 应、快速恢复,使故障对业务的影响最小化。 事件管理流程受事件触发和驱动,所谓事件,是指发生了非常规的运作情况,包 括系统崩溃、软件故障、任何影响用户业务操作和系统正常运作的事情、以及影响业务 流程或违背服务水平协议的情况。事件也包括一个用户的请求,如,重设用户密码。不 是所有的事件都由用户产生,监控管理平台产生的告警也可引发事件。 通常由帮助台负责记录事件相关信息,向用户提供对已知问题的处理方法,报告 事件和尽快恢复服务,目的是在事件管理阶段获得尽可能高的事件解决率。 所有的事件应该基于相关配置元素的关键等级和影响度进行优先级分类。 事件管理的责任是记录、分类、调查/诊断、解决已知问题、监控跟踪事件、与 用户和问题管理流程交流、最终解决事件。 2.1.2 事件管理目的事件管理目的 事件管理流程的主要功能是尽快解决环境中出现的事件,保持 IT 环境的稳定性, 其目的包括: 在成本允许的范围内尽快恢复服务 快速响应系统监控产生的故障或用户的电话请求 业务支撑网网管系统规范-服务管理流程分册 5 在线获得帮助 沟通问题解决的状态 进行事件控制 记录事件 就事件的优先级、紧急性和严重性进行分类 分析、诊断,必要时进行升级 监视,并结束事件 支持业务运行 对业务应用提供二级支持 解答有关如何使用的问题 记录关于新服务的需求 记录关于改变的请求 提供一个与业务部门的日常接口 提供关于服务状态的信息更新 新服务的报告 关于即将到来的新服务或事件的通知 进行事后回顾 提供 IT 管理信息 人力利用情况 服务可用性 产品质量 支持效率 供应商服务情况 2.1.3 事件管理范围事件管理范围 在BOSS系统运维范围内所指的事件,包括所有与IT基础架构和业务相关的如下事 件: 申告 故障 业务支撑网网管系统规范-服务管理流程分册 6 咨询 业务处理 维护作业工科 事件的产生有两类: 由监控管理平台自动发现并产生的告警事件 由用户/IT 维护人员报告的事件 但不包括: 外部用户汇报的事件 在开发和测试环境中的设备或系统产生的事件 “事件管理”流程不一定必须找到问题发生的根本原因,其重点在于如何在尽量短的时 间内,恢复已经中断的IT服务,提高服务的可用性。 2.1.4 相关定义相关定义 重分配规则 事件的及时、正确分配和接手处理是确保事件在解决时限内解决的关键因素。 一线和二线技术人员可以拒绝并根据重分配原则重新分配不属于自己运维范围的 事件。 事件性质 根据移动的业务要求和管理要求,按照事件性质定义如下六类事件: 性质性质描述描述 申告针对 BOSS 系统的 IT 用户投诉 故障指因 BOSS 系统错误或非正常因素由监控管理平台 发现的告警事件 咨询指对系统操作、业务流程等方面的求助和询问 业务处理指需要运维人员进行后台数据处理的要求 维护作业指运维人员的日常维护作业或临时进行的维护作业 其他其他性质的事件。 事件来源 当接到一个问题时,帮助台人员需要记录事件来源的类型。帮助台的事件来源可 业务支撑网网管系统规范-服务管理流程分册 7 以包括以下: 来源来源描述描述 用户来自 IT 用户的事件可以有以下几种记录方式: 电话/邮件/传真-来自用户/IT 维护人员报告的事件 自助开单-用户/支持人员发现问题,直接在服务台系统客户端开 单 客服平台-来自客服平台的事件 其他-其他方式进入帮助台的事件 监控管理 平台 监控管理平台发现的告警事件,通过与服务管理平台接口发送告警信息 到服务管理系统中 事件优先级 优先级是事件管理的一个关键要素,优先级决定处理事件的顺序及所需的资源, 事件优先级可分为四级,如下表所示: 事件的优先级分两个层面来定义和确认: 帮助台 帮助台在接到来自监控管理平台的告警事件或IT用户报告的事件时,迅速根据事 件相关的业务/子业务或IT系统/设备的关键级别及事件的性质,定义该事件的优先级别。 如果为紧急事件,立即升级到一线。 对于监控管理平台上传的报警事件,应包含该事件相关联的配置元素的搜索代码, 帮助台人员据此确定配置元素及其关键级别。 帮助台人员可参考下表确定事件优先级: 编号优先级 1 紧急 2 高 3 中 4 低 业务支撑网网管系统规范-服务管理流程分册 8 本次事件所对应 CI 的关键级别事件优先级事件优先级 123 1紧急高中 2紧急中低 故障 3高低低 申告高中低 事件 性质 咨询/业务处 理/维护作业 中低低 一线 一线人员在接受到帮助台升级上来的事件后,根据该事件相关的业务或IT系统/ 设备的实际故障情况,并结合其他相关因素,再次确定事件优先级,如确实为紧急事件, 则启动升级机制。 确定事件优先级后,即可以确定事件的处理时限,优先级对应的事件解决时限参 考下表: 优先级紧急高中低 解决时限 (小时) 482448 事件的升级 事件升级的目的是确保基于事件的优先级等级及时通知有关技术人员和领导,引 起更多的重视,提供合适的资源,从而快速找到解决事件的方案。 可根据所要求的处理时间定义事件优先级升级规则,包括不同等级的事件在不同 的时间被升级到不同级别的人员: 时间 优先级 即时响应+15 分钟处理时限 30%处理时限 40%处理时限 紧急ABD E F- 高ABCDE 中ABC -D 低AB C - 升级组群: A 帮助台 B 一线支持人员 业务支撑网网管系统规范-服务管理流程分册 9 C二线支持人员 D事件经理 E管理层 F 集团公司 各省可以根据业务的实际情况调整升级标准。 事件分类 根据移动目前的事件种类,事件的分类层次设计不超过三层,第一级分类,称之 为“类别”,第二级分类,称之为”子类”,第三级分类,称之为”条目”。本规范给 出第一级、第二级分类。各省市根据自己的情况决定是否要定义到第三层。 下表为事件分类表举例: 类别类别子类子类条目条目 网络通讯系统 服务器 基础架构 存储系统 操作系统 数据库 中间件 双机热备软件 系统软件 系统监控软件 采集 计费 结算 业务 客服 业务支撑网网管系统规范-服务管理流程分册 10 业务管理 账务管理 账务处理 一级 BOSS 拨测 其他 空调 UPS 机柜 照明 温湿度传感器 外设 配套设施 其他 事件状态代码 事件状态代码表明事件所处的处理状态,本规范规定的事件状态如下: 事件状态代码事件状态代码描述描述 新建新开事件记录 分配事件在帮助台 一线处理 一线支持人员已接手处理事件 二线处理二线支持人员已接手处理事件 供应商处理由供应商处理 已解决 事件已找到解决方案 关闭确认解决方案,事件得以关闭 事件结束代码 事件结束代码说明了事件是在何种情况下关闭的,本规范规定的结束代码如下: 事件结束代码描述 暂时解决 用变通办法暂时解决 帮助台由帮助台人员成功解决已解决 一线解决由一线人员成功解决 业务支撑网网管系统规范-服务管理流程分册 11 二线解决由二线人员成功解决 第三方解决由第三方成功解决 其他包括消失,误操作,可忽略等 处理是否超时 事件超时代码描述 未超时事件最后时限范围内结束 超时事件未能在最后时限范围内结束 2.1.5 流程职责流程职责/角色角色 事件管理流程主要分为以下几个职责/角色,分别简述如下: 事件经理 作为事件流程的负责人,负责制定流程的规则、策略、步骤 调度资源,协调解决跨小组、部门的事件 指导日常操作,确保流程的执行符合预定的要求和规则 建立流程的衡量指标和报表 与用户、服务商和管理层交流流程的使用情况 确认和实施对流程的变更/改进计划 帮助台人员 在指定的响应时间内响应所有帮助台热线电话、邮件、传真等事件报告 完整记录所有接收的事件信息,包括:记录事件报告人的详细联系方式、事件特 征表现、描述、发生时间等 为事件进行适当的分类、为事件分配优先级等属性 尝试使用工具、初步诊断、分析相关信息等方式解决问题 如果帮助台不能解决这个事件,应当将事件分配给最合适的一线支持小组/人员 来处理 检查事件记录的处理进度,保持与事件报告人的联系,适时通知事件处理进展 与用户确认事件解决方案,关闭事件 一线支持人员 业务支撑网网管系统规范-服务管理流程分册 12 一线支持人员负责提供对帮助台无法解决的事件进行快速有效的分析并提出解决方案以 尽快恢复服务,并在必要时提供现场支持。 验证事件的描述和信息,进一步收集相关信息 决定需要采取何种措施恢复服务并实施有效的行动 必要时提供现场支持 根据优先级提供有效的解决方案 已解决的事件转回帮助台,由帮助台关闭事件 实施事件解决方案 更新事件解决信息,已解决的事件转回帮助台,由帮助台关闭事件 如果一线不能解决这个事件,应当决定选择最合适的二线支持小组/人员来处理 二线支持人员 二线支持人员是相关问题领域的专家。负责提供对一线支持人员无法解决的问题进一步 进行调研,找出解决方案并尽快恢复服务。各省可以考虑按照所维护的应用、系统进行 分组,如,网络组、主机组等。 进行事件的深入调查研究 根据经验和专业技能,决定需要采取何种措施恢复服务并实施有效的行动 必要时引入供应商的支持 在系统中更新事件根源和最终解决方案 更新事件记录,确保事件状态代码真实反映事件状态。 及时提供有效解决方案 与其他小组合作,确定解决方案 已解决的事件转回帮助台,由帮助台关闭事件 如果二线不能在解决时限内解决这个事件,应当将事件进行升级 2.1.6 主要内容主要内容 事件管理流程始于事件的探测和报告,结束于事件的解决。该流程包含下述主要内容: 事件接收和记录事件接收和记录 这个环节是事件管理流程的起点。所有用户或系统报告的IT 事件必须由此步骤开始。 业务支撑网网管系统规范-服务管理流程分册 13 此步骤的目的是在事件发生时快速准确地发现,以协助事件的诊断和解决并通知相关人 员。在此步骤中将会收集创建事件记录所需的信息。 该环节的关键是信息的准确性和完整性。 分类和在线支持分类和在线支持 事件可以是一个服务请求、信息请求或服务故障,对于每个事件,需要确立优先级、 影响度、和分类。若没有现成的解决方案或临时解决措施,该事件将分配给合适的支持 人员对此进行调查。 该环节的关键是需要知识库支持和正确的事件分派。 调查和诊断调查和诊断 若在线支持人员无法解决事件,可运用自身技能、知识库、诊断工具等进行更加深入 的分析以找到恢复服务的临时措施,必要时将使用多名技术员以寻求解决措施。 解决和恢复解决和恢复 技术人员实施事件的解决方案,并将解决完毕的事件转回帮助台,由帮助台通知用户 解决的结果,并得到用户的确认。 紧急事件和事件升级紧急事件和事件升级 对于紧急事件,帮助台应立即提交给一线人员,由一线人员判断,上报给事件经理, 并同时上报给集团公司,由事件经理决定紧急处理的方式,确保其得到最快速的解决。 当事件处理超过预期时限,将自动升级或由运维人员升级,以引起相关人员和管理人 员的重视和参与。 结束事件结束事件 当用户确认事件解决后,此时可结束该事件,并在必要时更新知识库。若用户对此解 决方案不满意,则对该事件继续进行处理,不能关闭。 2.1.7 流程衡量标准流程衡量标准 事件管理流程的主要衡量指标如下: 事件记录数量,可按照部门、事件分类等分别统计 事件关闭的数量,可以按照优先级,或者按照分类分别统计 事件成功关闭的数量 规定时间内解决的事件数量/百分比 业务支撑网网管系统规范-服务管理流程分册 14 帮助台解决率 事件解决的平均时间,可以按照事件分类统计 超时的事件数量,可以按人员、组别统计 统计报表 事件记录的数量,可按照事件分类、事件性质、事件优先级等分别按月、周、日 汇总统计该时间段内创建的事件记录数量 故障申告咨询业务处理维护作业其他 紧 急 高中高中低中低中低中低紧 急 高中低 网络 设备 服务 器 存储 系统 计费 结算 客服 处于各状态的事件数量,可按事件来源、事件分类、事件状态实时汇总事件记录 数量 新建分配一线处理二线处理供应商处理已解决关闭 网络设 备 服务器 存储系 统 计费 业务支撑网网管系统规范-服务管理流程分册 15 结算 客服 事件关闭的数量,可按事件来源、事件分类、事件结束代码等分别按月、周、日 汇总统计该时间段内创建的事件记录的关闭数量 成功解决可忽略事件后续操作解决部分解决 部门1 监控系统1 成功解决可忽略事件后续操作解决部分解决 网络设备 服务器 存储系统 按时、超时解决的事件数量/百分比,可按事件来源、事件分类、处理角色等分 别按月、周、日汇总统计该时间段内创建的事件记录的解决数量 帮助台一线二线第三方 按时超时按时超时按时超时按时超时 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 部门1 监控系统1 业务支撑网网管系统规范-服务管理流程分册 16 帮助台一线二线第三方 按时超时按时超时按时超时按时超时 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 数 量 百 分 比 网络设备 服务器 存储系统 各角色事件解决率,可按事件来源、事件分类、处理角色等分别按月、周、日汇 总统计该时间段内创建的事件记录的解决率 帮助台一线二线第三方 部门1 监控系统1 帮助台一线二线第三方 网络设备 服务器 存储系统 2.1.8 流程图举例流程图举例 如下是事件管理的逻辑示意图: 业务支撑网网管系统规范-服务管理流程分册 17 事件管理逻辑流程 帮助台 一线支持 省公司IT用户 集团公司 二线支持 事件经理 100.2 ?优先级最高 100.6 ?解决了吗 100.9 解决了 ?吗 Y N Y N N Y Y 第三方 100.12 ?解决了吗 100.13 需要第三方 ?支持 N N Y 100.14 ?超出时限 Y N 用户报告 事件 系统产生 事件 100.1创建 事件记录 并分类 100.5 尝试解 决 100.7 事件转发 至一线 100.16 确认并 关闭事 件 通知事 件经理 通知事 件经理 100.10 事件转 发至二 线 1 10 00 0. .8 8. . 检检查查事事 件件信信息息 并并解解决决 1 10 00 0. .1 11 1 调调查查诊诊 断断并并解解 决决事事件件 100.15. 技术支持 Y 上报 集团 100.4 ?优先级最高 Yes 100.3 确认优 先级 N Y 流程说明流程说明 序号序号步骤名称步骤名称责任人责任人输入输入说明说明输出输出 100.1 创建事件记录 并分类 帮助台 事件特 征描述 接受从 IT 用户或监控管理平台报告的事件,在帮 助台系统中产生新服务记录,填入相关信息。 并对事件进行分类,根据设定标准进行分类和分优 先级,设置相关属性。 事件记 录 100.2优先级最高?帮助台 事件记 录 根据事件相关的配置元素 CI 的关键级别。 确定事件的优先级是否最高,如是立即升级到一线 支持人员,否则尝试解决。 优先级 确定结 果 100.3确认优先级别一线 事件记 录一线支持人员根据事件相关配置元素和其他相关信 息确定该事件是否确属优先级最高 已确定 优先级 的事件 记录 100.4优先级最高?一线 已确定 优先级 的事件 记录 如果优先级确实最高,则立即升级到事件经理,并 通报集团公司,并立即开始处理,如不是,则返回 帮助台 N/A 通知事件经理 事件经 理 事件记 录 最高优先级事件必须立即通知事件经理,由事件经 理决定是否由原处理人按照原流程执行,还是需要 紧急解 决方案 业务支撑网网管系统规范-服务管理流程分册 18 采取必要手段干预(例如:启动危机处理流程、会 议等)。 上报集团集团 事件记 录 紧急事件必须上报集团公司(并在事件处理过程中的 每个状态变化点将最新事件记录上传到集团公司) 紧急事 件 100.5尝试解决帮助台 事件记 录 通过查询知识库,尝试电话支持 解决方 案 100.6解决了吗?帮助台 N/A如果解决了,则进入 100.16,确认并关闭事件; 如果不能解决,进入 100.7,转发至一线。 N/A 100.7 事件转发至一 线 帮助台 事件记 录 选择适当的一线人员,将事件转发 转发的 事件 100.8 检查事件并解 决 一线 事件记 录 检查事件信息,寻求解决方案 解决方 案 100.9解决了吗?一线 N/A如果解决,则将解决方案记入事件记录,并发还帮 助台,进入 100.16; 如果不能解决,则需在事件记录中说明原因,转发 二线 N/A 100.10 事件转发至二 线 一线 事件记 录 选择适当的二线人员,将事件转发 转发的 事件 100.11 调查诊断并解 决 二线 事件记 录 进行进一步调查分析,找出解决方案 解决方 案 100.12解决了吗?二线 N/A如果”是”,则将解决方案记入事件记录,发还帮 助台,进入 100.16; 如果”否”,则转入 100.13。需要供应商支持? N/A 100.13 需要第三方支 持? 二线 N/A判断是否需要引入第三方(第三方包括厂商和其他部 门的支持人员): “是”,转入 100.15; “否”,转入 100.14 N/A 100.14超出时限?二线N/A如果超出处理时限,必须及时通知事件经理N/A 通知事件经理 事件经 理 N/A事件经理应当特别关注超时的事件,并帮助协调资 源,监督事件尽快解决 N/A 100.15技术支持供应商 支持请 求 供应商得到通知后,应参与事件的解决,并提出解 决方案,由二线人员监控供应商的响应速度和处理 速度。 解决方 案 100.16 确认并关闭事 件 帮助台 已解决 的事件 帮助台应与用户确认是否接受解决方案,如果用户 认可,则可关闭事件,如果用户不能接受,则发还 处理人员,继续处理。 关闭的 事件记 录 2.1.9 事件信息项事件信息项 本规范规定事件管理流程必须包含如下事件信息项: 信息项信息项说明说明填写方式填写方式 事件流水号工单号码系统生成 报告人信息本次事件报告人的联络信息,包括: 姓名 省/分公司 根据报告人的搜索 代码,自动获取 CMDB 中报告人信息 业务支撑网网管系统规范-服务管理流程分册 19 部门 电子邮件 办公电话 手机/BP 生成时间在帮助台生成事件记录的时间系统生成 地点事件发生的地点 - 发生时间事件发生的实际时间 - 事件性质从事件所属性质的角度来确定其处理流程,如申告、故障、 求助、业务处理、维护作业等。 - 事件来源指事件工单产生的途径,有人工产生、系统自动产生两类。 由监控管理平台自 动产生的,可自动 填写 事件优先级事件优先级决定了事件的解决时限和处理次序,通过综合 衡量配置元素的关键级别和其他相关信息得出。 - 事件分类从事件从属的系统或技术架构的类型来进行分类,如数据 库,服务器等。 - 事件标题事件的标题由监控管理平台自 动产生的,可自动 填写 事件描述对于整个事件内容的详细描述由监控管理平台自 动产生的,可自动 填写 事件解决确认人在帮助台得到用户确认的有关人员 - 事件状态在事件整个生命周期中的不同状态系统生成 分配对象被分配的技术支持组和人员 - 事件日志反映事件处理过程中的事件处理信息,包括人员,时间等 信息 - 是否超时事件处理时间是否超出解决时限系统生成 解决时间事件得到解决的时间 - 解决方案描述事件解决方案的描述 - 事件结束代码根据事件结束的不同方式赋予不同的结束代码 - 2.2 问题管理问题管理 2.2.1 问题管理描述问题管理描述 问题是一个或几个已暂时处理但根本原因尚不明确的事件, 许多事件往往是由同一 个问题引起的。 问题的来源主要有以下几种: 业务支撑网网管系统规范-服务管理流程分册 20 已经关闭的事件,经过回顾分析后,可能形成一个问题; 重大事件,虽然经过紧急处理恢复服务,但未找到根本原因,也形成一个问题; 对于趋势性事件的分析,形成问题。 问题管理流程的根本目的是消除或减少事件的发生, 将 BOSS 系统内部缺陷导致的 业务事件或问题的负面影响降到最低限度,此流程分析发生在生产环境的事件(常常是 已关闭的事件记录),确定最常发生或具有最大影响的事件,找出根本原因,然后生成 变更请求(RFC)、变通方法或建议的预防性措施来防止事件的再次发生。所以问题管理 流程需要和变更管理流程一起来实施找出的解决方案以从根本上解决问题。 问题通常具有以下特征中的一个或全部: 一组具有一定关系的已结束的事件 一个重大或紧急事件(事件处理结束后定义为问题,由问题管理找出根本解决方 案) 问题管理与事件管理之间的差异问题管理与事件管理之间的差异 问题管理与事件管理并不相同,它的主要目的是查明事件的潜在原因,并制定随 后的解决方案和预防方法。在大多情况下,此目的与事件管理目的之间有一定冲突,因 为事件管理的目的是尽快地恢复客户服务,通常是通过实施替代方案,而非确定一个永 久性的解决方案(例如为了尽可能地预防未来可能出现的事件,寻求改善信息技术基础 架构的结构)。就问题管理而言,对潜在原因的调查可能需要一定的时间,找到解决方 案的速度是次要的考虑因素,但是预防了问题的再次发生。 问题管理流程可以按照不同领域的问题(如网络问题,或应用问题等)由相关组的技 术支持专家来执行,原则上这些专家可以是事件管理的二线支持专家,他们在负责接受 来自一线支持人员(帮助台员工)的支持请求的同时,也负责对以往事件进行分析,找 出事件产生的根本原因,从而确定解决方案,消除这些根本原因,最终使此类事件不再 发生;同时,也要从发生的事件中找出事件的发展趋势或潜在可能发生的问题,从而预 先采取措施,保证 IT 服务的正常化。 问题的根本原因找出后即成为已知错误, 对已知错误实施解决方案, 从而解决 问题。所以问题管理流程的输出有: 变更请求 变通方法 业务支撑网网管系统规范-服务管理流程分册 21 根本解决方案 预防性措施 已知错误 2.2.2 问题管理目的问题管理目的 问题管理流程在 IT 部门设立的主要目的是分析已被列为问题的事件(一组或一 个)的根本原因,然后找出解决方案。包括: 分析并确定事件的根本原因,以防止再次发生 主动提供预防性措施 提高 IT 服务的可靠性 降低 IT 支持成本 提高 IT 部门的整体形象和名誉 2.2.3 问题管理范围问题管理范围 问题管理范围是对所有 IT 生产环境中未根本解决的问题和已知错误进行管理, 并采取主动性预防措施来降低事件数量,重大或紧急事件在处理完后也被定义为问题以 分析其产生的根本原因。一般对 IT 服务影响最大或最占用支持人员资源的事件优先进 行分析。 问题管理范围不包括处于开发或测试环境的系统和应用。 2.2.4 相关定义相关定义 优先级优先级 需要确定解决方案的紧急程度,本规范定义如下问题优先级: 编号优先级 代码 解释 1 紧急关键级别为 1 的业务中断或将中断,影响一个以上关键 地区或半数以上地区 2 高关键级别为 1 的业务中断或将中断,影响一个以上地区 业务支撑网网管系统规范-服务管理流程分册 22 但未达到紧急标准 3 中关键级别为 1 的子业务或半数以上子业务中断或将中断 4 低未达到以上标准 问题状态代码问题状态代码 问题在整个生命周期中的不同状态。本规范定义如下问题状态: 问题分类问题分类 (classification) 从问题从属的系统或技术架构的类型来进行分类。本规范定义如下问题分类: 类别类别子类子类条目条目 网络通讯系统 服务器 基础架构 存储系统 操作系统 系统软件 数据库 编号代码描述 1 已登记问题登录到系统中 2 处理中问题正在处理过程中 3 拒绝问题分派被拒绝 4 已知错误问题根本原因已找出 5 已有解决方案解决方案已找到 6RFC 已提交 RFC 7 结束问题已结束 8 回顾问题已做回顾 业务支撑网网管系统规范-服务管理流程分册 23 中间件 双机热备软件 系统监控软件 采集 计费 结算 客服 业务管理 业务 账务管理 业务支撑网网管系统规范-服务管理流程分册 24 账务处理 一级 BOSS 拨测 其他 空调 UPS 机柜 照明 温湿度传感器 外设 配套设施 其他 问题性质问题性质 根据问题的不同来源进行分类。本规范定义如下问题性质: 编号代码备注 1升级事件从事件管理中升级的事件 2系统构架问题技术专家提出的问题 3主动防范性分析事件记录找出的问题 问题结束代码问题结束代码 问题结束代码: 根据事件结束的不同方式赋予不同的结束代码。本规范定义如下问题结 束代码: 业务支撑网网管系统规范-服务管理流程分册 25 编号代码说明 1根本解决找出问题的根本原因,并得到解决方案,成功 解决 2变通方法未找出根本原因,但有临时解决方案作为变通 方法 3没有解决问题无法解决 4消失 问题无法再现 2.2.5 职责职责/角色角色 问题管理流程主要分为如下几个职责角色,分别简述如下: 问题经理 整体上对流程负责,确保流程的有效执行 定期评估流程,制定流程改进计划 确定或定义问题,并确保有效协调资源 监视问题的诊断,分析和处理过程 提出实施解决方案的变更请求 定期制定IT问题报表,提供正确决策信息 问题分析专家 接受问题经理分派过来的问题 分析和诊断问题,确定根本原因 确定和测试解决方案 协助事件支持人员进行重大或紧急事件的处理 2.2.6 主要内容主要内容 问题管理流程着重于消除事件或减少事件发生,确定事件的根本原因。主要活动 包括分析事件、找出问题、分派问题、确定根本原因、找出解决方案以消除事件或在其 发生时降低对用户或业务的影响。其主要内容如下: 业务支撑网网管系统规范-服务管理流程分册 26 1. 分析事件分析事件 定期分析事件,找出潜在问题 2. 生成问题记录生成问题记录 在系统中生成问题记录并把所有相关事件与此记录关联起来 重大或紧急事件处理完后定义为问题 技术支持专家在日常运维中发现的问题 主动性防范 3. 分派分派 根据问题内容将问题记录分派给适当的技术小组。 4. 根本原因分析根本原因分析 被分派的小组人员将调查问题以期找出其原因,制定解决方案、变通 方法或提出预防性措施,以消除产生原因,或在重发时使其影响力最小化。 5. 更新已知错误更新已知错误 问题记录必须被更新以反映它是已知错误状态,并且把任何变通方法、 避免或最小化负面影响的动作行为也记录下来(如果需要添加到知识库中)。 6. 提出变更请求提出变更请求 对问题的解决方案进行评估,通过提出变更请求(RFC)以对该方案 进行测试和实施。如果 RFC 没有被批准,问题记录保持为已知错误,它们可以被事 件支持人员在事件再次发生时参考借鉴。 7. 关闭关闭 一旦找出问题根本原因,并实施了解决方案,确认已解决了问题,问题记录可 以关闭。 8.8. 事后回顾事后回顾 问题必须进行回顾以找出改进机会或总结预防性措施。包括改进事件监测、 找出技能差距和文档资料改进等。 2.2.7 流程衡量标准流程衡量标准 问题管理流程的主要衡量指标如下: 每一阶段内的已知错误数量 在每一阶段内未结的问题记录 每一阶段内未了结的由问题引发的RFC数量 在IT环境中存在的临时性变通办法数量 统计报表 业务支撑网网管系统规范-服务管理流程分册 27 问题的数量,可按问题分类、问题性质、优先级、影响度等分别按月、周、日汇总统计 该时间段内创建的问题记录数量 优先级影响程度 紧急高中低高中低无 网络设备 服务器 存储系统 优先级影响程度 紧急高中低高中低无 升级事件 系统构架问题 主动防范性 处于各状态的问题数量,可按问题分类、问题性质、问题状态分类实时汇总 已登记处理中拒绝已知错 误 已有解 决方案 RFC结束回顾 网络设备 服务器 存储系统 已登记处理中拒绝已知错 误 已有解 决方案 RFC结束回顾 升级事件 系统构架问题 主动防范性 问题关闭的数量,可按问题分类、问题事件、问题结束代码等分别按月、周、日 业务支撑网网管系统规范-服务管理流程分册 28 汇总统计该时间段内创建的问题记录的关闭数量 根本解决变通方法没有解决消失 网络设备 服务器 存储系统 根本解决变通方法没有解决消失 升级事件 系统构架 问题 主动防范 性 2.2.8 流程图举例流程图举例 如下是问题管理的逻辑示意图举例: 业务支撑网网管系统规范-服务管理流程分册 29 问问题题管管理理逻逻辑辑流流程程 事件管理 人员 变更管理 人员 省公司管 理层 问题经理 问题分析专 家 集团公司 300.1 分析 事件 300.7 推荐解 决方案/ 变通方 法 300.9 提交变更 请求/监视 变更实施 300.6 分析 根本 原因 在必要时 升级到管 理层 接受吗?YN 需要变 更吗? N Y 300.2 创建 问题 记录 300.3 问题 优先 级和 分类 300.4 分派 给工 作组/ 监视 300.5 拒绝 问题 300.10 关闭问 题 记录 300.11 回顾 300.8 安排 实施 解决 方案 上报集团 公司 Y 评估/实 施变更 优先级最高 吗? N 事件记录 升级到管 理层 关于该逻辑流程的简单描述如下: 序号序号步骤名 称 责任责任 人人 输入输入说明说明输出输出 300.1 分析事 件 问题 经理 事件记 录 定期分析回顾事件,主动发现潜在问题。分析事件 的频度和严重度,和其他的相关因素进行关联,如 CI 位置、宕机时间、特定用户、硬件平台、软件版 本和一天中发生的时间等。 具体的做法可以是一周开一次由主要事件支持人员 参加的例会,讨论上周发生的 IT 事件。 分析结 果 300.2 创建问问题分析结把找出的问题记录到系统中去,并进行详细说明问题记 业务支撑网网管系统规范-服务管理流程分册 30 题记录经理果录 300.3 问题优 先级及 分类 问题 经理 问题记 录 根据问题的实际情况,给其分派一个优先级代码和 影响度代码(必要时进行升级,如优先级最高时), 并根据拟定的分类原则给问题赋予适当的类别代码 并根据问题具体情况设定一个解决时限。 已分类 问题 优先级 最高吗? 问题 经理 已分类 问题 如果问题优先级为最高,由问题经理立即把该问题 上报到集团公司,并把该问题升级到管理层 N/A 300.4 分派给 工作组/ 监视 问题 经理 问题记 录 初步判断问题的可能原因,把问题分派给相应工作 组或个人,并监视问题的解决过程,如有必要(如超 过解决时限)启动升级流程 已分派 问题 在必要 时升级 问题 经理 N/A问题经理在监视问题解决的过程中,根据具体情况 可把该问题升级到管理层,如问题超出解决时限时 N/A 判断是 否接受? 问题 分析 专家 N/A问题分析专家对问题进行初步分析,以决定接受与 否。如拒绝转向 300。6 继续,如接受转向 300。7 继续。 N/A 300.5 拒绝问 题 问题 分析 专家 已分派 问题 问题分析专家根据判断发现问题应该由其他组分析 解决,就把问题发回问题经理,注明拒绝理由并推 荐组名。转向 300。4 继续。 已拒绝 问题 300.6 分析根 本原因 问题 分析 专家 已接受 问题 如果问题确应由本人或本小组解决,接受分派的问 题,然后调查诊断问题,如有必要成立问题分析小 组,举行问题根本原因分析研讨会议并确定问题的 潜在原因。必要时更新问题状态。 问题根 本原因 300.7 推荐解 决方案/ 变通方 法 问题 分析 专家 问题记 录、 问题根 本原因 找出问题的根本原因后,根据实际情况制定变通方 法或根本性解决方案,并确保这些方法或方案将降 低或消除事件的发生率或影响度,更新问题记录。 问题解 决方案 问题变 通方法 300.8 安排实 施解决 方案 问题 经理 问题解 决方案 问题变 通方法 根据问题专家提供的解决方案或变通方法, 计划并 实施解决方案以解决问题 解决方 案实施 计划 判断是 否需要 问题 经理 N/A判断实施上述解决方案是否需要进行变更,如不需 要变更转向 300。10 继续,如需要变更转向 300。9 N/A 业务支撑网网管系统规范-服务管理流程分册 31 变更?以提出变更请求。 300.9 提交变 更请求 问题 经理 解决方 案实施 计划 根据问题分析专家制定的解决方案或变通办法,提 出变更请求,填写变更请求单,递交到变更管理流 程,并监视变更的实施过程,和变更管理保持沟通。 变更请 求 RFC 300.10 关闭问 题记录 问题 经理 已解决 的问题 变更结束后,确认问题已经解决,选择相应的结束 代码,更新问题状态,关闭问题记录。 已关闭 的问题 300.11 回顾问题 经理 已关闭 的问题 对所有已关闭问题都进行回顾,找出可能改进的机 会,包括问题的解决方案和管理流程方面,如改进 升级规则、改进事件监测、找出技能差距和文档资 料改进等;回顾之后更新问题状态。 已回顾 的问题 2.2.9 问题信息项问题信息项 本规范规定问题管理流程必须包含如下问题信息项: 信息项信息项说明说明 问题流水号系统自动生成的工单号码 生成时间生成问题记录的时间 地点问题发生的地点 问题性质指问题的来源 问题优先级问题优先级决定找到解决方案的紧急程度 影响程度问题对 IT 环境的影响程度 问题分类从问题从属的系统或技术架构的类型来进行分类,如数据库,服务器 等。 问题标题问题的标题 问题描述对于整个问题内容的详细描述 问题状态在问题整个生命周期中的不同状态 问题日志反映问题处理过程中的问题处理信息,包括人员,时间等信息 解决时间问题得到解决的时间 解决方案描述问题解决方案的描述 问题结束代码根据问题结束的不同方式赋予不同的结束代码 业务支撑网网管系统规范-服务管理流程分册 32 2.3 变更管理变更管理 2.3.1 描述描述 变更管理通过一个单一的职能流程来控制和管理整个 IT 运行环境中的一切变更, 并和配置管理建立接口。变更管理应该由管理工具来支持,管理的范围可包括软件,硬 件,网络设备和文档等的变更。 变更请求通常由于问题的解决方案中需要对生产环境进行某些改变而产生。 需成立一个变更顾问委员会(Change Advisory Board,以下简称 CAB)来帮助和支 持变更经理,根据变更内容来决定 CAB 的成员,可以包括客户代表、运维支持人员、 应用开发和供应商等跟变更有关的人员。 CAB 通过开会讨论等手段来评估变更请求(RFC)的: 潜在风险和影响 实施变更需要的资源 是否批准变更 如果批准,什么时间实施 CAB 也负责变更实施后的回顾以考察: 变更是否成功?是否产生其他副作用? 实际所用的资源和预期的是否一致? 批准后,变更将进入计划,测试/构建和实施阶段。计划/构建阶段也包括开发一 个回退计划(Fallback Plan),用以在实施阶段出现问题或紧急状况时需要把变更回退回去。 变更管理流程也负责紧急变更,在此种情况下,变更的评估、计划、测试和实施阶段都 将快速进行。 业务支撑网网管系统规范-服务管理流程分册 33 2.3.2 目的目的 变更管理流程将通过标准统一的方法和步骤来管理和控制所有对 IT 生产环境有 影响的变更。主要的目的包括: IT 部门可以管理和引导用户变更需求 通过对所有变更的正确评估,可以维护 IT 生产环境的完整性 变更和变更实施得到正确记录,并提供审核统计 减少或消除由于变更实施准备不当等原因出现的对 IT 环境的破坏作用 提高资源使用率 2.3.3 范围范围 变更管理流程涵盖生产环境的所有变更。一般不包括: 尚处于开发和测试阶段的系统和应用的变更 不需要 IT 部门介入的、由用户控制的行为动作 2.3.4 相关定义相关定义 优先级优先级 优先级用来说明变更需要得到实施的紧急程度: 风险等级风险等级 除了常规变更,还需通过下表所列的衡量因素来评估实施变更可能带来的风险。 序号序号优先级优先级说明说明 1紧急 要求变更在提出申请后二天内完成 2正常除了常规和紧急之外的变更 3常规预先定义的日常类变更 业务支撑网网管系统规范-服务管理流程分册 34 衡量因素衡量因素条件条件得分得分 影响一个以上关键地区或半数 以上地区 1 影响一个以上地区但未达到半 数,并没有关键地区受影响 2 影响一个地区的全部用户3 地市/区域 IT 用户数量(受到 实施或取消的影响) 影响一个地区的部分用户4 3 个或更多支持小组1 2 个支持小组2 超过 1 人,相同的支持小组3 准备/实施必需的资源 1 人4 无法测试,变更失败可能性很 高 1 能实现部分测试,变更失败可 能性较高 2 有成熟的变更方案,变更失败 可能低 3 变更成功的可能性 无需测试,变更失败可能性没 有 4 6 天或更长1 2-6 天2 1-2 天3 变更规划时间 小于 1 天4 超过 2 小时或在线/服务断供期1 1-2 小时2 不到 1 小时3 变更实施时间 不到 30 分钟4 回退时间超过 2 小时1 回退难度中等以上(1-2 小时)2 回退难度适中(1 小时或更短)3 回退时间 易于回退(30 分钟或更短)4 注:紧急变更的实际规划时间很短,但评估时应按照该变更正常处理情况下所需的 规划时间来评估。 根据上表,对每个变更进行评估,最终得分为各分项得分的总和,再根据总分确定 对应的风险等级和实施完成后的观察期: 总得分总得分风险等级风险等级实施完后的观察周期实施完后的观察周期 业务支撑网网管系统规范-服务管理流程分册 35 6 9重大6-7 天 10 13较大4-5 天 14 17中等2-3 天 18 +较小小于等于 1 天 以上风险等级由变更主管进行初步评定,再由 CAB 进行最终确定。 状态状态 变更请求从提出、实施到结束的整个生命周期中的不同状态: 结束代码结束代码 根据结束变更的不同方式赋予不同代码: 序号序号代码代码说明说明 1完全成功完全达到变更目的 2部分成功部分达到变更目的 3取消变更实施过程中被取消 4拒绝变更请求被 CAB 拒绝 类别(类别(Category) 根据中国移动目前的变更种类,变更的分类层次设计不超过三层。第一级分类,称 之为”类别”,第二级分类,称之为”子类”,第三级分类,称之为”条目”。本规 范给出第一级、第二级分类,各省市根据自己的情况决定是否要定义到第三层。 下表为变更分类表举例: 类别类别子类子类条目条目 基础架构网络通讯系统 序号序号状态状态说明说明 1已登记变更请求已登入系统 2已评估变更请求已得到 CAB 评估 3已授权变更请求已得到 CAB 授权 4 已计划变更实施计划已由变更经理收集并确定 可执行 5进行中变更实施过程中 6已结束变更已结束 7观察中变更实施结束后处于观察状态 7已回顾变更已得到回顾 8关闭变更请求已关闭 业务支撑网网管系统规范-服务管理流程分册 36 服务器 存储系统 操作系统 数据库 中间件 双机热备软件 系统软件 系统监控软件 采集 业务 计费 业务支撑网网管系统规范-服务管理流程分册 37 结算 客服 业务管理 账务管理 账务处理 一级 BOSS 拨测 其他 空调 UPS 机柜 照明 温湿度传感器 配套设施 外设 业务支撑网网管系统规范-服务管理流程分册 38 其他 2.3.5 职责职责/角色角色 变更管理流程主要分为如下几个职责角色,分别简述如下: 变更请求者 发现或获取变更需求 确定并分析变更需求和内容 填写变更请求单并提交给相关相应变更主管 变更经理 整体上对流程负责,确保流程的有效执行 确保
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年律师职业资格考试题及答案
- 2025年企业财务分析师资格考试试题及答案
- 2025年初中数学综合复习考试试题及答案
- 2025年创新创业能力测试试卷及答案
- 2025年甘肃省武威市古浪县泗水镇招聘大学生村文书笔试参考题库附答案详解
- 2025年甘肃省民航机场集团校园招聘45人笔试模拟试题参考答案详解
- 物资出入大门管理制度
- 物资采购人员管理制度
- 特困供养经费管理制度
- 特殊时期教育管理制度
- 室上性心动过速护理
- 临床试验受试者补偿标准
- 2024年高级经济师-金融专业实务考试历年真题摘选附带答案版
- 一年级小学生竞选三好学生演讲稿
- JTS311-2011 港口水工建筑物修补加固技术规范
- 2024年3月2日湖北遴选笔试真题及解析(地市级卷)
- 中英文对照报价单模板
- 小区物业工程部修理工作标准及细节要求
- 加强高风险作业的安全管理
- 2024届贵州省黔东南州物理高一下期末统考模拟试题含解析
- 《指数函数与对数函数》单元课时教学设计
评论
0/150
提交评论