中国电信无线网络应急指导手册_第1页
中国电信无线网络应急指导手册_第2页
中国电信无线网络应急指导手册_第3页
中国电信无线网络应急指导手册_第4页
中国电信无线网络应急指导手册_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国电信无线网络应急指导手册 中国电信股份有限公司网络运营部 二零一二年十一月 1 概述 应急处理是一种突发性情况下实施的维护工作,是在网络或设备发生紧急 事故、严重影响用户使用时为迅速恢复业务、排除故障而进行的一系列故障处 理措施。本手册为应急处理框架,以设备故障、应急容灾、信令拥塞三类场景 为例,提出三类事件发生时的处理原则,为各省编制本省应急预案提供参考。 各省在制定省应急预案时应充分考虑本省实际情况,在本指导手册中三类场景 基础上进行适度扩展,以应对可能发生的突发性网络问题。 本文同时提供华为、中兴、阿朗设备厂家的设备紧急故障处理指导手册及 部分省份应急预案作为参考。 2 无线网络紧急故障定义 紧急故障是指发生突然、影响面广、涉及范围大,严重影响用户使用感知 并可对网络的安全运行与服务质量造成严重后果的设备或网络事故。 根据紧急故障影响范围,无线网络紧急故障(简称“紧急故障”)可分为3 个级别: 故障级别 故障定义 A+级 (1)移动无线网络设备故障导致通信阻断超过 5 万户*小时;(2)BSC/RNC 宕机(或全阻); A 级 (1)30 个及以上基站退服(同一故障源); (2)20 个及以上基站退服,持续 60 分钟及以上(同一故障源); (3)无线网络网管系统瘫痪 B 级 (1)移动无线网络设备故障导致通信阻断超过 3 万户*小时; (2)10 个及以上基站退服 (同一故障源); (3)10 个及以上基站退服,持续 60 分钟及以上(同一故障源) (4)无线网络网管系统运行异常(指系统性能下降,严重影响 网络监控和数据配置等)。 3 应急处理预案要求 各省应针对不同的场景分别制定相应的无线网络应急处理预案(简称“应 急预案”),以指导紧急故障发生时的应急处理工作。 紧急故障处理时应遵循应急处理预案的各项要求。 应急预案包括应急处理组织结构、应急处理上报流程、应急处理方法等。 4 应急处理组织及流程 应急通信处理工作坚持统一指挥、分级负责、严密组织、密切协同、快速 反应、保障有力的原则。 4.1.1 应急处理小组组织架构 根据紧急故障影响范围、发生原因、处理流程、分公司组织结构等,应急 处理小组可包括责任单位、协作单位、支撑单位、设备厂家成员等多方,其中 责任单位为无线维护相关部门,协作单位为核心网(含电路域和/或分组域)、 业务平台、传输、动力等相关维护专业以及客服、网监等相关部门。应急处理 小组中各单位、部门应职责明确,参与应急处理小组的单位及部门均应指定负 责人和接口人,以确保应急处理过程中各环节工作的落实。 4.1.2 紧急故障上报要求 故障发生时,应根据故障影响程度范围将故障上报至相关单位和部门的负 责人,上报的方式包括短信、邮件、电话等,上报的内容包括故障发生点、故 障发生时间、故障影响范围、预计修复时间等内容。上报要求如下: 达到 B 级故障时,故障发现部门或人员以电话方式通知故障处理值班人员 及其维护主管。并通过短信方式通知应急处理小组各成员。 达到 A 级故障时,故障发现部门或人员以电话方式通知故障处理值班人员 及其维护主管,由维护主管通过电话方式通知客服部门,并协助客服部门 进行客户投诉拦截及安抚工作。 达到 A+级故障时,除以上上报要求外,还应在故障发生时,立即上报集团 网运部,并在故障处理过程中及时汇报处理进展情况,故障处理完成一周 内向集团网运部提交故障处理报告。 4.1.3 应急处理流程 流程中各环节的职责部门由各省根据实际组织架构确定,以下流程供参考。 中 国 电 信 无 线 网 络 应 急 恢 复 处 理 流 程 1 、 目 的 明 确 中 国 电 信 无 线 网 络 紧 急 重 大 故 障 的 应 急 恢 复 处 理 流 程 , 界 定 部 门 职 责 , 规 范 处 理 , 缩 小 影 响 范 围 及 时 长 , 提 高 处 理 效 率 。 2 、 适 用 范 围 中 国 电 信 各 级 分 公 司 无 线 网 络 紧 急 重 大 故 障 的 应 急 恢 复 处 理 。 3 、 流 程 / 流 程 说 明 开始 紧急 、 重大故障 ? 结束 备件 、 应急通信车 ? 故障 预处理 应急处理结果归档 、 上报 N O C 发现或者受理 紧急重大故障 1 0 0 0 0 号 受 理 客 户 申 告 网络指标严重恶化网管告警 否 派单到无线网络运 营中心 成立多方应急处理小组 无线中心收单 故障修复 ? 需要技术支撑 ? 相关部门 、 相关厂家 技术支撑 是 一般故障处理 重大 、 紧急事件 应急处理 相关备件 、 应急通信车入库 故障上报 测试评估 、 指标监控 评估是否通过 ? 否 应急任务完成 ? 是 资源需求 ? 是 否 否 是 是 是 否 结束 按要求上报 5 应急处理方法 以下以设备故障,应急容灾,信令拥塞三个场景为例,介绍应急处理的过 程和方法。 场景一、设备故障,是指无线网络设备的单板、背板机框等故障,以及附 属设备动力、传输、电源等原因引起设备无法正常运行的故障。 场景二、应急容灾,主要针对自然灾害(冰灾,台风,火灾,地震,洪灾) 、战争、突发事件等应急情况下造成的主设备故障且短期内无法恢复时的应急 处理。 场景三、信令拥塞,是指由于突发的不可预知的事件引发的信令冲击,引 起的全局或者局部的话务、信令拥塞,设备部分资源如信令处理板件、背板带 宽资源、声码器资源无法正常运行,主要体现为相关处理板件占用率过 高、业务接通率下降、用户感知明显变差、甚至可能引发大面积网络瘫痪的情 况。 应急处理包括日常准备、应急处理、处理评估三部分内容。 日常准备包括备品备件、应急工具、应急资料、应急设备数据等的准备。 应急处理包括针对不同场景启动相应预案的条件、实施方法步骤。 处理评估包括故障原因的分析、故障影响范围、影响程度、故障恢复情况 的评估等。 5.1 应急日常准备 日常准备工作的好坏是应急处理成功的关键,日常工作中,应注意以下工 作内容: 做好应急预案中所涉及资源的配备,应急资料及时更新 每年应不定期进行应急处理演练,以确保应急处理流程畅通,应急维护人 员操作熟练。 根据不同场景预案,日常准备的应急资源、资料也不同,本文列举上述三 个场景中重要的应急资源及资料的准备。 5.1.1 设备故障应急处理日常准备 5.1.1.1 备品备件 备品备件用于运营设备发生故障时故障部件的更换,包括主设备单板板件、 机框等备件,主设备硬件板件应注明型号、版本情况、数量、存放地点等信息。 备品备件应定期进行测试,确保备件的完好。 5.1.1.2 维护检查工具 维护检查工具是故障设备检修中需要使用的工具,分为通用工具和厂家专 用工具,通用工具主要有扳手、十字起、梅花起等,厂家专用工具指厂家设备 维护专有的硬、软件工具。 5.1.2 应急容灾处理日常准备 应急容灾应提前做好容灾组网规划,包括VIP站点信息、应急专用传输通道 的规划以及应急容灾方案实施时需要启用的数据配置脚本的预制作等。 5.1.2.1容灾组网规划 容灾组网是指主设备(主要指BSC/PCF/AN等)发生重大的、短期内不可恢 复故障时,紧急将主设备管理下的VIP站点割接到其它主设备时的组网情况。容 灾组网规划时应以当前地市无线网络组网结构为基础,建立容灾主设备的组网 备份关系。 容灾组网要求如下: 优先考虑异地异机房异楼层的设备灾备。 根据每个主设备下 VIP 站点数量、容灾资源(如板卡、传输)冗余情况建 立灾备关系。 5.1.2.2 VIP 站点信息 VIP站点是应急处理时优先保障的站点。日常工作中应建立VIP站点信息库, 信息库包括本省地市所有主设备所包含VIP站点数、覆盖区域、等级批次等信息。 VIP站点覆盖范围应达到原覆盖区域的80%左右,VIP站点占原总基站数的15%以 上 VIP站点的等级规划原则: 一级,党政军所在区域的覆盖站点 二级,广覆盖站点 三级,高话务站点 四级,传输节点站点 5.1.2.3应急专用通道 应急专用通道是原主设备发生重大灾害后,VIP基站割接到灾备主设备时在 灾备主设备上需要启用的应急通道,包括传输通道及相关板件。 在应急事件发生时,为了使应急恢复尽可能的快速、涉及操作部门人员最 少、涉及数据量最小,日常应在灾备主设备上预留机框、板卡、传输等相关冗 余资源,该部分资源日常不承载业务,只应用于应急事件发生后承载VIP站点业 务。 在条件允许情况下,建议应急专用通道配备如下: 灾备主设备业务框每框配备 1 对固定槽位及相应板件作为应急专用 为每个一至三级 VIP 基站配置应至少保证 2 个 2M 的传输资源,四级站 点可视传输情况配置 1 个 2M 资源。 5.1.2.4 应急数据 应急数据是指在应急方案实施中需要启用的数据配置、参数等,本文所涉 及场景的应急数据包括传输端口数据、VIP站点的CI数据,邻区数据,计费数据 等。为减少应急方案实施时参与人员、参与部门的沟通协调时间以及处理时间, 相关数据尽可能提前规划,动态更新,并在日常业务中不被占用。 应急数据配置要求如下: 1. 传输端口数据提前规划并预留。 2. 提前规划应急专有的 CI 段,提交至核心网侧提前做好相关数据。 3. 确定 VIP 基站站点后,做好邻区数据,方案实施后,要及时进行路测优 化邻区数据。 4. 按照VIP站点规划,应考虑分时分区计费用户的计费优惠,核心侧做好 相关计费数据脚本。 5.1.3 信令拥塞处理日常准备 主设备发生信令拥塞时,要最快最有效减少主设备的业务冲击。减轻业务 冲击可以在业务平台、核心网(包括电路域和分组域)、无线侧入手,可视引 起信令拥塞的具体原因确定有效的方法。无线侧最直接有效的手段是对选定的 基站进行关闭,减少接入业务量,以缓解主设备的信令拥塞状况。 关闭基站操作对用户的影响较大,因此应优先考虑关闭BSC/PCF/AN边界区 域基站,边界区域基站关闭后仍不能有效降低话务时,再逐批关闭高话务站点。 日常工作中应及时维护边界区域站点信息以及高话务站点信息,高话务站 点按照TOP列表进行排序并定期更新。 5.1.3.1 BSC/PCF/AN 边界区域基站信息 根据BSC区域地理位置选择BSC/PCF/AN边界区域站点,该部分站点覆盖区域 应能被相邻BSC站点覆盖,在边界区域基站关闭后,相邻BSC/PCF/AN站点能够有 效吸收话务。 5.1.3.2 TOP 站点 针对每个BSC/PCF/AN,应根据近三个月话务情况确定筛选出TOP站点,并制 作关闭基站的批处理脚本。当信令拥塞事件发生时,视信令拥塞紧急程度情况 确定采用提前制作的脚本还是另选择当前时间TOP10站点。 当信令处理单元均值处于80%以下、持续时间在10分钟以内,可以重选确定 当前TOP10站点 当信令处理单元均值达到80%、且持续时间超过10分钟,则启用提前准备的 高话务TOP10站点。 5.2 应急故障处理 应急处理过程中,应严格按照“先抢通、后分析、三不离(故障未处理完 成不离开现场;故障处理完成后,没有验证完全修复不离开现场;故障未查清 原因不离开现场。)”的原则进行故障处理。 对于重大灾害、网络或设备等原因造成的通信阻断,处理过程中应注意优 先保障重点基站和/或重要区域,遵循先语音后数据、先2G业务后3G业务、先信 令后话务的处理原则。 对于信令拥塞类紧急故障或者事件,应在保证设备安全稳定运行的前提下 尽可能保证业务的畅通性,在保证业务畅通的基础上提高业务质量。在处理时 应优先考虑“控”,即先将故障网元部分部分或全部关闭,再逐步逐批的有步 骤的放开话务,在业务疏通过程中实时进行业务测试,同时在业务完全恢复后 及时组织力量分析问题原因,提出改进方案,完善相关预案。 5.2.1 设备故障的应急处理 5.2.1.1 设备故障应急触发条件 主设备故障影响用户使用,或者大面积基站故障、达到B级及以上紧急故障, 应启动设备故障应急处理流程。 5.2.1.2 设备故障处理及保障原则 发生设备故障时可以按照设备厂家提供的技术手册进行修复,采用的方法 主要包括更换硬件、倒换主备用板、硬件复位重启、恢复备份数据等方法。 良好的日常维护管理是设备应急故障处理的基础,日常要注意以下几方面: 按要求配备备板备件,专人负责管理,保证故障发生时备件的快速到位 定期进行关键数据的备份工作,并做好备份数据的验证 割接、数据更改等网络调整工作后要及时更新备份数据 定期进行主备用倒换测试 重大活动、节假日等来临前,要进行设备重要板件的例测及倒换测试。 5.2.2 应急容灾处理原则 5.2.2.1 触发条件 由于自然灾害,设备自身故障等原因,造成主设备发生故障,或故障影响 达到A+级时、预计白天(712时)5小时以内或夜间(07时)8小时以内无法恢 复时,应启动应急容灾预案。 5.2.2.2 应急容灾处理原则 各省根据本省地市组网、设备机房位置、冗余资源等条件确定应急容灾预 案,应急容灾应考虑灾备方式、灾备业务、灾备区域、灾备数据、灾备测试优 化、灾后恢复等因素。 容灾组网 容灾组网要求异机房灾备,对于有2个以上BSC/PCF/AN且位于不同机房的本 地网,优先考虑本地异机房灾备;本地网所有BSC/PCF/AN在一个机房内或者只 有一个BSC/PCF/AN,应采取省内异地容灾组网。各省根据实际网络情况规划本 省的容灾组网。 容灾组网主要有以下二种方式: 1. 1+1 灾备方式 本地网的BSC/PCF/AN分布于不同位置的机房,且冗余资源可以满足为其他 BSC/PCF/AN一对一备份条件,则可采取1+1互备方式,组网示意图如下: 该种方式结构简单,便于维护管理,在网所有主设备都能有足够冗余资源 独立承载灾害主设备的所有VIP基站话务 2. 1+2 灾备方式 当某一个BSC/PCF/AN下VIP站点数量较多,单一备用BSC的应急通道等资源 不足时,可采用2个或多个BSC为灾害BSC/PCF/AN进行灾备,灾害BSC/PCF/AN下 VIP站点根据应急通道资源情况,分别割接到不同的备份BSC上,1+2灾备方式示 意图如下: 灾备业务的保障 优先保障语音业务,在资源足够的情况下,可保障数据、短信等业务。 5.2.3 信令拥塞处理 5.2.3.1 信令拥塞应急启动条件 单位板件的BHCA达到标称值(按照各厂家设备单板标称规格及评估算法, 具体参考中国电信集团无线网络设备BSC安全加固方案、信令处理板件CPU 占用率均值持续15分钟达到80%以上时,应启动信令拥塞应急预案。 5.2.3.2 信令拥塞故障处理原则 发生信令拥塞时应首先要保证设备的安全稳定运行,同时尽可能的保证业 务的畅通性,在业务畅通基础上再考虑业务质量。在执行时可采取以下办法: 进行业务流控限制,包括: 1. 修改寻呼策略,缩减寻呼范围,降低寻呼数量 2. 在短信中心限制群发短信,减少短信重发次数 根据设备信令处理板件的备件条件,紧急扩容无线信令处理部件,扩容操 作时应不中断现有业务。 采取以上措施仍无法降低设备负荷,可采取先关闭边界区域站点再关闭 TOP10 站点的方式逐步减少业务流量 当CPU占用率下降到60%以下时,尽快进行接通率等相关测试,同时密切关 注话务量情况及CPU占用率变化情况,逐步逐批的有步骤的放开话务,执行业务 疏通中 “控”过程的逆过程。 5.3 应急故障处理效果评估 在业务恢复后应进行应急处理效果评估,效果评

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论