2-2012分公司经理培训材料-重大故障(王国荣).pptx_第1页
2-2012分公司经理培训材料-重大故障(王国荣).pptx_第2页
2-2012分公司经理培训材料-重大故障(王国荣).pptx_第3页
2-2012分公司经理培训材料-重大故障(王国荣).pptx_第4页
2-2012分公司经理培训材料-重大故障(王国荣).pptx_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020年7月,2012年全省运行县公司建维部主任培训材料,重大故障管理,目录,集团重大故障最新要求,近期省内外重大故障,-2-,重大故障定义和上报流程,重大故障定义,TD网络 重大故障,重大故障,话音业务,数据业务,互联互通业务,无线网,数据网,承载网,传输网,网管网,核心网,电源空调,业务平台,NODEB,RNC,RNC,易发重大故障,集团管理流程,省内管理流程,重大故障上报流程,关键词:时效要求高、上报信息全、核算方法准、总结报告精,故障处理关键点完整跟踪闭环,针对故障完整闭环过程合理角色分工,提升信息沟通和故障处理效率,监控人员,重大故障发现 总体信息发布 省公司信息接口,协调资源、总

2、体指挥 对口外部发布接口 组织编写重大故障报告,维护设备故障抢修 专业线条上报协作 重大故障报告编写,维护人员,管理人员,故障处理关键点业务影响核算,通信全阻故障,影响通信能力,影响业务量,经济损失,影响用户数,非通信全阻故障,影响业务量,经济损失,是否达到重大业务故障,是否达到上报工信部标准,是否达到重大业务故障,目录,集团重大故障最新要求,近期省内外重大故障,-8-,重大故障定义和上报流程,重大故障管理思路变化,2012年集团将下发最新的重大故障评估办法,对故障反应出来的日常维护水平进行考核。,不仅只考核监测上报,对故障处理过程进行考核。,特点:,考核指标细化、量化。,重大故障发现,避免基

3、础工作落实不到位,导致故障发现不及时的情况,故障工单上报,达到重大故障标准后1小时内主动上报集团,不得瞒报,工单填写要求,按照规范具体要求填报,故障信息初步核实,对工单中错填和漏填项退回省端修改,对退回修改次数进行考核,新增,要求:应避免如下原因造成未及时发现重大故障的情况:维护人员擅自屏蔽告警、告警派单不及时、对告警派单未督办。,要求:重点考核时限,以及不得有意瞒报、误报故障信息。,要求:应准确填写故障标题、重大故障定义编号,如实填写故障时间等各项信息,准确描述故障现象和主要告警信息,并概要说明故障原因和业务影响情况。,要求:工单上报内容退回修改次数不得超过3次,直至工单上报内容准确无误,事

4、前:重大故障发现和上报流程规范,重大故障阶段上报,对影响较严重的故障,严格要求阶段上报。,重大故障阶段处理,避免因基础工作落实不到位,导致故障处理延误的情况。,重大故障消除上报,按照规范具体要求填报消障信息和业务核算表;对及时性、错填和漏填项进行考核。,新增,要求:对影响业务的严重故障必须阶段上报,应包含故障主题、故障原因、业务影响、当前处理措施或进展。,要求:应避免出现处理人员能力不足、处理步骤明显不合理等原因造成故障延误的情况,要求:应在故障消除后30分钟内在EOMS上报消障信息,应准确填写各项时间信息、故障原因、业务影响情况,事中:重大故障阶段处理、消障上报规范,新增,重大故障报告上报,

5、重大故障消障上报后48小时之内按规范中要求的格式通过EOMS上传。,重大故障报告审核,规范中对各字段填写要求进行严格定义,应准确无误填写。,重大故障原因考核,对重大故障最终确定的原因进行分析,考核人为误操作等不合理原因。,新增,要求:故障报告上传一定要及时,如遇EOMS网管问题应及时联系集团,要求:应按照模板中格式要求填写各项信息,不得出现漏填、错填现象,原因、过程等内容应填写详实。,要求:应透彻分析故障原因并准确上报。对人为重大故障严格考核。,事后:重大故障报告上报规范和原因项考核,新增,集团重大故障上报考核要求变化情况,2012年集团公司下发最新重大故障考核主要涉及到“重大故障误报”、“重

6、大故障发现及时性”等10个方面,主要变化有: 不仅考核监测上报,对故障处理过程进行考核。 要对核故障反应出来的日常维护水平进行考核。 新增了四项考核项目,分别为重大故障误报情况、网管告警有效性、重大故障阶段上报、故障原因评估。 考核指标更加细化、量化,其中重大故障工单准确度、故障报告质量的考核分值比例较大,为15分。,从今年上半的重大故障上报的情况看,在重大故障误报、工单上报准确性、阶段上报、故障报告等方面均有不同省公司存在问题,我省需重点关注上述环节。 集团公司对下列情况有明确的要求: 对重大故障瞒报、漏报情况实施一票否决制,每发现一例,当月重大故障上报考核为零分。 对重大故障发生后被评估为

7、人为操作、架构不合理等因素造成的,将予以扣分。 对重大故障的网管准确性提出了较高的要求,且考核分值为10分。,集团重大故障上报考核要求变化情况,目录,集团重大故障最新要求,近期省内外重大故障,-15-,重大故障定义和上报流程,2012年1-8月共发生全国共发生73起重大故障。主要集中因为自然灾害引起的重大故障,请及时关注天气,提前预防。,2010年共发生重大故障145起,比2009年111起增加30.63%。 2011年共发生重大故障106起,相比2010年减少26.90%,重大故障数大幅减少,且无上报工信部故障。,全国重大故障概述,全国重大故障原因分类,故障原因分类统计: 2011年按故障原

8、因分类:自然灾害40起,系统原因29起,外部人为/施工29起,环境7起,内部人为1起。 2012年前8个月按故障原因分类:自然灾害40起,系统原因17起,外部人为/施工9起,环境1起,传输1起,外部原因4起。,2011年和2012年前四月份,传输重大故障占比均超过50%。,故障原因分类统计: 2011年按按故障系统分类:传输54起,无线31起,交换10起,环境6起,数据3起,互联互通1起,网管故障1起 。 2012年前8个月按故障原因分类:传输17起,无线37起,交换8起,互联互通4起,IP承载网4起,数据2起 。,全国重大故障系统分类,全省达到重大故障标准原因分类,故障原因分类统计: 201

9、1年按故障原因分类:自然灾害0起,系统原因30起,外部人为/施工4起,环境0起,内部人为10起。 2012年前10个月按故障原因分类:光缆/尾纤4起,系统原因23起,外部人为/施工1起,原因不明1起。,2011年和2012年前10月份,无线故障占比均超过45%。,故障原因分类统计: 2011年按按故障系统分类:传输20起,无线20起,交换3起,动力1起。 2012年前10个月按故障原因分类:传输10起,无线16起,交换3起。,全省达到重大故障标准系统分类,在集团对重大故障管理日趋严格,网络维护难度日趋加大的背景下,应从三个方面避免重大故障发生,提升应对能力。,固本强基,应急处理,做好日常运行维

10、护,杜绝因基础工作不到位(如组网不合理)而导致的重大故障,从根本上避免重大故障发生。,应制定好应急处理预案,一旦发生重大故障,应秉承集团“先抢通业务”的思路,及时消除业务影响,尽快处理故障。,网调管控,加强施工和操作管理,严格执行相关规范,杜绝人为误操作或割接导致的重大故障。,省内关注重点,符合重大故障定义集中,1-10月全省共发生重大故障29起,达到上报标准2起。 其中BSC/RNC阻断故障16起,达到60分钟标准1起。 交换机宕机故障1起,任意移动TDM端局/关口局、MSC Server、MGW、HLR设备发生阻断。标准1起。,重大故障发生频繁,符合重大故障定义集中,符合重大故障定义集中,

11、1月14日凌晨,阜阳界首阿尔卡特BSC37补丁加载失败,导致该BSC下业务受阻。4:15开始进行倒回操作。5:35至9:12完成该BSC下19个基站的割接。8:12后更换MT120板卡并在BSC侧对SM_ADAPT(BSC到TC管理通道)重新激活后抢通1条信令链路,业务逐步恢复。9:12将剩余MT120全部更换后故障恢复。13:20将割接基站全部倒回,业务正常。故障原因不明,期间共产生用户投诉17件。,重大故障处理耗时过长,重大故障业务影响核算不熟悉,每月进行的重大故障演练上报单中,业务核算均存在明显错误,有的地市 公司上报单中无业务核算。,加强网络容灾保障,降低重大故障对业务的影响,加强省内

12、外的故障经验交流宣贯,尽量减少已知设备缺陷影响,加强重大故障应急预案日常演练,提升实战能力,理顺内部流程,协调资源做到重大故障的快速上报、快速抢修,重大故障 管理短板提升,全省目前存在问题,湖南长沙CSGS3退服重大故障分析,业务受影响情况核查: 退服设备1台:CSGS3,时间为9:01-10:04,逐步恢复时间10:04-10:27 受影响设备3台:MGW7/8/11,时间为9:01-9:20 上述设备下辖的18个BSC下的业务均受到影响,其中10个因为有MSC POOL组网,部分业务受到影响 受影响用户数5.2万 投诉486起(工单23张,相关咨询463起),MGW7,MGW8,MGW11

13、,CSGS3,CSGS2,CSGS1,有8个BSC没有进入POOL,业务完全阻断,有10个BSC进入了POOL,业务未完全阻断,但由于实际配置给CSGS1/2的A接口电路数远远低于配置给CGGS3的A接口电路数,因此其对业务的挽救作用非常有限,橙底网元受到影响,23,故障全程回放(1),24,故障全程回放(2),25,故障全程回放(3),26,故障暴露出来的主要问题,1、中兴设备设计不妥是引起电源故障,并导致故障处理时长较大的根本原因 2、长沙公司一线维护人员责任心不强,擅自屏蔽告警,严重影响了故障的发现 3、省监控对告警监控和督办的不到位,派单规则配置错误,延误了故障的发现和处理 4、省公司

14、缺乏针对动环故障的跨专业联动机制,加上交换专业维护人员响应速度和处理效率不高,导致故障历时较长,影响业务时间较长,27,淮南光缆中断故障,业务受影响情况: 5月1日12:54淮南因多条光缆中断,累计导致29个2G基站、33个TD基站退服,累计退服时长约8小时21分钟。 18:22至铁通业务全阻累计时长43分钟。5月3日15:50受损光缆全部修复。 故障期间引发WLAN投诉2件,网络覆盖5件,个人宽带业务102件 。,28,光缆阻断拓扑图:,故障全程回放(1),29,故障全程回放(2),30,故障全程回放(2),31,故障暴露出来的主要问题,1、安全意识淡薄:五一期间未严格落实通信保障要求,对存

15、在重大安全隐患的故障未引起足够重视; 2、基础维护管理较差:前期施工质量差,基础维护资料缺失,代维管理不力,基础维护管理规定落实不到位; 3、应急抢修能力不足:现场组织管理混乱,维护人员技能有待提高。 4、应急响应不足:淮南分公司领导重视程度不够。障碍发生后,值班领导吴滨和运行维护部主任周争流均未及时到达现场进行指挥。 5、规章制度落实不到位:人井内的光缆标识牌未按要求悬挂;未按照“先抢通,后修复”的原则处理障碍,障碍发生后,未及时布放应急光缆,抢通业务;在未验收的在建工程光缆上承载业务,未及时移交相关资料,32,给我们的启示,33,Click to add Title,1,树立高度责任心,增强网络安全意识,网络安全无小事,作为网络维护人员一定要具有高度责任心。无论是正常工作还是加班作业,必须时时警醒自己,认真细致的去完成每一个操作。否则的话一个很小的故障都有可能酿成重大事故。,1,Click to add Title,1,不断提升突发故障处理能力,2,Click to add Title,1,严格落实规章制度,许

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论